JHU新冠疫情仪表盘。官网截图
不久前,美国约翰·霍普金斯大学(JHU)通告称,该校于2020年1月开发的用于跟踪新冠疫情的仪表盘将于3月10日终止运作。
得知此消息,亲手创建该仪表盘的董恩盛在朋友圈中写道:“感谢大家的关注与支持!愿全球疫情早日完全结束!”
深黑底色点缀着或大或小的红圈,左右两侧是各国确诊病例、死亡和接种疫苗的数目,绿色、红色或白色曲线十分醒目,3年来,这个仪表盘让全球实时看到详尽、可视化的疫情地图数据。2260亿次点击、超过36亿次浏览,半年前的数据足以说明其影响力。
凭借此项工作,董恩盛的导师、 JHU土木和系统工程系教授Lauren Gardner入选了《时代》杂志2020年全球最具影响力百人榜,还获得有“诺奖风向标”之称的2022年拉斯克奖。而这背后,离不开两位中国博士生董恩盛和杜鸿儒的极大付出。
董恩盛和杜鸿儒。 JHU官网图
据统计,与仪表盘相关的、以第一作者署名的文章,董恩盛有4篇、杜鸿儒有1篇。其中一篇由他们与导师3人共同署名,2020年2月发表于《柳叶刀-传染病》,引用次数超过9500次。
这篇正是介绍新冠疫情数据仪表盘创建的文章。而它只是一篇读者来信,且仅有一页多一点。更神奇的是,该文章仅用“72个小时写稿,32个小时过审”。如果这是一篇研究论文,那这个引用次数的价值会更大。
按照谷歌学术的统计,董恩盛、杜鸿儒二人的引用次数已经超过1万。
这一切,却是历史的偶然。
“一不小心做成了一件大事”
“一不小心做成了一件大事。”2020年上半年,美国达特茅斯学院地理系教授施迅在与董恩盛的一次对话中,给出了这句由衷的评价。
时钟拨回到2020年1月21日上午,董恩盛和导师Gardner如约来到图书馆喝咖啡交流课题。
彼时30岁的董恩盛作为一年级博士生,进入JHU仅10个月;而35岁的Gardner也是刚刚从澳大利亚新南威尔士大学悉尼分校跳槽过来,董恩盛、杜鸿儒是她仅有的两位博士生。
董恩盛是Gardner在JHU的“开山大弟子”。早在2019年五六月份时,他就与Gardner针对美国麻疹暴发风险做了一份可视化地图,并得到《纽约时报》等美国主流媒体的关注。
董恩盛本科毕业于西南大学地理系,其间交换到台湾中央大学地球科学系,于2012年赴美,在爱达荷大学拿到地理与统计双硕士。在爱达荷大学就读期间,他曾在地理信息系统公司Esri实习过,仪表盘技术就是在那里接触到的。后来在选择博士生导师时,董恩盛看中了Gardner从事传染病数字建模的学术背景,这跟他地理信息系统、计算机和统计学的技术背景非常匹配,将有助于他未来从事建模研究。
这次跟导师见面谈新学期计划,董恩盛是有所准备的。彼时新冠疫情主要在中国、泰国、韩国和日本出现了少量病例,美国则刚刚确诊了第一例。出于对中国疫情的关注和担忧,也为了早点准备自己的博士课题,他已经把疫情数据收集好,做了一个小样。没想到,当Gardner买了杯咖啡端过来时,她告诉董恩盛:“要不咱们做一个仪表盘疫情地图吧。”
一拍即合!影响人类应对新冠疫情的重要一环就此开启。
Gardner后来坦陈,这个决定只是一时冲动。他们最初的想法是通过数据收集,把一种传染病从发生到消灭的全过程记录下来。
当天晚上,董恩盛熬夜奋战八九个小时构建了一个仪表盘。最初,这个流程并不复杂:收集、翻译并整合全球来自各式各样渠道的数据,原始数据公布在Google Sheet上(后改为GitHub),之后使用地理信息技术和Esri的平台对疫情数据进行空间可视化渲染。
杜鸿儒于2020年2月1日加入进来,负责数据的自动抓取、更新,并编写了自动更新的代码。当时25岁的杜鸿儒本科毕业于天津大学化工学院,在美国威斯康星大学麦迪逊分校获得工业工程及运筹学专业硕士学位,他擅长数学模型和优化。
两人就此开始了联手奋战。随着数据陡增,之后人手再度增加,有四五个人一起写代码,等自动地图上线已是一周后凌晨三四点。
他们得到了来自本校学生、图书馆、JHU应用物理实验室,以及Esri公司的帮助。很快团队扩大到了近40人。到当年4月,该仪表盘的日均点击量超过10亿次,最高达到了46亿次。
在回顾这段经历的时候,Gardner说了一句,“不要等待许可,坐下来并采取行动”。
作为旁观者的施迅,对他们这段颇具传奇性的开端很是感慨:要有这种开创性的勇气,不要觉得自己只是一名学生做不成大事,而是应该大胆去想、大胆去做,跟导师、同事请教,获得支持,“在很多情况下,你会得到可能比你预想的多的支持”。
日常工作场景,左三为Lauren Gardner,左二为董恩盛,右二为杜鸿儒。JHU官网图
流量取胜
纷至沓来的关注和荣誉远远超出了他们的预期。
董恩盛在朋友圈中记录了一些激动时刻。
2020年:1月29日,他做的图被BBC引用;2月29日,他们创建的仪表盘成为美国副总统、意大利总理决策的重要参考;3月12日,2013年诺贝尔化学奖得主、斯坦福大学结构生物学系教授Michael Levitt来信对其工作点名鼓励;3月20日,JHU校长看望疫情数据团队;4月7日,《科学》杂志点名报道;5月被《华尔街日报》采访;6月,同一天有两篇系列文章被《柳叶刀》接收。
2021年:5月,仪表盘数据成为美国疾控中心的指定来源;7月,德国时任总理默克尔来到JHU接受荣誉博士学位时,赞扬了新冠疫情地图的工作。
2022年:3月,《自然》杂志以新闻特写报道了包括他们团队在内的新冠疫情数据工作;7月,《自然》杂志再次报道了各个疫情地图团队的技术特色。
他们的工作早已出圈。据说从制药公司测试疫苗到好莱坞的电影拍摄,都会参考他们的仪表盘安排工作,以至于JHU被人们叫成了“map school”(地图大学)。
他们虽以流量取胜,但并非只靠流量。
当时,开展新冠疫情数据收集并可视化的机构还有很多家,包括美国疾控中心、世界卫生组织、《纽约时报》等。而JHU的疫情仪表盘之所以拔得头筹,有众多因素:由于数据收集和可视化做得专业且最早,因此获得了先发优势;其数据抓取和更新及时、准确,一些国家和地区用户会主动联系他们更新数据;JHU医学与公共卫生专业盛名的加持。
除了天时、地利、人和的种种因素外,在董恩盛眼里,对祖国疫情的关注和担忧才是这个项目的第一推动力。
新的游戏规则制定者
让世界上每一个人都能实时追踪疫情,是他们最大、最重要的创新。
拉斯克奖给出的获奖理由是,他们为实时传播权威公共卫生数据设定了新标准。换言之,他们制定了新的游戏规则。
并不是所有疫情地图制作者都始终秉持数据的公开、透明及非商业化。董恩盛还对施迅“抱怨”过,《纽约时报》用了JHU那么多无偿的数据,当他找《纽约时报》要数据时却遭到拒绝。到了2020年3月,《纽约时报》才开始公布全部数据。
公开、透明及非商业化,也是Gardner最为看重的。她在拉斯克奖的获奖感言中谈到,这项工作更重要的意义是实现了数据民主化和科学传播,这有助于公众的知情决策,并促进以证据为基础的公共卫生政策的制定。
换个角度看,当JHU的仪表盘成为流量霸主的时候,它自然就成为了标准。法国的态度就是典型。疫情初期,董恩盛找法国要数据,对方完全无视;然而到了后期,法国卫生部发现JHU数据与其要公布的数据有偏差,就主动联系沟通。
作为专业同行,施迅长期从事地理信息技术在健康领域的应用,他深深感受到了这次全球大流行对传染病研究的颠覆。在上世纪的西班牙大流感时代,诊断技术和信息技术过于原始,数据谈不上准确;而这次新冠疫情全球大流行是一次史无前例的数据收集和整理的过程,这个过程本身就有巨大的科学价值。人们发现,需要一些革命性的手段,重新建立对传染病的认识并建模,而数据是这些手段的基础。
董恩盛更是对大数据的影响感同身受:只有量变,才有质变,才有进一步分析,才会带来更多资金和人力资源的投入。他们的数据吸引的不仅仅是公共卫生专家、计算机科学专家、地理信息专家,还有政治学者、经济学者,每个人都能挖掘到自己的“金矿”。
仪表盘只是起点
该和仪表盘说再见了。
这个背景是复杂的。JHU新冠资源中心(CRC)数据负责人Beth Blauer在接受采访时分析说,一方面,由于居家快速检测已广泛使用,世界各地发布病例数据的实用性和准确性大大降低,仪表盘数据的准确性难以保障。另一方面,如美国联邦政府的数据收集能力比之前已经大大提高,尤其是其报告的住院数据成为如今最可靠和完整的决策依据。此外,由于许多国家的疫情趋于平稳,数据源的公布频率和人们的关注度已大不如前。
Gardner用“苦乐交织”来形容过去的3年。她说,经过3年日夜不休的维护,是时候改变已有的响应模式了。
谈起导师,董恩盛和杜鸿儒都不吝赞美之词。
Gardner对信息接收和学生反馈的速度,最让董恩盛钦佩不已。她能很快理解他人想表达的意思,然后给出意见。这在3年前两人那次喝咖啡时表现得尤为明显,当董恩盛提出深思熟虑了好几天的意图时,Gardner马上就给出了做仪表盘的计划。
实际上,Gardner在仪表盘上的贡献是关键的,她会指出哪些数据更重要,需要在仪表盘上展示。同时,她需要把各种资源整合到这个项目中。
杜鸿儒感受更深刻的则是Gardner与学生的平等相处。她从来不会催着学生做任何事情,而是留更多时间给学生自由思考。
董恩盛的工作交叉性更强,他也更愿意做一些有实际应用的事。接下来,他要把精力投入到博士课题中。毕竟疫情仪表盘的构思源于其博士课题,所以他会继续进行数据的挖掘,同时做一些网络分析工作。
杜鸿儒的研究更偏理论,他正在利用收集的数据建立深度学习模型,尤其是关注人类行为数据和社会调查数据。他希望把人类行为对外界的反馈加入到传统的流行病模型当中。他相信这种混合模型能对未来的疫情作出更准确的预测。