http://www.iamlze.cn

完爆美国CDC的地图背后是两名中国博士生,我们

  原标题:完爆美国CDC的地图背后是两名中国博士生,我们采访了他们

  “约翰·霍普金斯大学发布的最新统计数据显示……”

  随着全球爆发,约翰·霍普金斯大学的地图数据高频出现在了各大报道中。该地图还登上过顶尖医学期刊《柳叶刀》。就连美国副总统彭斯在门开会时,背后也是这一地图。

  2020年2月27日,在的卫生与公共服务部的新型工作会议。图自/安德鲁·哈尼克。

  而在这些数据背后,团队主要是两名中国留美博士生。

  近日,南都记者采访了两名者、约翰·霍普金斯大学系统科学与工程中心一年级的博士生董恩盛、杜鸿儒。

  我们与美国疾控中心的数据是一种互补关系

  南都:多家国内外援引了你们的数据,文化频道有人称这比美国疾病控制和预防中心(CDC)公布的数据都更及时、完善,你们怎么看?

  杜:美国疾控中心的更新相对滞后,而且他们周六日不更新,所以不能持续地为用户提供数据。此外,我们的地图推出时间很早,许多用户在推出后就持续追踪使用,形成了一种习惯。

  董:其实我们与疾控中心的数据是一种互补的关系。疾控中心的数据有权威性,但我们的数据在可靠的基础上更加及时。我们比CDC最好的地方在于,我们的数据精度较高,精确到了县市级。

  南都:现在有什么新进展?

  杜:解决了之前的数据更新问题,可以进行自动化的信息抓取。接下来想提升数据的精度,将、法国和南美洲的国家数据呈现细致到省区级的精度。

  南都:访问用户的情况有什么变化吗?

  董:截至4月7日上午11点,网站已有161亿总点击量。随着新冠席卷全球,部分国家信息公布较慢,尤其是在非洲、南美洲。因此,从访问量和来源看,这些地方的部分也会经常访问我们的地图。

  不过,现在做可视化地图的机构太多了,尽管我们的更新速度很快,但像、法国等国的部分机构将数据精确到省市级别,因此来自欧洲的访问量减少了。但如果要了解世界整体的变化,一般都是看我们的地图。

  网站日流量曾达20亿,服务器曾三次瘫痪

  南都:一开始为什么会想做可视化地图?

  董:老板(注:导师劳伦·加德纳,Lauren Gardner)是研究疾病过程的专家,我们就跟着她一起做。同时,我们的初衷是,希望通过追踪数据,可以观察一场从生到死的过程。

  南都:团队有多少人?

  董:25人左右,主要负责的还是我们两个人和导师。主要负责服务器、编程处理、沟通等。

  南都:在制作过程中有没有发现数据变化的特点、规律?

  董:基本上每次服务器瘫痪,都是在有所变化的时候。可以说,我们服务器宕机的节点与全球变化的节点呈正相关关系。

  第一次大约是的数据标准(注:临床发现的新冠病例也加入到确诊病例中)发生变化的时候,大家发现人数突然猛增,很多人到我们的网站上看;第二次是意大利爆发的时候,许多意大利涌入网站,当时意大利的用户数还超过了美国的;后来第三次,主要是美国爆发,大家都挺关注美国的数据。

  南都:目前有什么困难?

  董:之前困难是从来没有受到过这么多关注(笑)。因为流量太大了,经常把我们的系统整崩溃了。像3月12日,一天的全球访问量就有20亿。为此,我们已经换了至少三台服务器。

  钻石公主的撤离人员应如何标记?这里有个隐私问题

  南都:数据来源是哪里?是怎样处理的?

  董、杜:世界卫生组织、美国疾病预防控制中心、欧洲疾病预防控中心、中国国家卫健委、当地新闻报道和门,以及丁香园等。目前,我们使用了半自动化的实时数据流策略。我们会与计算机系的朋友合作,让他们运用机器学习、自然语言处理等技术在网上搜索相关信息,文化频道但为了确保数据准确性,我们还会进行人工比对核实和手动更新。

  南都:可视化的过程对你们来说难吗?

  董:我之前有可视化经历,所以在技术思上相对成熟。但在数据来源和数据结构搭建上还是遇到一些困难。一是数据的半自动化比较费事;二是需要考虑地图上点的放置,不同国家的数据层级等问题。一些小功能的增加其实会让数据有很大变动,或是增加服务器的负担。

  杜:举例来说,我们后来增加了数据更新时间。这其实是有难度的,因为我们的用户来自世界各地。后来,我们把地图时间调整为格林尼治时间(注:全世界的时间标准),但相应的也需要把以前的数据做很大的调整。

  从制作到第一次发布大约花了六、七个小时,但之后每一次改进花的时间都非常多。

  南都:接下来地图还会做什么改进吗?

  董、文化频道杜:增加更多的可视化工具、进行进一步的数据公开。其中,可视化可能会精确到美国郡县级(注:相当于中国的市级单位),但因为涉及到隐私问题,我们也会再考虑。

  举例来说,我们之前在处理钻石公主的患者标记时,就遇到了一个“隐私乌龙”。当时,部分钻石旅客撤回到美国。由于患者具置不明,我们就选择将点标记在美国相对而言的一个地理中心——堪萨斯州。但有些美国人比较喜欢探索,会放大地图,放大到最后发现这个点落在他们小区上。他们以为自己小区竟然有新冠病例,但实际上不是这样的。小区给当地门,又再层层,最后我们学校的新闻官告诉我们赶紧调整一下。于是,我们将点暂时放回了钻石公主最后的停靠,日本横滨港。

  现在我们的处理是,地图放大到一定程度,标记的点就看不到了,不让他们把自己家和这个点形成对应关系。

  南都:钻石公主的数据为什么单独处理?

  董:这其实是跟国际的报道有关系。一开始大家把钻石公主的所有案例归结为日本当地的案例,之后又把日本国内的案例与钻石公主分开了。我们就重新调整了数据,这也造成可视化的时候,日本统计数据有了断崖式下降。但这个不是数据本身的问题,而是初期全球统计的一个偏差。

  朋友转过来说挺好的,最后发现是我们做的

  南都:你们专业的具体研究内容是什么?

  杜、董:我们两个的主要方向是疾病模型,也就是用数学模型和计算机代码来解释一些流行病学、公共健康方面的问题。研究侧重的不是医学本身,而是对全球流行病的发展趋势做基本判断和推测。

  南都:什么时候发现地图受到了广泛关注?

  董:一开始是发现学校内部发了新闻,接着学校主网站的头版头条推送了我们的地图。后来开始出现了“逆向”的现象,比如我的朋友会转发给我,说“要不你看一下这个东西,挺好的”,我的西班牙助教也是前几天问我有没有看过这个图,是他一个西班牙朋友推荐给他的。我就告诉他们是我们做的。

  南都:登上《柳叶刀》是怎样的一个过程?

  董:其中有个小故事。我们之前有一篇关于麻疹的文章,当时处于向《柳叶刀》过程中。但这时新冠爆发了,几乎《柳叶刀》所有编辑都在忙新冠的文章。我们老板(注:导师)就比较着急,发邮件问《柳叶刀》主编关于麻疹文章的进展如何。主编回应说他们忙于新冠文章,但天天都在看我们的地图。于是,我们老板觉得必须有一篇文章向大家介绍,做可视化地图的经过,让大家了解我们的数据来源和处理过程,对我们有信心。

  南都:还有可视化的工具让你们印象深刻的吗?

  董、杜:国内可视化做的比较好,比如丁香园。他们也方便了学生、学者的研究。我们的新冠可视化是在中国以外比较早的一家,所以反而是国家、机构学习到了我们的可视化。

  南都:接下去还有什么发布?

  杜:我们现在还在研究新冠的疾病模型,想研究疾病是怎么爆发的、增长速度如何、真正开始的日期等。

  董:其实,可视化地图只是我们研究过程的一个辅助工具,没想到引起这么大关注。这导致我们的工作重点也偏向可视化,但其实我们想做更多的流行病学。

  采写:南都记者 陈志芳

  

原文标题:完爆美国CDC的地图背后是两名中国博士生,我们 网址:http://www.iamlze.cn/wenhuapindao/2020/0415/3484.html

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。