我们的数据世界团队如何成为新冠肺炎的全球数据源

How our team at Our World in Data became a global data source on COVID-19

我们的小团队使新冠肺炎的数据清晰、可靠,并可供全球观众访问。事情是这样发生的。

在新冠肺炎之前,我们的数据世界(OWID)是一个雄心勃勃的小团队。

我们让公众能够获得关于贫困、气候和全球健康等全球性问题的数据和研究。但是我们的团队采取了渐进的方法——我们手动更新图表,通常是每年更新一次。我们提供了统计数据的背景,澄清了常见的误解,并传达了来自数据的重要见解。

当新冠肺炎病毒传播到世界各地时,我们的小团队突然转向编辑具有全球重要性的日常数据。OWID在短短几个月内成为许多新冠肺炎指标的主要全球来源。我们的数据集为大型媒体机构的仪表盘提供支持,并成为记者、政府、学术研究人员和广大公众的重要资源。

在这篇回顾性文章中,我们回顾了我们的小团队如何面对全球新冠肺炎数据的大量突发需求,以及我们如何调整我们的流程以使这项工作成为我们使命的一部分-使疫情的数据和研究对广大受众透明并可访问。

在疫情之前

“我们的数据世界”于2014年由马克斯·罗瑟(Max Roser)发起,他在业余时间与几个兼职同事一起创建了这个网站。

这些年来,更多的团队成员加入进来——包括我们的同事埃斯特万·奥尔蒂斯·奥斯皮纳,他是一名经济学家,现在是联席董事;乔·哈塞尔,曾致力于解决全球贫困问题,现在是产品和设计负责人;还有汉娜·里奇,她负责环境研究,现在是副主编。

本文作者Edouard Mathieu、Saloni Dattani和Lucas Rodés-Guirao分别于2020年3月、2021年2月和2021年4月加入该团队,自疫情以来,该团队已经壮大了许多。

Side-by-side photographs of the Our World in Data team in February 2020 (left) vs. September 2024 (right).
数据团队在2020年2月(左)和2024年9月(右)拍摄的并排照片。

我们的数据世界旨在涵盖广泛的主题,但团队很小——2020年初只有8个人—我们更加关注不平等、贫困、全球健康、气候变化和农业等领域。我们每年更新数据集,这通常依赖于手动操作。

我们的工作集中在从可信的研究机构收集和可视化数据,并以易于理解的格式呈现给公众。这种小规模的方法在新冠肺炎疫情期间发生了巨大的变化。

解决新冠肺炎问题的动力

在2020年初,随着大规模疫情蔓延到意大利,该团队看到了一个迫在眉睫的威胁和可用数据的巨大缺口。

首先,现有数据表明增长率很高,如果不采取行动,疫情只会在大约三分之二的人口受到感染后自行放缓速度(“群体免疫阈值”)。到这个时候,许多国家将会看到大量的死亡和医护人员超出了他们的极限。

其次,世界需要以集中、准确和不断更新的方式实时跟踪新冠肺炎在全球的传播。

但是官方的数据来源充其量也是不完整的。早期,世界卫生组织(世卫组织)仅通过在线电子表格提供每日更新。这些更新通常有严重的输入错误,例如全球总数与每个国家的总和不匹配,而累计死亡人数与每个国家的总和匹配降低比前一天要多。

其他数据发布网站,如世界计量仪他们的消息来源缺乏透明度,或者与官方数据相矛盾。没有地方可以方便地比较不同国家之间的趋势,或者直观地显示疫情随时间的发展。

考虑到这一点,我们团队的工作在2020年2月下旬几乎全部转移到了新冠肺炎——汇编官方数据来源,传达趋势可用数据的局限性,以及消除误解。

关于新冠肺炎的早期工作

随着疫情在多个国家流行,最初的工作非常具有挑战性。

我们在2020年3月初推出了新冠肺炎页面的第一个版本,最初嵌入了约翰霍普金斯大学、世卫组织和牛津大学发布的其他仪表板。当时,OWIDGrapher为我们的图表提供动力的工具无法处理日常数据,这使我们无法自己将数据可视化。

Screenshot of the earliest version of Our World in Data’s coronavirus page on 7th March 2020, which compiled data across sources and explained key metrics. The screenshot shows an embedded dashboard built by Johns Hopkins University, which shows recorded coronavirus cases. The archived page can be accessed online.
2020年3月7日Data的冠状病毒页面中最早版本的《我们的世界》截图,该页面汇编了跨来源的数据,并解释了关键指标。截图显示了约翰·霍普金斯大学建造的嵌入式仪表板,显示了记录的冠状病毒病例。可以访问存档页面在线的.

很快就变得很明显,许多这些替代仪表板侧重于最新的累积估计,这使得很难解释一段时间内的趋势。

了解疫情是如何变化的随着时间的过去至关重要。意识到这一点后,我们的软件工程师Breck Yunits和Daniel Gavrilov彻底检查了Grapher工具,以处理日常更新,从而使团队能够跟上疫情的快节奏。

当疫情在世界范围内蔓延时,Hannah Ritchie和Max Roser花了许多个清晨手动抄录世卫组织报告中的病例数和检测数。他们经常面对不匹配的总数、混乱的格式和过时的数字。

Screenshot from 25th March 2020 of Our World in Data’s page comparing data sources on confirmed cases of COVID-19. The archived page can be accessed online.
截图自2020年3月25日,我们的世界在数据的页面比较新冠肺炎确诊病例的数据来源。可以访问存档页面在线的.

他们还写了几页来解释这些指标,以及如何解释它们和比较不同来源的统计数据。

这是至关重要的,因为许多误解是常见的。例如,病例数往往被误解为感染数,尽管检测率有限,而且许多感染尚未得到确认。

类似地,早期对病死率(CFR)的计算也经常出错。他们低估了实际的死亡风险,因为病例和死亡之间的延迟,有限的检测,以及一些国家缺乏死亡登记。

为了解决这些问题,我们的团队还汇编了一个全球新冠肺炎测试率数据集。

建立世界新冠肺炎病毒检测和疫苗接种数据集

尽管我们在《数据世界》中展示的大部分数据都是从其他有信用的来源重新发布的,而不是由我们的团队从国家来源汇编的,但在新冠肺炎期间有两个突出的例外:测试和疫苗接种数据。

在疫情早期,我们清楚地认识到,检测率对于正确解释病例数至关重要。如果没有足够的检测,病例数只能非常有限地反映新疫情的增长速度和地点。

然而,没有关于检测率的全球数据集。因此,2020年3月,我们的同事——从乔·哈塞尔(Joe Hasell)和埃斯特万·奥尔蒂斯·奥斯皮纳(Esteban Ortiz-Ospina)开始建立一个,旨在包括尽可能多的国家。

这非常具有挑战性。各国以难以处理的格式共享每日检测计数,包括pdf和HTML表格。一些国家统计“接受检测的人”,而另一些国家统计“接受检测的拭子”,造成各国指标不一致。事实上,很多人会接受不止一次的测试,这使得事情变得复杂。

这种困惑也适用于测试的类型。一些国家只报告了PCR检测,而另一些国家只报告了抗体检测。更令人困惑的是,一些人将两种测试的数据结合起来。

Edouard Mathieu现在是我们的数据和研究主管,他于2020年3月加入我们的团队,负责管理这条不断增长的数据管道。团队的其他成员,特别是前团队成员Cameron Appel和Daniel Gavrilov,帮助他汇编了全球测试数据,最终建立了一个包含130多个国家和地区的数据集。Cameron成为了一名全方位的贡献者,在新冠肺炎数据的多个领域提供帮助。

下图显示了各国的累积检测率,并说明了使用的指标。我们的团队花了几个月的时间收集这些数据,联系国家卫生组织来澄清这些差异,并更新这些数据。

Total COVID-19 tests per 1,000 people

我们在杂志上发表了一篇同行评议的文章介绍了这个数据库自然科学数据.

“我们的世界”数据集自疫情开始以来一直跟踪世界各地的新冠肺炎测试,已经过同行评审,并发表在学术期刊《自然科学数据》上。

到2020年末,在疫苗很快将面向公众的情况变得明朗之后,我们的团队联系了其他国际卫生机构,以了解他们是否有计划在国际上收集这些数据。然而,他们都没有计划创建一个全球疫苗接种数据集。

Edouard Mathieu说服团队,我们应该加快步伐,因为我们已经改进了我们的流程,并建议我们自己收集数据将填补世界所需的重要数据空白。

下面的地图显示了我们添加的第一个疫苗接种数据点:2020年12月8日,第一个人在英国的临床试验之外接种了疫苗。最后,我们可以展示一个积极的指标,关注我们如何应对疫情,减少生命损失。

你可以通过点击“播放延时”按钮或从折线图上看到这是如何随着时间的推移而演变的,这两个图表都显示了越来越多的国家如何随着时间的推移开始接种疫苗并报告这些数据。

Countries reporting data on COVID-19 vaccinations, Dec 16, 2020

Whether a country had started reporting data on COVID-19 vaccinations by a given date.

  • https://ourworldindata.org/grapher/full-list-cumulative-total-tests-per-thousand

Number of countries reporting data on COVID-19
vaccinations

The number of counties that reported vaccination data at least once by a given date.

Dec 16, 2020Oct 22, 2021Feb 24, 2021Apr 15, 2021Jun 4, 2021Jul 24, 2021050100150200

尽管该团队准备得更充分,但收集疫苗接种数据更具挑战性。数据格式变化更大,从HTML表格和pdf到新闻稿,甚至视频公告。

虽然我们能够自动化这些数据提取程序的一些部分,但我们的团队还必须观看新闻发布会的每日视频,以记录来自一些国家的每日疫苗接种数量。

我们的疫苗接种数据集很快成为新冠肺炎疫苗接种统计数据的唯一全球来源,包括210个国家和地区。

它被包括世卫组织在内的主要组织广泛采用,并成为了解全球疫苗分布和公平性的基础。

The New York Times’s page tracking coronavirus vaccinations worldwide, with data sourced from Our World in Data. The page can be viewed online.
《纽约时报》追踪全球冠状病毒疫苗接种的页面,数据来源于我们的世界数据。可以查看该页面在线的.

我们在杂志上发表了一篇同行评议的文章介绍了这个数据库自然人类行为.

我们追踪全球新冠肺炎疫苗接种的免费开放数据集已经发表在《自然人类行为》上。

新冠肺炎数据浏览器

随着数据复杂性的增加,我们的团队引入了新冠肺炎数据浏览器,这是一个功能强大的新图表工具,允许用户轻松地在指标和国家之间切换,并以更方便的方式探索和跟踪疫情的进展。

在数据的新冠肺炎数据浏览器中我们世界的最早版本的截屏视频,发射2020年5月15日。该视频通过数据浏览器中的不同指示器和功能运行。可以查看浏览器的当前版本在线的.

这一工具每日更新,设计方便用户,成为全世界数百万人了解新冠肺炎每日最新情况的首选资源。

它扩展并允许用户探索广泛的指标——病例、死亡、检测率、住院率、超额死亡率、疫苗接种率、流动性趋势和病毒株——并并排比较它们。您可以探索当前版本的新冠肺炎数据浏览器在线。

我们的图表和数据被《卫报》、BBC、《金融时报》、《经济学人》、《观察家》、路透社、CNN和《纽约时报》等新闻媒体、学术研究人员、卫生部长和许多国家的政治领导人(包括美国总统唐纳德·特朗普和乔·拜登)广泛使用。

Side-by-side images of Donald Trump and Joe Biden presenting data from our charts. Donald Trump held up our chart on global coronavirus data during an Oval Office meeting (credited to the Washington Post on 6th May 2020), while Joe Biden tweeted an animated chart with data sourced from Our World in Data on 19th July 2020.
美国总统唐纳德·特朗普和乔·拜登展示图表数据的并排图片。唐纳德·特朗普在椭圆形办公室会议上展示了我们的全球冠状病毒数据图表(归功于《华盛顿邮报》2020年5月6日),而乔·拜登发微博2020年7月19日的数据来源于我们的世界的动画图表。

开源和公共数据提供

我们跨主题的数据集多年来一直是可下载的和透明的,但是我们提供给我们的新冠肺炎数据Grapher工具对于维护疫情的全球数据变得至关重要。

这种透明度非常重要,因为数据需要在许多国家以不同的数据收集和发布程序进行汇编,而且这些程序偶尔会发生变化。网页可能被移动,数据格式可能被改变,简单的处理步骤——比如数据更新的时间——没有被解释。

我们的GitHub知识库使世界各地的用户能够为新冠肺炎数据做出贡献。

下面的第一个图表显示了每周向我们的存储库投稿的用户数量。2021年初,当疫苗开始在各国推广时,捐款激增,我们的数据集成为疫苗接种率国际数据的唯一来源。

通过我们的开源数据集,用户可以帮助识别我们的团队无法直接获取信息的地区的数据源,帮助翻译官方来源、标志变化和潜在的数据错误(我们将这些信息传递给了其他机构),并对数据管道提出改进建议。

第二个图表显示,全球有700多名用户向我们的数据存储库提交了数据,拉取请求、代码审查或添加注释来帮助我们改进数据集。总的来说,他们7000多篇投稿.

即使现在,任何人都可以贡献或浏览每个更新我们制作了这个数据集,自从它发布以来已经更新了超过31000次。

这种协作方法使我们的数据更加透明、可维护、最新,并且比我们在静态报告中发布数据更不容易出错。

Weekly number of users contributing to our COVID-19 data
repository

Weekly number of users who contributed to Our World in Data’s COVID-19 data repository on GitHub, eitherby creating or commenting on an issue or pull request, shown as a 7-day rolling average.

Mar 17, 2020Mar 25, 2022Nov 16, 2020Jun 4, 20210 users5 users10 users15 users20 users25 users30 users35 users

Total users who contributed to our COVID-19 data repository

Cumulative number of users who contributed to Our World in Data’s COVID-19 data repository onGitHub by submitting an issue or pull request (PR), or commenting on one of them.

Mar 17, 2020Aug 13, 2024Sep 12, 2021Oct 17, 20220 users100 users200 users300 users400 users500 users600 users700 users800 usersParticipated on an issue orPRSubmitted an issueCommented on issue or PRSubmitted a PRAdded code reviewcomment on PR

一些贡献者也加入了我们的团队。2021年4月,该团队聘请了Lucas Rodés-Guirao(他已经作为志愿者做出了贡献)来改进我们在GitHub上的流程。到年底,他处理了我们所有的冠状病毒数据管道和更新。

随着团队和用户群的增长,我们能够简化流程并提高自动化程度。结果是一个更快、更准确的管道,允许团队随着疫情的进展专注于新的工作。

交流和公共宣传

随着我们的数据驱动仪表板和团队每天跟踪趋势,清楚地传达这些信息变得至关重要。我们的团队花了很多时间编写易于理解的解释,说明如何正确解释这些数字,并在图表上清楚地记录这些信息。

我们还收到了来自用户、记者和官员的问题和反馈,他们将这些数据用于政策决策和公共公告,我们澄清了容易被误解的指标。

Hannah Ritchie在像英国广播公司或多或少广播播客,并在皇家统计学会的证据会议在疫情。马克斯·罗瑟在英国议会科学技术委员会关于新冠肺炎的数据和政策以及世界各地的疫情局势。我们与公众和疫情的主要应对者进行了直接沟通。

马克斯·罗瑟在英国议会科学技术委员会2020年10月21日,BBC电视转播。

爱德华·马蒂厄发表了一篇《自然》杂志评论文章,解释政府和国际组织如何改进其数据格式和出版过程。查理·吉亚蒂诺写了关于解释超额死亡率感染的数量。爱德华·马修和马克斯·罗瑟写了一篇点击率最高的文章,从视觉上进行解释未接种疫苗的人死亡率更高.

我们的Twitter成为了快速更新的中心渠道,用户可以标记问题,一些国家的官员可以直接联系团队澄清更新。

我们的同事,特别是Esteban Ortiz-Ospina,每天花几个小时通过我们网站的反馈表、电子邮件、GitHub和Twitter审查直接的公众反馈,以帮助确保我们的数据清晰透明,如果有任何问题,可以迅速改进。

结论

我们对新冠肺炎数据的研究帮助我们亲眼看到了合作的重要性。世界各地的人们帮助我们添加新的数据,翻译信息,标记错误,并建立一个更准确的全球疫情图片。

它强调了对开源工具和自动化工作流的需求,这使我们能够在不牺牲质量的情况下快速响应。通过从大量手动流程过渡到更加简化的系统,我们可以更高效、更可靠地跟踪关键数据。

无限制的资金对于启动这个项目也是至关重要的。虽然我们很久以后才收到新冠肺炎工作的专项资金,但我们能够迅速转向新冠肺炎的数据,因为我们得到了无限制捐款的支持。这给了我们解决当前紧迫需求的灵活性。

最终,我们与研究人员、程序员和数据科学家的独特合作使我们能够以一种清晰、可访问和可维护的方式向公众传达研究和疫情趋势。我们的经验表明,一个适应能力强的小团队是多么有影响力,在世界最需要的时候提供清晰和透明。

继续阅读我们的数据世界

疫情已经导致超过2000万人死亡。在这篇文章中,我们回顾了新冠肺炎全球数据的关键见解。

有史以来,流行病已经夺去了数百万人的生命。有多少死亡是由不同的流行病造成的,研究人员是如何估计死亡人数的?

尾注

  1. 在2020年2月的照片中,从左至右:埃斯特万·奥尔蒂斯·奥斯皮纳、马克斯·罗瑟、汉娜·里奇、乔·哈塞尔、马蒂厄·贝尔格尔和丹尼尔·加夫里洛夫。这张照片不见了卡梅隆·阿佩尔和戴安娜·贝尔特基安。

    从2024年9月顶部的每一排从左至右摄影:Lars Yencken、Simon van Teutem、Marcel Gerber、Natalie Reynolds-Garcia、Max Roser、Valerie Rogers Muigai、Angela Wenham和Sophia Mersmann丹尼尔·巴克勒、乔·哈塞尔、巴勃罗·阿里亚加达、马丁·拉查克、鲍比·麦克唐纳、马尔瓦·布卡里姆、菲奥娜·斯普纳和莫伊米尔·温克勒;查理·吉亚提诺、安托瓦内特·芬尼根、艾克·桑德斯、韦罗妮卡·桑博尔斯卡、爱德华·马修和巴斯坦·赫尔;巴勃罗·罗萨多、埃斯特万·奥尔蒂斯-奥斯皮纳、萨洛尼·达塔尼、图纳·阿西苏、汉娜·里奇和卢卡斯·罗德里格斯·吉拉奥。这张照片不见了哈桑·马苏姆和马蒂厄·贝格尔。

  2. 这包括马克斯·罗瑟、埃斯特万·奥尔蒂斯·奥斯皮纳、汉娜·里奇、乔·哈塞尔、丹尼尔·加夫里洛夫、马蒂厄·贝尔格尔、卡梅隆·阿佩尔和戴安娜·贝尔特基安。

  3. 马克斯引用了马克·利普西奇的话大西洋作为一名专家,他很早就指出了高群体免疫阈值和未受控制的疫情的潜在后果。

    汉布林,J. (2020年2月24日)。你很可能会感染冠状病毒。大西洋。https://archive.is/ArkIV

    已发表的研究也证实了这一估计:

    郭国光、赖、魏、黄伟义、黄士元、唐君伟(2020)。群体免疫——估计在受影响国家阻止新冠肺炎疫情所需的水平。感染杂志,80(6),e32–e33。https://doi.org/10.1016/j.jinf.2020.03.027

    伦道夫,H. E .,&巴雷罗,L. B. (2020)。群体免疫:了解新冠肺炎。豁免权,52(5),737–741。https://doi.org/10.1016/j.immuni.2020.04.012

  4. NHS英格兰新闻(2020)。第一个NHS病人接受新冠肺炎疫苗的里程碑时刻。有空的在线的.

引用这部作品

我们的文章和数据可视化依赖于许多不同的人和组织的工作。引用本文时,请同时引用底层数据来源。这篇文章可以引用为:

Saloni Dattani, Edouard Mathieu and Lucas Rodés-Guirao (2024) - “How our team at Our World in Data became a global data source on COVID-19” Published online at OurWorldinData.org. Retrieved from: 'https://ourworldindata.org/owid-covid-history' [Online Resource]

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

分享