Coloured SEM of the SARS-CoV-2 Delta variant budding (blue dots) from a vero mammalian kidney epithelial cell 24 hours after infection.

包括 SARS-CoV-2 在内的 RNA 病毒不断积累新的突变。图片来源:Steve Gschmeissner/SPL

大流行防范的圣杯是能够仅通过查看病毒的基因序列来预测病毒将如何进化。那些日子还有很长的路要走,但越来越多的研究小组正在使用人工智能 (AI) 来预测 SARS-CoV-2、流感和其他病毒的进化。

病毒(尤其是 SARS-CoV-2 等 RNA 病毒)通过积累新的突变不断进化。其中一些变化对病毒有利,使变体能够逃避宿主免疫并迅速传播。通过预测病毒将如何进化,研究人员理论上可以提前设计疫苗和抗病毒治疗。

到目前为止,AI 工具可以预测病毒中的哪些单一突变将最成功,哪些变体将在短期内“获胜”。但他们仍然远无法预测未来很长一段时间内将发生的突变或变异的组合。

加利福尼亚州斯坦福大学(Stanford University)的计算生物学家布莱恩·希(Brian Hie)说,这是“一个非常令人兴奋且非常有用的研究领域”,他是最早将大型语言模型应用于病毒突变研究的研究人员之一1.但他说,预测病毒进化仍然极具挑战性。

AI 工具

过去,研究人员进行了实验室实验以识别具有增强特性的变体,但这些实验既费力又耗时。一些小组,例如北京大学免疫学家曹云龙领导的实验室,已经开发了实验,研究单个突变如何影响病毒逃避一组抗体检测的能力2.这些实验可以解释大量的病毒进化,但不是全部。

基于 AI 的蛋白质结构预测工具的到来,例如由伦敦 AI 公司 DeepMind 创建的 AlphaFold 以及 ESM-23和 ESMFold 均由 Meta(前身为 Facebook,总部位于加利福尼亚州门洛帕克)创建——为该领域带来了新的活力,英国格拉斯哥大学病毒学家大卫·罗伯逊 (David Robertson) 说。

AI 模型需要大量数据才能预测病毒进化。东京大学生物信息学家 Jumpei Ito 说,对导致 COVID-2 的病毒 SARS-CoV-19 的大规模测序使这成为可能。研究人员现在有近 17 万个序列可用于训练他们的模型。

一种名为 EVEscape 的模型由马萨诸塞州波士顿哈佛医学院的 Debora Marks 和她的团队开发,已被用于设计 SARS-CoV-83 刺突蛋白的 2 种可能版本,病毒用它来感染细胞。这些刺突化身可以逃避接种疫苗或感染当前流行变体的人产生的抗体4,并可用于测试未来 COVID-19 疫苗的有效性。

Ito 的小组正在关注病毒适应性的一个更广泛的特征——变体在人群中迅速传播并最终占据主导地位的能力。研究人员使用 ESM-2 创建了一个名为 CoVFit 的模型,该模型可以预测 SARS-CoV-2 变体的相对适应性。CoVFit 在 13,643 个 SARS-CoV-2 刺突蛋白变体上进行了训练,还使用了 Cao 小组关于个体突变如何影响病毒逃避抗体能力的实验数据。Ito 的团队创建了一个受限模型,使用截至 2022 年 <> 月的变体数据进行训练,并发现它成功地预测了在该截止点之后某些变体(包括 XBB)的适应度有所改善5,这是一种当年晚些时候流行的新变体。

到2024年3月,全球范围内占主导地位的SARS-CoV-2变种是一种名为JN.1的变种。利用CoVFit,伊藤的团队确定了三种有助于JN.1获得健康的单氨基酸变化。此后,这些突变在全球范围内迅速扩张的变种中出现。

需要更多数据

Cao 说,为了提高 AI 模型的准确性,研究人员需要五年多的病毒进化数据。他说,将监测测序数据与实验数据相结合有助于克服一些数据挑战。

其他几个小组也在使用组合数据开发模型6.其中一项研究由伊藤丰雄在东京大学的同事、进化病毒学家川久保修介领导。在尚未发表的工作中,川久保玲正在研究流感病毒在其宿主中诱导免疫反应的能力。如果流感的血凝素蛋白(其刺突蛋白当量)变化足够大,它可能无法被人体的免疫反应识别,此时,世界疫苗制造商需要相应地调整下一季的流感疫苗。

大跃进

Ito 说,这些模型中的大多数仅限于理解微小变化的影响,但理论上病毒几乎有无限的进化空间。例如,Omicron 变体以 50 多个突变出现,看起来是研究人员以前从未见过的。

这些突如其来的进化飞跃很难预测。Robertson 和他的同事们正在努力寻找使用 AI 模型的方法,以更好地了解这些巨大的进化轨迹并确定它们的极限。他们发现,如果他们给 ESM-2 一个刺突序列,它可以识别可能发生变化的区域,以及这些变化如何影响蛋白质的其他区域7.“这感觉有点像黑魔法,”罗伯逊说。他说,目标是能够计算出病毒在人体中检测到后,还有多大空间可以在很早的时候进化。