人工智能革命降临蛋白质测序

The AI revolution comes to protein sequencing

新系统可以识别来自疾病组织、环境和考古遗址的样本中的未知蛋白质

Researcher using a mass spectrometer to analyse proteins
通过使用人工智能分析质谱仪(如图)的数据,研究人员希望从复杂的样本中进行蛋白质鉴定,如埋葬地点和海水样本。刘易斯·霍顿/科学来源
issue cover image

目录
这个故事的一个版本出现在《科学》杂志第388卷第6743期。下载PDF

人工智能(AI)已经彻底改变了蛋白质如何折叠成3D形状的研究,这一成就获得了去年的诺贝尔化学奖。现在,人工智能正在改变蛋白质测序——从组成蛋白质的氨基酸序列中识别蛋白质。人工智能通常比传统方法更快。它还使研究人员能够对他们从未见过的蛋白质进行测序,这是医学诊断、环境研究和考古学中的一个常见挑战。

在最新的进展中,欧洲研究人员本周在自然机器智能被称为InstaNovo的人工智能可以识别伤口中的致病蛋白质和海水样本中微生物酿造产生的未知蛋白质。InstaNovo并不孤单。在过去的4年里,研究人员已经推出了20多种蛋白质测序人工智能。华盛顿大学蛋白质组学人工智能开发者威廉·诺布尔说:“这似乎很清楚,这是该领域的发展方向。”。

其他领域的研究人员也渴望应用这些工具。例如,进化生物学家正在利用它们来识别古代蛋白质,这些蛋白质可以揭示现代人和我们灭绝的亲戚之间的差异。“这已经很有帮助了,”哥本哈根大学的古蛋白质组学专家恩里科·卡佩里尼说。“而且会越来越好。”

蛋白质的世界远比它们的基因蓝图、DNA和RNA复杂。例如,人类基因组包含大约20,000个基因,但这些基因可以产生1000万种不同的蛋白质,因为当DNA被复制成RNA或RNA被翻译成蛋白质时会发生变化,蛋白质本身可以被附加上无数的化学修饰。

生物学家传统上通过将蛋白质分解成称为肽的短片段来识别蛋白质,每个片段由5到20个氨基酸组成。然后,科学家在质谱仪中对这些片段进行称重,将重量与几十个数据库中已知肽的重量进行匹配,以确定它们的身份,然后将片段拼凑成完整的分子。

但是这种方法存在一些问题。首先,质谱发现的多达70%的肽不在任何数据库中。“传统的蛋白质组学有点像谷歌搜索。如果它不在那里,你就找不到它,”丹麦技术大学的蛋白质组学专家蒂莫西·帕特里克·詹金斯说。随着肽数据库的不断增长,计算机需要花费更多的时间来寻找匹配。

新的人工智能测序仪不需要在已知的肽中寻找匹配。取而代之的是,他们计算所有潜在的肽片段的重量,这些肽片段可能来自对给定长度的肽的化学修饰。如果人工智能找到与实际样本匹配的片段,它会尝试将它们组装成全长蛋白质。

为了提高准确性,蛋白质测序人工智能接受了数百万已知肽以及它们如何组装成已知蛋白质的训练。这使得人工智能能够学习氨基酸链结合的最常见方式。詹金斯说,这种方法类似于ChatGPT等大型语言模型(LLM)在大量文本上训练学习语法规则的方式。正如LLM知道“男孩弹球”比“男孩弹球”更可能是一个有效的句子一样,蛋白质组学算法学习一种蛋白质语法,它为给定的一组肽提供最可能的序列。

2021年,Noble和他的同事推出了Casanovo,这是第一个使用类似于ChatGPT的深度神经网络的蛋白质测序人工智能。在2024年的一篇论文中《自然·通讯》Noble的团队报告说,人工智能证明擅长识别训练数据中没有的新肽序列。其他实验表明,Casanovo擅长识别免疫系统攻击癌症时瞄准的细胞表面肽,以及海水样本中的未知蛋白质。

现在,Jenkins和他的同事已经在InstaNovo的基础上建立了这些结果。它也使用深度学习神经网络。但与之前的人工智能蛋白质测序模型不同,它增加了一种称为扩散的策略,这种方法增强了DALL-E等人工智能图像制作模型和RoseTTAFold或AlphaFold等蛋白质结构模型。扩散模型最初将随机噪声添加到输入数据中,然后将其移除,以观察该过程如何锐化输出。基于这个结果,他们会更广泛地应用噪声去除来进一步锐化结果。在他们的自然机器智能论文中,Jenkins和他的同事们报告说,在与Casanovo进行的面对面测试中,InstaNovo加上一种名为instanova+的精炼技术,在实验室制造的九种生物的蛋白质酿造中识别出了42%以上的肽。

当该团队将其人工智能应用于现实世界的蛋白质组学挑战时,他们发现,在其他结果中,它在受感染的腿部伤口中识别出了1225种血液蛋白白蛋白特有的肽,比传统的数据库搜索多10倍。其中254个是数据库中没有的新肽。研究人员还将其他肽映射到52种细菌蛋白质上。帮助研究人员绘制组织蛋白质图谱的Atlas Antibodies公司R&D负责人Catrine Soiberg说,这些和其他结果表明InstaNovo“可以分析复杂的样本并给出答案”。诺布尔很早就看到了InstaNovo,并已经对其进行了测试,他称之为“真正的进步”。

其他人也在这样做。剑桥大学蛋白质组学研究员马修·柯林斯(Matthew Collins)最近一直在测试几种人工智能蛋白质测序工具,以分析考古样本。在大多数情况下,样本中的蛋白质在地下亿万年后经历了广泛的化学变化,或者来自灭绝的植物和动物,因此它们不太可能出现在传统的蛋白质和肽数据库中。柯林斯说,这种模型“特别适用于你不知道那里有什么的混乱环境。”

人工智能工具已经使他的团队能够识别尼安德特人遗址中的兔子蛋白质和古巴西陶罐中的鱼肌肉蛋白质。柯林斯说:“(这些模型)非常有用,我们已经把所有的研究都转向了它们。”。“在我看来,这是一个台阶式的变化。”

更正,4月8日,中午12点:新人工智能系统InstaNovo的名字被修正。

Hits: 0

发表回复

分享