AI预测的人类白介素12蛋白与其受体结合的结构。 图片来源:Ian Haydon,威斯康星大学蛋白质设计医学研究所
人体核孔复合体的俯视图,这是人体细胞中最大的分子机器。 图片来源:《自然》网站
【科技创新世界潮】
十多年来,德国马克斯普朗克生物物理研究所分子生物学家马丁·贝克及其同事一直试图拼凑出世界上最难的拼图游戏之一:人类细胞中最大分子机器的详细模型。这个庞然大物被称为核孔复合体,控制着分子进出细胞核的流动,而细胞核正是基因组所在之处。每个细胞中都存在数百个这样的复合物,每个都由超过1000种蛋白组成,它们形成一个环,镶嵌在核膜上。
这1000块拼图由30多种蛋白质构建块组成,它们以多种方式交织在一起。让拼图更难的是,实验确定的这些构建块的三维结构是来自许多物种的结构大杂烩,并不能总是很好地融合在一起。而且,拼图的终极目标,即核孔复合体的低分辨率三维视图缺乏足够的细节,人们无法知道需要有多少块能精确地拼在一起。
2016年,贝克团队报告了一个模型,它覆盖了核孔复合体约30%以及30个构建块的约一半,称为Nup蛋白。2021年7月,深度思维公司公开了一款名为阿尔法折叠2的人工智能(AI)工具。该软件可从蛋白质的基因序列中预测其三维结构,并且大部分情况下是精确的。这改变了贝克的任务,以及成千上万其他生物学家的研究。
在某些情况下,AI为科学家们节省了时间;在其他情况下,它使以前难以想象或极不现实的研究成为可能。尽管它有局限性,但它的发展已经不可阻挡。
“一鸣惊人”的成功
2020年12月,阿尔法折叠引起了轰动。当时,它在一场名为“蛋白质结构预测关键评估”的比赛中大放异彩。而阿尔法折叠2的预测平均而言已与大多数实验数据不相上下。
在阿尔法折叠算法广泛开源之前,美国华盛顿大学医学院蛋白质设计研究所研究人员开发了AI工具RoseTTAFold,其拥有可媲美阿尔法折叠2的蛋白质结构预测超高准确度,而且速度更快、所需计算机处理能力更低。
2021年7月15日,深度思维宣布,它已经使用阿尔法折叠预测了几乎每一种人类制造的蛋白质的结构,以及其他20种被广泛研究的生物的整个蛋白质组(比如小鼠和大肠杆菌),共计超过36.5万个结构。深度思维还将这些数据公开发布到欧洲生物信息学研究所维护的数据库中,这个数据库已扩展到近100万个结构。
今年,深度思维计划发布总计超过1亿个结构预测。这几乎占所有已知蛋白质的一半,是蛋白质数据库(PDB)结构库中实验确定的蛋白质数量的数百倍。阿尔法折叠还部署了深度学习神经网络,目前已经接受了PDB和其他数据库中的数十万个实验确定的蛋白质结构和序列的训练。
从结构角度解答新科学问题
阿尔法折叠解决结构的能力给生物学家们留下了深刻的印象。“只要一种蛋白质卷曲成单一的明确的三维结构,阿尔法折叠的预测就很难被推翻。”瑞典斯德哥尔摩大学蛋白质生物信息学家阿恩·埃洛夫松说,“这是一种一键式解决方案,你可能会得到最佳模型。”
英国伦敦大学学院计算生物学家克里斯汀·奥伦戈团队正在利用其确定新的蛋白质种类,并发现了数百、甚至数千个潜在的新蛋白质家族,扩大了科学家对蛋白质外观和功能的了解。在另一项工作中,该团队正在搜索从海洋和废水中收集的DNA序列数据库,试图识别新的分解塑料的酶。
美国哈佛大学进化生物学家谢尔盖·奥夫钦尼科夫表示,将任何蛋白质编码的基因序列转化为可靠结构的能力都非常可贵。研究人员通过比较基因序列,以确定生物及其基因在不同物种之间的关系。但对于远亲基因,仅通过比较,可能找不到进化上的近亲,因为序列发生了太大的变化。而通过比较蛋白质结构,其变化速度往往不如基因序列那么快,研究人员或能揭示被忽视的古老关系。这为研究蛋白质的进化和生命起源提供了一个绝佳的机会。
存在一定局限性
目前已有尝试证明,阿尔法折叠不具备预测蛋白质新突变后果的能力,因为没有与进化相关的序列来检验。
研究人员表示,许多蛋白质具有多种构象,并与DNA和RNA等配体、脂肪分子和铁等矿物质一起发挥作用,但阿尔法折叠的预测是针对孤立结构,它不能真正处理那些可在不同构象中采用不同结构的蛋白质。
美国哥伦比亚大学的计算生物学家穆罕默德·库雷希说,开发下一代神经网络将是一个巨大的挑战。目前还无法获得大量的数据来捕捉蛋白质动力学,或者蛋白质可能与之相互作用的数万亿个较小分子的形状。
欧洲生物信息学研究所计算生物学家珍妮特·桑顿认为,阿尔法折叠最大的影响之一可能只是说服生物学家对计算和理论方法的见解持更开放的态度。“对我来说,这场革命就是观念的改变”。
但阿尔法折叠革命激发了欧洲分子生物学实验室结构建模师扬·科辛斯基的远大梦想。他设想,受阿尔法折叠启发的工具不仅可用来对单个蛋白质和复合体进行建模,还可用来对整个细胞器甚至细胞进行建模,直到完整单个蛋白质分子,“这是我们在接下来的几十年里要追寻的梦想”。(◎实习记者 张佳欣)