人类将会永生?谷歌 DeepMind重磅发布Alphafold 3 ——天花板级别的AI系统
当地时间 5 月 8 日,顶级科学期刊《Nature》发表了一份重磅研究论文。谷歌 DeepMind 发布了其生物学预测工具 AlphaFold 的最新版本——AlphaFold 3。
这个革命性的新模型,能以前所未有的精度预测所有生命分子的结构和相互作用。作为一个以整体方式计算整个分子复合物的单一模型,不仅可以预测蛋白质的结构,还可以预测几乎所有生命分子的结构,包括蛋白质、DNA、RNA、配体等对于蛋白质与其他分子类型的相互作用,从而能对药物发现带来至关重要的作用。
这份由谷歌DeepMind和其英国子公司Isomorphic Labs联合团队带来的46页成果显示,全新AI蛋白质结构预测模型AlphaFold 3,可准确预测生物分子相互作用的结构,而且相较于现有的预测技术,AlphaFold 3在蛋白质与其他分子类型的相互作用预测上至少提高50%,并在某些关键的相互作用类别上实现精度翻倍。
2020年,谷歌旗下公司DeepMind首次推出基于AI的蛋白质结构预测工具——AlphaFold。
2021年7月,DeepMind团队推出了AlphaFold 2,其能够根据氨基酸序列来准确预测蛋白质的3D结构——全球已有数百万研究人员将AlphaFold 2应用在疟疾疫苗和酶设计等领域。
此后,DeepMind团队还推出了AlphaFold-Multimer,用于预测蛋白质-蛋白质复合物的结构和相互作用。由于不同类型的特异性相互作用差异太大,扩大单一深度学习模型能预测的复合物范围一直很难。
AlphaFold 3全新架构
AlphaFold 3的强大功能源自其全新的架构和训练方法,覆盖所有生命分子。该模型核心部分是进化形成器(Evoformer)的升级版——一个深度学习架构,支持AlphaFold 2异乎寻常的表现。
AlphaFold 3基于Transformer构建,允许科学家输入生物分子复合物的描述,能预测该生物分子复合物的3D结构,并使用扩散过程生成每个原子的单独3D坐标,输入到指定系统。输入后,AlphaFold 3使用扩散网络处理其预测,类似于AI 图像生成器中的网络。扩散过程从原子云开始,经过许多步骤汇聚成最终的、最准确的分子结构。为避免扩散方法在一些无结构区域产生幻觉,还引入了一种新的交叉蒸馏方法,通过AlphaFold-Multimer v2预测的结构数据来丰富训练数据。AlphaFold 3在训练数据极度匮乏的领域也展现出了惊人的泛化能力。如在几乎没有RNA训练数据的情况下,CASP15的RNA预测任务中,在10个公开靶点上的平均表现超过了专门的RNA结构预测模型。
对于蛋白质与DNA结合的准确性,AlphaFold 3的成功率65%,目前的技术水平只有28%。甚至AlphaFold 3还改进了蛋白质相互作用能力,当蛋白质与抗体复杂结合时,AlphaFold 3的准确成功率达62%,而其他系统只有30%,是AlphaFold 2性能的两倍。对于蛋白质与其他分子的重要相互作用领域,AlphaFold 3预测准确度提高一倍(100%)。
AlphaFold 3在预测分子相互作用方面的准确度超过了所有现有技术。作为一个能够全面计算整个分子复合体的单一模型。
下图展示了AlphaFold 3对蛋白质(蓝色)与DNA双螺旋(粉色)结合的分子复合物的预测,与真实分子结构(灰色)几乎完美匹配。
AlphaFold 3 核心技术
AlphaFold 3 的核心技术基于其前身 AlphaFold 2 的 Evoformer 模块,在此基础上引入扩散网络(Diffusion Model),类似于人工智能图像生成器中使用的网络。通过从原子云开始,经过多个步骤汇聚成最终的、最准确的分子结构,AlphaFold 3 实现对蛋白质、核酸、小分子、离子和修饰残基等所有生命分子的联合结构预测。
AlphaFold 3 在预测生物分子结构和相互作用方面展现出前所未有的准确性:
• 与现有的预测方法相比,AlphaFold 3 至少有 50% 的改进。在预测一些重要的分子相互作用类别时,AlphaFold 3 的预测精度提高一倍。
• 在 PoseBusters 基准测试中,AlphaFold 3 的准确率比最好的传统方法高出 50%,且无需输入任何结构信息作为先验。AlphaFold 3 成为第一个超越基于物理的生物分子结构预测工具的人工智能系统。
• 在预测药物相互作用方面,AlphaFold 3 实现前所未有的准确性,包括蛋白质与配体的结合以及抗体与其目标蛋白质的结合。
• AlphaFold 3 能够准确预测感冒病毒刺突蛋白与抗体和糖分子的复合物结构,与真实结构高度匹配。
AlphaFold 3 意义何在
AlphaFold 3通过对药物分子(例如与蛋白质结合的配体和抗体)的预测,为药物设计赋能,从而改变人类健康和疾病过程中蛋白质的相互作用方式。Isomorphic Labs正在使用AlphaFold 3以及一系列自主研发的AI模型,与制药公司合作进行药物研发。AlphaFold 3能够在几秒钟内生成高度精确的结构预测,为药物研发人员提供了快速准确预测从未被表征的复杂结构的能力。
Isomorphic Labs在日常工作中使用AlphaFold 3并发现:
· 针对AlphaFold 3的结构预测设计小分子,有助于设计出能有效结合靶蛋白的分子。
· AlphaFold 3提高了蛋白-蛋白相互作用结构的准确性,为设计新的治疗模式(如抗体或其他治疗性蛋白质)打开了可能性。
· 通过观察目标蛋白在完整生物环境中(与其他蛋白质、DNA、RNA或配体的结合)的结构,可以更深入地了解新靶点,有助于开发更有效的临床药物。
AlphaFold Server:免费且易于使用的研究工具
谷歌DeepMind一并推出的AlphaFold Server免费平台,用于预测蛋白质如何在细胞内与其他分子相互作用,允许全球科学家进行非商业性研究使用,包含免费的2亿蛋白质结构数据库。
只需点几下鼠标,就可以利用AlphaFold 3预测蛋白质、DNA、RNA以及一系列配体、离子和化学修饰组成的结构模型,进而帮助人们提出新颖的假设以便在实验室进行测试,加快创新。从此科学家在实验中的研究假设,就可以由AlphaFold Server验证。
AlphaFold Server平台,意义重大。
实验性的蛋白质结构预测,原本需要花费读个博士学位的时间,以及数十万美元的费用。而按照当前实验结构生物学的发展速度,这本需要数亿researcher-year的工作。有了AlphaFold 3,从此生物世界可以高清晰度呈现。科学家能够全面观察细胞系统的复杂性,包括结构、相互作用和修饰,药物作用、激素生成和DNA修复如何影响生物功能,从此都将被揭示。
AlphaFold 3局限性
· 立体化学限制:模型输出的立体化学有时会违反手性规则,尽管输入是正确手性的参考结构。另外,模型偶尔会产生重叠的原子。
· 幻觉影响:从非生成性的AlphaFold 2模型转换到基于扩散的AlphaFold 3模型,引入了在无序区域中产生虚假结构秩序(幻觉)的挑战。虽然幻觉区域通常被标记为低置信度,但它们可能缺乏AlphaFold 2在无序区域中产生的典型丝带状外观。
· 预测准确性问题:对于某些目标,准确预测仍然具有挑战性。为获得最高精度,可能需要生成大量预测并对其进行排名,这增加了计算成本。特别是对于抗体-抗原复合物,预测质量随着模型种子的数量增加而显著提高。
· 结构构象限制:模型预测的结构构象可能不正确或不够全面,这取决于指定的配体和其他输入。例如,E3泛素连接酶在无配体时呈现开放构象,但模型预测的构象只有闭合状态。
· 缺乏动态信息:模型主要预测生物分子系统的静态结构,而不是在溶液中的动态行为。
· 特定目标预测限制:对于某些特定类型的生物分子复合物,模型的预测可能存在局限性。
瑕不掩瑜,AlphaFold 3仍然证明可以构建一个深度学习系统,对所有这些相互作用显示出强大的覆盖和泛化能力。未来,实验结构测定方法的进步,如冷冻电镜和断层扫描技术的显著改进,将提供大量新训练数据,进一步改善这类模型的泛化能力。标志着在这一领域的一个重大突破,其对生物分子结构及相互作用的全方位预测能力,预示着对人类健康和疾病治疗的深远影响。
总结
- AlphaFold,开创蛋白质结构预测的新时代
- AlphaFold 2,大幅提高了预测精度
- AlphaFold-Multimer,将预测范围扩展到具有多个蛋白质链的复合物
- AlphaFold 2.3,提高了性能并将覆盖范围扩大到更大的复合物
- AlphaFold 3,继续将预测范围扩展到蛋白质、DNA、RNA以及一系列配体、离子和化学修饰等更多生物分子结构。
AlphaFold 3的问世不仅推动了对蛋白质的研究,还拓展到更广泛的生物分子领域,这一飞跃可能将开启更多变革性科学的新篇章,从开发生物可再生材料到加速药物设计和基因组学研究等领域都将受益匪浅。
蓝海大脑 京ICP备18017748号-1