分享

通过多序列比对生成来增强蛋白质三级结构预测

 DrugAI 2023-07-07 发布于韩国

今天为大家介绍的是来自Yu Li和Siqi Sun团队的一篇关于蛋白质结构预测的论文。蛋白质折叠研究领域已经通过深度学习方法取得了重大进展,其中AlphaFold2(AF2)展现出了非凡的性能和原子级精度。由于共同进化在蛋白质结构预测中至关重要,AF2的准确性在很大程度上受到多序列比对(MSA)的深度影响,而MSA需要对大型蛋白质数据库进行广泛的探索以寻找相似序列。然而,并非所有蛋白质序列都具有丰富的同源家族,因此,在此类查询中,AF2的性能可能会下降,有时无法产生有意义的结果。为了解决这个问题,作者引入了一种新颖的生成式语言模型,称为MSA-Augmenter,它利用蛋白质特定的注意机制和大规模MSA来生成目前数据库中尚未发现的有用的新蛋白质序列。这些序列补充了浅层MSA,增强了结构性质预测的准确性。

深度学习技术的快速发展极大地解决了结构生物学中蛋白质折叠预测的长期挑战。AlphaFold2(AF2)在这一任务中展示出了非凡的精确性,这主要归功于它使用了多序列比对(MSA)——一系列具有相同长度的多样同源序列,这些序列共享进化信息。然而,当目标蛋白质的同源序列较少时,就会出现问题,导致MSA质量较差。基于MSA的模型在这种低质量的MSA下性能显著下降。此外,由于需要在迅速扩大的蛋白质数据库中搜索数百万甚至数十亿的序列,构建MSA是一项费时费力的工作。

图 1

自然语言处理(NLP)方面取得的重大进展,特别是在上下文条件化文本生成方面,为蛋白质研究的挑战提供了潜在的解决方案。值得注意的是,基于Transformer的语言模型在各种生成任务中展现了卓越的性能,表明其在文本之外的领域也具有适用性。通过利用这些进展,作者提出通过将蛋白质序列视为文本来增强不完全多序列比对(MSA),流程如图1所示,从而改善蛋白质结构预测等下游任务。

MSA-Augmenter

图2 模型架构

作者引入了群组序列生成(Group Sequence Generation,GSG)这一新任务,旨在从单个MSA输入中创建一簇同质序列。与传统的机器翻译任务将每个目标序列映射到单个源序列不同,GSG同时生成多个序列,并利用一系列源序列的全局进化信息(按行和按列)。作者的方法通过对编码器输出进行深度平均来简化源信息的融合。在解码阶段,解码器持续访问这些全面的状态来解码每个序列,这与标准的机器翻译有所不同。模型的架构和生成过程如图2所示。这样设计有两个优点。首先,它便于无缝地将源输入的全局知识纳入生成同源序列的过程中,这对于生成同质序列至关重要。其次,在跨行注意力阶段采用的深度平均方法可以通过将展开的MSA的序列长度从 D·L 缩短为 L,其中 D 是输入 MSA 的深度,L 是 MSA 的序列长度,从而降低计算复杂度。这种策略通过并行生成加快了解码过程,而不是采用自回归生成的方式。

MSA-Augmenter是一个序列到序列的Transformer模型,它利用双向编码器对输入的MSA信息进行上下文化处理,并使用自回归解码器基于这个上下文生成序列。为了将输入从文本适应到MSA,作者采用了基于行和列的注意机制,如图2所示。这个机制还降低了建模输入的计算复杂度。此外,作者的模型包括一个跨列模块来处理面向列的信息,以及一个跨行模块在解码过程中关注全局输入上下文。模型的最终目标是并行的生成同源序列。

为了鼓励生成新颖的序列并避免重复,作者采用了一个核心抽样(nucleus sampling)的方法,其中参数top-p=50和top-k=10。由于MSA-Augmenter能够同时生成多个序列,它可以潜在地生成大量的序列。利用这个能力,作者为每个深度为m的MSA生成n个补充序列。然后将这些序列与原始输入连接起来,创建一个深度为m + n的增强MSA序列。

尽管有能力生成大量序列,作者观察到它们的质量存在变化和不一致性。为了筛选出高质量的序列,作者采用了pLDDT得分,这是AlphaFold2的置信度指标,表示预测结果的质量,较高的得分表示更准确的预测。通过使用pLDDT得分作为选择标准,作者多次增强每个MSA进行多次试验,并获得每次试验的对应pLDDT得分。选择具有最高pLDDT得分的MSA作为最佳的集成增强结果,并与基准真实值计算LDDT得分。

实验部分

作者研究使用了与AF2相同的评估数据集CAS14,这是一个由来自不同生物家族的蛋白质组成的高度受认可的数据集。为了评估MSA-Augmenter的改进效果,作者从CASP14中构建了一个测试集。这些序列的MSA是使用JackHMMER构建的,它在包含7000万个序列的广泛UniRef90数据库中进行搜索。根据MSA的深度将CASP14数据分为两组。第一组是真实世界中具有挑战性的MSA数据集,包含了11个MSA深度小于10的序列,对AF2的性能提出了重大挑战。第二组是人工构建的具有挑战性的MSA数据集,由其余81个MSA深度大于10的目标组成。所有评估都以zero-shot方式进行。

LDDT是广泛使用的评分方法,用于评估实际结构与预测结构之间的局部距离差异。它们的取值范围从0到100,其中100表示完全匹配。为了评估MSA-Augmenter是否增强了折叠算法作者比较了AlphaFold2(AF2)在低质量MSA(增强之前和之后)的输出中的LDDT差异。对于每个MSA,AF2生成五个独立的预测结构,并附带相应的预测LDDT(pLDDT)作为衡量AF2对其预测的置信度的指标。由于pLDDT和真实LDDT之间存在很强的相关性,它是评估MSA质量的重要标准。选择具有最高pLDDT的预测作为最终输出结果。

图 3

为了进行全面的评估,作者从人工构建的具有挑战性的MSA数据集中为所有目标选择了15个同源序列。这产生了81个深度为15的MSA,通过减少同源序列,将它们转化为对AF2难以预测的目标。这些经过降采样的MSA被标记为“黄金标准”,作为提出的方法的性能上限。作者进一步将这些MSA降采样为五个同源序列,创建了挑战性目标,以供模型进行增强。作者使用MSA-Augmenter对这些MSA进行了三次试验,将它们增强到深度为15,然后进行集成以进行比较。如图3(左图)所示,“人工原始”的LDDT分布与“黄金标准”的分布相比显著下降,而MSA-Augmenter可以通过融入额外的共进化信息来填补这一差距。图3(右图)展示了人工具有挑战性的MSA的整体LDDT改进情况。大部分“人工原始”MSA的LDDT值落在对角线以下,而大部分“人工增强”MSA的LDDT值位于对角线以上,其中一些显著超过了“人工原始”的LDDT值。MSA-Augmenter显著提高了整体的结构预测准确性,平均LDDT提高了12.87。

表格 1

MSA-Augmenter的最终目标是提高在真实世界中、质量较低的MSA中的蛋白质结构预测能力。作者在真实世界具有挑战性的MSA上进行了测试。表1(左)显示了在pLDDT指标上的改进,表明MSA-Augmenter的有效性,挑战性数据集的平均pLDDT提高了6.39。此外,多次试验通常会产生更好的结果,因为模型能够生成有效的序列。值得注意的是,一些序列(例如T1093-D1、T1096-D1)的pLDDT有显著提高。然而,一些序列(如T1074-D1和T1093-D3)的pLDDT没有增加,这表明这些序列及其对应的家族可能不在预训练数据集中,从而限制了模型的零样本生成能力。

尽管pLDDT与LDDT相关,但它并不直接将预测的结构与实验室实验得出的结构进行比较。因此,将pLDDT作为选择标准可能更加实际。作者选择具有最高pLDDT的MSA与基准真实结构一起计算LDDT。表1(右)显示,增强有效地改进了质量较低的MSA的结构预测。具体而言,11个MSA中有8个得到了有效增强,平均LDDT提高了4.2。在T1093-D1(仅有三个同源序列)中观察到了最大的LDDT改进,从45.5提高到70.77。然而,在某些MSA中,例如T1094-D2(pLDDT增加2.8,LDDT减少0.1)和T1099-D1(pLDDT增加1.11,LDDT减少0.5),pLDDT的增加与LDDT的减少相对应,这表明pLDDT并不总是可靠的选择标准。

结论

作者提出MSA-Augmenter,这是一个基于Transformer的seq2seq模型,用于同质蛋白质序列的生成。该模型在群组序列生成任务上进行训练,可以高效地并行生成共进化序列。实验结果表明,该模型在未见过的蛋白质家族上具有强大的泛化能力,特别是在MSA质量较低时生成高质量序列,对蛋白质折叠任务非常有价值。

参考资料

Zhang, L., Chen, J., Shen, T., Li, Y., & Sun, S. (2023). Enhancing the Protein Tertiary Structure Prediction by Multiple Sequence Alignment Generation. arXiv preprint arXiv:2306.01824.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多