分享

AlphaFold2 生成肽结构的基准测试

 DrugAI 2022-12-27 发布于韩国

今天带来的是美国范德比尔特大学结构生物学中心的Alican Gulsevin等人的实验室发表在Structure上的Benchmarking AF2 on peptide structure prediction。

计算工具的最新进展AlphaFold2(AF2)可以高精度地预测蛋白质结构。计算预测方法已用于模拟许多可溶性和膜蛋白,但这些方法在模拟肽结构方面的性能尚未得到系统研究。本文通过着力于探究AF2生成肽结构的能力。使用实验确定的NMR结构作为参考,对  AF2  在预测10-40个氨基酸之间的  588  个肽结构的准确性进行了基准测试。并与其他肽结构生成算法进行比较。

实验结果表明AF2 在预测  F/J  角、二硫键模式和最低RMSD结构未能与最低pLDDT  等级结构相关这三个方面存在不足。且AF2 的预测精度受肽二级结构影响。但是基于深度学习的方法优于专用的肽结构预测工具。计算可以成为预测肽结构的强大工具,但是缺少分析和验证结果的方法和工具。

使用实验确定的NMR结构作为参考,对  AF2  在预测10-40个氨基酸之间的  588  个肽结构的准确性进行了基准测试。我们的结果表明,AF2  可以高精度预测  a-螺旋、b-发夹和富含二硫化物的肽。  AF2  的表现至少与专门为肽结构预测开发的替代方法一样好(如果不是更好的话)。  

AF2  在预测  F/J  角、二硫键模式和最低  RMSD  结构未能与最低  pLDDT  等级结构相关时显示出一些缺点。总之,计算可以成为预测肽结构的强大工具,但可能需要额外的步骤来分析和验证结果。

实验方法

图1 在肽结构预测上对AF2进行基准测试的工作流

工作流:本文使用AF2通过实验确定的NMR模型来预测6个肽类的588个肽序列的结构。具体如图1A所示,预测阶段使用了五个AF2模型。图1B展示了对于预测模型的评价方法,通过详尽地成对计算 Ca RMSD,将五个输出模型与每个  NMR  进行了比较。然后将每类肽的  RMSD  分布绘制为直方图,并检查  RMSD  高于平均值一个标准差、两个标准差或三个标准差的模型以了解AF2  如何未能预测实验模型。

归一化到考虑的区域内的残留数,以防止由不同肽的大小变化引起的任何偏差。

数据:本文从PDB数据库(http://www.)中选择了588个实验确定的核磁共振结构的肽,包括明确的二级结构元素和无序区域。这些肽被分为以下基准集:a-螺旋膜相关肽(AH MP)、a-螺旋可溶性肽(AH SL)、混合二级结构膜相关肽(MIX MP)、混合二级结构可溶性肽(MIX SL)、b-发夹肽(BHPIN)和富二硫肽(DSRP)。

局限:本文的第一个局限性是由许多多肽的固有灵活性引起的。多肽可以具有高度灵活的区域,包括线圈或旋转,这可能导致同一结构的多种构象。核磁共振结构通常由构象的集合组成,这使得预测结构和实验结构之间的精确比较具有挑战性。本文为了规避这个局限将NMR模型的集合与每种方法的所有预测输出进行两两比较,从而得到比较的分布,并选择最低的Ca RMSD用于说明目的和方法之间的统计比较。此外,核磁共振和x射线结构的比较表明,在AF2的性能方面没有显着差异。

另一个局限是核磁共振鉴定的结构可能存在替代的低能构象。特别是对于具有多个由旋转或线圈连接的结构域的螺旋,用实验方法捕获的结构可能只代表多肽的多种构象中的一种。AF2预测的结构不一定是错误的,它们可能只是对应于肽的另一种构象。

结果

螺旋膜相关肽的预测具有良好的准确性和很少的异常值。这些多肽被定义为聚酰胺,折叠成一个主要的螺旋结构在膜环境的存在。对于AF2和NMR模型之间的所有成对比较,归一化Ca rmsd的直方图显示了一个单峰高斯分布,每个残基的平均值为0.098 A如图2所示,平均值和中位数用黑色表示。利用核密度估计对数据进行多模态高斯拟合。高于平均值1、2和3个标准差分别用蓝色、黄色和红色表示。在某些情况下,AF2不能预测a-螺旋多肽的螺旋和螺旋-螺旋的结束。尽管AF2通过Ca RMSD很好地预测了AH MPs,但它无法恢复f和J角,特别是对于低Ca RMSD对。

图2 A2对膜相关a-螺旋多肽的表现

a-螺旋可溶性肽表现出异常值,与膜相关肽相比表现较差。a-螺旋可溶性肽组被定义为a-螺旋肽,其结构未在膜环境中鉴定。可溶性a-螺旋多肽的离群值再次表明AF2难以预测helix-turn-helix结构。AF2预测缺乏a-螺旋理想性。

混合二级结构膜相关肽的RMSD值在所有基准组中变化最大。混合二级结构肽被鉴定为与a-螺旋膜肽一样与膜相互作用,但它们由多个二级结构区域组成。模型表明AF2正确地预测了二级结构,但未能与多肽结构较弱的区域重叠。

混合二级结构可溶性肽具有中等的准确性。混合二级结构可溶性肽群定义为具有相同二级结构性质的肽群,AF2在这类肽的结果表明其无法预测次级结构-非结构边界的方向。

b-发夹肽预测效果很好。b-发夹肽组包括具有单发夹基序的肽。由于二硫键的存在,这个基团的成员可以或不可以被钉住。所有高于平均值的模型都是未装订的。表明AF2具有更好的习得b-sheet F/J理想性优于a-helix phi psi理想性。

富二硫肽结构预测精度高,但二硫键模式存在差异。富二硫肽(DSRP)在这项工作的背景下被定义为任何具有两个或多个二硫键的肽,共包含266个肽。AF2未能预测DSRPs中包含连续的半胱氨酸的多肽的正确二硫键模式。

我们的结果表明,AF2用来评估球状蛋白结构的pLDDT指标并不是一个有意义的肽构象分类指标。

比较其他模型

使用替代预测方法PEPFOLD3, Omega-Fold, RoseTTAFold和APPTEST来预测588个肽模型,并在统计基础上与AF2比较评估每种方法的性能。具体如图3所示,AF2在统计上的表现均显著优于PEPFOLD3、Omega-Fold、RoseTTFold和APPTEST。对于MIX MP,除APPTEST外,所有方法的准确性均相当。Omega-Fold在MIX SL中的表现与AF2一样好,并且都优于其他方法。

图3各个计算预测方法预测的平均Ca RMSD分布比较

总结

AF2可以用于目标肽预计具有明确的二级结构,并且缺乏可能具有不同构象的多弯或柔性区域的小于40个氨基酸的肽结构的建模。AF2在预测a-螺旋膜相关肽和DSRPs方面特别成功,但在延伸的卷曲或柔性区域的情况下准确度降低。即使对于dsrp,它准确地预测了整体,二硫键模式可能导致肽建模的错误。在缺乏对af2生成结构的明确选择标准的情况下,可能有必要增加生成的输出结构的数量,并使用聚类等方法来缩小更频繁采样或显示更一致模式的构象,以选择准确的结构。此外,pLDDT作为AF2用来对生成的结构进行排名的主要指标,并不是一个很好的衡量肽结构是否被准确预测的指标,因此从AF2生成的结构中选择替代指标可能是必要的。总的来说,使用AF2进行肽结构预测将需要开发额外的指标和控制来提高其准确性。

参考资料

McDonald, Eli Fritz, Taylor Jones, Lars Plate, Jens Meiler, and Alican Gulsevin. "Benchmarking AlphaFold2 on peptide structure prediction." Structure (2022).

https:///10.1016/j.str.2022.11.012

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多