作者发现许多错义变异(计算机预测后)会影响蛋白质与配体的结合或严重降低蛋白质的稳定性,从而导致蛋白质功能完全丧失(complete loss-of-function, LOF)。有些错义变异则通过功能获得机制(gain-of-function, GOF)影响蛋白结构域的关键区域。 作者认为计算机模拟蛋白空间结构的预测证据可以直接用于现有ACMG/ACGS指南中的PM1证据等级,这有助于确定错义变异的预测致病效应与临床表型及已知致病机制之间的一致性。 PM1:Located in a mutational hot spot and/or critical and well-established functional domain (e.g., active site of an enzyme) without benign variation PM1:位于热点突变区域, 和/或位于已知无良性变异的关键功能域(如酶的活性位点). 作者纳入2016年至2020年转诊至埃克塞特基因组学实验室的患者中的变异,并进行蛋白质结构预测分析。 具体的工作流程,如下:首先通过UniProtKB数据库(Universal Protein Knowledgebase (UniProtKB)查询相关蛋白结构数据的可用性,如果没有同源或预测模型,将蛋白序列提交至蛋白质建模服务器(SWISS-MODEL、Phyre2和 I-TASSER),生成野生型/突变型蛋白结构,分析比较突变对蛋白结构的影响。通过多模板建模生成的模型,只有当预测的置信度≥90%,才能用于进一步预测分析。使用PyMol软件研究突变氨基酸对蛋白空间结构的影响;使用FoldX软件对突变型蛋白空间结构的热力学稳定性进行定量预测。 结果:64个VUS,有47个在预测分析后,被重新分类为致病性或可能致病性变异。根据专业判断,这47个变异的预测结构数据可作为PM1证据(13个为中等证据,34个为支持性证据),17个仍被分类为VUS。 从三个方面预测突变对蛋白质的影响 分析跨物种的蛋白质序列保守性(analysis of conservation in homologous proteins across species); 模拟突变对蛋白质质理化性质的影响(modelling the impact of mutation on the physicochemical properties of the protein); 蛋白质热力学计算机预测(in silico thermodynamic predictions):用于可能存在LOF机制的错义变异,对此识别具有高特异性。 AlphaFold 蛋白结构库 七月末,DeepMind 发布 AlphaFold 蛋白结构库(the AlphaFold Protein Structure Database, AFDB),公布了超过2亿个蛋白质的预测结构(包括了人类蛋白质组内的全部20000个蛋白质结构,还有大肠杆菌、果蝇、小鼠、斑马鱼、疟原虫、肺结核菌等),几乎囊括了所有人类已知的蛋白质序列(98.5%)。在2.14 亿条序列的预测结构中,35% 是高度准确的。 AFDB使用AF2机器学习法(AlphaFold-2 machine-learning method),用pLDDT分数(a predicted Local Distance Diference Test score, pLDDT) 对预测的蛋白结构进行自我评估,高于90分(满分100)属于高度可信。需要注意,pLDDT 打分极高,也依旧存在预测的结构与实际解析的结构具有较大差异的可能。但对于大部分无实验解析的结构,若预测的结构获得高的pLDDT分数,也可被认为高度可信。目前这部分高度可信的结构大约有7500万个。此外,还有45%的结构,约9600万个,足以使用(pLDDT为70 ~ 90)。 研究错义突变对蛋白质结构的影响 升级致病性证据的等级 制作“漂亮的”蛋白质空间结构图 充实SCI写作内容 增加审稿人的兴趣 提升文章的可读性 提高SCI接受率 笔者从实际工作中举例 如下 从氨基酸序列角度分析: 字母的相对大小表示它们在序列中的频率。每个字母的高度与出现频率成正比,常以bits为单位。每个位置的字母按照保守性从大到小排列,最从上端的字母,其保守性最高。 从蛋白质空间结构角度分析: 如图3:利用PyMol软件分析蛋白保守序列的不同染色区域(区别不同的保守性)。此图需要知道氨基酸变异位点处于蛋白质的什么结构域,该结构域具有什么功能。如图蓝色箭头所指为某变异位点。黄色圈圈内,可见变异位点及其周边均为红色(红色为高度保守),说明其参与形成的空间结构高度保守,该处结构具有某些重要功能,比如这个空间结构为蛋白质结合口袋(protein binding pockets),口袋是指蛋白质表面或内部具有适合与配体结合的空腔,口袋周围的氨基酸残基决定了它的形状,位置,物化特性以及功能。口袋是蛋白质发生特异性相互作用的重要结构。蛋白质结构的柔性(flexibility)与运动(mobility)允许结合口袋的打开、关闭和适应,从而调节配体的结合过程和发挥特定的蛋白质功能。所以此图就可以解释为:错义变异造成氨基酸变异,改变空间结构的保守性,然后破坏XX功能,然后巴拉巴拉等等。。。文章中有这样的图是不是很棒?增加说明力。 图6:错义变异引起LOF的另一种潜在机制是破坏与配体结合。图示GNAO1基因的错义变异位点p.Thr327Lys。因为现有的人类GNAO1蛋白实验结构模型未能提供所有的核苷酸结合域或结合配体,所以采用小鼠的Gnao1模型PDB 3c7k(与人类同源性 97.7%)和人类GNAi1模型PDB 6crk(与人类GNAO1同源性为73.8%);图内模型用的是6crk模型,3c7k模型未显示,但结果与6crk模型一致。可以与核苷酸结合的G盒残基结构表示为蓝色;Thr327的碳原子呈橙色;未突变时,结果显示(图6A):鸟嘌呤核苷酸(GDP)可直接与Thr327结合,并相互作用。当Thr327突变成Lys,结果显示(图6B):长型结构的Lys(赖氨酸)侧链封闭配体结合口袋,从而阻止GDP结合(配体在预测结构中缺失)。 局限性 某些错义变异可能从计算机预测角度分析,对蛋白质折叠或空间结构的影响是良性,但在体内,该变异可能对蛋白质折叠或空间结构产生重要影响。 处于蛋白表面的氨基酸变异可能会潜在性地影响蛋白质之间的相互作用。计算机预测对此可能会有些困难。目前关于蛋白质结构的配体和大分子相互作用的位点等这类信息,可以从已知的数据库(如PDBe-KB、VarMap、VarSite)中获得。处于蛋白表面的氨基酸变异可能导致疏水性区域(hydrophobic patches)的产生,这会使得蛋白质聚集,例如HBB基因的错义突变p.Glu6Val,会导致镰状细胞贫血。虽然已经开发出许多生物信息学工具来帮助预测蛋白质聚集(protein aggregation),但在错义变异的致病性解释中,这类生物信息学工具很少使用。 由于这些原因,蛋白质空间结构计算机预测为良性的错义变异,并不能排除该变异实际上可能是有害的。有研究报道认为,在计算机结构性预测中组合使用序列保守性分析和热力学稳定性分析,可以很好地将致病性和良性的变异充分区别开。多方式预测组合和综合性地使用蛋白质结构数据,将有助于变异分类。 参考文献: Caswell RC, Gunning AC, Owens MM, et al. Assessing the clinical utility of protein structural analysis in genomic variant classification: experiences from a diagnostic laboratory. Genome Med, 2022, 22;14(1):77. doi: 10.1186/s13073-022-01082-2. |
|
来自: 思纠 > 《变异解读与遗传咨询》