如何利用蛋白质空间结构预测功能提升错义变异的致病性证据等级(如何丰富SCI文章写作内容)

思纠 2023-06-08 发布于云南

展开全文

随着测序技术的发展及广泛应用，越来越多的新发、罕见变异被检出。但是对于临床意义未明(variants of uncertain signifcance, VUS)、新发错义变异的解释和分类仍然是临床诊断的挑战。

文章作者来自英国的皇家德文大学(Royal Devon University)保健NHS基金会信托和埃克塞特大学医学院(University of Exeter School of Medicine)。

研究者经过计算机蛋白质结构预测分析，将64个VUS进行重新分类。在重新评估后，将47个重新分类为致病性（P）或可能致病性（LP）。将蛋白质结构信息纳入诊断实践，并提出一个通用工作流程，相关成果发表于《Genome Medicine》杂志。

作者发现许多错义变异(计算机预测后)会影响蛋白质与配体的结合或严重降低蛋白质的稳定性，从而导致蛋白质功能完全丧失(complete loss-of-function, LOF)。有些错义变异则通过功能获得机制(gain-of-function, GOF)影响蛋白结构域的关键区域。

作者认为计算机模拟蛋白空间结构的预测证据可以直接用于现有ACMG/ACGS指南中的PM1证据等级，这有助于确定错义变异的预测致病效应与临床表型及已知致病机制之间的一致性。

PM1：Located in a mutational hot spot and/or critical and well-established functional domain (e.g., active site of an enzyme) without benign variation

PM1：位于热点突变区域, 和/或位于已知无良性变异的关键功能域(如酶的活性位点).

作者纳入2016年至2020年转诊至埃克塞特基因组学实验室的患者中的变异，并进行蛋白质结构预测分析。

具体的工作流程，如下：首先通过UniProtKB数据库(Universal Protein Knowledgebase (UniProtKB)查询相关蛋白结构数据的可用性，如果没有同源或预测模型，将蛋白序列提交至蛋白质建模服务器(SWISS-MODEL、Phyre2和 I-TASSER），生成野生型/突变型蛋白结构，分析比较突变对蛋白结构的影响。通过多模板建模生成的模型，只有当预测的置信度≥90%，才能用于进一步预测分析。使用PyMol软件研究突变氨基酸对蛋白空间结构的影响；使用FoldX软件对突变型蛋白空间结构的热力学稳定性进行定量预测。

结果：64个VUS，有47个在预测分析后，被重新分类为致病性或可能致病性变异。根据专业判断，这47个变异的预测结构数据可作为PM1证据(13个为中等证据，34个为支持性证据)，17个仍被分类为VUS。

从三个方面预测突变对蛋白质的影响

分析跨物种的蛋白质序列保守性(analysis of conservation in homologous proteins across species)；

模拟突变对蛋白质质理化性质的影响(modelling the impact of mutation on the physicochemical properties of the protein)；

蛋白质热力学计算机预测(in silico thermodynamic predictions)：用于可能存在LOF机制的错义变异，对此识别具有高特异性。

目前，在人类蛋白质组中，仅17%蛋白是通过实验解析其结构；但通过计算机建模对比，可以用于结构分析的蛋白比例增加到约50%。

可用的蛋白质数据库，如下：

AlphaFold 蛋白结构库

七月末，DeepMind 发布 AlphaFold 蛋白结构库(the AlphaFold Protein Structure Database, AFDB)，公布了超过2亿个蛋白质的预测结构(包括了人类蛋白质组内的全部20000个蛋白质结构，还有大肠杆菌、果蝇、小鼠、斑马鱼、疟原虫、肺结核菌等)，几乎囊括了所有人类已知的蛋白质序列(98.5%)。在2.14 亿条序列的预测结构中，35% 是高度准确的。

AFDB使用AF2机器学习法(AlphaFold-2 machine-learning method)，用pLDDT分数(a predicted Local Distance Diference Test score, pLDDT) 对预测的蛋白结构进行自我评估，高于90分(满分100)属于高度可信。需要注意，pLDDT 打分极高，也依旧存在预测的结构与实际解析的结构具有较大差异的可能。但对于大部分无实验解析的结构，若预测的结构获得高的pLDDT分数，也可被认为高度可信。目前这部分高度可信的结构大约有7500万个。此外，还有45%的结构，约9600万个，足以使用(pLDDT为70 ~ 90)。

3D-Beacons

是一项新工具，一个新组织。2022.8.3，英、瑞士、德、意、匈、荷、美、韩八国学术机构联合推出 3D-Beacons，整合包含 AFDB 在内的多个蛋白质结构数据库，用统一格式，检索实验结构、预测结构、动态结构系综等。

PDBe：PDB欧洲，实验结构， PDB（蛋白数据银行）大约有19万个实验解析结构，每年新增约1万个新结构。

AlphaFold DB：从头预测

AlphaFill：基于模板预测

SWISS-MODEL Repository：瑞士模型库，基于模板预测

ModelArchive：从头预测 / 基于模板预测

SASBDB：Small-Angle Scattering Biological Data Bank，小角度衍射生物数据库

PED：Protein Ensemble Database，蛋白质系综数据库

举例子

研究错义突变对蛋白质结构的影响

升级致病性证据的等级

制作“漂亮的”蛋白质空间结构图

充实SCI写作内容

增加审稿人的兴趣

提升文章的可读性

提高SCI接受率

笔者从实际工作中举例

如下

蛋白质保守性分析

conservation

从氨基酸序列角度分析：

图1：黑框处表示DNA错义突变造成氨基酸变异所在的位置，通过跨多物种序列比对相同的位置，可见哺乳动物中，此处及其周边氨基酸序列高度保守。这个图直观。

字母的相对大小表示它们在序列中的频率。每个字母的高度与出现频率成正比，常以bits为单位。每个位置的字母按照保守性从大到小排列，最从上端的字母，其保守性最高。

同理，通过图2，分析变异位点处及其周边氨基酸的保守性。这个图形象。

从蛋白质空间结构角度分析：

如图3：利用PyMol软件分析蛋白保守序列的不同染色区域(区别不同的保守性)。此图需要知道氨基酸变异位点处于蛋白质的什么结构域，该结构域具有什么功能。如图蓝色箭头所指为某变异位点。黄色圈圈内，可见变异位点及其周边均为红色(红色为高度保守)，说明其参与形成的空间结构高度保守，该处结构具有某些重要功能，比如这个空间结构为蛋白质结合口袋(protein binding pockets)，口袋是指蛋白质表面或内部具有适合与配体结合的空腔，口袋周围的氨基酸残基决定了它的形状，位置，物化特性以及功能。口袋是蛋白质发生特异性相互作用的重要结构。蛋白质结构的柔性(flexibility)与运动(mobility)允许结合口袋的打开、关闭和适应，从而调节配体的结合过程和发挥特定的蛋白质功能。所以此图就可以解释为：错义变异造成氨基酸变异，改变空间结构的保守性，然后破坏XX功能，然后巴拉巴拉等等。。。文章中有这样的图是不是很棒？增加说明力。

蛋白质热力学稳定性分析

thermodynamic stability

如图4：已知p.G195D位点，已通过体外试验证实了其变异的有害性，p.G195D增加了变异位点处的泛素化、增加了该蛋白与F-actin结合能力，从而增加对肾足突细胞的有害性，体现了GOF的致病机制，而利用DynaMut对蛋白质热力学稳定性分析，稳定性降低，且发现变异位点处分子相互之间作用力增加(对比突变型和野生型，发现虚线增加，虚线代表分子间作用力)，可以猜测其与GOF有关，与泛素化增加和结合能力增加有关。而新发现的变异位点p.A165V与p.G195D处于同一个结构域。因此可以猜测，它们有类似的机制。同样对p.A165V进行蛋白质热力学稳定性分析，稳定性降低，且发现变异位点处分子相互之间作用力增加。因此可认为，新发现的变异位点p.A165V虽未做体外验证性试验，但其预测结果与已知p.G195D位点的计算机预测结果一致，可推断新发位点的有害性。

图5：LOF是常见的致病机制，热力学不稳定是一种通用机制，错义变异会导致蛋白质空间结构域的错误折叠和/或降解，如图使用FoldX对变异位点p.Pro163Arg进行评估。利用PyMol软件构建蛋白质空间结构。Pro163 位于一个环中，形成蛋白质细胞外区，不连续钙结合区的一部分，侧链被非极性氨基酸掩埋并包围。Arg取代Pro可能会导致与相邻侧链的空间冲突，同时将Arg的带电极性侧链置于疏水蛋白核心中。FoldX预测变异为极其不稳定的变化。

蛋白质理化性质分析

physicochemical properties

图6：错义变异引起LOF的另一种潜在机制是破坏与配体结合。图示GNAO1基因的错义变异位点p.Thr327Lys。因为现有的人类GNAO1蛋白实验结构模型未能提供所有的核苷酸结合域或结合配体，所以采用小鼠的Gnao1模型PDB 3c7k(与人类同源性 97.7%)和人类GNAi1模型PDB 6crk(与人类GNAO1同源性为73.8%)；图内模型用的是6crk模型，3c7k模型未显示，但结果与6crk模型一致。可以与核苷酸结合的G盒残基结构表示为蓝色；Thr327的碳原子呈橙色；未突变时，结果显示(图6A)：鸟嘌呤核苷酸(GDP)可直接与Thr327结合，并相互作用。当Thr327突变成Lys，结果显示(图6B)：长型结构的Lys(赖氨酸)侧链封闭配体结合口袋，从而阻止GDP结合(配体在预测结构中缺失)。

与LOF不同，导致GOF的变异通常难以解释，因为对结构的影响可能更加多变。也有证据显示，对于非LOF的错义变异的有害性预测来说，其表现通常较差，因此对其进行蛋白质结构模型预测分析是非常有益的。一些蛋白存在活性和非活性两种构象，非活性形式构象的不稳定，活性形式的稳定化，都会导致GOF的发生。

图7：MAP2K1基因变异位点p.Leu50Pro。MAPK1基因编码MAP/ERK激酶1(MEK1)，蛋白质N端的负调节区(NRR)，位于催化结构域之外，维持激酶处于非活性状态。Leu50位于NRR螺旋的内表面，与激酶结构域中的Asn122和Pro124接触(图7B)。FoldX分析显示ΔΔG值为4.4 kcal/mol，错义变异导致蛋白质结构严重不稳定。NRR区域的结构不稳定，使得MEK1激酶处于持续激活状态，这与致病性变异导致蛋白质局部空间不稳定引起的GOF机制一致。

GOF可以介导活性蛋白质的产量提升或减少蛋白质降解。图8：WNK1 基因错义变异p.Asp635Asn，该变异位点位于蛋白质序列的无序区域(regions of disordered)，无实验或高质量的预测模型。而事实上，无序区域(intrinsically disordered regions)也并非毫无作用，它们可以形成蛋白质-蛋白质之间弱相互作用(weak interactions)，形成凝聚物或无膜的微细胞器，参与大分子分配和其他细胞过程。许多无序的区域还包含短线性基序(short linear motifs, SLiM)，可能作为蛋白质-蛋白质相互作用或翻译后修饰的靶点。

作者利用真核线性基序资源(Eukaryotic Linear Motif resource, ELM)和 ScanSite 4.0扫描了野生型和突变型WNK1序列中潜在的功能位点。结果显示野生型WNK1序列中(601~700)存在一个与Kelch结合的degron基序，而p.Asp635Asn中这个基序消失了(图8)。

Degron是一种酸性基序，可介导与KLHL3的相互作用，形成KLHL3-Cullin复合物，辅助蛋白酶体降解含有degron的蛋白。因此，本案例中的错义变异，引起degron基序消失，蛋白酶体无法完成降解作用，使得蛋白质逃避降解，从而导致靶蛋白的积累和活性提高，这是GOF致病机制的一种解释。

局限性

某些错义变异可能从计算机预测角度分析，对蛋白质折叠或空间结构的影响是良性，但在体内，该变异可能对蛋白质折叠或空间结构产生重要影响。

处于蛋白表面的氨基酸变异可能会潜在性地影响蛋白质之间的相互作用。计算机预测对此可能会有些困难。目前关于蛋白质结构的配体和大分子相互作用的位点等这类信息，可以从已知的数据库(如PDBe-KB、VarMap、VarSite)中获得。处于蛋白表面的氨基酸变异可能导致疏水性区域(hydrophobic patches)的产生，这会使得蛋白质聚集，例如HBB基因的错义突变p.Glu6Val，会导致镰状细胞贫血。虽然已经开发出许多生物信息学工具来帮助预测蛋白质聚集(protein aggregation)，但在错义变异的致病性解释中，这类生物信息学工具很少使用。

由于这些原因，蛋白质空间结构计算机预测为良性的错义变异，并不能排除该变异实际上可能是有害的。有研究报道认为，在计算机结构性预测中组合使用序列保守性分析和热力学稳定性分析，可以很好地将致病性和良性的变异充分区别开。多方式预测组合和综合性地使用蛋白质结构数据，将有助于变异分类。

参考文献：

Caswell RC, Gunning AC, Owens MM, et al. Assessing the clinical utility of protein structural analysis in genomic variant classification: experiences from a diagnostic laboratory. Genome Med, 2022, 22;14(1):77. doi: 10.1186/s13073-022-01082-2.

更多内容

用什么方法预测错义突变是否影响蛋白质的稳定性？

手把手教 | 如何用Jalview做蛋白质序列比对及保守性分析

如有上述类似的作图需要，可私信笔者

当然需要一点点费用啦

每一张图每一个错义变异位点

50元人民币

应该不贵吧

感谢支持

PyMol软件作图，如下