【原】JCIM | 可解释人工智能助力临床前相关性评估

DrugAI 2022-04-19

展开全文

作者：杨慧丹
审稿：周珍冉

今天给大家介绍来自苏黎世联邦理工学院的José Jiménez-Luna、Gisbert Schneider，以及勃林格殷格翰药业有限公司的Miha Skalic、Nils Weskamp四人联合发表在JCIM期刊上的一项研究成果《Coloring Molecules with Explainable Artificial Intelligence for Preclinical Relevance Assessment》。该研究通过将积分梯度可解释人工智能（XAI）方法应用于图神经网络模型，提高了理性分子设计的建模透明度，并基于四个药理学相关ADME终点的实验，验证了所提出的方法能够突出与已知药效团基序一致的分子特征和结构元素，正确识别性质断崖，并提供了对非特异性配体-靶标相互作用的见解。

研究背景

成功的候选药物不仅要对特定的靶蛋白或通道具有足够的活性，还要具有合适的吸收、分布、代谢和排泄（ADME）特性和安全性。定量构效关系(QSPR)方法已被广泛用于缩小计算机模拟实验与体外数据之间的差距，而深度学习方法正是最流行的机器学习QSPR方法之一。其中，消息传递神经网络（MPNN，通常被称为图神经网络）在基于配体的分子性质预测方面表现出了良好的性能，但对已建立的化学语言缺乏可解释性，其在药物发现中的实用性和可接受性受到了限制，且其存在的Clever Hans effect（聪明汉斯效应）和做出错误预测的事实也进一步加剧了这种局限性。“可解释的”人工智能（XAI）则旨在通过使机器学习方法的决策过程对于人类思维更加透明，从而克服其中的一些限制。

研究团队在此背景下开发了一个基于结构和特性的XAL方法，即积分梯度特征归因技术，用于检验其对ADME和安全相关终点的实用性。作者提供了这种XAI方法的第一个开源实现，所有经过训练的模型和评估代码可以供其他研究人员重现显示的结果、对新示例进行测试，并将该方法应用于他们自己的消息传递模型。

模型与方法

XAL方法

该方法将消息传递图神经网络(GNN)与前馈神经网络(FNN)相结合，处理以分子图形式呈现的输入，分子图具有原子、键和计算的全局属性（例如：正辛醇-水分配系数、拓扑极性表面积），然后应用积分梯度法来计算原子、键和全局重要性得分。

图1.XAL方法和神经网络架构的示意图

消息传递神经网络(MPNN)属于图卷积神经网络(GCN)家族，本研究应用了 Gilmer等人提出的MPNN架构，该架构结合了图卷积网络和Set2Set子模型来嵌入分子并计算预测。此外，为了解释非特异性分子相互作用，还包括一个全连通的神经网络子架构以计算物理化学特征。图1介绍了关于如何使用不同类型的信息来生成预测的可视化表示，包括通过消息传递生成的潜在图向量和计算出的全局分子特性的向量。

数据处理

实验选取了四个药理学相关参数，分别为血浆蛋白结合(PPB)、被动药物渗透性（Caco-2 测定）、人类ether-a-go-go相关基因 (hERG) 钾通道抑制和细胞色素 P450 抑制（CYP3A4 亚型）。为了确保潜在用户能够探索所提出的XAI方法的适用性并利用训练好的模型，研究团队进行了一项文献调查以收集关于这四个终点的公开数据。

表1.药理学终点的数据集

表2.使用 RDKit 计算的顶点、键和全局分子图特征

把不同来源的分子转换为 InChI 字符串并使用 RDKit 进行消毒。如果同一化合物在某一终点有多个测量值，则取其算术平均值。同时还提供了数据源之间化合物的重叠百分比，以及不同测量值之间的平均值和中值标准偏差，其结果显示，所报告的测量值之间的总体一致性似乎也很高。

实验结果

模型性能评估

使用k = 10交叉验证方案来评估模型性能，其定量基准的结果如图2、表3所示。

图2.模型的性能

图2前三个二维密度图分别描述了血浆蛋白结合、被动渗透率和hERG抑制数据集的实验值与预测值，最后一个子图描述了CYP3A4 P450数据集的受试者工作特征(ROC)曲线。

表3分别描述了实验值与预测值之间的Pearson’s R（皮尔逊相关系数）、R2（决定系数）、RMSE（均方根误差），以及AUC（ROC曲线下面积）。

表3.相关终点的预测性能

所有经过训练的模型都显示出了预测能力，三个回归模型的R值在0.53和0.74之间，二元分类器的AUC = 0.85。这些值表明了训练任务的难度各不相同。尽管没有一个模型表现出完美的预测能力，但获得的结果明显优于随机，说明模型在学习过程中识别了有意义的分子图特征。

模型可解释性评估

之前的研究通过评估原子贡献的可加性或通过将它们与合成生成的结构-活性关系进行比较来量化所提供的分子着色的质量进而验证可解释的机器学习模型。本研究从可用文献中提取并汇编了25个外部分子序列。这些系列代表背景知识，并包含本研究中考虑的药理学终点相关的已知示例，其中大部分是使用的训练集之外的。此外，研究者还用以下几个不同的方法检验了模型：

1.是否能够突出相关的药效团基序——药效基团的识别

分析脂肪酸特征和由五个键单元的疏水部分隔开的两个酸性基团组成的药效团基序这两个相关特征以评估血浆蛋白结合潜力。

对于 hERG 终点，显示了两种情况，其中 XAI 能够重现先前在文献中报告的活性变化，然而这些例子也突出了该方法的潜在局限性，特别是其他突出显示的模式与已建立的 hERG 结构-活性关系不一致。

对于 CYP3A4 终点，相应的模型清楚地识别了先前报告的特定药效团的基序，突出了灵活骨架、氢键供体/受体部分和疏水相互作用的重要性，相应结构特征的相对重要性被正确识别。

2.在所考虑的数据集中成功检测到性质断崖（例如：引起显著性质或活动变化的微小结构变化）——性质断崖的识别

通过匹配分子对分析来评估训练集中是否存在活性悬崖以进一步评估模型识别所选文献示例之外的性质断崖的能力。根据构效景观指数 (SALI) 对cliff进行排名。该功能平衡了一对化合物的结构相似性及其预测的性质差异。所提出的方法正确识别了导致这些显著性质差异的几个结构元素。

3.能够识别由分子特性（例如log P、TPSA）介导的“非特异性”配体-蛋白质相互作用——全局重要性分析

许多ADME和相关毒理学终点，例如被动渗透性或血浆蛋白结合参数，不仅仅以特定的结构基序为特征，因此还需研究全局分子特性（例如log P、TPSA）对目标终点的影响，以实现最佳化合物。血浆蛋白结合与亲脂性、增加循环半衰期和减少肾小球滤过呈正相关。

通过Caco-2测定法测量的Papp还已知与全局分子特性相关，例如TPSA（具有大极性表面积的化合物不太可能渗透细胞膜）和亲脂性（具有更大 logP 的化合物更容易渗透）。XAI 方法再次正确捕获了第一个关系，表明分配给 TPSA全局特征的重要性与Papp端点之间存在适度的负相关（R = -0.59，p < 0.01）。

其他着色方法的比较

将本文提出的 XAI 方法与Sheridan发布的分子着色方法进行了比较。为了突出特定原子的重要性，这种方法迭代地“屏蔽”单个原子并计算分子指纹，然后将这些指纹与机器学习模型相结合，使用和不使用掩蔽原子的模型预测之间的差异作为原子重要性的代理。这项工作中提出的基于梯度的方法对这些呈现的示例失败了，而基于指纹的方法无法重现本研究中呈现的任何其他着色示例，这表明它们的适当性可能是视情况而定。

鉴于化学信息学中原子着色方法缺乏既定的定量基准，两种方法的优越性仍有待确定。特别是，虽然这里提出的积分梯度方法有很好的理论基础，并且满足一些理想的特征属性公理，但它需要一个完全可微的模型。另一方面，Sheridan提出的方法虽然本质上更简单，但与模型无关。此外，作者还观察到两种不同方法强调的子结构之间的一致性有限，提倡并行使用多个模型。

总结

本研究描述了一个流行的XAI框架（积分梯度特征归因技术）在四个药理学相关ADME终点（血浆蛋白结合、hERG通道抑制、被动通透性和细胞色素P450抑制）的应用。结果表明，所提出的方法正确复制了与已知药效团模式相对应的基序，识别了性质断崖，并检测到了由全局分子属性介导的非特异性配体-受体相互作用。

参考资料

José Jiménez-Luna, Miha Skalic, Nils Weskamp, and Gisbert Schneider

Journal of Chemical Information and Modeling 2021 61 (3), 1083-1094

DOI: 10.1021/acs.jcim.0c01344

代码

https://github.com/ETHmodlab/molgrad