分享

J Comput Chem|应用于多参数优化的基于配体的从头设计深度生成模型

 智药邦 2022-05-10 发布于上海

药物发现是一个多参数优化的过程。

2022年2月26日,J Comput Chem杂志发表了来自知名AI药物发现公司Iktos的Yann Gaston-Mathé等人的一项早期的工作,展示了如何用深度学习实现药物分子的多参数优化。

摘要

多参数优化是药物发现中的一个主要挑战。最近,有报道称深度学习生成模型应用于从头分子设计取得了可喜的成果,但据我们所知,直到现在还没有这种新技术在实际药物发现项目中解决多参数优化问题的报道。

我们评估了基于配体的从头设计技术的潜力,使用深度学习生成模型来加速获得同时满足11个不同生物活性指标的先导化合物。基于Servier公司的项目的初始数据集,我们为所有11个指标建立了QSAR模型,具有中到高的性能 (在一个独立的测试集上精度在0.67和1.0之间)。我们基于DL的从头设计算法,结合QSAR模型,生成了150个预计在所有指标上都具有活性的虚拟化合物。11个化合物被合成和测试。

人工智能设计的化合物平均满足了11个指标中的9.5个指标 (即86%的成功率) ,而初始的分子在所有指标上只有6.4个 (即58%的成功率)。人工智能设计的分子中,有一个对所有11个测量指标都有活性,有两个对10个指标有活性,而对最后一个指标则处于检测的误差范围内。人工智能算法设计了具有官能团的化合物,尽管这些官能团在初始数据集中很少或不存在,但结果证明对MPO非常有益。

1 引言

药物设计是一项具有挑战性的任务。从hit识别到hit-to-lead和lead optimization (LO),发现一个具有理想性质的新化学实体 (NCE) 的探索是很繁重的。为了解决多参数优化 (Multi-parameter optimization, MPO) 的挑战,需要探索几乎无限的化学空间 (1060个类药分子)。

基于结构和配体的计算机辅助药物设计 (CADD) 技术 (如对接、QSAR等),是为了提高药物设计过程的效率而开发的,在过去几十年中取得了显著的进展。CADD对化学空间的计算探索大多是通过对预先存在的或虚拟的化合物库进行虚拟筛选来完成的,探索本质上被限制在初始化合物库中。最近药物发现的人工智能方法的发展,更具体地说,通过使用深度生成模型进行从头药物设计,引起了CADD社区的极大兴趣。

用于分子设计的生成模型可以由三个主要特征来描述:(1) 它们使用哪种分子表征法;(2) 它们如何生成分子;(3) 它们如何进行性质优化。

已有许多方法被报道,每种方法在这些特征方面都有不同的方法。(i) 分子表征可以是文本 (SMILES, SELFIES, DeepSMILES)、图形或一组片段。它也可以依靠深度生成模型,如递归神经网络 (RNN)、自动编码器 (AE) 或生成对抗网络 (GAN)。(iii) 性质优化策略可以基于强化学习、连续优化、贝叶斯优化、遗传算法或粒子群优化。

尽管在生成模型方面有大量的研究,而且它有可能允许有效地探索化学空间,以确定具有所需的计算特性的新分子,但这种基于人工智能的方法在复杂的现实情况中解决MPO问题的好处的证据仍然难以捉摸。

最近的一些工作在MPO项目中产生了新的分子,然而,他们都没有使用真实的项目数据集。

在此,我们描述了基于深度生成模型的配体从头设计在一个真实的LO阶段药物发现项目中的应用,以及其如何促进符合项目标准的优化的先导化合物的发现。这项研究是在2017年进行的,使用了一个在ChEMBL上训练的长短时记忆 (LSTM) 神经网络,使用teacher forcing的多指标奖励函数。从那时起,许多研究小组的工作推动了用于药物设计的更复杂的生成性人工智能方法的发展,然而这项工作提供了该技术的前瞻性现实验证的证据。

2 方法、数据和软件说明

2.1 项目数据集

数据集是由Servier公司提供的,来自一个已经运行了几年的LO阶段的内部真实药物发现项目。该项目数据集包括一个由881个分子组成的库,其中有来自11个生物试验的相关生物活性测量值:一个主要活性试验 (未披露的表型试验:30nM时的活性) ,6个脱靶试验 (对5-HT2A、5-HT2B、alpha1、D1、Nav1. 2, hERG:抑制率) 和4个ADME试验 (人的微粒体稳定性HLM和大鼠的微粒体稳定性RLM:稳定性的百分比;Caco2的渗透性和流出性试验:吸收和外排比率的百分比)。

对于每个指标,根据项目组设计的TPP (Target Product Profile) 定义了一个阈值。表1展示了每种检测的阈值、所测化合物的百分比和达到所需阈值的化合物的百分比。

表1. 初始数据集的统计信息 (每一栏代表一种测定方法)   

a "Filled %"描述的是数据集中有数据的分子的百分比。

b Blueprint threshold是设定为每个检测中要达到的指标值。

初始数据集中的最佳分子和人工智能生成的11个合成和测试的分子在补充材料中以SMILES提供。

2.2 软件的可用性

以下软件包被用来执行这项工作:(1) QSAR模型是用Scikit-learn建立的;(2) Hyperopt被用来优化模型选择的超参数;(3) LTSM的训练和优化是用Tensorflow进行的;(4) Rdkit被用来准备SMILES,计算相似度,指纹和描述符。

2.3 QSAR模型的开发

生物活性数据根据TPP阈值进行分类 (即,如果符合TPP规范则为1,否则为0)。11个独立的QSAR模型是在Morgan指纹分子表征法的基础上用脊逻辑回归法建立的。

模型选择采用k-fold (k=4) 交叉验证法进行。它涉及两个参数:惩罚参数和操作阈值概率。一旦选择了惩罚参数,预测是否符合TPP的操作阈值概率 (图S1中记为1) 就会在前几个k-folds上选择,以最大限度地提高精度,减少召回率,从而降低假阳性的风险。在80%的数据 (即训练集) 上训练出来的最佳模型随后在初始数据集的剩余20% (即测试集) 上进行测试。

由于分类模型的性能更高,所以选择了分类模型而不是回归模型 (结果未显示)。

2.4 生成模型

如上所述,迄今为止已经报道了许多分子深度生成模型的架构。在本研究进行时 (于2017年启动),发表的架构较少。分子生成和性质优化策略受到Segler等人的启发,他们使用了一个深度RNN生成器。

2.4.1 分子生成策略

深度RNN被用来生成以SMILES表征的分子。LSTM首先在ChEMBL数据库上训练,使用teacher forcing,以建立一个基于字符的语言模型来生成SMILES字符串。

需要提醒的是,语言模型𝑝的作用是在给定先前字符序列的情况下,对下一个字符的概率分布进行建模。

𝑝(𝑥𝑡+1||𝑥1𝑥2...𝑥𝑡)=LSTM(𝑥𝑡+1||𝑥1𝑥2...𝑥𝑡)

SMILES是通过从其推断的过去条件分布𝑝(𝑥𝑡+1||𝑥1𝑥2...𝑥𝑡)中迭代采样生成的。生成一个SMILES的开始和结束,分别是词汇"START"和"END"的特殊标记。

ChEMBL数据库中的SMILES被转化为其典型的非手性RDKIT版本。没有通过列举SMILES的不同表征方法来增加数据,也没有通过列举同一化合物的同分异构体来增加数据。这样训练后,LSTM语言模型生成了非手性SMILES。相同的化合物可以用不同的SMILES写法来生成。同一化合物的同分异构体被生成为不同的分子。方案1代表了分子生成的结构。

方案1 生成模型架构

2.4.2 项目数据集分布学习

在ChEMBL数据库上训练的LSTM已经学会了生成属于ChEMBL化学空间的分子。为了得到分数,生成的分子应该留在QSAR模型的适用域附近。这个适用域可以通过与初始数据集的分子的结构相似度来近似。因此,以前的LSTM模型在项目数据集上重新进行了teacher forcing训练。

2.4.3 分子优化策略

所使用的分子优化策略被命名为"Hillclimb-MLE"。它是一个迭代过程,LSTM生成模型在teacher forcing下对最佳SMILES集进行微调,该集随着时间的推移而演变,具体如下:在每一步,该SMILES集通过保留前一步生成的前10%的化合物而更新 (图1)。

图1 优化生成器的爬坡程序

2.5 对生成的化合物进行评估和排名

对虚拟候选化合物的排名是根据它们在TPP中的总体概率、它们的定量估计成药性 (QED) 和它们与初始数据集的相似度 (即Tanimoto距离) 进行的。QSAR模型的适用范围是一个关键点,必须仔细监测以避免假阳性。

为了帮助化学家评估与所提出的分子相关的新颖性和风险,通过改编相似性地图的可视化,我们开发了一种特殊的可视化,能够突出每个提出的分子。

2.6 化合物选择

从新生成的库中,根据算法排名、结构新颖性、合成可及性以及ADME预测与Servier公司提供的全局预测模型的一致性,选择设计的分子进行合成和测试。

3 结果

3.1 初始数据集分析

最初的数据集包含881个分子,针对11个指标进行评估。该数据集很稀疏,数据缺失率为10-70%。

图2显示了在项目的时间顺序中满足每个指标的化合物的百分比。图中显示,项目组已经能够大幅提高Nav1.2、hrg、RLM和HLM的迭代性能,在项目结束时有80-90%的设计分子达到了要求的指标。相反,在5-HT2A、alpha1、D1和渗透性试验这几个指标上的性能却明显下降。

例如,最后合成的50个分子中只有6%达到了5-HT2A的选择性指标。图1中 (1) 浅灰色为项目开始时评估的分子中发现的数值,分子1-780;(2) 中灰色,用于基于SAR为初步结果开发的分子,分子781-830;(3) 深灰色为后期分子,基于800多个合成分子的知识,预计的最好的情况,分子831-881。 

图2初始项目数据集中符合项目时间顺序的不同指标的分子百分比 (浅灰色:分子1-780;中灰色:分子781-830;深灰色:分子831-881)。

在881个分子中的48个分子中,根据所有11个指标进行的测量,平均11个中的6.4个达到了指标mol 732是整个数据集中最好的化合物,满足除吸收 (几乎达到) 和外排之外的所有指标。

图3 最初项目数据集中最有前途的先导分子的结构和生物学特征。

绿色的数值指分子在最佳阈值下有活性,黄色的数值指分子在可容忍的阈值下有活性,而红色的数值指分子无活性。

值得注意的是,mol 732中的1,2-苯并异噁唑在该项目61%的化合物中存在,在项目组生成的最后50个化合物中为78%,这表明药物化学团队对该子结构的重视,认为它是实现所有期望特性之间良好平衡的一个看似有希望的途径。 

另外值得注意的是,如表2所示,在项目的早期,已经获得了一个有希望的化合物,即mol 435,满足11个指标中的9个(吸收和外排不满足),就生物特征而言,与mol 732相当接近。需要增加297个分子来部分地改善整个化合物的特征。在从mol 435到mol 732的设计过程中,有三个分子 (mol 555、mol 559和mol 663) 达到了渗透性指标,但只是损害了5-HT2A/B选择性或代谢稳定性。

表2. 最初项目数据集中最有希望的先导分子的生物学特征

注:颜色对应于分子的活性范围。绿色的数值对应于具有最佳阈值的分子的活性,黄色的数值对应于具有容忍阈值的分子的活性,红色的数值对应于不活跃的分子。

3.2 QSAR模型

平均来说,除了5-HT2B (精度67%),QSAR预测模型在测试集中表现良好,精度很高。由于测试集中阳性化合物的数量较少,对活性、alpha 1和5-HT2A来说,结果的可解释性很困难 。

在进入我们工作的生成阶段之前,在整个数据集上训练所选的模型。

3.3 人工智能设计的分子

生成式算法设计了150个虚拟化合物,预测其在项目的TPP方面是最佳的 (即预测满足所有指标的所需阈值),并具有化学家评估的合理复杂性。在生成的150个分子中,有20个被选中。在进行化合物合成的3周时间内:11个化合物被成功合成,并在项目的所有检测中进行了测试,而9个分子未能被合成。图4显示了从生成到合成的每个步骤中筛选出的分子数量的概况,图5和图6表征了已合成的分子。

图4 筛选人工智能生成的分子,从生成到合成的管道

图5 最佳人工智能设计的分子的MPO概况,mol 885。绿色的数值对应于具有最佳阈值的分子。

图6 由DL算法采样的原始化合物的结构和生物学特征。

临界化合物的测量值低于所需的活性阈值,但在测定的误差范围内,而活性和非活性分子的测量值分别高于和低于阈值。

经过合成和测试,发现人工智能生成的候选化合物的性能优于初始库,包括项目内产生的最后50个化合物。由人工智能设计的化合物满足的平均指标数为9.5 (即86%的成功率) ,而初始库为6.4 (即58%的成功率)。

此外,人工智能生成的分子扭转了在库中最后一批分子中观察到的TPP一致性的下降趋势 (图7A)。图7B中的分析表明,与最初的数据集相比,新分子的活性更好 (即65%的时间在blueprint中),所有选择性和渗透性标准都很好 (即90%以上的时间在blueprint中)。然而,代谢稳定性较低,合格率为55%。

更重要的是,在11个新化合物中,有一个同时满足了TPP的所有11个指标 (图5) ,有两个化合物满足了10/11个指标 (图6),而对于未满足的指标,则刚好低于所要求的阈值,在检测的误差范围内。

图7 (A) 根据项目的时间顺序满足的指标数量 (纵轴:满足的指标数量/横轴:化合物的时间顺序编号

(B) AI设计的候选化合物和初始分子在每个TPP指标上的命中率比较。(浅灰色:分子1-780;中灰色。分子781至830;深灰色:分子831至881;红色。11个AI设计的分子)

最佳的人工智能设计的化合物 (mol 885),满足所有的指标,在图5中表征。

值得注意的是,这个化合物含有一个[1,2,3]三唑并[1,5-a]哌啶基,这在最初的数据集中非常罕见,只出现在6个分子中,而且总是与渗透性和流出性差相关。难能可贵的是,人工智能算法保留了这一子结构,将其与3-氟吡啶结合在一起,这在以前是从未尝试过的。令人惊讶的是,这个被抛弃的子结构与一个未被探索过的杂环的结合被证明是解决该项目的MPO指标的一个成功组合。

事实上,被合成和测试的11个人工智能设计的化合物所显示的官能团在最初的数据集中是罕见的,或者在项目的早期从未尝试过 (见图6)。这表明,这种方法可以提出重大的创新,通过其识别有利的修饰的能力,甚至在很少的数据中学习。

人工智能算法还能够优化有特殊问题的子系列的ADME特性。例如,它能够在6,7-二氢-4H-三唑并[5,1-c][1,4]恶嗪子系列中设计可渗透的化合物,同时保持安全性和稳定性,而该子系列中的所有化合物都有渗透性问题。同样,在吡啶-异噁唑系列中,在保持安全性和稳定性的同时,也发现了具有减少外排的化合物。

根据化合物的特性预测指数 (PFI) 、分子量 (MW) 和sp3分数,对化合物的药物相似性进行了分析,PFI与MW的关系图见图9。与初始数据集的分子相比,在11个人工智能设计的化合物中,有10个被发现具有非常有利的特征,即低PFI、低MW和高sp3分数。

图9 初始分子和人工智能设计的化合物的MW与PFI的关系图

为了深入了解初始数据集和人工智能设计的化合物的结构多样性和化学空间特征,对数据集中的分子的摩根指纹进行了主成分分析 (PCA) 计算。

图10 (A) 同样的251个活性化合物的PCA与TPP标准命中率的相关性。(B) 来自初始数据集的251个活性化合物的PCA。(C) AI设计的分子图

令人震惊的是 (图10),人工智能算法没有在那个看似有希望的化学空间中设计任何分子。所有人工智能设计的结构确实都位于一个独特而又具体的区域内,这表明该算法有能力提出有意义的解决方案。

4 讨论

MPO的一个典型障碍是某些指标的优化会导致其他指标的性能下降,但本方法允许设计的化合物在11个参数上同时得到优化。

而初始数据集的几个特征是实现这种性能的关键。

总的来说,为预测每个检测的生物活性而建立的模型的性能是很好的,从而验证了项目数据引导的优化方法。这需要足够的数据来建立一个像样的模型,以及一个合理的平衡的数据集,有足够的化合物单独满足每个指标。另外,生成模型能够在项目的化学空间内找到MPO挑战的理论解决方案,这意味着基于可用数据,确实有解决目标之间明显反相关的方法。

这种有利的配置不一定在所有情况下都存在,该方法在更复杂情况下解决MPO挑战的潜力还有待证明。

另外,值得一提的是,人工智能设计的分子的选择过程不仅仅是基于纯数据驱动的排名。分子的选择是基于它们在预测模型中的得分,同时也基于它们的合成可及性,以及药物化学家和计算化学家利用他们的专业知识和特定的数据可视化工具,来去除质量差的化合物或潜在的假阳性的专家意见。这种将人类专业知识和数据可视化联系起来,对人工智能驱动的想法进行排名和选择的选择过程可能是这个项目的一个重要成功因素。

除了加速发现具有良好MPO特征的活性分子外,该方法的另一个价值是开辟了新的化学空间,在这个阶段,项目组显然已经"锁定"了一个相当明确的支架。[1,2,3]三唑并[1,5-a]哌啶分子在最初的数据集中非常罕见,并且与低渗透性和外流相关,然而与3-氟吡啶的结合成为了解决MPO问题的答案,这在以前从未尝试过。

5 结论

我们利用881个分子的11种生物活性指标的稀疏数据集,基于DL的从头设计算法生成150个虚拟化合物。在这些化合物中,有11个化合物被合成并根据TPP的所有11个标准进行了测量。人工智能设计的分子优于传统药物化学方法设计的分子,取得了优异的MPO分数。更重要的是,其中三个被发现符合项目的TPP标准,其中一个严格符合所有的MPO指标,另外两个符合10个指标,最后一个则在检测的误差范围内。人工智能算法得出的官能团,虽然在最初的数据集中很罕见或不存在,但事实证明对MPO非常有益。

据我们所知,这是第一个在实际药物发现项目中成功应用深度学习从头设计以解决MPO问题的研究,而且是在大量的指标上。这为这项技术带来了明确的证据,证明它有可能为药物化学带来实质性的改进。我们已经确定了改进的方向,并正在加以解决,特别是关于合成的可及性、化合物的复杂性和预测模型的适用范围。

参考资料

Perron Q, Mirguet O, Tajmouati H, Skiredj A, Rojas A, Gohier A, Ducrot P, Bourguignon MP, Sansilvestri-Morel P, Do Huu N, Gellibert F, Gaston-Mathé Y. Deep generative models for ligand-based de novo design applied to multi-parametric optimization. J Comput Chem. 2022 Apr 15;43(10):692-703. doi: 10.1002/jcc.26826.

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多