分享

JCIM| 通过以蛋白质结合位点3D信息为条件的分子生成模型进行从头分子设计

 DrugAI 2022-04-19

今天给大家介绍广州再生医学与健康实验室发表在Journal of Chemical Information and Modeling上的一篇关于利用分子生成模型进行从头分子设计的文章。该文提出了一种新的生成模型,该模型通过将蛋白质结合口袋的3D结构信息整合到条件RNN(cRNN)模型中,以控制类药分子的生成。在该模型中,通过粗粒度策略有效表征蛋白质结合口袋,其中口袋的3D信息可以由组成结合口袋原子的的粗粒度库仑矩阵(EGCM)的排序特征值表示。该文使用EGCM方法以及DeeplyTough方法来训练cRNN模型并评估其性能。实验结果表明,基于蛋白质结合口袋信息约束下训练的模型与正常RNN模型相比,生成的化合物与原始X射线结合配体具有更高相似性且对接分数更好。本文的结果证明了受控分子生成模型在靶向分子生成和类药化学空间引导探索方面的潜在应用。

1

cRNN生成模型

图1 构建cRNN分子生成模型示意图 (a)计算EGCM描述符 (b)计算DeeplyTough描述符 (c)口袋结构约束下cRNN分子生成模型的工作流程

本文使用基于EGCM和DeeplyTough的方法分别生成复合物结合口袋的描述符,然后使用cRNN模型进行分子生成。

cRNN模型包括:(1)一个具有两个控制层的控制模块,(2)一个具有两个RNN层的SMILES生成器,(3)一个dense层。在控制模块中,每一个控制层接收口袋描述符作为输入,连接两个独立的dense层,其输出用于设置RNN模块的单元状态或隐藏状态以生成SMILES。控制模块中dense层的大小为256,每个RNN层包含256个神经元。批量标准化应用于所有RNN层。

实验结果表明,本文提出的方法在多个指标上取得了令人满意的结果。下面分别介绍EGCM描述符,DeeplyTough描述符。

2

EGCN描述符

库仑矩阵的特征值可以作为分子三维结构的全局表示。本文使用库伦矩阵的特征值描述复合物结合口袋特征。

对于由大量的原子组成的结合口袋,EGCN描述符使用粗粒度策略简化蛋白质复合物结合口袋的表示。首先,蛋白质结合口袋组成的残基划定在在配体原子周围6.5Å半径范围内;其次,从20种标准氨基酸中提取11种片段,定义为结合口袋的关键要素。它们代表蛋白质侧链中的官能团以及可能与配体形成相互作用的骨架。最后,为每个片段设置一个虚拟原子,其坐标为片段的质心。为了表示不同大小的结合口袋,片段的最大原子数量是预定义的。当特定类型片段的真实数量小于预定义的最大时,就会加入一系列位于无穷远的幽灵原子。通过这种方式,蛋白质结合袋可以由粗粒度的虚拟原子和幽灵原子来表示。

3

DeeplyTough描述符

DeeplyTough方法将结合口袋的3D网格数据作为输入,使用卷积神经网络将其编码到向量空间中,其中用一对向量的邻近度来表示一对口袋的结构相似性。

参考资料

Xu, Mingyuan, Ting Ran, and Hongming Chen. "De Novo Molecule Design Through the Molecular Generative Model Conditioned by 3D Information of Protein Binding Sites." Journal of Chemical Information and Modeling 61.7 (2021): 3240-3254.

https:///10.1021/acs.jcim.0c01494

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章