随着越来越多的蛋白质结构被发现,蛋白质-配体对接预测将在药物发现中发挥越来越重要的作用。近年来,基于深度学习的方法在蛋白质与配体的对接预测方面取得了重大进展,但由于在蛋白质特征提取中没有充分考虑潜在口袋区和非口袋区之间的差异,其所获得的蛋白质特征并不是最优的。 2024年9月18日,复旦大学王满宁教授团队在Briefings in Bioinformatics上发表文章PGBind: pocket-guided explicit attention learning for protein–ligand docking。 作者提出了一种口袋引导策略来引导配体对接到蛋白质上的潜在对接区域(pocket-guided binding,PGBind)。为此,作者设计了一个即插即用模块来增强蛋白质特征,该模块首先估计目标蛋白上潜在的口袋区域,然后利用口袋引导的注意力机制来增强蛋白质的特征。该方法可以与现有的对接预测方法相集成,以提高预测性能。实验表明,PGBind在一系列任务中超越了现有方法。 如图1所示,作为一个即插即用的网络模块,作者设计的口袋引导(PG)模块可以无缝集成到任何基于蛋白质图的对接模型中。图1(a)以EquiBind为例,即在原有的EquiBind上插入一个如图1(b)所示的PG模块,形成EquiBind-PG。PG模块在口袋估计的指导下,对蛋白质特征进行增强,再由EquiBind进行进一步处理,从而提高对接能力。类似地,图1(c)以FABind为例,插入PG模块形成FABind-PG。 图1 PGBind结构图 当输入EquiBind时,蛋白质和配体都以图表示。具体地说,蛋白质图是用它的残基作为节点,用每个节点与距离为30埃的10个最近的邻居之间的连接作为边来构建的。配体图利用其原子作为节点,并在距离为4埃的每个原子对之间建立一条边。首先,将构建好的蛋白质图和配体图输入到独立等变图匹配网络(IEGMN)中,使蛋白质特征和配体特征相互作用。在IEGMN中,蛋白质和配体的特征和坐标都是通过图内和图间的信息传递来转换的。随后,对接模块作为输入,使用多头注意力网络计算注意权值,利用注意力权值从残基坐标和原子坐标中回归到蛋白质和配体上的关键点。通过对配体的刚性变换,将蛋白质和配体上的关键点进行相应的结合,以实现预测的配体结合姿态。为了减少不存在的配体构象,EquiBind对接模块加入了额外的几何构象约束,即局部原子结构(键长和相邻键角)是刚性的。 在EquiBind中,蛋白质图不是直接输入到IEGMN模块中,而是先由PG模块对蛋白质图进行特征增强处理。PG模块将口袋先验知识注入到蛋白质特征中,使EquiBind能够更好地进行配体对接。如图2(b)所示,PG模块由口袋预测模块和PG注意力模块两部分组成。 口袋预测模块遵循EquiBind中的数据处理方法,以蛋白质图为输入,预测残基是否位于易实现对接的活性区域,即口袋。口袋预测模块包括一个简单的图神经网络(GNN)和一个口袋预测头。首先,将蛋白质图输入到一个简单的GNN中,通过聚合邻近节点的信息来更新节点特征。GNN通过多层特征传播来更新节点特征。每个节点的特征通过聚合其相邻节点的特征来更新,然后输入进入口袋预测头,获得口袋估计。为了克服由于蛋白质上的口袋比例低而导致的正负标签不平衡的问题,作者对非口袋区域进行了有偏采样,以达到正负标签数量的平衡。 PG注意力模块接收节点特征以及相应的二元口袋标签预测作为输入,通过口袋区和非口袋区相互作用进一步增强蛋白质特征。几何自注意力模块和显式交叉注意力模块的组合堆叠组成PG注意力模块。几何自注意力模块包括两个阶段:注意力分数计算和聚合。这里将蛋白质残基节点的三维几何特征作为输入来计算注意力分数,聚合得到了蛋白质节点的几何自注意力特征。为了避免冗余和不合理的特征交互,将估计口袋作为显式归纳偏差来增强节点特征。在显式交叉注意力模块中,根据蛋白质节点特征是否属于估计的口袋区域,对其进行进一步处理。非口袋节点与口袋节点之间的特征相关性是更好地学习口袋特征与非口袋特征之间差异的关键,也是保持对接的几何一致性的关键。在这个过程中,口袋节点的特征保持不变,而非口袋节点的特征则被更新。 为了验证作者提出的PG模块的即插即用能力,作者还将其插入另一种对接方法FABind,这是一种两步回归方法:首先预测对接区域,然后将配体与对接候选区域对接。类似地,FABind-PG分为两个步骤:口袋预测和对接。第一步,通过FABind层提取蛋白质和配体特征,然后利用Gumbel-softmax函数预测口袋的中心点,并在其周围选择20埃以内的区域作为对接候选区域。考虑到对接候选区域相对于最终对接区域面积较大,其中仍包含蛋白质中相当一部分非口袋区。在FABind预测步骤中,将PG模块插入FABind层和Gumbel-softmax之间,以处理整个蛋白质特征,区分出更好的口袋区域特征和非口袋区域特征。然后,将更新后的蛋白质特征输入到对接模块中,基于这些更新后的特征,可以实现更稳健的估计。 作者将PGBind与一些具有代表性的方法进行了比较,如表1所示。为了评估该方法的有效性,作者使用两个指标来评估预测的配体姿态:(1)配体RMSD,这是预测配体原子笛卡尔坐标的均方根偏差(RMSD)距离,用于评估模型在原子水平上预测配体姿态的能力。(2)质心距离(Centroid Distance),即预测平均配体坐标与真实平均配体坐标之间的欧氏距离,用来衡量模型探索结合位点的能力。作者分别用两种方法评估这两个距离,一是将这两个距离指标的25%,50%,75%分位点和均值作为度量,其结果越低越好。二是将距离小于2埃或5埃的样本所占比作为度量,其结果越高越好。对于EquiBind,EquiBind-U(即去除构象优化后的EquiBind),以及FABind,在加入PG模块后性能都有了显著提高。FABind-PG在大多数指标上都优于其他方法。并且,加入PG模块后运行时间并未显著增加,表明PG模块兼顾了预测准确度和速度。 表1 与其他方法对比 作者设计了消融实验来验证模型设计的有效性。以EquiBind-U为例,如表2所示,作者删除了PG注意力模块的不同设置。PG注意力模块包括几何自注意力模块和显式交叉注意力模块。为了探索显式交叉注意力模块的有效性,作者删除了该模块,结果显示在“without cross”行中。考虑到模型参数的数量,作者将该模块替换为自注意力模块,作为另一种策略,在“replace with self”行中描述。可以看出,PG注意力模块优于这两种变体策略,其中将显式交叉注意力模块替换为自注意力模块优于直接删除。为了进一步验证特殊注意力机制的优越性,作者设置了另外两种实验变体:一种是通过隐式编码进行自注意力机制来研究显式自注意力机制的有效性,另一种是将注意力机制从口袋区域转移到非口袋区域。结果分别以“implicit”和“pocket to non”两行显示,表明从非口袋区域到口袋区域的显式交叉注意力更有效。总的来说,我们的显式交叉注意可以更好地表征对接区域的特征。 此外,作者还简化了口袋预测模块的选择。PG模块的初衷是为粗略的对接区域提供指导,而不是追求精确的对接区域。作者设计了一个实验变体,使用预测口袋位置精度更高的FABind层作为口袋预测模块的GNN编码器。结果显示在表2中的“with FA”行中。可以发现,结果与模型中使用的简单GNN大致相同。综上所述,PG模型的关键是口袋引导策略,而不是口袋预测模块的精度。 表2 消融实验 作者还进行了案例分析。在这项分析中,作者发现EquiBind-PG具有发现PDBBind中不存在的新结合位点的潜力。如图2(a)所示,对于蛋白质5ZK7,EquiBind-PG生成的配体位形(红色)与PDBBind提供的基准(橙色)相去甚远,但配体停靠在PDB Bank提供的配体结合位点(粉色)区域上。在这种情况下,EquiBind-PG将配体停靠在另一个分子的口袋上,该分子的摩根指纹与图2(b)所示的配体相似。虽然对接结果与PDBBind金标准不同,但它在物理上是合理的,也是可能的。该方法显示了探索新的潜在结合位点的能力,并在发现新的药物靶点方面显示出希望,未来可通过湿实验进一步验证。 图2 案例分析 在本文中,作者提出了一种口袋引导(PG)策略来增强基于深度学习的蛋白质-配体对接中的蛋白质特征。为此,作者设计了一个即插即用的PG模块,以便在蛋白质特征提取中更好地区分口袋区和非口袋区。实验结果表明,该模块可以集成到EquiBind和FABind中,提高了对接的性能。案例分析表明该集成模型具有探索新的潜在结合位点的能力。 参考文献 Shen et al. PGBind: pocket-guided explicit attention learning for protein–ligand docking. Brief Bioinform. 2024 |
|