【原】Nat. Commun. | 基于异构图Transformer的单细胞生物网络推理

DrugAI 2023-03-11 发布于韩国

展开全文

本文介绍由山东大学数学学院的刘丙强和美国俄亥俄州立大学医学院生物医学信息系的Qin Ma以及密苏里大学电子工程与计算机科学系的 Dong Xu共同通讯发表在 Nature Communications 的研究成果：单细胞多组学可以同时量化多种模态，以捕获复杂分子机制和细胞异质性。但现有的工具无法有效推断不同细胞类型中活跃的生物网络以及这些网络对外部刺激的反应。为此，作者提出了一种名为DeepMAPS的生物网络推断方法，该方法可从单细胞多组学数据中建模细胞和基因之间的关系，并采用多头图Transformer在局部和全局上学习这些关系，从而以稳健的方式建立生物网络。基准测试结果表明，DeepMAPS在细胞聚类和生物网络构建方面的表现优于现有工具。它还展示了在肺肿瘤白细胞CITE-seq数据和匹配的弥漫性小淋巴细胞淋巴瘤scRNA-seq和scATAC-seq数据中推导细胞特异性生物网络的竞争能力。此外，作者部署了一个具有多种功能和可视化效果的DeepMAPS 网络服务器，以提高单细胞多组学数据分析的可用性和再现性。

简介

单细胞RNA测序（scRNA-seq）和单细胞ATAC测序（scATAC-seq）等单细胞测序技术重塑了细胞异质性研究，并在神经科学、癌症生物学、免疫肿瘤学和治疗反应方面产生了深刻影响。单细胞模态仅反映了基因特征的快照，并只描述了部分细胞特性，这会导致复杂生物系统中的表征偏差。而单细胞多组学（scMulti-omics）可以同时量化多种模态，以充分捕获复杂分子机制和细胞异质性。

目前用于scMulti-omics数据综合分析的现有工具（例如Seurat、MOFA+、Harmony和totalVI）能够可靠地预测细胞类型和状态，消除批次效应，并揭示多种模态之间的关系。然而，大多数现有方法没有明确考虑细胞和模态之间的拓扑信息共享。因此，它们不能同时有效地推断出不同细胞类型的活跃生物网络的和对细胞进行聚类，并且在阐明这些复杂网络在特定环境下对外部刺激的反应方面能力有限。

最近，由于图神经网络（GNN）可以传播相邻细胞特征，并且在全局细胞图中构建细胞间关系，因此可将其用于学习单个细胞的低维表示。同时，具有不同类型节点和边的异构图已被广泛用于对多关系知识图进行建模。它为整合scMulti-omics数据和学习潜在的细胞类型特异性生物网络提供了一个自然的表示框架。此外，由于注意力机制可用于建模和整合异质关系且发展迅速，这就使得深度学习模型变得具有可解释性，并有助于推断细胞类型特异性生物网络。

这项工作中，作者开发了DeepMAPS（基于深度学习的单细胞数据多组学分析平台），这是一个异构图Transformer框架，用于从scMulti-omics数据推断细胞类型特异性生物网络。该框架使用了先进的GNN模型，即异构图Transformer（HGT），它具有以下优点：（1）构建了一个一体化的异构图，其中细胞和基因作为节点，它们之间的关系作为边。(2)该模型通过捕获细胞和基因之间的邻居和全局拓扑特征，以同时构建细胞间关系和基因间关系。(3)HGT模型中的注意力机制能够估计基因对特定细胞的重要性，从而判别基因的贡献，增强生物可解释性。(4)该模型是无假设的，不依赖于基因共表达的限制，因此有可能推断出其他工具无法发现的基因调控关系。值得注意的是，DeepMAPS与Docker一起提供了一个无代码、交互式和非编程接口，减轻了scMulti-omics数据的编程负担。

结果

DeepMAPS概述

总体而言，DeepMAPS是一个端到端且无假设的框架，用于从scMulti-omics数据中推断细胞类型特异性生物网络。DeepMAPS框架有五个主要步骤（图1）。(1)通过去除低质量细胞和低表达基因对数据进行预处理，然后根据具体的数据类型采用不同的归一化方法。生成一个整合的细胞-基因矩阵来表示每个细胞中每个基因的联合活性。针对不同的scMulti-omics数据类型，采用不同的数据集成方法。(2) 基于整合矩阵构建异质图，以细胞和基因为节点，以细胞中存在的基因为边。(3)建立HGT模型，联合学习细胞和基因的低维嵌入，并生成注意力得分来表征基因对细胞的重要性。(4)基于HGT学习嵌入和注意力得分预测细胞聚类和功能基因模块。(5) 在每种细胞类型中推断出不同的生物网络，如基因调控网络(GRN)和基因关联网络。

为了学习细胞和基因的联合表示，作者首先生成一个整合了输入scMultis-omics数据信息的细胞-基因矩阵。然后构造具有细胞节点和基因节点的异质图，其中未加权的细胞-基因边表示细胞中某个基因存在基因活性，并且通过两层GNN图自动编码器从基因-细胞整合矩阵学习每个节点的初始嵌入。这种异构图为整合scMulti-omics数据提供了机会，以便协同学习有生物学意义的特征。然后将整个异构图发送到图自动编码器，以学习细胞和基因之间的关系并更新每个节点的嵌入。其中，DeepMAPS采用异构多头注意力机制来对异构图上的全局关系和局部关系进行建模。

在每个HGT层中，每个节点（细胞或基因）都被视为目标，其一跳邻居被视为源。DeepMAPS根据节点嵌入的协同作用(即注意力分数)评估其邻居节点的重要性和可以传递给目标的信息量。因此，具有高度正相关嵌入的细胞和基因更可能在彼此内部传递信息，从而最大化嵌入的相似性和不一致性。为了使无监督训练过程在大型异构图上可行，DeepMAPS在从异构图中采样的50个子图上执行，覆盖至少30%的细胞和基因，以训练不同节点之间的共享参数，这些信息随后用于测试整个图。注意力分数作为一个重要的训练结果，表示基因对细胞的重要性。一个基因对细胞的关注度得分高，意味着该基因在定义细胞特性和表征细胞异质性方面相对重要。这种区分允许在每个细胞簇中构建可靠的基因关联网络，作为DeepMAPS的最终输出。作者还建立了一个斯坦纳森林问题（SFP）模型，以识别具有更高注意力得分和与细胞簇相似嵌入特征的基因。SFP模型优化解中的基因-基因和基因-细胞关系反映了基因的嵌入相似性和基因对每个细胞簇的关注重要性。

图1 DeepMAPS和HGT的工作流程

DeepMAPS在scMulti-omics数据的细胞聚类和生物网络推断方面性能卓越

作者在十个scMulti-omics数据集上对DeepMAPS的细胞聚类性能进行了基准测试，包括三个scRNA-seq数据集、三个CITE-seq数据集以及四个从同一细胞测量匹配的scRNA-seq和scATAC-seq数据集，这些数据集的细胞数量从3009到32029不等。

作者将DeepMAPS与四个基准测试方法（Seurat v3和v4、MOFA+、TotalVI、Harmony 和GLUE）在平均轮廓宽度（ASW）、Calinski-Harabasz（CH）、Davies-Bouldin指数（DBI）和调整后的兰德指数（ARI）方面进行了比较，以评估细胞聚类性能。为了确保公平性，每个基准测试方法还调整了不同的参数组合。与所有基准方法相比，DeepMAPS在ARI和ASW方面表现最佳（图2a）。

为证明在DeepMAPS中选择不同集成方法的合理性，作者进行了额外的基准测试实验。具体来说，为了分析scRNA-ATAC-seq数据，作者设计了一种集成方法，利用基因速度来平衡基因表达和染色质可及性之间的权重，以表征细胞的活动和状态。这种集成过程可以确保数据集的协调，并生成一个集成矩阵（以基因为行，以细胞为列）作为HGT的输入。实验结果表明，对于基准数据1和2，基于速度的方法比Seurat v4.0中的加权最近邻（WNN）方法的ASW评分更高。因此，随着速度信息的加入，有助于细胞类型的基因表达和染色质可及性之间的模态权重得到更好的平衡。此外，作者比较了DeepMAPS中不同的聚类方法（Leiden、Louvain和SLM），并比较了不同聚类分辨率对细胞聚类结果的影响。实验结果表明，这些聚类方法之间没有显著差异。最后，在选择相同的聚类分辨率时，DeepMAPS获得了比其他方法更高的分数。在大多数情况下，分辨率越高，细胞聚类预测得分越低。

作者进一步在五个独立数据集上测试了默认的参数选择，并与使用默认参数的相同基准测试方法进行比较。对于具有基准细胞标签的三个测试数据集，DeepMAPS在ARI上表现最佳，而对于没有细胞标签的两个scRNA-ATAC-seq数据集，基准方法表现相似（图2b）。为了评估DeepMAPS的鲁棒性，对带有基准标签的三个独立测试数据集进行了留一检验（图2c）。首先根据基准标签移除细胞簇中的所有细胞，然后对剩余细胞应用DeepMAPS和其他方法。对于每个数据集，DeepMAPS的留一结果优于其他ARI评分较高的工具，这表明DeepMAPS中使用的消息传递和注意力机制以稳健的方式维持着细胞间的关系。此外，在三个具有基准标签的独立数据集上的细胞聚类UMAP表明，在DeepMAPS中获得的潜在表示可以更好地保持scRNA-seq数据的异质性（图2d-f）。

图2 DeepMAPS在细胞聚类方面的基准测试

DeepMAPS可以从scMulti-omics数据中推断出具有统计学意义和生物学意义的基因关联网络

作者在中心性评分和功能富集方面评估了DeepMAPS可以推断的两种生物网络（基因关联网络和GRN）。对于R-test数据集（图3a）和C-test数据集（图3b），作者使用了两种中心性评分来比较所有方法识别的基因关联网络，即接近中心性（CC）和特征向量中心性（EC）。CC反映了网络中一个节点与所有其他节点的平均连通性，EC则根据其连接的节点反映了节点的重要性。节点中心度越高的基因关联网络表明检测到的基因越有可能参与关键和功能性的生物系统。作者还计算了细胞簇中基因表达的Pearson相关系数，使用数据集中的所有基因构建基因共表达网络。实验表明，DeepMAPS中产生的基因关联网络不仅是共表达的，而且对细胞的注意力影响很大。因此，网络中的基因往往对细胞类型更重要。

为了评估 DeepMAPS 是否能够在特定细胞类型中识别具有生物学意义的基因调控网络，作者使用三个公共的功能数据库 Reactome、DoRothEA 和 TRRUST v2 对基因调控模块进行了富集分析。为避免比较中出现偏差，作者将 DeepMAPS 推断出的细胞类型特异性 GRN 与（1）IRIS3 和 SCENIC（在 scRNA-seq 矩阵上）（2）基于 DeepMAPS 的基因活性分数（GAS）计算的 IRIS3 和 SCENIC（在基因-细胞矩阵上）（3）MAESTRO（在 scATAC-seq 矩阵上）（4）MAESTRO（在原始 scRNA-seq 和 scATAC-seq 矩阵上）进行比较。作者使用六个从人类组织收集的数据集，结果显示 DeepMAPS 鉴定的 GRN 包含的独特转录因子（TF）调控比其他方法更多（图 3c）。作者还比较了不同工具富集到一个功能/通路的细胞类型特异性调节子（ CTSR ）的数量。在大多数scRNA-ATAC-seq数据集上，DeepMAPS 在仅富集一个功能/通路的调节子数量和富集评分方面优于其他方法（图 3d，e）。

图3 DeepMAPS基因关联网络推理的评估与比较

DeepMAPS可准确识别PBMC和肺肿瘤免疫CITE-seq数据中的细胞类型并推断细胞间通讯

作者介绍了一项案例研究，将DeepMAPS应用于已发表的混合外周血单核细胞（PBMC）和肺肿瘤白细胞CITE-seq数据集，以证明DeepMAPS在表征细胞身份方面对scMulti-omics建模的能力。DeepMAPS鉴定了13个细胞簇，并通过可视化标记基因和蛋白质的表达水平来注释每个簇（图4a，b）。与仅使用蛋白质或RNA鉴定的细胞类型相比，DeepMAPS分离或准确注释了无法使用单个模态分析表征的细胞群。同时，通过结合从RNA和蛋白质捕获的信号，DeepMAPS成功地在CITE-seq数据中识别出生物学上合理且有意义的细胞类型。

然后，作者比较了两种细胞类型之间的模态相关性。作者使用记忆B细胞和浆细胞之间差异表达最高的基因和蛋白质，并对相关矩阵进行分层聚类。结果清楚地将这些特征分为两个反相关模块：一个与记忆B细胞相关，另一个与浆细胞相关（图4c）。此外，实验表明两个模块的特征与HGT嵌入捕获的成熟轴显著相关。例如，一个HGT嵌入显示浆细胞和记忆B细胞之间存在显著差异（图4d，e）。当比较EM CD8+ T细胞与TRM CD8+ T细胞时，也观察到了类似的结果（图4f）。尽管如此，还是可以确定具有代表性的 HGT 嵌入，该嵌入维持了两组定义分离的嵌入信号（图4g，h）。这些结果表明，任何两个细胞群都由多个基因和蛋白质的协同激活和抑制组成，最终导致细胞状态的逐渐转变，而DeepMAPS潜在HGT空间的特定维度可以捕获这一过程。基于细胞类型以及基因和蛋白质表达的原始数据，作者还利用CellChat推断了细胞间通讯，并在多个信号通路中构建了不同细胞类型之间的通讯网络（图4i）。

图4. DeepMAPS鉴定PBMC和肺肿瘤白细胞CITE-seq数据的异质性

DeepMAPS可识别弥漫性小淋巴细胞淋巴瘤scRNA-seq和scATAC-seq数据中的特异性GRN

为了进一步扩展DeepMAPS对GRN推断的能力，作者使用了10 × Genomics网站上提供的单细胞Multiome ATAC+基因表达数据集。同时，通过RNA速度平衡细胞中基因每种模态的权重来整合基因表达和染色质可及性（图5a）。此外，为了建立TF-基因链接，作者考虑了基因表达、基因可及性、TF-基序结合亲和力、峰-基因距离和TF编码基因表达。在一个细胞簇中发现受相同TF调节的基因被归类为调节子，而具有较高中心性评分的调节子对细胞簇的表征具有更显著的影响。

DeepMAPS在DSLL数据中识别出11个细胞簇，所有的簇都是基于基因标记进行人工注释的（图5b）。对三个B细胞群进行的基于RNA速度的伪时间分析假设两个DSLL状态来自正常B细胞，并且状态1比状态2更早出现，尽管这两个状态似乎部分混合（图5c）。作者进一步选择了三个细胞群中具有最高正则子中心性得分的前20个转录因子（图5d）。实验可知，这些转录因子显示出了正常状态和两种DSLL状态之间的差异，并推断出两种DSLL状态中的变异调控模式。

作者构建了一个由四种细胞类型特异性调节子组成的GRN（图5e），在DSLL状态-1中，RAS明显高于正常B细胞和DSLL状态-2（图5f）。当放大单个调节子时，可以观察到不同的调节模式（图5g）。JUN是DSLL状态-1中最活跃的调节子，能够调节5个独特的下游基因和12个与DSLL状态-2共有的基因。

此外，作者进一步建立了DSLL细胞上游细胞通讯信号通路和下游调控机制之间的联系。基于CellChat的集成GAS矩阵，作者通过B细胞活化因子（BAFF）信号通路确定了巨噬细胞和两种DSLL状态之间的细胞间通讯，其中包括BAFF作为巨噬细胞上的配体，TACI作为DSLL细胞上的受体（图5h）。BAFF信号传导对于正常B细胞的存活和成熟至关重要，而畸变有助于恶性B细胞抵抗凋亡。实验还可观察到TACI编码基因TNFRSF13B的表达在两种DSLL状态下明显更高，而相应的染色质可接近性在状态-1下保持高峰（图5i）。简而言之，DeepMAPS可以构建GRN并识别细胞类型特异性调控模式，从而更好地了解患病亚群中的细胞状态和发育顺序。

图5. DeepMAPS识别DSLL子网中的特定GRN

DeepMAPS为分析scMulti-omics数据提供了一个多功能且用户友好的门户网站

由于单细胞测序数据的复杂性，过去三年开发了许多的网络服务器和对接器。然而，这些工具中的大多数仅提供最小的功能，例如细胞聚类和差异基因分析。它们不支持scMulti-omics数据的联合分析，尤其缺乏对生物网络推断的充分支持。另一方面，作者还记录了DeepMAPS和基准方法在不同数据集上的运行时间，这些数据集的细胞数量范围从1000 到160000。由于深度学习模型（DeepMAPS和TotalVI）的运行时间比Seurat和MOFA+更长。为此，作者提供了一个无代码、交互式和非编程的接口，以减轻scMulti-omics数据的编程负担（图6a）。网络服务器支持使用DeepMAPS分析多个RNA-seq数据、CITE-seq数据和scRNA-ATAC-seq数据（图6b）。该服务器主要包括三个步骤：数据预处理、细胞聚类和注释以及网络构建。此外，DeepMAPS服务器支持实时计算和交互式图形表示。除了上述进展，DeepMAPS网络服务器还强调了一个额外的功能，即阐明特定细胞类型对外部刺激的反应中的复杂网络。

图6 DeepMAPS门户网站的组织

总结

DeepMAPS是一个深度学习框架，在从scMulti-omics数据中研究生物网络时实现了异质图表示学习和图Transformer。通过构建包含细胞和基因的异构图，DeepMAPS同时识别它们的联合嵌入，并能够在完整的框架中推断细胞类型特异性生物网络以及细胞类型。此外，异构图Transformer的应用将细胞-基因关系建模为可解释的统一多重关系。以这种方式，可以大大缩短图中的训练和学习过程，以考虑更远距离的细胞影响。

通过联合分析基因表达和蛋白质丰度，DeepMAPS在PBMC和肺肿瘤白细胞的混合CITE-seq数据中准确地识别和注释了13种细胞类型，这些标记物无法使用单一模态完全阐明。本文还证明了在DeepMAPS中识别的嵌入特征可以捕获具有统计意义的信号，并在原始信号嘈杂时放大它们。对于scRNA-ATAC-seq，作者采用了一种基于RNA速度的方法来动态整合基因表达和染色质可及性，从而增强了细胞簇的预测。使用这种方法，可以在正常B细胞和两种DSLL发育状态中鉴定不同的基因调控模式。

通过对scMulti-omics数据的分析，DeepMAPS的功能仍有进一步改进的空间。首先，考虑到异构图表示的复杂性，超大型数据集的计算效率可能是一个实际问题。此外，建议在GPU上运行DeepMAPS，但这可能存在潜在的可重复性问题。最后，当前版本的DeepMAPS是基于包含基因和细胞的二分异构图。需要单独的预处理和整合步骤才能将不同的模态转移到基因中，以整合到细胞-基因基质中。为了完全实现用于scMulti-omics分析的端到端框架，可以将二分图扩展为多分图，其中不同的模态可以作为不相交的节点类型。然而，随着节点类型的增加，计算量将呈几何级数增加，这需要在未来专门对模型和参数进行优化。总之，DeepMAPS可作为综合分析scMulti-omics数据和细胞类型特异性生物网络推断的先驱研究。它可能会为单细胞生物学中的深度学习部署提供不同的愿景。

参考资料

Ma, A., Wang, X., Li, J. et al. Single-cell biological network inference using a heterogeneous graph transformer. Nat Commun 14, 964 (2023).

https:///10.1038/s41467-023-36559-0

数据

https:///10.6084/m9.figshare.

https:///10.6084/m9.figshare.c.5018987.v1https://www.10xgenomics.

代码

https://github.com/OSU-BMBL/deepmaps