今天为大家介绍的是来自Jingyi Jessica Li的一篇数据集生成工具介绍的论文。作者提出了一种模拟器,名为scDesign3,用于生成逼真的单细胞和空间组学数据,包括各种细胞状态、实验设计和特征模态。该模拟器通过从真实数据中学习可解释的参数。使用单细胞和空间组学数据的概率模型,scDesign3推断出具有生物学意义的参数;评估推断的细胞群集、轨迹和空间位置的拟合度;并生成计算模拟的阴性控制控和阳性控制,以用于评估计算工具的基准性能。 单细胞和空间组学技术为个体细胞提供了前所未有的多模态视角。首先,单细胞RNA测序(scRNA-seq)被开发出来测量细胞的转录组,从而发现了离散的细胞类型和连续的细胞轨迹。随后,其他单细胞组学技术被用来测量额外的分子特征模态,包括染色质可及性、DNA甲基化和蛋白质丰度。最近,单细胞多组学技术被发明出来用以同时测量多个特征模态。与单细胞组学同时进行的是空间转录组学技术的进展,用于记录细胞的空间位置并进行转录组分析。针对各种任务已经有数千种计算方法,使得方法基准测试成为一个紧迫的挑战。公平的基准测试需要包含真实数据以及模拟真实数据的体外数据,因此需要逼真的模拟器。两项关于模拟器的基准研究发现,需要在真实数据上进行训练的基于参考的scRNA-seq模拟器比起使用预设理论模型的模拟器更加逼真。这两项研究还发现,尽管一些基于参考的模拟器可以从离散的细胞类型中生成逼真的scRNA-seq数据,但很少有基于参考的模拟器能够生成来自连续细胞轨迹的数据。此外,除了scRNA-seq外,目前缺乏其他单细胞组学、单细胞多组学和空间转录组学的逼真的模拟器。因此,存在着不同的基准测试需求与现有模拟器的有限功能之间的巨大差距。 scDesign3的功能一:模拟 图 1 作者验证了scDesign3作为一个逼真且多功能的模拟器,在如下四个示例设置中:(1)连续细胞轨迹的单细胞RNA测序(scRNA-seq),(2)空间转录组学,(3)单细胞表观基因组学和(4)单细胞多组学(图1)。作者展示了scDesign3生成的合成数据与测试数据保持一致。 在第一个设置中,scDesign3模拟了三个包含单一或分叉细胞轨迹的scRNA-seq数据集。图1b-c、扩展数据图1和2c-d显示,scDesign3生成的合成细胞与排除的真实细胞相似,通过高均值局部逆Simpson指数(mLISI)值得到反映。此外,scDesign3保留了方法中描述的八个基因和细胞特异性特征。由于连续细胞轨迹的基于参考的模拟器缺乏,作者将scDesign3与ZINB-WaVE、muscat和SPARSIM进行了比较,它们是针对离散细胞类型的表现最佳的模拟器,以及基于深度学习的模拟器scGAN。scDesign3在生成更逼真的合成细胞和更好地保留基因和细胞特异性特征方面优于这些模拟器,特别是细胞间距离和基因间相关性(图1b-c、)。 在第二个设置中,scDesign3模拟了由10x Visium和Slide-seq技术生成的四个空间转录组学数据集。首先,图1d-e显示,scDesign3重新展现了空间变量基因的表达模式。其次, scDesign3保留了八个基因和细胞特异性特征。第三,二维细胞嵌入可以确认scDesign3的合成数据与测试数据的相似性。第四,当在真实数据或scDesign3合成数据上进行训练时,scDesign3模拟了空间转录组学数据,使得三个预测算法的性能高度一致。第五,在较少结构化的癌症组织中,scDesign3模型适应了复杂的空间模式。第六,在给定一对scRNA-seq数据和具有点分辨率的空间转录组学数据(每个点包含多个细胞)的情况下,scDesign3可以生成具有每个点处指定的细胞类型比例的逼真的点分辨率空间转录组学数据(图1f)。使用这个功能来对比空间转录组学数据的细胞类型解卷积算法,作者得到了与一项基准研究一致的结果,即CARD27和RCTD28在估计细胞类型比例方面优于SPOTlight,尽管可以发现这三个算法在估计每个细胞类型在点之间的相对丰度分布方面表现出类似的良好性能。 在第三个设置中,scDesign3与由10x单细胞转座子可及染色质测序(scATAC-seq)和单细胞组合索引测序(sci-ATAC-seq)协议分析的两个单细胞染色质可及性数据集相似。对于这两种协议,scDesign3生成的合成细胞在峰区域的读取计数与真实细胞相似(图1g和1h左侧)。此外,结合作者新开发的读取模拟器scReadSi,scDesign3能够生成逼真的合成读取,解锁了对读取级别生物信息学工具进行基准测试的能力(图1h右侧) 在第四个设置中,scDesign3模拟了通过测序对转录组和表位进行细胞索引的CITE-seq数据集,并从“分别”测量的RNA表达和DNA甲基化模式中模拟了一个多组学数据集(SCGEM)。首先,scDesign3通过同时模拟基因和表面蛋白的表达水平来模拟CITE-seq数据集。图1i显示了三个示例表面蛋白的RNA和蛋白表达水平在合成数据和测试数据之间高度一致。此外,scDesign3重现了RNA和蛋白表达水平之间的相关性。其次,scDesign3通过学习Pamona31找到的两个单组学数据集的联合低维细胞嵌入(图1j左侧)来模拟具有联合RNA表达和DNA甲基化模式的单细胞多组学数据集。这个合成的多组学数据集保留了两个单组学数据集中的细胞轨迹(图1j右侧)。通过从单组学数据生成多组学数据的功能,scDesign3可以评估集成来自不匹配细胞的多模态数据的计算方法。 scDesign3的功能二:可解释性 图 2 作为单细胞和空间组学数据的通用概率模型,scDesign3不仅可以用于生成合成数据,还具有广泛的应用。作者研究了scDesign3模型的三个重要应用:模型参数、模型选择和模型修改(图2a)。 首先,scDesign3模型具有可解释的参数结构,包括基因的边缘分布参数和成对基因之间的相关性。此外,scDesign3模型通过使用广义可加模型(GAMs)和高斯过程,可以灵活地纳入各种细胞协变量,从而可以估计沿着细胞轨迹(图2b)和空间位置(图2c)上的非线性基因表达变化。除了推断单个基因的表达特征外,scDesign3还可以在给定细胞协变量的条件下估计成对基因之间的相关性,从而揭示潜在的基因调控关系。具体而言,scDesign3通过两种统计技术——Gaussian copula和Vine copula来估计基因之间的相关性,它们具有互补的优势(方法):Gaussian copula计算速度快,但只输出基因相关性矩阵;Vine copula计算速度较慢,但通过输出基因“vine”结构,可以解释性地显示最高相关的基因(即“中心基因”)。应用于一个包含四种细胞类型的人类外周血单个核细胞的scRNA-seq数据集,Gaussian copula揭示了相似细胞类型之间的相似基因相关性矩阵(调节性T细胞与幼稚细胞毒性T细胞),以及不同细胞类型之间的不同基因相关性矩阵(CD14+单核细胞与幼稚细胞毒性T细胞)(图2d,顶部);Vine copula发现了作为中心基因的典型细胞类型标记基因:CD14+单核细胞的LYZ和B细胞的CD79A(图2d,底部)。 其次,scDesign3采用了基于似然的模型选择准则,如Akaike information criterion(AIC)和贝叶斯信息准则(BIC),使scDesign3能够评估模型对数据的“拟合优度”并比较竞争模型。一个值得注意的应用是评估推断得到的细胞潜在结构(聚类、轨迹和空间位置)对数据的描述能力,即从拟合优度的角度评估潜在结构,而无需有真实值或外部知识。虽然scDesign3模型不能代表真实值,但作者证明了在scDesign3模型下,scDesign3的AIC和BIC是评估潜在结构与数据一致性的有用的“无监督”准则。对于细胞聚类,作者将scDesign3的BIC与“有监督”的调整adjusted Rand index(ARI)和新提出的“无监督”的聚类偏差指数在具有已知细胞类型的八个数据集上进行了基准测试。结果显示,scDesign3的BIC与ARI具有良好的一致性(平均Spearman相关系数小于-0.7),与聚类偏差指数相比表现更好或类似。 第三,scDesign3具有模型修改功能:给定在真实数据上估计的scDesign3模型参数,用户可以修改这些参数以反映一个假设,并生成具有真实数据特征的相应的模拟数据。这个功能使得scDesign3相比基于深度学习的模拟器具有优势,后者无法轻易地修改以反映一个假设。 结论 总而言之,scDesign3适应了各种细胞状态、多样化的组学模式和复杂的实验设计。虽然scDesign3模型不应被视为真实模型,但其可解释的参数除了数据模拟之外还具有其他功能。首先,scDesign3模型参数提供了对真实数据的全面解释。其次,scDesign3允许基于似然的模型选择来评估推断的细胞聚类、轨迹和空间位置的拟合优度。当然,这种无监督的基于模型的评估不能取代有监督的度量标准,也不能比较具有不同类型细胞潜在结构的模型(例如,细胞聚类与轨迹)。第三,scDesign3可以通过修改其模型参数来在特定假设下生成合成数据。 参考资料 Song, D., Wang, Q., Yan, G. et al. scDesign3 generates realistic in silico data for multimodal single-cell and spatial omics. Nat Biotechnol (2023). |
|