随着单细胞技术的发展,各种单细胞测序正如火如荼地进行。技术方面:分离细胞的单细胞转录组、原位单细胞转录、单细胞DNA修饰、单细胞ChiP-Seq等技术正不断涌现【1】。研究内容上:不同器官组织或不同病理状态的单细胞数据层出不穷。单细胞数据可以给我们展示更多细节信息:根据不同的转录或修饰特点将细胞分类更加细化;提供更多的细胞多态性转录或修饰信息。但是越来越多的单细胞组学数据我们该如何去解读?如何比较?如何整合呢? 近日,来自Broad Institute of Harvard and MIT和密歇根大学的研究人员就单细胞组学数据的整合开发了新的算法并附带一套R语言程序包, 他们给这个算法起了一个高大上的名字LIGER(linked inference of genomic experimental Relationships),相关研究发表以Single-Cell Multi-omic Integration Compares and Contrasts Features of Brain Cell Identity为题发表在Cell 杂志上。 这个算法能帮我们做什么呢?如图1所示:它可以整合比较不同性别、不同物种、不同实验条件(细胞数目、测序深度)下RNA转录组、原位转录组、表观修饰组的单细胞组学数据,获得不同数据库之间的基因特征的共性和特性及标准化的表达谱,将单细胞转录数据关联上空间信息,与表观修饰组的关联推测表观修饰对转录的调控关系及其多态性。 图1. 多重单细胞组学数据整合分析工具—LIGER 研究人员首先比较了LIGER与18年发表的Seurat程序包的比对能力和一致性【2】,对已发表的数据用这两种程序进行分析,结果显示尽管LIGER和Seurat在比对小鼠和人的胰腺组织数据方面具有相似的表现,LIGER稍微优化一点,但在一致性上LIGER则表现得更好。另外LIGER产生更少的错误比对。 那么LIGER具体怎么用呢?作者针对感兴趣但尚无单细胞数据的大脑终纹床核(bed nucleus of the stria terminalis, BNST)结构的细胞分离并进行单细胞测序,产生了20万细胞转录组数据,对这些数据根据Allen Brain Atlas的细胞标记物进行细胞聚类, 10万神经元细胞根据转录特征,共聚集成41个亚类,其中70%的细胞位于终纹床核。并且与前人报道一致,85.9%的神经元为抑制性神经元。作者同时发现该结构的神经元转录表达谱具有性别二态性,其中Xist, Tsix, Eif2s3y,Ddx3y和Uty是比较显著的两性差异表达基因。 该实验组还测了7具人类遗体的大脑黑质结构单细胞转录组,并对这7个不同个体的单细胞转录组进行整合比对分析。他们鉴定出24个已知细胞类群。在差异分析中,其中一个病人的样本特异factor 28显示在少突胶质细胞中高表达立早基因(immediate early genes,IEGs),提示该病人急性损伤。接下来研究人员又将人的黑质数据和之前发表的小鼠黑质数据【3】作比对,LIGER避免了将人黑质解剖结构以外的细胞与小鼠细胞类群比对的假阳性,他们发现人和小鼠之间细胞类群有很强地对应关系。同源基因在人和小鼠黑质中的表达差异能提示这些基因在该组织中的功能,其中离子通道、转录因子、跨膜受体、胞外基质组分是人鼠高相关基因,而染色体重塑基因是两物种间低相关基因,提示物种间存在表观调控差异。 此外,研究人员将该课题组18年发表的额叶皮层的单细胞转录组数据(全基因转录组)【3】与2018年发表的相同组织的原位单细胞转录组(组织范围受限于共聚焦扫描范围,靶向特定基因群)【4】比对,同样很好地识别共有细胞类群,利用原位单细胞数据,可以对基于Drop-seq的单细胞转录组(分离打散的单细胞)的细胞类群赋予空间信息,对原位单细胞数据而言则提供了更详尽的表达数据。此外整合的数据比单独原位单细胞转录组在细胞类群分析上具有更高分辨率。 将上述已发表的额叶皮层的单细胞转录组数据【3】与2017年发表的DNA甲基化修饰组【5】比对发现,基因的表达谱与甲基化修饰成很好的负相关性,并且非CpG 岛的甲基化比CpG岛的甲基化与基因表达的负相关性更强,这与前人报道一致。另外他们还发现Mecp2的表达与总体甲基化水平高度正相关,这一结果支持Mecp2通过结合甲基化碱基抑制基因表达的模型。 同期Cell也发表了另一种集成算法,由Stuart等人研发【6】,(详见BioArt报道:Cell 深度| 一套普遍适用于各类单细胞测序数据集的锚定整合方案)Stuart使用典型相关分析(CCA)来识别最相关的共性子空间,然后使用这些共有组件在不同数据中识别锚点。CCA解决了凸优化问题,从而保证确定性、全局最优解。相比之下,LIGER使用整合的非负矩阵因子分解法,它解决了非凸优化问题,产生一个取决于初始化的不同分解。LIGER能够推断可解释的数据间共有和特异因子,通常对应重要的生物学信号,包括与细胞类型不正交的信号;或者技术信号,将它们从下游分析中移除。 最后,文章作者指出他们开发的R语言包能够支持大规模的数据集分析,可以修改算法参数以及结果展示,这个R包可以自由下载:https://github.com/MacoskoLab/liger 。他们期望这一工具的应用能给现行的单细胞生物学开辟新的路径。 原文链接: https:///10.1016/j.cell.2019.05.006 制版人:珂 参考文献 1. Svensson, V., Vento-Tormo, R., and Teichmann, S.A. (2018). Nat Protoc 13, 599-604. 2. Butler, A., Hoffman, P., Smibert, P., Papalexi, E., and Satija, R. (2018). Nat. Biotechnol. 36, 411–420. 3. Saunders, A., Macosko, E.Z., Wysoker, A., Goldman, M., Krienen, F.M., de Rivera, H., Bien, E., Baum, M., Bortolin, L., Wang, S., et al. (2018). Cell174, 1015–1030. 4. Wang, X., Allen, W.E., Wright, M.A., Sylwestrak, E.L., Samusik, N., Vesuna, S., Evans, K., Liu, C., Ramakrishnan, C., Liu, J., et al. (2018). Science 361.July 27, 2018 5. Luo, C., Keown, C.L., Kurihara, L., Zhou, J., He, Y., Li, J., Castanon, R., Lucero, J., Nery, J.R., Sandoval, J.P., et al. (2017). Science 357, 600–604 6. Stuart, T., Butler, A., Hoffman, P., Hafemeister, C., Papalexi, E., Mauck, W.M., III, Hao, Y., Stoeckius, M., Smibert, P., and Satija, R. (2019). Comprehensive Integration of Single-Cell Data. Cell 177 |
|