【原】单细胞分析迈入多组学时代

风湿中心 2021-11-19

展开全文

一只老鼠从受精卵成长为新生幼鼠大约需要20天。欧洲生物信息研究所的Ricard Argelaguet与他的同事研究了在4.5天到7.5天之间，当干细胞分化为三层时，小鼠胚胎内到底发生了什么：外胚层，发育成神经系统；中胚层，发育成肌肉和骨骼；内胚层，发育成肠道和内脏器官。

通过观察单个细胞中表达的基因，研究人员可以很容易地区分这三层，但他们想要一个更细致的画面。因此，在2019年，研究人员将基因表达数据与其他两个信息源结合起来。首先是甲基化，一种改变基因表达方式的化学修饰。第二个是染色质可及性：染色质是真核细胞核中蛋白质和DNA的复杂复合体，染色质修饰如何影响哪部分DNA可以转录成RNA。两者都是表观遗传学因素，即影响基因表达方式的非遗传因素。

综合以上三个数据源，研究人员发现了一些意想不到的事情：在没有外部刺激的情况下，胚胎干细胞将变成外胚层。“这是论文中最重要的贡献。”Argelaguet说。这表明“在表观遗传学水平上存在一种细胞命运规范的层次结构”。

研究结果解释了几十年前的观察结果，即培养中的胚胎干细胞将优先分化为神经元。Argelaguet说，这是一个新发现，仅仅使用单一类型的数据是不可能的。

基因组学爆发

过去10年见证了单细胞基因组学的爆发。单细胞RNA测序（RNA-seq）是分析基因表达最常用的技术。其他方法则详细描述了甲基化、遗传变异、蛋白质丰度和染色质可及性等过程。

现在，研究人员越来越多地在“多组学”实验中结合这些方法以及由此生成的数据层。例如，Argelaguet将基因表达谱、甲基化和染色质可及性结合在一种称为scNMT-seq的技术中。另一种CITE-seq技术用于分析转录和蛋白质丰度。G&T-seq技术可同时捕获基因组DNA和RNA。所有这些技术都旨在获得复杂的生物学见解，这是用任何单一技术无法做到的。

几乎所有的单细胞研究都包含可视化——有时称为t-SNE或UMAP图——将单细胞表示为二维平面上的点。研究这些点如何聚集在一起，有助于研究人员辨别生物结构。但是可视化并不容易创建。

图1 UMAP的降维可视化使研究人员能够识别隐藏在细胞群中的生物结构，这张UMAP图代表了一项关于小鼠胚胎发育早期阶段研究中的1928个细胞

单细胞数据集迅速变得庞大。早在2019年，Argelaguet使用荧光激活细胞分选仪在微滴定板中捕获单个细胞，每周只能分析200~300个细胞。而现在借助微流体平台，他可以处理数千个细胞。由华盛顿大学的基因组科学家Cole Trapnell和Jay Shendure监督的2020人类胎儿基因表达谱包括400万个细胞。基本上是一个包含800亿条目的表格——400万行细胞乘以20 000个基因。

难度升级

Argelaguet说，组合模式只会增加难度。Argelaguet与他的同事用了3个月时间收集数据集，用2年的时间对其进行分析。哈佛大学的表观遗传学专家Jason Buenrostro说，他的团队为一项描述SHARE-seq方法的研究进行的计算用了数周才完成。

在瑞士苏黎世大学研究单细胞肿瘤生物学的Bernd Bodenmiller说，这些额外的细节信息有助于研究者“理解生物学”。他们可以利用现有的数据集，如人类细胞图谱（Human Cell Atlas）及其1 350万个细胞剖面图来实现这一目标。

软件工具

欧洲生物信息研究所的Marioni说，这些信息可以通过三种主要方式进行整合，具体取决于数据集的共同特征（或“锚点”），Marioni已就此主题发表了一篇评论。“横向整合”用于相同类型的数据集，例如两个RNA-seq数据集。在这种情况下，基因起着锚定作用，“因为你在每个细胞群中测量的是同一组基因”，Marioni说。

“垂直整合”涉及从相同细胞收集的数据集，如RNA-seq和染色质可及性。而“对角整合”涉及到对无关细胞群进行的分子测量。Marioni说：“问题是，你将要使用的共同特征是什么？”。垂直整合的一种方法是将染色质可及性位点与其调控的基因相关联，然后根据数据计算可能的基因表达谱。

“所以，基本上，你把它变成了一个水平整合问题，基因再次成为锚。”Marioni说。

Trapnell说，整合数据集就像调整DNA序列。“假设你可以通过一种模式看到的细胞群在另一种模式下是可见的，并且对于大多数细胞或细胞群来说，都会有一对一的映射。”他说，诀窍是将这些集合对齐，这样你就可以确信你看到的任何差异“并不是因为你无法找到相似之处，这是激励大多数序列比对算法的动力所在”。

为了实现这一点，已经开发了几十种工具，其中许多工具被编入GitHub上的awesome-multi-omics和awesome-single-cell列表中。

例如，纽约基因组中心Rahul Satija团队成员、计算生物学家Tim Stuart说，Seurat有效地协调了两个数据集的UMAP可视化，以创建一个“共享的低维”空间。“这使你能够在另一个数据集中找到一个数据集的邻居，反之亦然。”

空间黑客马拉松

对于这样一套快速发展的工具，研究人员很难知道他们应该用什么来回答哪些问题，以及如何去做。为了弥补这些差距，约翰霍普金斯大学的Elana Fertig、哈佛大学陈曾熙公共卫生学院的Aedin Culhane、墨尔本大学的Kim-Anh Lê Cao组织了一次单细胞组学数据整合的虚拟会议。作为2020年6月举行的活动的一部分，组织者提供了3套精心准备的数据集，并要求与会者在一系列“黑客马拉松”（hackathons）中应用他们整合和解释数据的算法和工作流。其中一个是专注于Argelaguet的小鼠胚胎数据集，其他则专注于空间数据整合问题。

“我们很想知道在多组学中应该面临哪些挑战。”Lê Cao说，“我们认为最好能召集该领域的不同专家，看看他们如何在单细胞中进行多组学研究分析。”

传统的单细胞实验以牺牲位置信息为代价，详细描述了数千个分子。空间方法无需分离步骤即可获得分子鉴定。通过对这两种数据类型进行分层，研究人员可以计算分离细胞的可能位置，或者用额外的分子细节充实空间数据集。

“一个细胞如何决定它的命运，将如何发挥作用，是许多因素的结合。”Marioni说，“但非常重要的是细胞在胚胎中的物理位置：施加在它身上的机械压力、局部信号环境、胚胎的形状、它在发育过程中的变化。因此，如果我们想更好地了解细胞的命运决定，这些测量是非常有帮助的。

在一项挑战中，研究人员获得了来自小鼠视觉皮层的空间和非空间RNA表达数据集。然后，他们被要求使用在非空间数据中计算的细胞类型分配，来识别空间数据中的细胞类型，其中每个细胞识别的基因较少。第二个挑战是，是否有可能在非空间转录数据中识别细胞位置的基因表达特征。

加拿大麦克马斯特大学的统计学家Prateepa Jeganathan解决了第三个挑战，涉及不同乳腺癌人群的蛋白质丰度数据。Hackathon参与者的任务是整合部分重叠的蛋白质组学数据集，推断不存在空间数据的细胞的位置，使用非空间数据预测空间数据中未测量的蛋白质的表达水平。

Lê Cao说，Hackathon参与者主要是改变现有算法的用途。她的学生们使用了一种称为偏最小二乘法的机器学习方法，这是他们最初为大量基因组数据开发的方法。

Jeganathan利用主题分析（一种她在博士后期间采用的自然语言处理技术）来推断微生物群落在不同环境中的差异。在hackathon中，她再次采用了该方法，以描述跨数据集细胞的空间分布和组成。Culhane认为，这种信息在临床上是有用的，因为肿瘤周围免疫细胞的分布会影响患者对治疗的反应。她说：“细胞的空间定向实际上为患者的生存提供了信息。”

基因调控网络

两种组学数据类型对于确定细胞发育的分子机制特别有用。

单细胞RNA-seq数据识别特定细胞中表达的基因，而染色质可及性分析强调调控区域。通过整合这些因素，研究人员可以识别作用于基因的调控元件、可能控制这些元件的转录因子以及这些因子在何时何地表达。结果是一个基因调控网络，研究人员可以通过探测来区分细胞命运是如何决定的。

Buenrostro与他的团队应用这一策略来展示在小鼠皮肤细胞分化之前，染色质是如何打开的，或是如何被启动的。然后，他们能够利用细胞的“染色质潜能”来预测单个细胞可能如何分化。Buenrostro解释说，染色质“应该总是指向分化的方向”。他的团队发布了一个名为FigR的软件包来帮助定义这些网络。

华盛顿大学Samantha Morris团队开发的CellOracle软件允许研究人员模拟转录因子抑制或增强对细胞特性的影响。Morris与意大利米兰的研究人员合作，研究特定转录因子如何影响人类胚胎中被称为中等多棘神经元（medium spiny neurons）的脑细胞的发育，而这是用基因工程无法做到的。另外，她的团队已经通过计算修改了大约200个转录因子，以确定那些参与斑马鱼胚胎轴中胚层形成的转录因子。轴中胚层发育成脊索，脊索支撑胚胎身体。

该软件预测，其中一个转录因子noto的缺失不仅会阻止脊索的发育，而且会促进另一个发育结构的生长。“我们能够在这个基因敲除中预测一种新的表型。”Morris说，“然后我们用单细胞RNA-seq进行了实验验证。”

无所不在

随着单细胞多组学领域的加速发展，新工具的出现速度令人眩晕。如果细胞信息可以通过测序获得，单细胞生物学家正在将其纳入他们的实验中。

今年6月，美国和日本的研究人员描述了一种同时捕获三条信息的方法：染色质可及性、细胞表面蛋白质丰度和细胞谱系，最后一条是用线粒体DNA测量的。

该团队最初将这种方法称为ASAPseq。但在论文修订过程中，10x Genomics公司发布了一种新的微流体试剂盒，以简化从同一细胞收集基因表达和染色质可及性数据的过程，研究人员决定将该试剂盒与ASAP-seq混合，以加上另一层信息：转录。

该团队将其方法命名为DOGMA seq——这是对“分子生物学中心法则”的一种认同，即DNA转录成RNA，RNA翻译成蛋白质。除此之外，该技术还揭示了骨髓分化过程中的谱系偏差。

斯坦福大学的计算生物学家、该团队成员Caleb Lareau说：“一种新的分析方法作为一种修正实验被引入，这一事实首先说明了单细胞领域发展的速度惊人。”

研究人员只能努力跟上。Buenrostro开玩笑说，这就是发展的速度，他的学生们在争先恐后地弄清楚它如何影响他们的研究时，每一本新出版物都会让他们的思想“内爆”。

Lareau说，他与他的同事们已经预先指定了他们的继任者DOGMA-seq。他们的工作头衔？“厨房测序”（Kitchen-seq），就如：“除了厨房水槽，你怎么能把所有东西都排序？”

参考文献：Perkel JM. Single-cell analysis enters the multiomics age[J]. Nature,2021,595:614-616.

世界医药里程碑 · 近代篇