编译:夕夕,编辑:夏甘草、江舜尧。 原创微文,欢迎转发转载。 导读 结构变异(SV)是影响作物改良和驯化性状的重要因素。但是,解决SV的范围,多样性和定量影响一直是一项挑战。作者使用长读纳米孔测序技术捕获例了100个不同番茄品系中的238,490个SV。这组范结构变异基因组,以及14个新参考程序集,揭示了不同基因型的大规模混合,以及成千上万个与基因和顺式调控区相交的SV。数百个SV基因对表现出微妙而显着的表达变化,可能广泛影响数量性状变异。通过将定量遗传学与基因组编辑相结合,作者揭示了多种SV是如何改变基因表达量进而修饰水果风味,形状和产量的。作者的发现强调了SV在基因型到表型关系中的作用,以及它们在作为改良中的广泛重要性和效用。
原名:Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato
译名:大范围结构变异对番茄基因表达和作物改良的主要影响期刊:Cell IF: 38 发表时间:2020.7 通讯作者:Zachary B. Lippman 通讯作者单位: Cold Spring Harbor Laboratory, Cold Spring Harbor, NY 11724, USA DOI号:10.1016/j.cell.2020.05.021 1 对100个番茄进行长度长测序建立PanSV基因组 为了深入研究番茄的结构变异情况,作者收集了具有代表性的群体规模番茄长读长测序数据(图1A)。为此,作者首先对800个番茄进行短读长测序来研究SV,然后使用SVCollector算法优化选择51个样本,最大化SV多样化。然后,作者分别选择了49种野生和现代品种,进行番茄研究。作者最后收集了100份材料涵盖了驯化番茄的最近野生亲缘,早期驯化品种和现代品种。对这100个样本,作者使用ONT长读长测序,覆盖度为403X,共获得了7.77Tb的数据,N50的平均读长为19.6kb。将测序reads比对到最近发布的参考基因组SL4.0上,使用Sniffles鉴定SV。随后进行过滤和合并,最后共得到238490个SV。重要的是,作者证实了这些变异大部分都不能使用短读长测序鉴定得到。每个样本的SV在1928到45840个之间,其中野生SP、GAL和CHE的SV个数最多(图1B)。尽管作者在所有样本中也发现了大量的重复和易位,但是插入和删除是最常见的SV类型。SV与参考基因组有关,并不一定能反应潜在的进化背景。SV的聚类结果揭示了一种结构,该结构反映了较大的基于SNP的番茄系统发育(图1C)。有趣的是,与SLC同组的SLL“樱桃”品种Sweet100与仅有的两个加工品种M82和EA02054形成了与SLL截然不同的类别。与长读长测序SV的比较分析表明,与SLL相比,SP和SLC具有更多的SV多样性,与番茄驯化和改良过程中遗传变异的缺失相一致(图1D)。该分析还表明,即使已经对100个样本进行了测序,仍有许多SV没有被发现(图1E)。作者评估了SV的长度分布,结果表明大多数SV较短,其中30-50bp的占30.5%,50-200bp的占30.5%,大于200bp的占39%(图1G)。为了用额外的基因组资源补充panSV基因组,作者选择了14种样本进行基因组组装和注释。结合长读长测序和短读长测序数据,使用MaSuRCA组装得到的N50平均长度为1.9Mb。使用REPET对重复序列进行注释。作者使用新参考基因组MAS2.0验证了14个样本中的SV,其中90%在组装的序列中找到。由于组装的多样性,作者发现pan-genome中22%的基因是在ITAG注释中没有的。MAS2.0基因组的关键环境是复杂SV位点与功能如下所示。SVs可以通过改变一个基因的序列或拷贝数,或通过改变顺式调控序列的组合或位置来影响附近基因的表达。作者探索了番茄panSV基因组中的SV与基因表达的关系。在作者收集的大量可能影响基因表达的候选SV中,大概50%(112114)的存在SV的基因存在重叠基因或侧位调控序列,在34075个注释序列中,95%的编码序列在5kb内存在SV,其中大多数位于顺式调控区域(图2A和B)。为了探讨SVs对基因表达的影响,作者对3个组织(子叶、根和根尖茎)进行了30个RNA测序(RNA-seq),共采集了23份样本,共捕获了44,358个基因相关的SVs。作者评估了21,156对sv基因,发现了数百个显著的表达变化(图2C)。近一半影响编码序列的SVs与表达差异显著相关,许多SVs会减少或不表达。在调控区,1534对sv基因(7.3%)在所有组织中表达显著差异,总的来说,这些差异比编码区SV更微妙。由于大规模的表达量变化可以用cis-eQTL来解释,作者接下来制定了一个分类任务,利用基因表达的变化来预测附近SV的存在。该分类器可能量化整体表达变化与SV相关的程度。广泛地说,差异表达显著地预测相关SVs基因(图2D和E)。正如预期一样,该分类器在编码序列SV上表现最好,这可以从ROC曲线反映出来(图2D)。作者还观察到了调控性SV对基因表达的微妙且重要的影响。AUROC捕获了个体的顺式调节效应大小。总之,这些变异对表达的变异有很大的影响(图2E),表明它们在整体上塑造了表达的轮廓。总的来说,作者的结果表明,SVs可以以实质和微妙的方式影响基因表达,作者panSV基因组中的许多这样的变异可能是功能相关的(图2F)。图2 SV分布揭示了野生和驯化基因型之间的大规模混合作者的panSV基因组,新的MAS2.0和表达数据集可以帮助揭示基因和编译的数量性状变异。许多影响水果风味的挥发性QTL(数量性状基因座)已经通过全基因组关联研究(GWAS)被鉴定出来,但鉴定出来还是少数。其中一种QTL涉及与代谢有关的挥发物瓜亚油和水杨酸甲酯,它们的“烟熏”或“药用”成分会对消费者的吸引力产生负面影响。先前的GWAS鉴定了一个候选基因E8 (Solyc09 g089580),编码了一个推测的乙烯生物合成负调控因子,该负调控因子与水果成熟有关。尽管E8的敲除会导致创木酚和水杨酸甲酯的积累,但其他挥发物也被修饰。另一项研究发现,NON-SMOKY GLYCOSYLTRANSFERASE1(NSGT1)和NSGT2同源基因的突变导致创木酚的积累(图3A)。虽然NSGT2表达很少,被认为是无功能的,但在成熟过程中上调NSGT1可将愈创木酚转化为不可分裂的三糖苷,阻止愈创木酚挥发。为了研究NSGT基因是否与烟熏性状有关,作者检查了之前的参考基因组SL3.0,发现在9号染色体GWAS位点的间隙附近有一个NSGT1的部分序列,在未锚定的contig上的第二个GWAS峰处有另一个NSGT1片段(图3B)。然而,所有这些研究都未能解决该位点。重要的是,作者新的MAS2.0组装不仅填补了E8侧的这两个NSGT 的空白,而且进一步揭示了编码序列变异和SVs分解为5个单倍型(图3B和C)。单体型I可能是E8侧的NSGT1和NSGT2基因的祖先。虽然在所有其他单倍型中都发现NSGT2编码序列突变,但单倍型II和III中NSGT1是完整的,后者携带两个NSGT1拷贝(图3C)。最后,在单倍型IV和V中扩展了拷贝数和功能变异;单倍型IV有一个7-kb的复制,包括突变的nsgt2,破坏了NSGT1,使其失去功能,而单倍型V有一个23-kbp的巨大缺失,删除了NSGT1和E8,只留下一个突变的nsgt2拷贝(图3D)。这些单倍型以及之前对NSGT1的鉴定表明,NSGT1的多个突变体导致了水杨酸甲酯积累和烟熏味道的自然变异。携带单倍型IV和V的突变体,在SLCs中出现较早,其组合的NSGT1/2表达水平低于功能单体型的基因,其组合的NSGT1/2表达水平低于功能单体型的基因,而在5个携带突变体V缺失的基因中未检测到NSGT1/2表达(图3E)。尽管罕见的V型单倍型的影响显示出微弱的统计意义,但两个突变的单倍型积累了更多愈创木酚(图3F)。作者使用155个主要由SP和SLC基因型组成的GWAS进行验证。同样,NSGT1编码和缺失突变单倍型积累的愈创木酚明显多于功能性单倍型(图3G)。最后,作者在单倍型V和功能性NSGT1分离的两个SLCs之间生成了F2群体,证实了缺失NSGT1和E8与越来树酚和水杨酸甲酯的累积有关(图3H)。作者的研究结果将两个NSGT基因固定在烟熏GWAS QTL上,并表明多种nsgt1突变在很大程度上解释了烟熏风味的自然变化。这个例子证明了我们高质量的长时间阅读的基因组组装可以解决复杂的单倍型,并揭示缺乏验证的QTL的致病变异。图3 新的参考基因组锚定候选基因,解决“烟熏”挥发性GWAS位点的多个SV和编码序列单倍型5 由细胞色素P450基因的串联重复引起的果实重量QTL fw3.2番茄驯化的一个主要特点是大幅度提高果实重量。目前,已经确定了果实重量QTL潜在的主要基因、SV和SNP。其中fw3.1是一个与细胞色素P450基因SIKLUH的启动子密切相关的SNP。该SNP是SIKLUH表达量增加的原因(图4A),该基因的转录敲除会导致果实变小。作者的panSV基因组的50kb串联重复显示fw3.2包含三个基因位点。尽管启动子中的SNP可以通过修饰顺式调控元件来影响表达,但是作者探索了fw3.2dup是否会导致变异。作者的表达分析结果显示,在携带fw3.2dup中,基因表达量大约高出2倍(图4C)。为了研究这些变异对果实重的影响,作者生成了分离fw3.2dup但固定了启动子SNP和其他已知果实重QTL的F2代群体。较高的果实重量与重复等位基因表现共分离(图4D)。相反的,启动子SNP与果实重量在F2群体中没有相关性。结果表明,SlKLUH携带的dup可以解释fw3.2,因为基因拷贝数增加,因此果实重量增加。作者通过CRISPR-Cas9对加工品种M82中的SlKLUH进行了测试。独立T0株的PCR基因分型和测序结果显示,在目标位点上缺失较大,indels较小。大多数的这些植株,包括3个被证实缺乏野生型(WT)等位基因的植株,都比对照植株小得多,并且有微小的花序和不育的花(图4E)。图4 由细胞色素P450基因的串联重复引起的果实重量QTL fw3.2作者发现了成千上万个可能由SV引起的表达变异的基因。这些变异可能没有引起表型的改变,然而,很多都是隐秘的,他们自身影响很小或没有影响,但在其他变异情况下会引起表型变化。“无节”果梗是重要的番茄收获性状,起源于野生和驯养品种的不同突变。无节性状可以使水果与其他花卉部分完全分离,这是由转座子插入引起的,该插入子消除了MADS-box转录因子基因JOINTLESS2(J2)的功能性转录本。在引入无节性状后,在相关的ENHANCER OF J2(EJ2)基因中隐性插入会减少功能性转录,并导致过量的花序分支,并导致果实产量降低(图5A)。作者之前的QTL定位将基因sb1定位于1号染色体的一个6Mbp区间内(图5B和5C)。候选基因是与相邻的两个MADS-box通源基因,TM3和STM3。值得注意的是,分枝亲本STM3的表达量是抑制亲本的二倍。该基因没有发生明显的突变。Heinz 4.0参考基因组在这一方面存在gap,作者的MAS2.0参考组装集填补了这一空白,发现了STM3的拷贝数变化,其在分枝亲本上多了一个拷贝(图5D和5E)。为验证STM3基因的低表达是否与sb1 QTL有关,作者使用CRISPR-Case9进行验证。结果发现,STM3低表达与sb QTL有关(图5F和5G)。对500多个番茄进行短读长测序分析,结果发现STM3的重复在驯化中出现较早,但在番茄种质中仍然普遍存在单基因(图5H)。人工番茄的无节育种是通过抗ej2w实现的(图5I)。作者的分析揭示了STM3可以作为番茄花序发育的新调控因子,而对sb1的分析表明,无节育种依赖于4个SV影响的3个MADS-box基因的表达水平,进一步说明了结构变异的功能。图5 无节性状培育相关的三个MADS-box基因中的四个SV基因组测序技术的进步通过提供对表型多样性基础的遗传变化的日益全面的了解,继续在生物学领域掀起一场革命。高通量长度长测序为研究提供了新的机会,可以快速揭示复杂基因组中和整个种群中先前隐藏的SV的广度和深度。利用野生和驯养番茄的广泛遗传多样性,作者对100个种质的序列进行了测序,并解析了数百种SV。这些SV主要由转座子形成,在所有染色体上均富集,通常位于基因内或与基因紧密接近,通常与表达相关,并可能导致表型变异。将panSV基因组,从头组装和表达数据与基因组编辑整合在一起,使作者能够解析SV并将它们与三个主要的驯化和育种性状功能连接。烟熏和sb1位点尤其证明了这些资源对于解决QTL之下的复杂单倍型至关重要。此外,作者对烟熏和fw3.2基因座的分析表明,推测的致病性变异可能不完整或不正确。更广泛地说,GWAS在模型植物和农作物中发现的大多数QTL都位于具有多个候选基因和变体的区域。通过在其他物种中产生种群规模的panSV基因组,可能会在理解SV的功能影响方面取得类似的进展。作者的panSV基因组揭示了fw3.2和sb1都与先前隐藏的重复有关。在动植物中,发现改变拷贝数和剂量敏感基因表达的重复会改变表型多样性,包括对驯化和育种重要的性状。大型串联串联重复序列是解决最具挑战性的SV之一,即使存在强大的候选基因,如fw3.2重复序列中的SlKLUH一样,直接测试修饰的基因剂量和表达如何影响定量变异也是具有挑战性的。通过CRISPR-Cas9基因组编辑,作者分别在fw3.2和SB1重复中为SlKLUH和STM3生成了具有不同基因拷贝数和剂量的植物。建立剂量序列的等基因基因型不仅证实了重复和特定基因之间的因果关系,还直接证明了它们的定量影响。作者的panSV基因组显示,大多数与基因相关的SV位于顺式调控区域,并且许多与表达的细微变化相关。将长期阅读的测序和表达分析扩展到更广泛的人群将揭示更多的此类SV。由于SV可能是隐性的,因此,通过将天然的顺式调控SV与同一启动子中的工程SV或相关的潜在冗余基因中的工程突变相结合,可以使基因座或基因组更敏锐,从而是一种更强大和更有用的方法。解决SV的功能影响,尤其是那些影响微妙或隐秘的SV,将增进研究人员对基因型与表型关系的理解,并有助于在作物改良中利用天然和工程SV。
更多推荐 1 高分综述 | Trends in Biotechnology: 单细胞分辨率下利用空间转录组揭示器官分子结构(国人佳作)
|