分享

科研 | Nature Communication:基于16S rRNA基因测序评估在种水平和菌株水平的微生物组分析

 微生态 2021-04-13


编译:流年梦,编辑:小菌菌、江舜尧。

原创微文,欢迎转发转载。

导读

几十年来,16S rRNA基因一直被用来分析细菌物种分类,但是全长16S rRNA基因的高通量测序在近期才可用。

1. 该研究使用计算机模拟和高通量测序评估了16S rRNA基因在种水平和菌株水平上的分类能力。结果证明基于某一16S可变区不能达到全长16S rRNA所具有的物种分辨能力。

2. 进一步,该研究证明16S rRNA全长足够准确地反映同一基因组内16S rRNA微妙的核苷酸替换,但是对缺失和插入无效。

3.该研究提出现在的分析方法需要考虑同一基因组内16S基因拷贝之间的变异。

4.另外,该研究结果显示适当地处理16S rRNA在基因组内的变异有可能提供细菌群落在种水平和菌株水平上的分类学分辨率。

论文ID

原名:Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis

译名:基于16S rRNA基因测序评估在种水平和菌株水平的微生物组分析

期刊:Nature communications

IF:11.878

发表时间:2019.11

通讯作者:Jethro S. Johnson

作者单位:美国杰克逊基因医学实验室

实验设计


该研究一共涉及四个实验:

1)从Greengenes数据库中下载全长16S基因序列的非冗余数据集,进行计算机模拟扩增不同区域(V1-V2V1-V3V1-V9V4V6-V9,说明使用不同可变区是对测序结果的影响;

2)人工构建含有39个物种的合成微生物组,使用PacBioCCS测序技术对V1-V9区进行测序,证明PacBioCCS测序技术的准确性以及同一基因组内16S基因序列存在碱基差异(16S基因的多态性);

3)四个成人志愿者的粪便样本,使用PacBioCCS测序技术对V1-V9区进行测序,使用Illumina MiSeq进行V1-V3区测序,使用Illumina NextSeq进行宏基因组测序,证明16S rRNA基因在原位体系中可以分辨非常相近的细菌分类;

4)从人类粪便中分类到381个分类(taxa),通过16S全长测序说明16S基因多态性是普遍存在的。

结果

1. 16S全长提供更好的物种分辨率

16S基因全长包含9个可变区(图1a),研究中通常使用部分可变区进行测序(如V1-V3V3-V5V4-V6)。该研究认为这是由于技术的问题,对现实的妥协。今天,PacBioOxford Nanopore测序平台可以实现1500bp的测序读长,使得高通量检测16S基因全长越来越普遍,该研究首先诠释了基于全长16S基因测序的优势(相对于部分可变区测序)。

该研究从Greengenes数据库中下载了全长16S基因序列的非冗余数据集,进行计算机模拟扩增不同可变区。该研究假设下载的每一条序列代表一个物种,我们使用通用的分类方法去计算哪个可变区可以提供准确的种水平物种分类。同时,该研究根据不同阈值对模拟PCR的结果进行了聚类(97%98%99%)。

研究结果发现仅根据部分可变区在某种程度上可以区分物种(图1b),V4区的区分能力最差(56%的扩增子不能匹配到相应的物种),使用16S基因全长则可以将所有的序列注释到具体的物种分类。该研究同时发现基于不同可变区对物种分类能力存在偏差(图1c),例如V1-V2Proteobacteria的区分能力较弱,V3-V5区对Actinobacteria的区分能力较弱扩增区域的选择显著影响了OTU的数量,当以99%的相似度进行聚类,所有以部分可变区进行扩整的结果均不能重现真实的物种数量,V4区效果最差。同时,当使用不同的阈值进行聚类时(97%98%99%),所产生的OTU数量也是不一致的。

图1 基于计算机模拟,比较16S rRNA可变区。a 以Escherichia coli K-12 MG1655的16S rRNA序列为参考序列,计算Greengenes数据库中16S rRNA基因的香农熵;b以不同可变区进行模拟测序,结果中不能鉴定到种水平的序列比例;c利用数据库中所有16S rRNA序列构建发育树,树分支的颜色代表该分支中不能被鉴定到物种水平的序列的比例;d以99%为聚类阈值,不同可变区测序所获得的OTU数量,虚线代表真实数量。

2. 16S基因的变异反映菌株水平的变异

16S序列使用聚类的方式进行分析原因有两个,

1)去掉由于PCR扩增和测序错误产生的微小人工序列变异(minor artifactual sequence variants);

2)排除相近物种间合理的序列变异。

最近,CCS降低了长片段测序平台中的错误率,同时后续的分析方法也可以去排除测序技术错误引起的序列变异。技术和方法的进步可以去准确地检测16S基因中单一核酸变异信息。

通常认为单核酸变异代表了不同的相近物种,该研究认为这种认识是过于简单的解读,因为同个物种基因组中可能包括多个16S基因拷贝,且不同拷贝之间存在多态性。该研究用39个物种组成人工合成微生物组进行测序来证明测序的准确性和同基因组内16S基因序列的差异。该研究将测序数据与含有39个物种所有16S基因序列的数据库进行比对,通过比对统计来证明了测序的正确性和可靠性。结果显示CCS检测序列中核苷酸缺失中存在误差,但在核苷酸替换检测中误差较小。另外,该研究发现同一物种内不同16S基因拷贝存在差异,如:测序得到的E. coli strain K-12 substr. MG1655菌株的16S基因序列,以及其参考基因组内的716S基因序列序列之间均存在核苷酸替换变异,且核苷酸替换特征基本一致(图2ac)。进一步分析了E. coli strain K-12 substr. MG1655菌株基因组中16S基因序列的核苷酸替换特征(图2b),与图2ac相一致。该研究指出这种不同拷贝之间的变异是不能被忽视的,而且可以作为鉴别菌株的工具,如E. coli strain K-12 MG1655strain O157在碱基替换特征上是不同的(图2cd)。

图2 E. coli 16S rRNA序列的多态性。(a)使用PacBio RS II平台对人工构建的合成微生物的V1-V9区进行测序,测序结果中E. coli strain K-12 MG1655 16S rRNA序列发生替换的位置和频率;(b)使用Illumina MiSeq平台对E. coli strain K-12 MG1655基因组进行测序,测序结果中16S rRNA序列发生替换的位置和频率;(c) E. coli strain K-12 MG1655数据库参考基因组中7条16S rRNA序列的核苷酸置换特征;(d) E. coli strain O157数据库参考基因组中7条16S rRNA序列的核苷酸置换特征。

3. 16S多态性可以在体内解决

微生物组通常是复杂的,存在各种各样的环境中(粪便,唾液,痰等),包括上百种物种,且他们的丰度不同。但这种复杂性并没有在计算机模拟或合成微生物实验中体现出来。该研究进一步添加新实验来说明当处理基因组内的16S SNPs,可以在原位体系中分辨非常相近的细菌分类。

该研究选择4个健康成人志愿者粪便样本,使用PacBioCCS测序技术V1-V9区进行测序,使用Illumina MiSeqV1-V3进行测序,使用Illumina NextSeq对宏基因组进行测序。为了证实哪种方法更能准确的分辨物种,该研究选择Bacteroides属进行分析。结果显示V1-V9区测序和V1-V3区测序结果中该属的相对丰度是相似的,其中在两个样本中丰度较低(10-25%),在另外两个样本中总丰度较高(40-60%)(图3a)。但是,宏基因组测序显示该属的物种组成展示出更大的多样性(图3b)。以99%的相似度进行聚类分析发现,V1-V9V1-V3均可以反映种水平的变异(图3b),但是V1-V3测序不能检测到Bacteroides indestinalis结果证明使用适当的阈值(如99%)处理可以对人类肠道中的微生物进行种水平分析。同时,该研究表明高信息量的可变区数据同样本也可以达到这个目的。

进一步,该研究选择Bacteroides vulgatus分析16S rRNA基因不同拷贝之间的变异。将归属于该菌的OTU下的所有序列与该菌的代表16S基因序列进行比对,发现不同序列之间存在核苷酸替换,然后比较了这个核苷酸替换特征和两个已测序菌株的碱基替换特征(图3c),结果显示测序数据中同一个OTU下的序列存在碱基替换现象,而这种替换特征与以测序的菌株各不相同(系统中存在不同的Bacteroides vulgatus菌株)。虽然该研究并不知道具体的Bacteroides vulgatus菌株数量,但是可以看出两个样本中的碱基替换特征与菌株ATCC 8482更相似(相对于菌株mpk而言)。

图3 检测人类粪便样本中的Bacteroides。(a)4个人类粪便样本中Bacteroides的相对丰度;(b)4个人类粪便样本中Bacteroides属中各种的相对丰度;(c)Bacteroides vulgatus分类中16S rRNA的核苷酸替换特征;(d)Bacteroides vulgatus strain ATCC8482和mpk基因组中16S rRNA的核苷酸替换特征

4. 基因组内的16S多态性非常普遍

确认了基因组内16S多态性可以在体内解决之后,该研究进一步确定这种基因组内16S多态性在人类肠道菌群常见物种中的普遍性,并尝试这些特征是否可以区分同种内的不同菌株。

该研究从健康人体内筛选到381个分类单元(图3)。随后,我们对分离物进行了全长16S基因测序,并对测序序列进行比对。物种注释结果显示含有58个物种,但是当对分离菌株进行99%相似度进行聚类时,得到61OTU。总体来说,381个菌株中有348个(OTU, 54/61)含有一个或多个单核苷酸变异(SNP,证明16S基因的多态性是普遍存在的。去除测序错误后,该研究最终确定含有205SNP特征(图4a)。

值得注意的是,比较相同OTU内的SNP特征会发现同种不同株SNPs的频率是不同的(图4b-d),证明相近物种之间在基因组内16S基因拷贝变异上存在差异,这种差异可用于分辨相同物种内的菌株。

图4 从人类肠道中分离到微生物基因组内16S rRNA的多态性。(a)微生物16S rRNA的SNPs位点,x轴代表16S基因全长,y轴代表不同的微生物,聚类树代表基于16S基因序列的进化关系;b-d同种不同菌株内的核苷酸替换特征((b)Shigella flexneri;(c)Bifidobacterium longum;(d)Collinsella aerofaciens

评论

该研究利用四个实验数据证明了基于PacBioCCS测序技术对V1-V9区进行测序的可靠性和必要性。研究结果首先证实聚类方式会对测序结果的物种分辨能力产生影响,强调在微生物菌株水平的研究中,不能根据单一基因序列的变异去判定是否是不同的菌株,该研究同时表示通过适当的聚类阈值选择可以实现微生物组种水平组成分析。该研究对进一步对微生物组更高分辨率物种分类学研究提供了适用的方法和理论基础。




你可能还喜欢

  1. 综述 | Cell:炎症性肠病的治疗机遇:宿主 - 微生物关系的机制解析

  2. 综述 | Nature 子刊:微生物研究的简单动物模型



这些或许也适合你哦👇

  1. 最低只需1000元!微生太宏基因组测序分析大促销!

  2. 培训 |(直播培训课)20小时快速通关R语言个性化制图


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多