分享

大型群落数据集的多变量截断水平分析(MultiCoLA)

 长乐社_1 2022-04-24

"方法拓展"专题·第2篇

  编辑 | 大侠
  6552字 |7分钟阅读

原题Multivariate Cutoff Level Analysis (MultiCoLA) of large community data sets

原文链接https://academic./nar/article/38/15/e155/2409766

发表时间:2010

摘要

高通量测序技术对分子生物学家和生态学家越来越有吸引力,因为它们提供了一种以前所未有的分辨率探索环境样本中多样性模式的时间和成本效益。许多研究的一个共同问题是如何定义数据集中的哪些部分应该被认为是稀有或丰富的。然而,这个问题既没有得到满意的解决,也没有充分评估这种定义对数据集结构和解释的影响。这里我们提出了一个策略,MultiCoLA(Multi variate C ut o f L evel A nalysis),来系统地评估各种丰度或稀有度截止水平对所产生的数据集结构和进一步生态解释的一致性的影响。我们将MultiCoLA应用于454大规模平行标签测序数据集,即温带沿海沙地的海洋微生物的V6核糖体序列。在去除高达35-40%的稀有序列后,保持了一致的生态模式,在使用454流式图的预聚类算法对数据集进行去噪后,观察到了类似的β多样性模式。这个例子验证了探索大型社区数据集中稀有性定义的影响的重要性。可以预见,未来将应用于不同类型栖息地的数据集,如其他海洋环境、土壤和人类微生物群。

引言

群落生态学家传统上处理的数据集包括按 "物种"(以下简称 "类型")划分的大型样本表。科学界还没有就处理稀有类型的最佳方式达成普遍共识:对一些人来说,稀有类型是数据集中的噪音,可能来自于抽样的人为因素,因此并不代表整个群落。罕见(稀有)类型通常被删除,以减少数据集中存储的大量零,并减少其分类鉴定的挑战性任务。对其他人来说,稀有类型是有价值的,因为它们可能为生态系统的运作提供关键的见解,如对入侵物种的抵抗力或可能存在的多种生态位。因此,作者可以自行定义他们自己的稀有性概念:稀有的植物和动物可以根据其有限的地理分布或其在数据集中的低比例来定义。

在微生物生态学中,目前高通量DNA测序技术的革命已经揭示了 "稀有生物圈 "的存在,包括许多在丰度曲线中显示出长分布尾巴的微生物类型。由于测序神器可能产生嵌合类型,一些研究对高通量测序数据集中稀有类型的真实存在表示怀疑,并提供了各种修剪和纠正序列的方法:例如,可以在454大规模平行标签测序(MPTS)数据上采用97%序列同一性的聚类阈值或基于flowgram的预聚类算法。当稀有类型不被认为是人工制品时,可以通过对原始数据集应用任意丰度截止值来定义它们。然而,到目前为止,对稀有生物的定义对数据结构的稳定性和从所产生的、被截断的数据集中得出的生态学结论的影响还没有被研究。

我们提出了一种新的方法,即多变量分析(Multi variate C ut o f L evel A nalysis,MultiCoLA),以系统地探讨大型群落数据集如何受到不同稀有性定义的影响。首先,MultiCoLA根据连续增加的丰度截断原始数据集,舍弃稀有类型。然后,在以下层面上测量去除稀有类型的影响:(i) 数据集结构的变化;(ii) 原始数据集和截断数据集之间的提取变化量;(iii) 当环境参数可用时,原始数据集和每个截断数据集的生态学解释

材料和方法

数据集

在本研究中,对由16S rRNA基因的超变异V6序列组成的数据集进行了分析,这些数据是在2年(2005-2006年)的时间里,对三个沉积物深度层(0-15厘米深度,间隔5厘米)的温带潮下沙土样品应用454 MPTS获得的。详细的样品处理和DNA提取已在前面描述过,提取的DNA的454 MPTS的处理方法如前所述。454 MPTS的输出结果从公开的微生物种群结构的可视化和分析(VAMPS)网站(http://vamps./)上获取。使用几个已知的数据库(Entrez Genome、RDP和SILVA)的自动注释管道[全球序列分类法(GAST)]允许对序列进行分类分配。尽管目前的数据库有局限性,但该数据集中只有6%的序列根本没有被分类学鉴定。然而,大约20%的序列被注释为从门到属的级别。在这项研究中,分析是通过将OTU(操作分类单位)定义为独特的序列(即至少相差一个碱基的序列被认为是不同的OTU。但是请注意,MultiCoLA也可以应用于基于另一个OTU定义的序列子集),并考虑以下子集。(i)所有未注释的序列,我们称之为 "OTU整体数据集(DS)",(ii)对20%完全注释的序列(即从门到属的级别和相应的OTU级别)和(iii)对PyroNois-corrected数据按不同的序列相似度百分比定义。

数据分析

截断的表格

通过应用两种类型的截断丰度水平对数据集进行分析(图1)。(i) 基于整个数据集的截断:通过从数据集的序列总数中去除选定比例(0、1、5-95和99%)的稀有OTU,得到截断矩阵(图1 A)。首先根据每个OTU序列数量的递减对原始数据集进行排序。然后根据给定的临界值删除低丰度的OTU。(ii) 基于样本的截断点从每个样本的每个OTU的序列总数1到208中共选择了15个截断点(因为某些样本在截断点水平高于208个序列时不包含任何更多的OTU,即208是每个样本最大OTU出现的最低数量),以便选择序列多于应用截断点的OTU(图1 B)。这个数字显然是针对每个数据集的,如果想在所有的比较分析中考虑相同数量的样本,就应该考虑这个数字。

图1,为原始数据集分配稀有性截止点的两种方法。( A ) 在基于数据集的方法中,根据数据集中序列总数的几个百分比(0、1、5-95和99%)对原始数据集分配截止水平。在选择出稀有的OTU之前,根据OTU序列总和的递减对数据集进行排序(列,这里)。例如,1%的分界线分配可以去除1%的低丰度的OTU。( B ) 在基于样本的方法中,根据每个样本中每个OTU的出现次数(1-208个序列)对原始数据集进行截断等级分配。最大分界线(这里是208)是根据所有样品中最大OTU出现次数的最低值选择的;当一些样品不包含任何更多的OTU时,这是一个极限。例如,分配一个3的截止水平,就可以删除每个样品中出现少于3次的OTU

细菌群落结构的变化和群落变异的主要模式的分析

使用Bray-Curtis异同指数从数据(原始和截断矩阵)中计算出配对距离矩阵。使用非参数的Spearman rho相关系数将得到的异质性矩阵进行相互比较,该系数范围为0到1(分数接近1表示异质性矩阵之间的相关性较高)。

通过非计量多维缩放法[NMDS ]探讨了群落结构中提取的主轴的变化,这种方法常用于从分子指纹结果中识别多样性模式。然后用Procrustes方法来比较原始距离矩阵的NMDS排序结果截断距离矩阵的结果Procrustes旋转产生一个R值,范围从0到1[接近1的分数表示NMDS结果之间的相似度最高]。换句话说,这种方法能够量化从原始数据集与截断数据集中提取的最重要的变异轴之间的一致性。这一点特别重要,因为通常应用于此类数据集的多变量分析通常集中在数据中主要生物变异的前几个轴上。

在数据结构和提取的变异概况中,一个局限性是不能计算置信区间或每个成对比较的显著性(即对每个单点)。这是因为截断的矩阵取决于原始矩阵,而测试相关性只有在数据集独立的情况下才有意义。然而,这些限制对我们的方法并不关键,因为我们更感兴趣的是剖面的整体变化,而不是单点的变化或估计。事实上,这里的重点是测量(如指数会做)在各种假设情况下,即应用各种截止水平时,与原始数据集中的信号的偏差。

 群落结构与环境之间的关系

为了说明问题,四个主要的环境参数[硅酸盐、磷酸盐、铵和细胞丰度,来自Böer等人,在分析前进行了对数10转换]被用来研究细菌群落结构(在连续分配的截止点和分类水平)和环境参数之间的关系。每个反应群落的数据集都被海灵格转换,这是在处理通过线性多变量模型分析的数据集时的建议。然后对群落数据进行典型变异分割,以测试每个环境变量(硅酸盐、磷酸盐、铵和细胞丰度)的影响以及它们对微生物群落结构的共变作用。全局和部分回归模型的显著性是通过使用1000个数据排列组合来确定的。

MultiCoLA脚本的创建

所有的统计分析都是使用R统计环境(22),以及vegan(23)和MASS(24)软件包中的特定程序进行的。由此产生的MultiCoLA脚本可在http://www.。一些MultiCoLA脚本需要一些时间和一定的计算能力(在英特尔奔腾4处理器上对一个有1000个OTU的例子矩阵计算10分钟),但这可能因数据集的大小和复杂性以及分析方法的选择(即Spearman相关、Procrustes相关或多个截止水平的变异分区)而有所不同。

结果和讨论

在去除越来越多的稀有类型比例时,可以采用两种方法来截断原始数据集:要么考虑整个数据集,要么单独考虑每个样本(图1)。因为没有理由先验地选择一个给定的阈值,所以需要系统地应用各种截断方法来探索其效果。然后在三个层面上对所得到的、被截断的数据集进行评估:首先,数据集被转换为逐个样本的异质性矩阵(例如,这里我们使用Bray-Curtis系数来计算样本之间的异质性,但也可以使用其他的异质性系数),这些矩阵与整个数据集产生的矩阵使用非参数的Spearman相关性进行比较(图2),以便评估数据结构的变化。第二,通过Procrustes旋转(即衡量两个排序方案之间的相关性)比较截断数据集和原始数据集中通过应用NMDS排序获得的提取的生态变化量。第三,当背景参数(如空间、时间或环境)可用时,可以系统地比较每个截断数据集与原始数据集的生态解释。这是通过将不同截断数据集的生物变异作为解释变量的函数来实现的(材料和方法部分)。

我们将MultiCoLA应用于一个大型的454 MPTS数据集,该数据集代表了从温带沿海沉积物中提取的高微生物多样性,其中包括大量的单体(68%的独特OTU有一个序列,整个数据集中10%的独特序列)和低丰度类型。另一层面的兴趣来自于许多序列也可以通过应用GAST分类管道进行分类的事实。因此,可以系统地探讨稀有性定义对不同分类学水平的数据集的结构和解释的影响。

整个数据集的系统性截断产生了序列号的准线性下降,作为增加截断水平的函数,分类学注释的OTU也有类似趋势(图3 A)。当群落表的结构在截断后的矩阵和原始矩阵之间进行比较时(图3 B),在去除数据集中40%的稀有部分的阈值之前,几乎没有观察到数据结构的变化,这表明信号的稳健性远远超过通常的单子的去除。超过40%的阈值,相关系数以非线性和非预测的方式大大变化,较高的分类学水平大多与较高的相关值有关。当在不同的截断数据集和原始数据集之间比较最重要的提取变异模式时(图3 C),出现了类似的情况,40%代表一个截止水平,在这个水平上可以观察到提取变异的变化非常小。超过这个阈值,Procrustes系数也以不可预测和非线性的方式发生了很大的变化,这与分析的分类学水平无关。

当截断的数据集作为环境参数的函数被进一步分析时,出现了一个令人惊讶的画面(图3 D):营养物质(磷酸盐、硅酸盐和铵)和总细胞丰度似乎一直影响着不同截止水平的群落变化。不足为奇的是,当通过增加截止水平或在更高的分类水平上降低数据的复杂性时,总体上获得了更多的解释变化(补充图S1)。值得注意的是,在每个截止水平或每个分类水平的分析中,可以保留不同的多变量模型,表明每个截断的数据集可能是由略微不同的环境因素的组合或协变量解释的(补充表S1-S7)。总体看来,序列相当广泛的分类法足以描述一般的生态模式,对结构化因素影响的解释是稳健的,不会受到去除大量稀有类型的影响。

当应用基于样本的方法来揭示数据结构和提取变异的变化时(图3 F和G,分别),数据结构的变化范围较窄(Spearman相关系数从0.8到1),而提取的生态变异的变化范围较大(Procrustes相关系数从0.5到1),而且预测性较差,与整个数据集方法的对应结果相比(图3 B和C,分别)。还观察到一个类似的临界阈值,即35-40%,在此阈值下,谱系之间的不相似性越来越大。例如,通过删除在数据集中出现少于5次的序列(即删除所有序列的32%),与原始数据集矩阵相比,只观察到Spearman相关系数小幅下降到0.98,而不考虑序列的分类学归属(图3 F)。然而,由营养物质和细胞丰度解释的群落结构的变化(图3 D和H)与基于数据集方法的解释在质量上是相似的。在较高的分类水平上又有更多的变化被解释(补充图S2和补充数据)。因此,选择基于样本或数据集的方法将导致相同的生态学结论,尽管它们对数据结构和提取的生态学变异量的影响截然不同。

由于测序和PCR噪声可能会产生虚假的、低丰度的类型,特别是在高通量测序数据集中,已经提出了两种策略来校正序列伪影:在97%序列同一性的聚类阈值或基于flowgram的预聚类算法。因此,一个核心问题是,在MultiCoLA剖面中观察到的上述变化是否可能是由于序列伪影的存在。当MultiCoLA应用于PyroNoise校正的数据时(补充表S15),基于数据集(图4 A-C)和基于样本(图4 D-F)的方法都产生了与未校正数据非常相似的轮廓。主要的区别包括:剖面图中的波动一般较小,而且要达到55-60%(即数据集中的30-55个个体序列丰度)的较高截止水平,才能大大偏离原始数据集中的信号。通过额外的环境参数解释群落的变化,得出的结论与未经校正的数据相同(补充图S3)。因此,我们可以得出结论,在不同的截止点和分类水平上观察到的剖面变化主要是由于数据中的非技术性波动,即所研究的数据集的真实结构和生态特征。

在这项研究中,原始数据集被用来作为MultiCoLA剖面的参考,因为通常人们只想删除一小部分数据。然而,也可以选择最丰富的类型的表格作为比较的参考,以便评估数据集中越来越多的稀有类型的影响。通过这样做(图5),可以观察到不同的轮廓和波动模式,表明增加稀有类型对数据结构和生态学解释有很大影响。另一种分析的可能性是系统地从每个截断的数据集中去除丰富的部分,从而只保留稀有类型(补充图S4)。这种方法模拟了在数据集中添加越来越多的优势类型,并能够描述数据结构和生态模式,或在任何数据集的稀有部分中缺乏的生态模式。由此产生的轮廓和模式(补充图S4)与通过系统地保持优势部分得到的轮廓和模式不同(图3),表明稀有部分与群落中更多的优势部分相比,具有不同的结构和生态信号。这一观察为许多新问题打开了大门,但对它们的探索将超出目前研究的范围。无论如何,这些观察结果体现了MultiCoLA在产生关于数据集稀有性的新知识方面的作用。

总之,MultiCoLA能够系统地、以数据为导向地探索大型群落数据集的特定部分的稀有性或优势的影响,以及对其进一步的生态解释。这对含有大量单体的数据集特别有用,如以前的高通量Sanger测序数据集[如来自克隆库(25)或霰弹枪测序库(26)],以及正在进行的基于16S rRNA的高通量热测序项目[如国际海洋微生物普查(ICoMM)(5 , 9),http://icomm.mbl. edu],以及高通量元基因组项目[如国际土壤元基因组测序联盟(Terragenome)( 27 ), http://www./ ;或国际人类微生物组联盟(IHMC)( 28 ), http://www./],其中罕见序列问题通常被任意解决[如在人类微生物组元基因组数据集中选择两个读数的阈值来识别一个基因( 28 )]。这种分析方法也将帮助科学家超越序列准确性的争论,在未来,确定轮廓稳定性的阈值范围如何随测序策略、数据集大小、样本或栖息地类型的变化而变化,将是特别有趣的。

MultiCoLA软件及其各自的手册和例子可在以下网站获得:http://www. 。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多