【原】扩增子和宏基因组分析实用指南 | 微生物组研究

尐尐呅 2022-06-09 发布于湖北

展开全文

高通量测序技术和分析方法的发展为微生物组研究提供了新见解。然而，这些新的发展让研究人员（特别是没有生物信息背景的研究人员）在选择合适的分析软件/脚本上面临挑战。

来自中国科学院遗传与发育生物学研究所、中国科学院大学、中国中医科学院等多家科研机构组成的科研团队在《Protein&Cell》发表了微生物组数据扩增子和宏基因组分析的实用指南。

本文综述了目前广泛使用的微生物分析软件包，总结了它们的优点和局限性，并给出了选择和使用这些工具的建议。

微生物组的研究方法

高通量测序方法在微生物组研究中的优势和局限性

微生物组研究的第一步：根据样本类型和需要解决的科学问题，选择合适的研究方法。不同方法的结合是可取的，因为多组学提供了对微生物组分类和功能的全面信息。以细菌DNA样本为例，扩增子测序可以提供微生物群分类信息；而宏基因组测序不仅可以提高物种分类信息的分辨率，还能提供潜在功能信息。

扩增子&宏基因组

分析流程

扩增子&宏基因组常用分析方法的工作流程

扩增子

原始数据处理：USEARCH/QIIME
代表性序列选择：UPARSE算法、DADA2算法、QIIME 2、USEARCH
预测潜在的功能：PICRUSt/R包Tax4Fun

特别说明：以上流程只适用于Illumina平台生成的数据，其他平台本文没有做讨论。

宏基因组

与扩增子相比，宏基因组可以直接提供功能基因图谱，并能达到更高的分类注释分辨率。然而，由于数据量大，大多数软件只能用于Linux系统，需要大量的计算资源来进行分析。为了便于软件安装和维护，建议使用包管理器Conda和BioConda来部署宏基因组分析流程。

原始数据处理：KneadData、Bowtie 2+Trimmomatic
clean reads转换为分类表/功能表：MetaPhlAn2、Kraken 2（基于readsbase）；MEGAHIT/metaSPAdes、metaGeneMark/Prokka（基于组装）
功能分析：HUMAnN2/MEGAN

另外，建议使用诸如MetaWRAP或DAStool的分箱流程，基于其集成的多个分箱软件包，可获得精确的分箱结果和更少污染/更完整的基因组，还为评估和可视化提供实用脚本。

扩增子和宏基因组分析软件简介

扩增子&宏基因组

分析结果

统计分析和可视化方法

α多样性评估样本内的多样性，包括丰富度和均匀度。可以使用几个软件包计算α多样性，包括QIIME、R包vegan和USEARCH。

β多样性评估样本间微生物群的差异，通常与主坐标分析（PCoA）、非度量多维标度（NMDS）或约束主坐标分析（CPCoA）等降维方法相结合。这些分析可以在R-vegan包中实现，并在散点图中可视化。

分类组成描述了微生物群落的组成，通常使用堆积条形图来可视化。为了简单起见，微生物群通常显示门或属水平。

差异比较可确定组间丰度显著不同的特征（如物种或基因），结果可以使用火山图、曼哈顿图或扩展误差条形图进行可视化。一般使用Welch’s t-test, MannWhitney U test, Kruskal-Wallis test, 或 ALDEx2, edgeR , STAMP ,LEfSe 等工具分析。

相关性分析用于揭示分类单元与样本元数据之间的关联。例如，它用于识别分类群与环境因素（如pH值、地理位置和临床指数）之间的关联。

网络分析从整体的角度探究特征的共现性。相关网络的特性可能代表共同发生的类群或功能途径之间的潜在相互作用。可以使用R中的cor.test（）函数或适用于诸如SparCC包等成分数据的更强大的工具来计算相关系数和有效的P值。还可以使用R库igraph、Cytoscape或Gephi对网络进行可视化和分析。

在微生物研究中，机器学习用于分类、β多样性分析、特定特征的组合分析。常用的机器学习方法包括随机森林、Adaboost和深度学习，通过选择生物标志物或回归分析对组进行分类，以显示生物标志物丰度的实验条件依赖性变化。

Treemap广泛应用于系统发育树的构建、微生物组的分类注释和可视化。代表性的扩增子序列易于用于系统发育分析。我们建议使用IQ-TREE通过大数据快速构建高可信度的系统树，并使用iTOL在线可视化。可以使用R脚本table2itol（https://github.com/mgoeker/table2itol）轻松生成树的注释文件。此外，我们建议使用GraPhlAn在一个有吸引力的分支图中可视化系统发育树或层次分类法。