主要内容: 1.多组学数据整合概述 2.主要分析软件汇总 3.数据预处理的方法 1.多组学数据整合概述 1.1 多组学数据整合的现实意义
2. 分析使用的原材料 2.1 可以参与分析的“材料” 1.软件:所有可以进行统计分析和数据可视化的软件都可以使用(例如,R)。 2.计算资源:原则上,所有分析都可以在功能相当强大的台式计算机上进行,尽管建议在某些分析中使用更强大的计算资源,例如计算服务器。 3.研究设计:主要考虑匹配样本研究设计,在多元分子表型(-omics)平台上分析来自相同个体的生物样本。例如,在匹配样本设计中,单个血液样本可以分成两份,其中一份在代谢平台上分析,另一份在转录平台上分析。然而,匹配样本设计可以基于同一生物样本小份体液,但也可以不一定要基于,例如在同一时间点从同一个人采集的血液样本和另一组织活检样本,即匹配。 4.预处理。分析中使用的数据集需要适用于特定分子分析平台的标准方法先行进行预处理,包括质量控制和排除潜在异常值和/或非典型观测。 3. 数据分析的方法 3.1 mQTL分析:代谢特性的遗传驱动因素
![]()
3.1.1 mQTL分析过程 1.预处理和质控SNP分析数据,去除具有低质量位点和具有次等等位基因频(MAF)的变体; 2.预处理和质控代谢组数据(取决于平台和样本类型); 3.对于每一对代谢物—遗传变异位点:
4.调整保存的p值向量以进行多次测试,例如基于错误发现率(FDR)的方法。 5.使用FDR调整的p值和可接受的FDR水平(通常<0.05)确定哪些mQTL模型具有统计显著性。 6.对于重要的mQTL模型,对模型执行额外的质量控制(高杠杆点,检查残差分布),以确保没有异常值或其他非典型观测影响结果。 7.以表的形式展示结果,表中列出了重要的SNP-代谢物对儿,并展示了排名最高的重要模型。典型图表类型包括曼哈顿图,对于每个重要的代谢物-SNP对儿,绘制代谢物丰度与主要等位基因数(通常编码为0、1或2)的比较。 8.重要mQTL变异的功能解释可以通过确定变异体是否位于基因的编码区来进行,这将表明该基因与相关代谢物之间的功能关系。如果变异体不位于基因的编码区,则可以基于与mQTL变异的基因组距离来确定候选功能基因,在mQTL变异体附近定位的基因将被视为主要功能候选基因。 ![]()
3.2 基于代谢途径的整合分析
3.2.1 代谢途径分析过程 1.使用平台特定的方法对转录组和代谢组数据进行预处理和质控。 2.将代谢物标识符分配给轮廓代谢物,然后可以将其映射到生物途径。我们假设转录组数据已经有了带有变量标准标识符的注释信息(例如,Ensembl、Entrez或基因ID),它们也可以映射到路径。 3.对每个带注释的代谢物和每个转录组变量进行单变量关联分析,以确定它们与感兴趣的表型或结果的关联,例如病例-对照状态。在基于秩的(GSEA)分析中,秩是由每个变量的估计效应大小(例如,固定效应模型中的系数)决定。在OR分析中,重要的代谢物和/或基因集合由每个变量的统计零假设检验确定。 4.分别使用转录组和代谢组数据进行途径富集分析,例如GSEA,并存储与每个路径相关的p值。 5.结合来自转录组和代谢组数据代谢途径丰度证据,确定两个数据集的组合路径显著性。可以使用基于排列的测试来确定显著性。 6.以表的形式显示结果,表中列出了与p值和FDR调整p值相关的重要途径。 ![]()
3.3 结合代谢组学和其他组学数据进行预测建模
3.3.1 预测模型过程 1.预处理和质控代谢组学数据和从同一个体收集的额外分子数据,例如转录组数据。 2.选择适合高维数据的多元预测模型(如PLS、OPLS-DA或lasso)。在后续步骤中使用此模型。 3.应用(嵌套)交叉验证优化模型参数并评估预测性能,或使用外部测试集评估预测性能。在分类的情况下,受试者工作特征曲线(ROC)和ROC曲线下面积(AUC)通常用于确定分类性能。分别基于各分子表型平台的数据评价模型的预测性能。 4.基于来自两个分子分析平台的数据优化和评估模型的预测性能(参见步骤3),在这两个平台上,数据通过变量的直接连接进行组合。 ![]()
5.比较单个数据集和组合数据集之间ROC曲线和ROC-AUC的差异。如果需要,统计零假设检验可用于确定ROC-AUC估计值是否存在显著差异。 6.可用于未来数据预测的最终预测模型使用优化模型参数(步骤3和4)使用数据集中的所有观测值进行拟合,而不是基于交叉验证训练集拟合的模型。 7.以表格的形式呈现结果,表中分别包含每个数据和组合模型的交叉验证(或外部测试集)的AUC估计值。另外还包括相应ROC曲线的可视化和与AUC值比较相关的假设检验p值。 ![]() |
|
来自: Mobio_Lab_Sun > 《代谢组学》