分享

GSVA可以理解为pathway级别的差异分析

 健明 2021-07-14

差异分析相信大家应该是都没有问题了,就是跟着我在生信技能树的教程走,当然也会有一些小细节需要注意,在 你确定你的差异基因找对了吗? 我很好的示范了部分细节。

差异分析系列推文在:

不过,标准分析通常是不够的,定位到成百上千个有统计学显著变化的差异表达基因后,同样是有成百上千个生物学功能注释(GO功能和KEGG通路),普通的超几何分布检验已经不能满足大家多元化的分析了,所以就有了大家耳熟能详的GSEA分析,以及绝大部分人比较陌生的GSVA分析。

GSVA分析的文章发表于2013年,GSVA: gene set variation analysis for microarray and RNA-Seq data 同样是broad 研究生出品,其在2005年PNAS发表的gsea已经高达1.4万的引用了,不过这个GSVA才不到300。去年我就介绍过一波它的分析流程,在:使用GSVA方法计算某基因集在各个样本的表现 非常简单的代码,所以各个培训机构,公司人员都开始学习和二次创作进而分享。考虑到最近邮箱接收的GSVA提问比较多,我这里还是得再次归纳总结一波,这次我准备从GSVA其实就是pathway级别的差异分析的角度来分享。

一般人做数据挖掘,到差异基因的生物学功能注释(GO功能和KEGG通路)就结束了,进而也就是去使用一些网页工具,比如string,出一些花花绿绿的图表,比如PPI网络图。实际上,使用了GSVA,可以把成百上千个生物学功能注释(GO功能和KEGG通路)转换为新的表达矩阵,就是具体的每个通路在各个样本的基因集变异分析(Gene Set Variation Analysis,GSVA)值,我们把它当作一般的矩阵文件,进行差异表达分析,热图绘制,火山图绘制。

下面我们以文献 Metabolic remodeling contributes towards an immune‐suppressive phenotype in glioblastoma 为例,欣赏它的两个图表,文章发表在Cancer Immunology, Immunotherapy (2019)

https:///10.1007/s00262-019-02347-3

基于pathway的热图

虽然作者这里使用的代谢组学数据:

Global metabolomic profiling was performed on patient-derived glioblastoma (GBM; n=80) and LGA (n=28) tumor samples using LG/GC–MS.

本质上仍然是记录表达量。

基于pathway的火山图

pathway的具体含义

pathway在我这里是其实想指代基因集的别名,其中msigdb有着丰富的基因集,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software./gsea/msigdb

包括H和C1-C7八个系列(Collection),每个系列分别是:

  • H: hallmark gene sets (癌症)特征基因集合,共50组,最常用;

  • C1: positional gene sets 位置基因集合,根据染色体位置,共326个,用的很少;

  • C2: curated gene sets:(专家)校验基因集合,基于通路、文献等:

  • C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分

  • C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;

  • C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)

  • C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO  发表芯片数据

  • C7: immunologic signatures: 免疫相关基因集合。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多