分享

不用编程,三分钟KEGG/GO富集分析火热出炉!

 小梦想在努力 2021-07-28
据不完全统计,今年来基迪奥OmicShare云工具平台的KEGG和GO富集分析工具使用次数已经突破30,000+啦!KEGG和GO富集分析作为平台使用频率最高的工具之一,一直陪伴大家。听许多对生信还不太熟悉的小伙伴们反馈,对工具的使用还尚有疑惑,那么我们今天一起重新来梳理下如何在不需编程的条件下使用工具快速get图!


开始说明之前,我们先了解一下:

1. 我们为什么要做富集分析?


经过一系列差异分析后,我们能得到候选基因集。但是,此时的数据是杂乱无章的 ,我们很难直接将其和我们的生物学功能进行关联。通过富集分析,我们能通过数据库将候选基因集进行分门别类,从而找出我们所关注的目标通路,进而锁定我们的核心基因。

2. 关于KEGG和GO富集分析我们所拥有的版本


以KEGG为例,目前OmicShare云工具平台有三个版本的KEGG富集分析工具(GO也相同):

3. 使用KEGG富集分析工具(基础版)能获得哪些结果(图)呢?


A:富集结果表(out.htm)


包含了pathway名称、差异基因中注释到该pathway的基因数目以及占总差异基因数目的比例、所有背景基因中注释到该pathway的基因数目以及占总背景基因数目的比例、P值、Q值、pathway 的ID(ko号)。


此外,点击pathway名称可以查看该pathway包含的基因ID,继续点pathway名称可以链接到KEGG官网上pathway相应的通路图。

B:代谢通路文件夹包(out_map)

存放的就是每个pathway的map图和相应的KEGG官网链接。


C:pathway注释统计图(outpath.png/svg)


Pathway的B级分类基因注释数目的统计图:纵坐标黑色字体为A级分类名称,彩色字体为B级分类名称。横坐标表示注释到相应B级pathway的基因数目。

D:显著性柱状图/气泡图(out.barplot/ out.gradient;pdf and png)

显著性柱状图

显著性气泡图

这里罗列了显著富集的前20条pathway,颜色代表p值,柱状长短(气泡大小)代表富集到此通路基因的数量,横坐标RichFactor代表差异表达的基因中位于该pathway条目的基因数目与所有注释基因中位于该pathway条目的基因总数的比值,比值越大,富集程度则越大。

怎么样,看到这里是不是对这高大上的气泡图很心动?话不多说,接下来就带你一起快速get同款~

工具链接传送车

KEGG富集分析工具网址:
https://www./tools/Home/Soft/pathwaygsea

GO富集分析工具网址:
https://www./tools/Home/Soft/gogsea

一、数据准备


1
上传目的基因文件(或手动输入)
目的基因也就是所需要用来富集的前景基因,支持的文件格式有txt(制表符分隔)文本文件、csv(逗号分隔)文本文件、Excel专用的xlsx格式文件以及 Excel的xls(Excel 97-2003)格式文件。

(所支持的文件格式)

注意!目的基因文件的第一列必须是具体的基因ID号,且目的基因的ID一定要包含在背景基因的文件当中,在第二列之后可以有其它注释信息(也可不要),数据中不要出现中文、空格、特殊符号如()、?、{}、&等。


这里我们用示例文件1作为演示,点击示例文件,下载示例文件1数据模板(无差异表达的基因ID列表),并上传这个文件:


是否包含Log2(FC)选项则根据自己目的基因文件里有无来进行选择,若需要包含,则需要在目的基因文件的第二列列出Log2(FC),数据排列格式如我们的示例文件2:


添加之后我们之后所得到的通路图才能看到每个上下调基因的差异倍数哦,大家这里需要注意。


2
上传背景基因文
这里有两种方式,即使用模式生物基因集和自行上传研究物种的背景基因文件:

A:使用模式生物基因集:

目前在OmicShare我们已经能为大家提供18个常见物种的基因集进行富集分析啦!

若研究物种在牛、斑马鱼、人、猕猴、小鼠、大鼠、猪、秀丽线虫、果蝇、拟南芥、水稻、番茄、小麦、玉米、酵母、山羊、鸡、籼稻这18个物种间,可直接选择对应物种基因集,当然,小伙伴们手中有相应背景基因文件的也可以自行上传。


演示这里我们使用的是模式生物中的Homo sapiens(GRCh38.p13),基因组版本为Ensemble_104 or 51。


B:自行上传研究物种的背景基因文件:

一般文件有四种类型:

类型1:keggID


类型2:ncbi-geneID


类型3:KO号


类型4:kopath


背景基因表类型选择:


在背景基因表类型处选择与背景基因文件相同的类型。

物种类型选择:


我们选择相应数据库来进行注释。这里分为动物库、植物库、微生物库、真菌库及全库。

选择方式参考:

1:背景基因表的ID类型为ncbi-geneID和keggID,则可选择全库或相应物种库(相应物种库运行时间更短),富集结果相同;

2:背景基因表的ID类型为kopath,可选择全库或相应物种库;

3:背景基因表的ID类型为KO,建议选择相应物种库(不同物种间相同的KO号可能会对应不同的pathway);

最后,我们再回顾一下整个KEGG富集工具线上操作流程:

→上传目的基因文件(注意4种支持格式,第一列为基因ID号,若需包含Log2(FC)则文件第二列添加)

→选择/上传背景基因文件(18种常见模式生物可自选,也可按需自行上传;4种文件类型和背景基因表类型选择对应,KO最好不选全库)

接着提交项目,等待线上分析结束!整个过程大概1-3分钟,在我的项目中可以看到项目进展,结束之后我们可以下载结果,也可以在线预览pathway注释统计图。




漂亮的KEGG富集分析图就做好啦!GO的富集分析工具使用流程也和KEGG几乎完全相同,小伙伴们赶紧用起来吧!

实用工具操作教程分享

前沿组学文章实时解读

实验技术分析方法探讨

独家生信视频教程推荐

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多