分享

ID(ENSGxx)转Gene name的方法~

 生物_医药_科研 2019-02-23

作者:Chris Lou

来源:Chris生命科学小站

ID转换
 很多时候你得到的是GENCODE的ID,比如ENSGxxx之类的,怎样转换成gene symbol呢?往下看:

一般的教程是这样的

R语言环境下

library('AnnotationDbi')

library('org.Hs.eg.db')

columns(org.Hs.eg.db) #看一下都有什么

res$symbol <- mapIds(org.Hs.eg.db,

                   keys=row.names(res),

                   column='SYMBOL',                                

                   keytype='ENSEMBL',                                

                   multiVals='first')

res$entrez <- mapIds(org.Hs.eg.db,

                   keys=row.names(res), 

                   column='ENTREZID', 

                   keytype='ENSEMBL', 

                   multiVals='first')

resOrdered <- res[order(res$pvalue),] #结果重新排列一下

head(resOrdered) #展示一下结果

         (↑可按住屏幕左右滑动)

上面的res指的是Deseq2 计算之后的结果。

不用Deseq2的结果也行,只要rownames是ENSGxxxx之类的就能转换;加入的是symbol与entrez(用于GO分析之类的)。以上的教程是参考http://上面的教程

DIY的教程是这样的

上面那个教程可以应对一般情况,比如对新注释的要版本求也不那么高,知道是什么基因就好了。那么有些特殊要求怎么办比如我想看看非编码,想看看最新的注释结果?
“少废话,来干货~”首先去下载你要的最新的GTF文件,这个在建立index的时候就用到了,这里强烈建议,有什么建立的index,就用什么区注释你的基因。下载完之后,将GTF拷贝到R语言工作环境:

biocLite('rtracklayer')

library('rtracklayer')

myGTF <- 'Your_download_GTF_name.gtf'

newGTF <- import(myGTF)

a<-cbind(newGTF$gene_id,newGTF$gene_name,newGTF$gene_type)

colnames(a)<-c('geneid','genename','genetype')

res$geneid<-rownames(res)

res_S<-merge(a,res,by='geneid')

index<-duplicated(res_S$geneid)

res_symbol<-res_S[!index,]

head(res_symbol)

         (↑可按住屏幕左右滑动)

GTF那里你可以DIY,比如有专门的lncRNA的注释文件等等merge之后会用重复,下面的是去除重复的方法

下面按照一般的分析顺序再做一下以往教程总结

1、10元转录组分析:首先你得有个服务器~饿第肾啊~

2、10元转录组分析:这次真的是干货了~灰常干3、从零到壹:10元转录组分析~硬盘不够用咋办4、从零到壹:从SRA下载到分析~纯干货5、生信干货~SRA转fastq的教程~补课啦~6、从零到壹:10元~Mapping神器STAR的安装及用7、生信干货~SRA下载后批量处理Counts文件

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多