在对 TCGA数据挖掘如何入门?有一定的了解之后,在进行数据分析之前,第一步当然是TCGA数据的下载和整理,在前面几期数据挖掘专题中,我们着重并详细的描述了4种不同的TCGA数据下载方法: 1、官网: 一文读懂TCGA数据整理 【官网下载需要编程整理】 TCGA数据下载有陷阱?【官网下载推荐GDC Legacy Archive】 2、TCGAbiolinks: 3、Firehose: 4、Xena: 在介绍上示4种数据方法时,我们是以miRNA表达数据为例展开的,而实际对于其他例如mRNA、甲基化、SNP、临床信息等数据,都可以参照此过程进行,只不过在使用中需要对实际选项和参数进行调整。 对于这四种方法,官网和TCGAbiolinks可归为一类,因为都是可以下载TCGA数据库本身的数据,但是由于每个样本是一个独立的文件,故需要做整理,而Firehose则是对TCGA数据的初步整理,Xena则做了更进一步的数据处理工作,以下表为例,4种方法可得到的A1BG基因在COAD患者中的mRNA数据: TCGA官网/TCGAbiolinks下载的mRNA表达数据包含read_count值和RSEM值; Firehose下载的mRNA表达数据包含read_count值和RSEM值,与TCGA官网数据一致,值相同; Xena下载的mRNA表达数据只有log2(RSEM+1),无read_count值。 结合 TCGA临床数据下载,简单总结如下: 细节来说: 1、官网下载方式数据全面,且实时更新,但是点击操作及数据整理起来很麻烦; 2、TCGAbiolinks,基于官方API可下载最新数据,需要R基础,表达数据易得,但临床信息需进一步整理; 3、Firehose更新相对最慢,表达数据已经整理好,但是临床信息易用性不强; 4、Xena整理的最人性化,但是无read_count值,生存信息非最新,无用药数据; 建议: 1、Xena相对来说最易用; 2、如果你想用最新最全的数据,可以用TCGAbiolinks下载表达数据,如果有编程基础,临床数据还是自己整理吧! 当然,可以下载TCGA的方法远不止上示4种,你可能会说cbioportal,但这个工具在小编看来,更适用于分析而不是数据下载,而其他多如牛毛的R包,例如TCGA2STAT、RTCGA、RTCGAToolbox...,也只不过是基于Firehose数据的引申版! 当然无论用哪种方法,都没有绝对的最优,看你用哪个最顺手咯~ 下面是解答之前疑问时间: 1、更正一个 TCGABiolinks 中的脚本 library(stringr) # 更正前是 library(strings) 2、同时,在近期测试TCGAbiolinks下载mRNA数据的时候也发现了一些小陷阱,小编把代码粘上,以下载COAD患者的原始count数据为例,供大家参考: query = GDCquery(project = 'TCGA-COAD', legacy = TRUE, experimental.strategy = 'RNA-Seq', data.category = 'Gene expression', data.type = 'Gene expression quantification', platform = 'Illumina HiSeq', file.type = 'results') GDCdownload(query) dataAssy = GDCprepare(query, summarizedExperiment = F) dataAssy = dataAssy[grepl('^[A-Z|a-z]', rownames(dataAssy)),] rownames(dataAssy) = gsub('SLC35E2\\|728661', 'SLC35E2B', rownames(dataAssy)) rownames(dataAssy) = gsub('\\|.*', '', rownames(dataAssy), perl = T) countdata = dataAssy[,grepl('raw_count', colnames(dataAssy))] colnames(countdata) = str_match(colnames(countdata), '(TCGA-[^-]*-[^-]*-[^-]*)')[,2] countdataout = cbind(rownames(countdata), countdata) colnames(countdataout)[1] = 'Symbol' write.table(countdataout, paste(cancerpath, 'mRNA_readcount_data.txt', sep = '/'), row.names = F, sep = '\t', quote = F) 3、关于Xena下载临床信息,从这里下: |
|