大家好,我是老米,学习生信一个月,这是我的第二篇Markdown。不知道多少人还记得我的第一个作品:原来一个星期真的可以零基础入门TCGA数据挖掘,甚至markdown写作公众号投稿 (感兴趣的自己点击查看哦) 今天给大家讲个鬼故事。呃,这大过年的。。。最近翻到技能树的一个帖子:中国制造:碉堡的TCGA可视化网站GEPIA。该文章才发表两年,基于Gepia数据挖掘发表了很多文章: 分数都不低,二区文章一大堆。 这么强大的工具,忍不住在其网站逛了好久。。。各各基因之间跳来跳去。。。琢磨着看能不能找到几个有表达及生存都有差异的基因?。。。然后突然想到一个伟大的想法,能不能把所有这些基因都选出来?该死的,网站不提供查询结果的下载,怎么办? 一个个网页复制粘贴?NONNO,网络上有一堆强大的爬虫工具,比如八爪鱼,后羿…安装之后倒腾了好久,终于设定好爬虫流程,妈呀,采集效率太慢了,初步估算(后来证实)也要两天时间才能爬完!刚好又是星期五,静静的开着电脑让他爬吧。可是晚上回到家忍不住,实在是想快点拿到数据,突然想到之前偷学了点python爬虫,能不能改改拿来用用?说干就干,花了一个小时调整好了python代码。16万条数据,十来分钟就下好了。python爬虫效率真高!我要学python! 喂,快醒醒,跑题了! rm(list = ls()) 大概查看了下前列腺癌中,表达有差异且癌症病人中位值生存分析有差异的基因。结果如下: 看起来不错嘛,不过好像都是在PRAD里面下调的。pubmed上查一下,剩下没报道的应该就是新课题了吧!哈哈哈。。。 不查不得了,一查吓一跳!SNHG12 这个基因刚刚被发表了: 进文章里面一看,姨?好像不对啊!作者说这个基因在癌症里是上调的,和Gepia出来的结果不相同啊。 Gepia上面是说下调的: 一个说上调,一个说下调。肿么会这样? 看来可能是因为Normal组引起的差异。查看了Gepia数据库的来源: 除了TCGA,Gepia还采用了GTEx的样本,GTEx是个啥?各种器官组织捐献者的的表达数据库。而SNHG12文章只用了的TCGA样本。 那前列腺癌里,到底这个基因上调还是下调? 再看一下oncomine (Oncomine 整合了GEO、TCGA和已发表的文献来源的RNA和DNA-seq数据),不同文章对这个基因的表达情况?结果如下: 大牛们的数据基本支持上调的趋势! 独秀同学继续提问,为啥加入GTEx正常标本之后,表达差异不一样了? 为此,独秀同学google了一下,发现了这个文献:Unifying cancer and normal RNA sequencing data from different sources。没细读,文章大意是:当不同数据源进行差异比较的时候(如对GTEx和TCGA数据),不能直接拿来比,需要用某种方法进行uniform进行标准化,balabalabala… 文章作者最后说我们成功的整合了GTEx和TCGA的数据,现在可以做比较了! 这篇文章发表在2018年,后于Gepia的开发。我猜测目前的Gepia版本没做normalization,所以直接加入GTEx数据进入Normal组还真的是有毒!或许,Gepia可以出version 2.0了? 如果真是这样,那些基于Gepia数据挖掘发了文章的童鞋们会不会有些心慌慌,哈哈哈。。。 那么问题来了, 今后该选哪个数据库进行数据挖掘? 可靠吗?会不会经常见鬼? 鬼故事讲完了,回到最开始那个伟大的想法。用Gepia数据可能有出入【捂脸】,只能自己动手写代码实现了,统一用TCGA的样本。 过程不详述,大概如下:
总结:数据库有风险,挖掘需谨慎!新年快乐! 最后按照惯例,我们应该是有生信技能树的友情推广,但是我们长沙站招生已经满了,而且未来的两个月并没有外出巡讲计划,所以就不宣传了,大家可以继续添加小助手,说出自己的城市需求,我们会优先安排明年巡讲场次:广州专场(全年无休)GEO数据挖掘课,带你飞(1.11-1.12)和 生信入门课全国巡讲2019收官--长沙站 |
|