我就跟粉丝聊了一下,我这里先整理和细化一下这个咨询:
而他们之所以担心,是因为看到了一篇论文,里面提到了黑色素瘤和小耳畸形的联系。我看了看他们提到的论文,真的是很普通的一个数据挖掘文章: 全文就是去MGI数据库搜索跟疾病相关的基因,拿到了68个基因,列表如下: 所有的的分析都是针对于这68个基因,包括使用STRING数据库构建PPI网络,使用GO/KEGG数据库进行生物学注释。全文就是这些分析图表的罗列,其中一个KEGG数据库注释里面: 就是这个黑色素瘤的KEGG通路,让外行人看起来觉得是黑色素瘤和小耳畸形有联系,所以担惊受怕! 这些分析,我在:什么时候P值大于0.05也无所谓呢 讲解过,看起来这样的注释结果统计学非常显著,但其实是因为作者前面进行数据库搜索的时候,拿到的基因就是具有这个倾向性! 人类有2万个左右的编码蛋白的基因,但实际上被几百万生物学家研究过的就七八千个基因,能被疾病关联到的基因就更少了,你搜索拿到的基因本来就是有意义的居多啊! 数据挖掘文章价值几何至少这个文章对疾病相关的68个基因使用STRING数据库构建PPI网络,使用GO/KEGG数据库进行生物学注释,然后罗列的各种图表在我看来是没有太多意义的,纯粹是为了分析而分析! 即使大量的分析结果的基因集是来源于差异分析,处理组合对照组,疾病组合对照组,只需要有分组,就可以使用芯片或者测序技术手段来看全局表达量,走差异分析流程,如果是蛋白质组或者代谢组也是类似的分析策略。基本上读一下表达芯片的公共数据库挖掘系列推文 就明白了;
但是这样的文章,在外行眼中看起来又的确是“高大上”,但本质上就是一些数据分析游戏,比如我在生信技能树多次分享过生存分析的细节;
其中看到多了,就不会在心里神话这些分析结果。 科普到底应该是走向何方我本来是想驳斥这个文章得到的黑色素瘤和小耳畸形的联系,但是却无从下笔,亲爱的生信技能树粉丝们,你们大家有什么建议吗? 目前的情况是,外行人看到这样的中文科研论文就感觉是高大上,必须相信,假如读者具备英文阅读能力,看到了成千上万的肿瘤数据挖掘3~5分文章会不会奉为经典,误入歧途?他们外行人不可能知道99.99%的数据挖掘文章都是凑数啊,还以为是高深莫测的科学研究啊! |
|