【原】当纯生信遇到计较的统计学家，是一种什么样的体验？

SCI狂人团队 2021-07-29

展开全文

现在纯生信数据挖掘基本离不开构建模型，而构建模型往往会涉及样本量的问题，有人会问到底至少需要多少样本？有很多统计学教材就是建议满足以下条件：终点结局事件数目不少于纳入模型因素个数的10到15倍。

以构建多因素Cox回归模型为例，例如你的模型纳入了8个基因，你数据的status为1（1：死亡，0：存活）的数目就不能少于8*10=80。你想想看，就status为1不少于80，那么总的样本量肯定远远不止这个数。现在的纯生信基本都是以TCGA和GEO为主，有些TCGA数据总的样本才100多，达到这个要求根本不可能，特别是GEO数据，大部分数据总样本就是100以内的，更不要说终点结局事件数目了。

如果都是按照上面的标准执行的话，有很多很多纯生信根本就没有办法发表。但是在实际的纯生信审稿中，遇到这样计较的审稿人的机会还是比较渺茫的。构建模型一般是样本越多越好，但是往往我们的物力和人力都是有限的，只能在有限的资源和条件下开展。

就好比测序一样，你目前只能收集到20个临床样本，也只有大概20个样本测序的经费预算，但是审稿人觉得20太少了，你应该测200个样本，你觉得能实现码？这样的实际情况还有很多，纯生信需要补实验、补自己测序数据就更加准确，补充大样本的验证更可信，只是经费等资源的问题而已。对于有一千几百万经费的大佬把全套分析做完都是很轻松的问题，但是对于一个没有任何经费的临床医生，可能连纯生信的版面费都给不起，这就是资源的差距。