分享

EM-无重复的结果 = 欺骗 ?

 萌小芊 2018-04-29

假设有这样一个研究生,他想要比较两个湖中细菌的丰度。于是每个湖取了一个10mL的水样,算出细胞浓度分别为1.4 * 106和3.2 * 106cells mL-1。于是他就认为第一个湖细菌丰度小于第二个湖。

接下来他研究了两个湖细菌群落组成的差异。从10ml样本中构建了16S rRNA基因克隆文库,挑选出200个克隆进行测序和blast比对,构建系统进化树比较了两个湖之间群落的丰富度和多样性的差异。

大家觉得他做的研究怎么样?


 --------------------------------------------------------------------------


研究微生物的人大概都会跳出来说,这样是不行的,利用单个无重复的样本用于群落比较非常没有说服力,结果的变异程度可能和检测到的细菌数一样大。这就好比从旁边搞水处理的实验室随便找一个和比身高,只基于两个人的身高就得出研究微生物的比搞水处理的高或矮的结论。


但是事实上目前很多研究就是这样进行的,2010年一篇EM的观点文章就以Replicate or lie为题对不设置重复进行了批判。下表是五种微生物生态学顶尖杂志(AEM,EM,FEMS,ISME,ME)在2009年关于微生物群落多样性研究的情况。设置了重复的研究比例都非常低=.=



由于存在环境异质性,以及采样和分析都存在误差,需要设置重复来检测一个样本的差异性,评估差异性是真实的,还是源于各种误差。但是为什么会出现这么多无重复的研究得以发表,主要有以下两个原因:

1.很多科学问题是当地性的(endemic),这可能使大家忽视正确的研究方法,给不好的实验设计带来机会;

2. 这些研究非常耗资源(时间、金钱),得到数据非常不容易,除了重复之外其他部分质量很高,因此拒绝这些研究非常困难。这种情况在利用最新的技术进行研究时非常突出。


这两点在看文献时候深有体会,很多研究样本来之不易,如深海等特殊的极端环境,虽然实验设计并不完美,但是往往杂志会网开一面。


作者总结了不做重复的原因及驳斥如下:

  1.  做重复太贵了。钱确实是很多时候阻碍研究者进行研究的重要因素。

  2. 虽然没重复,但是测序深度。深度和重复无关,测的再深没重复,变异程度也会很大。

  3. 前人的研究就没有重复。Nature, Science, PNAS这样的杂志利用最新的技术通常是提出一种新概念,如焦磷酸测序可被用于环境样本。但是这种思路并不适合用于一般的研究。一般研究还是需要设置重复保证实验的准确度。

  4. 知道重复很重要,但是不知道在什么尺度上设置重复。开展一项研究必须考虑到时间和空间上的异质性。确定采样和重复的尺度非常重要,既然已经意识到了,就不应该忽略。

  5. 这是克隆文库的数据。在一些特定的研究中实验的变化很小,确实不需要设置重复。

  6. 对系统其他特征的研究表明变化程度很低,因此不需要设置重复。一个系统不同特征的变化程度是不同的。如海水中100 m2温度变化可能很低,但是不能因此就推测细菌群落丰富变化低。

  7. Chao值会带来错误。Chao值是根据得到的OTU外推的结果。他的变化只针对单个样本,和环境异质性带来的生物学变化是不同的。

  8. 我们做了三个重复并混合在一起。Pooling会破坏空间异质性,不能准确评估变化。

  9. 在多个基因芯片上分析了样本。这只是技术重复,没有生物学重复。


对于开头那个研究生的研究,一个较好的策略是若每个湖测了90000条序列,可以变为每个湖测30000序列,并设置3个重复,这样两者的价钱是相当的。虽然得到的信息少一些,但是可以进行更准确的比较。


有着高尚职业道德的作者说到:因为穷导致研究很水,这样还不如不做研究。。。。



---光阴似箭,日月如梭,时间在不经意间缓缓流过---

一年之后,EM上出现了另一篇观点文章:没有重复也能做出好的研究!



虽然重复是定量随机和系统变化的基本手段,但如果很多定量的技术使用恰当,不做重复也能得到很好地统计结论。


无重复的回归分析

回到开头的实验,学生从单个湖中取一个样,发现第一个湖细菌丰度高于第二个。现在假设学生同时测量了两个湖的TP(total phosphorus),结果第一个湖远高于第二个。稍稍改变实验设计,利用比较法,他从更多的湖中测量了细菌丰度(一个湖一个样,无重复)和TP,通过回归分析检验细菌丰度是否与TP存在正相关。

回归分析是一种灵活、强大的统计方法,可用于比较研究。最关键的是它不需要重复。如果细菌丰度和TP存在相关,那么利用相关关系就能得到真确性较高的结论。

无重复的回归分析在一些统计方法上比重复设计更有说服力(如ANOVA)。另外,回归分析得到的斜率、截距能提供比重复更多的信息,因此能在此基础上进行一些预测


无重复的时间序列

微生物研究中,时间上的重复设置的很少。原因包括以下几点:

1.时间或者资金限制。这导致了空间重复和时间上重复不可兼得,需要权衡舍弃。

2.重复带来的效益有时并不能看到。

3.长时间的观测可能被一些情况打断,如海洋漏油事件会影响海水时间序列的取样。


统计学手段

文章开头学生检验两个湖的细菌丰度,虽然没有重复,但是仍然可以用蒙特卡洛等模型对数据进行重抽,进行统计学上的检验。得到的结果依然有说服力。


最后,作者抛出了一个让人无法反驳的命题:无重复的结果≠欺骗,就像有重复的结果≠事实。


这样说逻辑上虽然没错,但是怎么感觉是在耍流氓呢…



Reference

Lennon,J. T. 2011. 'Replication, lies and lesser-known truths regarding experimentaldesign in environmental microbiology', EnvironmentalMicrobiology, 13: 1383-86.

Prosser, J. I. 2010. 'Replicate or lie', Environmental Microbiology, 12: 1806-10.




一个环境工程专业却做生信分析的深井冰博士,深受拖延症的困扰。想给自己一点压力,争取能够不定期分享学到的生信小技能,亦或看文献过程中的一些笔记与小收获,记录生活中的杂七杂八。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多