很多小分子和蛋白与某些特定的疾病紧密相关,被称为疾病的标志物,他们或伴随着疾病的出现而出现,或反映了疾病的严重程度,或映射了疾病的预后情况。如果一个标志物开始有了定量的检测手段,或者在国外该标志物已经应用,想在国内人群中进行验证,亦或者就是想写一篇关于标志物诊断效能的论著,应该如何进行呢?
下面我以两篇顶级杂志的文献为例,从实验设计、数据分析一直到文章呈现的整个过程,结合我自己在研究生期间做的标志物研究的经验,详细说一下此种类型文章的套路。
先简单介绍一下我熟悉的肝癌领域的两篇文章:
第一篇是常规的蛋白标志物在中国人群中的验证,发表在Lancet Oncology,当年影响因子25分,以下简称LO文章。 第二篇是近两年很火的miRNA分子作为肝癌标志物的验证,发表在Journal of Hepatology,当年影响因子9分,以下简称JH文章。 今天这篇主要给大家介绍清楚实验设计,实验设计是文章结论适用范围的前提,也是一个很大的话题。简单来说,就是病例对照研究,但具体操作中,有很多细小的变数。 在进行实验设计前,最先应该考虑的是时向问题,这就面临到底是选择回顾性研究,还是前瞻性研究的问题。 回顾性研究可以做到迅速得到想要的数据,在别人之前发表相关文章,缺点是回顾性研究数据很难做到整齐,组间对比产生的结果会有偏倚,并且实验设计会有很大受限,很难按照最科学的分组进行。但幸运的是,如果有足够的数量,组间偏倚可以通过一些匹配的统计方法来消减,比如广义精确匹配法(CEM)、倾向性得分匹配法(PSM)等。然而,鉴于我们常常研究的是新型标志物,历史患者很可能没有进行相关检测,因此回顾性研究使用的前提是有以前收集储存的血样,最好是有样本库,这样只要有新指标就立即验证。 前瞻性研究的好处是,设计可以很合理,数据可以很整齐,得出的结论可靠性更大。而且同样,组间的其他差异可以通过匹配消除。但前瞻性研究的缺点是周期很长,尤其是如果涉及到多中心的样本收集或者罕见病的病例收集,周期会更长。选择的这两篇文献,没有具体给出是前瞻性还是回顾性研究,在这种情况下基本都是回顾性研究,因为前瞻性研究一般会高调的出来,而且一般都有临床研究的注册号。 另外有两个没有太大争议的地方:多中心数据一般都比单中心数据好,多阶段分析一般都比单阶段分析好。具体的选择哪种方式需要考虑这样几条因素:自己的野心有多大,想投什么级别杂志;标志物的新颖程度如何,如果是独家发现,就一定用自己的单中指心先进行初步探索,之后逐渐拓展合作,多中心化;当然还取决于样本量的多少,能否设计成exploration和validation两个阶段。 病例对照研究的组别设置在本质上就是分成两组,病例组和对照组。但实际上对照组的选择却很有讲究,并不是简简单单的仅健康志愿者对照。分组的选择取决于三个方面:疾病的实际进程,数据分析的侧重点,收集样本的实际情况。例如选取的这两篇文献,都以肝癌为研究对象,但分组上略微有些差异(如图)。 学医的都知道乙肝三部曲或者肝炎三部曲,所以在以肝癌为研究对象的设计中,对照组除了健康对照(healthyvolunteer, HV; healthy control, HC)外,肝炎患者组是必不可少的对照(chronichepatitis, CH; chronic hepatitis B, CHB);如果探讨标志物对于肝癌的早期诊断效能,那么就可以设置肝硬化(livercirrhosis, LC)组和早期肝癌组。这些设置的设计符合我所说的前两条原则,另外对于JH文章中的HCC组专门又分成了两个亚组,这是因为其中有部分病例没有随访结果,也就是符合前面所说的根据样本的实际收集情况原则。 拓展一下,如果要分析肝癌分级与标志物的关系,那么病例组就要设置不同肝癌分级的亚组;如果研究的是肝硬化或肝纤维化,那么对照组就设置为肝炎和健康,但病例组就可能要分层设置,如不同的纤维化阶段;如果研究肝炎,那么对照组就设置为健康即可,病例组根据具体情况设置成肝炎不同阶段的病人。对于其他的疾病的标志物研究,分组情况以此类推,一般都是按照疾病进展和分级进行设置。 正规来说,各分组的样本量的选择有严格的计算方法,这是为了保证在得出具有统计学差异的同时使用最少的数量。对于前瞻性研究来说,分组后的样本量的选择十分重要,也是在临床研究注册时明确需要填写的信息。这里介绍一个专门计算样本量大小的网站:http:///Calculators。在左边选择进行的实验设计后即可进入计算页面如下图所示,包含一个直接生成样本量的界面和一个计算原理及参考文献的界面。只要将一定设计的参数输入进去之后,就会得出每组需要的样本量。网站还包含了R语言的代码和参考文献,也可以保存起来在R中得出。 对于回顾性研究,情况略有不同,样本量的多少除了按照科学的计算得出之外,更多的还是符合上面的原则,自己野心和标志物的新颖度,还加上一个成本考虑。本例的LO文章选择的标志物是个不是很新颖的标志物,但为了发表在好杂志中,选择了多中心、大样本、多阶段的方式;JH文章样本量适中,因为考虑到标志物较为新颖。现在出现的一些分子标志物,往往是用二代测序的方式获得,成本往往很大,样本量的选择就不得不考虑到这些问题。据我所知,仅仅是提取一次cfDNA,成本就要50-100元,再加上后续的建库、测序费用,成本很高,所以样本量的确定要适时缩减,但务必科学合理。 样本的收集绝对不是一个人的工作,要是涉及到多中心设计,那基本上都是一项大工程,大都是大佬之间的合作。具体到每个单点的工作亦需要医生、护士、样本管理人员、实验员和收样阿姨的配合,所有工作需要在导师的分配下,自己在各个环节协调。 这些由于各科室情况不同,无法具体说明,但在进行时有几点需要考虑。一是人员的分配,二是临床研究注册和知情同意书(很多大牌杂志很看重),三是血样采集工具、时间和次数(不增加病人额外伤害为原则;采血管是否自己准备?是不是采集多个时项点?),四是血样处理时间和流程(全血?血浆?血清?需不需要立即离心?需不需要抽提某些分子),五是血样储存地点和条件(常温?-20度?-80度?),六是病人住院信息的采集(距离采集点最近的检验数据和基本信息,没有信息的样本是无用的样本;采集之前考虑好需要的信息列成Excel表格,一次性采集完)。 完成上述工作之后,接下来就是开始检测标志物,整理相关数据了。 |
|
来自: 闲书5mg7dd8c1w > 《文献》