病例对照研究的基本统计分析策略

马东阳1988 2021-09-23

展开全文

第22讲观察性研究统计策略（7）：

病例对照研究的基本统计分析策略

观察性研究主要包括横截面研究、病例对照研究、队列研究。其中，病例对照研究是一类非常重要的非干预性研究，我今天来说说基本的数据分析策略。

从更广泛的角度，理解病例对照研究的定义和应用

传统流行病学教材中，病例对照研究（case-control study）是主要用于探索病因的一种流行病学方法。它是以某人群内一组患有某种病的人（称为病例）和同一人群内未患这种病的人（称为对照）作为研究对象；调查他们过去对某个或某些可疑病因（即研究因子）的暴露有无和（或）暴露程度（剂量）。

通过对两组暴露史的比较，推断研究因子作为病因的可能性：如果病例组有暴露史者或严重暴露者的比例在统计学上不同于对照组，则可认为这种暴露与患病存在统计学联系，有可能是因果联系。

很遗憾的是，由于病例对照研究传统《流行病学》的定义，很多人误以为病例对照研究就是研究疾病发病和不发病的区别，研究发病的影响因素，探讨危险因素的研究。

实际上，病例对照研究除了应用于公共卫生探讨疾病发病之外，在临床上、在其它学科都有广泛的用途。除了探讨发病，也探讨临床疗效、探讨患者结局。它的结局指标，不一定是“差”结局，也可以是“好”结局。

广泛定义而言，医学中的病例对照研究，是探讨健康有关阳性事件发生的关联因素的方法。通过比较阳性人群和阴性人群，发生阳性事件之前接触某一或者某些的暴的水平差异性，初步分析因果关系，为确证性研究提供线索。

健康阳性事件包括发病、死亡、伤残等不良事件，也包括临床结局比如疗效问题（比如客观缓解情况、有效性情况）等良性结局，也包括关于健康行为、态度、意愿、知识等结局。

暴露因素指的是影响结局、能够改变结局的相关因素，通常也就是所谓的病因（Cause），更广泛来说是能够预测阳性结局的有关指标。

因此，无论公共卫生、临床医学、护理学或者任何健康有关学科，当我们需要研究一个二分类结局的相关影响因素或者预测因子时，均可以考虑病例对照研究。这一理解对医学生，特别是非公共卫生专业学生尤其重要，如此才能接受和应用病例对照研究。

实例分析

病例对照研究存在着多种研究设计类型，诸如病例对照研究、巢式病例对照研究、病例队列研究、病例交叉研究等。常见的病例对照研究，根据其是否进行匹配又可分为成组病例对照、成组匹配病例对照研究、个体匹配病例对照研究等。所有类型的病例对照研究具有相应的统计分析策略。

作为初学者，我想诸位首先应该学习最基础的成组设计病例对照研究的统计分析策略。

通俗来说，所谓成组病例对照研究，就是找到两拨人群，一拨是阳性事件群体，一拨是未发生阳性事件群体，开展分析比较。两拨人群是自然人群，非随机化分组产生，也并不需要通过匹配的方式实现两组人群均衡可比，两组人群样本量可以不一致，个体特征可以不一致，仅在较大尺度上控制时间（比如同个时间段收集）、空间（比如同个地区收集）、人群特征（比如全是老年人）的一致性。

比如以下案例：

例1：某医师基于某医院开展病例对照研究，探讨冠心病发病有关的影响因素，收集新发冠心病患者作为病例组，收集同期医院非循环系统疾病患者作为对照组，研究的暴露因素是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hpyer、糖尿病diabetes。数据见casecontrol.sav。

1

案情分析

病例对照研究一般可以同时研究多个暴露因素对结局的影响。本题是传统流行病学的病例对照研究，探讨的是发病的影响因素，从理论上来判断，潜在的影响因素或者原因变量包括性别、年龄、心电图异常状况、高血压、和糖尿病。

本研究的研究结局为二分类数据，暴露因素则存在着定量、二分类和多分类数据。研究影响因素，统计学上是开展差异性或者关联性研究（两组实质一致），分析变量与变量的相关性。

2

统计策略

探讨不同类型变量的相关性，统计学方法包括基础统计学方法和高级统计学方法。基础统计学方法探讨的是简单关联性，方法包括t检验、F检验、卡方检验、相关分析等，高级统计学方法常见为回归分析方法。一般情况下，一个完整的分析报告，往往采取基础统计学方法和高级统计学方法相结合的方法。

病例对照洋酒简单关联性方法，应从差异性角度来探讨（差异即相关）。病例对照研究的差异性比较是按照病例/对照分组，即各个暴露因素的在病例组和对照组的分布有无统计学差异。比如病例组和对照组年龄有无差异、性别构成有无统计学差异。

不同组差异性比较，将根据暴露因素变量类型的不同，选择不同的统计学方法。这些差异性方法与实验性研究分析方法无异。

年龄分布的差异：定量数据，应考虑t检验或者秩和

性别分布的差异：二分类数据，卡方

心电图分布的差异：有序多分类，可以考虑卡方或者秩和。不过由于心电图异常各级别非等距，本案例只要分析构成比分布差异即可，因此推荐卡方检验。

糖尿病分布的差异：二分类数据，卡方

高血压病分布的差异：二分类数据，卡方

卡方检验是最常见的病例对照研究统计分析方法，暴露因素与结局往往形成四格表或者多行多列交叉表数据。

高级统计学方法常用的方法包括分层分析、回归分析、倾向得分方法等，最常见也最重要的方法便是回归分析方法。回归分析方法可以同时研究多个影响因素，它较简单关联性分析方法具有明显的优势（多因素线性回归分析，为什么和单因素回归结果不一样？），是病例对照研究的最重要方法。回归分析方法很多，本例研究结局为二分类数据，线性回归分析方法不再适用，应该选择logistic回归分析方法。

无论简单关联性还是logistic回归分析，我们必须关注暴露因素与研究结局的效应值，那就是暴露因素到底在多大程度上影响了研究结局。病例对照研究最重要的效应结局为OR值。

3

OR值

病例对照研究几乎都需要计算各个暴露因素的效应值OR值，来反映暴露因素对阳性事件发生的影响。OR值指的是，优势比/比数比(oddsratio，OR)。优势（odds）是指二分类事件中一类事件相对于其对立事件的优势。病例组中优势是暴露者数/非暴露数,对照组中暴露数/非暴露数。

对于上文交叉表而言，OR值计算如下：

实际上，OR反映的是病例组和对照组暴露人群构成比分布的差异性。若没有差异，则OR等于1；若存在着差异，OR不等于1。

OR值大于1，提示暴露因素是阳性事件的促进因素；

OR值小于1，提示暴露因素是阳性事件的预防因素；

OR值等于1，提示暴露因素对阳性事件无影响。

这里提醒一下，一般流行病研究教材一般把OR值大于1作为危险因素，小于1作为暴露因素，这种说法不适合现代医学的范畴，请学过流行病学的朋友更新对OR值的理解。

OR值越远离1，暴露因素对结局的影响程度越大，它几乎可以用倍数或者百分比来反映暴露因素相对结局的影响。比如，OR=3，意味着暴露组相对对照组，产生阳性结局的可能性几乎增加2倍；若OR=0.6，意味着暴露组相对对照组，产生阳性结局的可能性几乎减少40%。我将在后文继续探讨OR值这一指标。

OR值是统计量，需要进一步统计推断，包括置信区间估计和假设检验。假设检验一般即采用卡方检验方法，而置信区间估计依靠各统计软件求得，本文稍后进行讲解。

病例对照研究大部分简单差异性分析和logistic回归分析在分析过程中均可计算OR值，P值及置信区间。

4

病例对照研究基本统计过程

病例对照研究总体来说分为以下若干步骤：

1.统计描述

任何研究首先都需对研究对象的特征、病例和对照数量与特征进行描述，此次不再赘述。

2.分组均衡性比较

不同于实验性研究，病例对照研究并非随机化研究，研究对象在患者的特征分布上往往存在着不均衡的现象。因此，一般需要开展差异性比较分析，探讨病例组和对照组在一些非暴露因素的分布上的差异性。

3.暴露因素与结局的简单关联性分析

诚如上文所言，我们需要开展简单关联性分析，采用的手段也是差异性比较分析，同时最好计算OR值和置信区间。

第2步和第3步方法如出一辙，方法和表格完全相同，一般可以将两者合二为一来进行处理。在有些病例对照研究中，所有因素都是为暴露因素，此时，统计分析省略第2步过程；而有些研究中，只是若干个、甚至是1-2个因素视为暴露因素，其它因素则视为干扰因素(主要是混杂因素)，即第2步中分组不均衡的因素，比如说年龄和性别，它们更多的时候是控制变量（混杂变量），而非暴露因素。

对于第2步和第3步，本案例具体策略如下：

（1）针对年龄这一定量变量的暴露因素，须开展两步工作。第一，判断正态性；第二，采用统计推断方法进行分析，同时计算效应值。特别提醒初学者在SPSS的分析中，年龄为检验变量，有无冠心病变量为分组变量。

正态性情况：直方图显示，偏态情况不严重，仍然可以采用采用参数检验（两组采用t检验）

t检验的界面和结果：结果显示，冠心病患者和对照组在年龄分布上存在着统计学差异。

（2）其它变量均采用卡方检验进行分析。病例对照研究SPSS操作在进行卡方检验同时，可以计算OR值

卡方检验入口：分析--描述统计-交叉表

在交叉表界面，选择点击“统计”，可以分别选择卡方和风险（risk）。

以高血压为例，卡方检验，卡方值为20.72，P<0.001，OR值为4.680，95%CI为2.37-9.26。这一结果可以通俗的理解为，高血压患者将增加冠心病发病风险3.68倍左右（不过请一定要记住：这是通俗的理解，3.68倍也大概值而非精确值，原因后续再分析）。

差异性分析结果可以合并成一张总表：表格有两种形式，不带OR值和带OR值。推荐后者。

不带OR值的统计表

带OR值的统计表

4.logistic回归分析

将所有的研究因素一同纳入到logistic回归分析中，分析影响阳性事件结局的因素。

结果如下：

logistic回归分析结果与线性回归分析结果相似，但是多了OR值，其置信区间不再是b值的置信区间，而是OR值的置信区间。结果显示，性别、年龄、心电图表现、高血压情况是冠心病发生的影响因素(P<0.05）,其中，男性、年龄越大、心电图异常等级提升、高血压病对冠心病发生有促进作用（OR>1）。logistic回归结果详细解读，我将在下一讲详细介绍，本讲只贴出最后的分析结果。

特别注意

1. 病例对照研究区分暴露因素和混杂变量

很多人开展病例对照研究，把所有的研究因素同等对待，都作为暴露因素。这样的方法本身没有错，但是研究文章发布不了好杂志。比如性别、年龄等人口学特征，这些因素作虽然可能也是研究影响因素，但已经不值得去大费周章去讨论它对阳性事件的影响。一篇好的病例对照研究，应该区分哪些是研究聚焦的影响因素，哪些是不重要的特征，但它可能是干扰因素。这些干扰因素在统计分析时与暴露因素统计方法无异，但在结果上无须给予同等地位，在讨论中也大可以隐去不议。很多人在讨论中花大篇幅去讨论年龄、性别的影响，这是头重脚轻，味如嚼蜡，往往还让文章失色，画蛇添足是也！

即便是年龄性别作为影响因素，一般不能将他们与其他暴露因素同时纳入，因但对对他们建立回归分析模型（原因可见后续教程）。

2.病例对照研究，在统计报告撰写上，建议详细写明效应值和置信区间

病例对照研究，在简单关联性分析和搞统计学方法中，均可以计算OR值，前者是粗OR值或者未调整OR值，后者是调整OR值。在篇幅允许的情况下，建议在统计表中同时列出两种OR和置信区间，在文字描述以及摘要，则以调整OR值为和P值为准，并列出置信区间，因为调整OR值更为可靠。

3.病例对照研究的因果关联性分析，结论为初步确定暴露因素与结局的因果关系。病例对照研究是由果及因的研究，也就是先有了研究结局，再回顾性的分析其原因，原因的信息往往通过研究对象会议产生，这存在着回忆偏差，因此，病例对照研究的结果存在着一定的不可靠性。建议诸位撰写病例对照研究论文，在讨论与结论指出“该研究为现况调查，研究因素与结论的关系是探索性的，其因果关系需要进一步通过前瞻性研究予以确认。”

4.OR值不是大于1就是危险因素或者促进因素。

受到传统流行病学的影响，很多人看到OR值就是危险因素。这是非常不合适的理解。这样的理解也会产生一些困惑性的问题。有一些问：郑老师，这个OR值怎么大于1，跟文献结果完全想法！明明是保护性因素，怎么变成危险性因素了。

OR值是危险因素，必须有两种条件，第一阳性事件是不良事件，发病、死亡、复发等；第二，数据库变量值赋值时阳性事件赋值大于对照（0是对照，1是阳性事件，或者1和2）；如果阳性事件是良性结果比如有效、治愈，OR值大于1只能说阳性事件促进因素，或者勉强来说是影响因素；但如果阳性事件赋值比对照还要小，（0是阳性事件，1是对照），那么OR值大于是促进阴性结局的发生。总之，OR值大于1是促进结局变量赋值较大值事件的发生（比如赋值1）。因此，在阅读统计分析结果，不能不看数据、不看赋值就说OR值大于1是危险因素。为了避免这种令人困惑难以理解的结果产生，在构建数据库时，目标阳性事件的赋值要大于对照组，最好就设置0和1（比如冠心病这一结局变量，未患冠心病者赋值0作为对照，冠心病患者赋值为1作为阳性事件组）。