转自个人微信公众号【Memo_Cleon】的统计学习笔记:SPSS之1:n倾向性得分匹配。 前面我们已经有两篇推文介绍过倾向性得分匹配(倾向值匹配),一篇是采用SPSS进行1:1的PSM,另外一篇采用的是R的MatchIt包来实现。SPSS操作简便,但目前尚不支持1:n的PSM,也不能直接对匹配后的数据进行平衡性分析,安装R插件后这些问题都会得到解决,安装教程可参考《PS Matching安装攻略》。本次笔记的操作需要成功安装PS Matching插件。 示例仍然采用《倾向性得分匹配》的数据:考察孕期妇女吸烟对新生儿体重的影响的观察性研究。暴露为吸烟(mbsmoke),结局变量为是否出现低体重新生儿(lbweight),本次笔记仅考虑孕母年龄(mage)、是否白人(mrace)、婚姻状况(mmarried)、孕期是否饮酒(alcohol)以及父亲的年龄(fage)和是否白人(frace)几个协变量。 【2】倾向性匹配:Analyze >> PS Matching ![]() l 匹配算法:提供了最邻近匹配、完全匹配和优化匹配。本例默认最邻近算法; l 舍弃共同支持域外单位:对重叠域外的观察对象的处理方式,包括不处理、处理组和对照组均舍弃、舍弃处理组、舍弃对照组; l 估计算法:默认logistic回归; l 二分类治疗指示因子(0代表对照组,1代表处理组):变量类型务必为尺度变量。本例选入mbsmoke,原变量尺度为名义变量,需要改为尺度变量; l 协变量:选入需要匹配的变量,本例选入所有的协变量:孕母年龄(mage)、种族(mrace)、婚姻状况(mmarried)、是否吸烟(mbsmoke)、孕期是否饮酒(alcohol)、父亲的年龄(fage)和是否白人(frace); l 附加协变量:可选入与结局变量无关但需要平衡的变量。以结局变量为因变量,以协变量为解释变量进行的逐步回归结果,进入模型的变量选入协变量,未进入模型的变量选入附加协变量框,本例未按此法操作,感兴趣者可以尝试; l 精确匹配:依据选入的变量对个体进行精确匹配,仅适用于最邻近匹配; l 卡钳值:取值范围0-1,值越小匹配越严格符合要求的匹配集越小,默认取值0.2。 【绘图和输出】 绘图:可输出倾向值直方图、个案抖动散点图、标准化差异直方图、各协变量标准化均数差异散点图、各协变量匹配前后标准化均数差异变化线图,图片可选择96~400PPI的分辨率。 输出数据集:可选择[带有倾向值的原始数据集]或者[通过新生成变量“matched_id”来标识的配对数据集],数据集可以包括所有个案,或者只保留匹配的个案。新生成数据集内容如下表所示。本例选择“Paired dataset by “matched_id”&“Matched cases”。 平衡性统计量:基本和详细两种,另外可选择是否包含交互作用。本例不考虑交互作用。 【最邻近匹配选项】 亚分类:可选择是否按照倾向值接近程度分为若干亚分类进行分析,可以通过处理组、对照组或所有个案来进行分类; 匹配比率:默认处理组和对照组进行1:1匹配,也可以进行1:n进行匹配。本例设置为1:2; 匹配顺序:当出现多个满足匹配条件的个案时,有从最大倾向值开始匹配、从最小倾向值开始匹配、随机匹配三种方式。本例默认从最大值开始; 本例不允许回放(replacement)。 【3】倾向性值匹配结果 (1)样本匹配概况:原数据对照组3778例,治疗组864例,经过倾向值匹配后获得的数据集中处理组841例,对照组1567例,治疗组和对照组并非刚好是1:2,这是由于有病例组未能找到匹配对象所致;未能匹配成功的病例中治疗组23例,对照组2199例;有12例对照组病例不再共同支持域被舍弃掉。 (2)平衡性检验 (2.1)Hansen&Bowers全局平衡性检验:P>0.05表示协变量和附加协变量框中的变量在两组间整体均衡性良好,但只适用于1:1匹配且数据不能回放,本例按1:2进行匹配,因此该法不能给出结果。 (2.2)相对多变量不平衡L1检验:L1值取值范围0-1,匹配后的值越小匹配效果越好。该例匹配后的值变小,表示匹配对平衡性有改善。 (2.3)不平衡协变量概况,若出现|d|>0.25的变量则提示该变量存在不均衡性,且会按照|d|大小从上到下给出。|d|即标准化均数差异(standardized mean difference)。本例未出现|d|>0.25的变量,可认为匹配后各变量在组间达到了均衡。 (2.4)各变量的平衡性详情,给出倾向值和各变量在匹配前后处理组均值、对照组均值、对照组各变量的标准差、标准化均数差。|标准化均数差|<0.1,则组间均衡性良好,|标准化均数差|>0.25则组间均衡性较差了。本例匹配后各变量标准化均数差绝对值均小于0.1,组间均衡性良好。 (2.5)个案抖动散点图,显示倾向值的分布。本例处理组和对照组的重叠性较好,虽然处理组还有一些未能匹配的对象,但是获得两组匹配个体的倾向值都比较接近,匹配效果还是不错的。该图中对照组匹配对象的圈点要比处理组大,是因为在该图中圈点的大小表示权重,本例处理组:对照组采用的比率是1:2,因此对照组的点比较大。 (2.6)标准差异变化线图,用线图来表示各个变量匹配前后标准化均数差异绝对值变化。本例各个变量的标准差异均明显降低,匹配对数据的平衡有改善。 (2.7)倾向值的分布直方图。提供未匹配和匹配后倾向值的相似度,并提供共同支持域的密度函数曲线,匹配后处理组和对照分布近似提示匹配良好。 (2.8)匹配前后标准差异直方图,提供匹配前后标准化均数差异的直方图即密度曲线。匹配后的标准化差异集中在0附近,提示不再存在系统差异。 (2.9)loveplot,即各协变量标准化均数差异散点图,该图能够明显看出匹配前后均衡性发生的改变。各协变量匹配前后的标准化差异,若匹配后变量对应点落-0.25~0.25之间,则示变量达到均衡。 【4】暴露因素作用评估:孕期吸烟能够影响新生儿的体重。 两独立样本的卡方分析:Chi2=19.784,P<0.001,OR=1.810; 考虑配对的单因素条件logistic回归:wald chi2=15.346,P<0.001,进行多因素校正wald chi2=21.841,P<0.001,RR=2.252。 王永吉等.中华流行病学杂志,2010,31(7). 黄福强等.J south Med Univ,2015,35(11). Yoon Kong Loke et al.Diabetes Obes Metab. 2020;22(Suppl. 3). 转自个人微信公众号【Memo_Cleon】的统计学习笔记:SPSS之1:n倾向性得分匹配。 END |
|
来自: Memo_Cleon > 《待分类》