分享

倾向得分匹配-理论概述二

 湖经松哥 2022-10-28 发布于湖北

作者: 石鹏   封面:吉江

 
图片

图片




倾向得分匹配的实现步骤




      倾向得分匹配的过程可以归纳为两个步骤或者三个步骤,主要差别在步骤2,因为倾向得分可以在不匹配的情况下直接分析使用。

图片

       步骤1:寻找混杂因素,因为这些因素导致实验组与对照组的不均衡。严格的倾向值建模总是从估计接受干预的条件概率开始。通过logistics回归模型来分析多个干预剂量的效应。这一步骤的分析目标是确定影响选择偏差的观测协变量并进一步为倾向得分模型中的变量设定函数形式。

       倾向得分是一个研究个体在给定的变量下成为实验组的条件概率,因此,实验组个体和对照组个体都具有非零的倾向得分。在这种情况下,一对具有相似倾向得分的实验组和对照组个体基本上被视为可比的,即使他们也许在具体协变量的取值上会有不同。


       步骤2:获得倾向得分后,研究者使用这些得分来匹配实验组个体和对照组个体。使用单个倾向得分的优点在于我们可以解决基于多个协变量进行匹配中出现的失败问题。由于估计的倾向得分所形成的共同支持域并不总是覆盖研究的全部研究个体,对于一些实验组个体,可能找不到相匹配的对照组个体,导致一些实验组个体的数据损失。因为这一特征,匹配被称作再抽样。即使原始样本中的实验组和对照组在观测变量中并不均衡,但基于倾向得分进行的再抽样会使实验组和对照组在观测变量上变得平衡。这一步骤的分析目标是使实验组和对照组的研究个体在倾向得分上尽量相似。

匹配的类型:

1.贪婪匹配:最常见的匹配算法,包括马氏距离匹配、使用倾向值的马氏距离匹配、最近邻匹配、卡尺匹配、卡尺内最近邻匹配、倾向值界定的某一卡尺内的最近邻的可得马氏距离匹配等。贪婪匹配的最大特征就是每一种方法都将一项大的决策问题(即匹配)区分成一系列可被最优地加以处理的更小、更简单的决策。每一次都只进行一项决策,且进行后面的决策时并不考虑前面已作出的决策。因此,贪婪匹配也有其局限性:它要求较大的样本量,且要求精确匹配时研究个体可能由于不完全匹配而损失,要求完全匹配时可能引起研究个体匹配不精确,这两种决策都不是最优的。即便如此,贪婪匹配,尤其是卡尺内的最近邻匹配以其独特的优势(允许研究者使用几乎所有类型的后续多元分析),被研究者广泛使用。

2.最佳匹配:包括成对匹配、使用某一可变比值的匹配或可变匹配、完全匹配。该方法通过采用网络流方法来实现匹配优化。和贪婪匹配不同的是,最佳匹配旨在以最优化总距离的方式来识别匹配集合,且后面做出的决策将先前做出的决策也纳入考虑。实际上,后面的决策也可能改变先前的决策。

倾向得分加权:对实验组和对照组研究个体进行加权,从而使他们能够代表研究总体。然而,倾向得分加权仅在3种情况下最优:1)研究对象是独立且同分布的;2)选择是外生的;3)设定正确的预测变量和函数形式。实际上,即使预测变量和函数形式选择的好,也可能使估计的标准误偏小,此外,加权可能增加估计的因果参数上的偏差。


步骤3:我们可以使用步骤2匹配得到的新样本进行多元分析,主要有以下几种方法:

1.贪婪匹配后的多元分析:在基于估计的倾向得分进行匹配后,实验组和对照组的研究个体在协变量上是均衡可比的,我们可以采用多元分析并且进行协变量调整。

2.贪婪匹配后的分层:根据估计的倾向得分以升序排列样本,使用估计的倾向得分的分位数将研究个体分组,在每一组内计算实验组和对照组研究个体之间的差异。

3.计算协变量不平衡的指数:使用协变量均值上的绝对标准化差值(absolute standardized difference, ASD)来比较最佳匹配前后协变量的平衡情况,ASD < 10% 表示实验组与对照组协变量均衡可比。

4.最佳匹配后使用Hodges-Lehmann有序秩检验进行结果分析

5.基于以最佳成对匹配所得样本的回归调整





参考文献




郭申阳. 倾向值分析:统计方法及应用[M]. 重庆大学出版社, 2012.

图片
图片

作者简介

姓名:石鹏

院校:中国医科大学

擅长方法:多元回归分析

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多