![]()
目录 1. 背景介绍实证研究大都致力于回答因果推断问题,例如:
一直以来,「随机实验」被认为是回答上述因果推断问题的 “黄金法则”。但是,由于社会生活的不可操纵性,随机实验又很难应用于社科类研究中。因此,学者们不得不利用观测数据来进行因果推断。 在因果推断中,「反向因果问题」又是一个不可忽视的问题。重新回顾上述因果问题,人们不禁会问:
可以看出,上述问题的因果关系可能是双向的,这也是我们在进行因果推断过程中面临的关键挑战。 当然,说起来容易,如何解决「反向因果问题」也绝非易事。为此,本文将系统介绍「反向因果问题」偏误的来源,并在此基础上,结合现有文献案例为读者提供一些可行的解决方法。 2. 偏误来源通常,未考虑反向因果问题,会导致估计结果产生偏误。接下来,以面板数据为例,分别用 POLS、FE、RE、以及 FD 等方法估计 X 对 Y 的影响,来分析偏误的来源。 2.1 POLS 方法回归方程为: 其中,yit 为被解释变量,xit 为解释变量,ϵit 为满足独立同分布的误差项。为了使估计得到的参数具备无偏性,回归方程中的误差项需要满足同期外生性,即: 在 POLS 方法下,允许反向因果关系存在时,只有当所有同时对 X 和 Y 都产生影响的变量被捕捉到时,参数估计才是有效的。但这样严格的条件在实证研究中往往难以满足,估计偏误也由此产生。 2.2 FE 和 RE 方法进一步,将代表个体特征的 αi 从误差项中分离。根据对 αi 的处理方式不同,又可以分为 FE (固定效应) 模型和 RE (随机效应) 模型。 在 FE 模型下,回归方程为: 其中,FE 模型允许代表个体特征的 αi 与解释变量相关。 在 RE 模型下,回归方程为: 其中,RE 模型认为代表个体特征的 αi 与解释变量不相关,即: 尽管上述模型在处理 αi 的方式上有所不同,但都需要满足严格外生性的假设: 当反向因果关系存在时,严格外生性的假设往往不能满足,故 FE 模型和 RE 模型的估计结果也会产生偏误。 2.3 FD 方法在 FD 模型的基础上,可以将原回归方程减去个体水平上的均值,消去 αi,再对参数进行估计。 相减,得到下式: 与 FE 模型和 RE 模型相比,FD 模型放松了 αi 的外生性假设,但仍需要满足严格外生性假设。因此,与 FE 模型和 RE 模型类似,反向因果关系的存在仍会使 FD 模型的估计结果出现偏误。 3. 解决方法接下来,本文将介绍几种反向因果问题的解决方法,辅以论文实例进行说明。 3.1 解释变量滞后项的引入及 LFD 模型将解释变量的滞后项代替解释变量进入回归,可能有助于解决反向因果问题。假设回归方程如下: 尽管解释变量滞后项的引入有助于摆脱严格外生性假设,但它引入了同样强而不可测的假设,即未观测变量序列不相关。由此可见,在 FE 模型和 RE 模型中,简单地引入解释变量的滞后项并不能很好地解决反向因果问题。 进一步,我们可以在引入解释变量滞后项的基础上使用一阶差分的方法得到 LFD 模型。假设两个时点上的回归方程分别为: 将两个式子相减,可得: LFD 模型允许 X 影响 Y 时因果反馈过程的存在,即允许 xit 和 ϵit 之间存在相关性。然而,LFD 模型对因果关系描述的准确性要求很高。LFD 模型建立在一个关键的假设上,即 Y 在两个时点间的变化量是 X 在先前两个时点间变化量的函数。因此,若现实中的因果间的滞后关系并非如模型所示,则 LFD 模型的估计结果就会产生偏误。 3.2 被解释变量滞后项的引入和 AB 模型在回归模型的右边引入被解释变量的滞后项的方法被称为 LDV 模型。假设回归方程为: 此时,被解释变量滞后项的引入导致误差项 ϵis 与被解释变量的滞后项之间存在相关性,违背了严格外生性的假设,因而造成偏误。 在 LDV 模型的基础上,做一阶差分即可得到 AB 模型。差分后的回归方程为: 接着,我们可以利用 yit−2 等更高阶滞后项或 Δyit−2 等更高阶滞后项的差分项来为 Δyit−1 的工具变量。解释变量的处理方法与被解释变量类似。在此基础上,我们可以利用标准 GMM 或系统 GMM 等方法进行估计。 但是,AB 模型也存在一些弊端:
3.3 交叉滞后的固定效应和 ML-SEM 方法在上述分析中,我们分别将解释变量和被解释变量滞后项引入模型,来缓解反向因果问题。自然地,也可以同时将解释变量和被解释变量的滞后项引入回归模型,即交叉滞后的固定效应模型。假设回归方程如下: 针对上式,有学者利用 ML-SEM 方法 (最大似然估计 结构方程模型) 进行估计。与 LFD 模型和 AB 模型类似,ML-SEM 方法通过假设解释变量的序列外生性来允许反向因果关系的存在,即允许误差项 ϵit 与解释变量的未来值相关。值得注意的是,ML-SEM 方法的使用需要建立在误差项序列无关的假设之上。此外,ML-SEM 方法同样面临与 LFD 模型类似的 “滞后关系识别问题”。 Maghyereh 和 Abdoh (2020) 在讨论油价变动的不确定性和企业投资间的关系时考虑了反向因果问题。作者利用交叉滞后的固定效应模型进行估计。回归方程如下所示: 其中,INVit 表示企业投资水平,OVolt 表示原油价格的不确定性 (波动性),Xitk 表示企业层面的控制变量,Xtm 表示金融市场不确定性的变量,Drt 表示原油价格不确定性冲击的虚拟变量,τi 表示不随时间变化的企业层面个体效应,δt 表示时间趋势,ϵit 为独立同分布的误差项。 在此基础上,作者还将所有的解释变量滞后一期来控制可能的内生性问题和反向因果问题。之后,作者利用系统 GMM 方法进行估计,并利用两阶段最小二乘 (two-stage least squares) 进行稳健性检验。 3.4 影响渠道或机制分析以上三种应对反向因果问题的方法多是在回归方程上做文章,即通过滞后项的引入来放松原有的严格外生性假设。此外,也有学者通过影响渠道或机制分析来应对可能存在的反向因果问题。 Pagano 和 Schivardi (2003) 分析了企业规模和增长率之间的因果关系。作者利用影响渠道的分析来应对其中可能存在的反向因果问题。基本回归方程为: 其中,g 表示国家 j 部门 i 的人均增加值的增长率,X 为控制变量,S 为国家 j 部门 i 的平均企业规模加上1的对数,λi 表示部门的虚拟变量,ϵ 表示误差项。 接着,作者借鉴 Rajan 和 Zingales (1998) 的方法对反向因果关系进行了检验。为此,作者将企业的研发强度作为中介变量加入回归方程,具体如下所示: 其中,D 为研发强度,其捕捉了企业规模对增长率影响的部门差异化效应。若部门差异化效应识别正确且因果关系由企业规模到增长率,则参数 θ3 应为正且显著。若企业规模通过研发强度影响增长率的论点成立,则我们应该能观测到企业规模和增长率总体相关性估计的减少,即 θ2 的估计值相对于 α2 的估计值的减少。若研发强度是企业规模对增长率影响的唯一渠道,则 θ2 应接近于零。 通过检验,作者发现了企业规模通过研发强度对增长率产生影响,表明基础回归中企业规模与增长率的相关关系不是由反向因果关系造成的。 3.5 线性反馈检验Chong 和 Calderon (2000) 利用线性反馈检验 (linear feedback test) 证明了制度有效性和经济增长之间的双向因果关系。借鉴 Geweke (1982) 的方法,作者利用线性反馈检验将制度有效性和经济增长之间的相关性分解成三个部分,分别是正向影响 (from 制度有效性 to 经济增长 )、反向影响 (from 经济增长 to 制度有效性) 和当期影响 (instantaneous)。线性反馈检验的具体步骤如下所示: 首先,作者考虑了两个回归方程: 其中,xt 表示制度有效性的测量值,yt 表示 GDP 的人均增长率。在此基础上,作者还控制了以下变量:初等教育的初始入学率、国内生产总值 (期初水平) 和区域虚拟变量 (拉丁美洲和非洲)。 基于以上回归,作者得到如下的方差协方差矩阵: 其中,∑ij=E[ξit,ξjt′],i,j,=1,2。 接着,作者另外考虑了两个回归: 基于以上回归,作者得到 ∑1=E[ε1t,ε1t′] 和 ∑2=E[ε2t,ε2t′]。 最后,作者将当期因果也纳入回归方程内: 基于以上回归,作者得到 ∑ξi=E[ξit,ξit′],i=1,2。 在以上计算的基础上,作者利用如下方法测量因果关系: 其中,Fx,y 表示制度有效性和经济增长之间的线性关系,可以被分解成三个部分:制度有效性对经济增长的影响 Fx→y,经济增长对制度有效性的影响 Fy→x 和当期影响 Fx·y。 3.6 结构方程组法若反向因果关系存在,则解释变量和被解释变量之间的关系往往可以用方程组来表示。此时,若只估计方程组中的某一个方程,则会因内生性问题而造成估计偏误。因此,有学者利用结构方程组法来应对反向因果问题。 Sridhar 等 (2007) 探究了电信普及率和经济增长之间的关系。为了应对可能存在的反向因果问题,作者建立了一个内化电信普及率和经济增长的结构方程组。具体来看,作者估计了四个回归方程:
4. 参考文献
5. 相关推文
相关课程
课程一览
![]() ![]()
![]()
|
|