分享

连大牛都搞错了, 对回归结果的错误解读, 必须纠正主效应,交互效应和简单效应

 计量经济圈 2023-10-21 发布于浙江
邮箱:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

有意思的实证计量讨论帖, 熬夜肝完了一直的计量困惑!QA: 平方项的IV, 加时间固定符号相反, 滚动窗口回归, 面板分位数输出图, 机制分析中IV, pre5显著咋办,③主回归不显著, 分组回归却异常显著的研究来了!城市*年份联合的FE与他们分开的FE有什么区别? FE如何从一维进化到二维, 三维的?DID可以有2个处理组和1个对照组么? 有相关的参考文献吗?

上一日推送了”当把交互项加入后, 主项的系数符号竟变相反了, 这是咋回事? 如何处理呢?“ 之后引起了很多的关注,其中咱们计量社群群友@包寒吴霜说:其实,这个问题很多大牛都存在很多误解。一句话概括,如果加入交互项,必须对相应的自变量进行中心化处理,只有这样才能把结果中自变量的回归系数称为“主效应”,否则是不能叫“主效应”的!有交互的情况下,自变量的回归系数,本质上是调节变量等于0的时候,该自变量的简单效应,并不是任何情况下都能叫“主效应”。

*当然对学术感兴趣的学者都可以到社群进一步交流和讨论。

不少大牛的论文也存在这个误解。我们专门发表过一篇Commentary

请回想一下,你是否这样解读过结果?

用统计软件(如SPSS、R)进行回归分析,预测变量涉及XM及两者的交互作用,当你看到模型结果中X的回归系数、M的回归系数,就直接把这些回归系数解读为X的「主效应」、M的「主效应」。

再回忆一下,你是否遇到过这种情况?

起初只放一个自变量X来预测因变量Y,发现XY的「主效应」显著(或不显著),但是,当考虑调节变量M与自变量X的交互作用之后,发现XY的「主效应」突然不显著了(或突然显著了)。

不要小看这些问题,真的有很多人对此是不求甚解、想当然的,其中甚至包括领域大牛!

本文针对上述常见的对回归分析结果的错误解读,辨析三个重要概念「固定效应、主效应、简单效应」,借此促进更多研究者关注和重视这个看似“差之毫厘”的问题,避免结论“谬以千里”。

主效应与交互作用(p. 420, Statistical Methods for Psychology)

1 / 如何理解主效应?

1.1 / 从回归方程讲起

对于一个最简单的回归模型:

横坐标为自变量X,纵坐标为因变量Y

横坐标为调节变量M,纵坐标为X对Y的效应

1.2 / 教科书中的界定

我们不妨参考一下统计学经典教科书中的定义和解释。
Main Effect: Arising from ANOVA terminology, the effect of an independent variable on Y averaged across the (main or interaction) effects of other independent variables.”(主效应是指某个自变量在其他自变量/调节变量不同取值下的平均效应;p. 676)
“In general, in a regression equation containing an interaction, the first-order regression coefficient for each predictor involved in the interaction represents the regression of Y on that predictor, only at the value of zero on all other individual predictors with which the predictor interacts.”(在考虑交互作用的回归模型中,某个自变量本身的低阶回归系数,仅表示当与之交互的其他变量都等于0的时候,该自变量的效应;p. 260)

“Centering is also important if the multiple regression model includes interactions. For each of the two explanatory variables involved in an interaction, the interpretation of its slope is that it is the expected value of the slope when the other variable has the value zero. Again, since 'zero’ may not even be a possible value, the value of the slope for the interaction term may not be interpretable at all. Since multilevel regression models often include cross-level interactions, this is a serious interpretation problem. When both variables in the interaction are centered on their grand mean, the problem disappears.”(多水平回归模型的情况与普通OLS回归的情况类似;变量中心化对于主效应的解释很重要;p. 49)

1.3 / 深入理解

所谓“主效应”的问题,只出现在考虑交互作用的情况下。如果不考虑交互作用,那么某个变量的回归系数就是它对因变量的效应,不受其他变量取值或编码的影响。
需要注意的是:无论你使用哪种变量编码方式、是否对变量进行中心化处理,模型拟合(包括R²、AIC、BIC等)都不会变,交互作用项的系数和显著性也不会变,并且模型直接输出的X的回归系数(固定效应)也始终代表与之交互的其他变量等于0的时候,X对Y的简单效应。
真正关键在于如何解读X的固定效应:如果自变量都经过中心化,那么中心化后的变量取0也就意味着原来的变量取均值,根据主效应的定义,这时可以认为X的固定效应是其主效应;否则,不能把X的回归系数直接解读为主效应!
如果使用R语言:
  • summary()函数得到的是固定效应(及其t 检验)

  • anova()car::Anova()函数得到的是主效应(及其F 检验)

⚠ 但这里还要注意一些技术细节

1.4 / 拓展:二分变量

上面已经解释,当连续变量中心化后,其均值变为0,从而可以使固定效应具有主效应的含义。
实际上,不仅是连续变量,二分变量也是可以中心化的,因为二分变量本质上是0/1数值型变量(回归模型无法直接处理分类变量,都是转换成数值型处理的)。不过,二分变量更推荐转换成“–0.5/0.5”编码。
不同编码有什么区别呢?在分析交互作用的时候,不同编码都可以使用吗?
  • 二分变量的“1/2”编码:此时变量取0没有意义,因为这种编码的二分变量是取不到0的,所以不推荐在有交互作用的时候使用这种编码。

  • 二分变量的“0/1”编码:此时变量取0意味着取到0对应的类别,并以该类别作为参照基线,然后拿1对应的类别与之作比较,称为“treatment”编码(R语言中对应contr.treatment()函数);可以用,但必须清楚与之交互的另一个变量的固定效应的含义(此时不能解读为主效应)。

  • 二分变量的“–1/1”编码:此时变量取0意味着两个类别的简单平均(不受样本中两个类别不平衡的影响),但该变量对应的回归系数(变化1个单位带来的效应)代表的是从–1的类别变为两类平均,或从两类平均变为1的类别,而不是从一类变为另一类,称为“sum”编码(R语言中对应contr.sum()函数);可以用,但也必须明确解释其含义。

  • 二分变量的“–0.5/0.5”编码:与“–1/1”编码类似,好处在于,此时该变量变化1个单位,就意味着从一类变为另一类,可以保持与“0/1”编码的一致,所以兼具“0/1”和“–1/1”编码的优势,非常推荐使用。

  • 二分变量的中心化处理(均值为0):如果样本中的两类均衡,各有50%,那么中心化后就等同于“–0.5/0.5”编码;但如果两类不均衡,那么中心化的二分变量取0就不意味着两个类别的简单平均,而是样本中的实际均值——这样的话,模型没有对类别不均衡的情况进行控制,会使另一个变量的“主效应”偏向于二分变量中数量多的那一类。

那么,到底是用“–0.5/0.5”编码,还是用中心化处理的二分变量呢?实际上这个问题没有唯一答案,取决于研究问题,以及研究者希望考察怎么样的“主效应”。
  • 在实验设计中,分类自变量往往是实验条件,比如因素A有两个水平A1和A2,因素B有两个水平B1和B2,那么研究者一般希望考察A在B不同水平上的总体效应(而不是A在B样本平均值上的效应),并且A1与A2、B1与B2在理想情况下数量应该是均衡的,不会出现某个水平下的数据量远远大于另一个水平的情况,这就是经典的方差分析ANOVA,放在回归分析里面就是“–0.5/0.5”编码(或“–1/1”编码)。

  • 在社会调查中,情况略有不同,举例来说,性别是二分变量,人口中男女比例一般是比较均衡的,但在一次调查中,性别比例很可能不均衡(比如,师范类院校女生数量远大于男生),这就会使性别二分变量经过中心化后的0的含义变成“在样本中的平均水平”,如果女性样本量大于男性样本量,则反映的是偏向于女性的一种“主效应”——如果研究者认为女性居多就是研究总体的特征,那么可以中心化处理;但如果研究者希望“主效应”能够反映男女比例均衡时的效应,那么就需要考虑“–0.5/0.5”编码,并纳入其与主要自变量的交互作用,这样就可以校正由样本的类别比例失衡或取样偏差带来的影响。

  • 在医学研究中,情况还有差异,举例来说,健康状况可以是一个二分变量(健康=0,患病=1),但很显然,在整个人群中,健康人的比例远大于患者。那么健康状况二分变量经过中心化后的0的含义就是“在样本中的平均水平”,反映的是整个人群的特征;而如果采用“–0.5/0.5”编码,其等于0的含义就变成了“健康人”和“患者”之间的简单平均状态(也许是“亚健康”?)——这仍然取决于研究问题和研究假设,以及研究者到底希望考察什么效应。

所以,对于二分变量,视不同情况,建议采用“–0.5/0.5”编码或中心化,同时要注意两者在解读方面的差异。

2 / 并不少见的误区!

通过上面的解释,我们可以进一步澄清这些容易混淆的概念:
  • 固定效应(fixed effect):自变量的回归系数(仅在某些情况下等价于主效应或简单效应)。(在多水平模型中,“固定效应”虽然也指回归系数,但还需要与“随机效应”区分开。

  • 主效应(main effect):在有交互项的模型中,自变量在调节变量不同水平下的平均(总)效应

  • 简单效应(simple effect):在有交互项的模型中,自变量在调节变量取某个值时的特定效应

不少人在看到回归模型的结果后,想当然地就把回归系数解读成了「主效应」,但其实这些回归系数只代表与这个自变量交互的其他变量等于0的时候该自变量的「简单效应」。
我在近半年里,就接触到至少3次身边同学或网友没搞清楚“主效应”的情况。他们可能很敏锐地指出了本文开篇举例的情形,但其实并没有解释完整为什么主效应会在加入调节变量之后产生戏剧性的变化(真正原因是:此时自变量的“主效应”并不是主效应,而是调节变量等于0时的简单效应)。
实际上,在科学研究中,由于一时疏忽而混淆「固定效应、主效应、简单效应」的情况也并不少见
例如,日裔澳大利亚文化心理学家Takeshi Hamamura与合作者在American Psychologist发表论文,考察了中国在1950~1999年间,个人主义/集体主义文化与其他10个概念(如积极/消极、成就、金钱、休闲、工作、家庭等)之间关系的变化。然而,由于变量编码不当,他们对统计结果的解读有误,将多水平回归模型中的固定效应(实际反映了简单效应)错误地解读为主效应,而实际的主效应他们并没有计算和报告,最终导致10个模型中的4个关键结果完全错误!
我们已发表一篇评论文章(Commentary),客观指出了他们的统计错误,并希望借此引起更多人的重视。
针对这类问题,一位老师感慨:“一定要让更多人看到,不然成千上万的科研经费相当于白花了,产出一堆废纸……”

3 / 总结

在回归模型考虑交互作用的情况下(比如X和M的交互),「主效应」是指在M不同取值下X的平均效应/总效应(也可以理解为M取平均值时X的效应),「简单效应」是指M取某个特定值时X的效应(也称为简单主效应),「固定效应」(模型直接输出的回归系数)是指M取0时X的效应。

4 / 其他参考资料

Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (3rd ed.). Mahwah, NJ: Lawrence Erlbaum Associates.
Hox, J. J., Moerbeek, M., & van de Schoot, R. (2018). Multilevel analysis: Techniques and applications (3rd ed.). New York, NY: Routledge.
Hamamura, T., Chen, Z., Chan, C. S., Chen, S. X., & Kobayashi, T. (2021). Individualism with Chinese characteristics? Discerning cultural shifts in China using 50 years of printed texts. American Psychologist, 76(6), 888–903. https:///10.1037/amp0000840
Bao, H.-W.-S., Cai, H., & Huang, Z. (2022). Discerning cultural shifts in China? Commentary on Hamamura et al. (2021). American Psychologist, 77(6), 786–788. https:///10.1037/amp0001013
Source: https://zhuanlan.zhihu.com/p/513227882
一些社群学术讨论:1.“显著不显著的后背是什么, 非(半)参估计里解决内生性”,2.“计量社群里关于使用交互项还是中介效应分析开展机制研究的讨论”,3.“为啥面板数据回归中, 即使X对Y的解释程度很大, 但R-square一般都很小?”,4.多期DID中使用双向固定效应可能有问题! 又如何做平行趋势检验? 多期DID方法的最新进展如何?,5.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?6.控制变量就能影响结果显著性, 所以存在很大操作空间, 调参数是常用手段吗?7.回归中常数项显著说明模型中有遗漏变量问题?8.审稿人有义务告诉你回归中可能的遗漏变量么?9.针对很多实证问题的讨论, 随手保存的部分内容以飨学者,10.未引入交互项主效应为正, 引入后变为负, 解释出来的故事特别好, 主效应符号确实增强了故事性,11.双向固定效应多期DID最新进展和代码汇总, 关于控制变量和固定效应选取的讨论,12.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器,13.多期DID前沿方法大讨论, e.g., 进入-退出型DID, 异质性和动态性处理效应DID, 基期选择问题等,14.针对经济学领域中介效应模型问题的回应和理性讨论,15.讨论a(b)对b(a)的新方向论文, 经济学期刊分区问题, 3个机制存在时计量模型设计问题,16.如果解决了内生性, 那么是否意味着证实了变量之间的因果关系呢?17.解释变量提升一个标准差,被解释变量提升几个百分比呢?18.关于DID中对照组与处理组的比例问题?19.双重差分法和事件研究法的区别主要在哪里?20.双重差分法和事件研究法的区别主要在哪里?21.统计上不显著的变量表明该变量对结果变量没有影响吗?22.IV与Y在理论上无直接关系, 但用Y对IV做回归发现IV是显著的, 这是咋回事?23.Heckman模型和工具变量IV之间的差异?24.被质疑: X与Y相关系数与回归系数截然相反, 你咋想的?25.审稿人质问: 通篇都基于OLS估计, 却把它放到稳健性检验或进一步讨论中!26.异质性和机制检验都用交互项做会被审稿人质疑么? 27.所有控制变量都不显著行不行呢?审稿人啥看法,28.审稿人: 实证论文必须先提出假说, 再依次进行实证检验么?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多