今天,“计量经济圈”社群@可爱多群友给圈友分享一些关于“回归系数的符号与预期相反”的可能导致因素和解决的途径。很多时候,根据理论或者常识进行思维推演判断自变量会正向地影响因变量,但数据竟然得出了与此相反的结论——x对y的影响是负向的。此时,我们感觉到很苦恼从而头脑发痒,顿时感觉呼吸不畅几近晕过去,这“太难了,实在太难了”。下面就通过多个维度讲解一下,在遇到回归系数的符号与预期相反时,我们需要考虑到可能的出现原因和解决方法。如果有需要,可以到社群与@可爱多交流探讨相关问题,唯有交流才能够彼此成长。 一、错误的经济理论逻辑 例1. 不恰当的替代品。比如有研究发现,在控制了巴西咖啡的价格后,斯里兰卡茶叶的价格竟然正面导致了对其的需求,这可是与咱们的预期是相反的。原来,这里的替代品不应该是巴西咖啡,而应该是印度茶叶,所以我们应该控制的是印度茶叶的价格。 例2. 真实的与名义的傻傻分不清楚。比如有研究发现,在消费方程的估计中发现利率的符号是正的,即,利率越高人们的消费得反而越多,这可是与咱们的预期是相反的。原来这些研究中压根不区分名义利率与实际利率,所以真实与名义变量的转换需要时刻牢记在心。 例3. 定义学习。 在经济教育的早期研究中,研究人员通过用测试前的分数对“学习”进行了回归,其中,学习是通过测试后和预测前的分数之间的差异衡量的,得到的测试前的分数(作为学生能力的衡量标准)的系数竟然是负的。面对这种与咱们预期相反的结果,Becker和Salemi(1977)对此错误符号进行了解释。 还有很多其他类似的因为错误的经济理论逻辑而造成回归系数的符号与预期相反的情形。 二、数据问题
出现错误符号可能也与各种数据问题有关。 比如,不好的数据,不适当的数据定义,测量误差,影响点、异常点、杠杆点,不好的工具变量和变量的测量弄反了(本来应该是1-5,但是把5测量成了1,而把1测量成了5)。
例1. 不好的数据。选取的数据最好具有代表性、权威性,因此在实证研究中能够把你数据的优势细致地刻画出来是多么的重要。 例2.1. 不适当的数据定义。使用的面板或时间序列数据最好具有连贯性,不能隔几天就把数据或变量的定义改变了,那会让研究的口径缺乏一致性从而导致错误的结论。 例2.2. 不适当的数据定义。这个就是需要具体看每个变量的定义,比如,在不同的统计机构对'中等收入国家'有不同的定义。因此,在做实证研究的过程中,变量描述显得是多么的重要。 例3. 测量误差。这个比较常见,解决方法是,可以用各种类似的变量多做几个回归,然后看其稳健性如何。测量误差消除, 直接和间接效应计算, 多数据和指标使用的方法 例4. 影响点。有些个体在你的样本中属于那种异常值、杠杆点,他们会导致你得到一个与你预期相反的的结果。因此,通过描述统计看看你的样本特点,并且用winsorize或trim或drop把这些异常值处理掉是很必要的。 例5. 不恰当的工具变量。比如,一个研究用美国居民对“与枪相关的杂志”的订阅量作为“该地居民拥有枪支的比例”的工具变量,来研究其对暴力犯罪事件的影响。在批评者看来,这就不是一个很好的工具变量,因为这实际上是个“弱工具变量”(具体,可以看相关文献)。 例6. 弱工具变量。弱工具变量的影响值得关注,具体可以看看 Zivot, Startz, and Nelson(1998)。 例7. 变量的测量弄反了(本来应该是1-5,但是把5测量成了1,而把1测量成了5)。既然是个相反刻度的变量,那回归出来的结果自然与原来变量的结果是刚好相反的。 三、经典的计量问题
此类别包括计量经济学教科书中所说的几种计量经济现象,这些现象可能会产生错误的符号:遗漏解释变量,非平稳性问题,回归系数的方差偏大,选择性偏差和不可识别性。
例1.1. 遗漏解释变量。比如,Barro (1991) 用人均GDP的增长率对一个国家最起初的人均GDP做回归,得到了一个符号为正的系数,意味着咱们传统的“增长收敛”假说是正确的。可,当增加了一些相关解释变量后,起初的人均GDP的符号变成负号了,这意味着上面的结论是不成立的。可以看出遗漏解释变量可能导致解释变量出现相反的符号。
例1.2. 遗漏解释变量。关于女性吸烟是否会增加(降低)她20年后仍然活着的概率。 例2. 遗漏时间趋势。这个在时间序列数据中尤其常见,因此,最好加上year这些时间趋势变量。 例3. 自变量和因变量两者的协整阶数不一致,尤其是当自变量是时间趋势平稳变量(time trend stationary),此时,咱们最好在方程右边加上时间趋势项。 例4. 忽视非平稳性。例2和例3都可以当作是添加时间趋势项来让数据达到平稳性的情形,除此之外,课本上还说可以使用“一阶差分”来让有单位根的数据达到平稳性。 例5.1. 估计系数的方差偏大。当解释变量中的两个变量高度自相关,这会导致估计的系数出现偏大的方差,也会导致出现相反的回归系数符号。此时,我们建议使用的方法是用两者的比例作为解释变量。 例5.2. 估计系数的方差偏大。除了变量的自相关外,样本过少和自变量数据列中的差异过小也会导致所估计的系数的符号相反。 例6. 样本选择偏差。这个很明显,就是咱们所得到的样本不满足“非随机性”,有人为的因素在左右我们的样本结果。主要是通过Heckman两步法修正,或者在面板数据中使用固定效应或者“一阶差分”来控制不可观测因素。 例7.不可识别。傻傻不知道simultaneous equation所需要的rank条件,比如估计产品的需求和供给曲线的时候,我们就需要保证有一个外力因素影响供给(需求),这样就可以识别出需求和供给曲线了。 例8. 联立性偏误。对于上面那种联立性偏误,我们建议使用2sls进行解决,即找到一个工具变量来解决双向因果的问题。 四、错误解释
我们还需要看看符号不是错误解释实证结果所导致的。这种错误可能源于混淆其他条件保持不变的情况下对回归结果的解释,解释参数化时的一些代数误差,忽略相互作用项,使用非线性近似替代或不能把动态性分离出来。
例1. 其他条件保持不便的情况下的混淆。比如,用房子的价值对房子面积、浴室数量、卧室数量和有没有客厅做回归,但发现了有没有客厅前的系数是负的。这意味着,有客厅反而降低了房子的价值,这与咱们的常识相当矛盾的。原来,在我们回归的时候,当解释有没有客厅的系数时,实际上是以房子的面积保持不变为前提的,但若有客厅此时浴室和卧室所能够使用的面积就必须要降低,那很可能会导致房子的价值下降的。 例2. 解释参数化时的一些代数错误。比如, 咱们实际上想用到的解释变量是男性的教育和男性与女性教育差异,那如果在实际回归中使用的是女性的教育和女性与男性教育的差异,那我们所得到的结果会怎么样? 例3. 忽视交互项。相当于做一个异质性分析,此时如果忽略交互项,那回归系数实际上就不能完整反映解释变量的影响。 例4. 方程形式的非线性近似表达。比如,房子的价格是房间数量、房间数量的平方的函数,得到的结果是房间数量的系数为负,但房间数量的平方的系数为正。这表明,在少于这个最优房间数量之前(即,在这个数量会让房价达到最高),房间数量增加会让房价下降。这种有点违犯常识的结果,在于数据里那种小居室的房子观测值比较少,从而房间数量的二次项在数据中就发挥着比一次项更重要的作用。 例5.1. 动态性疑惑。傻傻分不清楚到底是短期还是长期影响。如果在面板数据中,我们使用固定效应模型,那么就可能把那些长期因素剔除掉,从而只剩下一些短期因素。这时候,如果使用混合ols, between估计,随机效应估计,那就可以保留这些长期因素,从而让回归系数的符号与预期相符和。不过,在那种时间期数比较多的面板中,最好还是加入一些“滞后变量”,来更好地观测变量的动态变化。 例5.2. 动态性疑惑。如果用y对x和x的滞后项做回归,得到的x的滞后项的系数是负号,那实质上表明,x的长期影响要比它的短期影响要小(x的长期影响为x与x的滞后的和,而x的短期影响即为x)。 |
|