分享

前沿: 删失数据分位数工具变量(CQIV)估计, 做删失数据异质性效应分析

 计量经济圈 2020-06-24
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

与本文相关资料:1.截断和删失数据带来的问题,在经济实证研究中面对的问题2.Tobit, Truncreg, Heckman, Probit及其边际效应实现程序及解读3.双重聚类cluster咋做? 线性, logit, tobit可以双聚类吗? 4.Clad还是Tobit, 归并最小绝对偏差, 做Tobit做不好的5.双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁6.无条件分位数回归: 文献综述与应用实例7.动态面板分位数估计怎么做?8.非线性DID, 双重变换模型CIC, 分位数DID9.分位数处理效应模型, 异质性分析的基础10.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例11.分位数回归, Oaxaca分解, Quaids模型, 非参数估计程序12.Generalized分位数回归, 新的前沿因果推断方法13.不需要找工具变量, 新方式构建工具变量, 导师再也不用担心内生性问题了!14.如何通过因果图选择合适的工具变量?一份关于IV的简短百科全书

正文

关于下方文字内容,作者杨霓,香港中文大学经济学通信邮箱niyang@link.cuhk.edu.hk

摘要

Many applications involve a censored dependent variable, an endogenous independent variable, or both. Chernozhukov, Fernandez-Val, and Kowalski (2015, Journal of Econometrics 186: 201–221) introduced a censored quantile instrumental-variable (CQIV) estimator for use in those applications. The estimator has been applied by Kowalski (2016, Journal of Business & Economic Statistics 34: 107–117), among others. In this article, we introduce a command, cqiv, that simplifies application of the CQIV estimator in Stata. We summarize the CQIV estimator and algorithm, describe the use of cqiv, and provide empirical examples.
许多回归涉及删失的因变量,内生的自变量或者两者都涉及。Chernozhukov(2015)等人(2015)引入了删失的分位数工具变量估计量(后文简称CQIV),该估计量已被Kowalski(2016)应用。在本文中,我们介绍了一个Stata命令——cqiv,该命令简化了CQIV估计量在Stata中的应用。我们总结了CQIV估计量和算法,描述了cqiv命令的用法,并给出了实例。

1 引言

Chernozhukov等人(2015)引入了CQIV的估计量。在本文中,我们介绍一个Stata命令cqiv,它将在Stata中实现cqiv估计。我们的目标是促进cqiv命令的广泛使用。
许多的回归涉及删失和内生性。例如,假设我们对医疗支出的价格弹性感兴趣,如Kowalski(2016)。医疗支出(因变量)从零开始,医疗价格(自变量)通过保险合同与医疗支出水平有内生性。给定一个医疗价格的工具,CQIV估计量促进了对医疗支出的价格弹性的估计,它既考虑了内生性又考虑了删失问题。
CQIV估计量使用了Powell(1986)的删失分位数回归方法(后简称CQR)来处理删失问题,它使用控制函数来处理内生性问题。CQIV估计量采用了Chernozhukov和Hong(2002)的算法进行CQR估计。cqiv命令的另一个重要特性是,它还可以用于不包括删失或内生性的分位数回归。在第2节中,我们总结了继Chernozhukov后的CQIV命令的理论背景。在第3节中,我们将介绍CQIV命令的使用,并且提供了有关恩格尔曲线估计的实例。

3 cqiv命令

3.1语法
cqiv的语法如下:

3.2 描述
cqiv命令用于CQIV估算。它可以在有外生性或内生性的情况下,执行删失和未删失的QIV估计。如果要执行CQIV估计或未删失的QIV估计,则使用由Chernozhukov,FernandezVal和Kowalski(2015)提出的估计量。如果估计CQR没有内生性,则使用Chernozhukov和Hong(2002)提出的估计量。
语法括号里的所有变量都是CQIV和QIV的第一阶段估计中涉及的那些变量。
3.3 命令
模型
quantiles(numlist):指定估计模型中的分位数,应包含0到100之间的百分比数字。注意这不是分位数回归说明的第一步骤估算的分位数列表。
censorpt(#):指定因变量的固定删失点。默认值为censorpt(0)。不合适的删失点将在估计中产生错误。
censorvar(varname)指定因变量的删失变量(即随机删失点)
top:设定因变量的右删失;否则,默认设置为左删失。
uncensored:选择未删失的QIV估计。
exogenous:选择没有内生性的CQR,这是由Chernozhukov和Hong(2002)提出的。
firststage(string):确定第一阶段的估计过程,当进行分位数回归时,string可以指定为quantile(默认),进行分布回归(probit或logit)时,string指定为distribution;进行OLS估计时,stirng指定为ols。注意firststage(distribution)可能需要很长时间才能执行。
firstvar(varlist):指定第一阶段估计中除工具变量以外的变量列表。默认值为第二阶段估计中的所有变量。
nquant(#):当估计过程为firststage(quantile)时,nquant(#)决定在第一阶段估计中使用的分位数。默认值为nquant(50),也就是说,选择了从1/51到50/51之间的50个均匀间隔的分位数。建议选择20到100之间的一个值。
nthresh(#):当估计过程为firststage(distribution)时,nthresh(#)决定在第一阶段估计中的阈值数。默认值为nthresh(50),也就是说,选择了50个均匀间隔的阈值(即depvar的样本分位数)。建议选择一个介于20和样本大小之间的值。
ldv1(string):当估计过程为firststage(distribution)时,ldv1(string)确定在第一阶段估计中的有限因变量模型,当用于概率估计时,string是probit(默认);当用于分对数估计时,string是logit。
ldv2(string):确定第二阶段估计的第一步中使用的有限因变量模型,其中string是probit(默认)或logit。
CQIV估算
corner:当删失是由于经济原因时(例如边角解),corner计算删失因变量的(平均)边际分位数效应。在这种命令下,如果基本函数在内生变量中是线性的,则报告的系数为边角解的平均边际效应。也就是

的平均数。如果内生变量中的基础函数是非线性的,则必须直接从系数中计算平均边际效应,而没有corner命令。有关相关概念的详细信息,请参见Chernozhukov,Fernandez-Val和Kowalski(2015)文章的2.1节。相关示例可以在第3.5节中找到。
drop1(#):以删失高于分位数指数的概率来设定观察值q0的比例,该分位数指数在第二阶段的第一步骤中被丢弃(有关详细信息,请参见上面的要点1);默认值为drop1(10)
drop2(#):通过高(低,如果是右截尾)条件分位数的估计来设定观察值q1的比例,该分位数在第二阶段的第二步骤中被丢弃(有关详细信息,请参见上面的要点2);默认值为drop2(3)
viewlog:显示了中间的估算结果;默认值是无。
推断
confidence(string):指定置信区间的类型。如果string为no(默认值),则不计算置信区间。如果将string指定为boot或weightboot,则分别计算非参数自助程序或加权自助程序的t百分位对称置信区间。加权自助程序的权重是从标准指数分布中生成的。注意confidence(boot)和confidence(weightboot)可能需要很长时间才能执行。
cluster(string):当选择了confidence(weightboot)时,cluster(string)对聚类数据执行聚类自助程序,其中string指定用于定义组或聚类的变量。
bootreps(#):如果选择了confidence(boot)或confidence(weightboot),bootreps(#)设置自助程序或加权自助程序的重复次数,默认值为bootreps(100)。
setseed(#):设定重复自助程序或加权自助程序的初始种子号,默认值为setseed(777)。
level(#):设定置信度,默认值为level(95)。
稳健性检验
norobust:抑制稳健性诊断测试结果,当使用uncensored时,没有诊断测试结果可以抑制。
3.4 储存的结果

在下表中,我们介绍了Chernozhukov,Fernandez-Val和Kowalski(2015) 针对CQIV估计量提出的稳健性诊断测试,其中对控制变量进行了OLS估计。有关的定义,请参见该文章的2.1节。在我们的估计中,我们在第一步中使用了概率模型,并设置q0= 10和q1=3。实际上,我们不一定建议报告表1中诊断信息,但我们建议对其进行检查。
表1.控制变量OLS估计的CQIV稳健性诊断测试结果—同方差设计

表的上部展现了CQIV步骤1之后的诊断,第二部分展现了在CQIV步骤2之后的稳健性测试诊断。最后一部分报告了在CQIV步骤2和步骤3之后获得的鲍威尔目标函数的值。更多的讨论请参见Chernozhukov,Fernandez-Val和Kowalski(2015)的文章。
3.5 范例
我们通过一些示例来说明如何使用cqiv命令。我们使用英国家庭支出调查的酒精消费的家庭支出数据作为我们的数据集,参见Blundell(2007)和Chernozhukov(2015)的文章以获取有关数据的详细说明。我们有兴趣了解酒精(alcohol)支出的份额如何受总支出的(对数)(logexp)影响,并控制孩子的数量(nkids)。对于内生性支出,我们使用可支配收入这个指标,即户主总收入的(对数)(logewage)作为排除工具:

给定此数据集,我们可以得到Chernozhukov,Fernandez-Val和Kowalski(2015)的部分实证结果:

logexp2是总支出(的对数)的平方。使用cqiv命令,可以加入uncensored来进行QIV估计:

以及带有外生选项的CQR估计:

这是具有不同说明和选项的CQIV估算的其他示例,输出结果全部省略。

按照出现的顺序,这些命令在第一阶段首先使用OLS估计,用逻辑分布的回归的估计, nkids是除工具以外的唯一变量的估计,用两种工具的估计,并使用加权自助程序计算置信区间,以及当删失是由于边角解而引起的边际效应的估计。在最后一个示例中,实现分布回归时,logexp2不能包含在第一阶段回归中,因为logexp2是logexp的单调变换。因此,分布估计产生了完美的拟合。

Reference: Chernozhukov, V., Fernández-Val, I., Han, S., & Kowalski, A. (2019). Censored quantile instrumental-variable estimation with Stata. https:///10.1177/1536867X19893615

就内生性问题及其解决方法,咱们为各位学者引荐了很多文章,例如:看完顶级期刊文章后, 整理了内生性处理小册子1.“内生性” 到底是什么鬼? New Yorker告诉你2.Heckman两步法的内生性问题(IV-Heckman)3.IV和GMM相关估计步骤,内生性、异方差性等检验方法4.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题5.毛咕噜论文中一些有趣的工具变量!6.非线性面板模型中内生性解决方案7.内生性处理的秘密武器-工具变量估计8.内生性处理方法与进展9.内生性问题和倾向得分匹配10.你的内生性解决方式out, ERM独领风骚11.工具变量IV必读文章20篇, 因果识别就靠他了12.面板数据是怎样处理内生性的13.计量分析中的内生性问题综述14.工具变量IV与内生性处理的解读15.一份改变实证研究的内生性处理思维导图;16.Top期刊里不同来源内生性处理方法17.面板数据中heckman方法和程序(xtheckman)18.控制函数法CF, 处理内生性的广义方法19.二值选择模型内生性检验方法20.2SRI还是2SPS, 内生性问题的二阶段CF法实现21.内生变量的交互项如何寻工具变量22.工具变量精辟解释, 保证你一辈子都忘不了

关于工具变量,可以参看如下文章:1.内生性问题操作指南, 广为流传的22篇文章2.看完顶级期刊文章后, 整理了内生性处理小册子3.如何寻找工具变量?得工具者得实证计量4.内生性处理的秘密武器-工具变量估5.工具变量在社会科学因果推断中的应用6.为你的"工具变量"合理性进行辩护, 此文献可以作为范例7.没有工具变量、断点和随机冲击,也可以推断归因8.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析9.工具变量IV与内生性处理的精细解读10.我的"工具变量"走丢了,寻找工具变量思路手册11.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性12.豪斯曼, 拉姆齐检验,过度拟合,弱工具和过度识别,模型选择和重抽样问题13.工具变量先锋 Sargan,供参考14.AEA期刊的IV靠不靠谱?15.计量大焖锅: iv, clorenz, rank, scalar, bys, xtile, newey, nlcom,16.GMM是IV、2SLS、GLS、ML的统领,待我慢慢道来17.IV和GMM相关估计步骤,内生性、异方差性等检验方法18.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?19.内生变量的交互项如何寻工具变量, 交互项共线咋办20.面板数据、工具变量选择和HAUSMAN检验的若干问题21.IV和Matching老矣, “弹性联合似然法”成新趋势22.IV回归系数比OLS大很多咋回事, 怎么办呢? 23.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献24.找不到IV, RD和DID该怎么办? 这有一种备选方法25.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS26.内生性, 工具变量与 GMM估计, 程序code附27.GMM和工具变量在面板数据中的运用28.关于工具变量的材料包, 标题,模型,内生变量,工具变量29.必须使用所有外生变量作为工具变量吗?30.工具变量精辟解释, 保证你一辈子都忘不了31.毛咕噜论文中一些有趣的工具变量!32.为你的"工具变量"合理性进行辩护, 此文献可以作为范例33.内生变量的交互项如何寻工具变量, 交互项共线咋办等等。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。



数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多