【原】前沿: 删失数据分位数工具变量(CQIV)估计, 做删失数据异质性效应分析

计量经济圈 2020-06-24

展开全文

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

正文

关于下方文字内容，作者：杨霓，香港中文大学经济学，通信邮箱：niyang@link.cuhk.edu.hk

摘要

Many applications involve a censored dependent variable, an endogenous independent variable, or both. Chernozhukov, Fernandez-Val, and Kowalski (2015, Journal of Econometrics 186: 201–221) introduced a censored quantile instrumental-variable (CQIV) estimator for use in those applications. The estimator has been applied by Kowalski (2016, Journal of Business & Economic Statistics 34: 107–117), among others. In this article, we introduce a command, cqiv, that simplifies application of the CQIV estimator in Stata. We summarize the CQIV estimator and algorithm, describe the use of cqiv, and provide empirical examples.

许多回归涉及删失的因变量，内生的自变量或者两者都涉及。Chernozhukov（2015）等人（2015）引入了删失的分位数工具变量估计量（后文简称CQIV），该估计量已被Kowalski（2016）应用。在本文中，我们介绍了一个Stata命令——cqiv，该命令简化了CQIV估计量在Stata中的应用。我们总结了CQIV估计量和算法，描述了cqiv命令的用法，并给出了实例。

1 引言

Chernozhukov等人（2015）引入了CQIV的估计量。在本文中，我们介绍一个Stata命令cqiv，它将在Stata中实现cqiv估计。我们的目标是促进cqiv命令的广泛使用。

许多的回归涉及删失和内生性。例如，假设我们对医疗支出的价格弹性感兴趣，如Kowalski（2016）。医疗支出（因变量）从零开始，医疗价格（自变量）通过保险合同与医疗支出水平有内生性。给定一个医疗价格的工具，CQIV估计量促进了对医疗支出的价格弹性的估计，它既考虑了内生性又考虑了删失问题。

CQIV估计量使用了Powell（1986）的删失分位数回归方法（后简称CQR）来处理删失问题，它使用控制函数来处理内生性问题。CQIV估计量采用了Chernozhukov和Hong（2002）的算法进行CQR估计。cqiv命令的另一个重要特性是，它还可以用于不包括删失或内生性的分位数回归。在第2节中，我们总结了继Chernozhukov后的CQIV命令的理论背景。在第3节中，我们将介绍CQIV命令的使用，并且提供了有关恩格尔曲线估计的实例。

3 cqiv命令

3.1语法

cqiv的语法如下：

3.2 描述

cqiv命令用于CQIV估算。它可以在有外生性或内生性的情况下，执行删失和未删失的QIV估计。如果要执行CQIV估计或未删失的QIV估计，则使用由Chernozhukov，FernandezVal和Kowalski(2015)提出的估计量。如果估计CQR没有内生性，则使用Chernozhukov和Hong(2002)提出的估计量。

语法括号里的所有变量都是CQIV和QIV的第一阶段估计中涉及的那些变量。

3.3 命令

模型

quantiles(numlist)：指定估计模型中的分位数，应包含0到100之间的百分比数字。注意这不是分位数回归说明的第一步骤估算的分位数列表。

censorpt(#)：指定因变量的固定删失点。默认值为censorpt(0)。不合适的删失点将在估计中产生错误。

censorvar（varname）指定因变量的删失变量（即随机删失点）

top：设定因变量的右删失；否则，默认设置为左删失。

uncensored：选择未删失的QIV估计。

exogenous：选择没有内生性的CQR，这是由Chernozhukov和Hong(2002)提出的。

firststage(string)：确定第一阶段的估计过程，当进行分位数回归时，string可以指定为quantile（默认），进行分布回归（probit或logit）时，string指定为distribution；进行OLS估计时，stirng指定为ols。注意firststage(distribution)可能需要很长时间才能执行。

firstvar(varlist)：指定第一阶段估计中除工具变量以外的变量列表。默认值为第二阶段估计中的所有变量。

nquant(#)：当估计过程为firststage(quantile)时，nquant(#)决定在第一阶段估计中使用的分位数。默认值为nquant(50)，也就是说，选择了从1/51到50/51之间的50个均匀间隔的分位数。建议选择20到100之间的一个值。

nthresh(#)：当估计过程为firststage(distribution)时，nthresh(#)决定在第一阶段估计中的阈值数。默认值为nthresh(50)，也就是说，选择了50个均匀间隔的阈值（即depvar的样本分位数）。建议选择一个介于20和样本大小之间的值。

ldv1(string)：当估计过程为firststage(distribution)时，ldv1(string)确定在第一阶段估计中的有限因变量模型，当用于概率估计时，string是probit（默认）；当用于分对数估计时，string是logit。

ldv2(string)：确定第二阶段估计的第一步中使用的有限因变量模型，其中string是probit（默认）或logit。

CQIV估算

corner：当删失是由于经济原因时（例如边角解），corner计算删失因变量的（平均）边际分位数效应。在这种命令下，如果基本函数在内生变量中是线性的，则报告的系数为边角解的平均边际效应。也就是

的平均数。如果内生变量中的基础函数是非线性的，则必须直接从系数中计算平均边际效应，而没有corner命令。有关相关概念的详细信息，请参见Chernozhukov，Fernandez-Val和Kowalski(2015)文章的2.1节。相关示例可以在第3.5节中找到。

drop1(#)：以删失高于分位数指数的概率来设定观察值q0的比例，该分位数指数在第二阶段的第一步骤中被丢弃（有关详细信息，请参见上面的要点1）；默认值为drop1(10)

drop2(#)：通过高（低，如果是右截尾）条件分位数的估计来设定观察值q1的比例，该分位数在第二阶段的第二步骤中被丢弃（有关详细信息，请参见上面的要点2）；默认值为drop2(3)

viewlog：显示了中间的估算结果；默认值是无。

推断

confidence(string)：指定置信区间的类型。如果string为no（默认值），则不计算置信区间。如果将string指定为boot或weightboot，则分别计算非参数自助程序或加权自助程序的t百分位对称置信区间。加权自助程序的权重是从标准指数分布中生成的。注意confidence(boot)和confidence(weightboot)可能需要很长时间才能执行。

cluster(string)：当选择了confidence(weightboot)时，cluster(string)对聚类数据执行聚类自助程序，其中string指定用于定义组或聚类的变量。

bootreps(#)：如果选择了confidence(boot)或confidence(weightboot)，bootreps(#)设置自助程序或加权自助程序的重复次数，默认值为bootreps(100)。

setseed(#)：设定重复自助程序或加权自助程序的初始种子号，默认值为setseed(777)。

level(#)：设定置信度，默认值为level(95)。

稳健性检验

norobust：抑制稳健性诊断测试结果，当使用uncensored时，没有诊断测试结果可以抑制。

3.4 储存的结果

在下表中，我们介绍了Chernozhukov，Fernandez-Val和Kowalski(2015) 针对CQIV估计量提出的稳健性诊断测试，其中对控制变量进行了OLS估计。有关的定义，请参见该文章的2.1节。在我们的估计中，我们在第一步中使用了概率模型，并设置q0= 10和q1=3。实际上，我们不一定建议报告表1中诊断信息，但我们建议对其进行检查。

表1.控制变量OLS估计的CQIV稳健性诊断测试结果—同方差设计

表的上部展现了CQIV步骤1之后的诊断，第二部分展现了在CQIV步骤2之后的稳健性测试诊断。最后一部分报告了在CQIV步骤2和步骤3之后获得的鲍威尔目标函数的值。更多的讨论请参见Chernozhukov，Fernandez-Val和Kowalski(2015)的文章。

3.5 范例

我们通过一些示例来说明如何使用cqiv命令。我们使用英国家庭支出调查的酒精消费的家庭支出数据作为我们的数据集，参见Blundell(2007)和Chernozhukov(2015)的文章以获取有关数据的详细说明。我们有兴趣了解酒精（alcohol）支出的份额如何受总支出的（对数）（logexp）影响，并控制孩子的数量（nkids）。对于内生性支出，我们使用可支配收入这个指标，即户主总收入的（对数）（logewage）作为排除工具:

给定此数据集，我们可以得到Chernozhukov，Fernandez-Val和Kowalski(2015)的部分实证结果：

logexp2是总支出（的对数）的平方。使用cqiv命令，可以加入uncensored来进行QIV估计：

以及带有外生选项的CQR估计：

这是具有不同说明和选项的CQIV估算的其他示例，输出结果全部省略。

按照出现的顺序，这些命令在第一阶段首先使用OLS估计，用逻辑分布的回归的估计， nkids是除工具以外的唯一变量的估计，用两种工具的估计，并使用加权自助程序计算置信区间，以及当删失是由于边角解而引起的边际效应的估计。在最后一个示例中，实现分布回归时，logexp2不能包含在第一阶段回归中，因为logexp2是logexp的单调变换。因此，分布估计产生了完美的拟合。

Reference: Chernozhukov, V., Fernández-Val, I., Han, S., & Kowalski, A. (2019). Censored quantile instrumental-variable estimation with Stata. https:///10.1177/1536867X19893615

就内生性问题及其解决方法，咱们为各位学者引荐了很多文章，例如：看完顶级期刊文章后, 整理了内生性处理小册子；1.“内生性” 到底是什么鬼? New Yorker告诉你；2.Heckman两步法的内生性问题(IV-Heckman)；3.IV和GMM相关估计步骤，内生性、异方差性等检验方法；4.最全估计方法，解决遗漏变量偏差，内生性，混淆变量和相关问题；5.毛咕噜论文中一些有趣的工具变量！；6.非线性面板模型中内生性解决方案；7.内生性处理的秘密武器－工具变量估计；8.内生性处理方法与进展；9.内生性问题和倾向得分匹配；10.你的内生性解决方式out, ERM独领风骚；11.工具变量IV必读文章20篇, 因果识别就靠他了；12.面板数据是怎样处理内生性的；13.计量分析中的内生性问题综述；14.工具变量IV与内生性处理的解读；15.一份改变实证研究的内生性处理思维导图；16.Top期刊里不同来源内生性处理方法；17.面板数据中heckman方法和程序(xtheckman)；18.控制函数法CF, 处理内生性的广义方法；19.二值选择模型内生性检验方法；20.2SRI还是2SPS, 内生性问题的二阶段CF法实现；21.内生变量的交互项如何寻工具变量；22.工具变量精辟解释, 保证你一辈子都忘不了。