分享

对1年前错失诺贝尔奖的Rubin教授专访, 因果推断计量少不了他!

 计量经济圈 2022-11-14 发布于浙江

稿件:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

 

计量经济圈公众号搜索功能及操作流程演示

关于因果推断:①哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code!图灵奖得主Pearl的因果推断新科学, Why?计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用,④你应该阅读哪本因果推断书籍: 一份进阶流程图和简短书评列表关于各种因果识别方法的120份经典实证文献汇总因果推断的统计方法总结, 177份文献政策评估的计量方法综述, 包括最新因果推断方法看完顶级期刊文章后, 整理了内生性处理小册子MIT广为流传的政策"处理效应"读本DID的研究动态和政策评估中应用的文献综述最新政策效应评估的四种方法


在因果推断中,中青年学者都非常熟悉Rubin Causal Model,也就是Donald Bruce Rubin等人提出的潜在结果框架potential outcome framework。在2021年,诺贝尔经济学奖也颁发给了三位做因果推断的经济学家,参看:2021年诺贝尔经济学奖: 表彰David Card对劳动经济学和和Angrist和Imbens对因果推断的贡献。不过,在颁奖当年,计量社群里的群友纷纷为Rubin鸣不平,毕竟Rubin的反事实框架已然成为了因果推断的基石。
Donald Bruce Rubin在缺失数据、因果推断、抽样调查、贝叶斯推断等统计学方法上作出了基础性贡献。1984年起在哈佛大学统计系任全职教授(期间曾13年担任哈佛统计系主任),Rubin于2018年从哈佛退休后任职于清华大学。

正文

关于下方文字内容,作者:张梁, 湘潭大学商学院,通信邮箱:1zlxtu971018@163.com

Rubin, Don. "Interview with Don Rubin." Observational Studies, vol. 8 no. 2, 2022, p. 77-94. Project MUSE, doi:10.1353/obs.2022.0009.
对Don Rubin教授的采访
目录
1.因果推断的历史透视
2.导师制
3.发表
4.个人贡献
4.1 Rubin因果模型
4.2倾向得分
5.主分层方法
6.多重插补
7.随机和操纵
8.因果效应
9.图表
10.机器学习
11.未来的工作计划
12.交叉学科文化
Donald B. Rubin的个人主页:https://statistics.fas./people/donald-b-rubin
1.因果推断(Causal Inference)的历史透视
问题:你对因果推断发展历史有什么看法?
Don Rubin:(1)因果推断
①因果推断已有数千年的历史,但正式确立是在20世纪。
②因果推断类似于物理学中的量子力学,尽管知道某些特征是存在的,却无法同时测度。比如,位置和动量是同时存在的,但却无法同时测度。类似地,因果效应(Causal Effect)是两类潜在结果的对比:我们能够单独测量一类结果,但无法同时观测两类结果。另一个例子来自随机试验(Randomized Experiment):我们抛一枚硬币决定正反面,当然我们无法观测到正反面同时出现,但这并不意味着每一种潜在结果(potential outcome)没有被精确定义。
③因果识别需要看到事物的本质。路径、图表以及结构模型并不是重要因素。
(2)随机试验
①随机试验是重要的因果识别工具,Ronald Fisher是这一领域的先驱者(Fisher, 1925)。
PS:原假设(null hypothesis);Fisher test:指随机反证法(stochastic proof by contradiction)。
②Neyman (1923)提出了简单情形下潜在结果的正式表示:在完全随机试验框架下,考察不同施肥量下农作物的潜在产量。
③1925以后,自然实验主要用于“无意识”(unconscious)的对象,比如动植物和物品。19世纪40年代后期,自然实验开始被用于医学实验,以人类为研究对象。在英国,这项应用首先始于使用抗生素治疗链球菌感染的医学试验中,随后在Paul Meiers对美国食品药品监督管理局(FDA)的影响下,随机试验开始被推广到其他医学研究领域。
然而,与应用在无意识的动植物上的实验相比,应用于人类的自然实验有时并不有效。意外的数据丢失、拒绝配合、安慰剂效应(placebo effects)是可能的原因。
安慰剂效应:指病人虽获得无效的治疗,但却“预料”或相信“治疗”有效,而让病患症状得到舒缓的现象。安慰剂效应 - MBA智库百科 (mbalib.com)
(3)总结
Fisherian & Neymanian方法是常用的、贡献很大因果推断思想,贝叶斯模型(Bayesian models)是一个需要重视的新方法。

2.导师制(mentorship)
问题:你认为谁是你最重要的导师,为什么?
Don Rubin:(1)John Wheeler(普林斯顿大学物理系教授)。Don Rubin高中学习物理学,并在1961年参与了Wheeler教授开办的博士班。
(2)此时,越南战争正在打响,Rubin随时可能被召集去服兵役,参与战争。Rubin为了延迟毕业(免服兵役),换成了心理学专业。在心理系,Rubin结识了一位好友Julian Jaynes。(3)Bill Cochran是Rubin在哈佛统计系的博导。Jaynes是一位实干家,不说一句空话。
(4)Arthur Dempster,是Rubin快从哈佛毕业的时候遇到的一位朋友。Dempster的思想很深刻,他是一个多伦多大学数学专业的本科生,即将在普林斯顿攻读John Tukey老师的博士。Tukey教授是一位才华横溢且不寻常的老师,比如,他可以同时在头脑中运算两道数学题。
(5)Jerzy Neyman是Berkeley的一位博导。Rubin与Neyman进行了许多愉快且有益的交流。
(6)George Box是作者在Wisconsin大学的一位导师。
(7)David Cox也是Rubin的好朋友。尚未谋面之前,Cox曾写信给Rubin表示对后者发表在Biometrika的一篇论文感兴趣。

3.发表
问:许多人受到发表困难的困扰,请问您经历过吗?
答:Rubin也经历过。比如,“Rubin Causal Model”是1974年Journal of Educational Psychology上发表,但这篇文章1970年就完成了。该文解释了潜在结果概念及贝叶斯方法。Rubin最初的目标是投稿到统计学类期刊,但是一直被拒。一半的审稿人认为该文没有趣味,另一半则认为该文完全错误。在一位Journal of Educational Psychology期刊编辑的帮助下,Rubin将论文投到了该杂志,最终成功了。
PS:这篇文章全称为:Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies,1974,Journal of Educational Psychology。截至目前,google scholar引用为10237次。
Rubin的另一次经历是“Inference and Missing Data”,最终发表在Biometrika。Rubin的这篇论文在投稿过程中,一直被其他统计学杂志拒稿(如JASA)。有趣的是,作者曾写信联系过Annals of Statistics的编辑Ingram Olkin寻求建议,但是Ingram并没有提供有用的意见,反而半开玩笑地羞辱了Rubin。随后,作者将这篇论文投稿到Biometrika。该刊编辑David Cox提出了两点录用条件:一是删除那些测量理论、参数空间(parameter space)、似然函数(frequentist approach)方面的废话(stuff=clutter)。二是听听Cox学生的建议。这位学生名叫Rod Little,后来和Rubin成了一辈子的朋友。
PS:全文是Inference and Missing Data,1976,Biometrika。截至目前,google scholar引用为12180次。
尽管论文经常被拒稿,但审稿人的意见极大地提升了文章质量!

4.个人贡献
4.1对鲁宾因果模型的贡献(Personal Contributions on Rubin Causal Model)
问:您是如何发展鲁宾因果模型的(Rubin Causal Model,RCM)?
答:(1)正如开头所言,RCM阐释了一种因果效应——比较两类潜在结果(只有一种结果可被观测)。Fisher提出了零假设(sharp null hypothesis),Neyman扩展了这一假设,称为SUTVA(关于零假设,参见浅谈假设检验 - 知乎 (zhihu.com))。Rubin(1974)给出了非正式的解释。Fisher & Neyman的方法仅被用于自然实验。Rubin(1974)给出了非正式的解读。
(2)对Rubin而言,和同行交流想法的最大阻碍是社科文献的混乱。比如,Don Campbell是西北大学一位著名的教育心理学家,在遇到测量误差(measurement error)时会过度关注匹配(matching),因为他认为因果推断必须处理“真实分数”。考虑这样一个例子,根据不靠谱的测算分数来指派对象,划分为处理组和控制组。一些批评者可能会说,我们要屏蔽测试的真实分数,因为屏蔽易出错的测试分数意味着你对心理测量学一无所知。Rubin认为这是错误的观点。如果在屏蔽噪声之后随机化,那么你要屏蔽的是噪声信号,而非理论上正确的东西,这些东西就隐藏在你所屏蔽的易出错的事物之下。
4.2 倾向得分(Propensity Scores)
问:你可以解释一下倾向得分的起源吗?
答:(1)倾向得分的创造者是Paul Rosenbaum。在以前,我曾和Rosenbaum合作使用Reinisch数据库(data set)做匹配(matching)。Reinisch数据库有一万个样本,其中有2000人曾在子宫(utero)内受到巴比妥酸盐(barbiturates)的危害。我们想要估计暴露在巴比妥酸盐下对青少年群体的影响。最初的数据库只有他们的出生记录数据,因此很难对年龄和糖尿病等稀有事件(rare evnets)进行匹配。如果利用协变量的边界进行匹配,又会过于粗糙。模糊精确匹配(coarsened exact matching),以前也叫hotdeck matching,曾被归因于数据缺失,都是不恰到的方法。
(2)我们都了解抽样调查过程中的随机化和Horvitz – Thompson估计,也就是使用基于参与或不参与的概率的权重。在双处理研究中对应的受处理对象就是倾向得分,即被处理或不被处理的概率。我做的就是判别匹配(discriminant matching),一种降维方式,也是倾向得分匹配(Propensity Scores Matching,PSM)的一种特殊形式。
(3)倾向得分方法近年来备受欢迎。Rosenbaum and Rubin(1983)是最早引入该方法的文献。
PS:The central role of the propensity score in observational studies for causal effects,1983,Biometrika。截至目前,google scholar引用量为33529。
问:在您的1983年那篇文章中,曾使用五分位方法划分子集,请问这种方法与Fisher的p值有相似之处吗?
答:既有相似又有不同。
(1)相似之处在于,五子集法逐渐变得不再恰当,类似于p<0.05。这是错误的说法。任何控制预处理协变量差异的要点是,处理组和控制组的偏差要足够小,以至于这些偏差被隐藏在估计的标准误中,从而因果推断才能近似正确。五子集法来自于Cochran(1968),是指合理利用五分类法调整连续的基线协变量能够消除90%的初始误差。对于因果推断而言,更重要的是将偏差隐藏于标准误之下(It is more important to have the bias buried in the standard error)。随着样本容量扩张,置信区间会被压缩:如果仍有误差,意味着置信区间被压缩到错误的点估计附近。建议是随着样本增大,使用更多的子集。

5.主分层(principal stratification),
参考资料(Donald Rubin的因果推断学术贡献:超出统计学范畴的划时代影响 )。
概念:按照某种处理后的潜在结果对总体进行分层,而真正关心的因果作用被局限在某一个主层内。
问:主分层的动机是什么?
答:(1)主分层方法是我最近和Constantine Frangakis合作的一项工作(Frangakis and Rubin, 2002)。这一想法起源于工具变量法(IV)。IV有许多基于线性回归的不透明假设(opaque assumptions),目前学界主要基于OLS进行实证分析。这一想法还来自于经济学和生物统计(biostatistics)知识,如Marvin Zelen Zelen (1979)。最后,这一想法来自于教育评估领域,如Bloom’s估计量(Bloom, 1984),也是一种简单的IV估计量。
PS:Frangakis, C. E., & Rubin, D. B. (2002). Principal stratification in causal inference. Biometrics, 58(1), 21-29.截至目前,google scholar引用次数为1661次。
(2)我们的中心思想来自于IV分析(Angrist et al., 1996),即总样本可被分为四个潜在分层。第一类人被称为依从者(compliers),这类人被动接受所受到的处理。第二类人被称为挑战者(defiers),这类人从不接受被安排的指派。第三类人被称为“总是接受者”(never t-akers),这类人无论是否受到指派,都乐于接受处理。第四类人被称为“从不接受者”(never takers),不论如何,这类人都不会接受处理。通常来说,我们会对一个变量分层(或分类),直到研究结束,才能部分观测到。
(2)主分层法是指广义的IV,它可被用于IV会出错的情形,比如因死亡而被审查(censo-ring due to death)(Zhang and Rubin, 2010; Rubin, 2011; Mealli and Rubin, 2012)。
(3)Fabrizia Mealli及她的学生、Rubin的学生一直在持续探索这个领域。其中一个例子就是上文提到的死亡审查(censoring due to death)。假设你设计了一个随机试验,你想要观测的结果是五年无癌生存期。如果有一个人在一年后死于心脏病,你该怎么处理?主分层法起作用的原因是,我们是在总体样本的一个分层内,去比较随机分配到处理组和随机分配到控制组之间的差异(we compare outcomes between those randomly assigned the treatm-ent and those randomly assigned the control within a stratum of people)。

6.多重插补(Multiple imputation)
问:多重插补为何如此重要?
答:(1)多重插补来自我与Fritz Scheuren(曾任ASA主席)合作的一个项目。刚开始工作时,Fritz是在美国社保局(Social Security Administration, SSA)准备一个新的调查,但有很多关于工资或投资收入、资本利得方面的问题。SSA知道会得到未回应的缺失数据,但Fritz想要得到正确的回答,于是他邀请我参与了该项目。
(2)在Scheuren框架下,由于不同变量缺失值的原因并不一样,因此加权不是有效的做法。此时,最简单的办法是做单一插补(single imputation)。这样做的问题是,简单插补法得出的插补值不是真实值。
(3)Rubin关于多重插补的想法来自于Arthur Dempster。Dempster说,如果你在统计方面遇到难以解决的问题,不妨尝试一下贝叶斯方法(Bayesian way)。所以事物皆为随机变量:假定模型设定是正确的,观察你会得到什么样的答案。
(4)数据缺失是一个严重的问题。所有多重插补方法都是通过对缺失值的后验预测分布进行抽样实现的。一个例子是,预测明天的天气,可能是晴天,也可能是雨天,不论晴天还是雨天的概率都是通过估计过去的数据得到的。你可以通过多点预测使你的回答具有不确定性,比如,3/5预测下雨而2/5预测晴天。Rubin(1978)对这一方法进行了系统的总结。
PS:走进贝叶斯统计(三)—— 后验预测分布 - 知乎 (zhihu.com)
Rubin, D. B. (1978, January). Multiple imputations in sample surveys-a phenomenological Bayesian approach to nonresponse. In Proceedings of the survey research methods section of the American Statistical Association (Vol. 1, pp. 20-34). Alexandria, VA, USA: American Statistical Association.截至目前,Google Scholar引用次数为1131.
问:统计学家一般都比较喜欢多重插补法。请问您知道有哪些人通过理解多重插补法将相关性思维转变为因果性思维吗?
答:我已经通过多重插补理解因果推断数十年了,我也知道有一些年轻人通过对潜在结果缺失值的多重插补进行因果推断。现代的统计学课程中,老师一般教育学生要通过SAS和R软件多跑回归,但却没有人解释这其中的缘由。
Bind and Rubin(2019)曾讨论过一个相对古老的话题:只有当你将观察性研究嵌入到假设性随机实验中,来自观察性研究(observational study)中的频率主义因果推断(frequentist causal inferences)才可被接受。
PS:观察性研究:第21页 观察性研究(observational studies) (douban.com)
问:因果推断的贝叶斯方法就是指多重插补吗?
(1)是的,请参考Rubin(1978)。这篇文章发展了我与Dennis Lindley教授(一位著名的英国贝叶斯统计学家)的一项讨论。Lindley曾认为,随机化在贝叶斯分析中起不到正式作用。我不赞同,所以写下了这篇文章。随机化不仅仅是对处理组单位的简单随机指派。为了在贝叶斯分析中得到完整的正式模型,你必须设置潜在结果,因为潜在结果的观测值定义了结果的数据。你还需要一个指标来说明单位得到了哪些处理以及为什么。随机试验仅仅是为了选择处理单位的一类机制。
(2)在今天,我们主要使用贝叶斯方法中的模拟(simulation)。如果你做了模拟分析,那么你只是对潜在结果进行了多重插补。

7.随机与操纵(Manipulation)
问:之前您曾说我们要在随机试验中嵌套一项观察性研究。您也曾说过随机化只是指派处理选择的一种方式。你能详细说明一下吗?
答:(1)Rubin(1976)曾提到,随机化只是一种创造因果效应研究中观测的和缺失的潜在结果的特殊方式。另一种方式是,在某一个时点之后,处理所有单位,在该时点以前,对所有单位都不做处理。这种方法叫做回归断点设计(regression discontinuity design,RDD)(Thistlethwaite and Campbell, 1960)。RDD主要适用于分配机制是已知的情形。当p值和置信区间是基于随机化理论时,你不能使用它们。得到略微真实的p值和置信区间的方法是,在一些随机化假设的研究中,嵌套RDD。
(2)另一个例子来自Bind and Rubin(2019)。我们关注的是空气污染如何影响表观遗传学与健康(health epigenetics),然而她也关注温度的影响。相对于温度,将空气污染研究嵌入到随机试验中更加容易。极端天气和空气污染会导致更高的死亡率。上帝=自然是如何改变温度的并不受控制,尽管我们对空气污染施加了一些控制。举一个例子,我在北京的时候,每个月都会有一两天坏天气。中国政府决定将大多数工业迁往边远地区,并限制汽车在市内的使用。你可以以不同的方式来限制工厂和汽车,由此你可以建立起一项随机试验。但你控制不了气温。
(3)模型来自哪里?George Box:所有模型都是错误的,但有一些模型是有用的(Box,1979)。John von Neumann:真相太复杂,除非看近似,其余皆不许。
(4)讲好故事,是最重要的观点(For any analysis, you are telling a story)。如果你想从一项观察性研究(个人认为,就是非自然实验研究,我们是数据的接受者而非创造者;DGP)中获取p值和置信区间,你就必须讲好准自然实验(hypothetical randomized experiment)的故事。
问:即将开展一场关于无操纵的因果关系的辩论。气温和环境污染都是原因,但只有环境污染可以被合理地操纵和研究,那如果你对气温感兴趣的话,你要怎么做?
答:(1)如果你问的是如何估计出置信区间,那么你要把问题嵌套在一项准自然实验中,这项实验是为了调查你将要研究的干预方式。这意味假设性操纵是必要的。如果你的问题是“如果我通过某种方法改变了气温,这会产生什么影响?”,那么不要求严格的操纵。

8.因果效应(causal effect)
问:你曾经说过你研究的是因果效应(effect of causes)而不是影响的原因(causes of effects),为什么?
答:我反对“the causes of effects”是因为一般没有人回答这类问题。举个例子,假如某人死于肺癌是“因为”他一天抽五包烟。其他人就会断言,这个人真正死因是在他的家庭环境中,他的父母也是烟民,从而导致他也抽烟。其他人就会强调说他的父母是和他的东欧祖父母一起长大的,而祖父母也是烟民。因此,癌症是由他的祖父母所居住的地区导致的—其他事实都是不可避免的结果。另一些人又会说,真正的原因是Sir Walter Raleigh从北美带回了烟草!那么,什么是真正的“原因”?如果你排除了这些原因,“effect”(效应)是否会消失?因此,决定“原因”是一个无法回答的问题,一般只配在鸡尾酒会上聊。

9.图形(Graphs)
问:你可否解释一下你对于图形的关注情况,你的观点曾有过哪些变化?
答:(1)在某些情况下,我喜欢用视觉显示(visual displays)增强对问题的一般性理解,但在因果推断中使用是不必要的,且起不到任何帮助。恰如达芬奇所言,简单即复杂(simplicity is sophistication)。比如,思考勾股定理的两种相关表述,两种表述都是糟糕的数学表达,但并没有错。第一,你有一个等腰直角三角形,短边相等,a=b,还有一个长边c,那么我们有a2 + b2 = c2。第二,a2 + b2 = c2适用于任何三角形,有两个短边a和b,和一个长边c。第二种说法遗漏了一个必要条件,那就是这个三角形必须为直角三角形,因此这种说法在数学上是错误的。尽管第一种说法是正确的——但包括了不必要的断言,即两条短边是相等的。我受过的训练表明,第一种说法虽然是正确的,但在数学表达上是糟糕的,因为包括了不必要的条件,我更喜欢简洁的数学表达。
(2)在我看来,图形通常具有欺骗性,因为它们通常不能直接解决并发症。举个例子,此处有三个变量,健康、血压及胆固醇水平。如果你是健康的,血压和胆固醇是独立的,而如果你生病了,他们就是相关的。对我来说,用三个以上的节点将他们在一幅图形中展示出来并没有意义,因为额外的节点并没有传递出任何实质性信息。描述协变量和潜在结果的关系是有用的。

10.机器学习
问:你认为机器学习会对因果推断产生哪些当前和潜在的影响?
答:(1)对机器学习领域而言,优先发展算法(algorithms)是重要的。在表观遗传学(epigenetics)中,你可能会遇到有五十万个协变量以及他们的交互项的情形,你想在一次处理-控制实验中得到这些协变量的多元平衡(multivariate balance)。假如你做了这样一个随机试验,在实验中,结果便利是与表观遗传学相关的特征,受比较的处理则是呼吸新鲜空气与受污染空气的对比。结果变量可以从参与者呼吸道刮取的上皮细胞中提取。我曾参与过这次试验,你有50-100位参与者,来自细胞预处理样本的背景遗传信息。我该怎样对处理组和控制组的20万个协变量创建平衡?
(2)机器学习在平衡和选择大量变量过程中具有极大优势。我与我的博士生Kari Lock Morgan写了大量再随机主题的论文。机器学习的过程是,先设定一个可接受平衡的集合,然后从这个集合中随机抽样。这类分析符合Fisherian的设定。Neymanian的渐进分布不再是简单的高斯分布,若想得到分布形式,你要做更多的工作。
问:只要他们是预处理变量,这种方法就奏效?
答:对的。
(1)我的观点是,如果研究者想得到p值或置信区间,那么他有权尝试创建一个准自然实验,但必须讨论为什么这些数据是这样产生的。
(2)自然随机试验很好的一个例子是经济学例子,鱼的价格是鱼的市场供给的函数(Angrist et al., 2000)。作者用了伦敦鱼市的数据库,在鱼市中价格随供给波动。作者想把观察性实验嵌入到一个自然随机天气的实验中。当天气差的时候,渔夫打渔减少且市场鱼类供给下降。在这次随机试验中,神(自然)使天气随机化,这导致了鱼的供给出现波动。这个故事令我信服。
11.未来工作
问:你目前在做什么工作?
答:我正在思考安慰剂效应对实验结论的影响。例如,在吸毒的双盲随机实验中,我们估计了新药相对于安慰剂的效应。但当新药即将临床使用的时候,病人既会得到新药相对于安慰剂的效应也会得到安慰剂效应,因为病人知道药效提高了。
12.交叉学科的文化
问:对你曾克服的挑战,有什么建议吗?
答:我所有的合作都源于个人关系。在心理学领域,Julian Jaynes at Princeton和Bob Rosenthal at Harvard是我的合作伙伴。Bob对设计人类福祉类的实验很有心得。Rod Little也是一位很好的合作者,因为他很聪明且善于写作。在经济学领域,Guido Imbens是我的好朋友。
我认为两个朋友之间不需要所有事都达成一致意见。但我们需要尊重每一位合作者的长处和弱势。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多