【原】Nature最新: 概率不存在, P值不存在, 统计学也不存在！

计量经济圈 2024-12-23 发布于浙江

展开全文

接着“1.23章1600页的金融学手册内容无敌, 公司金融和金融市场及资产定价等全囊括,2.14年后, 2024年842页最新劳动经济学手册出炉! 博士和劳动经济学者必备工具, 发展太快了.”

今天看看，Nature最近刊发了一篇文章，题为《Why probability probably doesn’t exist (but it is useful to act like it does》，说的是概率这个概念虽然有用，但实际上更像是我们为了应对不确定性而构建的一个工具，并非现实世界中真实存在的事物。因此，一旦将此延展开来的话，如果概率本身并不存在，那么基于概率建立的统计学也就失去了其存在的根基，这意味着统计学也不是真实存在的。

首先，我们简要总结一下下面各部分的内容，感觉还是看下面全文内容更有趣：

然概率论在统计学、科学研究和经济活动中扮演着重要角色，但我们其实并不确定概率这个概念在现实世界中是否真的存在。

不确定性的日常：我们生活中有很多不确定的事，比如天气、比赛结果等，我们用“可能”、“大概”这样的词来表达这种不确定性，但这些词其实很模糊。

概率的起源：概率论虽然被广泛使用，但它的历史并不长，而且它的基础是我们对“偶然”事件的主观判断和假设。

天气预报的例子：就像天气预报说有70%的降雨概率，这个数字其实没有“真实”的标准可以对照，因为世界上没有“降雨概率测量仪”。

概率的双面性：概率既可以描述我们对未来的无知（比如明天会不会下雨），也可以描述我们对已经发生但不知道结果的事情的无知（比如硬币已经抛了，但盖住了，你不知道是正面还是反面）。

概率与主观判断：我们用概率来表达我们的判断和信念，比如认为某事有50%的概率发生，但这其实是基于我们自己的主观看法。

概率在科学中的应用：即使在科学领域，概率的应用也充满了主观性。比如新冠疫情期间的RECOVERY试验，虽然得出了明确的结论，改变了治疗方式，但这些结论背后的概率并不是“真实”的，而是基于合理的假设。

概率的定义问题：尽管有很多尝试去定义概率，但这些定义要么有缺陷，要么有局限性，而且大家对此并没有达成共识。

务实的态度：虽然我们不确定概率是否真的存在，但在实际生活中，我们还是像它真的存在那样去使用它，因为这样做通常很有用。

所以，概率这个概念虽然有用，但它更像是我们为了处理不确定性而创造的一个工具，而不是现实世界中真实存在的东西。

文章全文内容介绍，非常有趣，层层论证：

为什么概率可能并不存在（但假装它存在很有用）

统计学和许多科学领域都离不开概率论的支持，这本身就是一项令人惊叹的成就（尽管我们对概率的本质仍然缺乏确切的理解）。

生活充满了不确定性。我们无法确切知道未来会发生什么，对过去的事件以及当前视野之外的事物也知之甚少。不确定性常被形容为“对无知的自觉认识”：无论是对明天天气的预测、下一届英超冠军的归属、2100年的气候变化，还是我们远古祖先的身份，亦是如此。

在日常生活中，我们常用语言来表达不确定性，例如说某件事“可能”、“也许”或“很有可能”会发生（或已经发生）。然而，这些模糊的表达可能带来风险。1961年，USA新当选总统肯尼迪接到一项由中情局策划的进攻共产古巴的计划，并委托军方高层进行评估。军方得出的结论是，这次行动成功的概率为30%，也就是说失败的概率为70%。然而，在呈交给总统的报告中，这一结论被表述为“有一定机会”。最终，猪湾入侵付诸（The Bay of Pigs invasion）实施，却以惨败告终，😄。

如今，人们已经建立了一些标准，将不确定性的措辞转换为大致的数值。例如，在英国情报界，使用“可能”（likely）一词时，通常指的是55%到75%的概率。

将不确定性和机会量化为数字，引领我们进入概率的数学世界，这一领域如今已广泛应用于各个学科。随便翻开一本科学期刊，你会发现论文中频繁出现P值、置信区间以及贝叶斯后验分布等概念，而这些概念都是建立在概率基础之上的。

然而，我想强调的是，无论是在科学论文、天气预报、体育比赛结果预测，还是健康风险的量化评估中，任何数值化的概率都并非世界的客观属性，而是基于个人或集体的判断以及（通常值得怀疑的）假设所构建的。在大多数情况下，这些概率并不旨在估计某种潜在的“真实”数量。实际上，只有在极少数情况下，概率才能被视为“真实存在”的。

偶然的闯入者

概率学是数学中的“迟到者”。尽管人们已经用骰子和骨骰进行赌博数千年，但直到17世纪50年代，法国数学家Blaise Pascal和Pierre de Fermat开始通信，才对“偶然”事件进行了严谨的分析。从那时起，概率学如同洪水般迅速渗透到金融、天文学、法律等多个领域，更不用说赌博了。

为了把握概率的微妙之处，我们可以观察现代天气预报是如何应用这一概念的。气象学家预测气温、风速和降雨量，并常常给出特定时间和地点的降雨概率，比如70%。前三个参数可以与它们的“真实”值相对比，并通过观测来测量。然而，降雨概率却没有一个“真实”值可以与预报员的评估相对照，毕竟，世界上并没有所谓的“概率测量仪”。雨要么下，要么不下，没有中间状态。

更重要的是，正如哲学家Ian Hacking所强调的，概率具有“双面特征”：它既涉及偶然性，也涉及无知。想象一下，我掷了一枚硬币，问你这枚硬币正面朝上的概率是多少。你可能会愉快地回答“50%”或“二分之一”。然后，我掷了硬币，偷偷看了一眼结果，再将硬币盖住，问你：现在这枚硬币正面朝上的概率是多少？

请注意，我问的是“你的”概率，而不是“这个”概率。大多数人此时会犹豫，然后勉强回答“50-50”。但实际上，这个事件已经发生，不再存在随机性，剩下的只是你的无知。这种情境从“偶然性”（aleatory）的不确定性——关于我们无法预测的未来，转变为“知识性”（epistemic）的不确定性——关于我们当前不知道的事实。在这两种情况下，数值概率都被用来进行描述。

这里还有一个教训。即使存在关于结果的统计模型，它们也总是基于主观假设。例如，在掷硬币的情况下，我们会假设两种结果的概率相等。为了向听众演示这一点，我有时会使用一枚双面都是正面的硬币，向他们展示，即使他们最初认为“50-50”的判断，也是基于对我的信任，而这种信任可能并不明智。

主观性与科学

我认为，概率的实际应用总是涉及主观判断。这并不意味着我可以随意为自己的想法赋予一个数字。例如，如果我声称自己以99.9%的确定性可以从屋顶飞翔，那么很快就会被证明是一个糟糕的概率评估者。虽然客观世界在概率及其背后假设接受现实检验时会发挥作用，但这并不意味着概率本身是客观的。

一些人用来评估概率的假设可能比其他假设更为可靠。如果我在掷硬币前仔细检查过硬币，并且硬币落在坚硬的表面上并以混乱的方式弹跳，那么我对“50-50”概率的判断，会比某个可疑人物随手掏出硬币并随意掷几下时更有信心。然而，无论在何种情境中使用概率（包括科学领域），这些限制条件也同样适用，而科学领域的概率更容易让人相信其所谓的客观性。

以下是一个具有重要科学和公共意义的例子。在新冠疫情初期，英国启动了RECOVERY试验，以测试对住院患者的治疗方案。在这项实验中，超过6000名患者被随机分为两组：一组接受医院的标准治疗，另一组在此基础上加服一剂廉价的dexamethasone。在使用机械通气的患者中，与仅接受标准治疗的组相比，服用地塞米松（dexamethasone）的组经年龄调整后每日死亡风险降低了29%（95%置信区间为19%到49%）。P值（即在假设无差异的零假设前提下，观察到如此极端相对风险的概率）被计算出来为0.0001，即0.01%。

这是一种标准的分析方法。然而，精确的置信水平和P值不仅取决于零假设的前提，还依赖于统计模型中的所有假设，例如观测值之间相互独立，即没有因素会导致时间和空间上更接近的患者有更相似的治疗结果。然而，实际上存在许多此类因素，例如患者所在的医院或不断变化的护理方案。此外，这一精确值还假设每组所有参与者在28天内存活的基础概率相同，但实际上这种概率可能因各种原因而有所不同。

即便这些假设不完全准确，也不一定意味着分析有缺陷。在这个案例中，信号非常强烈，即使模型中允许基础风险因参与者不同而有所变化，这种调整也不会对总体结论产生太大的影响。然而，如果结果较为边际化，那么对模型在不同假设下的敏感性进行广泛的分析就显得尤为重要。

正如那句广为流传的格言所说，“所有模型都是错的，但有些是有用的”。地塞米松的分析尤其重要，因为它的明确结论改变了临床实践，挽救了数十万人的生命。然而，这些结论所依据的概率并非“真实”的，它们是主观假设和判断的产物（尽管这些假设是合理的）。

掉入兔子洞

那么，这些数字是否是我们对某种潜在“真实”概率的主观（可能存在缺陷的）估计？这种“真实”概率是否是世界的客观属性？

需要澄清的是，我并不是在讨论量子世界。在亚原子层面，数学表明无因事件可能以固定概率发生，尽管至少有一种解释认为，这些概率仅反映量子对象与其他物体或观察者之间的关系，而非量子对象的固有属性。然而，这似乎对宏观世界中日常可观察到的事件几乎没有影响。

我同样可以避开关于非量子层面的世界是否本质上是决定性的，以及我们是否拥有自由意志去影响事件发展的问题（这些争论已经持续了数个世纪）。无论答案如何，我们依然面临着一个挑战，那就是需要明确定义所谓的客观概率究竟指的是什么。

多年来，众多学者试图界定客观概率的内涵，然而所有的尝试似乎都存在缺陷或明显的局限性。例如，频率派frequentist probabilityt将概率定义为在无限多次相同条件下重复某一事件的理论比例，就好比在同一个人群中，以相同的条件反复进行相同的临床试验。显然，这是不切实际的。英国统计学家费雪（Ronald Fisher）提出，可以将一个具体的数据集视作一个假想的无限总体的样本，但这种想法更像是一个思维实验，而非客观存在。再比如，有一种被称为倾向理论（propensity）的观点，它认为在特定情境下，某个事件发生的潜在倾向是真实存在的，比如预测我在未来十年内心脏病发作的概率。然而，这种理论在实际操作中几乎无法得到验证。

在一些极其复杂且严格控制的可重复情境中，即便这些情境本质上可能是确定性的，它们依然遵循频率派的概率模型，因为它们具有长期内可预测的概率分布特征。这些场景包括各种标准的随机工具，如轮盘、洗牌后的扑克牌、旋转的硬币、投掷的骰子、抽取的彩票球，以及那些基于非线性混沌算法生成的、能够通过随机性测试的伪随机数生成器。

在自然界中，还可以考虑大规模气体分子的运动，即便它们遵循牛顿物理学，但依然符合统计力学的规律；或者在遗传学中，染色体的选择与重组所带来的巨大复杂性导致了遗传率的稳定性。在这些有限的情境下，假设一种伪客观概率（“那个”概率，而非“某种”主观概率）可能是合理的。

然而，在概率被使用的其他所有情境中，从科学的广泛领域到体育、经济、天气、气候、风险分析和灾难模型等，将我们的判断视为“真实”概率的估计是没有意义的。在这些情境中，我们只能尝试基于已有的知识和判断，用概率来表达我们个人或集体的不确定性。

判断之事

这一切无疑会引发更多的疑问：我们该如何界定主观概率？如果概率法则是基于我们本质上“凭空想象”的内容，那么这些法则又为何显得合理？这些问题在学术界已经讨论了近一个世纪，但至今尚未形成普遍共识。

1926年，英国剑桥大学的数学家拉姆齐（Frank Ramsey，经济学人无人不知，无人不晓）首次尝试解答这一问题。他是历史上我最希望能见到的人物之一。他是一位天才，其在概率论、数学和经济学领域的工作至今仍被视为基础性的贡献。据说，他只在上午工作，而下午则用来陪伴妻子和情人、打网球、畅饮、参加热闹的派对，并且“像河马一样”开怀大笑。1930年，他年仅26岁便英年早逝。根据他的传记作者Cheryl Misak的说法，他可能是在剑河游泳时感染了钩端螺旋体病。

拉姆齐证明了，所有概率法则都可以从对特定赌博的偏好中推导出来。在这个框架中，结果被赋予了效用值，而赌博的价值则通过其期望效用来总结，期望效用则由表达我们部分信念的主观数值，也就是我们个人的概率所决定。然而，这种解释需要额外设定这些效用值。更近期的研究表明，通过采用合适的评分规则，以最大化期望表现的方式行动，同样可以简洁地推导出概率法则。

定义概率的尝试通常相当模糊。例如，阿兰·图灵（Alan Turing）在1941-1942年撰写的关于《概率在密码学中的应用》的论文中提出，他的工作定义为“基于某些证据的事件概率是，在这些证据下，预计该事件发生的情况比例”。这一观点承认，实际概率将基于预期，即人类的判断。然而，“情况”的定义是什么呢？图灵是指相同观察的实例，还是指相同判断的实例？

后一种解释与频率派的客观概率定义有些相似，只是将重复的相似观察类别替换为重复的相似主观判断类别。从这一角度来看，如果判断下雨的概率为70%，这意味着将其归入一个类别，在这个类别中，预报员认为事件在70%的情况下会发生。这可能是我最喜欢的定义。然而，概率的模糊性在于，经过近四个世纪，仍然有许多人对此持不同意见，这一点得到了明显的体现。

务实的方法

在我作为学生的1970年代，我的导师、统计学家Adrian Smith正在翻译意大利精算师Bruno de Finetti的著作《概率论》（Theory of Probability）。de Finetti几乎与拉姆齐同时提出了主观概率的概念，但完全是独立完成的。（他们的性格大相径庭：与拉姆齐坚定的社会主义立场不同，de Finetti年轻时曾是意大利独裁者墨索里尼式法西斯主义的热情支持者，尽管他后来改变了立场。）这本书以一句挑衅性的声明开篇：“概率不存在。”这句话在过去的50年里深刻地影响了我的思维。

然而，在实践中，我们或许并不需要确定客观“机会”是否确实存在于日常的非量子世界中。相反，我们可以采取一种务实的方法。讽刺的是，de Finetti本人在1931年的“可交换性（ex-changeability）”研究中为这种方法提供了最有说服力的论据，他在这项研究中提出了一个以他名字命名的著名定理。如果一系列事件的主观概率不因观察顺序而改变，那么这些事件就被认为是可交换的。de Finetti巧妙地证明，这一假设在数学上等同于假设事件是独立的，每个事件都有某种真实但未知的“发生机会”，而我们对这种未知机会的不确定性可以用主观的、知识性的概率分布来表达。这一发现令人惊叹：它表明，从一个特定但完全主观的信念出发，我们应当像事件是由客观机会驱动的一样行事。

令人难以置信的是，这样一个支撑着整个统计科学以及许多其他科学和经济活动的庞大理论体系，竟然建立在一个如此难以捉摸的概念之上。因此，我想以自己的箴言作为总结：在我们的日常世界中，概率可能并不真正存在，但装作它存在通常是有益的。

关于因果推断书籍，参看：1.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法，2.社会经济政策的评估计量经济学, 提供书籍和数据和程序文件，3.诺奖得主Angrist的因果推断课程文献读物单子再次更新了, 还提供了其他三门课程，4.全面且前沿的因果推断课程, 提供视频, 课件, 书籍和经典文献，5.从网页上直接复制代码的因果推断书籍出现了, 学会主流方法成效极快，6.推荐书籍"用R软件做应用因果分析", 有需要的学者可以自行下载！7.哪本因果推断书籍最好？我们给你整理好了这个书单！8.“不一样”的因果推断书籍, 很多观点让我们能恍然大悟, 涵盖了不少其他书里没有的因果推断方法！9.搞懂因果推断中内生性问题解决方法必读的书籍和文献已搜集好！10.一位“诗人”教授写了本因果推断书籍, 现在可以直接下载PDF参看！11.使用R软件学习计量经济学方法三本书籍推荐，12.机器学习与Econometrics的书籍推荐, 值得拥有的经典，13.史上最全的因果识别经典前沿书籍, 仅此一份，14.用R语言做Econometrics的书籍推荐, 值得拥有的经典，15.Stata学习的书籍和材料大放送, 以火力全开的势头，16.USA经管商博士最狂热崇拜的计量书籍震撼出炉，17.推荐使用Python语言做因果推断前沿方法的书籍,18.哈佛教授因果推断经典之作推荐！通过数据,代码和示例手把手教你！19.世界银行刚出版了“政策评估”经典书籍, 包括当前主流政策评估计量方法，20.欧盟EU出版了“数据驱动的政策评估”经典书籍, 关键还免费！