我们对过去发生的事情或当前经验之外正在发生的事情知之甚少。不确定性被称为“有意识地意识到无知” 1 — 无论是明天的天气、下一届英超联赛冠军、2100 年的气候还是我们古代祖先的身份。 在日常生活中,我们通常用言语表达不确定性,说某个事件“可能”、“或许”或“很可能会”发生(或已经发生)。但不确定的词语可能会造成危险。1961 年,新当选的美国总统约翰·F·肯尼迪获悉美国中央情报局资助入侵共产主义古巴的计划,他委托军队高层进行评估。他们得出结论,该任务成功的几率为 30%,也就是说失败的几率为 70%。在送到总统手中的报告中,这被解释为“有相当大的机会”。猪湾入侵事件仍继续进行,结果惨败。现在已有将不确定性词语转换成粗略数字的既定标准。例如,英国情报界使用“可能”一词的人应该表示几率在 55% 到 75% 之间(参见go.nature.com/3vhu5zc)。 尝试将机会和不确定性用数字表示,将我们带入概率的数学领域,如今概率已在很多领域得到广泛应用。例如,打开任何科学期刊,你都会发现论文中充斥着P值、置信区间,甚至可能是贝叶斯后验分布,所有这些都依赖于概率。 然而,我认为,任何数值概率——无论是在科学论文中,还是作为天气预报的一部分,预测体育比赛的结果或量化健康风险——都不是世界的客观属性,而是基于个人或集体判断和(通常值得怀疑的)假设的构造。此外,在大多数情况下,它甚至不是对某些潜在“真实”数量的估计。事实上,概率很少能被说成是“存在”的。 偶然闯入者 概率在数学中出现得比较晚。尽管几千年来人们一直在用距骨和骰子赌博,但直到 17 世纪 50 年代法国数学家布莱斯·帕斯卡和皮埃尔·德·费马开始通信时,才对“偶然”事件进行了严格的分析。就像泄洪坝的泄洪一样,概率自此淹没了金融、天文学和法律等各个领域——更不用说赌博了。 量子理论是否意味着整个宇宙都是预先确定的? 要了解概率的不确定性,请考虑一下该概念在现代天气预报中的应用。气象学家会预测气温、风速和降雨量,通常还会预测降雨概率——比如说,在给定的时间和地点,降雨概率为 70%。前三个值可以与它们的“真实”值进行比较;你可以出去测量它们。但没有“真实”概率可以将最后一个值与预报员的评估进行比较。没有“概率计”。要么下雨,要么不下雨。 此外,正如哲学家伊恩·哈金2所强调的那样,概率是“双面的”:它既处理机会,又处理无知。想象一下,我抛一枚硬币,问你硬币正面朝上的概率。你高兴地说“50-50”,或“一半”,或其他一些变体。然后我抛硬币,快速瞥了一眼,但把它盖住,然后问:你现在认为硬币正面朝上的概率是多少? 请注意,我说的是“你的”概率,而不是“那个”概率。现在大多数人都犹豫不决,不愿给出答案,只能勉强重复“50-50”。但事情已经发生了,没有任何随机性可言——只有你的无知。情况已经从“偶然”不确定性(关于我们无法知道的未来)转变为“认知”不确定性(关于我们目前不知道的事情)。这两种情况都使用数值概率。 这里还有另一个教训。即使有一个统计模型来预测应该发生什么,这也始终是基于主观假设的——以抛硬币为例,假设有两个同样可能的结果。为了向观众展示这一点,我有时会使用一枚正面朝上的硬币,表明即使他们最初认为“50-50”也是基于对我的信任。这可能有些草率。 主观性与科学 我的观点是,任何实际的概率应用都涉及主观判断。这并不意味着我可以将任何旧数字放在我的想法上——例如,如果我有 99.9% 的把握声称我能从屋顶上飞下来,那么我就被证明是一个糟糕的概率评估者。当概率及其基本假设与现实进行检验时,客观世界就会发挥作用(参见“我有多无知?”);但这并不意味着概率本身是客观的。 人们用来评估概率的某些假设会比其他假设有更充分的理由。如果我在抛硬币前仔细检查过一枚硬币,而它落在坚硬的表面上并乱七八糟地弹跳,我会觉得我的 50-50 判断比某个可疑人物拿出一枚硬币并随意翻转几下更有道理。但这些同样的限制适用于使用概率的任何地方——包括在科学背景下,在科学背景下,我们可能更自然地相信它们所谓的客观性。 这是一个真正具有科学和公共重要性的例子。在 COVID-19 大流行开始后不久,RECOVERY 试验就开始在英国因该疾病住院的患者中测试治疗方法。在一项实验中,6,000 多人被随机分配接受他们所在医院的标准治疗,或接受该治疗加上一剂地塞米松(一种廉价的类固醇3)。在使用机械通气的患者中,与仅接受标准治疗的组相比,分配地塞米松的组的年龄调整后每日死亡风险低 29%(95% 置信区间为 19-49%)。P值(假设没有潜在风险差异的零假设,计算出的观察到这种极端相对风险的概率)可以计算为 0.0001 或 0.01%。 为什么要预测一场难分胜负的选举结果呢? 这些都是标准分析。但精确的置信水平和P值不仅仅依赖于假设零假设。它还取决于统计模型中的所有假设,例如观察结果独立:没有任何因素会导致在空间和时间上接受更密切治疗的人获得更相似的结果。但有很多这样的因素,无论是人们接受治疗的医院还是改变护理方案。精确值还依赖于每组所有参与者都具有相同的 28 天存活率。这会因各种原因而有所不同。 这些错误假设并不一定意味着分析存在缺陷。在这种情况下,信号非常强烈,以至于允许潜在风险在参与者之间发生变化的模型对总体结论的影响很小。然而,如果结果更微不足道,那么对模型对替代假设的敏感性进行广泛的分析将是适当的。 正如那句广为人知的格言所说,“所有模型都是错误的,但有些模型是有用的” 。4地塞米松分析尤其有用,因为其坚定的结论改变了临床实践,挽救了数十万人的生命。但该结论所依据的概率并不“真实”——它们是主观的(尽管合理)假设和判断的产物。 掉进兔子洞 但是,这些数字是否是我们对某些潜在的“真实”概率(世界的客观特征)的主观的、可能有缺陷的估计呢? 我在这里要补充一点,我并不是在谈论量子世界。在亚原子层面,数学表明无因事件可以以固定的概率发生(尽管至少有一种解释认为,即使是这些概率也表达了与其他物体或观察者的关系,而不是量子物体的内在属性)5。但同样,这似乎对宏观世界中每天可观察到的事件的影响微乎其微。 我还可以避免几个世纪以来的争论,即非量子层面的世界是否本质上是确定性的,以及我们是否有自由意志来影响事件的进程。无论答案是什么,我们仍然需要定义客观概率到底是什么。 约翰·肯尼迪在不精确的可能性基础上批准美国入侵古巴。图片来源:Michael Ochs Archives/Getty 多年来,人们曾多次尝试,但这些尝试似乎都有缺陷或有局限性。其中包括频率概率论,这种方法定义了在本质上相同的情况下无限多次重复出现的事件的理论比例——例如,像《土拨鼠日》一样,在同一人群中以相同的条件一遍又一遍地重复相同的临床试验。这似乎不太现实。英国统计学家罗纳德·费舍尔建议将一个独特的数据集视为来自假设的无限总体的样本,但这似乎更像是一个思想实验,而不是客观现实。或者有一种半神秘的倾向性观念,即特定事件在特定情况下发生存在某种真正的潜在趋势,比如我在未来十年内心脏病发作。这似乎几乎无法证实。 “闭嘴,计算一下”:爱因斯坦为何在解释量子现实方面失败 有有限范围的、可控制的、极其复杂的可重复情况,即使它们本质上是确定性的,也符合频率论范式,因为它们具有长期可预测的概率分布。这些包括标准的随机化设备,如轮盘赌、洗牌、旋转硬币、掷骰子和彩票球,以及伪随机数生成器,它们依靠非线性、混沌算法来产生通过随机性测试的数字。 在自然界中,我们可以引入大量气体分子的运作方式,即使遵循牛顿物理学,它们也遵循统计力学定律;在遗传学中,染色体选择和重组的复杂性导致遗传率稳定。在这些有限的情况下,假设一个伪客观概率——“该”概率,而不是“一个”(主观)概率,可能是合理的。 然而,在其他所有使用概率的场合——从广泛的科学领域到体育、经济、天气、气候、风险分析、灾难模型等等——将我们的判断视为“真实”概率的估计是没有意义的。在这些场合,我们可以根据我们的知识和判断,尝试用概率来表达我们个人或集体的不确定性。 判断事项 这一切只会引发更多问题。我们如何定义主观概率?如果概率定律是基于我们本质上编造的东西,那么它为什么是合理的?学术文献中已经讨论了近一个世纪,但同样没有达成普遍共识。 1926 年,英国剑桥大学的数学家弗兰克·拉姆齐 (Frank Ramsey) 进行了首次尝试。他是历史上我最想见到的人。他是一位天才,其在概率、数学和经济学方面的工作至今仍被认为是基础。他只在早上工作,下班后则与妻子和情人在一起,打网球、喝酒、参加热闹的派对,同时“像河马一样”大笑(他是个大块头,体重 108 公斤)。1930 年,他去世,年仅 26 岁,根据他的传记作者谢丽尔·米萨克 (Cheryl Misak) 的说法,他可能是在剑河游泳后感染钩端螺旋体病而去世的。6 驯服随机性的数学家获得阿贝尔奖 拉姆齐 (Ramsey) 证明7所有概率定律都可以从对特定赌博的表达偏好中推导出来。结果具有指定的效用,对某事赌博的价值由其预期效用总结,而预期效用本身则受表达部分信念的主观数字(即我们的个人概率)支配。然而,这种解释需要对这些效用值进行额外的指定。最近,有人证明8概率定律可以通过以下方式推导出来:在使用适当的计分规则(例如测验“我有多无知?”中显示的规则)时,采取某种方式来最大化您的预期表现。 定义概率的尝试通常相当模糊。例如,艾伦·图灵在 1941-2 年的论文《概率在密码学中的应用》中使用了这样的工作定义:“基于某些证据的事件的概率是该事件在给定该证据的情况下可能发生的情况的比例” 9。这承认实际概率将基于预期——人类的判断。但图灵所说的“情况”是指相同观察的实例,还是相同判断的实例? 后者与频率派的客观概率定义有共同之处,只是用重复的类似主观判断类取代了重复的类似观察类。根据这种观点,如果判断降雨概率为 70%,则将其置于预报员指定 70% 概率的场合集合中。预计事件本身会在 70% 的此类场合中发生。这可能是我最喜欢的定义。但概率的模糊性在以下事实中得到了鲜明体现:近四个世纪以来,许多人不会同意我的观点。 务实的做法 20 世纪 70 年代,当我还是一名学生时,我的导师、统计学家阿德里安·史密斯 (Adrian Smith) 正在翻译意大利精算师布鲁诺·德·菲内蒂 (Bruno de Finetti) 的《概率论》10。德·菲内蒂与拉姆齐大约在同一时间提出了主观概率的思想,但完全是独立提出的。(他们的性格截然不同:与拉姆齐坚定的社会主义相反,德·菲内蒂年轻时是意大利独裁者贝尼托·墨索里尼法西斯主义的狂热支持者,尽管他后来改变了主意。)那本书以一个具有挑衅性的陈述开头:“概率并不存在”,这个想法对我过去 50 年的思想产生了深远的影响。 然而,在实践中,我们也许不必决定客观的“机会”是否真的存在于日常的非量子世界中。我们可以采取务实的方法。颇具讽刺意味的是,德菲内蒂本人在 1931 年关于“可交换性”的著作中为这种方法提供了最有说服力的论据,该著作产生了以他的名字命名的著名定理11。如果我们对每个序列的主观概率不受观察顺序的影响,则判断一系列事件是可交换的。德菲内蒂出色地证明了这一假设在数学上等同于假设事件是独立的,每个事件都有一些发生的真实潜在“机会”,并且我们对未知机会的不确定性由主观的、认知的概率分布表示。这是了不起的:它表明,从特定但纯粹主观的信念表达出发,我们应该假设事件是由客观机会驱动的。 如此重要的研究成果,是所有统计科学和许多其他科学和经济活动的基础,竟然源自如此难以捉摸的想法,真是令人难以置信。因此,我将用自己的格言作为结束语。在我们的日常生活中,概率可能并不存在——但假装它存在往往很有用。 自然 636 , 560-563 (2024) 机构编号:
|
|