作者: [加拿大] 基思·斯坦诺维奇 出版社: 人民邮电出版社 副标题: 看穿伪科学的批判性思维 原作名: How to Think Straight about Psychology, 11th edition 译者: 窦东徽 / 刘肖岑 在浩如烟海、良莠不齐的心理学信息面前,如何拨除迷雾,去伪存真,成为一个明智的心理学信息的消费者?《这才是心理学》教给你科学实用的批判性思维技能,将真正的心理学研究从伪心理学中区分出来,告诉你什么才是真正的心理学。 为了理解什么是心理学,我们必须理解什么是科学。或许我们可以从“什么不是科学”入手。首先,科学并不是由研究的主题来定义的。对宇宙万物任何方面的研究都可以发展成一门科学。科学也不能按照是否使用仪器和实验设备来定义。确切地说,科学是一种思考和观察宇宙万物以便深入理解其运行机制的方法。定义科学的三个重要且相互关联的特征:系统实证主义的运用;公共知识的产生;对可解决问题的细查。“实证主义”(empiricism)一词的意思是“依靠观察的做法”。科学家通过检验来认识世界。然而,纯粹、单一的实证主义还不够。科学观察之所以被称为“系统的”,是因为它的结构化使得观察的结果能够揭示自然世界一些潜在的本质。科学观察通常是理论驱动的;它们检验对世界本质的不同解释。它们是结构化的,因此,根据观察的结果,一些理论得到支持,而另一些则被拒绝。一项发现如果想在科学领域引起关注,就必须以这样一种方式提交给科学共同体,即能够让其他科学家尝试相同实验并获得相同结果。在科学中,没有一个研究者是一座孤岛。每个研究者都与科学共同体及其知识库相联系。正是这种相互联系使科学得以发展和累积。研究者不断在原有知识的基础上进行新的探索,力求超越已知。这一过程的前提便是,先前知识的陈述方式使任何研究者都能以之为基础来进行探索。可公开验证的知识,是指那些以一种可被科学共同体中的任何人重复、批评或扩展的方式提交的研究结果。面对合法性不确定的科学论断时,公众可使用的一个行之有效的铁的标准就是问这样一个问题:这些发现是否在使用某种同行评审程序的公认科学期刊上发表过?同行评审(peer review, 也译作“同行评议”)是指每一篇投到学术期刊的文章都要经过数位科学家的评审,评审者将批评意见提交给编辑。并非所有同行评审的科学期刊上的信息都一定是正确的,但至少它已达到了同行批评和审查的标准。同行评审只是一个最低标准,而不是严格的标准。科学处理的是可解决的、可具体指明的问题。这意味着,就其类型来说,科学家们所研究的问题,有可能通过现有的实证方法得到解答。如果用当前所掌握的实证方法,某个问题无法解决或某个理论不可检验,那么科学家们就不会对它展开研究。
“人性本善还是本恶?”“生命的意义是什么?”都不是一个实证问题,因此不属于科学领域。科学的进步是这样一个过程:提出理论去解释世界中的特定现象,根据这些理论做出预测,实证地检验这些预测,基于检验的结果对理论进行修正。这个顺序通常可以描述为:理论→预测→检验→理论修正。因此, 科学家所说的“可解决的问题”通常指的是“可检验的理论”。什么样的理论才算是“可检验的”呢?这一理论必须与自然界中可观察的事件有一定的关联。可检验性标准通常被称为可证伪性标准,
只有以下两点能证明心理学是一门独立的学科。其一,心理学研究采用科学方法来探究人类及动物的所有行为;其二,从这些知识中发展而来的实际应用是以科学为基础的。心理学涉及人类行为和意识的不同形式,可以用来解释、预测和控制人类的行为。现代心理学有一个统一的特征:用科学的方法寻求对行为的理解。一个理论要被认为是科学的,其理论和行为数据之间的联系必须满足一些最低限度的要求。弗洛伊德的理论不符合这些标准。简而言之,弗洛伊德根据他得到的数据(个案研究和内省)建立了一套精细的理论,但这些数据并不足以支撑此理论。他专注于构建复杂的理论构架,但并没有像许多现代心理学家那样,保证这些理论建立在可靠的、可重复的行为关系数据的基础之上。我们每个人都有一套解释行为的内隐模型,这些模型影响我们的人际交往以及我们如何看待自己和他人。当我们觉得需要对行为作出解释时,往往搬出一些关于人类行为的普遍原理、说教和老话。这些常识和世俗智慧存在一个问题,即它们之中有不少是自相矛盾的,因此也是不可证伪的。心理学研究表明,许多常见的关于行为的文化信念在接受实证检验后,都被证明是错误的。许多人相信“我们每个人都有只属于自己的聪明才智”,而这一信念并没有得到关于智力本质的实际研究的支持。还有人认为快速阅读是可行的(即阅读速度是正常速度的数倍,且理解几乎没有损失)。但事实并非如此。1. 科学方法并不是指一套严格的规则,它是由一些非常普遍的原则所界定的。最重要的三条是:(1)科学采用系统的实证主义方法; (2)它以获取可公开验证的知识为目标;(3)它寻求的是可实证解决的问题并进而发展出可检验的理论科学只研究可解决的问题。科学家们所说的“可解决的问题”通常是指“可检验的理论”。科学家要确认某个理论是可检验的,采取的方法就是确保该理论是可证伪的,也就是说,理论对自然界中的真实事件有意义。科学理论的表述必须总是遵循这样的原则:从中得出的预测有可能被证明是错误的。因此,对与某理论相关的新证据进行评价的方法,必须始终具有使数据证伪该理论的可能性。这项原则通常被称为“可证伪性标准”
。可证伪性标准申明,要使一个理论有用,它所做出的预测必须是具体的。也可以说,理论必须担点风险,它在告诉我们哪些事情会发生的同时,必须指出哪些事情不会发生。如果不会发生的事情确实发生了,我们就得到了一个明确的信号,即这个理论有问题:它可能需要被修正,或者我们需要去寻找一个全新的理论。一个成功的理论并不是那种可以解释所有可能结果的理论,因为这样的理论本身就丧失了任何预测能力。生物学家斯图尔特·法尔斯坦说,我们应该对科学有信心,不是因为它永远正确,而是因为我们有可能证明它是错误的。科学家所说的理论,并不是指未经验证的猜想,这些理论都已经在一定程度上被证实了,没有做出太多与现有数据相矛盾的预测。它们并非纯粹的猜想和直觉。基于自然选择的进化论不是外行人所理解的“理论”,它是科学意义上的理论,是由大量的各种数据支持的概念结构。它不只是猜想,也不等同于其他任何猜想。相反,它与许多其他学科的知识紧密相联,这些学科包括地质学、物理学、化学以及生物学的所有分支。好的理论做出的预测,会让理论有可能被证伪。坏的理论则不会以这种方式把自己置于危险之中,它们做出的预测是如此笼统,以至于它们几乎注定是正确的(例如,下一个来敲我的门的人会不到100岁),或者这些预测会采用一种能完全免于被证伪的措辞方式。事实上,当一种理论过度自我保护以免于被证伪时,它就根本不再被认为是科学的了。哲学家卡尔·波普尔如此强调可证伪性原则的重要性,正是为了界定区分科学和非科学的标准。可证伪性原则意味着一个理论被证实的次数并不是关键因素。原因在于, 并非所有的证实都是等价的。证实令人信服的程度,取决于预测本身所冒的被否定的风险。对一个非常具体的、可能被证伪的预测(例如,一位女士,30岁,身高157厘米,左手拿书和挎包,用右手敲门)的证实,比对20个实质上不可证伪的预测(例如, 敲门的是一个不到100岁的人)的证实具有更强的说服力。因此,我们必须不仅关注证实性证据的数量,更要关注证实例证的质量。心理学的目标是对各种行为理论进行实证检验,以排除其中一些理论。心理学并不追求那类事后能解释一切,但事先无法做出任何预测的解释系统所带来的安逸感。心理学也不接受那些永远不需改变、代代相传的世俗智慧体系。科学寻求概念上的改变。科学家试图描绘世界的真实面貌,而非我们原有信念所认为的世界该有的面貌。可证伪性原则最具解放意义和最有用的一个启示是, 在科学上犯错并不是罪过。当数据与理论不符时,通过对理论不断进行修正,科学家们最终共同构建起能更好地反映世界本质的理论。物学家斯图尔特·法尔斯坦写道,人们通常列出的科学的支柱——如理性、事实、真相、实验、客观性——常常都缺少一个关键的支柱。法尔斯坦认为,我们经常忘记的支柱是失败。法尔斯坦所说的失败,是能让我们从中学到东西的错误。事实上,如果我们能在个人层面上使用可证伪性原则,我们日常生活的质量可能会大为改善。如果我们能够明白,当我们的信念与世界中的证据相冲突时,我们最好是调整信念而不是否认证据和坚持有问题的想法,那么我们的社会和个人问题就会少得多。在生活的其他领域,自我中心偏见占据了主导地位。自我中心偏见是一种行为倾向,该倾向使得人们以一种偏向于自身原有信念、观点和态度的方式来评估证据、提出证据和检验假设。梅达沃说:“一个假设被确信为真的程度,与该假设是否为真无关。在科学的进程中犯错是正常的,对于科学进步来说,真正的危险是人类有一种固有的倾向,即避免让我们的信念暴露在可能被证明是错误的情境之中。想法不值钱。更准确地说,某些类型的想法不值钱。生物学家和科学作家史蒂芬·古尔德对此是这样阐述的:
他们提出了一种革命性的理论,该理论将拓展科学的边界。这些理论全都是对最深刻的终极问题的推测——生命的本质是什么?宇宙的起源?时间的起点?但是, 这些想法不值钱。但真正的科学家不这样做,因为我们想不出验证它们的方法,以决定它们是否正确。从原则上来说,一个看似吸引人但无法被证实或证伪的想法,对科学来说又有什么价值呢?
科学是一个创造性的过程,但是这种创造性需要让概念结构与实证数据相符。 解释可证伪性原则的过程中,我们概述了一个简单的科学进步模型。首先提出理论,从中推导出假设,然后使用各种技术来对假设进行检验。如果假设被实验证实,该理论就得到了某种程度的确证。如果假设被实验证伪,就必须对理论做出某种改变,或者以一个新的理论来取代。科学家只对那些处于已知边缘的自然现象感兴趣。对于确定无疑的事实,他们不感兴趣。为了推动知识的进步,科学家们必须身处已知的前沿。当然,这正是事情不确定的地方。但科学正是通过试图减少知识极限的不确定性而进步的。新理论必须能够解释旧理论能解释的全部事实,再加上旧理论不能解释的新事实。1. 科学家所说的可解决的问题,通常指的是可检验的理论。可检验的理论在科学上的定义是非常明确的:它意味着该理论有可能被证伪。如果一个理论不可证伪,那么它对自然界中的实际事件就没有任何意义,因此是无用的。2. 好的理论能够做出具体的预测,而且具有高度的可证伪性。可证伪性原则的一个含义就是,并非所有对理论的验证都具有同样的价值。可证伪性越强、预测越具体的理论在得到证实之后,越受科学家的青睐。即使预测没有得到证实(比如它们被证伪了), 这种证伪对于理论的发展也是有用的。一个被证伪的预测说明,原有理论要么应当被抛弃,要么需要加以修改以解释不数据模式的差异。科学的独特优势不在于它是一个不会犯错的过程,而在于它提供了一种消除错误的方法,这些错误是我们知识库的一部分。同时,那些完美或绝对知识的说法往往会扼杀对知识的探索。因为自由而开放地探索知识是科学活动的一个前提,科学家们总是对已经找到终极答案的说法持怀疑态度。本质主义认为,只有从内在本质或者本质属性的角度对现象做出终极解释的理论,才算得上是好的科学理论。这些'终极问题’包括:万物是从何开始的?我们来到这个世界是为了什么?生活的意义是什么?”
科学不去回答这种本质主义问题,而是靠对概念进行操作性定义得以进步的。 本质主义者态度的一个常见迹象是:在开始探求知识之前,过分关注术语或概念的定义。在科学领域中,确定某个概念的意义是在与该术语有关的现象得到广泛的研究之后,而非研究之前。科学家的目的是解释现象,而非对措词进行分析。在所有的学科中,进步的关键都在于放弃本质主义而接受操作主义。操作主义就是这样一种思想:科学理论的概念必须以某种方式建立在可观察事件的基础之上,或与之相关联,而这些可观察事件是可以被测量的。将某个概念与一个可观察事件相联系,会使这个概念公开化。操作性定义将这个概念从特定个体的感觉和直觉中分离出来,并允许任何能够实施可测量操作的人对其进行检验。例如,把“饥饿”这个概念定义为“我胃里的啃咬感”就不是一个操作性定义,因为它与“啃咬感”这种个人体验相联系,因此不能被其他观察者感知到。相比之下,包含可测量的食物剥夺时间或一些生理指标(如血糖水平)的定义是操作性的,因为它们包含了任何人都可以进行的可观察的测量。一个概念的操作性定义必须同时具备信度和效度才会有用。信度是指测量工具的一致性——如果你对同一概念进行多次测评,是否能够得到相同的测量结果。如果在同一周的周一、周三和周五,我们用同一个IQ测验的不同形式测量同一个人的智力,得到的分数分别是110、109、110,我们会说这个IQ测验是非常可信的。相反,如果三次测验的分数分别是89、130和105,那么我们就会说这个IQ测验似乎信度不高。信度是一个必要而非充分条件。一个概念的好的操作性定义还必须是这个概念的有效衡量指标。“结构效度”这个术语是指一个测量工具(操作性定义)是否测量了它本应测量的内容。假设你想测测自己的智力,测试者让你伸出脚,放到一个像鞋码器的测量仪器里,然后测试者给出一个读数。当然,你会认为这是一个笑话。概念与可观测的操作之间的联系,在直接或间接的程度上有很大差异。很少有科学概念几乎完全是通过真实世界中可观测的操作来定义的。大部分概念的定义采用更为间接的方式。复杂的概念并不是由操作来直接定义的。相反,它与其他一些各自具有操作性定义的概念联系在一起。举例来说,许多研究关注所谓的A型行为模式,因为它与冠心病的发病率有关。A型行为模式实际上是通过一系列二级概念来定义的,包括强烈的竞争欲望、潜在的敌意、时间紧迫感、完成目标的强烈驱动力、愤怒等等。然而,每一个用于界定A型行为模式(强烈的竞争欲望、敌意等等)的概念,本身也都需要操作性定义。事实上,研究者们已经付出了很多努力来对每个概念进行操作性定义。简而言之,尽管理论概念与观测之间联系的紧密程度不同,但所有概念都在一定程度上通过与这些观测之间的联系来获得意义。科学概念的定义并不是固定不变的,而是随着相关观测结果的丰富而不断变化,认识到这一点非常重要。在心理学领域,智力概念的发展提供了一个类似的例子。起初,智力仅有一个严格的操作性定义:智力是通过心智功能测验所测到的东西。随着实证证据的不断积累,智力被证明与学业成就、学习、脑损伤、神经生理学以及其他行为和生物学变量有关,这一概念也逐渐得到丰富和完善。现在看来,最好将智力概念化为由几个更具体的信息加工操作定义的高阶构念。这些假设的加工过程又有更为直接的操作性定义,用可测量的表现来表述。 外行人很少意识到,当心理学家把“智力”“焦虑”“攻击”“依恋”等词语用作理论构念时,他们所指的含义不一定与大众使用这些词汇时的含义相同。一个科学家必须通过如下方式“知道”智力的含义:他能够精确地定义一种方法,使其他实验者能够以完全相同的方法测量这一概念,并且得到有关此概念的相同结论。关于某个事物,你所“知道”的可能与张三或李四所“知道”的并不完全相同,我们如何决定谁是正确的呢?
科学知识的一个基本特性:在科学中,一个知识主张的正确与否,并不取决于提出该主张的个体的信念强度。真正的人道立场应该将关于人类的理论观点建立在可观测的行为上,而不是理论者的感觉上。 科学用观察取代了权力斗争。这让我们可以通过一种大家事先都同意的和平机制来从理论中进行选择。科学的公开性高度依赖于操作主义理念。通过对概念进行操作化定义,我们使概念进入了公共领域——在这里,任何人都可以对其进行批判、检验、改进或否定。心理学概念不能依赖于某人的个人定义,因为这类定义可能是不常见的、怪异的或者模糊的。由于这个原因,心理学必须拒绝所有个人对概念的定义(就像物理学拒绝个人对能量的定义,气象学拒绝个人对云的定义)。心理学家们必须依靠可公开获取的概念,这种概念是用操作界定的,并且任何一个接受过正规训练并拥有适当设备的人都可以实施这些操作。没有一个学科,包括心理学在内,可以回答本质主义的问题;有些人可能对此感到不适。物理学也不试图解释为什么万物遵循电磁定律或引力定律。物理学并不解释事物究竟是什么,或者为什么它们会这样。同样,那些为人类本性问题寻求本质主义答案的人,若求助于心理学,也注定会失望。心理学不是宗教,它是一个广阔的领域,寻求对行为各个方面的科学理解。因此,心理学目前的解释是暂时性的理论构念,它比其他说法能更好地解释行为。这些构念在将来注定会被更好的、更接近真理的理论概念所取代。科学家所称的“简约”原则也与此相关。这一原则规定,当两个理论具有相同的解释力时,较为简单的理论(涉及较少的概念和概念关系的理论)优先。原因是,含有较少概念关系的理论在将来的检验中可能更具可证伪性。1. 操作性定义是用可观察的操作来表述的概念定义,而这些操作是可测量的。我们保证某个理论具有可证伪性的主要方法之一,就是确保理论中的关键概念具有操作性定义,并且这些定义是用已经被重复过的行为观察来表述的。2. 心理学和其他学科一样, 寻求不断地完善其操作性定义,以便理论中的概念能够更加准确地反映世界的实际情况。心理学信息消费者的一个非常有用的原则:个案研究和见证作为评估心理学理论和治疗的证据几乎是毫无价值的。个案研究是对单个个体或极少数个体进行的深入细致的调查。由于个案研究在某个特定理论的检验中不能作为证实或证伪的证据,所以它在科学研究的后期阶段不再有效。原因在于,个案研究和见证叙述都是孤立的事件,缺乏必要的比较性的信息来排除其他可能的解释。基于这一理由,科学家在他们的实验中设有控制组(或称为对照组)。这样做的目的,是为了能够在比较控制组与实验组的结果时,排除其他可能的解释。在生物医学研究中,所有的新药研究程序都必须包括对安慰剂效应的控制。一般来说,如果在一组病人身上试验一种新药,就要组建一个患同样病症的对等组,给他们服用不含该药的药剂(安慰剂)。两组病人都不知道他们吃的是什么药。这样,当比较两组的结果时,安慰剂效应——即给予病人任何一种新的治疗都会使他们感觉更好的倾向——就得到了控制。仅仅表明接受新药的病人中有一定比例的人报告说他们的症状得到缓解是不够的,因为如果没有控制组的数据,就不可能知道这其中有多少病人这样说是由于安慰剂效应而不是药物本身的疗效。所有类型的心理治疗都涉及安慰剂效应。无论干预的效果如何,只要我们进行治疗干预,安慰剂效应就有可能产生。问题在于, 安慰剂效应是如此强大,以至于无论某个人使用的疗法多么荒唐可笑,只要是被应用于一大群人的话,总有一些人会乐于为它的效果做出见证。正如认知心理学家丹尼尔·列维京所言:“如果你把20个头疼的人带到一个实验室,给他们一种新的神奇头疼药,其中10个人好转了,你没了解到任何东西” 社会和认知心理学家研究了人类记忆和决策中的所谓“鲜活性效应”。当面临问题解决或决策情境时,人们会从记忆中提取与当前情境有关的信息。因此,人们倾向于利用更容易获得的、能够用来解决问题或做出决策的信息。强烈影响可获得性的一个因素,就是信息的鲜活性。问题在于,再没有什么比真诚的个人见证——说某件事情发生了或某事是真实的——更鲜活、更能打动人了。美国每周都会有大约400人死于汽车交通事故(每年超过20000 人),人数足够坐满一架大型喷气式飞机了。
车祸中死亡的这400人不会上新闻, 因为他们分布在全国各地,因此对于大多数人来说只是统计学上的抽象概念。媒体不会为我们生动地呈现这400名死者,因为他们并不是死在同一个地方。与被陌生人绑架和杀害相比, 孩子在游泳池里溺亡的可能性要大得多。显然,对绑架的担心大部分是媒体渲染的结果。相比绑架和鲨鱼袭击,车祸、意外、儿童肥胖和自杀对我们孩子福祉的威胁要大得多。由于媒体制造的鲜活性效应,我们的风险感知完全失常了。 过分依赖鲜活的逸事信息会对健康行为和医疗决定产生负面影响。我们应该克服这种不相信数字而必须亲眼目睹才去相信的倾向。大多数影响我们社会的复杂因素都只有靠数字才能准确捕捉。人类认知而言,为什么鲜活的见证叙述和轶事证据的影响力如此之大?数十年的认知心理学研究已经证明,人类是所谓的“认知吝啬者”, 因为我们天生的设定是在处理一个问题时使用最不费力的心理加工过程(称为1型加工)。当某人选择相信个人观点而不是科学证据时,也会出现这样的问题。当我们评估一种个人观点时,大脑中与社交有关的、进化上较为古老的区域会自动参与进来。相比之下,理解科学证据需要更复杂的战略思维和逻辑思维,这是人类较晚才发展出的文化成就,需要缓慢而耗费精力的2型加工。因为科学的思维策略是后天习得的,有些人可能还没有学会。好消息是,科学和统计思维可以通过练习来达到自动化的程度,从而成为一种不那么耗费精力的选择。 心理学家们对这一效应进行了大量的研究,他们发现,绝大多数人会认为泛化的个性总结是对自己准确而独特的描述。任何人都可以将其作为个人化的心理“分析”提供给“客户”,这些客户常常会为这些个人化的“个性解读”的准确性感到惊讶,却不知道其实每个人的解读都是一样的。当然,巴纳姆效应是人们对手相学和占星术的准确性坚信不疑的基础。巴纳姆效应还可以证明见证的产生是多么容易以及见证为何毫无价值。人们倾向于不考虑经济学家所说的“机会成本”。如果你花时间做一件事,你就失去了做另一件事的时间。你失去了把时间花在其他事情上的机会。当你在一件事上花费了金钱,你就没有钱做其他的事了——你失去了让钱花在其他地方的机会。伪科学有巨大的机会成本。当人们把时间(和金钱)花费在伪科学上时,他们一无所获,而且还浪费了本可以花在更有价值的事情上面的时间。除了提出见证叙述作为“证据”,伪科学的从业者经常指责他人阴谋压制他们获得的“知识”, 试图以此规避科学的公开可验证性标准。他们以此为借又,直接把他们的“研究成果”交给媒体,而不是通过正规的科学出版程序将其作品公诸于世。当某人似乎在向你提供一种能够逃脱既定的权衡取舍的结果时,要注意提防。例如,众所周知,在投资中,风险与回报有关(投资回报越高,风险越大)。说到减肥,我们都知道,长期的体重减轻取决于长期的热量摄入改变。关于教育干预,众所周知,持续时间较长的教育收益来自于长期的密集干预项目。简而言之, 必须在两者之间进行权衡:经济收益与风险,体重减轻与热量摄取,学习收益与密集干预。在这些领域里推行伪科学思想的人总是声称他们可以摆脱这些权衡。你可以在没有风险的情况下获得高的货币回报。人们一旦涉入伪科学,就可能无法利用他们所能得到的真正的治疗方法。许多病人把时间浪费在追求虚假的治疗上,从而延误了接受医学治疗的时机。著名的计算机企业家史蒂夫·乔布斯在得知自己罹患胰腺癌之后, 无视医生的建议,将手术推迟了9个月,转而选择未经证实的水果饮食法, 向通灵者咨询,并接受虚假的水疗法。 伪科学的传播所造成的代价是巨大的。没有什么比混淆哪种类型的证据能够证明某个主张背后信念的真伪,更能助长伪科学的传播了。 1. 要理解为何个案研究和见证证据对理论检验毫无用处,一个方法是想一想安慰剂效应。安慰剂效应是指人们倾向于报告任何疗法都对他们有帮助,无论疗法是否包含了有效的成分。安慰剂效应的存在,使我们无法用关于疗效的见证来证明某种心理(或医学)治疗的有效性。原因在于,无论采用何种治疗,安慰剂效应都会催生出证实其疗效的个人见证。2. 鲜活性效应是指人们过分看重更为鲜活并因此更容易从记忆中提取的证据。见证证据对大多数人来说就是一种格外鲜活的信息。其结果是,人们在证明某一心理学主张的合理性时,会过度依赖这类证据。事实上,理论主张是否合理,是不能用见证叙述和个案研究的证据来判定的。证据是研究者通过对关键变量进行实际操纵(而不只是观察相关性)而获得的。这种方法通常要创造一些极少自然发生的特殊条件。戈德伯格确信糙皮病是不会传染的,也不会通过患者的体液传播,他给自己注射了一名患者的血液,还吃下一名患者喉咙和鼻子内的分泌物。戈德伯格对其他人提出的因果机制进行了操纵,结果显示该机制是无效的,但仍有必要对他自己提出的因果机制进行检验。戈德伯格选择了来自密西西比州监狱农场的两组犯人,这些人都没有患糙皮病,并且都是自愿参加实验。其中的一组人被给予高碳水化合物、低蛋白质的饮食,这种类型的食物被戈德伯格怀疑是引起糙皮病的原因。另一组被给予营养更均衡的饮食。5个月后,低蛋白饮食的这一组患上了糙皮病,而另一组却没有丝毫的患病迹象。 “第三变量问题”:两个变量之间的相关——糙皮病的发病率——可能并不意味着这两个变量之间有直接的因果关系,而相关之所以产生,可能是因为这两个变量都与某个甚至尚未被测量的第三变量相关。这种相关,我们通常称之为“虚假相关”:相关的产生不是因为所测量的两个变量之间存在直接的因果联系,而是因为这两个变量都与第三变量相关(或者只是表现出一种偶然的关系)。有时,我们很容易陷入忽略可能存在的第三变量的陷阱。当我们看到一个研究表明父母的养育行为与其孩子的心理特征之间存在相关时,往往自然而然地认为父母的养育行为决定(导致)了孩子的心理特征。但是这种自动倾向是错误的,因为它忽略了父母与子女之间的遗传联系——这可能是造成父母与子女之间相关的第三变量。 幸运的是,还有许多复杂的相关统计方法,例如多元回归、偏相关、路径分析,可以用来解决这类问题。这些统计方法能够在去除(或“分离”“排除”)其他变量的影响之后,重新计算两个变量之间的相关。 一些研究表明(使用统计回归技术)在控制了健康水平之后,快乐与长寿之间的相关就不复存在了。第三变量被排除之后,还有必要确定因果关系的方向。是幸福让人们更利他,还是利他行为让人们幸福(“给予比接受更有福报”)?当研究者运用了真实验的逻辑,并完成了若干适当的控制研究后,发现因果关系是双向的:幸福让人们更利他,而且利他行为也让人更幸福。 当人们看到一项研究显示父母的养育行为与孩子的心理特征存在相关时,会不由自主地认为是父母的养育行为导致了孩子的心理特征。我们指出,父母和孩子之间的遗传联系可能是导致亲子相关的第三变量。但是,除此之外,还可能存在方向性问题:孩子的行为可能会引起父母的反应。因果关系的方向实际上可能是从孩子指向父母。 我们已经知道,眼动与阅读能力之间的相关所反映的因果关系, 与之前推断的正好相反。不规则的眼动不会导致阅读障碍,是缓慢的词语识别和理解困难导致了不规则的眼动。当教会儿童有效地识别单词和更好地理解文字后,他们的眼动就改变了。训练儿童的眼动对提高其阅读能力没有任何帮助。“自我选择偏差”一词指的是人们自己选择进入一个特定的群体,而不是被随机分配的情况。自我选择会产生个人变量和环境特征之间的虚假相关——这种相关并不表示因果关系。相关的产生是因为具有特定行为或生物特征的人选择了特定类型的环境,而不是环境导致人们出现那些行为或生物特征。让我们用一个简单的例子来说明选择偏差是如何产生虚假相关的。空气清洁的亚利桑那州,由呼吸系统疾病导致的死亡率却高于美国平均水平。原因是患有呼吸系统疾病的人都喜欢搬到那里, 然后在那里去世。如果大意,可能会受到误导,以为是亚利桑那州的空气害死了这些人。选择偏差会导致一些令人惊讶的结论。在第二次世界大战期间,一名分析人员试图根据返航飞机上的弹孔分布模式来决定在飞机上放置额外护甲的位置。经过分析后,他决定在返航飞机上没有弹孔的地方增加护甲,而不是在有很多弹孔的地方。他的理由是,飞机的所有部位都有被子弹击中的可能。根据返航飞机上弹孔出现的位置,他得知飞机的这些地方被击中,但仍能返航。返航飞机上没有弹孔的区域并非不会被击中,而是被击中该区域的飞机没能返航。因此,返航飞机上没有弹孔的地方才需要更多的护甲!
宁可因为怀疑而犯错,也不要被那些错误地暗示因果关系的相关所欺骗。1. 两个变量之间仅仅存在相关,并不能保证一个变量的变化会导致另一个的变化,也就是说,相关并不意味着因果关系。相关的产生可能是由于这两个变量都与某个甚至未被测量的第三变量有关。2. 事实上,如果我们测量了潜在的第三变量,就可以用相关统计如偏相关来评估这个第三变量是否决定了这种关系。3. 让相关的解释变得困难的另一个原因,就是方向性问题:即使两个变量有因果关系,也不能只根据相关来判断因果关系的方向。4. 在行为科学中,选择偏差是造成许多虚假相关的原因。选择偏差是指,人们在一定程度上选择了他们所属的环境,因此造成了行为特征和环境变量之间的相关科学思维最重要的特点其实很容易掌握。科学思维是建立在比较、控制和操纵的理念之上的。为了对一个现象有更深入的了解,科学家会对世界上的各种情况进行比较。如果没有比较,我们就只剩下孤立的观察实例,并且对这些孤立发现的解释也非常模糊,就像见证叙述和个案研究一样。科学家通过比较在不同(但有控制的)条件下得到的结果,可以排除一些解释,并证实另一些解释。实验设计的基本目标是分离变量。当成功分离出一个变量之后,实验的结果就能排除许多之前作为解释而提出的其他理论。科学家们通过两种方法尽可能地排除不正确的理论:要么直接对实验情境进行控制,要么在可以比较各种可能解释的自然情境下进行观察。在斯诺的霍乱研究例子中,仅仅观察不同地区霍乱的发病率,难以避免“对观察到的霍乱发病率差异存在许多不同解释”的问题。斯诺清楚地知道,科学通过尽量排除可能的解释而得以进步,因此他努力寻找并最终找到了一种比较方式,此方式可以排除许多基于健康与社会经济地位的相关的解释。大多数科学家试图以一种可以区分替代假设的方式来重组世界。为实现这一目的,他们必须操纵被认为是原因的变量(在斯诺的例子中是被污染的供水系统),然后在保持其他所有相关变量不变的情况下, 观察是否会有不同的结果(霍乱的发病率)。被操纵的变量称为自变量, 假定受自变量影响的变量称为因变量。因此,最佳的实验设计应该是这样的:科学家能够操纵感兴趣的变量,并对其他可能影响实验的无关变量进行控制。需要注意的是,斯诺并没有这么做。他不可能操纵供水系统的污染程度,但是他找到了这样一种情境,即供水系统受污染的程度是不同的,而且幸运的是,与社会经济水平有关的其他变量得到了控制。科学家试图操纵一个变量并保持其他所有的变量恒定的原因:为了排除其他可能的解释。当操纵变量与一种叫作随机分配的程序(在随机分配中被试不能决定自己进入哪种实验条件,而是被随机分配到某一个实验组)相结合时,科学家就能够排除那些归因于被试本身特征的解释了。随机分配可以确保不同实验条件下的被试在所有变量上基本一致,随着样本量的增加,随机分配可以抵消一些偶然因素。这是因为被试的分配是由一个无偏随机化装置决定的,而不是个人的明确选择。随机分配是一种将被试分配到实验组和控制组的方法,这样实验中的每个被试被分配到其中一组的概率相同。随机分配的效果如何,取决于实验中被试的数量。被试越多越好。在下结论之前必须获得“比较信息”,这种思维倾向并不是与生俱来的。除了某一关键因素之外,控制组和实验组的处理方式是相同的。控制组的这种“非鲜活性”让人很难发现控制组的重要性。关注治疗后好转的庞大数字而忽视控制组结果的倾向,会使得许多人认为这种疗法有效。简而言之,它很容易让人们忽略这一事实,即当我们对治疗结果进行解释时,控制组的结果是非常关键的一个背景信息。不只是心理学,许多领域都逐渐意识到在评估证据时使用比较信息的必要性。神经学家罗伯特·伯顿很好地描述了医学所走的道路:“做一名好的医生,你需要遵循最佳的医学证据,即使它与你的个人经验相矛盾。我们需要把直觉和可检验的知识区分开来,把预感和实证检验过的证据区分开来。“判断一个项目是否更有效的唯一方法是开展一个真实验。协助杜弗洛在贫困国家进行援助实验的一位同事提到,经常有人告诉她:“你不应该在人身上做实验。”她回答说:“好吧,这样的话,你就不知道你的项目是否有效了——那样难道就不是实验性的吗?”。她的回答是正确的。现状——接受效能测试的原始项目——也可以被称为实验,只不过设计拙劣而已。这个正在运作的项目就是一种实验——只是没有适当的控制!也就是说,没有设立控制组。这也是“在人身上做实验”!这种表述方式可能有助于使人们不再愚蠢地抵制使用客观方法来找出最有利于人们的方案。
对同一个实验的表述,从“控制组没得到激励”变成“我们学校有一半的人得到激励”时,人们的态度突然之间完全改变了。聪明汉斯的例子很好地揭示了仔细区分对现象的描述和对现象的解释是何等重要。这匹马正确敲出了训练员呈现给它的数学题的答案。由此推断马具有算术能力只是对这一现象的一种假设的解释,而这种解释是可以通过实证方法来检验的。当置于这样的检验之下,这个解释就被证伪了。芬斯特设计了让驯马师在隔板后面给马出题的实验条件,从而区分两种可能的解释: 马有算术能力,或者马根据视觉线索做出反应。如果这匹马真有这样的能力,那么让驯马师在隔板后面出题应该不会影响它的表现。另一方面,如果马是根据视觉线索做出的反应,驯马师在隔板后面出题就会干扰它的表现。当后者发生时,芬斯特能够排除马具有算术能力的假设。世界上发生的任何事情通常都与许多其他因素有关联。为了将许多同时发生的事件相互间的因果影响分离开来,我们必须创设现实世界中永远不会出现的情境。科学实验就是要打破世界上的自然关联,从而将单一变量的影响分离出来。 创设特殊条件来检验是否存在真正的因果关系,是防止伪科学信念像病毒一样攻击我们的一个关键工具。简言之,科学家在验证关于某个现象的某种特定理论时,通常有必要创设特殊条件。仅仅观察事件的自然状态远远不够。外行人的观念之所以是不准确的,正是因为他的观察是“自然的”,而不是像科学家的观察那样是有控制的,理解这一点至关重要。如果我们关于运动物体的直觉(或“世俗”)理论是不准确的,那么很难相信世俗理论在更复杂的人类行为领域会非常准确。事实上,这一研究文献提醒我们,个人经验并不能保证不会对人类心理学产生错误的信念。对见证叙述、个案研究证据和“常规做法”的依赖,往往会让人们认识不到我们需要设置控制组来检验非正式观察所得结论的准确性。错误的流行信念可以列出一张长长的清单。例如,很多人认为满月会影响人的行为;有些人相信“相异相吸”;有些人认为你不应该改变多项选择题的初始答案,他们都错了。1. 实验方法的核心是操纵与控制。在相关研究中,研究者仅仅观察两个变量的自然变动是否显示出某种关联。相比之下,在真实验中,研究者对被假设为原因的变量进行操纵,通过实验控制和随机分配来保持其他所有变量不变,然后来看这个变量是否会对假设的因变量产生影响。这种方法排除了相关研究中的第三变量问题。2. 第三变量问题的出现是因为在自然界中,很多不同的事物是相互关联的。实验方法可以被看作是将这些自然存在的关联分离开来的一种方式。它之所以能实现这一目的,是因为它以操纵一个变量(被假设是原因的变量)并保持其他所有变量不变的方式,分离出该变量。然而,为了分离这些自然发生的关联,科学家们往往不得不创设自然世界里不会出现的特殊条件。第7章 “但这不是真实的生活!”:“人为性”批评与心理学科学实验的人为性并不是一种缺点,事实上, 正是它赋予了科学方法一种独特的力量,使其可以对世界的本质做出解释。与人们普遍认为的相反,科学实验的人为性并不是偶然的疏忽,而是科学家有意为之——科学家设立特殊的条件是为了分离变量。很多时候,这些操纵无法在自然环境中完成,于是科学家必须把所要研究的现象转移到实验室中,以便实施更精确的控制。局限于真实生活情境会妨碍我们发现许多新事物。因为人类并不具备通过外部反馈来监测自身生理功能的能力,所以,这种控制生理过程的能力只有在特殊的实验条件下才会显现出来。事实上, 并非所有的心理学研究都必须使用随机的被试样本。随机取样和随机分配不是一回事。唯一的相似之处在于它们都采用随机生成的数字,但其目的却大相径庭。随机取样是指如何选择被试进行研究。如前所述,并不是所有研究都需要随机取样,但当随机取样成为必要条件时(例如在调查研究、市场调查或是选举民调中),它指的是从总体中抽取一个样本的方法,这种方法要确保总体中的每一个成员都有同等机会被选为样本。只有使用了随机分配的方式,才有可能成为一个真实验。随机分配是真实验所必需的条件。在真实验中,实验人员会设置实验组和控制组,当每一名被试被分到实验组或控制组的机会相等时,就实现了随机分配。如果研究中使用了随机分配,那么它就是一项真实验。如果没有使用随机分配,则是相关研究。大多数心理学(其他学科也是如此)研究的目的并不是为了直接应用,而是为了发展理论。简而言之,大部分理论驱动的研究是为了检验关于心理过程的理论,而不是为了把研究结果推广到某一特定的现实情境。应用研究的目的是把研究数据直接应用于现实世界中,而基础研究则关注理论的检验。尽管很多科学家的初衷并非为了解决具体的实际问题,但他们的理论或发现最终解决了许多现实世界的问题。例如,心理学家通过理论预测了手机带来的交通事故问题,这个理论就是注意力有限理论,早在几十年前就有了。开车时使用手机显然属于这些理论的解释范畴,而这些理论是通过大量实验(实际上是数百个实验室研究)建立起来的。事实也是如此,后来对手机使用进行的实际研究,证实了心理学中注意理论的预测:手机使用确实是引发交通事故的一个原因,即使免提电话也不能解决注意力的问题,注意力的分散才是交通事故的主要原因。1. 一些心理学研究属于应用研究,其目标是把研究结果直接应用于特定情境。在这样的应用研究中,研究的目的是要将结果直接推广到自然情境中。因为研究结果将会直接得到应用,所以样本的随机化和实验条件的代表性问题就显得尤为重要。然而,大多数心理学研究不属于这种类型,而是属于基础研究,用以检验关于影响行为的潜在机制的理论。2. 在检验理论的基础研究中,人为的情境是有意创设的,这有助于将所要研究的关键变量分离出来,并对无关变量加以控制。因此,心理学实验“不像真实的生活”这一事实其实是一种优势而非缺点。媒体上这类所谓的“突破性”头条新闻,在很多方面阻碍了公众对心理学和其他科学的理解。一个特别典型的误解就是,它们让公众以为,某一科学研究领域中的所有问题都能通过某个关键实验得以解决,或者某个重要的新见解颠覆了先前的全部知识,从而成就了理论的进步。这只是对科学进步的一种歪曲,如果人们信以为真,就会对科学进步产生误解,并且削弱人们在某一问题上评估科学知识的能力。本章中,我们将讨论科学的两个原则——关联性原则和聚合性证据原则,用这两个原则描述科学的进展,比突破模式更为准确。否定所有的科学进步都符合“飞跃”模式或者关键实验模式,并不是说这样的关键实验和理论进步从未发生过。相反,科学史上一些最著名的案例恰恰代表了这种情况。爱因斯坦提出“相对论”,就是迄今为止最著名的一个例子。尽管爱因斯坦理论中的概念重构令人震惊(运动中的时钟走得更慢、质量随速度增加,等等),但仍然遵从关联性原则。爱因斯坦的理论虽然让牛顿力学变得过时了,但没有否定牛顿理论所依据的关于运动的事实, 或者认定其毫无意义。恰恰相反,在低速运动情况下,两种理论做出的预测基本相同。爱因斯坦的概念体系之所以更优越,是因为它能够解释众多新的(有时是令人吃惊的)现象,而这些现象与牛顿力学是不相容的。因此,即使是爱因斯坦的理论,这个科学史上最惊人、最基本的概念重构, 也依然遵循关联性原则。事实上,很多科学领域的进步靠的不是单一的突破,而是一系列难以描述的时断时续的过程。 科学实验很少能完全解决某个问题,也就是在支持某个理论的同时,排除所有其他理论。新的理论很少会明显地优于所有先前存在的相互竞争的概念体系。科学家所评估的证据不是来自于终于设计完美的单个实验的数据。相反,科学家往往必须评估数十个实验的数据,这些实验各有瑕疵,但每一个都提供了一小部分答案。我们在这里提出了两个理念,为理解心理学这门学科提供了有用的背景。首先,科学上没有哪个实验的设计是完美无缺的,对任何一个实验数据的解释都存在一定程度的模糊性。科学家不会等到一个完美或者关键的实验出现后才去评估一个理论,而是对大量各有局限的实验的总体趋势进行评估。第二,许多学科尽管没有像爱因斯坦那样的人物出现,仍然取得了进步。这些进步是时断时续的,而不是通过划时代的宏大的爱因斯坦式整合。和心理学一样,其他许多学科也是由不断增加的知识碎片拼接而成的,缺乏一个统一的主题。 聚合性证据原则提示我们去审查相关研究文献中缺陷所呈现出的模式和规律,因为这一模式的性质要么支持、要么削弱我们想要得出的结论。 每个实验都有助于纠正其他实验在设计方面的偏差,当大量实验的证据指向类似的方向时,实验证据就有了聚合性。尽管没有一个实验的设计是完美的,我们还是可以得出一个相当有力的结论。因此,聚合性证据原则要求我们将结论建立在大量略有差异的实验所得的数据之上。聚合性证据原则也可以从理论检验的角度加以表述。当一系列实验一致支持某个理论,同时又共同地排除那些最重要的竞争理论时,研究就具有高度的聚合性。当一系列实验一致支持某个理论,同时又共同地排除了最重要的竞争解释时,研究就具有高度的聚合性。尽管没有单一的实验能够排除所有的替代解释,但是将一系列能排除一部分替代解释的实验汇总后,如果数据以第一个例子中的方式聚合起来,就能产生一个强有力的结论。最后,聚合性证据原则的引入有助于消除一个错误观念,这种观念可能是由于我们对证伪性的讨论过于简单化而造成的。似乎让人觉得,当第一个与自己的理论不相符的证据出现时,这个理论就算是被证伪了。然而,事实并非如此。正如理论是被聚合性证据所支持一样,它也要被聚合性的研究结果所否定。单个研究不说明任何问题!在我们得出结论之前,必须将许多研究综合起来,评估它们是否具有聚合性。聚合性证据原则可以被看作是对不要过度解释暂时性知识这一警告的一种平衡。尽管所有心理学研究都有缺陷,但聚合性仍然能够使我们得出许多合理、有力的结论。研究者常常坦率地承认某个研究存在缺陷。关键的不同之处在于,研究者并不认为承认某个研究存在缺陷,就否定了“影视暴力会对攻击性行为产生影响”这一普遍的科学共识,因为总体结论来自于研究的聚合。在评估心理学的实证证据时,心中要想的是科学共识,而不是重大突破;是渐进整合,而不是大飞跃。聚合性原则还意味着,心理学的各个研究领域都应使用多种不同的方法。因为不同类型的研究技术各有优劣,所以在得出特定结论所用的方法之间保持相对的平衡是比较理想的。聚合性原则的最后一个启示是,当对某个问题的初步研究结果似乎相互矛盾时,我们不应感到绝望。科学证据的融合过程,就像投影仪慢慢将一张内容未知的幻灯片调到对焦清晰在心理学和许多其他科学门类中,目前正通过使用被称为元分析的统计技术,更为正式地将来自不同研究的证据结合起来形成一个结论。在元分析中,研究者把针对同一假设所进行的几项研究的结果,在统计学上进行整合。研究者用一个通用的统计指标来表示两个实验组比较时得到的效应,这样就可以对不同研究的效应进行比较。然后再用一些标准方法对结果进行统计学上的合并。如果合并过程通过了一定的统计标准,就得到了一个关于效应量的结论。当然,在某些情况下无法得出任何可信的结论,也就是说,该元分析的结果是不确定的。1.聚合性操作原则描述了在心理学中研究结果是如何被整合的:没有一个实验可以一锤定音,但每个实验至少都能帮助我们排除一些替代解释,从而有助于了解真相。2.多种不同方法的使用可以让心理学家更加确信其研究结论是建立在稳固的实证基础之上的。3.当概念发生变化时,它必须遵循关联性原则:新的理论不仅要能解释新的科学数据,还必须能解释已有的数据。任何一个特定行为都不是由一个而是由许多不同的变量引起的。我们得出变量A和行为B之间存在显著的因果关系的结论,并不意味着变量A就是引起行为B的唯一因素。人们常常忘记行为是由多重原因决定的。他们似乎想找到所谓的“神奇子弹”——他们感兴趣的行为产生的唯一原因。为了对某种特定行为做出全面的解释,研究者必须探讨各种不同的变量对它的影响,并把这些研究结果综合起来,才能完整地描绘出所有与该行为有关的因果关系。另一方面,说某个变量只是影响某一特定行为的众多因素之一,并且只能解释这一行为的一小部分,并不是说这个变量无足轻重。首先,这一关系可能具有深远的理论意义。其次,这一关系可能具有应用价值,尤其是当这个变量可以人为控制时,如前面提到的媒体暴力的例子。如果一个变量能够使每年的身体暴力事件减少1%,那么我想没有人会认为它是无关紧要的。总之,如果所涉及的行为至关重要,那么懂得如何去控制其中的一小部分,也具有非凡的价值。 影响行为的一个因素,会因为另一个因素的存在与否,而产生不同的效果。这就是交互作用的概念:一个自变量的效应大小可能依赖于另一个自变量的不同水平。许多潜在的风险因素本身不会产生负面影响,只有当它们与其他风险因素结合在一起时才会。或者,在某些情况下,每个风险因素本身对结果的影响都很小,但结合起来对结果的影响就很大。反刍思维rumination(指反复思考不愉快的事情,自我强制性地进行思考和分析,接近于俗称的“钻牛角尖”——译者注)和抑郁的关系为例。反刍思维的倾向确实能够预测抑郁症状的持续时间,但它与认知风格存在交互作用,只有在消极的认知风格下,反刍思维才能预测抑郁症状持续时间的延长。 只有当一个变量处于这一连续体的最强端时,它才能独立产生作用。因果影响的最强形式是,一个自变量是影响因变量的必要且充分条件。“必要”是指一个变量必须出现,效应才会产生。“充分”是指该变量本身就足以产生效应。而较弱形式的因果关系是, 一个变量的效应受到同时存在的其他变量的影响。一个原因变量可能是必要的(因变量表现出效应时,该变量必须存在),但并非充分的(它要依赖于其他变量的存在才能产生效应)。最后,一个弱的原因变量可能既不是充分的也不是必要的——它的存在只是增加了效应的总体统计概率。预设偏见常常使人们倾向于忽略多重原因这一原则。我们经常听到人们争论一些带有强烈感情色彩的话题,如犯罪的原因、财富的分配、贫困的原因、结婚率的变化以及死刑的作用等,争论的方式让人觉得这些问题是简单的、单维的,而且导致结果的原因只有一个。在情绪的影响下,人们往往会忘掉多重原因这一原则。以学习障碍为例,研究发现,大脑异常、遗传因素与学习障碍有关。这似乎表明学习障碍仅仅是生物学上的大脑问题。这个结论将是错误的,因为也有研究发现,造成学习障碍的部分原因是早期学校教育缺乏某些方面的教学经验以及家庭环境不利。学习障碍不是由单一原因引起的,而是生物天性与环境因素交互作用的结果。一旦我们发现了某个复杂现象的多重原因,且该现象又是一个待解决的问题,就势必意味着这个问题的解决需要多方面的干预。1.在考察行为的原因时,要依照多重原因的原则来思考。不要陷入认为某一特定行为一定有单一原因的思维陷阱。复杂程度各异的大部分行为都是由多重原因决定的。心理科学揭示的几乎所有事实和关系都是用概率来表述的。这一点也并非心理学所独有。我们所说的概率趋势,是指有较大的可能性,但并非在所有情况下都必然如此。也就是说,性别和身高的关系是用可能性和概率而不是用必然性来表述的。统计上可以证明的趋势,都有例外。因为它们是概率性的趋势和规律,而不是在所有情况下都成立的关系。人们很难接受概率预测的现实——我们并不是生活在一个确定的世界中。吸烟与肺癌之间的关系是概率性的。吸烟大大增加了患肺癌的概率,但并非必定导致肺癌。医学可以很有把握地告诉我们,与一组同等条件的非吸烟者相比,吸烟者中会有更多的人死于肺癌,虽然它无法告诉我们哪些人会死。对人类思维本质的大量研究表明,概率推理可能正是人类认知的阿喀琉斯之踵。人类在这方面如此薄弱,以至于概率推理成为人类理性的操作性定义的核心。教师可能会呈现如下的事实: 儿童的学业成绩与家庭的社会经济地位以及父母的受教育程度相关。但这一表述常常会遭到至少一个学生的反对,他会说,他有个朋友是美国优秀学生奖学金的获得者,但是他的父亲不过中学毕业。甚至那些理解吸烟-肺癌例子的人,这时候态度也变得摇摆不定了。知识不是要等完全确定后才有用——即便某些知识不能预测个体的具体情况,但如果能对群体的总体趋势进行准确预测,也是非常有益的。基于群体的特征所做的结果预测,常被称为总体预测或统计预测。社会越复杂,人们就越需要概率思维。如果一个普通人想要对其生活的社会有基本的理解,那么,他至少应具备统计思维这一基本的能力。培养概率思维能力的一个好方法就是,了解人们在统计推理时最常犯的错误有哪些。要想做出正确的决策,就必须综合考虑两种概率——对个案证据做出正确或错误诊断的概率和过去经验所提供的先验概率(也叫基础比率)。整合这两种概率的方法,有的是正确的,有的是错误的,在大多数情况下——特别是当个案证据给人一种很具体的错觉时——人们往往会以错误的方式来整合信息。一个相当高的假阳性率(5%)加上一个较低的疾病基础比率(只有1/1000)导致了以下结果:在检查结果为阳性的人中,没有患病的人比患病的人还多。在一项对30000名老年男性所做的研究中,研究者发现,在对前列腺癌、肺癌和结直肠癌进行了四项筛查后,已有超过1/3的男性检查结果为假阳性——检查结果表明他们患有癌症,但实际上并没有。当其他因素相同时,根据较大的样本总是能够更精确地估计出总体的真正数值。因此,在任何一个指定的日子,较大的医院由于有较大的样本,男婴出生的概率更趋近于50%。相反,小的样本总是倾向于偏离总体的真正数值。因此,小医院会有更多的天数记录了与总体的真正数值偏差较大的男婴比率。许多人难以认识到他们所处的情境也会涉及取样。也就是说,他们难以意识到自己看到的是一个样本,而不是总体。未能意识到这一点,会使他们忽略这样一个事实,即某一样本的测量结果会受到取样误差的影响。赌徒谬误,即人们倾向于将过去的事件和未来的事件联系起来,而实际上两者是独立的。两个事件的结果是相互独立的,一个事件的出现不会影响另一事件出现的概率。生了两个女孩之后,生男孩的概率(约50%)与生第一个孩子时完全一样,生了两个女孩不会增加第三个是男孩的概率。1. 和大多数学科一样,心理学研究得出的是概率性的结论——大多数情况下成立,但并不适用于所有情况。根据心理学研究结果及理论所做出的预测尽管不是百分之百准确(就像其他学科中的情况一样),但它们仍然有用。阻碍人们理解心理学研究的一个原因是,人们很难从概率的角度来思考。2. 当人们遇到具体的、鲜活的证据时,就把概率信息抛到一边;他们没有考虑到,较大的样本能够提供对总体数值更为精确的估计;最后,人们表现出赌徒谬误偶然性和随机性是我们所处环境不可分割的一部分。自然界发生的很多事情,都是系统的、可解释的因素与偶然因素共同作用的结果。当一个特定的现象没有现成的系统性解释时,我们喜欢寻求结构的头脑不会因此停止运作,它会将无意义的理论强加在原本随机的数据上。金融分析师通常会对股市价格的每一次小的波动都做出精心的解释。事实上,这种变动大多只是随机波动。
人们有解释偶然事件的倾向,这一现象在心理学的研究中被称为相关错觉。当人们相信两类事件通常应该一起发生时,就会认为两类事件同时出现的频率很高,即使它们的同时发生是随机的,并不比任何其他两个事件同时发生的频率更高。总之,即使是面对随机事件,人们也倾向于看到他们所期望的联系。在我们的生活中,人与人的相遇包含大量的偶然成分。认为生活中每一件偶然的小事都需要精细的解释,这种想法是错误的。但是,当偶然事件产生了重大影响时,人们不免要建构一些复杂的理论去解释它们。试图去解释偶然事件的倾向,可能源于一种我们想要相信自己可以控制这些事件的深切渴望。心理学家研究了所谓的“控制错觉”现象,即人们倾向于相信个人能力可以影响偶然事件的结果。受过正规训练的心理学家承认他们的理论只能解释人类行为变化的一部分而非全部。他们会坦然面对偶然因素。承认偶然因素对结果所起的作用,意味着我们必须接受这样一个事实,即预测永远不可能百分之百准确,我们在预测中总是会犯一些错误。为了减少错误就必须接受错误。也就是说,依靠一般性的原则来做出比较准确的预测,同时也要承认我们不可能在每件具体事情上都预测准确。统计预测是指依据从统计资料中得出的群体趋势所做的预测。事实上,即使临床心理医生可以获得比统计方法更多的信息,统计预测仍然更准确。一旦确定了相关的变量,而且我们想使用这些变量来预测行为,那么最佳的方法就是测量它们,并使用统计方程来进行预测。1. 人们很难认识到,行为结果的部分变异性是由偶然因素决定的。也就是说,行为的变化有一部分是随机因素作用的结果,因此心理学家不应自诩能够预测每一例个案的行为。心理学的预测应该是概率性的,是对总体趋势的预测。2. 当对行为进行预测时,千万不要忽视统计信息。统计预测也正确地预示着,当对人类的行为进行预测时,错误和不确定性将始终存在。临床心理学家斯科特·利连菲尔德认为伪科学的主张有以下一些特征:1. 总是提出一个似是而非的假设,使得主张免于被证伪;2. 强调支持其主张的证据而忽略反驳其主张的证据;3. 总是将提供证据的任务强加给怀疑者而非支持者;1. 心理学的进步是通过研究可解决的实证问题取得的。这种进步是不均衡的,因为心理学由许多不同的子领域构成,某些领域的问题要比其他领域难度更高;2. 心理学家提出可证伪的理论来解释他们的研究发现;3. 理论中的概念都拥有操作性定义,这些定义将随着证据的积累而逐渐演变;4. 这些理论是通过系统实证的方法来检验的,用这种方法收集的数据是公开的,也就是说,它允许其他科学家重复这些实验并提出批评;5. 心理学家的数据和理论,只有在那些有同行评审程序的科学期刊上发表之后,才算是进入了公共领域;6. 实证主义之所以具有系统性,是因为它遵循控制和操纵的逻辑,这二者也是真实验的特征;7. 心理学家采用许多不同的方法来获得他们的结论,这些方法的优缺点各有不同;8. 心理学家最终所揭示的行为规律,绝大多数情况下都是概率性的关系; 9. 大多数时候,知识只能在众多实验数据的缓慢积累之后获得。虽然这些实验都有各自的缺陷,但是它们总能聚合于一个共同的结论。
|