从自私走向合作（1）

ChenYimi 2012-03-14

展开全文

--“囚徒困境”博弈的启示

榕城老应

1。问题的产生

我在这里讲：从自私自利的观点出发，用博弈理论来研究他们怎么能够走向合作。

有人转身就走：“小儿科！合作比单干强，取长补短，我上小学时就懂。”

“要是两人都是贼一样精，惦记着占便宜要比起老实巴交地合作来得合算，还能合作吗？”

我的朋友看到这就烦。用自私的博弈来处理人际关系？想想都觉得脏。另一位朋友不无善意地说：“从学术上研究博弈是很崇高优雅的。用在战争情有可原。对于经济也是合适的。把它用在人际关系？啧啧啧，不说也罢。须知人们有一些原则观念是无价的，不能以利害得失来衡量的！”

我怯怯地问一句：“你默完子曰，划了十字，念过阿弥陀佛，事事忍让，对方还是咄咄逼人，总把善意的你当作二百五，你怎么办？”

你总要在几种应对之中选一吧？这就是博弈所考虑的。再说，这无价的善念是怎么来的？人之初性本善？读书明理，老人传下来的？然而从进化的角度，不论是自发于心还是受教于师，这些道德观念能够经历千年流传下来，一定是有其让人有受益的道理，不然早就被生活磨难中淘汰掉了。这些道理就必须在博弈中赢出。

说博弈的目的就是损人利己，这其实有点误解，博弈理论并非只研究你死我活的“零和博弈”。40年代冯·诺依曼（Von Neumann）奠基之作就包含了“零和博弈”和“合作博弈”，50年代纳什（Nash)便扩展到非零和博弈，奠定了“非合作博弈”的基础。非合作博弈讲的是：参加博弈的人没的商量各行其是，在选择策略中不是追求胜过对方，而是考虑在别人也不犯傻的情况下怎么让自己得到最大的好处。当博弈不是“常和”时，利己未必要损人。

我这里想用博弈理论教导真正精于算计的小人认同传统道德。顺便探讨一下自然界的合作之谜。

×-×-×-×-×

很牛很高尚吧？你且坐下听我讲博弈论怎么处理这个问题。先说一个故事。

两个强盗Bob和Al持枪抢劫，还来不及做案时就被蹲在那儿的警察逮着了。回到局里，办案的被局长骂得狗血淋头：“你傻呀！还没作案抓什么？他们要都不认，最多算非法持枪判个一年。” 办案的苦着脸回去，将强盗隔离关在两处，提溜Bob出来说：“老实招了，给你一个机会。要是Al抵赖，你去做污点证人，立功了就放你出去，他判十五年。要是Al也招了，立功不成也从宽，那就判你们十年。” 转头也对Al说类似的话。你说Bob和Al会怎么做？

两个强盗“坦白从宽，抗拒从严”政策是学过，也明白警察没有抢劫证据只能判他们一年。他们只有“招”与“不招”两条路可走。Bob想：“要是Al怂了去招，我不招是十五年，不如也招了才十年。要是Al顽抗不招，我就是不招还得判一年，不如招了立功还能抵罪释放。所以无论Al招不招，我溜溜地招了都比不招顽抗到底来得合算。” 这个“招”的选择在博弈论上叫“严格优势策略”，无论什么情况都不亏。Bob思虑一番决心不能吃亏，自然选择了招供。Al也不傻，同样的考虑也选择了招供。他们都不想吃亏，结果都判了十年，错失了相信对方合作一下大家都不招，只判一年更好的结果。

这个故事大约被是研究最多和最有名的博弈，正式的名称叫“囚徒困境（Prisoner's dilemma）”。那是Merrill Flood和Melvin Dresher在兰德研究合作与冲突时构造的一个模型，普林斯顿数学家Albert W. Tucker1950年在斯坦福大学给一群心理学家说明选择的难题时举它作为例子。这个例子写起来不到一页纸，却成为在二十世纪下半叶在社会科学中影响最大的一页，而且在哲学，伦理学，生物学，社会学，政治学，经济学，特别是博弈论各种课题文献中反复提起津津乐道。

明知合作能够双赢，但背叛能占便宜得到更大收益不仅诱惑着当事人，而且还诱惑着你想合作的对方。无论出自贪婪还是出自自保都很难不走向对抗。这个难题并不是要犯了罪入狱时才会碰到。你和同事同做项目，人事关系，中美海洋战略，台海双边关系，公司间价格大战，群狼觅食，蚂蚁抗敌都会遇到相同的局面。

在社会经济，国家政治，人际关系，动植物间，甚至在微生物，细胞水平中，个体的得益不仅取决于自己的选择而且还受制于对方选择的情况几乎无处不在，其间的个体除了自利自保之外别无更高的境界。个体有没有智能这并不重要，作出错误选择的本能已在生存压力下被自然选择淘汰。现在活着的幸存者在生存竞争博弈中收益是较高的，其行为策略可以很好地用非合作博弈来分析。所以我们下面从极其精明人们博弈得出来的结果，也适合于从国家到细胞所有的情况。

在很多的情况合作都比对抗有着更好的收益。在这些情况中“囚徒困境”是最让人为难的局面，利益的诱惑让人们背叛了合作，从可能的双赢走向双输。如果我们能够在这个局面找出一条合作之路来，那没有诱惑不那么为难的局面就更不在话下了。从五十年代开始，九十年代转热直到现在，合作是怎样产生的，又是如何进化的，一直是热门的研究课题。

×-×-×-×-×

好了，先介绍一下这个博弈的基本概念，以方便以后深入的讨论。我不想照教科书念，尽量用日常语言将博弈论核心思想和论证逻辑揭露出来，让你能轻松地长学问。

你和某人一起面临着“合作”和“背叛”两种选择。双方都选“合作”，大家都有好处，各得R分（Reward for mutual cooperation）。你选“合作”对方“背叛”，对方占了你的便宜，他得T分（Temptation to defect），你得S分（Sucker's payoff）。反之亦然。大家都不想吃亏，都要“背叛”，各自得了P分（Punishment for mutual defection）。这个局面可以列出一个表格如下：

某人

你

	合作	背叛
合作	R，R	S，T
背叛	T，S	P，P

这个局面叫着一个“博弈(Game)”。“你”和“某人”叫“局中人(Player)”或者“博弈方”。可能的选择“合作”和“背叛”叫做“策略(Stategy)”。表格中的数值左边是局中人（你）选择相应那一行策略及对方选择相应那一列策略时的得益，右边是对方（某人）的得益，整个表格称为“支付矩阵(Payoff Matrix)”。从博弈的观点来看，策略的名字并不重要。支付矩阵中的具体数值对定性结果也不重要。重要的是他们之间相对的大小。当数值大小T > R > P > S时，这个博弈就叫做“囚徒困境”。博弈论研究的是局中人只考虑自己的得益时怎么选择自己的策略。用这个方法，前面Bob和Al的局面及公司价格大战的支付矩阵分别表示如下。

Bob

	抵赖	招供
抵赖	-1，-1	-15，0
招供	0，-15	-10，-10

公司B

公司 A

	高价	降价
高价	5，5	1，6
降价	6，1	3，3

他们都是囚徒困境博弈。在价格大战中，双方都维持高价都能得5万利润，这个“高价”就是一般化模型中的“合作”策略，R=5。一方降价，采用的是“背叛”策略抢了高价要“合作”方的市场，这个T=6, S=1, P=3。

如果博弈各方具体选择的策略组合使得博弈处在这样的状况：谁单方面的改变自己的策略都对自己没有好处，那么这个策略组合就称为“纳什均衡（Nash Equilibrium）”。这是非合作博弈的核心概念。一个有限策略的博弈不一定有严格优势策略，但至少有一个纳什均衡。一旦进入纳什均衡状态，从利益角度就难以单方面改变了。纳什就凭着这个概念和存在性的证明奠定了非合作博弈的基础，因此得了诺贝尔奖。

用前面故事里Bob的相同思路可以证明：囚徒困境双方都会明智地选择“背叛”这个不需要玩概率的“纯策略”。而这一对策略就是“纳什均衡”，并且是唯一的。虽然要是大家都选“合作”，都会更好些（R > P)。但谁要是一厢情愿相信对方会合作，结果被背叛了就会落入更惨的下场。

悲剧呀！囚徒困境博弈的纳什均衡不就是告诉你：自私自利没有好结果，但谁也身不由己地陷进去！

这困境就对亚当·斯密的“看不见的手”的原理提出问题了。这位经济学大佬在《国富论》中说：“通过追求个人的自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。” 而囚徒困境中我们看到的却是：从利己出发的决定，结果是损人不利己。要都是这样的话，就会动摇了西方经济学的基石。

但是自然界自私的生物合作现象的确是广泛地存在，这又该怎么解释？

×-×-×-×-×

有人说：“我明白！你上面的例子是一锤子买卖，小人也是难免有的。要还常来常往，就可能放弃眼前好处着眼于长远利益。”

也对，这要用到重复博弈的模型。重复博弈讲的是将相同的博弈重复地来玩，用于一直面对相同局面的情况。

让我们用逆推归纳法来推理：考察最后一次的博弈，比如说第一万次。无论前面怎么样，这最后一次不必为将来打算了，这也就跟一锤子买卖一样，所以大家都自私地选择“背叛”。然后考察倒数第二，第九千九百九十九次。因为最后一次策略已定，那不管怎么委屈自己也换不来回报了，所以还是能合算就多合算点，结果也是“背叛”。一直照此倒推到第一次，结果全是一溜的做小人不要合作的嘴脸。

博弈论的有限次重复博弈的一个定理就是用这个思路来证明的。有限次囚徒困境的重复博弈仍然因为自私而陷入无法合作的局面。

“唉！千万不要和自私的人交往，一点亏都不肯吃，这样逆推的算计，再多的交往也白搭。”

我的朋友不耐烦了：“早说了，这里用不着这么算计。君子喻于义，小人喻于利！能合作吗？”

但人际关系和博弈考虑的都不是一厢情愿就可以解决的问题。你怎么知道对方是君子还是小人？如果是小人，你喻之于义能解决问题吗？还有低等生物在囚徒困境的环境中也能合作，难道它们都喻于义吗？

这合作现象仍然成谜，博弈论还有什么招呢？