配色: 字号:
《博弈论教程(第三版)》10第七章 零和博弈
2023-05-24 | 阅:  转:  |  分享 
  
第七章 零和博弈7-1 零和博弈与非零和博弈7-2 最小最大方法7-3 直线交叉法7-4 霍特林模型7-5 对抗性排序零和博弈: 每
一局博弈的总支付,即双方得失之和总是0。二人 “常和”博弈: 每局双方得失之和虽然不是零,却是一个常数。 例
如双方每进行一局博弈,除了他们之间的输赢支付外,还要向提供游戏器具或者场所的第三方交纳一定的租金,则每局双方得失之和就是一个负的常
数;又如每进行一局博弈,除了他们之间的输赢支付外,双方还可以得到来自第三方的一定数量的奖励,则每局双方得失之和就是一个正的常数。7
-1 零和博弈与非零和博弈常和博弈:二人常和博弈;多人常和博弈非零和博弈:变和博弈(不包括常和博弈)7-1 零和博弈与非零和博弈
设G 是一个n 人常和博弈,那么按照定义,在G 的每种对局下博弈的n 个参与人的支付的总和,是一个常数。n人常和博弈
的偏零因子:常数的n分之一。 常和博弈的每个支付都减去这个博弈的偏零因子,那么每种对局下博弈的所有参与人的支付总和为零。对
于n人常和博弈G,每个支付中减去这个博弈的偏零因子,把它转换成一个零和博弈,记作G’。G’是G的归零博弈。研究二人零和博弈时,只要
研究一个人的支付矩阵即可。7-2 最小最大方法寻求二人零和博弈的纯策略纳什均衡: 冯.诺依曼提出最小最大方法基础想法:
局中人在进行零和博弈时对他们取得好结果的机会抱“悲观”的态度。你的对手会选择一个使你获得尽可能差的支付的策略。你的对手也
会想,你会在所有可能选择的策略中,选择一个对他最不利的策略。假定给出的是行局中人的支付矩阵。行局中人的角度,希望博弈的结果是支付尽
可能大的那个矩阵位置,而列局中人则希望博弈的结果是支付尽可能小的那个位置。行局中人:对他所能选择的每个行策略,列局中人都将选择该行
中数字最小的那列。因此,行局个人应该选择在列局中人所选择的这些每行的最小的数字中最大的数字所对应的那行,就是选择“最小”中的“最大
”,maximin。列局中人:minmax最大最小—最小最大方法(最小最大法):零和博弈中求解纯策略纳什均衡的方法,能找出所有纯策
略纳什均衡。最小最大方法与相对优势策略下划线法一样,都是寻找同时行动博弈的纯策略纳什均衡的一种方法,但是,上面那样的最小最大方法的
适用范围要窄一些,只适用于零和博弈,对于非零和博弈它就束手无策了。其中的原因在于,在非零和博弈中,可能存在共同利益,从而选择一个你
可能得到的所有最小支付中的最大者,不一定是你的最优反应,因为你的对手所选 择 的最优策略未必是使你获得最差支付的策略。注意7-3
直线交叉法最小最大方法,只适用于寻找零和博弈中的纯策略纳什均衡,如果一个博弈不存在纯策略纳什均衡,我们就需要把上述方法予以扩展,以
便找出混合策略的纳什均衡。当 Q 翻出红牌时,P的p 混合策略所产生的期望支付是p-(1-p)=2p-1;当 Q 选择出黑牌时,P
使用p混合策略的期望支付是1-2p。找出P的最大最小策略,即在p的所有可能取值中找出能最大化P可能得到的最小支付的p值。扩展的最大
最小法在均衡状态下,对于每一个可能的p 混合的值,P会预期 Q 总是选择对 Q 自己最有利的行动。由于这是一个零和博弈,对 Q 而
言最好的行动意味着对 P而言是最不利的行动。因此,对于任何一个具体的p值,P总是预期 Q 会选择与图中两条直线中处于较低位置的直线
所对应的行动。当 P 选择出红牌的概率小于50%时(即p<0.5),P预期 Q 会选择出红牌。再从列局中人 Q 的角度来探讨:
对于任意给定的q值,Q 都会预期P采取对P自己最有利即对 Q 最不利的行动。从图上看也就是说,如果q的取值位于两条直线交点
的左方,则 P会选择出黑牌;如果q的取值位于两条直线交点的右方,则 P会选择出红牌。 p=0.
5,q=1/2=0.5, 找出 P和 Q 的最优策略选择后,我们接下来要做的事情就是把这两个策略选择放在一起
,并证明它们构成这个博弈的纳什均衡。当然,证明的思路仍然体现纳什均衡的精髓:单独偏离没有好处。 给定P选择p=0.5
的p 混合策略,此时 Q 无论是选择出红牌还是出黑牌,他所得到的期望支付都是0,这与他采取q 混合策略时所得到的支付是相同的,因此
,Q 没有激励偏离给定的q 混合策略的选择。 给定 Q 选择q=0.5的q 混合策略,P选择出红牌或出黑牌的纯策略,
或者两者混合的策略所得到的期望支付都是0。因此,他没有激励偏离给定的p=0.5的混合策略选择。 合起来,这两个混合策
略是 P和 Q 相互间的最优反应,因此也就构成这个博弈的纳什均衡7-4 霍特林模型 设想在一个一字形排开的旅游地,有两
台冷饮售卖机在兜揽生意。假设两台冷饮售卖机卖一样的冷饮,价格也完全一样,但是各自独立,相互竞争。如果是三家独立的冷饮售卖机在争生意
,他们就会转来转去转个不停,不会出现稳定的对局。冷饮售卖机定位问题,改编自大半个世纪以前美国经济学家霍特林(Harold Hote
lling)提出来的杂货铺定位问题。美国经济学家和政治学家,运用霍特林模型,说明西方两党政治的部分现象。生活中的例子:等候出租车7
-5 对抗性排序零和博弈囚徒困境情侣博弈 囚徒困境和情侣博弈都有可能协调到双赢的结果,可称为协调博弈(games of
coordination)。广义协调博弈包括所有能够协调出双赢对局的博弈,即使是囚徒困境那样需要附加条件并且多次重复才能够协调出双
赢结果的博弈。狭义的协调博弈,只指个体利益与集体利益一致的博弈,只指对于参与人来说合作总比不合作好的博弈。胖子进门博弈与情侣博弈有
不同:双方选择不同的纯策略,才是共同利益所在。双赢是“彻底”的双赢,双赢之下没有谁占谁的便宜的事情。胖子进门博弈和交通规则博弈都是对称博弈,但是情侣博弈不是对称博弈。(绕着田字格的中心逆时针或者顺时针旋转180度的操作,也就是绕着田字格从左上角到右下角的对角线翻转的操作,支付矩阵数值不变。)
献花(0)
+1
(本文系src862tekto...首藏)