博弈论中理性人假设的困境,本文主要内容关键词为:困境论文,理性论文,博弈论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
“博弈参与人是理性的”是博弈论的公设,然而理性人假定存在许多博弈困境。囚徒困境与公共地悲剧反映的是个体理性与集体理性之间的冲突;纽科母难题(Newcomb problem)体现了理性人使胜占优策略原则与最大期望效用原则时的两难;最后通牒博弈与蜈蚣博弈则表现了理性参与人选择过程是理性的而结果是非理性的,其中蜈蚣博弈悖论又称为逆向归纳法悖论;而投票悖论则反映了群体建立加总群体偏好的理性规则的限度。
在博弈论中,博弈论专家不仅假定了博弈参与人(player)是理性的(rational),而且假定了“所有参与人是理性人”是博弈参与人之间的公共知识(common knowledge)——公共知识简单说来就是“我们知道”的事实。理性人在博弈论中是指具有推理、决策能力并通过选择策略使自己的得益或支付(pay-off)最大的人。然而,理性的参与人在某些博弈中并不能使自己的得益最大,在另外一些博弈中理性反而成为获得最大得益的障碍,在某些情况下理性人面临难以做出决策的二难,即:“理性人”面临着困境。
一、个体理性与集体理性的冲突
一个熟知的博弈困境是囚徒博弈。囚徒困境(Prisoners'dilemma)是这样一个博弈:两个囚徒被警察抓住后单独关押,警察给他们的政策是“坦白从宽,抗拒从严”。每个囚徒均面临着两个策略选择“招认”和“不招认”。如果一方“招认”,另外一方“不招认”,招认方无罪释放,不招认方将被重判(比如10年);如果双方均“招认”,因无立功表现,每人均被判刑(如5年),而如果每人均“不招认”,警察抓不到足够的证据证明以前的犯罪,只能对他们目前所犯的罪进行惩戒(如判刑半年)。
这个博弈中,两个囚徒均会选择“招认”,因为无论对方选择什么策略,自己选择“招认”是占优策略(dominant strategy)。双方均选择“招认”的策略组合点是纳什均衡(Nash Equilibrium)点。如果两个囚犯都选择“不招认”策略,结果是最理想的状态。但这个状态是达不到的,因为每个理性的囚徒均会主动偏离这个状态。一个稳定的状态是双方均选择“招认”,这是理性的囚徒难以摆脱的困境。
与此类似的是公共地悲剧(tragedy of the commons)。公共地悲剧是由美国生物学家哈定(G.Hardin)在1968年提出的,该问题提出后引起各个领域里的讨论。他说,想象一个对所有牧民开放的牧场,每个牧民的占优策略是尽量多地放牛。因为购买小牛的成本小于当牛长成后被卖出后所得的收益。但是,当每个牧民均作如此思维与策略选择的时候,牧场将被过度放牧而荒芜了。这是一种集体行动的悲剧。哈定说,人口问题,污染问题以及军备竞赛问题,均具有与此相同的结构。哈定这里所说的悲剧是古希腊意义上的。他借用怀特海的话说,悲剧不是不幸,而是事物发展的无情性。即,人类知道这个悲剧,但无法摆脱它发展的必然性。公共地悲剧就是这样的悲剧——每个人均能够预先知道悲剧的必然性,因为这个必然性是每个人理性行为的结果,但每个人由于自己的理性,均不会约束自己的策略选择,因而悲剧是不可避免的。
囚徒困境与公共地悲剧所反映的是个体的理性行为产生的集体的不合理性行为,体现了个体理性与集体理性的冲突。然而,当人类社会真的要产生如公共地悲剧这样的悲剧的时候,人们的价值观以及相应的社会制度会自动产生一种克服该悲剧的方法来。因而,悲剧并不是不可避免的。囚徒困境与公共地悲剧中的个体的理性是没有任何价值观约束下的理性,与实际中的情况相差甚远。
二、理性原则间的冲突
1960年,物理学家威廉·纽科姆(William Newcomb)提出了一个策略选择难题。哲学家诺齐克在1969年《纽科姆难题和两个选择原则》中转述了这个难题,并称之为纽科姆难题(Newcomb problem)。然而,“人们从未看到纽科姆本人就该疑难发表文章”。诺齐克认为,纽科姆难题“是一个漂亮的难题。我真希望它是我提出的。”不管纽科姆难题是谁提出来的,但它的提出引起了人们尤其是哲学家的广泛争论。它所反映的是理性人决策时的两个原则“最大期望效用原则”(Maximum Expected Utility)与“占优策略原则”(Dominant Strategy)之间的冲突。纽科姆难题是这样的:
假定有两个黑色的盒子。你无法看到盒子里的东西。1号盒子里面有1000元钱;2号盒子里面或者有1000000元,或者为0元(这由神来确定)。你有两个选择:(1)选择全部,即1号和2号盒子;或者(2)只选择2号盒子。
假设一个有预测力的神能够预测你将作出的选择。如果他预测你将“选择两个盒子”,他事先不在2号盒子里放钱,即他使盒子里面的钱数为0;如果神预测到你“只选择2号盒子”,他将1000000元钱放进2号盒子里(如果他预测你将使用随机的方法做出选择,他仍使2号盒子空着)。
我们假定了这个神能够准确预测。有可能的是,这个神的预测能力可能不是100%准确,但足够准确,如90%的准确。具有这个能力的可以是神,或者精灵,或者某个超级生物。这是人和神之间的一个博弈。如果是你,你将“选择两个盒子”还是“只选择2号盒子”?
表1 在神与人的博弈中人的得益
根据占优策略原则,你应当选择“取两个盒子的策略”。因为,神的预测是过去做出的。2号盒子里的钱的多少是不可更改的,与你现在的选择无关。如果神预测到你将“取两个盒子”,而你“只取了2号盒子”,你所得为0元,而选择“取两个盒子”的策略的所得为1000元,“取两个盒子”的所得比“只取1个盒子”的收益多1000元。此时,你应当“取两个盒子”。而如果神预测到你“只取2号盒子”,他在2号盒子里面放了1000000元,你如果“只取2号盒子”,你的所得为1000000元,而如果“取两个盒子”,你的所得为1001000元,“取两个盒子”比“只取一个盒子”多1000元。此时,你应当“取两个盒子”。综上所述,“取两个盒子”是占优策略。你应当选择“取两个盒子的策略”。
而如果根据最大期望效用原则,你应当选择“只取一个盒子”的策略。因为,假定你选择“取两个盒子”,神已经预测到这点,他使2号盒子里面为0,你的所得是1000元;你“只取2号盒子”,神预测到这一点,那么神在2号盒子里面放了1000000元,这样你的所得为1000000元。选择“只取2号盒子”比“取两个盒子”的所得多1000000元。因此,你应当选择“只取2号盒子”的策略。
即使神的预测不是100%的准确,只要神的预测准确度超过一定的概率,我们还是应当选择“只取2号盒子”的策略。因为:假定神的预测是90%的准确,“取两个盒子策略”的期望得益为:
0.9×1000+0.1×1001000=101000(元)
“只取2号盒子”的期望所得为:
0.1×0+0.9×1000000=900000(元)
此时,应当选择“只取2号盒子”。
通过计算,只要神预测的准确性超过0.5005,根据最大期望效用原则,我们应当选择“只取2号个盒子”。这两个选择均有理由,但它们不可能同时正确。究竟应当选择“取两个盒子”还是“只取2号盒子”的策略?
加得纳(Matin Gardner)1973年在《科学美国人》杂志数学游戏栏目中邀请读者给出这个难题的答案以及建议,有明确答案的126封来信中,89封信说选择2号盒子;37封信说他们选择取两个盒子。另外有18人认为这个难题的条件不能满足。对这个难题,哲学家诺齐克、莱维(Isaac Levi),均认为应当选择“取两个盒子”,纽约大学政治系著名政治学家勃拉姆兹(Steven Brains),以及纽科姆本人认为应当选择“只取2号盒子”。
笔者进行了一个实验。本人将这个难题出作本科生博弈论课程的考试题。78名学生参加了考试。学生事先不知道这是一个没有确定答案的难题。我给了他们这两种选择答案,并给了他们理由,让他们利用他们的分析能力对之进行选择。实验结果是:62人选择“只取2号盒子”,14人选择“取两个盒子”,2个人不能表明态度。选择“只取2号盒子”的人数接近“取两个盒子”的人数的4.5倍。加得纳(Matin Gardner)的实验结果也是选择“只取2号盒子”的人多,但比例没有本人这里的实验结果高。见下表。
表2 实验结果
纽科姆难题涉及到人的意志是否是自由的问题。因而,纽科姆难题又称自由意志困境。在博弈论中,博弈论专家预设了博弈参与人具有理性决策能力。但更为基本的是,博弈论预设人可以“自由地”选择策略,即人的意志是自由的。然而在纽科姆难题中人的意志是否是自由的,则是一个问题。
如果神能够准确预测并做出正确的决定,表明在人的预测与人的决定之间存在着因果联系。此时,无论人做出什么样的决策,均是神的预测的实现。如果神预测不是绝对准确,可能因为他对这种因果联系的认识不精确而已。基于这样的信念,选择“只取2号盒子”是合适的。
如果人的意志是自由的,神的预测就难以准确。此时,人的理性便能够发挥作用。此时,人应当采用“混合策略”,即以一定的概率选择“取两个盒子”和“只取2号盒子策略”,概率各为0.5。当然,如果是重复博弈,并且假定神的目标是尽量预测准确人的选择,人与神采取“合作策略”是合理的,即人选择只取2号盒子,而神预测人将选择“只取2号盒子”的策略。
三、过程理性与结果理性之间的冲突
逆向归纳法(backward induction)是求解动态博弈均衡的方法。所谓动态博弈是指博弈参与人的行动存在着先后次序,并且后行动的参与人能够观察到前面的行动。逆向归纳法在逻辑上是严密的,然而它存在着“困境”。所谓逆向归纳法是从动态博弈的最后一步往回推,以求解动态博弈的均衡结果。逆向归纳法又称逆推法。它是完全归纳推理,其推理是演绎的,即结论是必然的。我们来看一下最后通牒博弈(ultimatum game)的均衡。
有这样一个动态博弈——A、B两个人分100元钱。规则规定:A提出方案,B对之进行表决。如果B对A提出的方案表示同意的话,A、B就按照A提出的方案进行分配,如果B不同意A的方案,那么A和B均将一无所有。这是一个完全且完美信息动态博弈(dynamic game with perfect and complete information)。让我们分析这个过程。
A提出方案时,他知道B是理性人。B的行为是可被A预测的。A将提出这么一个方案:A和B的所得比例为99.99:0.01,即给B留1分钱,而将其余99元9角9分留给自己。此时B面临“同意”和“不同意”的选择:如果B“同意”,B所得为1分钱;如果B“不同意”,他将一无所得。理性的B将选择“同意”——这个选择是A所能够预测的。
因此在“最后通牒博弈”中,理性的B只能得到1分钱!而A正是根据B的理性的选择而使自己利益最大。当然这不是实际情况,有博弈论专家对这个问题进行实验研究(在经济学中实验研究已成时尚,2002年诺贝尔经济学奖获得者卡尔曼是实验经济学研究的先驱)。根据宾谟(K Binmore),“实验结果呈现多样化,但是参与人A提出的方案很可能在50:50附近;而对参与人B而言,如果其分配的数额不少于三分之一,他将趋向于接受。”
现在,我们假定B具有某种程度的非理性。他会向A发出威胁“如果你不给我足够的份额,我将不同意。”A知道B确实不是完全理性的人。A想,如果不给B足够数额的钱,B将不同意。因此,在提出分配方案时,A会考虑B的非理性的程度。一个极端的情况是,如果A是理性人,而B极端非理性,那么一个可能的分配方案比例将是0.01:99.99。即A得到1分钱,B得到99.99元!
在这个例子中,我们看到,人的理性程度与其所得是呈反比关系的。在博弈论中理性人是努力使自己的收益最大的人,而在最后通牒博弈中,越理性的人得到的利益越低。
理性的人得益低的另一个例子是“蜈蚣博弈”。蜈蚣博弈也是动态博弈,蜈蚣博弈所反映的问题被称为“逆向归纳法悖论”。蜈蚣博弈是由罗森塞尔(Rosenthal)提出的。它是指这样一个博弈:两个参与者A、B轮流进行策略选择:可供选择的策略有“合作”和“不合作”两种。假定A先进行策略选择,然后是B,接着是A,如此交替进行。A、B之间的博弈的可能次数为一有限次,比如198次。这个博弈的博弈树如下:
上图中,“c”表示“合作”策略,“nc”表示“不合作”策略。
这个博弈的特点是,只要有人选择“不合作”策略,该博弈即告结束。因博弈树的形状像一只蜈蚣,因而被命名成蜈蚣博弈。在蜈蚣博弈中参与人A、B是如何进行策略选择的?
根据逆向归纳法,在博弈的最后一步即第198步:B在“合作”和“不合作”之间作选择时,因“合作”给B带来100的收益,而“不合作”带来101的收益,根据理性人的假定,B会选择“不合作”。在第198步B选择“不合作”的结论是A、B之间的公共知识。但是,要经过第197步才到第198步,在197步,A考虑到B在第198步时会选择“不合作”——此时A的收益是98,小于B合作时的100——那么在第197步,他的最优策略是“不合作”——因为“不合作”的收益99大于“合作”的收益98。……如此推论下去。最后的结论是:在第一步A将选择“不合作”策略,这构成了博弈纳什均衡。在这点上,A、B各自的收益均为1,远远小于大家都采取“合作”的策略时的收益:A:100,B:100。
根据逆向归纳法推得的结果是令人悲伤的,从逻辑推理来看,逆向归纳法是严密的。但结论是违反直觉的。直觉告诉我们,一开始就停止的策略只能获取1,而采取合作性策略有可能获取100,当然A一开始采取合作性策略有可能获得0,但1或者0与100相比实在是太小了。直觉告诉我们采取“合作”策略是好的。而从逻辑的角度看,A一开始应选择“不合作”的策略。是逆向归纳法错了,还是直觉错了?似乎逆向归纳法不正确。然而,我们会发现,即使双方开始均采取合作策略,这种合作不会坚持到最后一步。理性的人出于自身利益的考虑,肯定在某一步采取不合作策略。逆向归纳法肯定在某一步要起作用。此时只要逆向归纳法起作用,合作便不能进行下去。因此,我们不能怀疑逆向归纳法的合理性,它的推理过程严密,符合逻辑。然而如果我们用逆向归纳法来求解蜈蚣博弈,则博弈结果是我们不能接受的。
许多博弈论专家认为,蜈蚣博弈所反映的不是悖论,逆向归纳法作为求解动态博弈的方法是有效的,尽管用这样的方法求得的结果不是我们所期望的,但它是均衡结果,是完全理性的参与人的博弈结果。
本文认为,该蜈蚣博弈所反映的不是悖论,而是过程理性与结果理性之间的冲突,即每个参与人选择过程均是理性的,但结果却是不合理的。该困境反映的是多主体交互作用(interaction)下个体理性的局限。
四、加总群体偏好的理性规则的缺陷
投票博弈(voting game)是一种特殊的博弈。在投票博弈中,每个投票人对候选人或者候选方案存在着偏好,并且可以对之进行排序。一个理性人组成的群体在加总个体的选择时存在理性的方法吗?
对于理性,研究社会选择的经济学家一般将之定义在偏好关系上。理性的偏好关系,体现在关于偏好关系“≥(弱优于)”的两个基本假设即完备性和传递性之中。具体地说,如果≥满足:(1)完备性。任何两个备选对象a,b,它们的关系是或者a≥b,或者b≥a。二者必居其一。(2)传递性假定。对于任意的三个备选对象:如果a≥b,b≥c,那么a≥c。则称偏好关系≥是理性的。
阿罗将这两个假定看作公理。满足完备性假定的偏好关系被他称为连通关系(connected),满足传递性偏好关系被他称为传递性的(transitive)。然而,当群体加总各个个体的偏好关系时,会出现不合理的结果。孔多塞投票悖论反映了这种不合理性。
举一个例子。假定有3个群体,他们对备选方案A,B,C进行表决。方法是两两进行比较,即让投票群体对他们进行表决。假定这3个群体的偏好关系如下:
表3 一个可能的偏好顺序
我们先让投票者对A和B进行投票。我们看到,由于群体1和群体3均认为“A优于B”,群体2认为“B优于A”,这样,在这轮投票中A以2比1战胜B。
我们再让这三个群体对B和C进行投票。群体1和群体2认为“B优于C”,群体3认为“C优于B”,投票结果是:B以2比1战胜C。
既然A战胜了B,B又战胜了C,似乎是,如果对A与C进行投票,A应当战胜C。对于任何一个理性的投票人,这是自然的。但这里,我们看到,当群体对A和C进行投票时,C以2比1战胜了A!
这就是孔多塞投票悖论,又称阿罗悖论、循环投票悖论。当采用两两相决的孔多塞投票规则时存在产生循环投票悖论的可能性。
进一步地,阿罗证明了,一个群体中的每个人在给定偏好顺序的情况下,不可能存在满足下列4个条件并具有传递关系的社会福利函数:第一,定义域不受限制——社会福利函数适合所有可能的个人偏好类型;第二,非独裁——社会偏好不以一个人或少数人的偏好来决定;第三,帕累托原则——如果所有个人都偏好a甚于b,则社会偏好a甚于b;第四,无关备选对象的独立性——如果社会偏好s甚于b,无论个人对其他的偏好发生怎样的变化,只要a与b的偏好关系不变,社会偏好a甚于b不变。阿罗定理是深刻的:如果不存在着这样的福利函数,社会所使用的各种加总个体偏好的方法(投票制度)有何合理性而言?这是不是说明,民主制度存在着天然的缺陷?
五、结语
博弈论即是研究处于互动(interaction)中的理性主体(agent)是如何行动的。尽管博弈论发展迅猛,但它的基础理性人假设存在着问题。正如其他科学的发展过程所昭示给我们的,基础需要不断夯实一样,博弈论基础也需要进一步的夯实。对理性假设困境的探讨有助于博弈论的进一步发展,也有助于利用博弈论的社会科学的发展。