交流理性与逆向归纳法悖论的消解,本文主要内容关键词为:归纳法论文,悖论论文,理性论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 逆向归纳法悖论
在确定性条件下理性的博弈参与人进行策略选择的时候,其行为是或应当是选择给他带来最大支付(或效用)的那个策略。这就是效用最大化原则。这样的原则正确性毋庸置疑。当决策者的决策“环境”是“自然”的时候,决策者的理性选择能够使其利益最大化;而当决策者的决策环境为“他人”,即决策者处于互动决策(interaction)——博弈(game)——之中时,问题便产生了。
我们来看动态博弈中逆向归纳法悖论。
在“你来我往”的动态博弈中行动之作出是轮流进行的,在每轮选择中,策略选择者选择使自己的支付最大的策略。从动态博弈的最后一步分析人们这样的理性行为而往回推的方法便是逆向归纳法(backward induction)。
逆向归纳法,又称倒推法。该方法被称为归纳法,是因为在该方法从最后一步向后进行推理的每一步中,从博弈参与人的所有可能策略中“概括”或“归纳”得出一个最优策略。但由于在该方法的推理中考虑了参与人的所有可能策略,因而逆向归纳法是完全归纳的,即它具有演绎性质。逆向归纳法被博弈论专家用来求解有限步的完全且完美信息的动态博弈的方法。通过该方法得到的博弈均衡被称为完美的纳什均衡。
逆向归纳法的逻辑严密性毋庸置疑。然而,当我们分析一个特殊的博弈——蜈蚣博弈——的时候,一个违背直觉的悖论出现了,这个悖论被认为是对逆向归纳法的挑战。
蜈蚣博弈(centipede game)为罗森塔尔(Rosenthal,1981)提出,我们这里采取的是奥曼(Aumann,1998)论文中的形式。
图1这个博弈有两个参与人,安娜和鲍伯。该博弈从安娜开始,她有两个策略“合作”和“不合作”,若她选择“不合作”,博弈即刻终止,安娜得到2,鲍伯得到1;若她选择“合作”,那么博弈继续进行,由鲍伯开始选择。鲍伯同样有“合作”和“不合作”两种策略。在这第二轮选择中,若鲍伯选择“不合作”,博弈终止,选择“合作”,博弈继续进行……在这个博弈最后一轮,即第2n轮,若鲍伯选择“不合作”,他所得2n+1,安娜得2n-1;若他选择“合作”,鲍伯得2n+1安娜得2n+2。
附图
图1 蜈蚣博弈
因这个博弈树形状像蜈蚣,因而被称为蜈蚣博弈。
在这里我们假定了,总的步数2n是一个双方都知道的有限数。严格地说,我们假定了,该博弈的总步数2n为双方的公共知识(common knowledge)。
我们用逆向归纳法来分析这个博弈的结果:在最后一步,鲍伯在“合作”与“不合作”中进行选择时,因为“不合作”带给他的好处是2n+2,而“合作”的好处是2n+1,选择“不合作”的好处大于“合作”的好处,鲍伯应当选择“不合作”。在倒数第二步,安娜这样想,选择“不合作”的好处是2n;而选择“合作”,在下一步鲍伯肯定会选择“不合作”,此时她的好处将是2n-1,因此在这倒数第二步中安娜的理性选择“不合作”……通过这样的分析,在这个博弈的第一步安娜的理性的选择是“不合作”。
这样,这个博弈的结果是,在博弈的第一步安娜选择“不合作”,博弈即终止。这一点构成蜈蚣博弈的完美纳什均衡点。在这个点上,安娜得到支付2,而鲍伯得到支付1。
这样的结果是反直觉的:最大化自己支付的理性人其所得是不合理的。从这个博弈树来看,若他们均选择“合作”,双方的支付将会很高。但根据逆向归纳法,这个结果达不到。因此,这是一个悖论。
逆向归纳法悖论被提出后,引起了包括逻辑学家在内的学者的广泛关注。
2 逆向归纳法悖论的讨价还价解
对于蜈蚣博弈的这个逆向归纳法解,博弈论专家中存在赞成和反对两种观点。著名的博弈论专家2005年诺贝尔经济奖获得者奥曼(R.J.Aumann)认为,如果“策略人是理性的”是双方的公共知识,逆向归纳法的解必然要达到(Aumann,R.J.,1998)。
英国伦敦经济学院的宾谟(K.Binmore)教授则认为,在蜈蚣博弈的开始存在混合策略的可能,即在博弈的开始安娜有采取“合作”的非零概率,而轮到鲍伯,他同样有采取“合作”策略的非零概率。因此,在宾谟看来,该博弈终止于第一步不是必然的。
本人认为,在最后一步鲍伯合作的概率必然为0,逆推到第一步,安娜的合作概率也必然为0。这样,宾谟试图通过引进混合策略均衡以作为这个博弈的替代性的解是行不通的。逆向归纳法悖论依然存在。
由逆向归纳法得到的完美纳什均衡真的像奥曼等人认为的那样具有必然性吗?
一旦该博弈中的两个参与人均采用逆向归纳法,那么由逆向归纳法得到的这个完美纳什均衡是可预期的。既然博弈参与人都知道,这样的均衡对双方来说都是比较差的结果,在这个开始博弈之前,理性的参与人必然会力图避免这个结果。问题是,这样的结果能够避免吗?如果能够避免,那么它就不是必然的。如果不能避免,那么它就是一个事先双方均知道但无法逾过的博弈悲剧。
我们看到,通过逆向归纳法,任何动态博弈的完美纳什平衡之实现,是不需要博弈参与人之间的言语沟通的,博弈参与人是在“沉思的计算”中使用逆向归纳法的。这是博弈论专家那里所暗含的博弈情景。而实际中的博弈远非如此,博弈参与人进行言语行为(speech act)是常见的:每个参与人使用言语与其他参与人进行沟通、讨价还价、谋求协议……一个很自然的是,进行蜈蚣博弈的两个人,安娜和鲍伯尝试着与对方进行交流,寻求一个另外的较好的博弈结果,避免纳什均衡结果。问题是,他们能够用言语实现替代性的结果吗?
在蜈蚣博弈中有这样一个特点:在任何一步,某参与人选择“合作”后两人支付总和将大于其选择“非合作”时的两人支付总和,也就是说,一旦该参与人选择了“合作”,他们两人组成的群体的总收益增加,尽管该参与人的收益可能减少。例如,在第一步,安娜进行选择,如果她选择“不合作”,二个人的支付总和为3,而如果她选择“合作”,在下一步即第二步,鲍伯选择“不合作”,他们的支付总和为5,5大于3,而如果鲍伯选择“合作”,他们的支付总和更大。在任何一步,情况都是如此。如何使参与人在策略选择时选择“合作”而不是“不合作”?
我们从第一步进行分析。在博弈的开始,安娜的理性的选择自然是“不合作”,此时她的所得2。如果要让安娜选择“合作”,条件是,她要得到比2要多的支付。如果安娜选择“合作”,直接受益的是的鲍伯。鲍伯为了让安娜选择“合作”,鲍伯应当从其获益中给予安娜以补偿,补偿安娜可能的损失。安娜从鲍伯那里得到补偿后的支付大于其选择“不合作”时的支付,她才可能选择“合作”;鲍伯从他所得的支付中减去给安娜的补偿后的支付大于安娜选择“不合作”时的支付,他才可能与安娜进行“交流”。
当然,只有在存在安娜和鲍伯两人所得均大于安娜选择“不合作”的支付的可能下,两人才能够就安娜采纳“合作”策略而讨价还价。我们来看一下有没有这样的可能存在。
我们忽略两人进行讨价还价的成本,或者说假定讨价还价成本为0,同时我们忽略未来的折扣率。设鲍伯给予安娜的补偿δ[,1]给安娜以换取安娜采取“合作”策略。1+δ[,1]为安娜选择“合作”情况下得到补偿后的总支付,值应当大于选择“不合作”时的支付2。安娜第一步选择“合作”,在第二步鲍伯采取“不合作”,鲍伯给予安娜补偿后的支付为4-δ[,1],其值要大于1。因此,我们有下述两个条件:
1+δ[,1]>2(2-1)
4-δ[,1]>1(2-2)
由(2-1)和(2-2)得到:3>δ[,1]>1。
安娜与鲍伯就安娜第一步采取“合作”展开讨价还价,这个讨价还价过程是有解的,3>δ[,1]>1便是解的范围。补偿值δ[,1]依赖于两人的讨价还价。无论这个值是1与3之间的何值,他们采取的行为都是理性的,因为此时双方所得超过了安娜在第一步采取“不合作”的支付。
这是不是意味着该博弈终止于第二步呢?不是。既然鲍伯能够就安娜采取“合作”策略讨价还价,为什么在第二步安娜不可以与鲍伯就他采取“合作”策略而讨价还价呢?如果鲍伯采取“合作”策略,安娜的支付将提高。安娜完全可以给予鲍伯以补偿,以换取他的“合作”策略,如同鲍伯给予她的补偿一样。
类似地,我们假设,在第二步,安娜给予鲍伯的补偿为ε[,1],ε[,1]满足两个条件:
4+δ[,1]-ε[,1]>1+δ[,1](2-3)
3-δ[,1]+ε[,1]>4-δ[,1](2-4)
由上面两式得:3>ε[,1]>1。
这个博弈自然不会终止于这一轮。安娜和鲍伯将继续讨价还价。假定鲍伯在下一轮给予安娜的补偿为δ[,2],δ[,3],…,安娜给予鲍伯的补偿为:ε[,2],ε[,3],…,随着博弈的继续,两人的总支付在增加,因此,他们作为理性人能够将讨价还价进行到最后一步。安娜与鲍伯选择“合作”策略都是n次。安娜获得支付U[,a]和鲍伯获得的支付U[,b]分别为:
附图
一个特殊情况是,在讨价还价中补偿值为常数,即δ[,i]=δ,ε[,1]=ε,(2-7)与(2-8)为:
2<U[,a]=2n+2+n(δ-ε)<4n+2 (2-9)
1<U[,b]=2n+1+n(ε-δ)<4n+1 (2-10)
(2-7),(2-8),或(2-9),(2-10)被称为蜈蚣博弈的合作性的均衡解或讨价还价解。它表明,对于安娜和鲍伯来说,这个合作性均衡解比逆向归纳法的纳什均衡解要好。
需要说明的是,我们这里给出的合作性解是在没有考虑讨价还价成本和未来的贴现率的情况下得出的。如果讨价还价成本足够高或未来的贴现率足够大,蜈蚣博弈不一定能够进行到最后一步。在此情况下,具体的博弈结果不一定是合作性均衡点,也不必然是纳什均衡点,具体的博弈结果取决于讨价还价成本、不同的参与人在不同阶段的贴现率。
3 合作性均衡的性质定理和存在定理
我们给出动态博弈的一种与纳什均衡不同的均衡概念,我们称之为合作性均衡(cooperative equilibrium)。所谓合作性均衡是指博弈参与人通过具有约束力的协议而实现的。而这样的协议是在讨价还价中产生的。该均衡具有帕累托性质。
任何一个动态博弈,我们有这样一个定理。
合作性均衡点的性质定理:在没有讨价还价费用以及未来支付的贴现率为0的情况下,某点是合作性均衡点的充分必要条件是,该点上所有博弈参与人的支付总和在该博弈中为最大。
证明:假定一个动态博弈的所有参与人在点A上形成了行动协议,该协议包括了均衡点A上的支付调整方案。如果在A点上所有博弈参与人支付之和不是最大,那么必定存在另外一点B,在B点上存在一个使他们每个人的支付都得到提高的分配方案,即存在一个帕累托改进路径。因此,某点为合作性均衡的必要条件是,该点上所有参与人的支付在博弈中为最大。
假定在点A上所有博弈参与人支付之和是该博弈的所有点中最大的点,那么一旦在该点上的分配协议达成,该协议便是帕累托状态,此时,博弈参与人无法通过寻求新的均衡点而使每个人的支付都能提高。因此,某点为合作性均衡的充分条件是,该点上所有参与人的支付在博弈中为最大。
合作性均衡存在定理:对于任何动态博弈,至少存在一个合作性均衡点。
证明:由于每个动态博弈都至少存在一个支付和为最大的点,根据上述合作性均衡点的性质定理可得,任何一个动态博弈至少存在一个合作性均衡点。
一般而言,一场动态的博弈合作性均衡点与纳什均衡点不是同一的。然而,一个可能情况是,在纳什均衡点上所有博弈参与人的支付总和是该动态博弈的所有点中参与人支付总和最大的,此时,合作性均衡点与纳什均衡点是同一个。在这种情况下,参与人通过逆向归纳法“自动地”实现这个对所有参与人均有利的点,而无须讨价还价。我们仍可以称这点为合作性均衡点,只不过,在这点上所有博弈参与人的支付无须重新分配。
4 交流理性与沉默理性
参与人在进行选择其策略时自然选择使其支付最大的那个策略,在动态博弈中这条路径便是纳什均衡路径。博弈论专家论证了这条路径的合理性。我们这里给出了另外的均衡:合作性均衡,或者说,讨价还价均衡。这个合作性均衡能够实现吗?它的合理性在哪里?
我们称通过讨价还价实现的理性为“交流理性”。这个合理的结果是博弈参与人通过沟通、交流而达致的,没有言语沟通、讨价还价,合作性的结果无法达成。与此不同的是,纳什均衡的合理性可被称为“沉默理性”:在这样的博弈中,没有言语沟通,策略选择的理性是在沉默中实现的。
博弈论专家可能不同意我的看法。他们可能说,博弈论分析了动态博弈中威胁或承诺是否可信的问题,因此,他们会认为,说博弈论没有考虑言语行为是错误的。
确实,博弈论专家分析了动态博弈中博弈参与人宣称的威胁或承诺是否可信的问题。然而,博弈论专家的分析是不正确的。理由是,既然所有博弈参与人的策略组合以及支付是所有博弈参与人公共知识,由逆向归纳法得到的纳什均衡同样是公共知识,博弈参与人所做的威胁或承诺是否可信同样是公共知识。也就是说,威胁或承诺是否可信的是所有博弈参与人所知道的。这意味着,博弈中博弈参与人其所做的威胁或承诺无论是否可信,都是无意义的言语行为,在其他参与人那里不会有任何效果,对其他博弈参与人的策略选择不会产生任何影响。这样的言语行为如果存在的话,最多是“空口声明”(cheep talk),作为理性的博弈参与人,他会做说这样无意义的言语行为?自然不会。如果认为参与人所做的言语行为是有意义的,那么这会与参与人是理性的这样的假定相矛盾。
因此,博弈论专家所给出的子博弈纳什完美均衡是在沉默中实现的。此时,博弈参与人是聋子和哑巴。而在实际的博弈中,言语行为是博弈中的一个非常重要的部分。
5 结语
我们简单总结一下:
逆向归纳法悖论是由于没有考虑实际博弈中存在言语交流而产生的。纳什均衡是“沉默的均衡”。逆向归纳法悖论反映了博弈论理论的一个局限。而在实际的博弈中,这样的悖论不会产生:参与人能够通过言语交流达到合作性的均衡,从而实现交流合理性。