关于蜈蚣博弈悖论的思考_蜈蚣博弈论文

蜈蚣博弈悖论引发的思考，本文主要内容关键词为：蜈蚣论文,悖论论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：B812.3

文献标识码：A

文章编号：1672-7835(2005)01-0030-04

悖论(paradox)源于希腊语，英文Paradox即似是而非、自相矛盾的意思。悖论指肯定它真，就推出它假；肯定它假，就推出它真的一类命题。历史上有很多悖论，如芝诺悖论、说谎者悖论、罗素悖论等，这些悖论的发现和求解对科学的发展起了很大的推动作用。

一　蜈蚣博弈悖论

“蜈蚣博弈悖论”（简称“蜈蚣悖论”）是在博弈论及博弈逻辑的研究中发现的悖论，是一种合理行为选择的悖论。“蜈蚣博弈”(centipede game)是由罗森塞尔(Rosenthal)在1981年提出的一个动态博弈问题。由于这个博弈的扩展形很像一条蜈蚣，因此被称为“蜈蚣博弈”。

蜈蚣博弈可以有不同的版本(Megiddo,1986;Aumann,1988;Mckelvey & Palfrey,1992)，本文给出的是较常见的一种(Rosenthal,1981)。它是指这样一个博弈：两个博弈方A、B轮流进行策略选择，可供选择的策略有“合作”和“不合作”两种。规则是：A、B两次决策为一组，第一次若A决策结束，A、B都得n，第二次若B决策结束，A得n-1而B得n+2；下一轮则从A、B都得n+1开始。假定A先选，然后是B，接着是A，如此交替进行。A、B之间的博弈次数为一有限次，比如198次。假定这个博弈的各自的支付给定如下图：

图1　蜈蚣博弈示意图

在上图中，所有得益数组中第一个数字是博弈方A的得益，第二个数字是博弈方B的得益。在这个博弈中的博弈方A、B是如何进行策略选择的？当A决策时，他考虑博弈的最后一步即第198步：B在“合作”和“不合作”之间作出选择时，因“合作”给B带来100的收益，而“不合作”带来101的收益，根据博弈逻辑的基本假设——理性人假设，B会选择“不合作”。但是，要经过第197步才到第198步，在197步，A考虑到B在第198步时会选择“不合作”——此时A的收益是98，小于B合作时的100——那么在第197步时，他的最优策略是“不合作”——因为“不合作”的收益99大于“合作”的收益98；……如此推论下去。最后的结论是：在第一步A将选择“不合作”，此时各自的收益为1！这个结论是令人悲伤的。

不难看出，在该博弈的推理过程中，运用的是逆推归纳法。从逻辑推理来看，逆推归纳法是严密的，但结论是违反直觉的。直觉告诉我们，一开始就停止的策略A、B均只能获取1，而采取合作性策略有可能均获取100，当然A一开始采取合作性策略有可能获得0，但1或者0与100相比实在是太小了。直觉告诉我们采取“合作”策略是好的。而从逻辑的角度看，A一开始应选择“不合作”的策略。是逆推归纳法错了，还是直觉错了？人们在博弈中的真实行动“偏离”了运用逆推归纳法关于博弈的理论预测，造成二者间的矛盾和不一致，这就是蜈蚣博弈的悖论。

对蜈蚣博弈进行实验的结果也表明，在绝大多数任意选择的博弈方之间进行该博弈，一般都不会出现逆推归纳法预测的博弈方A在一开始就选择结束博弈时双方收益为1的结果。蜈蚣悖论对逆推归纳法的有效性提出了严重的质疑：逆推归纳法是否失效了？

二　逆推归纳法及其争论

“逆推归纳法”（Backward induction，又译为“逆向归纳法”）是由Zermelo(1913年）首先使用的，他用逆推归纳法的思路讨论象棋博弈问题。又由Selten(1965、1975)加以完善和推广。逆推归纳法是一种求解完全且完美信息下的动态博弈(dynamic game with perfect and complete information)的方法。逆推归纳法有两个基本假设：一是理性人假设（每个决策者都是理性的）；二是一致预期（每个人对别人行为的预期都是正确的）。

所谓动态博弈(dynamic game)是指博弈方的行动存在着先后次序，并且后行动的博弈方能够观察到前面的行动。完全且完美信息(perfect and complete information)指博弈方对博弈进程的信息及博弈方得益的情况有完全的了解。逆推归纳法即从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法。逆推归纳法是完全归纳推理，其推理是演绎的，结论是必然的。

以市场进入博弈为例，来看如何运用逆推归纳法。假定有甲、乙两个企业，甲企业一直独占某城市的市场，每年的垄断利润是10亿。乙企业为了进入这个市场，需要4亿元的投资。当乙企业准备进入的时候，甲企业必须决策：或者“容忍”进入，就是收缩产量维持高价，利润降为5亿元，这时乙企业的利润也是5亿元，减去投资费用，实得1亿元；或者展开商战“对抗”，就是加大产量，降低价格，力图把进入者挤出去，这时甲企业的利润降到2亿元，乙企业得到2亿元还抵不过投资的4亿元，亏损2亿元。对于甲而言，一旦乙进入，利润会受损很多，乙最好不要进入。因此，甲向乙发出威胁：如果你进入，我将打击。这个博弈扩展式可用博弈树来表示：

图2　市场进入博弈示意图

这个博弈的结果是，乙选择“进入”，甲选择“容忍”。在这个博弈中甲的威胁是不可信的。乙是这样推理的：假定我（乙）进入，甲如果“打击”，它的得益为2；“容忍”的得益为5。甲是理性人，它将选“容忍”的策略。既然我预测到甲将“容忍”，我在“进入”和“不进入”间进行选择时，“进入”的得益为1，“不进入”的得益为0，作为理性人我将选择“进入”。当乙选择“进入”策略时，甲的推理是：如果采取“打击”，我的得益为2；“容忍”的得益为5，选择“容忍”是理性的策略选择。

通过以上分析，可以看出逆推归纳法的逻辑基础是这样的：动态博弈中先行为的理性的博弈方，在前阶段选择行为时必然会考虑后行为博弈方在后面阶段将会怎样选择行为，只有在博弈的最后一个阶段选择的、不再有后续阶段牵制的博弈方，才能直接作出明确选择。而当后面博弈方的选择确定以后，前一阶段博弈方的行为也就容易确定了。

由于逆推归纳法确定的各个博弈方在各阶段的选择，都是建立在后续阶段各个博弈方理性选择的基础上的，因此排除了不可信的威胁或承诺的可能性，因此它得出的结论是比较可靠的，确定的各个博弈方的策略组合是有稳定性的。

逆推归纳法在逻辑上是严密的，然而它存在着“困境”；蜈蚣悖论恰好反映了这种“困境”。许多学者试图克服这些理论困难，探究逆推归纳法是否有坚实的逻辑和理性基础，是否有效，从而产生了广泛的争议和严重的分歧。代表性的两种观点是以Aumann为代表的支持逆推归纳法的观点和以Binmore等为代表的否定逆推归纳法的观点[1]。

Aumann等学者通过对逆推归纳法所使用的理性假设和理性基础的内涵，包括知识和理性的概念、理性的公共知识的定义方式的重新审视和定位等，给逆推归纳法提供较可靠的逻辑基础，保证逆推归纳法在理论上能够成立。他们所做的工作主要是完善从公理、定义和假设条件出发推断结论的数学和逻辑结构，但是却没有解决如何从实际出发解释现实中遇到的问题。Selten(1975)提出了“颤抖手均衡”(Trembling hand equilibrium)的思想，认为博弈方所犯的错误都只是意外、偶然的。

以Binmore等为代表的否定逆推归纳法的学者，主要用“进化法”(The evolutionary approach)，即从进化的角度分析和理解这个难题。他们认为Aumann等逆推归纳法支持者使用的“公理—定义—定理—证明”的方法论或理论模式，片面注重数学或逻辑方面的合理性，忽视放入这些数学模型和逻辑框架的内容本身是否成立或是否有前提，忽视其结果是否有现实意义，采用的不是学术研究中正确的思想方法。Binmore等用进化的方法检验和讨论逆推归纳法的有效性，得出的基本结论是：逆推归纳法不可能用进化的方法加以“模拟”，也就是说找不到可能得出与逆推归纳法相同的预测的进化方法或机制[2]。Bernard Walliser(1996)认为，在对完美形的扩展形博弈应用逆推归纳程序时，会引起三种突出的矛盾或悖论：在逻辑方面，当逆推归纳法靠“理性的公共知识”支持时，是自我否定的或者至少是“误证的”(Mis-justified)；在理论方面，如果在进化博弈论中寻找逆推归纳法的近似方式，很少会有什么收获；在实证方面，当我们用实验的方法对逆推归纳法加以检验的时候，在一些博弈中不会被博弈方采用。因此Binmore等学者否定逆推归纳法，认为逆推归纳法的价值和意义值得怀疑。

三　逆推归纳法的有效性

蜈蚣悖论对逆推归纳法的有效性提出了质疑，不同的学者对此提出了不同的观点。蜈蚣悖论是逆推归纳法悖论的典型。笔者认为，逆推归纳法悖论的产生其实是源于逆推归纳法的适用范围问题，即逆推归纳法只是在一定的条件下和一定的范围内有效。忽略了这一点笼统去谈论逆推归纳法的有效性不是科学的研究思路。

笔者认为，对于逆推归纳法的有效性，可以从以下情况分析：

1.从逆推归纳法的适用范围来看，应当避免在较长阶段的动态博弈中使用逆推归纳法。在博弈阶段和路径数量是有限的情况下，逆推归纳法成立的概率比较高。许多问题的症结在于较多阶段的动态博弈中逆推归纳法的适用性。博弈的阶段数不同，博弈方的策略选择会有很大的差异。

以象棋博弈为例说明这个问题。象棋博弈是一种完全信息的动态博弈，而且博弈阶段和路径数量是有限的，但由于象棋博弈的路径数量很大、分支选择很多，即使用最先进的电子计算机也无法在短时间内找出每步的最优决策，因此象棋比赛中不可能有人一开始就用逆推归纳法下棋。但是实践却表明，下棋人往往在象棋博弈的局部阶段，即在有限步数、有限选择的范围内局部地使用逆推归纳法。正因为如此，才有“下一步看三步”的说法。

又如，在蜈蚣博弈中，如果阶段数增加，理性的博弈双方合作的可能性会更大；相反，如果蜈蚣博弈的阶段数大大减少，比如说只有3个阶段，那么开始时合作的可能性就小得多，因为选择合作的潜在利益减少了很多，而承担的初始风险却是同样的，逆推归纳法的逻辑随时可能起作用。

因此，逆推归纳法适合在完全且完美信息的有限博弈中应用。其中“有限”表明，博弈方的数量是有限的，博弈的阶段数是有限的，同时任一阶段中可行的行动数目（分支选择）也是有限的。

但是，在遇到两条路径利益相同的情况时逆推归纳法会发生选择困难。因为逆推归纳法是通过逐个阶段的唯一最优选择寻找均衡路径的方法，如果某个博弈方在某个阶段遇到两种无差异的行为，就无法确定唯一的最优路径，逆推归纳法程序会在这里中断。逆推归纳法不能分析比较复杂的动态博弈。

2.逆推归纳法的有效性与博弈方的利益密切相关。博弈方是否根据逆推归纳法来预测行为，取决于逆推归纳法的路径是否符合博弈方的真正利益（即长远利益、整体利益），如果符合，博弈方就会依逆推归纳法进行策略选择；那么逆推归纳法就会成立。

在蜈蚣博弈中，根据逆推归纳法，博弈方在一开始就应该选择结束博弈，即博弈双方的得益均为1。这是不符合双方的长远利益的。逆推归纳法的路径与博弈方的长远利益相悖，因而博弈方不会按逆推归纳法的逻辑推理去决策。在该博弈中，如果博弈的双方彼此信任、默契，彼此相信对方是理性的，彼此相信对方会追求自身的长远利益与整体利益，那么双方选择合作策略的可能性会更大。而且在现实生活中，如果博弈双方相互信任、从长远利益与整体利益出发去进行策略选择，结果往往是双赢。

3.当博弈的结构与逆推归纳法的方法论特点一致时，逆推归纳法就能够成立，能够得出有效的预测。逆推归纳法与传统的归纳法是有区别的，传统的归纳属于静态归纳；而逆推归纳则是一种博弈互动中的动态归纳。逆推归纳法的逻辑推理严密，是演绎性的，结论是必然的。它要求各博弈方对博弈的结构，包括次序、规则和得益情况等都非常清楚，模糊或互相不信任都会使这种方法的运用失去基础，这就使得博弈设定的精确性的问题更加突出。逆推归纳法只能分析明确设定的博弈问题，要求且各个博弈方了解博弈结构，相互知道对方了解博弈结构。也就是说逆推归纳法适用于完全且完美信息的动态博弈。

4.在现实的博弈中，逆推归纳法是否有效受多种非理性因素的影响。

在蜈蚣博弈中，博弈方合作的次数越多，博弈方收益越大，但是面临的风险也越高。因为对方有可能为了眼前利益，非理性地突然终止合作而使自己损失惨重。在收益与风险的选择上，不同的人有不同的偏好。

在现实的博弈中，还面临信息不对称的问题。在现实的企业竞争中，有时企业注重商业信息的收集与分析、注重对对方企业资信的调查，对博弈的对手何时会终止合作有比较准确的预期与判断。通常，彼此熟知的企业容易合作；而在“遭遇战”中相遇的企业往往难以合作。显然，在不同的信息环境下，逆推归纳法有效性是不同的。

即使在逆推归纳法有效的情况下，我们也只能说逆推归纳法成立的概率比较高。因为在现实的博弈中，不仅博弈方的理性通常是有限的，而且还受到信息不对称、道德情感、法制、宗教文化等因素的制约，甚至有时会犯错误。

因此，笔者认为逆推归纳法的成立是有条件的，在一定的条件下它成立的概率比较高。由于逆推归纳法在逻辑上和现实性方面都是有条件成立的，因此它的分析预测能力就有局限性，它就不可能适用于分析所有完全且完美信息的动态博弈；如果不恰当地运用了逆推归纳法，就会在一些博弈问题中造成矛盾和悖论。不能因为逆推归纳法的预测与实际有一些不符就否定它在分析和预测行为中的可靠性，只要分析的问题符合它能够成立的条件和要求，它仍然是一种分析动态博弈的有效方法。

收稿日期：2004-08-24

标签：蜈蚣博弈论文; 合作博弈论文; 逆推论文; 博弈论论文;

关于蜈蚣博弈悖论的思考_蜈蚣博弈论文

猜你喜欢