博弈行为中的演绎推理与归纳推理及其问题_推理论文

博弈行为中的演绎与归纳推理及其问题，本文主要内容关键词为：归纳论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：BS12

文献标识码：A

1　一种新的逻辑：博弈逻辑

博弈论研究人类活动中的互动行为，在经济学中得到广泛的运用。在博弈论中，人类的所有活动，只要是互动行为，均可以看成是博弈行动。在此基础上，一种新的逻辑“博弈逻辑”(game logic)得以兴起，它是一种特殊的行动逻辑(action logic)。

博弈论研究多个理性人在互动过程中如何选择自己的策略。理性的人是使自己的目标或得益最大化的人，在经济活动中理性的人即是使经济目标最大化的人——经济人。理性人如何使得自己的“得益”最大？关键是“推理”。

博弈逻辑中存在着两种研究纲领。第一种研究纲领是结合模态逻辑系统，建立新的博弈逻辑系统。在这方面，日本筑波大学的金子守(Mamoru Kaneko)教授是这方面的权威。近几年，他在国际刊物上发表了大量有关博弈逻辑方面的论文。他不仅在模态逻辑系统的基础上建立了多个博弈逻辑(game logic)系统，而且，建立了与博弈逻辑密切相关的公共知识逻辑(common knowledge logic)系统。第二种研究纲领是研究博弈活动中的实际“推理问题”，许多博弈论专家在此方面做了大量的工作。对博弈逻辑做整体的分析不是这里的任务，本文的目的是简要论述博弈活动中的推理问题，属于第二种研究纲领。

根据博弈论，人们在实际的博弈活动中涉及到两种推理：演绎推理与归纳推理。然而，正如传统逻辑中存在着悖论（演绎悖论和归纳悖论），在博弈逻辑中同样存在着悖论。

2　博弈逻辑中的演绎推理与归纳推理

博弈论有两个假定：第一，博弈参与人是理性的；第二，博弈参与人的得益不仅取决于自己的行动，同时取决于其他人的行动。

每个理性的参与人在策略选取，使自己得益最大时，要充分考虑局中其他人的策略选取。同时，每个参与人知道其他参与人与他有同样的想法。在博弈中，“每个人是理性的”是公共知识(common knowledge)，它是每个参与人进行策略选择或者推理的前提。

博弈参与人的推理表现在他对策略的选取上。决定参与人的策略选取一方面是博弈结构，另一方面是其他参与人的策略。博弈结构是不同策略组合下的支付函数或者得益函数。按照博弈的次序来分，博弈分动态与静态博弈；按照信息的分布来分，博弈分为完全信息与不完全信息博弈。在不同的博弈结构下，参与人所用的推理不同。

根据参与人推理前提与结论之间的关系，在博弈中推理分为演绎推理和归纳推理。我们来分析博弈参与人是如何运用演绎推理与归纳推理的。

(1)静态博弈的演绎推理　让我们来分析典型的“囚徒博弈”的例子。

警察抓到了两个共同偷窃的小偷，对他们进行单独关押。囚徒面临这样的“政策”：如果一方“招认”，供出自己与对方以前所做违法之事，而对方“不招认”，“招认”方将无罪释放，对方会被判重刑10年；如果双方都与警方合作，选择“招认”策略，各被判刑5年；而如果双方均“不招认”，因警察找不到其他证明他们以前违法的证据，只能对他们的小偷行为进行惩戒，各判刑1年。这两个小偷如何做出选择？

囚徒困境的支付矩阵为：

“囚徒困境”是一个被广泛谈论和研究的博弈。在这个囚徒困境中，小偷的最终“得益”是当场释放还是被判刑（10年、5年、1年），不仅取决于该囚徒的决定，而且取决于另外的小偷的决定。

在这个例子中，每个小偷都作这样的推理：

如果对方“招认”，

我“不招认”的结果是判刑10年，“招认”的结果是判刑5年；

“招认”的结果好于“不招认”的结果

此时，我应当选择“招认”

如果对方“不招认”，

我“不招认"的结果是判刑1年，“招认”的结果是当场释放；

当场释放比判刑1年要好

此时，我应当选择“招认”

因此，无论对方采取“招认”还是“不招认”，我最好的策略是“招认”。

无论是甲，还是乙，他们均推理得出最好的策略是“招认”。双方均招认是“纳什均衡”——这是一个稳定的结果。

在囚徒博弈中存在惟一的纳什均衡（注：纳什均衡，简单地说就是，一策略组合中，所有的参与者面临这样的一种情况：当其他人不改变策略时，他此时的策略是最好的；也就是说，此时如果他改变策略，他的支付将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。）点，即两个囚犯均选择“招认”策略。一旦人们处于囚徒困境，“囚徒困境有惟一的纳什均衡点”构成参与人的“公共知识”，双方均毫不犹豫地选择“招认”。

这是静态博弈的例子。在这个推理过程中，双方的推理均是演绎的。

(2)动态博弈中的演绎推理　动态博弈过程如同静态博弈，也是一个推理过程。我们来看一下动态博弈中人们是如何进行演绎推理的。先看一个例子。

有两个企业A、B。企业B独占一个行业的市场，企业A要进入这个领域，想与企业B瓜分该市场。企业B不愿意A与它一起瓜分该市场，它发出“威胁”：“如果你进入，我将打击”。当然，对B进行打击，双方均有损失。——这是双方的“公共知识”。该博弈用博弈树表示，即为：

上图中的数字表明：如果A“不进入”，A的得益为0，B的得益为10；如果A“进入”，B“不打击”的话，A与B平分10，各得到5，而如果“打击”的话，A的收益为-3，B的收益为4。

这个博弈的结果是，A选择“进入”，B选择“不打击”。——它们构成“子博弈精炼纳什均衡”。对于这个博弈，B的威胁“如果A进入，我将打击”是“不可信的”威胁。

在这个动态博弈中，理性的参与人所用的推理方法被称为“逆向归纳法”又称“倒推法”(backward induction)。虽然被称为逆向归纳法，但它是完全归纳法，即它是演绎性的。

逆向归纳法是求解动态博弈的方法。它是演绎性的，因为它的推理是必然的。在上面的例子，我们看到，企业A作这样的推理：

假定我(A)进入，B如果“打击”，它的得益为4；“不打击”的得益为5。B是理性人。它将选择“不打击”。既然我预测到B将“不打击”，我在“进入”和“不进入”间进行选择时，“进入”的得益为5，“不进入”的得益为0，我作为理性人，将选择“进入”。

当A选择“进入”策略时，B的推理是：

如果采取“打击”，我的得益为4；“不打击”的得益为5，选择“不打击”是理性的选择。

(3)静态博弈中的归纳推理　博弈中参与人运用归纳推理，原因大体有两个：一是由于信息不完全；二是由于博弈是竞争性的——零和博弈。

不完全信息博弈，又称贝叶斯博弈，是博弈论研究的重要内容。不完全信息博弈是指博弈参与人的得益函数不是公共知识时的博弈。此时，虽然博弈参与人是理性的构成公共知识。但是，总存在某个策略组合下的得益不是公共知识。这样，即使一个博弈存在惟一的纳什均衡，由于这个均衡不是公共知识，这样的均衡不能够在一次博弈中达到。而所谓竞争性的博弈是指零和博弈，在一个博弈中如果只有两个参与人，其中一方所得等于另外一方所失，此时，双方不可能形成一个大家均接受而不会改变的纯策略对。

在这样的过程中，博弈参与人如何确定自己的策略选取呢？他只能根据其他参与人“历史”中的策略“归纳地”得出对方此时的策略，从而决定自己的策略。一个例子就是，《三国演义》一书中“空城计”博弈。

诸葛亮误用马谡，致使街亭失守。孔明在西城中，准备启程。等他安排停当，司马懿引大军15万蜂拥而来。当时孔明身边别无大将，只有一班文官，五千军士，已分一半先运粮草去了，只剩二千五百军在城中。众官听到这个消息，尽皆失色。孔明登城望之，果然尘土冲天，魏兵分两路杀来。孔明传令众将，旌旗竟皆藏匿，诸军各收城铺。打开城门，每一门用上二十军士，扮作百姓，洒扫街道。而孔明披鹤髦，戴纶巾，引二小童，携琴一张，于城上敌楼前，凭栏而坐，焚香操琴。马司懿来到城下，见到诸葛亮焚香操琴，笑容可掬。司马懿吓坏了，立即叫后军作前军，前军作后军，急速退去。司马懿之子司马昭问：莫非诸葛亮无军，故作此态，父亲何故退兵？司马懿说：“亮平生谨慎，不曾弄险，今大开城门，必有埋伏。我兵若进，中其计也。”孔明见魏军退去，抚掌而笑，众官无不骇然。诸葛亮说：司马懿料吾平生谨慎，不曾弄险，见如此模样，疑有伏兵，所以退去。吾非行险，盖因不得已而用之。我们兵只有二千五百，若弃城而去，必为之所擒。

我们可以用如下的博弈矩阵来表示这个博弈：

这个博弈中，“进攻”是司马懿的“占优策略”。该博弈有两个纳什均衡，即：（司马懿“进攻”，诸葛亮“守城”）；（司马懿“进攻”，诸葛亮“弃城”）。然而，司马懿不知道自己和对方在不同行动策略下的支付，而诸葛亮知道。他们对博弈结构的知识是不对称的：诸葛亮拥有比司马懿较多的知识。当然这种知识的不对称完全是诸葛亮“制造出来的”。

司马懿是如何推理的呢？司马懿的推理是“归纳的”。司马懿说：“亮平生谨慎，不曾弄险。今大开城门，必有埋伏。我兵若进，中其计也。”在司马懿看来，诸葛亮一生都是谨慎的，既然诸葛亮一生没有冒险，此次也肯定不会冒险，诸葛亮有埋伏。司马懿在“攻城”和“撤退”之间作出“撤退”的选择。

在这里，司马懿归纳作出了一个错误的策略选择。尽管如此，我们不能说司马懿是不理性的。司马懿作出错误的策略选取，是由于不完全信息造成的。在孔明－司马懿的博弈中，孔明做出的空城假象，目的就是让司马懿感到“攻城”有较大的失败的可能。如果我们用概率论的术语来说，诸葛亮的做法是加大司马懿对进攻失败的主观概率。此时，在司马懿看来，“攻城”失败的可能性较大，而“撤退”的期望效用大于“攻城”的期望效用。即：司马懿认为，“攻城”的期望效用低于“撤退”的效用。诸葛亮惟有通过这个办法，才能让司马懿退兵。

(4)动态博弈中的归纳推理　下面我们来分析“酒吧问题”中人们是如何运用归纳推理的。“酒吧问题”是一个重复性的动态博弈。

“酒吧问题”(bar problem)是美国人阿瑟(W.B.Arthur)提出的。阿瑟是斯坦福大学经济学教授，同时是美国著名的圣塔菲研究所(Santa Fe lnstitute)研究人员。他不满意经济学中人们所认为的，经济主体或行动者(agents)的行动是建立在演绎推理基础之上的观点。他认为人们的行动是基于归纳的基础之上的。“酒吧问题”就是阿瑟为了说明他的这个观点而提出的。

在1994年《美国经济评论》的题为《归纳论证和有界理性》一文中阿瑟提出了“酒吧问题”博弈，后来在1999年的著名的《科学》杂志上题为《复杂性和经济》一文又阐述了这个博弈。

酒吧问题是指这样一个博弈：有一群人，比如总共有100人，每个周末均要决定，是去附近的一个酒吧活动还是呆在家里。该酒吧的容量是有限的，比如空间是有限的，或者座位是有限的。我们假定酒吧的容量是60人，或者说座位是60个。如果去酒吧的人数少于60，并且他也去了，他的决定就是正确的；或者，如果去酒吧的人超过60人，而他没有去——当然这只有事后才知道，他的决定也是正确的。否则，其决定是错误的。

这里，我们假定他们之间不存在信息交流。我们看到，每个人根据对总的去酒吧人数的预测，而决定去酒吧与否。如果他预测去酒吧的人数超过60人，他将做出“不去酒吧”的决定，如果其预测不超过60人，他将做出“去酒吧”的决定。他们是如何做出预测呢？

每个参与者或决策者面临的信息只是以前去酒吧的人数，每个参与者只能根据以前去的人数的信息“归纳”地得出一个规律。根据这个规律，参与人预测下次去酒吧的人数，从而决定自己去还是不去。

这是一典型的动态博弈问题。假定，前面几周去酒吧的人数如下：

44,76,23,77,45,66,78,22……

不同的行动者可根据过去的历史“归纳”出某个规律，从而做出预测。例如预测：下次的人数将是前4周的平均数(53)；两点的周期环(78)；与前面隔一周的相同(78)……。

通过计算机的模型实验，阿瑟得出一个有意思的结果。当不同的行动者根据过去的历史而进行行动时，去酒吧的人数没有一个可预测的固定的规律。然而有这样一个“规律”：经过一段时间以后，“平均去酒吧的人数总是趋于60”。即，经过一段时间，这个系统中的人群“去”与“不去”的人数比是60:40。尽管每个人不会固定地属于“去”或“不去”的人群，但这个系统的这个比例是不变的。阿瑟说，预测者自组织到一个均衡类型或生态均衡系统。这100人构成的系统是一个混沌系统（混沌系统的行为是不可预测的）。

这就是酒吧问题。在这个问题中，每个参与人根据历史数据进行归纳并进行预测，然而，对于下次去酒吧的确定的人数，参与人是无法作出肯定的预测。例如，有趣的是，如果许多人均预测去酒吧的人数多于60，而决定不去酒吧，此时酒吧的人数将少于60。他们的预测则错了。如果许多人预测去酒吧的人数少于60，这些人去了酒吧，此时去酒吧的人数多过60。他们的预测也错了。

因此人们要作出“正确的”预测，他要知道其他人如何作出预测的。但是在这个问题中每个人的预测的信息来源是一样的，即都是过去的去酒吧的人数。每个人不知道别人如何作出预测的信息。因此，所谓“正确”预测是没有的。每个人只能根据以往历史“归纳地”作出预测，而无其他办法。阿瑟教授提出这个问题，是强调在实际中归纳推理与行动之间的实际关联。

利用归纳法的另外的例子是寡头垄断厂商之间的博弈。如果一个行业被多个寡头厂商所垄断，他们之间的竞争也是一个重复性的动态博弈。寡头厂商要确定自己最优的生产产量，但它们无法知道其他企业的产量。每个企业只能根据过去其他企业的生产产量来“推测”它们将要生产的产量，从而确定自己的最优产量。这个产量是最优的？不一定。如果是，它们就不调整自己的产量，如果不是，他们还要不断地调整。这同样是一个“归纳”和“调整”的过程。

3　演绎推理的一个悖论：逆向归纳法悖论

逆向归纲法是演绎推理，它是求解完全且完美信息下的动态博弈的方法。逆向归纳法推理严密。然而，将看到，逆向归纳法面临着致命的缺陷：悖论。

让我们来看一个蜈蚣博弈(centipede game)的例子。

蜈蚣博弈是由罗森塞尔(Rosenthal)提出的。它是指这样一个博弈：两个参与者A、B轮流进行策略选择：可供选择的策略有“合作”和“不合作”两种。假定A先选，然后是B，接着是A，如此交替进行。A、B之间的博弈次数为一有限次，比如198次。假定这个博弈的各自的支付给定如下：

蜈蚣博弈

上图中，c表示“合作策略”，nc表示“不合作”。

在这个博弈中的参与人A、B是如何进行策略选择的？

这个博弈形状像一只蜈蚣，而被命名成蜈蚣博弈。这个博弈奇特之处是：当A决策时，他考虑博弈的最后一步即第198步：B在“合作”和“不合作”之间作出选择时，因“合作”给B带来i00的收益，而“不合作”带来101的收益，根据理性人的假定，B会选择“不合作”。但是，要经过第197步才到第198步，在197步，A考虑到B在第198步时会选择“不合作”——此时A的收益是98，小于B合作时的100——那么在第197步时，他的最优策略是“不合作”——因为“不合作”的收益99大于“合作”的收益98。……如此推论下去。最后的结论是：在第一步A将选择“不合作”，此时各自的收益为1！远远小于大家都采取“合作”策略时的收益：A:101,B:99。

根据逆向归纳法，结果是令人悲伤的。从逻辑推理来看，逆向归纳法是严密的。但结论是违反直觉的。直觉告诉我们，一开始就停止的策略A、B均只能获取1，而采取合作性策略有可能均获取100，当然A一开始采取合作性策略有可能获得0，但1或者0与100相比实在是太小了。直觉告我们采取“合作”策略是好的。而从逻辑的角度看，A一开始应选择“不合作”的策略。

是逆向归纳法错了，还是直觉错了？

似乎逆向归纳法不正确。然而，我们会发现，即使双方开始能走向合作，即双方均采取合作策略，但这种合作不会坚持到最后一步。理性的人出于自身利益的考虑，肯定在某一步采取不合作策略。逆向归纳法肯定在某一步要起作用。只要逆向归纳法起作用，合作便不能进行下去。

因此，我们不能怀疑逆向归纳法的合理性，它的推理过程严密，符合逻辑。然而如果我们用逆向归纳法来求解蜈蚣博弈，则博弈结果是我们不能接受的。

许多博弈论专家认为，蜈蚣博弈所反映的不是悖论，逆向归纳法作为求解动态博弈的方法，是有效的。蜈蚣博弈的结果尽管不是我们所期望的，但它是均衡结果。这个均衡结果反映的是多主体下个体理性的局限。这是理性的困境。

4　博弈行为中归纳推理的“合理性”问题

休谟告诉我们，人们使用归纳法寻求自然现象之间的因果联系的这个过程，只不过是人的心理上的习惯联想。我们有什么其他理由认为，我们所认为的事物之间的所谓因果联系是必然的？这就是休谟问题。休谟质疑的是认识中的归纳法的合理性问题。在博弈行为中，归纳推理同样存在是否合理的问题。

我们用归纳法对自然进行认识，并根据我们归纳的结果做出相应的行动。如：我们看到天空中乌云密布，风渐渐地大了，我们想，天可能要下雨了，我们要带伞。之所以有这样的认识，是因为以往的经验“告诉”我们：当乌云增多并刮大风时，意味着要下大雨。即，当我们面对自然现象时，我们根据过去的经验来归纳并采取相应的行动。

在认识论中，我们知道，归纳推理所得出的结论是或然的。但是在认识中我们存在着这样一个信念：全称命题要么真、要么假，并且它是超越时间和空间的。我们用归纳法可以不断地接近真理。在互动的博弈中，理性的人运用归纳法进行推理时，归纳法是否有效？它的合理性在哪里？

在“酒吧问题”中，我们凭什么说，以前去酒吧的人数与下次去酒吧的人数之间有联系呢？当某人进行预测时，只有当他知道其他人预测的方法，他才能根据以往的人数和其他人的预测方法来“正确地”预测下次去酒吧的人数。这样的预测才能是“有根据的”或者说“有理由的”。但我们除了能知道以往去酒吧的人数外，我们无法知道其他人的预测的方法。即使我们知道了其他人的预测方法，但当其他人知道了我们将根据他们的预测方法来预测时，他们将改变他们的预测方法，从而使我们的预测归于无效。

在酒吧问题上，我们通过归纳法无法准确预测下次去酒吧的人数，那么我们通过对过去的历史能够知道什么？或者，在更一般的意义上说，在博弈行动中，人们通过归纳法能够学习到什么东西？这就是归纳法的合理性问题。

我们发现，在博弈中归纳法的有效性体现在参与人对博弈均衡的认识。即通过归纳性的学习，博弈参与人对该博弈均衡获得了认识，对其他参与人的均衡策略也获得了认识。

任何一个博弈均存在均衡，这也是诺贝尔经济学奖获得者约翰·纳什的贡献，被称为纳什均衡存在定理。然而，这里的均衡有两类：一类是纯策略均衡，另一类混合策略均衡。归纳法的作用就是对这两种均衡的认识。

当一个博弈存在惟一一个纯策略纳什均衡点时，并且该博弈是完全信息博弈，参与人在一次博弈中就可达到均衡点。但当博弈不是完全信息博弈时，博弈参与人通过多次博弈，“了解”其他参与人不同策略组合下的得益，一旦策略组合达到了纳什均衡，博弈方均无意改变策略。因为此时，这一点是博弈各方均能够接受的点。在这样的过程中，参与人通过归纳法认识到该策略均衡，同时认识到其他参与人的策略选择。

如果不存在纯策略均衡，而只存在混合策略均衡，博弈参与人通过归纳法同样能够认识到该混合策略均衡，同样能够认识其他参与人的策略选取，但此时是一混合策略，即参与人在其策略空间上的一个概率分布。在酒吧问题的博弈中不存在“纯策略纳什均衡”点，此时的参与人通过归纳法“认识到”平均去酒吧的人数为"60%"，即每次去酒吧的人数与不去酒吧的人数的“可能”比率为60:40。

因此，当一个博弈存在纯策略纳什均衡时，博弈各参与人通过对以往的博弈历史的归纳，制定出下次的策略均衡点，从而摸索着接近该均衡，最终达到一个纯策略。而当博弈存在混合策略均衡时，博弈参与人所能够做的只是逐渐认识对方的混合策略，而相应地制订自己的混合策略，最终达到混合策略均衡。

这就是说，博弈中参与人运用的归纳推理是有效的，这种有效性是针对博弈均衡的认识而言的。

5　结语

逆向归纳法悖论只是博弈论中一个悖论而已，归纳的合理性也只是多主体互动时理性人进行归纳推理的一个问题。博弈论涉及许多关于推理的逻辑“问题”。本人希望我国有更多的逻辑研究人员参与到博弈逻辑的研究中来，逻辑学家参与到博弈论的研究定能够结出丰硕的研究成果。

收稿日期：2002-11-13

标签：推理论文; 纳什均衡论文; 子博弈精炼纳什均衡论文; 合作博弈论文; 博弈论论文; 演绎推理论文; 归纳演绎论文; 关系逻辑论文; 市场均衡论文; 经济学论文;

博弈行为中的演绎推理与归纳推理及其问题_推理论文

猜你喜欢