博弈视野中的逻辑推理问题,本文主要内容关键词为:逻辑推理论文,视野论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:B812 文献标识码:A 文章编号:1003-5680(2004)05-0052-04
博弈论(Game Theory,又称对策论)研究决策主体如何在相互作用(interaction)之中作出自己的行为决策以及这种决策的均衡问题。博弈论研究“理性人的互动行为”,这意味着两个前提:其一,博弈的结果是由所有人的行动共同决定的;其二,既然每个人都是理性的,会运用他所掌握的所有知识和信息选择效用最大化的行为,那么他选择行动时必须考虑别人同样是理性的。那么,什么是理性呢?按照阿罗的说法,“理性(rationality)是关于选择的。在任何给定的场景下,总有一个备选对象的机会集合,选择必须从中作出。理性的主要意思就是,从不同的备选对象集合作出的选择之间应该满足的一致性(consistency)条件。”[1]而每一次选择都可以理解为,决策者对自己的各种可能的选择所导致的各种结果都有一个偏好排序(preference ordering),这种偏好排序体现了决策者的效用(utility),在数学上可以表达为决策者对他的效用函数最大化。原则上讲,结果的任何要素都可以进入决策者的效用函数。
在博弈论中,参与者一方面猜测其他参与者的策略,同时计算各种策略可能性下的支付(得益),然而在实际中,一般情况下,人们是很难计算得益的。此时人们往往准备了各种备选策略,当其他参与者采取一种确定策略时,自己将决定采取某种策略。我们经常用逻辑推理的方法来确定自己的行动。因此一种新的逻辑,即“博弈逻辑”(game logic)得到兴起,它是一种特殊的行动逻辑。[2]
1.博弈逻辑推理的分类
逻辑主要研究推理。推理由命题组成,根据一些命题得到某个或某些命题。推理中所根据的命题称为前提,所得到的命题称为结论。在传统逻辑中,依照前提和结论的命题种类的不同或者前提与结论之间关系的不同,推理分为从前提真必然得出结论真的演绎推理和从前提真概然得出结论真的归纳推理。而在博弈论中,博弈参与人的推理表现在他对策略的选取上,决定参与人的策略选取一方面是博弈结构,另一方面是其他参与人的策略。博弈结构是不同策略组合下的支付函数或者得益函数。按照博弈的次序来分,博弈分静态博弈和动态博弈。静态博弈指参与人同时采取行动,或者尽管参与者行动的采取有先后顺序,但后行动的人不知道先采取行动的人采取的是什么行动。而动态博弈指双方的行动有先后顺序,并且后采取行动的人可以知道先采取行动的人所采取的行动。按照参与人是否都清楚各种对局情况下每个局中人的得益,博弈可分为完全信息博弈和不完全信息博弈。所谓完全信息博弈指参与者的策略空间及策略组合下的支付有完全的了解。而不完全信息博弈指参与者的策略空间及策略组合下的支付没有完全的了解,至少有一个参与者不能确切知道其他参与者的支付函数,也就是说参与者的得益函数不是公共知识。[3]
在互动的人群中,演绎推理分为完全信息静态博弈中的演绎推理和完全信息动态博弈中的演绎推理。而博弈中存在归纳推理是由于信息的不完全和博弈的竞争性,故归纳推理分为不完全信息静态博弈中的归纳推理和不完全信息动态博弈中的归纳推理。
(1)完全信息静态博弈中的演绎推理
在谈完全信息静态博弈中的演绎推理之前,我们先看一个被广泛谈论和研究的一个博弈例子,即“囚徒困境(Prisoner's Dilemma),其具体内容如下:两个嫌疑犯共同作案后被警察逮捕,分别关在不同的屋子审讯。警察告诉他们:如果两个人都坦白,那么每人判刑8年;如果两个人都抵赖,每人各判刑1年(或许因为证据不足);如果其中一人坦白,另一人抵赖的话,坦白的人当场释放,抵赖的人判刑10年。表1是囚徒困境的战略表达式,这里每个囚徒都有两种战略:坦白或抵赖,表中的数字表示对应的战略组合下两个囚徒的支付。
在这个博弈中,每个囚徒都作这样的推理:
如果对方坦白,我抵赖的结果是判刑10年,坦白的结果是判刑8年;坦白的结果比抵赖好,我应当选择坦白。
如果对方抵赖,我也抵赖的结果将是判刑1年,坦白的结果是当场释放,坦白的结果比抵赖好,我应当选择坦白。
因此,无论对方选择“坦白”还是“抵赖”,我最好的策略是“坦白”。
这个推理过程就是演绎推理。由于这个博弈的纳什均衡是(坦白,坦白),而且是唯一的纳什均衡点,是参与人的“公共知识”,参与人必须同时作出决策,即使不是同时作出决策,后一个也不知道先采取行动的人所作出的决策,因此它是一种静态博弈。又因为在该博弈中,参与人完全了解对方的策略空间及策略组合下的支付,所以说它也是一种完全信息博弈。在这个完全信息静态博弈的推理过程中,双方所进行的推理均是演绎推理。尽管从总体上看,(抵赖、抵赖)对两个人来说,都是有益的结果,但由于不构成纳什均衡,所以不是该博弈的解。在给定B坦白的情况下,A的最优战略是坦白;同样,在A坦白的前提下,B的最优战略是坦白,故A、B最优战略的组合(纳什均衡)却不是总体最优的选择,有没有可能其中一个选择抵赖呢?按照人是理性的假设,没有人会积极地这么做,因为如果对方坦白的话,自己就可能判刑10年,理性的人是不会冒这种险的。“囚徒困境”是完全信息静态博弈中的演绎推理的典型事例。
(2)完全信息动态博弈中的演绎推理
动态博弈如同静态博弈,也是一个推理过程。我们来看一下完全信息动态博弈中人们是如何进行演绎推理的。先看一个例子:
设想有两个企业,企业B垄断某行业的市场,一直卖高价赚取每年10亿元的利润。企业A想进入这个领域,与企业B共同瓜分该市场,但进入这个现在垄断的行业,需要4亿元的投资。当企业A准备进入的时候,企业B必须决策:如果“容忍”企业A进入,企业B就要收缩产量维持高价,利润降为5亿,这时对方A的利润也是5亿元,但要减去4亿元投资,实得1亿;如果展开商战“抵抗”A进入,B就要加大产量,降低价格,力图把进入者A挤出去,这时原来垄断市场的企业B的利润降到2亿元,而对方A所得2亿还抵不过投资的4亿元,亏损2亿。如果对方A不进入但采取降价威胁的策略,企业A利润下降为4亿元。我们用博弈树表示该博弈如下:
在该博弈中,企业A、B都完全了解对方的策略空间及策略组合下的支付,所以说它是一种完全信息博弈,但双方的行动有先后顺序,并且后行动者企业A可以知道先行动者企业B所采取的行动,因此它也是一个动态博弈,这个博弈的结果是企业A选择“进入”,企业B选择“容忍”,它们构成唯一的纳什均衡,在这个博弈过程中,企业A是这样进行推理的:
如果我进入,B容忍可得5,抵抗却只能得2,B是理性人,他肯定会选择“容忍”;既然我预测B选择容忍,那么我是选择“进入”还是选择“不进入”呢?
如果我选择“进入”,我可得5,选择“不进入”,我只能得0,我应该选择“进入”。
当A选择“进入”策略时,B的推理是:
如果采取“容忍”,我可得5,而选择“抵抗”,却只能得2,我应当选“容忍”。
这样的推理方法被称为“逆向归纳法”,又称“倒推法”(backward induction),它实质上是一种演绎推理,因为它是从命题的结论出发,一步步进行倒推,最后得出前提成立,是一种完全归纳法,是必然性推理。也就是说,只要前提真,结论必然为真。
(3)不完全信息静态博弈中的归纳推理
在不完全信息博弈中,由于博弈参与人的得益函数不是公共知识,参与者不能确切知道其他参与者的支付函数,即使博弈中存在唯一的纳什均衡,这个均衡也不会是公共知识,而且这样的均衡不可能在一次博弈中达到,而必须通过多次博弈才能达到。在这样的过程中,博弈参与人是如何确定自己的策略呢?他只能根据自己的经验和归纳学习别人以往的策略,从而决定自己的策略,参与人所运用的推理方法就是归纳推理。这种不完全信息博弈按照博弈各方是否同时决策可分为不完全信息静态博弈和不完全信息动态博弈两种。相应地,归纳推理也分为不完全信息静态博弈中的归纳推理和不完全信息动态博弈中的归纳推理两种。首先我们介绍一下不完全信息静态博弈中的归纳推理,先看一个20世纪60年代初发生在美苏两个超级大国之间的导弹危机的例子。
二战后,美国和苏联两个超级大国形成了对峙,在其周围各自有盟友,并且组成了两大敌对阵营。1962年苏联偷偷地将导弹运送到古巴,来对付美国,但被美国的侦察机侦察到了。美国决定对古巴进行军事封锁,美苏之间的战争一触即发。面对美国的反应,苏联面临着是将导弹撤回国还是坚持部署在古巴的选择?而对于美国,则面临着是挑起战争还是容忍苏联的挑衅行为的选择?我们可以用如下的博弈矩阵来表示这个博弈:
在这个博弈中,假设,如果双方都选择进攻,则会发生一场战争。对每一方,如果决策者属于鹰派,则会选择进攻,其支付为1;如果决策者属于鸽派,则可能会选择撤退,其支付为-4。每一方都知道自己属于哪一派,但这一信息是自己的隐私,所以说这是一个不完全信息博弈问题。又因为双方的行动有先后顺序,但是后行动者美国并不知道先行动者苏联所采取的行动,只能通过所掌握的有限信息进行归纳,从而预测出对方可能会采取何种策略。因此它也是一个静态博弈。那么他们是如何进行归纳推理的呢?在美国对苏联的行动考虑对策时,可以选择的策略有多种,从默许到温和的制裁直至全面对抗,它选择了最强烈的反应并取得了成功。为什么会成功呢?美国这样推理:如果苏联采取进攻,那么当=1时,他的最好反应是进攻;而当=-4时最好反应是撤退。如果苏联选择撤退,那么无论他的私人信息是什么,他的最好反应是进攻。另外,根据美国情报部门所掌握的信息和对对手苏联决策层的估计,即赫鲁晓夫的强硬姿态背后苏联内部对此各种态度的冲突和综合,苏联的实力,赫鲁晓夫执行其意旨的能力等,在这些估计的基础上,美国做出了正确的反应。虽然苏联也会这样推理,但是赫鲁晓夫错误地估计了对方的反应,认为美国会容忍这种后果,而事实相反。这是一种不完全归纳推理。即从若干个个别性前提推出一个特称结论。
(4)不完全信息动态博弈中的归纳推理
在不完全信息动态博弈中,虽然后行动者只能观测到先行动者的行动,不能观测到先行动者的类型,但由于对方的行动是类型依存的,双方的行动都传递着(或显示出)有关自己类型的某种信息,后行动者可以通过观察先行动者所选择的行动来推断其类型或修正对其类型的先验信念,进而选择自己的最优策略。而先行动者预测到自己的行动将被对手所观察和利用,就会设法传递对自己最有利的信息,避免传递对自己不利的信息。这就反映出不完全信息动态博弈的特征:当一方对另一方的行动作出反应时,他可以从对手的行动中推断出有关信息。如军事对抗,敌对双方都尽量隐蔽自己的意图,秘密地调动部队,以期给对手以突入其来的一击。指挥员必须在对手情况不明了的情况下制定作战计划,这一决策过程是一种典型的不完全信息博弈。这种推断过程采取了贝叶斯修正的形式,即根据假设的均衡策略和观察到的行动修正有关行动者特征或行动的信息。而进行贝叶斯修正应该使用“顺向归纳”方法。由于一般无法精确的知道对手的状态,所以,计算中带有不确定性。[4]我们先看一个例子:
假设有一个连锁店,称为局中人A,在10个市镇具有分店,在每个市镇存在一个潜在竞争者,即存在一个商人可能会在当地建立同样类型的第二个商店,假设k市镇的潜在竞争者被称为局中人k,因此这一博弈有11个局中人:连锁店,即局中人A和他的10个潜在竞争者,即局中人k,k=1,2,…,10。除了这10个局中人以外,连锁店没有任何其他竞争者。对局中人k来说,他必须决定:是在他的市镇中建立第二个商店,还是以其他方式来使用他的自有资本。如果他选择后者,他就不再是局中人A的潜在竞争者。如果第二个商店在市镇k建立起来,则局中人A必须对市镇k的两种价格策略进行选择。他的反应可以是“合作”或者“攻击”。合作反应会导致局中人A和k在市镇k更高利润,但如果局中人k不建立第二个商店,则局中人A在市镇k的利润会更高。如果局中人A采取攻击反应时,则局中人k不建立第二个商店,他的利润会更好。其矩阵如下:
在这个博弈中,局中人A和局中人1,2,…,m个连贯阶段序列1,2,…,m之上进行,在阶段k开始时,局中人k必须在“进入”和“退出”之间进行选择(决策“进入”意味着局中人k建立起第二个商店),局中人2的决策会马上被所有局中人知晓。如果局中人k的决策是“退出”,则在阶段k中不再进行决策。如果他的选择是“进入”,则局中人A必须在“合作”和“攻击”之间进行选择,这一决策也会马上为所有局中人知晓。因此对于k=1,2,…,m-1,阶段k+1根据同样规则开始和进行。博弈在阶段m后结束。
在该博弈中,由于后行动者局中人A只能观测到先行动者局中人k的行动,但可以通过观察先行动者局中人k所选择的行动来推断其类型或修正对其类型的先验信念,进而选择自己的最优策略。而先行动者局中人k预测到自己的行动将被对手所观察和利用,就会设法传递对自己最有利的信息,避免传递对自己不利的信息。所以该博弈是不完全信息动态博弈。那么,这一博弈中,局中人是如何进行归纳推理的呢?
如果在阶段10中局中人10选择了“进入”,如果局中人A的反应是“合作”时会使他得到支付为2,但如果反应为“攻击”,则相应支付为0,所以局中人A此时的最优选择是“合作”反应。长远考虑在其中不起作用,因为在阶段10之后博弈结束。这说明,对于局中人10来说最好是选择“进入”。显然,阶段10中的策略形势和局中人在阶段1,2,…,9中的决策无关。由于阶段9中的决策对阶段10中的策略形势没有影响。如果局中人9选择“进入”。则“合作”反应对局中人A来说是最优的。“攻击”反应将不会阻止局中人10。显然可以由此归纳得到结论,每个局中人k应选择“进入”,而每次局中人A应使用“合作”反应。博弈剩余部分的策略形势与是否知道阶段k前的决策无关。如果已经知道在k+1,…,10阶段的局中人k+1,…,10会选择“进入”,而局中人A会总是选择“合作”选项,则会得到在阶段k中选择“进入”也将导致“合作”反应。如果这一博弈以这种方法进行,则局中人1,2,…,10各自得到的支付为2,而局中人A得到的支付总和为20。这种推理实质上是根据局中人在每一阶段的决策,然后归纳出结论。显然是一种归纳推理。
2.博弈逻辑中演绎推理和归纳推理的关系
博弈逻辑中的逻辑推理同传统逻辑中的逻辑推理一样,对演绎推理来说,只要前提是真的,推理形式正确,结论肯定是真的。而对归纳推理来说,前提是真的,推理形式正确,结论不一定是真的。所以说,在博弈逻辑中,演绎推理也是一种必然性推理,而归纳推理则是一种或然性推理。博弈逻辑中的逻辑推理同传统逻辑中的逻辑推理不同之处在于:在传统逻辑中,人们进行逻辑推理时,所运用的前提假设是静止的、不变的;而在博弈逻辑中,所运用的前提假设既有静态,也有动态。
对一个博弈来说,肯定存在着某些公共知识,均衡的产生依赖于这些公共知识的条件,不同的博弈存在不同的公共知识。所谓公共知识是指一群体人们之间的对某个事实“知道”的关系。例如:假定一群体由A、B构成,A、B均知道一件事实C,C是A、B的知识,但此时C还不是他们的公共知识。当A、B双方均知道对方知道C,并且他们各自都知道对方知道自己知道C……此时我们说,C是A、B间的公共知识。
在一个博弈中,如果公共知识是所有参与者知道的唯一知识,并且是参与者行动的最佳策略。行动者根据这个公共知识能推出其他行动者的最佳行为和自己的最佳行动,那么,这个公共知识是一个精确的纳什均衡点,每个参与者利用这个公共知识进行推理所得到的结论必然是真的,其推理方法是演绎推理。这种对公共知识进行演绎推理所形成的策略是完全信息博弈。所以说,演绎推理是一个利用逻辑规则和所有参与者都知道的信息(假定的前提)进行推理而得出结论的过程。如果逻辑规则合理和假定的前提正确,那么,通过演绎推理所得到的结论就一定正确。在这种意义上说,演绎推理的结论是包含在前提里。纳什均衡点包含在假定的理性的公共知识里。因为如果所有行动者都选择C,所有行动者知道所有行动者选择C,如此等等,那么,他们都知道其他的行动者都选择最好的策略C进行行动,因此他们都选择最好的策略C进行行动,这个最好的策略C就是精确的纳什均衡。[5]
然而在一个博弈中,公共知识不是参与者知道的唯一知识,也就是说,对参与者来说,存在着非公共知识,即:有些知识不是公共知识。有两种情况,一是有些知识,博弈双方都知道,但不知道对方是否知道,当然也不知道对方是否知道自己知道不知道;二是有些知识,只有博弈一方知道,而另一方不知道,即知识是非对称的,一方拥有的知识多些,而另外一方拥有的知识少些。在这种情况下,就不能使用演绎推理,而要用归纳推理。因为双方所运用的前提不一定是公共知识,而运用非公共知识所得出的结论并不必然为真。在进行归纳推理时,每个理性人都保留自己许多的信念模型。当他需要进行选择时,他选择当前最可信的那种作为行动方案,其它的仍然保留。他也可能综合几种策略作为行动方案。但每个理性人所选择的模型并不一定是该博弈的纳什均衡,除非所有行动者所选择的信念模型都相同。然而,在不完全信息博弈中,归纳推理能导致更一般的信念模型作为纳什均衡。
在博弈逻辑中,归纳推理产生的结论不包含在前提中,并且比前提更一般,所得出的结论不一定正确,主要适用于不完全信息博弈,参与者对所有参与者的策略空间及策略组合下的支付不完全的了解;而演绎推理中前提蕴涵结论,结论包含在前提中,主要适用于完全信息博弈,参与者对所有参与者的策略空间及策略组合下的支付有完全的了解。演绎推理和归纳推理既有区别,又有联系的。例如数学中的数学归纳法实际上包含了演绎和归纳两种推理。先假没P(n)成立,然后推出P(n+1)也成立,也就是说,前提P(n)蕴涵结论P(n+1),这是演绎推理。而根据P(1),…,P(n),(n+1)成立,得出对所有n∈N,P(n)都成立,这是归纳推理。[6]
在重复博弈中,归纳推理占主要地位,因为它能产生稳定的解决办法,也就是说行动者利用归纳推理能学习任何行为。例如,如果一方以前是理性的,但现在突然变疯了,然后其他行动者根据他们观察学习的情况修正他们的信念。这也就是说,归纳推理更能产生可靠性高的纳什均衡。
【收稿日期】2003-11-27