后向归纳法的动态认知刻画,本文主要内容关键词为:归纳法论文,认知论文,后向论文,动态论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]B81-05 [文献标识码]A [文章编号]1000-7326(2016)04-0035-07 在动态博弈中,关于选手理性选择的刻画往往是基于一类静态的认知模型而展开进行的。[1]在这类认知模型中,我们不仅需要描述出理性决策路径上选手们的知识(或信念),而且还需要说明当一个不是理性决策路径上的行动如果被对手选择到时,每个选手原有的初始知识(或信念)、在此情形下选手对于原有知识(或信念)所进行的修正以及其对手关于该选手修正后的知识(或信念)等。例如,在一个动态博弈中,选手2初始时知道(或相信)理性选手1应该选择马上结束博弈的行动,然而,他还需要知道(或相信),如果选手1让博弈继续进行,给出机会让他进行选择时,选手1所基于的知识(或信念)是什么,以引导选手2在此情形下做出理性的选择。因此,这类模型必然会涉及复杂的条件知识(或信念)系统或层级式(Hierarchical)系统和信念修正的问题。同时,基于此类模型,选手初始时理性的公共知识是不能蕴涵后向归纳法BI(Backward Induction)的结果的。[2][3][4] 在本文中,我们基于一个动态逻辑系统——公开宣告逻辑PAL(Public Announcement Logic),将理性选手定义为或者该选手对于当前世界所相应的结果没有绝对决策权,或者他知道参与博弈的选手在他们能够对博弈结果具有绝对决策权时总是追求其自身利益最大化,论证了在完美信息动态博弈中,基于这种理性的公共知识能够导致BI算法结果,从而为该算法的认知条件提供了一种新的逻辑刻画。由于这种刻画理论是通过利用PAL中模型更新的动态性来描述动态博弈中的BI算法的动态剔除博弈结果的过程,没有涉及选手策略的问题,不会受到通常BI算法认知刻画理论中所涉及的反事实(无论是主观还是客观)推理问题的影响,从而有效地避免了复杂的条件信念(或知识)系统或层级式信念(或知识)和信念修正的问题。[5][6][7][8][9][10][11][12][13]同时,由于我们的刻画分析是基于动态认知逻辑PAL之上,这也为未来我们研究动态模型检测动态博弈认知系统性质,提供了可行的理论基础。 二、预备知识 本文的讨论主要涉及了公开宣告逻辑和具有完美信息动态博弈的内容,因此,在本节中,我们将主要介绍与这两个内容相关的一些概念和定理,并定义一个行动函数,用于后文中博弈认知模型的构建。 (一)公开宣告逻辑PAL 借助于动态认知逻辑研究虚拟在博弈选手头脑间的交流情形与博弈进程中模型变化之间的关系近十多年得到迅速发展。本文研究所基于的PAL是一种较为简单的动态认知逻辑,主要是通过公告某个命题

,剔除原认知模型中与命题

不相容的状态(或可能世界),而保留原模型中主体认知择选关系不变,从而显性地描述主体间信息的互动,以及由此引发的主体认知情形变化的一种逻辑。这种逻辑的语言是通过添加一个行动模态算子[!P],即,公开宣告算子,到标准的多主体认知逻辑构成,[14]公式[!P]

表示了真实宣告命题P后,公式

成立,语义解释为:

因此,公开宣告一个命题为真的直接结果就是各个主体摒弃那些原先自己认为的可能为假的那些可能世界。经过这种变化后,主体的认知状态相应地发生了改变(这里,行动模态算子[!P]实质上是起到从一个模型到它的相对化子模型的动态转换功能)。值得注意的是,由于公告命题P这类认知行为的触发是基于P为真的条件,因此,公告算子是一种部分函数。

(二)具有完美信息的动态博弈和行动函数 我们采用基于博弈历史来描述动态博弈模型——扩展式博弈模型(或称博弈树模型)。

考虑到在一个动态博弈中,不同选手所选择的相同行动或者同一个选手在不同时刻选择的同一个行动,由于选择人和选择时段的不同,实质上都是不同的行动,因此,我们规定对

。同时,出于下文定义行动函数的需要,我们用符号

表示任意一个空行动和假行动,①并将它们添加到每个选手的行动集中,即,

。 如果对一个有穷扩展式博弈G中的任何一个h∈H,都至多有一个选手具有一个非单元素的行动集,那么,称这样的博弈是具有完美信息的有穷博弈。进一步来说,如果对每一个选手i,若z和z’对应是不同的结果,则必有

,则称此博弈是泛型的(generic)。[17]由于BI算法主要被用于求解完美信息的动态博弈,因此,本文重点考察具有完美信息的有穷泛型博弈。

在一个历史z中,博弈不同时段对应的行动是不同的,为此,我们定义一个行动函数,用于寻找博弈t时段(t∈N|t≤l(G)-1)时,历史z中的行动。而借助此函数,我们可以刻画出BI算法解集。

依此定义,如果

(其中z≠z’),那么,两个不同的历史z和z’在博弈t时段时具有相同的行动。并且,z和z’具有长度不大于t的相同前缀。

随着博弈进程的展开,选手关于博弈结果的知识在增加:博弈开始前,每个选手都认为所有的博弈结果都是可能的,而当某个选手做出一个行动选择后,某些博弈结果一定会从选手当前的认知可能世界集中消失,从而缩减了选手的认知可能世界集,选手关于博弈结果的知识得到增加。以下,我们通过将选手关于博弈结果的知识随着博弈的进程展开而发生的这种变化,与我们所定义的行动函数一起,刻画选手关于某博弈结果的绝对决策权。进而在此基础上,将理性选手定义为能够知道具有绝对决策权的选手总是最大化他们收益的选手,并证明重复公告这种理性后所达到的、公告极限模型的可能世界集,与BI算法解集具有完全的一致性,从而提供出一个关于BI算法认知基础的完全刻画定理。 三、博弈认知模型

释义1:在上述关于选手认知择换关系的定义中,条件

确保了选手的认知择换关系具有自反、对称和传递性;而条件

则要求只要博弈下一阶段的决策者(或活动选手)没有做出选择,那么,任何一个属于当前阶段中的博弈结果都不会被选手排除。这是一个合理的规则,原因在于每个人在对手未做出选择前,是不可能知道哪些结果确定地不会被选择,即便下个决策者是自己,也是具有犯错误的可能性而选错了行动,从而,任何一个结果都不应该在下个选手未做出选择前,而被选手从他们的可能世界集中剔除。同时,由于我们所关注的是选手关于博弈结果知识的描述,因此,对于一个具有完美信息的博弈而言,每个选手在博弈的每个阶段,对于当前博弈结果可能性的认知都是一样的,即对

。

释义3:我们认为如果选手i在某可能世界w上是理性的,那么,或者i对于当前世界所相应的结果没有绝对决策权;或者i知道博弈选手都是偏好最大化自我效益结果并且w对应的结果

是可以最大化未来对此结果具有绝对决策权的选手的收益。这是一种直观性较强的理性要求。同时,理性Ra也是一种“面向未来”的理性,这是因为具有这样理性特征的选手,要知道其他对手在有绝对选择权时都会选择自我利益最大化的行动,否则,如果当前世界相应的结果

在未来不能最大化具有绝对决策权选手(如选手j)的收益,则该结果一定会被j所剔除,也因而不会使得当前世界上的决策者i欲通过选择该世界在此时段对应

的行动而获得较好收益的愿望得到实现。因此,不同于已有文献中关于BI算法理性要求,理性的判定需要涉及关于对手的信念、偏好等众多信息,在我们的认知模型中,选手的知识信息仅包括博弈结果认知的判定,从而使得理性判定更为简单直观。 具体地说,下图1是给定某博弈G(左图)的认知模型

,其中,

,分别是:

图1 博弈G的认知模型


由于在完美信息博弈中,博弈结构和选手的偏好都是公共知识,因此,在任一个广义博弈认知模型中,命题:

恒为真(这里,符号i,j代表任意的两个选手)。另外,由于公告算子是一种部分函数,即公告行为并不总是可以得到执行,只有真命题才能作为公告的事实,因此,下面的定理1确保了理性Ra是适合作为公开宣告的断定。 定理1:Ra在任一个广义博弈认知模型中都是可满足的。 考虑到重复宣告可以看做是博弈前存在于选手间思维中的一种虚拟信息流互动的情形,[18]下文刻画定理Ⅰ表明:博弈开始前,具有理性选手推理彼此也为这样的理性特征时,选手间的这种虚拟高阶信息互动交流(即你知道我知道你是理性的选手等互动认知交流情形)的结果,迫使选手将与理性命题真值不一致的可能状态排除在外,从而化简原博弈认知模型到宣告极限模型,而最终留在此宣告极限模型中的可能世界所对应的博弈结果,则是与通过BI算法求得的博弈结果是完全一致的。

图2展示了重复公开宣告主体理性所导致的博弈结果。在公开宣告理性三次后,博弈认知模型达到宣告极限,不再发生改变,而对此博弈,这个宣告极限中的可能世界所对应的结果恰是该博弈的子博弈精炼均衡。 基于上面的刻画定理,进一步我们易得:


利用动态认知逻辑研究动态博弈的思想是由van Benthem提出来[19]并进行了多次讨论[20]。本文的研究主要受益于这些成果。不过在这些研究论述中,van Benthem着眼于将逻辑作为工具,促进和深化博弈研究的思想引领,并没有给出关于BI算法认知条件的刻画理论。尽管van Benthem也提及通过重复公告理性可以得到BI算法结果,然而在这些研究中,他所描述的理性没有涉及选手的知识或信念,是一种“行为理性”。但由于公告算子是部分函数,即公告行为可以发生的前提是所要公告的事实必须为真。这样,公告这种理性的动作只能是在博弈完全结束后才能发生。因此van Benthem在这些文献中所提出的重复公告理性理论只是一种通过动态逻辑求解完美信息动态博弈的方法,并不是关于BI算法的认知刻画。本文中,我们着眼于算法本身,通过构建一类博弈认知模型,利用公告逻辑PAL动态更新认知模型,探讨了BI算法背后的认知机制并提供了一种关于此算法的动态认知刻画理论。由于刻画分析是基于一种动态认知逻辑——公开宣告逻辑PAL,这为未来我们研究动态模型检测动态博弈认知系统性质,提供了能行的理论基础。未来我们将拓展DEMO,④实现利用该工具验测我们理论的正确性。 ①这里空行动是指博弈开始前选手们的行动,类似于空历史的概念;而假行动则是指当某历史的长度小于博弈进程时刻值时选手们的一种虚拟的行动。 ②因其他公式语义是标准的Kripke语义,这里不再赘述。 ③按照定义3,如果选手只是可以直接决定某结果,并不一定具有对于该结果的绝对决策权,因为这并不意味着他不需要考虑后续阶段参与选手的影响。例如,在前述例1中,尽管在博弈第2个时段(即t=2时),选手2可以直接选择行动b3而使得博弈最终结果为z3。但是,由于在此阶段选手2需要考虑到其对手后续行动对于自己当前选择所导致的收益的影响,使得他并不能确定地知道是否此结果是这个博弈中能够最优自己收益的结果,因此,选手2在此时段,并没有此结果的绝对决策权。 ④DEMO是由Eijck在2007年提出的一种动态模型检测工具,已被开发用于许多认知问题的解决方案正确性的检测(J.Eijck,DEMO-a Demo of Epistemic Modelling Interactive Logic,Amsterdam:Amsterdam University Press,2007,Technology Report)。
标签:关系逻辑论文; 博弈论文;