计算程序与机器游戏的认知意蕴_博弈论论文

计算程序与机器游戏的认知意蕴_博弈论论文

计算主义纲领与机器博弈的认知意蕴,本文主要内容关键词为:意蕴论文,纲领论文,认知论文,主义论文,机器论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在认知科学近60年的发展历程中,计算主义作为主流研究纲领提供了人类心智研究的方法论原则,同时也成为学科发展中争论的焦点。虽然不断受到来自各方面的挑战,但这一纲领的核心“认知=计算”并没有被证伪,它不仅通过修正辅助性假设得到了保护,而且继续发挥着启发、引导相关领域发展方向的导向作用。更重要的是,计算主义在今天已经超越了心理学、人工智能、神经科学、语言学等“支柱”学科,促成了认知科学与量子力学、生物学、博弈论的交叉融合,成为催生新兴学科、推动传统学科的科学思潮。博弈自动机理论是认知科学与博弈论互动的产物,在计算主义纲领启发下,局中人之间的博弈被视为智能体(agent)间的策略性互动。这两门科学的交叉融合趋势集中反映在自动机博弈模型中,自动机在重复博弈中不仅可以执行预设的理性策略,而且可以显示长远眼光、威胁和承诺能力,超越了狭隘的理性选择行为。通过分析自动机博弈的策略性互动特征,揭示智能体的理性本质和行动的意向性结构,说明博弈学习和演化计算在认知发展中的意义,这对于理解计算主义纲领的主要内涵具有特殊的意义。

一、智能性假设和博弈自动机

人们在游戏活动中的行为一直是认知科学关注的课题。在为计算主义奠基的“图灵测试”中,一个能够玩模仿游戏的计算机被认为是具有智能的,依据是一个观察者无法从它对行为的识别和反应中将它和人类行动者区别开来①。但是,从认知科学理解游戏的角度看,模仿游戏中的行为和为游戏行为提供解释是两个不同的问题,解释必须清晰地概括行为的特征并将它们和普遍的原理联系起来。对于“图灵测试”能否成为判定计算机能否思维的标准,在认知科学中一直存在争议,计算主义、联结主义和行为主义等不同研究纲领之间的竞争,既是关于思维、认知、计算的哲学观念的碰撞,也体现了对人类游戏的不同认识和理解,博弈论的“认知转向”为认知科学深入分析游戏这一智能行为提供了契机。

博弈论中描述游戏行为的模型是理性、认知和行动组成的三元组,意在体现游戏局中人之间的策略性互动。博弈论中的理性有两层含义:行动选择的合理性和认知过程的智能性,前者体现为经济理性人假设,后者则与认知分析密切相关②。智能性假设认为,博弈局中人具有完善的逻辑推理能力和计算能力,策略是局中人深思熟虑周密计算的结果。众所周知,博弈论中的理性概念与经济学的理性概念是一脉相承的,因而也和经济学理性选择理论一起备受争议。对智能性假设的主要异议是:人不是计算机,人的计算能力总是不完全的。然而,从博弈论“认知转向”以来,计算机就被当作博弈代理人广泛用于现实冲突与合作局势的模拟,机器博弈成为检验智能性假设的一种途径,使得理性人和机器的简单二分法失去了立足之地。其中,对于“囚徒困境”等重复博弈中“冷酷战略”、惩罚机制的分析,形成了机器博弈这一全新的研究领域。

在有限的“囚徒困境”博弈中,“背叛”是双方的严格占优策略,理性假设要求局中人选择“背叛”。但是,双方选择“背叛”的均衡结果并不是帕雷托最优的,如何走出“囚徒困境”就成为博弈论的主要课题之一。在无限重复博弈中,局中人有可能为了在将来的博弈回合中获取更大的收益,放弃眼前利益选择“合作”,这种长远眼光突破了经典博弈论中局中人目光短浅的“理性的傻子”的形象,使重复博弈成为引人瞩目的研究领域。按照重复博弈论的“民间定理”,如果局中人是目光短浅的,他就不可能选择占劣行动;如果局中人有长远目标,他就可能选择帕累托最优的占劣行动,并且产生均衡结果。在重复的囚徒困境博弈中,局中人在每个阶段上有两个可能的选择;合作或背叛。如果重复博弈是有限的,即双方都清楚地知道博弈何时结束,他们的选择总是“背叛”,因为它严格优于“合作”。如果重复博弈是无限的,即双方不清楚博弈何时结束,他们就可能选择“合作”。“民间定理”的论证引入了“冷酷战略”、惩罚机制等规则。“冷酷战略”意味着当对手有了一次“背叛”就不给他改过的机会,永远针对他实施“背叛策略”。为了检验上述机制的有效性,埃克斯罗德用计算机模拟重复的囚徒困境博弈,发现“以牙还牙”(Tat to Tit)形式简单:第一个回合选择“合作”,以后的每个回合采用对手在上一回合的策略。他还证明了“以牙还牙”不仅能够在与其他策略的竞争中拔得头筹,而且能增强使用者的适应度,是具有演化稳定性的均衡策略。在埃克斯罗德等人的工作启发下,宾默尔(1993)、鲁宾斯坦(1998)引入了自动机博弈概念。鲁宾斯坦认为,理解重复博弈这样的长期互动过程,需要分析均衡策略的机制特征,而策略机制是由行动规则组成的结构;一个自动机就是实施某个策略或行动规则的机制,它作为代理人执行局中人预先设定的博弈策略③。

机器博弈是无限重复博弈模型的一种抽象。在机器博弈中,局中人的不同策略被某种自动机代替,对一个局中人而言,采用一个可行策略就是使用一个包含状态集、初始状态、行动函数、转换函数的自动机。正式的定义是:局中人i的博弈机器是一个表示策略规则的四元组(Q,q,f,t),Q是状态集合,q∈Q是初始状态,f:Q→Ai是从状态集到行动集的行动函数,t:Q*A→Q是从状态和行动集到状态集的转换函数。状态集和初始状态是对博弈局势的描述,行动函数确定了局中人在相应博弈中的行动规则,转换函数是状态随着行动变化的描述。机器博弈是这样进行的:在初始状态q,局中人根据行动函数f选择行动,如果f(q)=a,那么机器博弈的状态转换到t(q,a)。后面每个阶段的博弈是重复上述行动和转换程序。

从形式上看,自动机在重复博弈中的任务是执行预设的理性策略,只是一种机械的程序。如果把自动机博弈同人工智能领域中深蓝计算机和国际象棋世界冠军之间的博弈作一比较,就会发现执行理性策略的特殊意义。1997年IBM公司研制的深蓝计算机在与世界冠军卡斯帕罗夫的对弈中取胜,标志着人工智能的重大进步。深蓝计算机的核心算法是与二人零和博弈的极大极小算法密切相关的α-β搜索方法,但是它取得成功的关键是具备了超越搜索深度的扩展能力,形成那些有特殊意义的强制的或被动的行棋路线。深蓝的这种能力给对手留下了深刻的印象。卡斯帕罗夫写道:“我看到计算机能够预见他的决策中的长期棋局序列,这远远超出我们最疯狂的想象。计算机拒绝走一步短期看有优势的棋,这显示了计算机有着和人类面对危险时类似的感觉。”④与深蓝在人机大战中体现出的“深谋远虑”一样,重复博弈中自动机实施的行动也显示了长远眼光、威胁和承诺能力,不仅表明局中人可能超越狭隘的理性选择,而且自动机本身也显示出真正的智能性。从经典计算主义的视角看,局中人通过自动机进行的重复博弈就是“认知=计算”的示例,因为对策略的最优性认知和选择完全归结于自动机实施策略的计算程序⑤。

但是,经典计算主义对博弈中威胁和承诺的解释受到心灵实在论的质疑。反对者认为,威胁和承诺与信念、意愿一样,是心灵的某种意向性状态,它们只属于“具有自由意志”的局中人。这里争论的焦点不仅仅是自动机行为是否有意向性,而且在于威胁、承诺、信念、意愿是何种意向性。

二、意向性之谜和博弈

“意向性之谜”是计算主义纲领遇到的重大挑战之一。在计算主义的初始版本中,意向性问题被当作心理主义的余孽,随着第二代认知科学初现端倪,计算主义者开始对心灵哲学家提出的意向性问题做出回应。

按照塞尔等心灵哲学家的观点,心灵现象是以生物过程为基础的,它由大脑中的操作引起并在大脑的结构中实现,意向性作为心灵现象只能是生物过程的组成部分⑥。为了阐释意向性行为的特征,塞尔提出了著名的“中文屋”测试。在他看来,这个测试表明任何纯粹的形式模型都不足以充分地模拟意向性,因为形式性质不能决定语义内容,意向性的组成部分不是语形而是语义。虽然塞尔的意向性理论和心灵哲学源于传统“身-心”问题,关于意向性和心灵的实在论立场不断受到计算主义认知科学家的反击,不过,意向性问题并不是将其视为形而上学搁置起来就可以了结的,因为它正好触及了经典计算主义软肋:仅仅从抽象的形式定义计算,忽视了时间性、具身性、真实世界对认知系统的制约和影响。在第二代认知科学的潮涌中,计算主义纲领并没有被抛弃。新计算主义认为,真实世界中的计算机和大脑一样必须能够应付时间性、具身性、互动性问题,意向性应当成为人工和自然智能体行为的共同特征⑦。

第二代认知科学对互动性问题的关注与博弈论的“认知转向”在时机上恰好契合。博弈论的互动认识论认为,博弈分析必须把局中人的知识和信念当作策略和行动选择的前提,把关于理性和局势的共同知识和共同信念视为均衡的实现条件。这里所说的知识和信念不仅仅指局中人的信息状态,也包括策略和行动的认知意义。例如,重复博弈的民间定理支持的均衡集合中往往会包含不可置信的威胁或承诺,行动选择意味着威胁或承诺,而行动对其他人行动的制约性被视为威胁或承诺的可信性。博弈论认知分析给认知科学的启示是:互动性与意向性并不是彼此分离的,“意向性之谜”只能在智能体之间的交互作用的博弈模型中得到理解,策略性互动的知识信念只有视为智能体的意向性状态才能与行动联系在一起。

自动机博弈为分析互动行为的意向性提供了一系列模型。如果在一个重复的囚徒困境博弈中,自动机可以执行某种具有长远眼光的策略,遵循惩罚和宽容规则,它就会选择帕累托最优的行动,导向合作均衡的结果,实现局中人的长远目标。如果上述战略和规则可以表示为确定的行动函数和转换函数,实施它们对博弈机器就是可行的。在重复的囚徒困境博弈中,局中人可以使用以下几种机器执行均衡策略。第一种情形是双方可以使用执行“冷酷策略”的博弈机器:如果两个局中人在过去的各个阶段一直使用合作策略,局中人在当下也采用合作策略,否则,局中人将采用背叛策略。这种博弈机器是最简单也是最自然的,它只会产生两个状态,一是两个机器坚持使用合作策略,另一个是出现背叛行为后两个机器都使用背叛策略,而且这一转换是不可逆的。第二种情形中,机器能够对对手的背叛行为进行惩罚:如果对手在过去的各个阶段一直使用合作策略,局中人在当下也采用合作策略,否则,局中人将采用背叛策略并坚持n个阶段,然后返回初始状态。显然,第二种机器必须有n+1个状态,否则无法表示“有限度的惩罚”,这就触及了机器博弈的计算复杂性问题。容易得知,并非所有的重复博弈策略都可以由机器来实施,因为当策略涉及的状态超出有限的范围时,任何机器都无法执行策略规定的任务。那么,是否重复博弈中每一个合理的行动结果序列都可以通过机器博弈实现?如果把重复博弈局限在有限策略博弈中,每一个有限策略都可以由一个机器来实施。令Mi=(Q,q,fi,ti)是局中人i的一个机器,对于其他人的机器所采取的行动,Mi可以选取一次性博弈中的最优反应行动fi(q)作为δ回应,局中人i的一个机器总是从状态q移向状态t(q,fi(q))。虽然机器Mi不一定是对其他人的机器的最优反应,但是它所产生的结果序列的支付至少和最小最大水平的支付一样好。结合重复博弈的民间定理,可以得到以下结论:在重复博弈G中,对于任何可实施的支付序列δ,存在G的有限状态的机器博弈的纳什均衡以δ未支付序列。机器博弈的均衡存在性定理的逆命题同样成立:每一部博弈机器都可以诱导出一种策略,在由所有的机器进行策略博弈中存在纳什均衡。根据这两个命题,在支付序列等价的意义上,重复博弈中的任意策略可以通过包含至多可数状态的机器来执行。因此,重复博弈模型可以转换为有限策略的机器博弈,每个局中人的可行策略空间是他的所有可能的博弈机器的集合。

从重复的自动机博弈出发,可以对塞尔的“中文屋”论证提出一种反驳:“中文屋”内处理符号的人或机器固然不懂中文,但是可以通过与外界的交流了解自己对符号的处理是否正确,并且通过学习修正自己的符号操作行为。在这种游戏中,“中文屋”内的人或机器与外界形成了意向性因果关系联系,他以“对外界输入的信息做出正确的反应”的方式,逐步理解符号的功能,并对符号赋予意义。可重复的符号操作游戏的意向性特征,说明塞尔假定的语法和语义之间的鸿沟是虚构的,而整个“中文屋”论证包含着“窃取论题”的逻辑谬误。这里的“意向性”并不是以笛卡尔式的“心灵自我”为基础的,而是通过博弈局势中的他人指向对象的。换句话说,意向性是博弈代理人之间交互性作用的产物。自动机在重复博弈中显示的长远眼光、威胁和承诺能力,提供了解决意向性之谜的思路:意向性并不是心灵或大脑的分泌物,而是通过博弈互动实现的自我指涉。

三、自动机博弈的可计算性和理性问题

按照计算主义的基本假设,关于认知行为的解释包括三个层面:物理的、功能的、意向性的。如果认知现象的规则性不能在生物学的、功能的层次上得到解释,就必须求助于意向性层次的、以理性的方式将目的信念和行动结合起来的规律。在重复博弈的自动机模型中,无论策略是由局中人预设的还是由自动机在互动过程中生成的,只要能够显示出长远眼光或威胁、承诺能力,策略性互动就是规则性的认知现象。如果自动机博弈遵循计算主义的基本假设,各方局中人及其使用的自动机就构成了一个互认知系统,对其中的知识、信念和行动选择的解释必须涵盖物理的、功能的、意向性三个层面。由于博弈论假设了行动的可行性,即使自动机模型对局中人实施其重复博弈策略的能力施加约束,也不会对局中人或自动机解决其决策最优化问题的能力予以限制。因此,对互认知系统的解释主要涉及功能的、意向性层面,与博弈模型的理性假设及均衡的认知条件密切相关。

博弈自动机是以图灵机或元胞自动机为原型的,其主要约束条件是可计算性和计算复杂性,在自动机博弈模型中计算问题不是单个决策方的目标最优化问题,而是策略性互动局势中根据对方类型和行动做出理性选择的可计算性问题。在最简单的二人博弈中,自动机的输入是关于对方类型和可能的行动的描述,而自动机的输出则显示了自己类型和行动,当每台自动机都试图对对手的行动做出最优反应时,均衡策略的可计算性和计算复杂性约束就体现了理性人范式的局限性。当我们从自动机博弈的计算角度审视理性人范式时,完全理性和智能性假设的合理性问题就和计算主义论题的恰当性问题交叉重叠在一起了:自动机博弈能否被视为理性人之间的策略性互动?

按照计算主义纲领对理性行为的简单解释,计算智能是理性的最主要特征,自动机博弈恰好表征了理性和合理行为,因为自动机不但可以模仿人的理性选择,而且可以在任意程度上完成人的计算智能活动。在下棋、解智力题等室内博弈中,自动机在逻辑和数学计算方面的深度和广度绝不逊色于人类棋手,这样的博弈中机器完全有资格被称为智能的,因而是理性的局中人。显然,计算主义的这一解释并不能使人们完全信服。心灵实在论者会反驳说,现实博弈中的理性不是计算智能活动的产物,而是心理过程和自由意志的产物;计算智能不是理性的最主要特征甚至不是其必要条件,自动机博弈只是现实的人之间博弈的模拟或者只是执行现实局中人的博弈策略。

计算主义者要对心灵实在论者的异议做出回应,必须解释行动和知识、信念等意向性状态之间的关系。按照派立夏恩的解释,行动是心灵表征的认知代码之操作的结果,可以看作不同的以知觉或表象为变元的函数,对这类函数的变化与信念变化的一致性解释必须包含受规则支配的、计算的过程。博弈局中人是基于心灵表征而行动的,要解释局中人的行动是否合理,就必须说明他的知识、信念和目标。如果行为是由从其他信念和目的推断出的信念决定的,那么改变一个信念,就会彻底改变一个行动,这种以理性方式解释的可塑性,是行动受到意向性表征支配的主要标志。将这一解释应用于自动机博弈,就会得到一个推论:博弈中的理性选择应当与信念变化相一致,与均衡选择一致的认知是一种受规则支配的、计算的过程。这样,问题1就转换为“自动机博弈中是否存在理性局中人”或者“自动机博弈中是否存在理性选择或均衡策略”等问题。对自动机博弈的分析表明,理性选择和理性局中人的存在性依赖于博弈的结构和博弈进程。对于某些存在明显理性策略(如占优策略)的博弈而言,任何采用这种策略的智能体是理性的,无论他是局中人还是自动机。另一方面,在某些自动机博弈中,局中人可能并没有对其对手的任何策略都能做出最优反应的自动机,换句话说,不存在总是理性的博弈自动机。理性局中人的存在性依赖于博弈结构和博弈进程,这限制了计算主义者对问题1做出明确的肯定的回答,更重要的是,自动机在计算时间、空间、机器规模上的受限性和观察、感知能力方面的缺陷,不但对博弈论的理性假设提出了质疑,而且动摇了“认知=计算”在理性、认知、行动分析中的方法论地位。

四、计算复杂性与博弈学习

通过对自动机博弈的可计算性约束的考察,我们认识到,博弈论的完全理性假设与计算主义的核心论题是密切相关的。如果缺乏对完全理性假设的合理性论证,我们无法确认自动机就是博弈中的理性智能体,反过来,如果我们不知道博弈中是否存在理性智能体,我们就没有完全理性假设的合理性的保证。计算复杂性是“认知=计算”论题面临的另一难题,在自动机博弈中,计算复杂性产生的问题是:自动机是否会陷入彼此之间的互计算的无限循环?理性准则是否总是导出合理的输出?以二人重复博弈为例,如果博弈自动机A是理性的,就必须计算出对手B的输出,然后做出最优反应;B同样要计算出A的输出然后才选择行动,它们之间就会产生认知和计算上的循环。从可计算性理论看,自动机互计算的无限循环等于它们作为图灵机进入不停机状态,走出互计算的无限循环既依赖于自动机反应函数的特征,也依赖于博弈的结构。如果博弈存在明显的占优策略或者自动机被指定了默认行动博弈,它们之间的互计算循环是可以被打破的。而且,通过考察自动机博弈的计算复杂性可以得知,存在能够认识自我的博弈自动机;存在能够模仿任何机器的博弈自动机。由于有了认识自我、识别对手和模仿对手行为的能力,自动机在做出选择时会形成各种不同的行为模式,如“对友好的对手表示出友好,对不友好的对手表示出好斗”⑧。当自动机能够通过识别自己或其他自动机的类型或行为模式时,就可以预测对手的行动选择,这样,在收到对手实际行动的信息之前,自动机就可以把预测到的对手的行动选择作为输入,然后产生出一个行动作为输出。

可以看出,打破互计算循环的关键是机器的学习能力。如果博弈机器能够从已有的博弈结果中概括出有效的策略模式,并且在重复出现的局势中运用这些策略,就表明机器具有学习能力。在不完全信息博弈中,如果博弈自动机是贝叶斯型的,就会依据先验信念和新的信息,按照极大后验信念做出策略选择。应当说,博弈学习是人类学习的主要形式,这种能力是物种进化的产物,是人类社会存在和发展的重要基础。人类的博弈学习伴随着认知、计算、行动,按照计算主义论题,它们都是心灵表征的组成部分:“心灵是由具有计算功能的机器组成的系统,它被自然选择机制设计出来,为的是解决我们的祖先采集渔猎的过程中所遇到的问题,尤其是为了理解和战胜外界物体、动物、植物和其他人。”⑨对于自动机而言,获得博弈学习能力不必经历上万年的进化过程,但是,也不会像灌输性学习那样将知识植入系统,而是需要经过一定的博弈阶段在与对手的互动中才能形成。

博弈自动机学习的核心内容是规则和策略模式,自动机认识自我、识别对手的实质就是对各自策略模式的认知。从这个意义上说,博弈学习不仅带来知识和策略能力的提升,也奠定了认识自我的基础。在自动机模型中,可以设计一个描述特定自动机特征的符号输入-输出系统,使得该自动机能够区分不同的自动机的输出,并且根据不同的指令进入停机或不停机状态,从而识别自己的特征。这一设计的思想基础是:自动机的自我识别只能通过与其他机器的比较才能进行,而关于自我的描述存在于与其他机器互动的指令和输入-输出中。

上述识别机制以不同形式存在于所有智能体中,如领导者通过被领导者的服从确认自己的权威特征,孩子通过长辈的认可得知自己的归属,元胞自动机通过生存游戏确定自己的行为模式。学习、认识自我和模式识别只能发生在交互性主体之间,而且是不断演化和发展的,这是新一代认知科学把握智能体认知和行动的基本出发点。

人类主体和人工智能体不仅需要理性的思维,而且需要理性的行动,这是新一代认知科学与“认知转向”之后的博弈论在智能体本质属性问题上形成的共识。自动机博弈模型既是认知-行动模型的博弈论版本,又是策略性互动模型的计算主义抽象,通过自动机博弈剖析计算主义纲领的启发性和主要难题,是理解认知科学发展趋势的一条进路。

注释:

①图灵:《计算机器与人脑》,载于马格丽特主编:《人工智能哲学》,上海:上海译文出版社,2001年,第27页。

②Bacharach,Epistemic Logic and the Theory of Games and Decision,Kluwer Academic Publisher,1997,p.124.

③鲁宾斯坦:《有限理性建模》,北京:中国人民大学出版社,2008年,第115页。

④转引自罗素:《人工智能——一种新方法》,北京:人民邮电出版社,2009年,第23页。

⑤派利夏恩:《计算与认知》,北京:中国人民大学出版社,2008年,第143页。

⑥Searle,Intentionality,Cambridge:MIT Press,1989,p.12.

⑦Sheutz,Computationalism:New Direction,Cambridge:MIT Press,2002,p.14.

⑧鲁宾斯坦:《有限理性建模》,第144页。

⑨索尔所:《认知心理学》,上海:上海人民出版社,2007年,第37页。

标签:;  ;  ;  ;  ;  ;  ;  ;  

计算程序与机器游戏的认知意蕴_博弈论论文
下载Doc文档

猜你喜欢