当代西方基于博弈论的威慑理论综述_博弈论论文

当代西方基于博弈论方法的威慑理论综述，本文主要内容关键词为：当代论文,理论论文,方法论文,博弈论论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号 D0

威慑理论是冷战时期占主导地位的一种国际安全理论，被一些学者誉为20世纪国际关系领域最重大、最深奥的学术创造。罗伯特·杰维斯（Robert Jervis）倡导的心理分析方法、亚历山大·乔治（Alexander George）倡导的个案分析方法和托马斯·谢林（Thomas Schelling）倡导的博弈论方法，是威慑理论研究的三种基本方法。由于威慑情景具有行为者数量有限、行为者之间互动明显以及所涉及的利益重大等特点，有些学者认为博弈论方法特别适合威慑等国际安全问题的研究。如果从决策科学角度来考察，博弈论方法是一种基于理性假设的规定性决策方法，规定理性行为者应该如何决策；而心理分析方法或个案分析方法则是基于有限理性假设的描述性决策方法，它研究现实中有限理性行为者实际上如何决策。由于现实中的威慑问题通常十分复杂，上述研究方法经常被结合起来使用，这里主要对博弈论方法在威慑理论研究中应用的历史、当前一些研究进展及其适用性与局限性进行综述。

一、博弈论方法在威慑理论研究中应用的历史

威慑理论与博弈论几乎是在同一时期创立的两种理论，国际安全问题特别是核威慑问题是最早采用博弈论方法进行研究的领域之一。博弈论方法在威慑理论研究中应用的历史大致可以划分为三个阶段。

第一个阶段是从20世纪40年代中期到20世纪60年代中期。这一阶段的最大特点是，核威慑研究对博弈论方法的强烈需求推动了早期博弈论的发展，并催生了后来非常有影响的“囚徒困境”和“斗鸡博弈”等经典博弈模型。核威慑研究的先驱者贝尔纳德·布罗迪（Bernard Brodie）曾在其早期提出的核威慑思想中试图运用冯·诺伊曼（Von Neumann）的两人零和博弈最小最大准则来强调“理性选择”的重要性：“当面临局势不可推测的紧要关头，决策者不可能完全获取最大限度的所得，因此，理性的选择便要求决策者分析出对对方最有利的策略，并据此作出相应的决策，这种选择尽管不能得到最大的所得，却能避免最大的所失。”由于核战争中没有胜利者的双输结局，无法套用两人零和博弈来解释，兰德公司的两位数学家便设计了后来称为“囚徒困境”的非零和博弈实验。虽然“囚徒困境”模型也适用于解释威慑现象，但严格意义上的第一个标准核威慑模型是“斗鸡博弈”模型。“斗鸡博弈”模型揭示了利益冲突的双方都有极力避免最坏结果的共同利益的一面，这与核战争中没有胜利者的核威慑思想十分吻合。谢林以及赫尔曼·康恩（Herman Kahn）、丹尼尔·艾尔斯伯格（Daniel Ellsberg）等许多学者对“斗鸡博弈”进行了深入研究，并试图用于解释1962年发生的古巴导弹危机。

第二个阶段是从20世纪60年代中期到20世纪80年代中期。这一阶段的最大特点是，在威慑与冲突研究中出现了一些独特的、非主流的博弈分析方法。一方面，研究者对2×2矩阵形式的博弈问题进行深入和系统的研究，如阿纳托尔·拉波波特（Anatol Rapoport）和迈尔文·盖尔（Melvin Guyer）对78种没有固定支付的2×2矩阵博弈进行了分类研究，格伦·斯奈德（Glenn Snyder）和保罗·迪辛（Paul Diesing）在此基础上建立了16种危机情景的2×2矩阵博弈。另一方面，采用2×2矩阵形式的静态博弈模型对古巴导弹危机所作的简单解释受到了普遍质疑，一些研究者提出了自己的博弈分析方法，其中较有影响的有奈杰尔·霍华德（Nigel Howard）的元博弈（metagames）方法、尼尔·弗雷泽（Niall Fraser）和基思·希佩尔（Keith Hipel）的基于超博弈（Hypergames）的冲突分析方法以及史蒂文·布拉姆斯（Steven Brams）的行动理论（theory of moves）。霍华德应用元博弈方法研究了古巴导弹危机和越南战争，布拉姆斯用行动理论研究了古巴导弹危机并比较了与元博弈方法的差异，弗雷泽和希佩尔用超博弈和冲突分析方法研究了苏伊士危机和古巴导弹危机。由于元博弈与重复博弈、超博弈与不完全信息博弈、行动理论与动态博弈分别类似，因此巴里·奥尼尔（Barry O' Neill）认为，上述这些分析方法是因错误的原因而反对主流博弈论。

第三个阶段是从20世纪80年代中期至今。这一阶段的最大特点是，威慑理论研究中所采用的博弈分析方法逐渐向主流博弈论回归，不完全信息动态博弈模型开始得到广泛应用。以罗伯特·鲍威尔（Robert Powell）、弗兰克·扎格尔（Frank Zagare）、詹姆斯·费伦（James Fearon）为代表的新一代研究者普遍采用主流博弈论中的均衡概念（如子博弈完美纳什均衡、贝叶斯完美纳什均衡等）来建立威慑理论模型。巴里·纳勒布福（Barry Nalebuff）最早采用主流博弈论方法来研究威慑问题，他在1986年建立了战争边缘策略与核威慑之间关系的模型。鲍威尔研究了双方不完全信息条件下的核威慑与战争边缘策略，得出了与传统威慑理论不同的结论。扎格尔和马克·基尔戈（Marc Kilgour）对威慑可信性进行了研究，认为威慑可信性与博弈论中的子博弈完美纳什均衡同义，此后他们进一步提出了完美威慑理论。20世纪90年代中期，费伦基于信号博弈研究了国内政治等因素对威慑的影响，此后他进一步对昂贵信号（costly signals）与延伸威慑关系进行了研究。安德鲁·基德（Andrew Kydd）用博弈论研究了威慑升级的螺旋模型，阿维纳什·迪克西特（Dixit）和苏珊·斯克斯（Skeath ）运用不完全信息动态博弈模型和完美贝叶斯均衡概念重新对古巴导弹危机进行了诠释。

二、当前基于博弈论方法的威慑理论研究新进展

20世纪末，保罗·胡思（Paul Huth ）对冷战结束后的威慑理论研究进行了全面评述，皮埃尔·阿兰（Pierre Allan）等对博弈论方法在威慑及其他国际关系问题研究中的应用从可信性与完整性（robustness）两个维度进行了分析。此后，基于博弈论方法的威慑理论研究取得了一些新的进展，其中赞格尔等人提出的完美威慑理论、安·萨特里（Anne Sartori）提出的威慑声誉理论和杰弗里·贝雷吉坎（Jeffrey Berejikian）提出的威慑认知理论尤为引人注目。从方法论角度看，完美威慑理论充分发挥了博弈论方法的强大逻辑推理功能，威慑声誉理论注重将博弈论方法与个案研究方法相结合，而威慑认知理论则以独特的认知心理学视角为博弈论方法的应用开辟了新的领域。

1.完美威慑理论

赞格尔提出的完美威慑理论中的“完美”一词来自博弈论中的完美性准则，他力图运用扩展式博弈中的完美理性要求来重新检验经典威慑理论的逻辑基础。建立在核威慑理论基础上的经典威慑理论有两个基本假设：其一，行为者是理性的；其二，冲突是最坏的结局。在经典威慑理论家看来，战争或冲突对博弈双方都是最坏的结局，这一结局与“理性选择”要求不符，因此维持现状就成为博弈双方必然的选择。赞格尔指出，经典威慑理论的两个基本假设之间存在着内在矛盾，因为在理性选择假设下，由于冲突是一种最坏的结局，当先行为者采取“挑战”策略时，后行为者只能采取“合作”策略，否则将引发冲突并导致最坏结局的出现，因此惟一的结局必然是先行为者赢，而后行为者的威慑是不可信的。这一矛盾在经典的“斗鸡博弈”模型中表现为存在着两个各自有利于不同行为者的纳什均衡，即使冲突这一最坏的结局不发生，但博弈双方都有先行优势，从而都有先发制人的动机。

对此，赞格尔提出了与经典威慑理论具有不同公理基础的完美威慑理论，在保留了“行为者总是理性的”假设下，放弃了经典威慑理论的第二个基本假设即“冲突是最坏的结局”。在完美威慑理论中，冲突可能是，也可能不是最坏的结局，威慑者对挑战者实施威慑的可信性，由扩展式博弈的完美性准则来保证，这种完美性表现为完全信息动态博弈中的子博弈完美纳什均衡和不完全信息动态博弈中的完美贝叶斯均衡。由于完美威慑理论没有对冲突代价进行任何特殊的假设，因此它是一种更一般的威慑理论，可以应用于核威慑和非核威慑两者。完美威慑理论的政策含义也与经典威慑理论形成了强烈对比：国家应该发展最低限度的威慑能力，追求军备控制协议，避免核扩散；而经典威慑理论则认为，适当的军备竞赛有助于防止战争，并赞成受管制的核扩散（增加武器增大了战争代价，核武器使战争代价更大）。

2.威慑声誉理论

亨利·基辛格（Henry Kissinger）最早将有效的信息传递与威慑力量、威慑决心一起列为可信威慑所必须具备的三个要素。他认为，“威慑是上述因素交互作用的产物，而不是它们的总和。如果其中任何一项等于零，威慑必然失败。”传统的威慑理论认为，威慑实施者发出的信号越昂贵，威慑的可信性就越高，因为昂贵信号能明显增加军事冲突的风险并增加从威慑上后退的成本，因此能够揭示出一个国家抵抗敌对攻击的真实决心。而虚张声势的国家由于害怕陷入军事冲突，不愿意跨越危机升级和军事行动的门槛，只能发出低成本的信号。费伦据此提出了一个将昂贵信号方法应用于威慑理论的信号博弈模型，他推测民主国家的领导人在危机中更能发出可信威胁，因为民主国家的领导人面临着在危机中后退需付出更高国内政治成本的情况。

传统的威慑理论有关昂贵信号的观点意味着诸如外交等“廉价磋商”（cheap talk）在增进威慑的可信性方面实际上不起作用。可信威慑的实施者要与虚张声势者区分开来，就必须发出昂贵信号，以反映出自己坚定的威慑决心，因为发出低成本廉价信号的威慑者通常不过是在虚张声势而已。萨特里借鉴博弈论中不完全信息重复博弈声誉模型，研究了声誉在威慑中的作用，进而提出了威慑的声誉理论。她认为，外交等“廉价磋商”在威慑中也会发挥有价值的作用，因为威慑者为了获得在未来的争端中发出有效威慑的声誉，也会发出“诚实的威胁”信号；而没有决心的威慑者可能因为虚张声势的声誉，影响到其未来发出威胁信号的真实性。在研究方法上，萨特里将博弈分析与个案分析相结合，认为在朝鲜战争中中国政府对美国不要越过三八线发出的外交威慑并不是虚张声势，而是一种“诚实的威胁”。由于美国政府误解了这一信号，致使中美两国陷入了谁也不愿意进行的战争。

3.威慑认知理论

经典威慑理论和完美威慑理论的一个共同假设是，行为者是追求期望效用最大化的理性人。当“挑战”比“维持现状”的期望效用更大时，挑战者将打破现状，而威慑实施者将陷入威慑失败。贝雷吉坎将博弈论和认知心理学中的前景理论（prospect theory）相结合，研究了行为者的决策框架对威慑的影响。前景理论是丹尼尔·卡尼曼（Daniel Kahneman）和阿莫斯·特韦尔斯基（Amos Tversky ）提出的一种不同于传统的期望效用理论的新的决策理论，其将价值函数代替期望效用函数，并认为价值函数的计算与心理参考点（reference point）密切相关。当决策者价值超过心理参考点时，决策者处于获益框架（gains frame）中，表现出风险规避行为；而当决策者价值低于心理参考点时，决策者处于损失框架（losses frame）中，表现为风险追求行为。

贝雷吉坎利用“斗鸡博弈”模型，比较了在双边威慑、单边威慑和延伸威慑三种情况下，传统的理性威慑理论与基于前景理论的认知威慑理论的异同。认知威慑理论认为，当两个行为者都处于获益框架时威慑更可能有效，而当任一行为者或两者处于损失框架时威慑的有效性则降低。在获益框架下，只要存在某一个很小的损失可能性，即使“挑战”的期望价值大于“合作”的所得，行为者也不会冒打破现状的风险。这意味着在获益框架下，即使不是很可信的威慑，威胁也会起到足够的威慑作用。与此相反，在损失框架下，行为者将冒“挑战”的风险，即便这一策略的期望效用小于继续“合作”的所得。总的来看，两种威慑理论的差异是：在损失框架不变的威慑的威胁下，前景理论预测冲突而传统理论预测继续合作；当获益框架和可信性降低时，传统理论预测冲突而前景理论预测继续合作。

三、有关博弈论方法用于威慑理论研究的一些争论

国际关系中的互动过程和模式经常会表现出某些类似博弈的特征。博弈论方法作为一种研究理性人之间策略互动的数学与逻辑分析方法，被用于研究国家行为体之间策略互动的问题，这是十分自然的。特别是诸如威慑现象这样的行为者数量少、互动性强、建模与求解相对容易的国际安全问题研究，很适合于采用博弈论方法。正如基德所说：“如果博弈论可以应用于任何地方，那么，它应该更适合应用于安全研究。”60年来，随着博弈论自身的发展完善和人们对威慑问题博弈结构理解的加深，博弈论方法在威慑领域的应用已经从早期模型的简单和形象化比喻发展为以构建具有更强解释能力、更精致的数学模型为特征的主流研究方法，并逐渐被威慑理论研究者所接受。博弈论方法作为一种运用演绎推理构建威慑现象的微观基础和内在机理的方法，借助精确的语言描述，通过形式化或抽象的数理逻辑的严密体系和强大的逻辑推理能力，为威慑理论研究提供了一种独特的分析框架，使决策者能够超越直觉，对经验主义结论进行逻辑检验，增强了理解互动现象背后的原因的洞察力和决策的预见能力，使威慑问题变得有办法来处理。然而，被定义为“智能的理性行为者之间冲突与合作的数学模型研究”的博弈论，是建立在“行为者都是理性的”和“行为者都是智能的（intelligent）”两个基本假设之上，当被应用于对现实威慑问题的研究时不可避免地存在着某些局限性，会引发一些争论。

首先，国家行为体能否满足博弈论中理性人的假设，就这一点还存在争议，这也是博弈论方法用于威慑研究时受到质疑最多的地方。这一争议实际上包括两个方面：国家是否是一个独立行为体；这一独立行为体能否保持理性。传统的现实主义国际关系学说假设国家是独立的行为体，国家能采取理性的行为，能够计算不同的政策选择所带来的利益和成本，并找到使效用最大化的政策。格雷厄姆·艾利森（Graham Allison）在传统的理性行为模型之外提出了组织行为模型和官僚政治模型。组织行为模型认为，决策者的行为是按照标准的行为模式发挥其功能的大型组织的一种输出，而不是深思熟虑作出的选择。官僚政治模型则假定，在不同的决策单位之间存在着激烈的竞争，并将对外政策的形成视为官僚机构的不同部分之间讨价还价的结果。斯奈德和戴森以21次国际危机事件为例，对效用最大化理论（古典理性行为理论）、有限理性理论（从西蒙的满意模型中借鉴过来）和官僚政治模型（韦伯的理论和艾利森的早期观点）进行了经验检验，认为这三种理论并不是对立的，可以相互结合，只是不同的问题应以不同的理论为主导。对于人们质疑的第二个方面，批评者认为在威慑研究中应用博弈论的根本问题在于这种方法完全无视一系列的心理和社会因素——诸如精神变态、情况不明、国内的政治压力、价值观念的冲突或者纯粹的判断失误。

其次，有学者对国家行为体能否满足博弈论中智能人的假设仍存有疑问。博弈论是一种行为者相互依存情形下的特殊决策理论，它不仅要对“行为者是理性的”作出假设，而且要对行为者之间存在“共同认知”（common knowledge）作出假定。共同认知这一术语最早由戴维·刘易斯（David Lewis）用于表达“我知道你知道”这种无限类推的情形，后来罗伯特·奥曼（Robert Aumann）独立给出了它的等价定义。在博弈论中，共同认知假设是与“行为者是智能的”基本假设是一致的，因为智能的含义是指“行为者知道我们对此博弈所知道的一切，并能作出我们对此局势所能作出的一切推断”。这意味着在威慑情景中，博弈结构、策略空间、信念系统和支付函数都必须是共同认知，甚至最终要达到的均衡解也是共同认知，这显然是一个相当高的要求。

博弈论方法在威慑研究中应用的第三个局限性是其理论和实践上的预测价值存在问题。在理论上，博弈论存在多重均衡问题。如果均衡结局不是惟一的，决策者将无从选择，这将大大削弱博弈论的预测作用。经典博弈论对多重均衡问题的解决是通过对纳什均衡概念进行不断拓展和精炼的方法来实现的，如子博弈完美纳什均衡、贝叶斯均衡和完美贝叶斯纳什均衡分别是在动态博弈、不完全信息静态博弈和不完全信息动态博弈下对纳什均衡的精炼。这些精炼是通过对理性进行重新定义来进行的，对行为者的理性和共同认知有越来越严格的要求。正如肯·宾莫尔（Kenn Binmore）所指出的，不同的博弈论学者有太多不同的理性定义，以致纳什均衡的精炼过多，最终几乎任何一个纳什均衡都可以按照某种标准进行精炼。正是经典博弈论均衡精炼方式的内在缺陷，推动了当前进化博弈论和博弈学习理论的发展。从实践上看，基于博弈论方法的威慑理论研究将现实世界中的威慑现象处理得过于简单化，这样得出的抽象结论离现实还有很大的距离，很难适用于政策选择或现实对策。

总的来看，博弈论方法虽然为威慑理论研究提供了独特的视野和远见，但威慑理论研究仅仅在博弈论的分析框架中是无法被全面理解的，博弈论必须与心理分析方法、个案分析方法和其他方法（如统计假设检验方法）相结合，才能为威慑理论研究提供更深刻的见解。

标签：博弈论论文; 纳什均衡论文; 理性选择理论论文;

当代西方基于博弈论的威慑理论综述_博弈论论文

猜你喜欢