公共合作中的社会困境与社会公正：基于计算机模拟的经济学跨学科研究_计算机仿真论文

公共合作中的社会困境与社会正义——基于计算机仿真的经济学跨学科研究，本文主要内容关键词为：社会论文,困境论文,正义论文,经济学论文,计算机仿真论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、引言

在公共品博弈中，合作者对公共品的贡献经放大后在全体参与者中平均分配；如果所有参与者都选择合作，则每个人都将实现收益最大化，这是一个帕累托最优状态。但由于公共品的非竞争与非排他性质，背叛者可以通过搭便车获取合作收益，从而获得比合作者更高的净收益。从理性人假设出发，搭便车是一个占优策略。从演化均衡看，不管合作者在人群中的初始比例多大，他们最终都将被搭便车的背叛者所取代，从而无法形成高效率的社会合作。公共品博弈所呈现的这种个体理性与整体效率之间的矛盾，与囚徒困境、公地悲剧一起，被称为三大“社会困境”(Dawes,1980; Messick and Brewer,1983; Ostrom,1990)。

但是，大量的行为实验，比如在囚徒困境(Flood,1952,1954)、公地悲剧(Ostrom et al.,1992)、最后通牒(Güth et al.,1982)、信任博弈(Berg et al.,1995)、独裁者博弈(Forsythe et al.,1994)、公共品博弈(Bohm,1972)和礼物交换博弈(Fehr et al.,1993)中，研究者都发现，人们并非像经典理论所预测的那样，必然会通过背叛来增进自身利益。这些实验对“经济人”或“理性人”的自利假设构成了系统性背离(Gintis,2003)。其中，影响最大的是美国桑塔费研究院上世纪90年代开展的田野实验：该实验历时10年，以全球15个不同文化和经济背景的小型社会为样本；结果表明，文化与经济差异虽然会影响人的行为，但自利假设却没有得到任何样本的支持(Henrich et al.,2001)。行为实验提出一个关键问题：在严格的非合作博弈条件下，究竟什么机制导致了合作行为的出现？而这正是公共品博弈及社会困境研究中最重要的导向性问题。

与自利假设兼容的解释是互惠理论，包括直接互惠和间接互惠。直接互惠认为，人们之所以寻求合作，是因为他们期望对方也能这样对待自己(Trivers,1971)。但这个理论的前提是博弈双方长期的重复互动，它无法解释大量存在的一次性博弈中的合作行为(Gintis,2000,2003)。间接互惠认为，乐于合作的好名声可以增加他人与自己合作的几率(Alexander,1987)。但这个理论的前提是博弈身份的公开，它无法解释大量存在的匿名博弈中的合作行为(Fehr and Gchter,2000)。

1992年，人类学家们发现惩罚背叛是早期人类社会维护公共合作的重要机制(Boyd and Richerson)。1995年，动物学家证实，惩罚是社会性动物维护合作的重要手段(Clutton-Brock and Parker)。2002年，实验经济学家证实利他惩罚可以显著提高群体的合作水平(Fehr and Gchter)。至此，惩罚或利他惩罚成为化解社会困境的重要理论范式，引起了研究者的普遍关注(Fehr and Schmidt,1999,2003; Boyd et al.,2003; Bowles and Gintis,2004; Henrich,2004,2006)。2004年8月，《科学》杂志刊登了一篇由神经科学家与经济学家共同完成的研究报告，报告他们通过正电子断层扫描(PET)发现了利他惩罚的神经基础(De Quervain et al.,2004)。①

2006年4月，英国心理学家科尔曼(Andrew Colman)发表于《自然》杂志的评论指出，惩罚不是免费午餐，惩罚本身是有成本的；除了需要消耗时间和精力，惩罚者还要承受被报复的风险；这样就可能产生“二阶搭便车”行为。从演化逻辑看，惩罚者将被演化优势更大的二阶搭便车者所取代。而一旦人群全部由不施行惩罚的合作者组成时，背叛者又会侵入该群体，并逐步取代合作者。这就是所谓的“二阶社会困境”。科尔曼认为，“看来，我们现在需要用对惩罚的解释来取代对合作的解释”(Colman,2006)。

2006年至今，大量研究围绕化解二阶社会困境展开(Gürerk et al.,2006; Henrich et al.,2006; Gintis,2008; Janssen and Bushman,2008; De Silva et al.,2009; Pennisi,2009)。其中，影响最大的是一个由演化动力学家和数学家提出的“自由选择”模型。他们在公共品博弈中引入一种被称为“非参与”(non-participant)的策略性行为，并假设非参与者可以自由选择是否加入一场合作事业。在《科学》和《自然》杂志发表的系列研究报告中，他们通过多行为主体演化博弈随机过程的计算机仿真证明，如果允许博弈者自由选择，就能够化解二阶社会困境(Hauert et al.,2007; Sigmund et al.,2010)。

但研究合作问题的著名人类学家博伊德(Robert Boyd)却在《科学》杂志和《英国皇家学会会刊》撰文指出，自由选择需要依赖极强的假设：模型中的公共产品必须是排他性的，否则放弃从该物品上受益便不再是一种可能的选择，而“非排他性”则被认为是公共品更一般的属性。因此，这个模型“只能解释很少一部分符合这些假设的情形”，而“现在的挑战，便是解释惩罚如何能够在其他情形下产生”(Boyd and Mathew,2007; Mathew and Boyd,2009)。

为了在一般条件下化解二阶社会困境，博伊德和杰斐提出了“协调惩罚”(Boyd et al.,2010)和“联合惩罚”(Jaffe and Zaballa,2010)模型。计算机仿真结果表明，惩罚者如果能就惩罚达成共识或彼此分摊成本，就能化解二阶社会困境。但是，“协调惩罚”或者“联合惩罚”本身就是一种合作行为；用来解释合作的形成，无异于用合作解释合作；它不但使研究陷入循环论证，而且改变了公共品博弈的非合作博弈性质(Ye et al.,2011)。

是否能在不改变公共品博弈基本属性的条件下化解二阶社会困境？通过一个多行为主体演化博弈随机过程的计算机仿真，我们发现：如果公共品的回报足够大，惩罚行为就能保持稳定的演化趋势，从而有效化解二阶社会困境。通过进一步研究，我们揭示了其中的机理：随着公共品回报的不断增加，二阶搭便车对惩罚者的演化优势会不断缩小；当这种优势足够小时，它就可能被演化过程的随机性所抵消。这一研究结果表明：以公平和公正为宗旨的社会正义是化解社会困境的必要前提，在人类的公共合作中，正义原则必须优先于效率原则；而人类天性中的正义感，则是这一社会规范内部化的产物。

二、假设与模型

本节根据演化博弈的方法，通过数学建模对引言中讨论的公共品博弈案例进行梳理，并在此基础上提出我们化解二阶社会困境的模型。

按照理性人假设，该博弈的纳什均衡为所有博弈者都不对公共品作贡献。从演化角度看，不论合作者在初始人群中的比例多大，他们最终都将被演化优势更大的背叛者取代，其演化均衡为n＝y。如此，该博弈的总回报P和个人回报均为零，从而使群体陷入社会困境：

P＝＝0

(3)

假设存在惩罚者z，他们不但对公共品做贡献，而且会惩罚背叛者。若惩罚强度δ大于等于合作成本c，合作者的回报将大于等于背叛者，从而使群体免于陷入社会困境：

按照理性人假设，上述情形将诱发二阶搭便车，其纳什均衡为所有博弈者都不作惩罚，即n＝x。当群体全都由不惩罚的合作者组成时，背叛者就可以轻易地侵入进来，其最终演化均衡为n＝y。于是合作秩序再次面临崩溃，这种状况被称为二阶社会困境。

为化解二阶社会困境，研究者引入非参与者，并假定他们可以获得一个不依赖公共合作的独立收益σ。若搭便车的人很多，独立收益将大于博弈收益，人们可以选择退出博弈；若合作的人很多，独立收益又小于博弈收益，人们又会重新参与博弈。模型的这一内在机制，避免了公共合作被锁定在社会困境状态：

但是，自由选择意味着公共品具有排他性质。虽然，拥堵效应可能导致公共品消费的排他性，但非排他性通常被认为是公共产品更为一般的属性。事实上，该模型的假设更接近布坎南所谓的“俱乐部产品”，而非标准的公共产品(Buchanan,1965)。

为在一般条件下化解二阶社会困境，我们将在不增加其他假设的情况下考察惩罚机制的演化均衡：假设在一项非排他性的n人公共品博弈中，有x个合作者、y个背叛者和z个惩罚者(i＝1，2，…，n)；

当代博弈理论正在经历经典博弈论基础范式的三大转变，即理性假设向BPC假设②的转变，策略博弈向行为博弈的转变，纳什均衡向演化均衡的转变(Gintis,2009; Camerer,2003; Gould,2002)。考察公共品博弈的演化均衡需要将博弈过程置于一个复制动态过程中，其基本方法是把博弈者的博弈回报(payoff)与博弈者的演化适应度(fitness)相关联，并把适应度的高低作为博弈者改变其策略性行为的主要依据(Smith and Price,1973；史密斯，1982；诺瓦克，2006)。在生物学或生态学中，适应度被定义为“生命有机体预期的后代数量”(Smith,1989; Gintis,2009)。事实上，这一定义可以在多重意义上描述生物体的复制动态，例如基因复制、个体繁衍，以及策略学习和策略更新过程。

随机性是演化过程的重要特性，它包括来自行为主体内部的随机变异以及来自外部环境的随机扰动(Fudenberg et al.,2004)。演化随机性是过程的随机性，而不是结果的随机性(Gell-Mann,1994)。在复杂系统中，演化过程的随机性往往会导致某种“秩序涌现”的确定性结果。社会科学研究的对象，比如经济系统和人类的社会行为就是一个由多重因素和变量决定的、具有随机演化和秩序涌现的复杂系统。对于这类复杂系统，往往不可能给出解析性的描述。从上世纪末和本世纪初开始，国际学术前沿开始引入计算机仿真技术研究经济学领域的相关问题，并取得许多重要发现(Axelrod,1997; Bowles and Gintis,2004; Hauert et al.,2007; Hidalgo et al.,2007; Sigmund et al.,2010; Jaffe and Zaballa,2010)。这一研究方法的创新，标志着经济学在经历了定性的思辨分析和定量的数理分析后，又进入一个新的发展阶段。同时，它也体现了社会科学与自然科学在研究方法与研究手段上日益交叉融合的趋势。

目前，一种基于频率依赖型莫兰过程(frequency-dependent Moran Process)的多行为主体(Multi-Agent)计算机仿真技术，是用于演化博弈随机过程研究的标准方法。

三、方法与技术

帕特里克·莫兰(Patrick Moran)是已故澳大利亚著名统计学家，以他的名字命名的“莫兰过程”是一种分析有限规模种群随机演化的科学方法，被广泛应用于自然选择、遗传复制、遗传变异和遗传漂变等生物演化过程的研究。本世纪初，演化动力学家把它引入演化博弈，用来分析策略学习与策略更新过程，为计算机仿真在社会科学领域的应用奠定了基础(Taylor et al.,2004; Fudenberg et al.,2004; Imhof et al.,2005; Nowak,2006)。

作为描述有限规模种群随机演化的方法，莫兰过程最重要的思想在于，它假设演化的每一代都有且仅有一个个体“死亡”并被一个“新生者”所取代，而这个“新生者”的类型则取决于个体的演化适应度。根据这一思想，在一个规模恒为M的群体中，个体在时间和空间维度的演化被刻画为：若某种类型的个体在时间t的数量为，那么在时间t＋1，有且仅有三种可能的状态：(1)保持原有规模，即仍为；(2)在原有规模上增加一个个体，即＋1；或(3)在原有规模上减少一个个体，即－1。按照这一简单的规则反复推衍，就可以在不改变群体总规模的条件下，描述一个种群的演化趋势(Moran,1962; Nowak,2006)。

有限规模种群多行为主体随机演化过程分析的对象，在突变率μ→0的条件下可以得到很大简化。此时，群体演化总是由一种或至多两种类型的个体参与。当μ＝0时，群体中任意类型的单一态都具有吸收作用。如果突变率足够小，两种单一态之间的转换，只有当一个突变者出现并固定下来时才会发生，从而使一个多样化、异质性的超几何分布退化为一个未被替换的二元样本(Taylor et al.,2004; Hauert et al.,2007)。

考虑从一个充分混合的多样化和异质性的有限规模人群样本M中随机挑选N人参加一项排他性的公共品博弈，如果突变率μ→0，随机抽样就等价于对一个由个i类型和M－个j类型个体组成的二元样本进行N次不重复抽样，抽取K个i类型和N－K个j类型个体的概率为：

对应于以上矩阵最大特征根的特征向量则决定了该人群的恒定分布，即它给出了在突变率μ→0时，该系统中任一类型的个体在演化中的稳态概率分布。③

在突变率μ＞0时，稳态概率的实际值将受随机因素干扰而波动。但如果某种行为具有稳定的演化优势，它的概率分布最终将抵御系统的随机扰动，从而揭示其演化的趋势和方向。我们可以通过一套基于频率依赖型莫兰过程的多行为主体计算机仿真技术来再现博弈的随机演化过程。其基本步骤如下：

第一，产生随机博弈样本。运用蒙特卡罗法(Monte Carlo method)，从一个充分混合的多样化和异质性的有限规模人口样本M中随机挑选N人参加一项排他性的公共品博弈(Metropolis and Ulam,1949; Caflisch,1998)。

第二，计算博弈回报。令N中的个体根据预设的规则进行博弈，即根据本文第二节模型(7)—(9)，在设定参数后分别计算不同类型的博弈者在每轮博弈中获取的回报值。

第三，计算演化适应度。演化博弈假定博弈者倾向于模仿那些回报较高的个体，这一假定也意味着，回报较高的个体具有较高的演化适应度，从而将获得更大的遗传优势。在演化动力学中，常用算法为F＝1－ω＋ωP，式中F为适应度(fitness)，P为博弈回报(payoff)，ω被称为“自然选择强度”(0＜ω≤1)；该公式将适应度视作一个对所有博弈者都单位化为“1”的“生存底线”与博弈回报的线性组合(Hauert et al.,2007; Nowak,2006)。这一算法的缺陷是在强选择区域有可能出现适应度的负值，因此只能用于弱选择下的仿真。为避免这一缺陷，我们在仿真中首次采用了特劳森(Arne Traulsen)等人设计的指数型算法F＝e[ωP](Traulsen et al.,2008)，从而可以模拟自然选择强度ω在定义域内的任一演化过程。④

第四，遗传复制或策略更新。莫兰过程假定，演化的每一代都有一个个体在总人口M中“死亡”并被一个“新生者”所取代。死亡者或新生者的类型，则取决于每个个体适应度的高低和每一类型个体在总人口中的频率。常用的算法为“生－死”(birth-death)法和“死－生”(death-birth)法。所谓“生－死”法，即根据某类个体的适应度确定一个“新生者”，然后用它来随机取代M中的某个个体；所谓“死－生”法，则是先根据某类个体的适应度确定一个“死亡者”，然后从M中随机抽取一个“新生者”取代它留下的空缺(Taylor et al.,2004; Hauert et al.,2007)。我们在仿真中则根据莫兰过程的基本思想(Moran,1962; Fudenberg et al.,2004)，创造了一种“遗传池”(genetic pool)算法：M中的成员根据博弈样本的适应度成比例地调整各自的数量，调整后的成员放入一个“遗传池”，然后从中抽取一名成员对M中的个体进行随机替换(Ye et al.,2011)。⑤

第五，遗传变异或突变。遗传变异是达尔文创立的重要概念(Darwin,1859)，它也是影响多行为主体演化博弈随机过程的重要因素。演化动力学假定每一类型的个体都会以一个非常小的概率μ随机地变成其他类型，μ被称为突变率(mutation rate)。这一假定也等价于博弈者会以一个非常小的概率在不考虑回报的情况下更换自己的策略，仅把它作为对其他策略进行的探索性尝试(Hauert et al.,2007)。

上述步骤通过五个执行程序，构成一个完整的基于频率依赖型莫兰过程的多行为主体演化博弈随机过程的计算机仿真：

图1 计算机仿真流程

四、计算机仿真结果

1.社会困境的产生过程

如果公共合作只有合作和背叛两种策略性行为，一个公共品博弈事实上就蜕化为一个多人囚徒困境博弈。根据“经济人”或“理性人”假设，博弈者最大化其自身利益的结果，使该博弈的纳什均衡为所有人都选择背叛。从演化均衡角度看，不论合作者在初始人群中的比例多大，他们最终都将被适应度更高的搭便车者所取代。个体理性的这种短视行为，将导致公共合作无法实现帕累托最优，从而使系统陷入社会困境。通过计算机仿真，我们可以模拟和再现公共品博弈中社会困境的产生过程。

图2所显示的计算机仿真结果表明，在一个只包括合作者和背叛者的公共品博弈中，即便我们假定初始人群100％都是合作者，由遗传变异产生的背叛者仍然可以非常容易地侵入这一系统。并且，一旦背叛者侵入该系统，他们就将迅速取得统治地位。虽然合作者还是可以通过遗传变异不断产生出来，但他们却不可能侵入由背叛者统治的世界。在10万代仿真中，背叛者在整个人群中所占的平均比例为71.66％，而合作者所占的平均比例仅为28.34％。

图2 公共品博弈中的社会困境

注：仿真参数：M＝100，N＝5；x＝100，y＝0；c＝1，r＝3，ω＝0.5，μ＝0.001。

2.二阶社会困境的产生过程

如果在公共品博弈中引入惩罚机制，即假定有一些合作者会去惩罚那些搭便车的背叛者；在惩罚强度δ大于等于合作成本c的条件下，搭便车变得无利可图，受到惩罚的背叛者将逐步在人群中趋于消亡。但由于惩罚本身是需要成本的，与不做惩罚的单纯的合作者相比，惩罚者在演化过程中处于劣势地位。从演化均衡角度看，不论惩罚者在初始人群中所占的比例多大，他们最终都将被适应度更高的合作者所取代。一旦人群全都由不做惩罚的单纯的合作者组成时，背叛者将非常容易地侵入这一系统；通过惩罚者建立起来的合作秩序，再次面临崩溃的局面。这就是所谓的“二阶社会困境”。在一个较长的演化时段中，我们将观察到这一过程反复出现，即三种不同类型的博弈者轮流处于统治地位，呈现出一种“石头－剪子－布”式的周期性循环。通过计算机仿真，我们可以模拟和再现公共品博弈中二阶社会困境产生的全部过程。

图3所显示的计算机仿真结果形象地表明，即便我们假定初始人群100％都由惩罚者所组成，经过遗传变异产生的合作者却可以很容易地侵入这一系统。但是，一旦当合作者占据统治地位后，背叛者的侵入就成为不可避免。虽然，由突变而产生的惩罚者还会对背叛者形成威胁，但惩罚者自身仍然会不断受到合作者的侵袭，而合作者又会遭到背叛者的侵袭，整个系统呈现出“石头－剪子－布”式的震荡循环。相对于合作者和惩罚者，背叛者占据主导地位的时间更长，从而使系统无法形成稳定的合作秩序。在10万代仿真中，三种行为者占整个人群的平均比例分别为：合作者为37.07％，背叛者为40.47％，惩罚者为22.46％。

图3 公共品博弈中的二阶社会困境

注：仿真参数：M＝100，N＝5；x＝0，y＝0，z＝100；c＝1，r＝3，δ＝1，γ＝0.3，ω＝0.5，μ＝0.001。

3.二阶社会困境的化解

在不改变公共品博弈基本假设的情况下，通过计算机仿真我们发现，如果公共品具有较高的回报，即公共品的回报乘数r达到一定强度(例如r＝6)，惩罚行为就可以获得稳定的演化趋势。而稳定的惩罚机制则能够对背叛者的搭便车行为形成持久威胁，从而有效地维护了公共合作的秩序。这一结果表明，在一个符合一般假设条件的附带惩罚机制的非排他性公共品博弈中，二阶社会困境被成功化解了。

图4所显示的计算机仿真结果表明，即便我们假定初始人群100％都由背叛者所组成，经过遗传变异产生的惩罚者仍然可以侵入这一系统并在人群中占据统治地位。而且，一旦惩罚者占据了统治地位，其他行为者就很难侵入，使系统呈现出一种稳定的合作秩序。在10万代仿真中，三种行为者占整个人群的平均比例分别为：合作者为8.69％，背叛者为9.89％，惩罚者为81.41％。

图4 公共品博弈中二阶社会困境的化解

注：仿真参数：M＝100，N＝5；x＝0，y＝100，z＝0；c＝1，r＝6，δ＝1，γ＝0.3，ω＝0.5，μ＝0.001。

对各项参数的稳健性检验(robust tests)显示，上述结论在相当宽泛的条件下仍然成立。对公共品回报乘数r的检验显示，回报乘数与惩罚者的演化优势呈明显的正相关关系：在r＝4时，惩罚者的演化优势就可以得到明显改善；在r＞5时，惩罚者就能够在演化过程中取得稳定的演化趋势；且随着r的进一步增大，惩罚者的演化优势也不断加强。⑥

五、问题与讨论

1.高回报公共品化解二阶社会困境的机理

我们知道，对惩罚者演化优势构成的威胁主要来自合作者的二阶搭便车行为。通过仿真数据分析我们发现，随着公共品回报乘数不断增大，合作者相对惩罚者的演化优势呈逐步缩小的趋势。这是因为，公共品的回报越大，每个博弈者的平均收益就越高；而在惩罚成本给定的情况下，每个博弈者的平均收益越高，惩罚者与合作者之间的相对收益差距，从而也就是他们在演化优势上的相对差异就越小。当这种差异缩小到一定程度，它就可能被演化过程所具有的随机性所抵消。

在生物学中，演化过程的随机性主要来自基因自身的遗传变异(genetic variation)和由环境因素诱导的遗传漂变(genetic drift)。这就意味着，生物性状的演化趋势并非百分之百取决于适应度的大小。在一个较小概率上，它可能受到来自生物体内部的因素或外部环境的随机扰动。当然，如果某种生物性状的演化优势很大，它就可以抵抗这种随机干扰。但如果演化优势足够小，这种演化上的优势就可能被系统的随机干扰所抵消。

当然，随机扰动是作用于所有个体的。但在我们的仿真中，它似乎只是单方面削弱了合作者的演化优势。通过进一步数据分析我们发现，如果合作者一旦在演化中占据了统治地位，他们将无法维持这一状态，因为他们没有任何手段阻止背叛者的侵入。与此相反，如果惩罚者一旦在演化中占据了优势，这种优势会进一步加强，呈现一种“正反馈”效应。这是因为，当惩罚者的人数增加时，背叛者的数量会不断减少；而背叛者数量的减少，又会降低惩罚总成本，从而使惩罚者具有更明显的演化优势。因此，正如我们在仿真中观察到的：在高回报的公共品博弈中，一旦惩罚者占据了统治地位，其他行为者就很难侵入并颠覆它。

2.高回报公共品的理论依据

在公共品博弈的行为试验中，实验者通常把r＜N作为一个既定前提(Ledyard,1995)；其中，r为公共品回报乘数，N为博弈者人数。实验经济学家认为，如果r＞N，则合作的边际回报将大于边际成本，而这是与社会困境假设相矛盾的。举例说，如果r＝6，N＝5；即便其他博弈者都采取搭便车策略，一个合作策略的采取者也可以获得比他的投入更大的收益P[,x](假定合作投入c＝1)：P[,x]＝1/N·cr＝1/5·1·6＝1.2，因此P[,x]＞c。若规定P[,x]＜c，则有1/N·cr＜c，即必须满足条件r＜N。

但是，上述矛盾在演化博弈中却不存在。在演化博弈中，决定某种行为是否占优主要取决于它们相对其他行为的演化优势，而不是该行为对个体的边际回报。由于搭便车者不用支付合作成本，因此不论双方的边际回报多大，背叛者始终比合作者具有更大的演化优势。而这正是公共品博弈随机演化过程产生社会困境的根本原因。为了进一步证明这个判断，我们对N＝5，r＝6至r＝10，甚至r＝100的公共品博弈进行了仿真测试。结果表明，如果不存在惩罚机制，不论r值大小，最终在演化过程中胜出的一定是搭便车的背叛者。⑦

由此可以得到一个重要结论：化解公共品博弈中的社会困境，惩罚机制的存在是一个必要条件，而公共品的高回报则是一个充分条件。

3.高回报公共品的现实基础

高回报的公共品博弈，也许会被视作一种罕见的状态。比如，当一个国家遭遇地震、海啸、火山喷发等严重自然灾害，或面临外敌侵略和恐怖袭击时所面临的情况。我们的研究能够很好地解释，为什么在这些情况下，民众往往很容易就公共合作和惩罚背叛达成普遍共识。但我们不应该忘记，在长达数百万年的人类进化史前阶段，公共合作具有很高的回报也许就是一种常规状态。

根据古人类学的最新发现，人类演化的历史起码可以追溯至700万年前的东部非洲。⑧一场始于3000万年前的地层断裂，最终形成了地球上最为壮观的地貌之一东非大裂谷。这场将非洲一分为二的地质运动，奠定了整个人类历史的基础(Oaks,2003)：大裂谷西边，依然是连绵的热带森林，生活在那里的灵长类继续着它们的丛林生活，并最终进化成现代黑猩猩或大猩猩；而大裂谷东边，由于隆起的群山阻隔了大西洋的暖湿气流，逐步使热带森林蜕变为热带稀树草原，从而迫使我们的祖先们走出丛林，踏上向人类进化的漫长道路。

根据古动物学家的描述，当时统治非洲大陆、处于食物链顶端的都是一些大型食肉动物，如剑齿虎、恐猫、巨鬣狗以及四处游弋的狮子和猎豹。最近的一项古生物学研究，纠正了一个曾经被我们所熟知的观点，即我们的祖先都是一些手持长矛和弓箭的猎人。而事实却是，在长达500多万年的时间内，我们的祖先就如今天非洲大陆孱弱的羚羊，都是原始食肉动物肆意捕杀的猎物(Hart and Sussman,2008)。⑨其实，他们的命运还不如羚羊，因为一直以陆地为生的羚羊起码还进化出一种躲避杀戮的极速奔跑能力。而我们的祖先则长期生活在树上，一旦离开安身立命的树木和森林，大自然赋予他们的进化优势都将丧失殆尽。为了在陌生的环境中生存下来，他们必须演化出新的禀赋。这些禀赋包括直立行走、栖息方式的改变、食物谱系的扩展等等。但其中最重要的，则是合作行为的出现(达尔文，1871)。在体力和速度上都远逊于大型食肉动物的原始人类，只有依靠集体的力量才能求得生路。正如恩格斯(1883)所说，人类“为了在发展过程中脱离动物状态，实现自然界中的最伟大的进步，还需要一种因素：以群的联合力量和集体行动来弥补个体自卫能力的不足。”对我们人类祖先来说，合作与否决定着个体的生死与种群的存亡。正是这一历史事实，构成了公共合作具有高回报的现实基础。⑩

六、结语

人类学家认为，距今1.2万年左右，随着农耕文明在美索不达米亚的出现，个人或家庭才有可能成为经济活动的主体(Lowie,1920; Winch,1964)。这就意味着，对人类长达700万年的进化史来说，在99％以上的时间中，我们的祖先不得不依靠集体的力量来维持种群生存。这种生存方式包括共同狩猎、共同采集、共同抵御自然灾害、共同防卫来自其他物种或族群的侵袭，而其中最重要的则是共同分享这些合作活动的成果。从本质上看，这种生存方式就是一种公共品的生产和分配方式。我们的研究则揭示出人类早期生存方式深层的运行机制：一方面，作为一种非竞争和非排他性的公共合作，这些活动很难避免搭便车的机会主义行为，从而使合作陷入困境；另一方面，这些活动所具有的巨大价值使惩罚机制得以产生并稳定运行，从而有效地维护了合作秩序。

哲学家和法学家认为，“正义”或“社会正义”是公平和公正的体现，其最基本的诉求是“让每个人得到他的应得”(柏拉图，约B.C.390；西塞罗，约B.C.51；乌尔比安，533；罗尔斯，1971；麦金泰尔，1988)。搭便车行为是对分配秩序的破坏，不劳而获以及由此造成的多劳少获是对社会正义原则的背离。对搭便车行为进行惩罚，正是为了维护社会正义和合作秩序。现代司法制度诞生以前，社会正义的实施在很大程度上依靠这种个人的惩罚机制(De Quervain et al.,2004)。我们的研究则表明，以公平和公正为宗旨的社会正义是化解社会困境不可或缺的重要前提；在人类的公共合作中，正义原则必须优先于效率原则；如果不能通过惩罚机制维护社会正义，高效率的社会合作便无法实施。

演化心理学家认为，自然选择不仅作用于生物的形态与行为，而且也作用于生物的精神与心灵；与前者相比，后者需要更漫长的时间(Suddendorf,2006; David,2008)。现代人的心智模式是被我们祖先的生存环境塑型的，因为农业文明至今才1万多年，工业文明只有200多年，而人类祖先已经生活了几百万年；神经解剖学的证据表明，工业革命以来，人脑神经元的连接方式没有发生过根本的改变，因此“现代人的头脑里装着一副石器时代的大脑”(Cosmides and Tooby,1997; Schmitt and Pilcher,2004)。我们的研究则表明，公共合作以及为了维护合作秩序所必须建立的社会正义，是我们的原始祖先在几百万年进化中面对的最基本的生存环境；这就使得我们可以解释，对公平和公正的追求为什么会成为一种人类普遍存在的心理状态。

休谟、斯密和达尔文都把正义感看作人性的重要组成部分(休谟，1739；斯密，1759；达尔文，1871)。当代行为经济学与实验经济学关于社会偏好的理论，则把追求公平与公正作为影响人类行为的重要因素(Güth et al.,1982; Rabin,1993; Fehr and Schmidt,1999；奥菲克，2001；陈叶烽，2010,2012)。在现实生活中，“人们发现那些违反社会规范的行为未得到惩罚时会感到不舒服，而一旦公正得以建立他们就会感到轻松和满意”(De Quervain et al.,2004)。我们的研究则揭示出这种道德情感产生的终极原因：人类天性中的正义感是人类在长期演化过程中适应生存环境的结果，是社会规范内部化的产物，即它是维护人类合作秩序的社会正义，通过自然选择被固化在我们身体和心智中的禀赋。

*感谢浙江大学跨学科社会科学研究中心的战略合作伙伴浙江核新同花顺网络信息股份有限公司在仿真软件制作上给予的技术支持和匿名审稿人的评审意见。中心的研究生在该项研究中做了大量基础性工作，他们是：陈叶烽(现为浙江大学经济学院经济学系教师)、童乙伦(现为东北财经大学社会与行为跨学科研究中心教师)、谈非(现在美国印第安纳大学伯明顿分校经济系攻读PH.D)、丁玫(现在德国哥廷根大学计算科学中心攻读PH.D)，以及在读博士生贾拥民、李欢、何志星、王国梁、罗俊、张宏、李雁、邹铁钉、郑昊力和在职博士生纪云东、郑恒。查阅该项研究全部技术资料和下载仿真软件可访问作者主页http://mypage.zju.edu.cn/yehang。文责自负。

注释：

①关于该项研究的详细介绍，可参见叶航等(2005,2007)、汪丁丁等(2007)。

②BPC假设认为人们的行为受制于信念(beliefs)、偏好(preferences)和约束(constraints)的影响(金迪斯，2009)，它与理性假设的主要区别在于：(1)把信念列入影响行为的因素；(2)偏好既包括自利的个人偏好，也包括非自利的社会偏好。

③限于篇幅，关于稳态概率分布计算的具体过程和结果可见http://person.zju.edu.cn/attachments/2012-07/07-1342217075-651200.pdf。

④我们的仿真软件包含两种不同算法的适应度函数，可供选择使用。

⑤我们曾就这一算法与社会科学领域进行计算机仿真最著名的专家、加拿大英属哥伦比亚大学数学系教授哈沃尔特(Christoph Hauert)进行过讨论，并得到他的认同。我们的仿真软件包含三种不同算法的遗传复制或策略更新程序，可供选择使用。

⑥主要检验结果见《经济研究》网站(http://www.erj.cn)同标题工作论文附录；全部检验结果见http://mypage.zju.edu.cn/yehang/648633.html。

⑦测试结果见《经济研究》网站(http://www.erj.cn)同标题工作论文附录。

⑧2001年7月，非洲恩贾梅纳大学的研究生们在乍得北部德乍腊沙漠考察时意外发掘出一个700万年前的颅骨化石。法国普瓦捷大学的布吕内及其同事在《自然》杂志上报告说，从牙齿和头骨结构判断，这具化石为一个新的人种(Michel Brunet et al.,2002)。它是迄今人类所发现的最远古的祖先遗骸。

⑨古生物学家认为，这种状况直到距今200万至170万年左右才得到改变。距今200万年左右，人类学会了使用石器工具；而距今170万年左右，非洲的大型动物发生了一次大灭绝。这两个事件被认为是我们的祖先从猎物向猎人转变的关键(Oaks,2003)。

⑩随着人类进步和生产力的提高，这种状况会逐步得到改善。因此，在一个常规的、低回报的公共品博弈中，需要有新的机制化解社会困境。我们的另外一项研究，对此作了探讨，可参见Ye et al.(2011)。

标签：计算机仿真论文; 惩罚者论文; 合作博弈论文; 经济学论文; 理性人论文; 博弈论论文;

公共合作中的社会困境与社会公正：基于计算机模拟的经济学跨学科研究_计算机仿真论文

猜你喜欢