基于同侪惩罚的异构合作社区群体合作的标定_惩罚者论文

在异质性合作群落中同侪惩罚对群体合作的校准，本文主要内容关键词为：同侪论文,群落论文,群体论文,异质论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：F012 F019.2 文献标识码：A

合作问题迈入经济学的研究视域的时间并不长，但它始终是社会科学研究的古老命题之一。近些年随着网络技术的普及与应用，人们的合作方式、社会关系发生了巨大改变，那些完全依赖互惠的合作理论不足以解释纷繁的现实世界，取而代之的是以群体选择为基础的网络合作(Fowler & Christakis，2010；Nowak & Highfield，2011)。因此，在新约束下合作问题再次受到学界关注，对此诺瓦克(Nowak，2006)与亨里奇(Henrich，2006)作为合作领域的两位核心掌门人都曾做过很好的综述研究。我们则试图拨开广漠的合作讨论并将研究对象聚焦在：当存在同侪惩罚时，异质性合作群落(heterogeneous cooperative populations)在面对自我生存压力(子群压力、个体选择)与群落压力(群间选择)时，群落的合作程度是如何演化的。长期以来从个体选择出发的主流经济学家们很难理解为什么人们会牺牲个体利益来维护群体利益，并且想当然地从逻辑上认为惩罚的力度越大，合作的程度就越高。而我们发现这种个体合作程度的增加是以牺牲部分子群体之间的合作动机为成本的。也就是说，从群体选择理论的角度来看，这种个体合作程度与群体合作程度之间存在某种替代关系，而这种替代关系正是跨越个体选择与群体选择之间鸿沟的重要桥梁之一。我们则试图探索出这个跨越过程的逻辑机制，这在客观上也为经济学中的重要理论命题——个体理性与集体理性的冲突——提供了一个参考视角。

一、竞争与合作——人类社会行为的两个基本视角

合作与竞争可谓是人类社会行为的“一体两面”。长久以来，由资源稀缺公理所推演出的市场竞争规则被认为是理论经济学大厦的核心假设，亚当·斯密从宏观上高瞻远瞩，利用“看不见的手”来解释市场竞争，但又在客观上为个体私欲的释放予以了充分宽容，并在逻辑上试图以此构建的经济系统来维护社会合作秩序。阿尔钦(Alchian，1950)作为新制度经济学的缔造者之一，他从资源的稀缺约束出发，并站在个体选择的视角认为个体可以选择是否愿意付出成本去占有该资源，并且假设这种选择意愿具有随机性，但个体选择的最终结果、最终的获胜的选项并不随机，而是具有一定的社会规律性，并认为这种“规律”是社会制度演化的重要动力。阿尔钦的这种内涵社会决定论的观点与博物学家达尔文的物种演化理论在思想上如出一辙。达尔文认为竞争的核心是群体竞争，它是自然选择(社会选择)的重要实现途径之一(Darwin，1859)，这种群体演化论思想被经济学家麦克阿瑟和社会生物学家威尔逊(MacArthur & Wilson，1967)推演到有关社会制度的研究当中，确切来说，子群体之间的竞争是社会制度形成的重要途径，子群体之间竞争的动态结果是更注重资源使用效率的社会规则胜出并演化为社会制度。

从竞争的视角来看社会制度的演化过程，那些符合经济规律的制度规则在竞争中获胜、保留下来，而那些不符合经济规律的社会规则逐渐被淘汰。从个体选择与群体选择的角度来看，作出符合社会规律选择的个体得以生存，相反，那些即使是并非刻意作出不符合社会规律选择的个体也会被淘汰。前种类型的个体选择逐渐成为集体选择(Olson，2009)，而这些具有竞争优势的集体选择一旦确定，个体就不必再付出成本参与竞争，合作则是有效率的选择，尤其是群内合作。另外，随着个体对环境适应性的增强，个体生命时间逐渐延长，因此子群体规模得以扩张、群体内部异质性也逐渐增大，那么与小种群相比，大种群中仅能促进竞争的制度规则显然会导致更多的资源浪费，尤其是在资源储备贫乏、资源利用率较低的远古时期，内部竞争性更强的子群落适应性并不高，反而内部合作性更强的种群适应度(group fitness)更高。此时在逻辑上，社会由残酷的资源竞争迈向紧密合作。

根据前文的论述，我们勾勒出了一个以竞争为起点、以紧密合作为逻辑节点的社会结构的演化图景。在深入探讨群体合作之前，我们不禁要问：究竟什么是合作？由于人类社会中的合作现象无处不在，因此对它下一个明确的定义十分困难。鲍尔斯与金迪斯(Bowles & Gintis，2011)从互惠的角度认为合作就是一种利益交互。鲍尔斯的定义初看具有重要的实际意义，即可以利用这种合作概念重新梳理以竞争为基本前提假设的理论经济学，但这样的定义是无意义的，因为它缺乏科学中的可证伪性。除了鲁滨逊式的孤岛经济假设之外，只要存在两个人就会有利益交互、就会有合作。并且，利用利益交互来解释群体选择、个体利他行为时还是有很多的理论局限。国内学者汪丁丁利用多层群体选择理论描述合作，他认为如果说底层的社会行为充满了竞争，那么站在高一层的角度来看就具有了合作的特征(赫伯特·金迪斯、萨缪·鲍尔斯等，2006)。该观点与其说是对合作的定义，不如说是对合作现象的一种结构化表述。诺瓦克(Nowak)并不赞成对“合作”进行一般意义上的描述(Nowak & Highfield，2011)，而试图从具体的利他视角来定义。他认为合作特指具体的帮助行为，合作行为意味着降低自我适应性而提高对方适应性。诺瓦克(Nowak)关于合作的定义确实纠正了鲍尔斯定义上的漏洞，但却受到支持个体选择论者的诸多质疑，主要是质疑这种强互惠者在现实中究竟有多少？如果太少的话，这样的定义显然意义并不大，因为它是有悖帕累托效率的。国内学者汪丁丁(2001，2002)则从知识的角度对合作进行定义，认为当知识的联合生产效用高于单独生产效用时，便会发生合作。汪丁丁从知识互补角度对合作的定义具有很强的启发性，但却很难摆脱循环论证的逻辑困境，因为该定义显然只是合作的一个必要条件。事实上，大部分合作理论的奠基者都认为合作行为(利他性行为)的重要实现动力是最大化个体适应度(individual fitness)，并且在行为的长期演化过程中表现为事后理性(Hamilton，1964；Trivers，1971)，叶航、汪丁丁等(2005)认为这种以最大化个体适应度为目标的合作行为也是一种演化稳定策略。我们将汪丁丁的思路向下延拓，从信息论的角度来看，知识是一种以个体行动为载体的高能信息包(information package)，那么社会合作实质上就是拥有不同信息的个体之间的合作，而这些信息所有者在合作过程中所拥有的某项信息对该信息本身来说是具有比较优势的。因此，个体的互惠合作是具有信息优势的个体之间的信息互换，群体选择层面的合作是具有群体特征的群落信息交换。

二、对群体合作的校准：惩罚的作用

此时我们不禁要问，人们究竟为什么会有这种合作性的信息交互？传统的合作理论认为生存压力下的互惠是这种信息交换最重要的表现。互惠又称互惠利他、直接互惠，我对你的关心需要你来报答(Williams，1966；Trivers，1971，1985；Alexander，1987)，这是非常直接的信息互惠，也是社会生活的基本规则。直接互惠往往不需要承诺、信息停留，而是依靠互惠双方所形成的一种默契(默示信息，default information)。由于直接互惠中信息的所有者与接受者比较单一，因此信息在传播过程中的损耗率很低，在小群体与大群体的子群人格化交易契约中该信息都能够得到较好维持，但对违约者依然具有惩罚作用。如果我帮助了你，你却不思回报就会受到我的惩罚，这种对未来报复性行为的规避成为诱发合作的重要机制。换言之，这种缔约前的具有惩罚特征的默示信息成为维护直接互惠的核心，这也是特里弗斯(Trivers，1971)对合作理论最重要的贡献之一。

我们若揭开直接互惠中惩罚特征的面纱，便发现之所以我害怕你对我的惩罚，是因为我们未来还会见面。在具体的博弈过程中，如果惩罚的结果可以完全预知，演化均衡的结果必然是合作，这是完全信息下大众定理对合作最直接的守护(Friedman，1971；Rubinstein，1979；Fudenberg & Maskin，1986)。如果惩罚的结果具有某些行为偏差(即博弈过程中的惩罚信息不完全)，弗登博格(Fudenberg，1994)认为此时只要人们之间互动的重复概率接近于1，就一定存在某种可以满足合作要求的社会交互规则的信息集，该信息集能够协助互惠诱发合作，该观点也被诸多学者利用计算机模拟仿真所证实(Axelrod & Hamilton,1981; Milinski,1987; Nowak & Sigmund,1992,1993; Imhof,Fudenberg et al.,2005)。

随着群体规模的扩大，受惠者可能想要报答而在客观上难以报答，尤其是现代社会中随着个体的社交网络的扩张双方互动概率逐渐降低，导致直接互惠中默示知识的惩罚作用难以维系更加深广的合作关系，这就内生出了对间接互惠——互惠者可以通过良好声誉信息的传播而从其他人那里得到报答——的客观需求。间接互惠的提出者亚历山大(Alexander，1987)认为这种内涵声誉信息的互惠过程是在声誉市场上对个体行为的评估与再评估，换个角度来看，这种信息的交互评估过程也是对信息的甄别与筛选。对于正确的信息进行互惠报答，而对于错误性信息则进行惩罚。例如网购过程中的差评机制能够通过声誉对黑心商家进行惩罚。而学者对于间接互惠的研究大多集中于通过在直接互惠模型的基础之上引入声誉的信息假设，来探索不同信息传导机制下合作者的博弈均衡。其中，瑟顿(Sugden，1986)推导出了内涵声誉(standing)的合作均衡条件，潘查安撒与博伊德(Panchanathan & Boyd，2004)在瑟顿的基本假设之上引入多个参与者的公共品博弈来求解合作均衡，坎多利(Kandori，1992)则提出了弱匹配下的声誉信息传递对合作维护的影响机制，诺瓦克(Nowak)团队则利用计算机模拟的方法不断修正间接互惠的前提假设使之逐渐向现实靠拢，从而得出更加丰富多彩的演化博弈均衡性条件(Nowak & Sigmund,1998; Ohtsuki & Iwasa2004,2006; Ohtsuki,Iwasa,et al.,2009)。

直接互惠、间接互惠都可视为是用经济手段对群体中合作秩序的维护，其隐含的假设是个体的付出都应该得到相应回报，如果仍得不到回应就需要惩罚机制来保证互惠机制的顺利运行，两者的差别只是回报的对象范围不同。而从惩罚本身的角度来看，由相关互惠者直接对背叛的惩罚属于“同侪惩罚(peer punishment)”。例如，在囚徒困境中的直接惩罚(Axelrod，1984；Poundstone & Metropolis，1992；Roth & Kagel，1995)，在最后通牒博弈中参与者会直接拒绝对方不公平的分配规则(Güth，Schmittberger et al.，1982；Fehr & G

chter，2000；卡默勒，2006)，在公共品博弈中高贡献者可以通过降低自己的贡献值来直接惩罚搭便车者(Fehr & Simon，2000；Fehr & G

chter，2002；Burnham & Johnson，2005)。虽然直接互惠能够有效地促进合作，但背叛者也会因为受到了惩罚而报复对方(Dreber，Rand et al.，2008)，这是对以互惠为核心的合作维护机制的重要成本。那为什么互惠依然具有很强的适应性呢？这是因为互惠不但能有效引致合作，间接互惠所诱发的社会道德、法律在大群体中具有更强的适应性(Rabin，1993；Burnham,McCabe et al.,2000; Bowles & Gintis,2004; Hoffman,2004)。另一个社会惩罚的视角是由高于互惠个体的第三方所进行的“权威惩罚”，而社会道德与法律是权威惩罚中最重要的两个组成部分，二者可视为是一种超越了人格化互惠并能够约束非人格化交易的社会性惩罚。道德与法律的关系是法经济学中重要的理论命题。传统法经济学认为法律与社会道德并不相关(Posner，1983；Holmes Jr,1987；Alschuler，2000)，即法律被认为是一个道德中立者，其所作出的选择既不会赞扬道德高尚的“好人”，也不会刻意惩罚道德卑劣的“坏人”，即使法律看起来似乎有惩恶扬善的作用，但这也只是符合理性、效率的标准而已。长期以来对法律的这种中性理解由来已久，直至最近才被发现该论点缺乏科学基础。现代科学认为法律其实是内含着社会适应性道德的，这种道德内嵌是人类社会意识、趋社会行为的构成基础(Henrich,Boyd et al.,2004; Hoffman,2004; Rustichini,2005; Singer,2006)。我们知道法律最重要的作用是惩罚不合作者，因此从间接互惠的角度来看，这种内涵道德规则的法律是可以通过惩罚对方的精神声誉来维护群体合作的(Garvey，1998；Whitman，1998)。

从合作的内部机制来说，直接互惠向间接互惠的社会交互规则转换不仅促发了社会道德，而且这种转换过程在客观上也完成了行为选择由个体向群体的过渡，从而使个体选择有了更多的社会属性，个体逐渐感受到了群体压力，开始为群体目标而牺牲个体利益，与此同时，也会享受到了内部人的种种优待(Wynne-Edwards，1962)。而在这种互惠群体的行为演化的过程中，族群规模逐渐扩大、种群成员之间的文化差异逐渐降低，从而个体会倾向于与群组成员的行为保持一致，并与非组成员保持适当距离(Lazarsfeld & Merton，1954; Thibaut & Kelley，1959；Homans，1961)，其中形成的许多群体标识符号(如制度、校徽等)对信息识别、合作维护起到了辅助作用(Bowles，Gintis et al.，2000)。当然，群体信息中最重要的是惩罚性信息。霍夫曼等人(Hoffman，McCabe et al.，1994)就曾经对独裁者博弈进行过实验模拟，他通过对个体的不同群体身份进行研究发现，在不同的群体惩罚制度下某个体的合作程度具有明显差异，主要表现在双盲的独裁者试验(dictator double blind experiments)中先行者(first-mover)具有非合作性动机的增加，但即使在双盲试验中，非合作者依然会受到合作者的惩罚。事实上，群内合作的核心问题不仅仅是对非合作者的惩罚，还包括对欺骗者、搭便车者予以警示，因为在异质性群体中非合作者在有限博弈或博弈的演化期数并不很高时，其适应性远远高于合作者(Nowak & Sigmund，1992；Nowak & Sigmund，1993)。因此对于群体合作来说，必须需要外部的种群压力(群体惩罚)予以校准，这种校准过程主要是通过该压力所演化生成的社会制度来规制不合作行为(

，2009)，但只有当这种社会制度演化成为法律规则时才可能最有效地降低契约的执行成本(Hadfield，2001)。

以上我们勾勒出了一幅群体内生的制度演化图景：社会所形成的具有群落特征的互惠单元(社会子群落)内生出了偶然的合作性行为，而这种子群的互惠策略在向间接互惠过渡时会产生规制子群本身的声誉惩罚机制，该惩罚机制又逐渐成为社会制度，该制度是最有效率的群体合作维持机制，它又反过来促进了子群的合作过程。因此在逻辑上合作行为似乎完成了由个体选择向群体选择的过渡，但仔细思考该转换过程依旧存在着很多问题。第一，对群体选择本身的质疑。对某些群内成员来说，群体目标的完成在客观上是以降低个体利益为成本的，这在资源稀缺、替代品匮乏的当代社会依然具有不适应性，这是现代综合演化学派对群体选择理论的最大质疑(Dawkins，1976；Burnham & Johnson，2005)；第二，对选择单位的质疑。社会科学认为原子化的个人是行为选择的基本单位，但在该假设下去理解遗传和学习，认为遗传、演化的社会行为是最具社会适应性的，这样显然又缺乏理论上的可证伪性。现代科学认为基因与群落都应该是可被选择的合作单位，单纯的合作演化是不存在的，而是选择单位上的群落竞争与合作导致了个体行为与集体行为的冲突，并且只有在如此构建种群层面的选择才是有意义的(Sober,1980; Sober & Wilson,1994; Wilson & Sober,1994; Smith & Szathmary,1997)，例如，生物哲学家戈弗雷·史密斯(Godfrey-Smith，2009)所构建的“达尔文群”(Darwinian Populations)，它涉及从基因、细胞器、细胞到生物个体、子群之间的合作关系。史密斯(Godfrey-Smith)认为层级内部之间的合作是受到高层信息指令的约束，因此群内成员的合作完全臣服于更高一级群体指令(高级遗传编码)，在信息指令集中的惩罚指令并不是按照经济效率来编码的，而是呈现动态的演化过程。但这种内生的合作关系又被斯蒂尔尼(Sterelny，2013)有力反驳，斯蒂尔尼(Sterelny)认为人类的合作关系并非由先天的遗传信息所主宰，一旦意识信息集(intelligence information sets)形成之后，后天的制度性学习则更重要。这种制度性学习也并不仅仅为了避免惩罚，而是一种社会适应性的内生需求。由两人的争论可见，从合作行为的个体选择向群体选择的过渡过程很难在逻辑上达成一致，那么，互惠个体是如何构成更加紧密的合作群呢？合作群之间究竟会不会出现多层选择模型中竞争？抑或这种竞争会削弱合作吗？我们利用内涵第三方同侪惩罚的群体合作模型发现，第三方的同侪惩罚会增加整个群体的合作，同时也会削弱群体间的合作程度。

三、内涵第三方同侪惩罚的群体选择模型

当对第三方惩罚与群体选择之间的关系有了一定的了解之后，接下来需要考虑如何将惩罚与群体选择过程同时纳入合作的混合博弈模型。我们的模型是建立在黄少安(2011)对合作博弈的基本假设与帕拉斯(Price，1970，1972)对子群合作的分解定理之上，并将注意力集中在种群的合作程度演化过程。

(一)行动者在子群中的合作演化

由(6)式可知，群间的合作程度与合作者、惩罚者无关，只与背叛者有关。这就解释了为什么在一个内生演化的种群中背叛者的适应性很强的缘故，背叛者不但能够在ALLC群体中不断侵蚀合作者，也能在TFT群中占领一席之地，并在TFT、ALLC策略消亡之时依然屹立在演化峰的顶端，并诱发更具有适应性的WSLS策略的产生(Nowak & Sigmund，1992；Nowak & Sigmund，1993)。

将(6)式带入(3)式，那么具有合作特征的行动者合作程度的增加为：

从(7)式的推导过程中可以看出，群间的合作效应与群内合作效应具有替代关系，即种间的合作程度被加强了

，这是惩罚者对背叛者的惩罚作用，但同时群内成员的合作却被却弱了

，这是个体选择向群体选择转化过程中的定量表达。

由(8)式可知，在具有同侪惩罚的约束下，群体合作的改进过程与合作者无关，只与惩罚者和合作者的比率有关。如果惩罚者多、社会中具有惩罚作用的行为规则强度较高，则合作频率的增长就会快。如果社会中合作者较多，合作行为的增加就会减慢。

(三)群落合作度(

)的演化动力学分析

由以上分析可以求出群落合作度的动态方程为：

因此，此时随着时间的增加合作者数量会上升，群落合作度的增长速度逐渐下降至零，如图1所示。

图1

时群落合作的演化

(2)当

时。

同理可证，由于

具有合作特征的行动者数量下降，直到

时刻(

时)具有合作特征的行动者不再下降。此时随着时间的增加具有合作特征的行动者数量下降、合作者数量下降，而群落的合作程度的增长速度逐渐上升至零。如图2所示。

图2

时群落合作的演化

(3)当

时。

此时由于惩罚者的数量非常高，因此虽然合作者与惩罚者相遇会增加惩罚者的出现概率，但随着代际遗传期数的增加这些背叛者都将转化为合作者，因此背叛者比率的极限为零(假设在

时刻)，即

，背叛者完全消失，即

。因此，随着时间的增加合作者数量逐渐上升，但群落合作度的增长速度逐渐下降，但由于

突然变化至零，会产生连续但不可导点

，如图3所示。

图3

时群落合作的演化

由以上对于合作的演化动力学分析可知，无论合作者与惩罚者的初始比率如何，群体合作的增长都会逐渐收敛于稳定增长状态。

四、结论与未来的研究方向

我们运用混合博弈的研究方法将惩罚者引入合作博弈模型，并将混合博弈的理论结果纳入群体选择模型中，这样弥补了以往合作理论研究中个体选择与群体选择分野的情况。在新构建的模型中，我们发现整个社会群落的合作过程会因为惩罚制度的存在而有所改进，并具有稳定的合作增长，但这种改进主要增强了群体的合作选择过程，并且一部分群间合作是以群内合作降低为代价的。

由于受到数学工具的局限，我们未能将多层群体选择机制模型化。事实上，群体合作本质上是一种俄罗斯套娃式的嵌套合作结构，而且在异质性群体中个体选择的作用受到很多局限，即便在种群内部也存在极强的层级制，因此更加具有现实解释力的理论选择应该引入具有嵌套结构的多层选择模型。那么，即使某个体在异质性群体和同质性群体中合作的支付完全相同，但这种环境的结构性影响也足以改变个体的决策(Sterelny，2013)。而我们的群间选择机制是从个体选择过渡来的，即个体受到第三方(或制度性)的压力而选择合作，但这种压力下的行为选择显然没有考虑到群体的内生动机，因此此时演化形成的能够稳定增长的合作性群落是具有理论漏洞的。

另外，在群落演化的过程中假设群落的总数量是不变的，并且惩罚者的数量不会增加。但现实中具有惩罚特征的“道德家”也会随着社会演化其适应性逐渐增强，这种利他性的心理倾向不仅是人类社会意识、社会制度的构成基础(Rustichini，2005；Singer，2006)，也是个体思维与行为习惯的源泉(Chorvat & McCabe，2004)。那么如果允许合作者、背叛者向惩罚者转换，可以预见群落合作度

会收敛得更快，现实中人类社会的合作程度远比理论值要紧密得多。

①从制度经济学的角度来看，惩罚者(P)可视为相对于双方行动者的惩罚机制，该机制能够惩罚背叛者、改造背叛者，但却无法奖励合作者。例如，刑法会对意欲违法者进行威慑、对罪犯进行改造，使其在刑罚之后做人(转变为合作者)，却无法从法律层面奖励道德高尚者。为了剔除群体选择中强互惠的影响，建模时有意忽略了法律的执行成本(即惩罚者的惩罚成本)。

②该假设认为社会内的不同行动者并没有因为食物匮乏等外生因素而消亡。

标签：惩罚者论文; 异质性论文; 群体行为论文; 制度理论论文; 法律规则论文; 特征选择论文; 法律论文;

基于同侪惩罚的异构合作社区群体合作的标定_惩罚者论文

猜你喜欢