跨学科心理学研究的书面论述--4.经济心理学研究过程的解读--从“囚徒困境”到“互惠利他主义”_心理学论文

“跨学科视域中的心理学研究”笔谈——4.经济心理学研究进程解读——从“囚徒困境”到“互惠利他”，本文主要内容关键词为：视域论文,心理学研究论文,笔谈论文,囚徒论文,互惠论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

当今世界各学科的融合趋势已经非常明显，各个学科之间相互渗透，其中表现最突出的应该是经济学对其他学科的影响，以至于有“经济学帝国主义”这样的说法。这样的渗透，使得在各个学科的研究中如果只是限于本学科的视角，就会产生很大的局限性。比如对于经济学的研究，实际上有两种路径：一是心理学家对经济现象的研究，称为经济心理学；另一个就是经济学家对经济行为和经济心理的研究，称为行为经济学。虽然名称不同，实质上从研究的内容和建构的理论来看区别不大。2002年的诺贝尔经济学奖的获得者是心理学家——美国的卡尼曼教授和实验心理学家史密斯，这一事件在心理学界引起了巨大的反响，对心理学家是一个巨大的激励。在此之后这一领域就形成了一股研究热潮，它的发展主要经历了从最初的“囚徒困境”到最近的桑塔费学派对于“互惠利他”的研究这样一个过程，下面我们就来看这样一个经济心理学的研究进程。

一、“囚徒困境”掀起轩然大波

1.“囚徒困境”的起因。博弈论中的经典是“囚徒困境”问题，它不仅是博弈论的起点，而且是引发经济心理学研究和争论的核心问题。

2.“囚徒困境”的解释。在“囚徒困境”中，囚徒A和囚徒B都是理性人，以理性人的行为方式进行决策，囚徒A的严格优势策略(strictly dominated strategy)是坦白；同样，囚徒B的严格优势策略也是坦白，因此(坦白，坦白)是稳定的纳什均衡。但是(坦白，坦白)不是“帕累托最优”。显然，对囚徒A和囚徒B两个来说，最佳的选择是彼此合作，两人都不坦白，(不坦白，不坦白)才是“帕累托最优”。问题在于，(不坦白，不坦白)这个“帕累托最优”是不稳定的。因为自私的理性人不会为他人着想，更不会相信他人。此时两人都面临一个巨大的诱惑，当一方不坦白时，另一方选择坦白可以获得巨大的回报。理性人A和B都期望自己获取更大的收益，都要防范着对方，不让自己成为牺牲品。理性算计的结果，A和B最终选择不合作的坦白。这是“囚徒困境”唯一稳定的“纳什均衡”。

3.“囚徒困境”的结果引起争论。人们从“囚徒困境”得出的结论是：由于理性人在“囚徒困境”博弈中不能达到合作的结果，因此在理性与效率之间出现了不可调和的矛盾，个体的理性导致集体的非理性。

这种状况使经济学和经济学家陷入尴尬的两难境地。如果坚持“理性”是人类行为的唯一根据，那么经济学就必须放弃其效率原则；如果坚持效率原则，经济学就必须承认，最起码在某些场合，比如“囚徒困境”条件下，导致人类合作的依据并非是理性的。常识和经验都告诉人们，合作导致效率，动物界和人类到处都可以见到合作行为，动物与人类如果没有互助与合作行为，显然不能生存下去。因此，“囚徒困境”所揭示的人类理性与效率之间的矛盾，实质上归结为理性人在博弈中能否导致合作行为出现的问题。人类的合作行为是一种客观存在，理论对这种行为的产生机制不能做出合理的解释，只能说明理论存在问题，必须修改理论。

争论分为两派。一派认为，理性人在博弈中不可能出现合作的结果。另一派则认为，经济学中的理性人假设是正确的，理性人在博弈中能够产生合作行为。“囚徒困境”的一次性博弈，虽不能产生合作行为，但重复博弈便会导致合作行为的出现。

这种理论上的思辨和推断并不能令人信服，最有效的办法是让事实来说话。于是以各种科学方法和现代技术(包括实验方法、电脑模拟方法、生理心理学研究方法等）对以“囚徒困境”为原型的博弈行为进行研究，在经济学界形成一种热潮，其结果是形成了实验经济学、行为经济学、行为博弈论等新型经济学分支，而且影响日隆。2002年的诺贝尔奖授予行为经济学家丹尼尔·卡尼曼(Daniel·Kahneman)和实验经济学家弗农·史密斯(Vernon·Smith)，显示了这个经济学新型领域研究成果的重要价值和美好的发展前景。

二、“一报还一报”震惊全世界

1.艾克斯罗德用计算机模拟“囚徒困境”重复博弈。理性人在“囚徒困境”博弈中能否导致合作，人们进行了大量研究，其中以罗伯特·艾克斯罗德(Robert·Axelrod)所进行计算机模拟“囚徒困境”锦标赛最为著名。

竞赛一共进行了两次。艾克斯罗德为第一次竞赛制定的规则是：竞赛循环进行，每一个参赛程序都要与其他程序相遇。此外，每个程序还要与它自己和一个“随机”程序相遇。所谓“随机”程序，就是一个在竞赛中以相等的概率随机地选择合作或背叛的计算机程序。每两个程序之间博弈200次，博弈的支付规则为：双方合作各得3分；双方背叛各得1分；一方合作而另一方背叛，则合作者得0分，背叛者得5分。

2.“一报还一报”博弈策略大获全胜。所谓“一报还一报”策略，就是以合作开始，然后便模仿对手的策略，对手合作，则选择合作；对手背叛，则选择背叛。因此，“一报还一报”程序是所有参赛程度中长度最短、最简单却不是最聪明、最理性的程序。这其中包含着丰富且深刻的道理，而这正是艾克斯罗德这项创新性研究的价值所在。

3.“一报还一报”为什么取胜?

“一报还一报”策略具备4大特性：(1)善良性；(2)宽容性；(3)报复性；(4)清晰性。

第二次竞赛的优胜者仍然是“一报还一报”程序。艾克斯罗德在总结这个颇为令人吃惊的结果时，在第一次竞赛结果总结时认为“一报还一报”具有善良、宽容、报复三个特性的基础上，又加上“清晰”特性。他认为“一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次就不敢再背叛，它的宽容性有助于重新恢复合作，它的清晰性使它容易被对方理解，从而引出长期的合作。

三、“最后通牒”再出新招

1.什么是“最后通牒”实验?

1982年，德国学者古斯(Guth)、斯科密特伯格(Schmittberger)和施瓦茨(Schwarze)公布了一项让经济学界吃惊不小的研究成果，他们称其为最后通牒博弈(the ultimatum game)的实验研究。实验方法很简单，两位参加实验的被试者分一笔钱，比如分1000美元。两人由抽签决定谁担任提出分配方案的“提议者”，另一位担任接受或不接受分配方案的“回应者”。博弈规则是：由“提议者”提出一个分配1000美元的方案，即提议者自己得多少，愿意给“回应者”多少。如果“回应者”愿意接受“提议者”提出的分配方案，则双方各自获得分配方案中的钱数；如果“回应者”拒绝分配方案，则两人都一无所获，得不到一分钱。同时博弈规则还规定，两人不能见面，双方都不知道对方的个人情况。

2.跨文化“最后通牒”实验。

为了进一步证明最后通牒实验所揭示的理性人存在的问题和社会性偏好的存在，赫伯特·金迪斯(Herbert·Gintis)与萨缪·鲍尔斯(Samuel·Bowles)等学者为代表的桑塔费(Santafe)学派在全球范围内，进行了一次大规模的最后通牒及其相关的其他实验研究，来自经济学、社会学、人类学、心理学等不同学科的12位经验丰富的实地调查专家，在五大洲的12个国家中，选取15个经济发展水平和文化环境截然不同的实验地点，从那里招募被试者进行实验，其中包括3个搜食社会，6个刀耕火种的原始农业社会，4个游牧族群，2个定居的小规模农业社会。以在这样的环境中成长和生活的人们为被试进行最后通牒实验和其他类似的博弈实验，虽然由于因其文化与经济环境的不同，其实验结果表现出某些差异外，总体上而言，实验结果与在发达社会进行实验的结果并没有本质区别。这表明最后通牒实验所揭示的人类具有公平、同情、互惠利他等社会偏好的本性的确具有普遍意义。

四、“互惠利他”揭穿谜底

1.桑塔费学派的学者提出了“强互惠”(strong reciprocity)理论。

这种理论认为在一定的条件下，人们会产生强互惠行为。强互惠行为实际上就是一种利他行为，强互惠行为指人为了与他人合作或为了团体的利益，会不惜花费个人成本，牺牲自己的利益去惩罚那些破坏合作规范的人，即使那些破坏并不是针对强互惠行为者自己。简言之，强互惠行为就是一种以不惜牺牲自己的利益去惩罚那些破坏合作的个体，从而维护他人与团体利益的行为。因此桑塔费学派把强互惠行为称作利他惩罚(altruistic punishment)行为。

2.桑塔费学派三大实验。

实验之一：在完成了一项经典的公共品博弈实验后，发现了实验中的搭便车者。此后，受试者被允许对搭便车行为进行惩罚，即受试者可以要求罚没某个搭便车者所得的钱财，其条件是行使这个惩罚他人权力的人必须付出一定的代价，支付一定的费用。按照新古典经济学的理性人原理，对实验中的搭便车者进行惩罚增加的是团体的利益，但为此支付代价的却是个人。此时会产生新的搭便车行为，即每个人都希望别人支付费用来惩罚搭便车者，自己坐享其成。因此惩罚搭便车者的行为实际上不会出现。

实验之二：桑塔费学派的萨缪·鲍尔斯和赫伯特·金迪斯认为人类的强互惠是人类在漫长的进化过程中逐渐形成的一种行为特质。他们用计算机仿真方法模拟了这一过程，得出了非常有价值且很有意思的研究结论。

他们用计算机仿真模拟的是一个早期人类社会(更新世晚期)的生活形态和运行机制。

研究者根据社会成员对待合作的态度，把他们分成三种类型：自私者(selfish)、合作者(cooperator)和强互惠者(reciprocator)。自私者拒绝合作，只图分享合作成果；合作者无条件地与其他人合作，且从不惩罚背叛自己的人；强互惠者不仅与他人合作，而且愿意牺牲自己的利益去惩罚那些违反合作规范的人。在此基础上，研究者建立了一套复杂的仿真动力学模型，即为这个社会的运行制定各种制度(博弈规则)、运作程序与方式，让计算机按照设计好的这个“社会”进行演化和发展。实验得出的结论是：在上述条件下，通过演化而形成的人类行为大约有38.2％的概率表现出自私倾向，24.6％的概率表现出单纯合作的倾向，37.2％的概率表现出强互惠倾向。平均而言，每个人因机会主义充当搭便车者的可能性大约为11.1％。

实验之三：桑塔费学派认为，强互惠行为可能存在某种生理基础，即在人的大脑神经结构中，某个神经中枢可能与人类强互惠行为的产生存在关系。为了检验这个大胆的假设，桑塔费学派的重要成员之一，苏黎世大学国家经济实验室主任恩斯特·费尔博士设计了一项实验，并用正电子发射断层扫描技术，即EPT(Positron Emisson Tomography)技术对实验中产生强互惠行为被试的大脑神经活动进行测试与观察，得出了令人惊讶的结果。这项实验是这样进行的：

两个参加实验的被试A和B，进行匿名交往，即两人在两个不同的房间里参加实验，不见面但都知道自己在与另一位被试者进行博弈。两人都得到10单位的初始货币。第一步，A把自己的10单位货币全部给B，则主试将奖励4倍的钱数，即40单位货币给B，此时B共有50单位货币；如果B分给A一半，则A与B会各得25单位货币，这样做便形成双赢的局面。第二步，A把自己的10单位货币全部交给B后，B自己独吞全部50单位货币，而A则一无所获。第三步，主试给予A处罚B的机会，即A有权把B的钱进行罚没，但A必须为此付出代价。实验者让A思考1分钟，决定是否对B进行惩罚。在这1分钟内，实验者运用PET对A的大脑进行扫描。实验者一共扫描观察了l4位遭遇B背叛的被试者A的大脑神经活动情况，发现大脑神经结构中一个叫做“尾核”的神经中枢与强互惠行为或利他惩罚行为存在密切关系。在强互惠行为产生过程中，大脑中的尾核被激活，或者说，大脑神经结构中的尾核就是支配强互惠行为产生的神经中枢。

标签：心理学论文; 囚徒困境论文; 经济学论文; 理性人论文; 合作博弈论文; 博弈论论文;

跨学科心理学研究的书面论述--4.经济心理学研究过程的解读--从“囚徒困境”到“互惠利他主义”_心理学论文

猜你喜欢