经济学实验方法之争_经济学论文

经济学实验的方法论之争，本文主要内容关键词为：方法论论文,之争论文,经济学论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

经济学正日渐走向实验化。继2002年Daniel Kahneman和Vernon Smith分别因为行为经济学和实验经济学的贡献获得诺奖之后，2012年Alvin Roth又因为以包括博弈论和实验在内的各种手段在稳定配置理论和市场机制设计实践上的贡献而获奖。现在，控制实验已成为经济学家工具箱中的常备工具之一，以实验作为主要研究方法的文章常规而稳定地出现在各类专业期刊上。①从主题上看，实验研究不仅已深入微观经济学各分支领域，在宏观经济学的诸多领域生根发芽，还影响到其他社会科学，被广泛地应用于制度和政策实践中。可以说，经济学家已经越来越依赖于使用实验来解释并预测经济现象(Roth，1995)。

作为一门以方法立身的学科，实验经济学②能在短短几十年内获得迅速发展与实验先驱致力于构建一整套独立于其他实验科学而契合经济学研究范式的方法体系是分不开的(Friedman and Sunder，1994；Hertwig and Ortmann，2001；范良聪，2010)。③不过这个过程并非一帆风顺。直到现在，仍有诸多来自经济学内外的学者质疑实验方法的有效性。有鉴于此，本文拟通过对实验经济学兴起以来的方法论争论做一系统梳理，以确立达成的一致，识别尚存的分歧。

这种梳理是值得的。因为首先，在历经几十年的快速发展后，实验(以及行为)经济学已经走到一个十字路口。经验上，实验研究者已经累积起足够多的经验证据，包括所谓的异常现象；理论上，不同的行为模型如雨后春笋般出现，令人目不暇接。更重要的是，实验与理论之间已经形成一种良性的互动(Roth，1988，1995；List，2007；范良聪，2010)，这种互动虽然可能引领实验经济学乃至经济学走向库恩意义上的常规科学发展之路，却也可能走向一种理论与实验相互检验“彼此的内部有效性”、创造一个封闭系统的危险(Schram，2005)。在这种情况下，方法论的讨论就显得特别重要，也会很有帮助。

事实上，由于长期面对各种质疑，实验研究者一直拥有着一种方法论意义上的自觉。早期实验先驱围绕着“我们应该如何认识世界，以及我们为什么做实验”进行了深入的思考，为确立经济学实验研究的合法性与有效性打下了坚实的基础(如Smith，1976，1982；Plott，1982，1991；Roth，1988，1995等)。近年来，行为经济学家和田野实验工作者的研究又再度拾起搁置已久的有效性尤其是外部有效性问题，引发学者们的集体行动，或追溯实验经济学的科学哲学基础，或审视实验研究的一般方法论问题，或从经验上细察其中关键的影响因素。除各种独立成篇的作品外，《Economic Journal》(1999)、《Journal of Economic Methodology》(2005)、《Journal of Economic Behavior and Organization》(2010)三本杂志甚至分别组织专刊，为这种讨论提供一个公开的对话平台，以图促进实验经济学的健康发展。在这种背景下，再有鉴于国内实验方法的日益流行，一个系统的梳理显然有助于研究者和感兴趣者加深对实验方法的理解，把握实验研究的性质、意义与边界。

本文试图从纷繁复杂的争论中理出一条脉络。具体地，本文将围绕逐层递进的三个问题展开：(1)经济学家为什么做实验？(2)经济学实验研究的结果是否有效？(3)如何增进实验研究的有效性？具体而言，第一个问题考虑的是实验研究的性质、优势与功能，在已有文献中达成的一致程度最高，我们放在第二部分讨论。第二个问题考察的是任何研究均无法避免的内部有效性和外部有效性问题，相关争论虽然激烈，不过共识也在逐渐形成之中，我们将在第三部分梳理。第四部分讨论实验经济学家为增进实验有效性而展开的一系列规范性和经验性努力，以及围绕研究中出现的新挑战而展开的争论与处理。最后一部分总结并展望。

二、为什么做实验

(一)实验是什么

经济学家为什么要做实验？更具体地，实验在经济学的研究范式中处于什么位置？给定经济学对理论和应用的强调，实验、理论与真实世界之间是何关系？比如，实验研究对于经济学理论的构建有何作用，又应该起什么作用？既然经济学家已经拥有计量这种数据处理方法，为什么还需要实验？对于实验研究者而言，这些正是首当其冲的问题。而要回答这些问题，就需要弄清实验的性质以及理论与实验的关系。很多学者的讨论都是围绕这一点展开的(如Smith，1982，1989；Roth，1988，1995；Plott，1991；Morgan，2005；M

ki，2005；Samuelson，2005；Schmidt，2009；Croson and G

chter，2010)。这些讨论常常还涉及一个相关概念——模型。我们先从科学研究的本质入手，简要阐释模型、理论与实验的关系。

科学(包括经济学)研究的目的在于探究真实世界，找寻规律。由于真实世界中现象的联系无穷多，研究者需要借助工具，比如理论或实验，以实现对研究对象的抽象，这个过程就是所谓的模型化。对此，Samuelson(2005)给出了一个比较正式的说明。他把研究过程看成寻找函数关系B：S[∞](→)X[∞]；其中S表示研究对象，X表示研究结果，∞意味着对象和结果中给定特征的维度无限多。由此，给定集合S[∞]中的一个要素，函数B就定义了研究者感兴趣的一种情形。它可以是一个博弈，一个彩票，一个市场，或一个经济系统。不管是什么，每种情形中它都可以基于函数B而在集合X[∞]中导出一个相应的结果。依据不同的情形，这个结果可以是一个博弈均衡，一个被选彩票，一个市场价格，或一个竞争性均衡。在这个过程中，理论或实验都只是构建B的一种工具。如果没有任何约束，研究者可以只处理B本身。然而由于B常常“太过复杂以致无法直接处理，于是理论或实验这种可以使B变得足够简单的工具就派上了用场”(Samuelson，2005)。

理论是以正式的语言表述成的语义体系。它建立在公理或假设的基础上，基于逻辑推出结论，以解释真实世界的现象。它常常是很一般性的描述，使用着高度抽象的概念和最具一般性的假设，试图捕捉理想状态中的世界；比如，一般均衡理论考虑的是无摩擦市场，博弈论处理的是超级理性的决策者的互动决策。因此，若想要应用，理论就需要与真实世界中的某些具体面向相结合，形成理论模型。比如，典型的经济学模型通常是从偏好、技术(或可能集)与制度(包括信念)的概念出发，由理论、经验规则和建模者的判断组成：市场上有多少厂家，生产可能性曲线在哪里，存在什么样的规制，厂家面对的是价格竞争还是数量竞争，是长期博弈还是短期博弈……给定这些因素及其参数，研究者就可以依据标准的行为模型获得一个结果(预测)。在这里，模型就是用于评估和预测给定其他条件不变，具体环境中会出现什么结果的工具。

实验研究中的过程本质上与此相似。基于Smith(1982)定义的微观实验经济系统，实验的研究对象S由结构向量和制度向量构成。结构向量也即环境参数，一般包括一组个体、一组商品、个体偏好、技术水平、初始禀赋等；如果在个体之间加入信息交流、成本与契约形成和分配的规则，就有了制度。给定行为模型，研究者同样可以在界定这些实验参数之后获得一个结果(预测)。因此，与理论一样，实验也是构建模型、认识世界的一种手段(Samuelson，2005；M

ki，2005；Guala，2005；Guala and Mittone，2005；Schmidt，2009)。这个建模的思路适用于所有存在经济现象的地方，不管这些经济是“自然演化的”还是“实验室中土生土长的”(Plott，1991)。

由此可见，实验和理论存在许多相似之处：它们都关注环境变化如何影响经济决策和结果；它们都建基于研究者先验的知识判断，试图从无限多的系统要素中抽出那些重要的，忽略那些不重要的；两者的关键都在于控制——通过操控感兴趣的变量，控制变化发生的制度环境(给定其他条件不变)，然后考察结果。正如M

ki(2005)和Guala(2005)所说，(理论)模型就是一个(思想)实验，而实验就是一个(实质)模型。当然，二者也存在显著不同：理论模型的控制是通过设定假设与初始条件然后进行比较静态分析而实现，实验模型的控制是通过实验设计、对实验被试的实质性限制而实现；前者是人为构建出来捕捉真实世界的构造，不可观测，而后者则是试图在一个构造的环境中捕捉真实世界，可观测且拥有真实的元素(Morgan，2005；Guala and Mittone，2005；Schmidt，2009)。也正因此，理论模型与实验模型面临的方法论问题并非完全相同。前者面对的是真实性问题：理论是否能很好地捕捉研究对象的关键元素，获得准确的预测？后者面临的是内部有效性和外部有效性问题：人们可以在多大程度上相信实验的结果，进而推向总体？——这是本文关注的核心。

(二)为何做实验？

现在的问题是，依据上述定义，既然理论与实验本质上都是逼近真实世界的一种手段，那为什么还要做实验呢？这是因为，理论存在缺陷：(1)理论可能不准确，也即理论中的那个行为模型可能与真实世界不符；(2)理论可能因为考虑的系统因素太少而不够精确；(3)理论可能因为捕捉到的结果信息过少而不够翔实；(4)理论还可能因为太过复杂而无法应用(Samuelson，2005)。而且，研究者还常常面临多个理论的竞争：每个理论都说自己好，到底哪一个更好呢？理论本身无法给出判断。于是，理论需要帮助。

对此，经验工作者自然首先会想到计量。然而，因其本身以及外部的一些约束，计量方法在帮助理论的道路上遇到了一些难以逾越的障碍。首先，作为一种条件估计，计量几乎无法提供理论检验中非常重要的点预测检验(Croson and G

chter，2010)。更致命的是，任何计量检验都是对核心假说以及特定的偏好、技术、制度和模型假设的联合检验(Smith，1989；Davis and Holt，1993)，其结果不管是支持还是反对都可能是源于这些辅助假设中的某一个，因此无法为核心假说提供明确的证实或证伪信息。其次，计量方法所依赖的自然数据存在一些明显的缺陷：它们常常不具有针对性，一般不可重复，也几乎不可分。于是，计量检验常常会因为数据中的遗漏变量和内生性问题而面临识别难题，因为经验证据难以积累而无法满足“创建和检验理论的需要”(西蒙，2009[1997]，80)。虽然研究者已开始参与数据收集，发展新方法，但新方法也存在新问题(见Harrison and List，2004)。于是，计量也需要帮助。实验的兴起就为学者们提供了一种期待的选择。借助可控性和随机化，实验为有效地控制重要变量、剔除假变量，从而确保在理论检验或因果识别中获得较高的内部有效性(Webster and Sell，2007)。下面细述缘由。

首先，让我们沿着传统科学哲学的路径，区分两类实验：理论导向型实验和经验导向型实验(Smith，1982；Willer and Walker，2007；Thye，2007)。前者即所谓的“为行为立法”(Smith，1982)，或“对话理论”类实验(Roth，1987，1995)。这种实验路径至少可以追溯到伽利略的工作，它们旨在通过严格的控制，试图在高度人工化的环境中减少误差，检验理论，确立行为规则。这类实验关注的是实验数据与理论预测之间的匹配程度，因此研究的关键在于通过复制理论模型的所有前提假设，创设出一个可以让理论发挥作用的环境，给予理论“最佳一击”(Plott，1982，1991)。基于恰当的控制，正如一个理论一旦设定了初始条件就会启动一系列过程那般，应该也可以预期，这个过程会在一个复制了它所有前提的实验中发生(Plott，1991)。正是在可以创设“无菌试管”这样一种意义上，实验检验拥有了其他经验手段无可比拟的内部有效性，因此成为检验理论的最佳方法。当实验结果与理论预测相符时，理论就得到了支持；否则就被证伪。

不过，这种复制理论前提的思路常常难以操作，因为很多理论模型的假设均由难以衡量的概念术语组成。比如，竞争性模型常常假设每个行动者“相信”其行动对价格没有影响，博弈论的许多均衡概念都建立在“理性的共同知识”基础上：每个参与者都相信其他人是理性的、每个人都相信每个人相信其他人是理性的……按照这种描述，检验就不可能实现；因为至少在目前的条件下，研究者无法知晓被试在想什么，因此就无法实现对理论前提的复制。④此外，点预测检验的结果还将常常遭遇统计检验的尴尬。因为依照统计推断的默认标准，即使此时所考虑的点预测已经达到很高的精度(比如90%的个体符合理论预测)，研究者仍会拒绝原假设。这时的理论算是好理论还是坏理论呢？面对这些问题，实验研究者提出了一条间接检验路径：不去考虑单一模型的检验，而是考虑多个替代模型或不同参数下的比较检验；也即，从“这个理论正确吗？”转向考察“这些模型中哪个表现得最好？”或者考察“在什么情况下，模型的预测改进了，抑或退化了？”(Plott，1991)或者考察“科斯定理在交易成本低时是否要比交易成本高时表现得更好？”(Croson，2002)。

与理论导向型实验不同，经验导向型实验旨在发现复杂决策的核心要素，确立因果关系，识别隐含机制(或所谓的情形效应，List，2007)。⑤这类实验也即文献中所谓的“启发式实验”(Smith，1982)，或“寻找经验规则”(Davis and Holt，1993)、“寻找事实”(Roth，1987，1995)类实验。这类实验关心的是，是否可以创设出一个控制组与一个比较组，使得二者之间只有一处操控上的差异？因为此时，如果两组实验的结果存在显著差异，那么受操控的自变量与实验结果间的因果关系就得以确立。这类实验虽然可以追溯到Mill(1872)提出的经验主义知识获取路径，但真正依托的是Fisher(1935)基于自己1920年代的一系列农业田野实验研究而总结出的随机化原理。⑥借助随机化，研究者便可以“造”出一个反事实情形，进而依托概率论、大数定律和中央极限定理，在一定的概率范围内把控制组与比较组之间的差异归于二者之间的唯一差别——受操控的自变量，从而保证因果识别与发现上的内部有效性。

在从学理上说明了实验可以更有效地帮助理论之后，实验经济学家还基于一系列实践阐释了实验如何做到这一点。Davis与Holt(1993)为此提供了一个绝佳的说明。⑦实验经济学家的工作一般从检验理论出发，首先尝试复制理论的前提，展开点预测检验；经典的比如，考察双向口头拍卖市场中的价格是否会收敛到竞争性均衡。如果直接的检验不可得，那研究者就会转向比较静态分析，或者考察各种相互替代的理论模型，努力设计出一种实验情形，让不同的模型在其中生成不同的预测，以区分理论。

接着，视检验结果的不同，后续研究将沿着不同的路径展开。一方面，如果检验结果支持理论的预测，很自然的考虑就是展开比较环境分析或者比较制度分析(Smith，1994)，考察理论在复杂的环境或制度中是否成立；也即，通过稳健性检验，界定理论的边界和范围。⑧例如，在市场实验中考察市场势力对价格收敛的影响，或者考察引入不同拍卖制度的结果。通过变化被试池、任务、情景等要素，稳健性检验还可以进一步走向田野(Harrison and List，2004)。借助不断的尝试，甚至引入一些极端条件，研究者由此就可以从经验上识别理论的边界，衡量关键的参数。⑨另一方面，如果理论的预测被一个设计良好的实验所稳健地拒绝，那就可以考虑更简单的要素检验。这种检验直指理论中某些独立的成分或假设，探寻理论失败的原因(Smith，1994)。比如，当最后通牒博弈实验的结果拒绝了子博弈精炼纳什均衡的预测，一个更简单的博弈结构——独裁者博弈就出现了。这种检验往往可以为理论的发展带来意想不到的刺激。因为此时，基于实验证据，研究者就可以进一步考察误差的来源，进而或是限制理论的范围，或是增加参数来捕捉这种不一致，甚至对理论做出实质性修改。这就是理论精炼的过程(Samuelson，2005；Croson and G

chter，2010)。

在理论检验之外，更多的实验指向发现。当研究者发现有趣的新现象，他们同样首先会考虑这些现象有多稳健，进而通过操控感兴趣的外生变量，观察现象背后的缘由，确立某种经验上的因果联系，构建实质模型(M

ki，2005)。这些实验与经济学理论常常没有多少关联，或者常常旨在捕捉经济学模型所忽视的一些翔实性，比如引入外部激励可能对内部动机造成的挤入挤出效应。然而，如果研究成功地证明了现象的稳健性，或者其与真实世界现象的对应性，那就可以要求理论家给出解释，甚至挑战已有理论(Schmidt，2009)。实验经济学几十年的发展已经累积大量的经验现象或所谓的实质模型，比如阿莱悖论、埃斯伯格悖论、聚点均衡、禀赋效应、偏好逆转、赢者诅咒、资产泡沫等等。随着研究的深入，研究者还在这些异常之外发现新的异常，比如公共品博弈中对合作者的惩罚。这些现象的发现与累积引发了经久不息的研究、讨论与对话，直接间接地成为了后续理论发展的灵感源泉(Sugden，2005；Croson and G

chter，2010)，使得“寻找意义”成为可能(Roth，1995)。也正因此，甚至有学者把这类实验看成最重要的实验研究(如Schmidt，2009)。

最后，实验还可以直接指向应用，作为机制设计中的“风洞”，促成微观经济工程学的诞生与发展(Roth，1991，2002)。正如飞机在正式飞行前需要经过理论设计、实验室检验、风洞测试、模拟试飞等各阶段检验一般，经济学的制度和政策在搬到现实生活中之前理当经过类似的检验。如此不仅能极大地节约理论与政策修正的成本，还能降低由于政策失误带来的损失和风险。这类工作，也即所谓的“对话决策者”类实验(Roth，1987，1995)，根据实验实施时间的不同，又可分成两小类：政策评估实验和制度设计实验(Smith，1994)。政策评估，也即对某种政策实施效果进行事后评价；制度设计，则是事前在实验室中评估制度绩效并寻找最优的制度设计。虽然这类实验中有许多仍然是在理论指导下完成的(Roth，2002)，不过它们特别适用于那些理论不明确或过于复杂的情形(Samuelson，2005)，如议程安排、机场着陆权的分配等。这类工作集中体现在Vernon Smith和Charles Plott等人的早期工作以及Alvin Roth等人近二十年的工作中(见Plott，1987；Roth，2012)。

综上，通过控制和随机化，实验能在理论遇到困难时提供极好的帮助，不仅能成为嫁接理论与真实世界的桥梁，而且能成为直接帮助探索世界的手段。借助一系列的实验实践，实验经济学家还学会了提问的方法，从而为理论检验与新理论构建乃至走向应用提供了扎实的基础。这就是经济学家变得日益依赖实验的原因之所在。

三、实验有效吗

实验可以帮助理论，发现真实世界，但这并不意味着实验是万灵药，可以彻底解决其他经验方法难以解决的问题。与理论一样，实验也面临不够准确、不够精确、不够翔实或者太过复杂的问题(Samuelson，2005)；与其他经验研究一样，实验研究也不得不面对两种有效性的权衡：为了追求较高的内部有效性，实验研究常常需要牺牲结果一般化的能力(Campbell and Stanley，1966；Ortmann，2005；Thye，2007)。且不论一直以来备受攻击的外部有效性问题，即使在内部有效性上，更好的控制和随机化并不能保证实验研究完成方法论上的救赎——作为一种经验模型，迪昂—奎因论题仍是实验必须面对的一道坎。我们先说内部有效性，再谈外部有效性。

(一)内部有效性

内部有效性关心的是研究结果的可靠性：人们可以在多大程度上对研究结果抱有信心？对经济学的实验研究而言，虽然自然科学的传统和统计学家的帮助给研究者带来了极大的信心，但这种信心至少仍然面临两大潜在威胁：一是迪昂—奎因论题，二是失控。

任何经验研究都无法避开迪昂—奎因论题的挑战。迪昂—奎因论题讲的是理论假说的不可分性和不可证伪性，强调的是任何对理论的经验检验都是对若干相互关联的假说的联合检验(Soberg，2005)。正如计量检验是对核心假说和特定情况下偏好、技术、制度以及模型方面辅助假设的联合检验一般，实验检验也是对核心假说与实验微观系统中环境与制度方面辅助假设的联合检验。而且，除了环境和制度要素，实验设计中的各种因素如实验介绍、被试类型、激励结构、实验轮次和长度等，研究者的背景知识如价值关联与先验判断、既有的理论与统计知识、术语的选择和符号化等，皆可能成为辅助假设集合中的一个，并因此成为影响实验结果的潜在因素。因此，即使证据毫无分歧，迪昂—奎因论题还是从根本上拒绝了证伪任何理论假说的可能。

当然，实验研究者并未就此缴械。典型地，他们首先会回应说，实验方法虽然无法避开这一论题，但良好的实验设计可以极大地减少辅助假设的数量(Davis and Holt，1993；Falk and Heckman，2009；Croson and G

chter，2010)。例如，基于Smith(1976)所发展的成本与价值引致程序，即使我们不知道行动者效用与生产函数的具体形式，也可以对市场价格与数量能否收敛到竞争性均衡展开检验。换句话说，借助一系列控制程序，实验方法可以实现对理论的最小检验。而如果理论在这种最小环境中都不起作用，那研究者就有理由怀疑它在复杂环境中是否会起作用；而如果理论没有被实验证据所拒绝或在竞争中胜出，那么举证责任就会落到持异议者身上，不论其反对理由是什么(Plott，1982；Starmer，1999；Schram，2005)。同样，借助随机化，经验导向型实验也可以排除绝大多数辅助假设成为观察到的情形效应潜在原因的可能——随机化本身就是一个绝好的工具变量(List，2007)。

除了强调实验的比较优势，研究者还认为，实验研究的实践与迪昂—奎因论题的内在逻辑是一致的(见Smith，1994，2002)。如前所述，当理论得到实验支持时，研究者会进一步展开稳健性检验，进行比较制度和环境分析，寻找毁灭性的实验，探索理论的有效边界；当理论没有得到支持时，实验者会试图确立某种异常，考察各种潜在的辅助假说，识别误差的来源，确立证伪的极限条件。这里的关键在于，借助实验研究的一大优势——可重复性，迪昂—奎因论题可以通过“系列实验研究”而在很大程度上得以缓解：对于一个强有力的理论如竞争性均衡理论，不管在哪里、什么时候进行检验，结果应该都是一样的；对于任何实验中构建的实质模型，亦是如此。正是因为可以进行这种系列实验和重复研究，实验在很大程度上拥有了贝叶斯意义上的可分性和可证伪性(Shadish et al.，2002；Soberg，2005)。⑩

不过即便迪昂—奎因论题得到缓解，实验结果仍然可能因为失控而失效。控制既是实验研究的优势，也是实验研究实现内部有效性的根本。然而，要实现完全控制总是很难，尤其因为经济学实验的对象与自然科学如物理学不同，是拥有自由意志的人类(Starmer，1999；Sugden，2005)：每个个体走进实验时都会带着自己的经验、信念、期望、技能，即使面对的是从未遇到过的抽象任务，他们也会在记忆中搜寻，以图用平常熟悉的东西代表那个抽象的博弈(McDermott，2002；Ortmann，2005；Smith，2010)。随机化在这些因素上很难起作用。它们也很难得到控制，即使研究者严格遵守引致价值理论及其程序。正如Dawes(1996)所说，“我们的实验研究对象有欲望，有目标，有假设，有关于我们试图研究什么的信念。只有当我们非常明确寻找的就是最大化的表现时……我们对实验情景的解释才会与被试对实验的理解相一致……然而，即使那时，我们可能还是无法……‘控制’那些处于研究考虑之外的因素”。实验结果就可能因此而出现偏差。

除了实验对象，实验环境也可能成为失控的潜在来源。List(2007)为此提供了一个简单的说明。假定研究者感兴趣的情形效应来自下述模型：

；其中，Y是结果，X是环境向量，T是研究者关注的情形效应。此时，从实验中获得的结构参数就包括来自实验情形、环境因素以及二者交互影响三方面的贡献。这意味着，仅仅考虑X在控制组和对照组中保持不变并不能确保实验所识别的平均效应就是研究者试图估计的情形效应。它还可能来自情形效应与环境因素之间的交互效应，或是来自研究者把环境向量确定在不恰当的水平上(比如激励过小)而导致的偏差。因此对于任何实验研究，研究者最多只能说，它可能可以告诉人们比如情形效应的符号，超越这个范围就会很危险，除非人们愿意如估计计量模型时那般增加额外的假设。

当然，即使无法实现完美的控制，那也不必太过悲观，因为良好的控制还是可得的。特别地，借助理论、已有的实验发现、长期的学术训练乃至生活常识和直觉，研究者能够判断实验中需要控制什么，不需要控制什么，什么因素重要，什么因素不重要，并基于此选择实验参数，在试错的过程中识别实验成败的原因，完成实验设计(Samuelson，2005；Thye，2007；Croson and G

chter，2010；Card et al.，2011)。比如，议价理论及其相关研究表明，信息和风险态度很重要，谈判者眼镜的颜色却可以不用考虑。再比如，大量证据揭示，人的行为动机很复杂，有自利、利他、公平、互惠、服从、出彩、胜出……但好的动机模型可以帮助研究者获得好的实验设计。比如，Card等(2011)就举了一个漂亮的例子。由于一个考察社会压力和社会偏好影响慈善捐赠的理论模型表明，社会压力只会影响小额捐赠，因此研究者们就在实验中增加了一个参与者有“退出”选项的情形。结果发现，这种情形下的捐赠额尤其是小额捐赠确实显著下降。他们说道，在没有构建正式模型之前，他们并没有这方面的想法。

综上，虽然迪昂—奎因论题和失控的威胁无法彻底解决，但是几百年来的实验研究实践表明，实验在处理这些问题上的效果相对较好，值得信赖。而且，如后文所示，为了捕捉经济学研究对象的特殊性，实验经济学家还发展出一系列规范的做法，以减少辅助假设，增强控制，确保实验研究的内部有效性。实践证明，这些做法很有效。

(二)外部有效性

大多数实验研究都是高度局部化的，但又怀抱着一般化的抱负：它们一般都是在特定的时空环境甚至是人工构建的环境中展开，使用着方便的样本，处理着某种情形的特定类型，而非其所有可能变形；它们常常很简单，与复杂的真实世界相距甚远；它们通常会有一些衡量尺度，却未囊括所有。虽然如此，实验研究者还是常常希望能把实验结果推向感兴趣的一般理论或政策领域。因为科学很现实，许多研究的价值就取决于理论的覆盖面；类似地，政策制定者往往也对因果关系是否独立于时空感兴趣。然而，事物总是矛盾的。正如理论中有很多特征无法得到衡量，实验中也有很多特征无法加以随机化，比如自变量与因变量的衡量、选定的总体、重复的轮次等。如果这些常量任何之一与实验过程产生交互，则实验结果可能就只是内部有效，而不一定可以一般化；也即，随机化无法解决外部有效性问题(Zelditch，2007)。实际上，外部有效性尤其是其两大源泉——人工性与简单性一直是实验研究备受批评的焦点所在，甚至有学者把其视为实验经济学走向真正科学的主要障碍(Loewenstein，1999；Starmer，1999；Schram，2005)。

不过在讨论之前，需强调两点。其一，实验经济学家倾向于认为，对于任何实验研究而言，内部有效性是基础，是首要关注点(McDermott，2002；Schram，2005；Camerer，2011)。只有在确保内部有效的前提下，一般性的讨论才有意义。其二，实验经济学家还强调，外部有效性问题并非实验方法所特有，任何经验研究都需要满足一定条件才能走向一般化(Rice and Smith，1964；Smith，1982)。比如，即使是一国的代表性样本也只能代表一个特定的总体，不能代表世界，而且这种数据同样受到各种无法随机化的常量的影响。因此，若非归纳谬误，任何有限证据中都无法归纳出一个一般化的理论或结论。当然，问题的普遍性不是借口。实验经济学家的辩驳走得要更远。

面对质问，实验先驱首先会强调实验研究的性质，即实验与理论一样，旨在通过抽象捕捉研究对象最为普遍的一些重要特征，而非旨在模仿(Smith，1982；Plott，1982，1991)。因此，如果说实验存在人工性问题，那理论一样存在，因为理论也是人为的抽象构造。而且，实验的问题显然要比理论来得轻；因为即使是那些在人工环境中展开的实验，也是由真实世界的要素组成。正如Plott(1982)所说，“实验室经济与现实经济相比可能特别简单，但一样真实。真实的人在真实激励的驱使下，基于真实的优缺点，做着真实的决策，犯着真实的错误，并因行为结果而真实地欢喜悲伤”。(11)因此，至少相比理论而言，实验更具真实性，更具外部有效性。

接着，实验先驱还通过强调实验检验理论的功能而打起理论的保护伞。他们认为，是理论，而不是检验理论时的发现嫁接起实验与真实世界的桥梁。虽然在简单实验环境中的良好表现不能成为理论具有一般性的证据，但是如果在这样一个最小环境中都通不过检验，那就可以从根本上怀疑理论是否具有一般性(Plott，1982，1991)。Smith(1982)甚至提出一个理论框架，认为只要实验可以通过严格的操控实现对被试激励的控制，那就可以保证研究结果的内部有效性，进而依据自然科学中的并行原理获得外部有效性：“给定其他条件不变，在实验中检验过的有关个体行为和制度绩效的命题同样适用于非实验微观经济环境”。因此，实验还可以通过帮助理论确立一般性而实现一般化。

虽然基于人工性和简单性而怀疑实验外部有效性的观点确实不存在扎实的哲学基础，但是正如Starmer(1999)和Schram(2005)所说，总体上，实验先驱在对实验的外部有效性展开辩护时显示出了某种修辞上的圆滑——他们并没有认真对待这一问题。(12)这种态度引起了行为经济学家、田野实验经济学家以及方法论学者的不满。因为其一，这种修辞式辩护可能导致实验经济学家倾向于忽视外部有效性问题(13)及其可能对内部有效性带来的影响(Loewenstein，1999；Harrison and List，2004)，导致理论研究者倾向于贬低那些不利理论的证据，从而阻碍理论与实验之间的真正碰撞，不利于经济学的进步(Starmer，1999)。

其二，这种辩护明显遵循着物理学导向的科学哲学观，忽视了大多数经济学模型都是在描述具体制度环境中的机制和现象。而且，认为理论承接了外部有效性问题的观点也不意味着实验就可以不用考虑外部有效性了，而只是说明这是一个值得理论家和实验研究者共同担心的问题。由于理论常常很少明确规定自己的应用范围，实验更应该在测试外部有效性的范围上承担更大的责任(Guala and Mittone，2005)。

其三，如前所述，大量的实验研究如经验和政策导向型研究并非旨在理论，其哲学根基与理论导向型实验并不相同。如果实验的功能旨在构建一个“现象图书馆”(Guala and Mittone，2005)，而现象又是在理论解释出现之前被发现，那研究者就不能把实验的人工性问题归之于理论，而必须如构建理论模型时那般面对真实性问题。如果实验是为了揭示真实世界的某些经验规则，那相关实验就必须拥有外部有效性：它们必须是真实世界的“代表性描述”(Sugden，2005)。在这里，指导研究者前行的哲学基础不再是演绎，而是归纳(Schram，2005)。因此，对于这些实验而言，更现实、更少人工的话，会更好(Willer and Walker，2007)。实际上，随着方法论思考的深入，越来越多的学者认识到，实验的外部有效性应当随着实验的类型和目的而变化(Schram，2005；Guala and Mittone，2005)，如飞机生产从理论设计到实验室检验到风洞测试再到无人试飞这个过程那般逐步增加。

其四，对实验室实验而言，如果不关注外部有效性，研究甚至可能走向一种理论与实验检验“彼此的内部有效性”、创造一个封闭世界的危险(Schram，2005)。因为如果实验证据越来越多地被用于构建新理论，而这些新理论却很少关注真实世界，很少受到来自田野证据的检验，结果可能就会变成在一个封闭的世界中不断重复人为的创造活动，甚至丢失科学研究真正的目标指向——与真实世界的联系。如后文所示，来自田野的一些实验研究已经为此敲响了警钟(见List，2007)。

综上，在外部有效性问题上，学者们的观点日益精致。不过更引人瞩目的是，随着田野实验的兴起，田野实验经济学家勇敢地承担起直面这一问题的责任。他们秉承实验研究的实用主义传统，更多地走向操作层面，试图借助实验本身，从经验上识别影响实验有效性的因素，寻找尽可能不伤害内部有效性的同时增加实验外部有效性的路径(Harrison and List，2004；Cardenas，2004；List，2007)。这些工作不仅累积起大量经验证据，进一步增强了人们对实验研究的信心(List，2007)，还对既有的一些成规提出了巨大挑战(Levitt and List，2007)，让人们得以站在一个更扎实的基础上审视实验研究的有效性。

四、如何让实验更有效

为确保并加强实验研究的有效性，实验经济学家从开始做实验时起就表现出一种方法论意义上的自觉，意图构建一套契合经济学研究范式的方法体系，并为此在规范上和经验上付出了巨大的努力。不过，这些努力带来的不仅是如何做实验的规范性共识，还有争议。尤其是随着田野实验研究的兴起，实验经济学内部也涌现出一股针对实验室实验控制力与一般化能力的质疑。与以往纯粹的方法论讨论不同，这些学者主动承担起举证责任，试图用证据来说话。于是，围绕旁置已久的方法论问题，新一轮争论激烈展开。在这一节中，我们先讨论传统实验经济学家的一些规范性努力及其引发的争议，然后转向田野实验研究带来的方法论冲击。

(一)实验经济学家的规范性努力及相关争议

实验经济学家的方法论自觉典型地体现在其对真实激励的执着追求上。自Wallis和Friedman(1942)批评了Thurstone(1931)基于假设的实验研究中存在的真实性和激励缺失问题之后，引入真实的激励就成为了经济学实验研究不可分割的一部分。之后，Vernon Smith在心理学家Siegel(1959，1961)工作的基础上经过长久的摸索，最终确立了实验经济学规范中最核心的部分——通过引入报酬函数进而结果的货币价值，实现对个体最大化偏好的控制；具体而言，就是假定被试对金钱的偏好满足非魇足性，然后通过引入占优性、凸显性和私密性的激励，补偿个体的主观决策成本，控制其他决策动机和他涉偏好的影响(Smith，1976)。可以说，采用真实激励来控制偏好已经成为实验经济学区别于其他实验研究的根本标志之一(Roth，1995；Hertwig and Ortmann，2001)。(14)

然而对于这种做法，也有许多学者持怀疑态度。比如Heiner(1985)认为，引致价值理论是一个理论创建而非经验发现，如果实验的目的在于区分创造与发现，那就必须纳入考虑价值不确定性(而非预设的价值结构)的实验设计。Loewenstein(1999)指出，货币最大化并不一定是最重要的动机，研究者不能因为引入货币激励就忽视其他动机的存在；而且，如果考虑实验的外部有效性的话，剔除其他动机并不一定是好事。Read(2005)则认为，货币激励并非必要，因为它的目的和作用机制皆可通过一些替代方式实现；而且，引入货币激励有时还会因为增加一个变量而带来高昂的成本。

对此，实验经济学家的第一反应是，控制被试的偏好是检验经济学理论的必要组成部分。经济学理论一般均假定最大化者如何行为，因此，只有赋予被试一个可以最大化的机会，理论才可能获得表现的机会，才能在检验时受到“最佳一击”。而且，实验经济学家从来没有说货币最大化就是被试的唯一动机。正如Smith(1982)所说，实验激励的核心在于模拟现实经济环境的安排，构建一套产权系统，规定被试可以得到货币报酬的权利，从而引出受控偏好；至于被试是使用这种权利还是顾及其他动机，那是被试的自主决策。因此，引入货币构造并不一定会损失社会构造(和其他价值构成)。

进而，实验经济学家以行动证明，激励的使用有何影响可以作为一个核心假说加以研究。研究表明，货币激励在某些领域会更重要；在大多数货币报酬起作用的例子中，被试的表现均有所改进；即使在被试表现没有显著改变的例子中，被试行为的方差也显著变小(Smith and Walker，1993；Camerer and Hogarth，1999；Hertwig and Ortmann，2001)。不过值得一提的是，随着研究的深入，研究者还发现，激励重要，激励的来源一样重要(Smith，2010；Harrison，2010)。当被试的禀赋是赚来或带来时，其行为模式与禀赋由实验者提供时显著不同。如果这一点在一般意义上成立的话(这是很可能的，现实中天上掉馅饼的事并不多)，那么以往的很多实验证据，尤其是考虑分配主题的实验都需要重新检验。总之，经验研究的结果告诉研究者，考虑货币激励是有帮助的，除非有研究表明货币报酬没有显著影响，或者说这么做的成本太过高昂；与此同时，在以后的研究中，研究者还得考虑激励来源的影响。

时至今日，真实激励已成为经济学实验的标帜，但是经济学实验的规范实践并不止于此。经过长久的摸索，实验经济学家已发展出一套严格的方法体系和实验操作规范。除了强调随机化和偏好控制，实验经济学家还强调重复的实验设计(Smith，1962)、标准化的实验介绍(Siegel，1959)、反欺骗(Davis and Holt，1993)以及实验实施、实验数据处理和报告的标准化(Roth，1988，1994)等规范的重要性。虽然有一些学者对这其中一些规范持怀疑态度(如Loewenstein，1999)，不过也有一些学者认为正是因为有这一系列规范，经济学实验才得以与比如心理学实验等区分开来，变得更可重复，更有助于对话，因此获得巨大的成功(Hertwig and Ortmann，2001)。(15)孰对孰错，还有待更多的证据说明。

(二)田野实验经济学家的经验性努力及相关争议

在发展出一套严谨的实验规范之后，实验经济学家并未因此认为实验研究的问题已经解决。心理学长期的实践表明，实验的有效性会受到各种因素的影响(见Campbell and Stanley，1966)。(16)实验经济学家谦虚地接受着来自心理学的经验与教训，在发展实验规范的同时，摸索着消除这些威胁的方法。可以说，整个实验经济学史几乎就是一个实验经济学家挖空心思寻找巧妙的设计以追求实验有效性的历史(范良聪，2010)；比如，针对实验者效应问题而出现的单盲、双盲设计，针对真人不受控制而引入人机博弈等。

在寻找巧妙的实验设计之外，研究者尤其是田野实验经济学家还积极利用实验的优势，从经验上研究各种潜在因素的影响，展开稳健性检验，为实验有效性问题提供了许多新思路和新见解(见Harrison and List，2004；List，2007)。通过不断地变换样本、实验介绍、激励大小、任务性质、实验环境、实施程序……实验经济学家仿佛解读基因谱那般扫描着人类的行为光谱。这些研究在进一步彰显实验研究的力量和早期许多研究如市场实验有效性的同时，也揭示了以往被忽视的一些关键因素，进而在实验经济学内部引发了新一轮的方法论大争论。这次争论的核心是情景的重要性，针对的是传统实验室实验抽象化、去情景化的做法。

如前所述，田野实验经济学家首先认为，这种做法可能导致被试不理解实验，或是未能启动相关的启发式，或是环境向量被规定在不恰当的水平上而令实验失控。Harrison与List(2004)系统地阐释了这个问题。他们基于大量研究，总结出六个决定实验情景的要素：被试池、被试拥有的信息、商品、任务或交易规则、激励、实验环境，并依据实验是否使用大学生被试、其他要素是否标准(虚拟还是真实)以及被试是否知晓自己在参加实验(17)定义了田野实验的特征和类型学，说明了这些因素及其背后的作用机制会如何影响实验室实验结果的有效性。他们还把各种实验放在一个研究谱系的视角下进行考察，包括思想实验、实验室实验、田野实验、社会实验、自然实验以及各种计量方法等，强调了各种方法的优缺点和互补性。沿着同一思路，Harrison(2005)进一步强调，仅凭实验是否是在实验室中完成就先验地认定它有无控制力是不对的。通过引入各种类型实验研究的例子，Harrison说明了实验有效性问题的复杂性，以及研究者观察行为、推导结论时用到的先验知识的重要性。

沿着类似的思路，Levitt和List(2007)也对实验室实验的外部有效性问题进行了重新解读。以社会偏好研究为例，他们概括出五个可能影响实验结果外部有效性的因素，包括决策者被观察的性质和程度、决策情景、决策时间和选择集的限制、被试的自选择、激励的大小。基于收集到的证据，他们发现，若被试知晓自己的行为正在被观察、记录、分析，其亲社会倾向会显著增强，他们因此怀疑实验室研究是否扩大了亲社会行为的一般性。(18)他们还发现，仅仅是改变决策的可选集或是延长实验时间，比如在独裁者博弈中增加一个可以剥夺接受者禀赋的选项，或是把礼物交换博弈时间延长到一天，实验结果就会发生显著变化。他们因此指出，如何区分短期决策和长期决策值得实验研究者在未来作仔细考虑。

不过引起最广泛关注和讨论的仍旧是情景因素。Levitt与List(2007)指出，情景因素的缺失本身就足以导致实验研究因缺乏与真实世界的联系而失去外部有效性。这种立场与心理学家和行为经济学家的立场相同：任何进入实验室的被试绝非一张白纸；因为认知和记忆的缘故，情景(决策的框架)很重要(见Tversky and Kahneman，1986；Loewenstein，1999)。因此，如果情景没有得到考量的话，那么自然数据中的遗漏变量问题同样会出现在实验数据中，从而严重限制实验结果一般化的能力。实际上，认同情景重要的实验经济学家并不在少数。比如，Schelling(1960)在一开始做实验时就强调了情景对均衡选择行为的影响。Smith(1982)同样早就指出，“制度是重要的，因为它们定义了情景，情景是重要的，因为记忆是自有的”；把人类决策结构化为没有历史或未来的想法可能是错误的，因为情景界定了报酬之外的动机要素(Smith，2010)。再比如，Gintis(2010)和Houser与Xiao(2010)均强调说，情景是社会成员识别潜在社会规范的线索。个体不仅会依据内化的社会规范完成自己偏好序的调整，而且据此形成共同的先验信念，找到“相关均衡”。

不过面对这种强调情景的倾向，也有学者提醒说，不能过度强调情景的重要性。比如，Ortmann(2005)就以实例分析了引入情景带来的巨大成本：这会大幅增加对控制的需求，使得实验者不得不考虑如何处理被试带入实验的拇指法则、启发式等决策规则；这个过程中的任何一点失控都可能威胁到实验研究已经建立起来的那种规范性，从而削弱实验有效性的重要保障——可重复性。因此，问题又回到内部有效性和外部有效性的权衡上：研究者到底应该在多大程度上为了接近一个特定的样本池和情景而放弃实验室中存在的那种控制(Falk and Heckman，2009)。Bolton(2010)认为，情景是重要，但是研究的关键还是在于模型的构建。情景给模型带来的关键问题是，它在什么地方、在多大的程度上有影响；我们可否在模型化的过程中找到可以最大程度地捕捉意图研究对象的情景要素。(19)Hogarth(2005)和Harrison(2010)也认为，情景可作为研究对象，但在模型化的过程中需要谨慎，要注意情景是否拥有代表性。Camerer(2011)则以一系列反例说明，很多实验室实验对情景存在免疫力，实验中的发现也常常可以一般化。他还回到实验先驱的立场上来，认为一般化不是实验研究的首要目的；与此同时，系列实验可以帮助一般化。

在这些争论之间，Croson(2002)提出了一个折中的观点，也即，是否考虑情景当视研究目的和实验类型而定。理论导向型实验偏好于不依赖情景，因为理论的一般性要求其独立于情景；引入情景会增加噪音，甚至带来系统性偏差。经验导向型实验当视其研究出发点而作不同考虑：如果研究是受到以往实验的刺激，那就不应该引入情景，而应该关注现象的原因及边界；如果研究是受到田野研究的刺激，那就需要考虑引入情景。最后，政策导向型实验显然应该把情景当成关键变量加以考虑。(20)

Cardenas(2004)进一步提出，把实验室带入田野和把田野带到实验室中的问题是一样的。因为不管实验场地在哪里，被试都带着信息走进实验。抽象的实验室实验会面临失控，而把实验室带进田野也不只是意味着被试池、任务、实验环境或激励性质的变化，因为被试同样会带着各种信息，包括是否有类似经验，与其他被试乃至实验者之间是否存在历史和未来等。因此，实验研究是否有效的关键在于如何捕获并研究这种信息及其对被试行为的影响。基于自己的一系列研究成果，Cardenas还扩展了Smith(1982)的微观经济系统模型，在环境系统中纳入事前经历、社会身份与地位等，在制度系统中纳入文化规范、语言规则等，并考虑增加实验结果的衡量维度，纳入比如实验结果对日常交往的影响。作者认为，如此考虑问题不仅可以极大地丰富研究者对被试在实验内外认知决策过程的理解，而且可以最小化学者们关注的内部有效性和外部有效性之间的权衡。

不论如何，田野实验经济学家的告诫是值得认真对待的：在下结论之前，研究者需要仔细考量实验中的一些典型特征，至少在影响不明确的情况下应该选择两条腿走路，多做稳健性检验。而且，实验自身的优势使得这种考察变得很容易，这个过程还可以得到其他方法的帮助：计算机仿真、各种实验方法、计量模型、问卷调查、个案分析……总之，寻找契合研究问题的方法(Charness and Kuhn，2011)，强调用证据说话以及方法的互补才是深化我们对经济学研究方法理解的关键所在(Harrison and List，2004；List，2007)。

边际革命后新古典的形式化过程使得经济学逐渐发展成一个基于演绎来构建逻辑自洽体系的学科。在这里，经验研究几乎是、也只能是理论研究的延展，学科中只见理论向经验的“传导”而没有经验向理论的反馈：“理论经济学家构建理论，而后传给应用学者。理论被用于描述或解释其所在领域的经济现象，而不是接受经验的检验与更正”(西蒙，2009[1997]，95-96)，经济学家也因此备受责难。实验的发展让我们看到了经济学走出这个困境的希望：因为理论与经验的交互作用，经济学似乎已开始走向库恩意义上的常规科学发展之路。这种发展及其效果是有目共睹的：实验不仅已成为经济学家工具箱中的常备工具之一，而且还掀起一轮久违的经济理论创新潮，极大地加深了人们对经济行为的理解。

这个局面的出现与实验经济学家一系列旨在契合经济学分析方式的方法论努力密切相关。因为理论可以借鉴，实验方法可以参考，但是由于各个学科看待世界、组织知识的方式不同，完全的移植是不现实的，每个学科都需要发展出自己的理论与实验技术。与此同时，也只有拥有一套共享的规范，研究者才可以就任何一个理论的证实抑或证伪，任何一个现象的发现或消失，在一个共同的话语体系中展开对话，知识才能得以积累，学科才能向前迈进。有鉴于此，本文回顾了实验经济学诞生以来，学者们围绕为什么做实验、实验研究是否有效以及如何让实验更有效而展开的方法论争论，以图让实验研究者和潜在兴趣者了解目前实验研究群体已经达成的共识是什么，尚未解决的分歧何在。我们发现，学者们虽然已在实验方法性质和意义的理解上达成一致，但在实验内部有效性和外部有效性上的争论仍在继续。

有意思的是，我们还发现，与早期实验经济学家稍显被动的方法论自觉不同，越来越多的实验经济学家主动参与到方法构建的努力之中，令实验方法论争论的重心逐步从学科外部转移到学科内部。(21)围绕着让实验研究更有效、更有用这一共同目标，秉承着实验经济学“做做看”的实用主义传统，实验经济学家在规范实验方法上展开了集体行动，极大地增进了人们对经济学实验乃至一般社会科学实验方法的理解。虽然新一轮讨论中分歧仍在，但学者们也已达成一个重要的共识，那就是，任何方法都有其优劣势和边界，契合研究主题才是关键；与此同时，实验研究可以利用自身可控可重复的优势，通过时间和经验来构建有效性。这种积极态度的出现是可喜的，因为其他学科的历史表明，方法论的讨论和实践可以让实验经济学这门建立在方法基础上的学科更健康地成长，进而在经济学的发展中做出更大的贡献。

①见List(2009)和Card(2011)提供的统计。

②Loewenstein(1999)在区分行为经济学和实验经济学时指出，前者考虑的是如何在经济分析中引入心理学理论和视角，与方法无关；后者强调的是控制实验这种研究方法，强调如何发展适于探讨经济问题的实验方法。本文讨论的是实验方法，以实验经济学以及实验经济学家的方法论努力为线索会有助于阐释问题。

③Vernon Smith获奖的理由之一就是他的方法论贡献。

④因此许多实验得到的所谓证伪结果是值得商榷的：这很可能是由于实验设计没有捕捉到理论的前提假设。不过Guala(2005)辩驳说，这样的完整性要求过于严苛了。

⑤这里值得一说的是因果关系的定义，因为实验研究似乎天然地适于探索因果关系(Shadish et al.，2002)。科学哲学史上对因果关系的定义纷繁复杂，不过总体的趋势是早期学者倾向于把它定义为完美规则(定律)，现代学者倾向于把它定义为统计学意义上的概率可能性(Thye，2007)。其实，Guala(2005)认为完整性要求太过严苛就是因为他认为，科学的目的不仅在于构建拥有完整性的理论，还在于探究不完全的因果关系，对于经济学而言尤其如此。

⑥Mill(1973[1872])提出了识别因果关系的几种经验方法，其中的求异法就是控制组与比较组思想的原型。但Mill自己反对实验，也许是因为他没有从自己的定义与方法中找到完美规则，因为他提出的方法中存在若干当时无法解决的问题。比如，如何创建两个只有一处不同的环境？如何确保发现的因果关系成为一种完美规则？Fisher的工作拯救了Mill，见Walker与Willer(2007)和Thye(2007)的阐述。

⑦Davis和Holt(1993)的描述主要考虑的是实验室实验。近来，田野实验及其特有功能开始受到实验经济学家的重视，比如与实验室和自然发生的数据相互检验，连接理论、实验室与真实世界，为研究者寻找实验室或自然数据研究中遗漏的变量提供线索等(Cardenas，2004；List，2007)。

⑧有鉴于寻找边界的稳健性检验在方法论上的重要性，Smith(1982)在类型化时特地把这类实验独立出来。

⑨实验尤其是田野实验在衡量现实中难以衡量的变量如偏好、制度绩效等方面的功能得到了诸多学者的一致强调(如Roth，1988，1995；List，2007；Croson and G

chter，2010；Charness and Kuhn，2011)。

⑩科学哲学家早就指出，虽然完美的证伪主义不可能实现，但容忍错误的证伪主义还是可能的。当然，这并不排除某些超科学的信念和偏好会导致科学判断中出现系统性偏误(Shadish et al.，2002)。也正是在这个意义上，韦伯那里的价值和意义对于社会科学实验研究而言尤其重要(罗卫东与范良聪，2010)。

(11)Morgan(2005)还强调了实验相比理论的另一种真实性：理论的所有结论都已在假设条件中得到规约，不会生成任何新东西，而实验却常常带来意料之外的结果。Guala和Mittone(2005)也强调了意外发现的重要性，因为它们的出现可能源自非人为的实验因素。

(12)值得注意的是，实验先驱并没有完全忽视其他类型实验研究中的外部有效性问题。比如，Smith(1985)就提到，实验研究不应该局限于检验理论，还需要对真实世界和实验室行为之间的并行性展开经验研究。Plott(1987)更是证明，实验室不仅可以被塑造地接近真实世界的目标体系，得到的结论也可以成功地应用于现实世界。即使批评者如Loewenstein(1999)等也承认，有些实验是有外部有效性的。

(13)典型的表现就是，实验研究者已经发展出许多处理内部有效性问题的工具，但没有发展出多少处理外部有效性问题的工具(Schram，2005；Guala and Mittone，2005)。

(14)在控制之外，实验经济学也在尝试传统的衡量工作，比如Becker等(1964)对保留价格的衡量，其他如对被试支付意愿、风险态度的衡量，控制组和比较组中对因果效应的衡量等。尽管如此，在很多时候，实验也无法实现独立于理论的精确衡量(McDermott，2002；Shadish et al.，2002)。这也是为何实验研究者偏好控制甚于衡量(Roth，1988)。当然，如前所述，要实现完全的控制也很困难，尤其是因为许多经济学现象的预测都发生在边际上——比如，激励到底要凸显到何种程度才能带来收敛的结果呢？

(15)Hertwig和Ortmann(2001)说到，经济学实验“通过清晰地阐述行动的选择(实验介绍)、允许被试获得经验(重复试验)、让目标变得清晰——即赚得更多(货币激励)、限制关于实验目的的二阶猜测(不欺骗)，减少了不确定性”。因此，他们建议心理学家在合乎研究主题的情况下学习经济学家的做法，或者至少养成“两条腿走路”的习惯。

(16)影响内部有效性的主要因素包括样本选择的差异、历史因素的影响、被试学习能力的差异、实验者需求效应或被试预期效应、测量误差、被试的自选择或退出、实验者偏差以及这些因素之间的交互作用等；而影响外部有效性的因素有检验效应、样本代表性、霍桑效应、专业被试、实验者效应等。

(17)Harrison和List(2004)特别强调被试不知道自己正在参加实验的自然田野实验方法在结合良好的控制和真实性上的出色表现。

(18)Cardenas(2004)和Harrison(2010)提出了一个类似的问题，他们考虑的是实验者这一特定的观察者可能给博弈结构带来的实质性影响，比如导致一个两人博弈变成一个两阶段三人博弈：第一阶段是实验者和实验被试的博弈，第二阶段是被试之间的博弈；如此便可能引发被试群体的某种策略性行为，例如把一个竞争博弈变成一个被试合作瓜分实验者提供的禀赋的博弈。

(19)Bolton(2010)以地图为例进行了说明。比如，如果把地铁的地图用于指引步行，那将是灾难，但若用于乘坐地铁，却是方便之极。

(20)还可见如Charness和Kuhn(2011)，豪瑟等(2012)。

(21)限于篇幅，本文没有考虑许多围绕实验操作细节展开的讨论，如样本规模、被试征募程序等。这些讨论常见于期刊，也说明了实验经济学家对方法的重视。

标签：经济学论文; 经济论文; 制度理论论文; 控制环境论文; 预测模型论文; 有效市场论文; 预测控制论文; 内部环境论文;

经济学实验方法之争_经济学论文

猜你喜欢