实证研究的可复制性与透明度_论文发表论文

可复制性与经验研究的透明化，本文主要内容关键词为：透明化论文,经验论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

2014年1月，《自然》(Nature)杂志发表了两篇在于细胞领域具有划时代意义的论文。论文的第一作者，来自日本理化学研究所再生科学综合研究中心的年仅30岁的博士小保方晴子，声称她领导的课题组成功制作出一种可以生成人体各种组织的全新“万能细胞”STAP。论文一经发表，即引来学界巨大反响。然而不到两个月，便传来负面声音。多位署名作者先后对实验结果的可复制性提出质疑。同年7月2日，《自然》正式撤回这两篇文章。理由是论文存在图片造假、数据篡改和不可复制等学术不端问题。8月5日，年仅52岁研究中心副主任、小保方的导师、论文的共同通讯作者笹井芳树不堪日本舆论批判，在研究室自缢身亡。

事情的真相，至本文发表之时仍在进一步调查中。为了自证清白，小保方从2014年6月开始直到11月，将在24小时的全面监控下尝试重复该项实验。无论结果如何，作为从事经济研究的旁观者，笔者真正关心的是，为什么类似事件在自然科学界屡见不鲜，在经济学领域却很少发生呢？难道是因为经济学期刊发表的都是没有错误的论文？还是因为经济学家比自然科学家有更高的学术素养？恐怕都不是。经济学文章，特别是许多经验研究类文章，不是没有错误，而是根本谈不上对错。大多数经济学期刊都不要求作者提交数据、程序和相关说明文件，使得读者根本无法验证，也就无从辨别真伪。经济学家，也并不比其他学者更高尚，他们有同样的激励伪造研究结果。不同的是，他们不那么担心自己或同行的研究会给学术发展和经济运行带来什么负面的影响，因而也无意将时间和精力浪费在沉闷的复制工作上。

然而，无可否认的是，复制在经济学领域也是一项必不可少的工作。近年来，国外逐渐认识到复制的重要性。顶级英文经济学期刊开始强制要求作者公开数据和程序并将复制纳入匿名审稿程序，部分一般刊物也开始鼓励作者发表复制性研究。但在国内，还很少有学者认真对待过这个问题，也很少有期刊对文章的可复制性做出必要规定。本文旨在阐述复制工作在经济学研究中的价值并介绍复制政策在国外期刊的采用情况，以引起更多国内学者对复制问题的重视。

一、复制和可复制性的内涵

顾名思义，可复制性是指一项研究可以被重复或再现。“复制”从“Replicate”一词翻译而来。《牛津英语词典》对该词的解释是“重复(一个科学实验)以得到一致的结果”(Repeat(a scientific experiment or trial to obtain a consistent result)。《梅里厄姆—韦伯斯特词典》的解释则是“复制，再现一个统计实验”(Duplicate，repeat，as in a statistical experiment)。由此可见，复制主要针对的是实验性质的研究。由于涉及到大量无法以文字呈现的环节，在实验性研究中，研究者的信息通常多于审稿人和读者，导致研究的正确性和真实性难以得到保障。经济学中的经验研究虽不是科学意义的实验，但其中涉及的数据搜集和计量估计过程同样存在不可文字化的问题。

严格来讲，词典中的复制是狭义的复制，是用完全相同的数据和模型甚至相同的软件重现作者的研究结论。在大多数文章中，作者都会不吝笔墨来介绍数据来源和模型设定，以确保其研究是可复制的。然而，由于经验研究实在太过复杂，其他研究者很难依据文字描述即全盘复制原文。这或许是由于作者使用的数据本身发生了变化，诸如国内生产总值(GDP)、消费者价格指数(CPI)和汇率一类的宏观数据会由于新资料的出现或新方法的产生而不断被修正；或许是因为作者对使用的变量和数据未能交代清楚，例如许多文章会忽略说明变量是水平值还是对数值；或许是因为作者没有交代计量所使用的软件，McCullough & Vinod(1999)就发现不同软件就同一个问题可能得到不同结果。因此，公开数据和程序是实现狭义可复制性的必要条件。

广义复制①则是说用任意其他数据和方法来检验原文的主要观点。比如，原文用美国20世纪90年代的数据发现国际贸易导致国内收入差距扩大，其他学者用其他时期或其他国家的数据所做的研究都可视作复制，因为广义上他们都在研究国际贸易对收入分配的影响。由于大多数期刊将广义复制视作原创性研究并愿意发表这样的论文，因而广义复制并不少见。在中国经济学界，广义复制型研究甚至占有相当比例。本文主要谈的是不常见的狭义复制。对于研究者，狭义复制是一项高投入低回报的工作。一来很少有期刊会发表此类文章；二来揭露其他人的错误也是“损人不利己”的非理性行为。

二、复制在经济学研究中的作用

无论复制工作本身多么乏味，其在经济学研究中的作用和意义都是不可否认的。随着科研分工的细化和专业化程度的提高，经济科学的进步愈发依赖于不同学者的合作。每一项或大或小的研究，都是站在前人的肩膀上，做出微薄的边际贡献，并为后人铺路。

(一)复制能防止研究者的有意错误

作为一个理性人，经济学者会追求真理之外的其他利益，并采取“造假”等手段来实现其利益。很难想象庄严的学术界会与“造假”一词联系在一起，但事实胜于雄辩，当下的学术界的确假货泛滥。原因之一是科研行业竞争程度的提高。根据Goyal et al.(2006)对收录于EconLit②中的文章的统计，从20世纪70至90年代，经济学领域作者数量从33770位增加到81217位。虽然科研资源也相应增加，但仍赶不上科研工作者增加的速度。为了争取有限的职位和经费，为了不被“不发表即发臭”的管理体系淘汰，科研人员必须以更快的速度发表更多的论文。在如此竞争格局下，造假的增加也成为了必然。另一个原因是大多期刊更倾向发表“肯定结果”③。任意挑选一本规范的经济学期刊，便不难发现大多文章的结论都是“甲显著影响乙”。然而，即使在一个精心规划的科研项目中，研究者也很可能发现，他们最关注的甲在统计和经济上对乙都没有显著的影响。但为了迎合期刊的择稿标准，并考虑到前期在数据搜集和整理上耗费的时间和精力，不少研究者可能被迫篡改结果。

经验研究的特殊性也创造了造假的条件。理论研究可以在文章中详尽地阐述其假设条件和推理过程，但经验研究往往无法完整地报告数据和计算程序。虽然已发表的文章无一例外地声称“经验模型是有理论基础的，变量测度方式是科学的，样本是有代表性的，估计方法是合适的，结论是稳健的”，但有过研究经历的人都清楚，仅凭作者一面之词，这几乎是不可能确定的。特别是那些依靠调查获得一手数据的研究，读者几乎无法确认数据搜集过程是否可靠。没有数据和程序，不通过复制，即使是匿名的同行审稿专家，也无从得知作者是否更改了数据，是否选择性地报告了结果，是否得到了稳健的结论。

造假对学术的发展有致命的危害。制假者的不公平竞争极大损害了求真者的利益，假文章也带来了巨大的信息污染。强制要求作者公布数据和程序，能大大减少造假的机会。即使编辑部没有能力详查每一篇文章的数据和程序，复制政策本身也能对造假构成威慑。

(二)复制能减少研究者的无意错误

作为一个普通人，经济学家也会犯各种无意的错误。犯错的原因很多，包括对理论知识掌握不到位、对计量工具了解不充分和对数据产生过程认识不全面等。Levitt在《美国经济评论》(American Economic Review)发表一篇题为《使用警察雇佣中的选举周期来估计警力对犯罪率的影响》(1997)的文章中，巧妙地以美国地方选举周期为工具变量识别了警察数量和犯罪率之间的因果关系，发现警察数量增加是犯罪率降低的一个重要原因。时隔五年，McCrary(2002)在《美国经济评论》发文指出了这篇著名文章的错误：Levitt(1997)本意要给那些方差小的犯罪数据更大的权重，但由于编程的错误，实际上给了方差大的犯罪数据更大的权重。纠正这个错误后，警察数量增加导致犯罪率下降的结论不再成立。更有趣的是，对于文章中最关键的工具变量地方选举周期，由于作者没有明确说明数据来源，McCrary(2002)无法根据原文的介绍构建出这个变量。为此，他写信向Levitt求助，后者的答复则是自己也不能再构建出这个变量。

第二个例子也与Levitt和美国的犯罪率有关。Donohue和Levitt在发表于《经济学季刊》(Quarterly Journal of Economics)的《堕胎合法化对犯罪的影响》(2001)这篇颇有争议的文章中指出，美国20世纪70年代堕胎合法化是90年代犯罪率下降的主因。他们的论据有两点：一是堕胎降低了年轻人在总人口中的比例，年轻人比老年人的犯罪倾向更高；二是堕胎减小了父母不想要的孩子的出生可能性，这些孩子由于缺少教育更可能沦为罪犯。波士顿联邦储备银行的两位经济学家Foote & Goetz(2008)仔细检查了这篇文章的数据和程序后发现，由于编程错误，二位作者遗漏了一个重要变量。纠正这个错误控制变量后，他们否定了此文的主要结论。

另一个有趣的例子是Reinhart和Rogoff发表于《美国经济评论》的文章《债务时期的增长》(2010)。他们考察了20个发达国家二战后的经济增长，发现债务与GDP之比低于90%的国家平均经济增长率为3—4%，而高于90%的国家增长率低至-0.1%。由于两位作者强大的影响力，此文尚未发表即被广泛引用。经济学家和政策制定者甚至一度将90%视为债务的警戒线。然而，马萨诸塞大学阿默斯特分校的三位研究生Herndon et al.(2014)在复制后对这项研究提出了质疑，他们通过对原数据和程序的检查发现，原文至少存在选择性排除样本、计算代码错误和描述统计量权重选取不当三个问题。更正这些错误后，他们发现债务与GDP之比高于90%的国家增长率为2.2%，而非-0.1%。

以上三例给我们的启示是：(1)即便最顶尖的经济学家和最好的经济学期刊，也不能完全避免错误，更不用说一般的学者和普通的刊物了。(2)如果没有像McCrary一样的学者去从事枯燥的复制工作，那些著名文章中的错误可能永远无法被人发现。(3)如果错误没能被发现，错误的观点将对经济研究甚至经济运行造成负面影响。(4)如果编辑部在发表文章之前就对作者的数据和程序进行查对和存档，事前错误文章被发表的概率会降低，事后的辩论也有据可依。

(三)复制可降低其他研究者的成本

与理论研究相比，经验研究是一项劳动密集型工作。从模型设定到数据搜集到估计程序编写，每一个环节都需要大量时间。数据和程序的共享，能大大减少其他学者不必要的重复劳动。近来国内学者广泛使用的中国工业企业数据库很好地体现了共享的价值。由于原始数据是截面形式的，并且用来确定企业身份的代码十分混乱，研究者必须综合使用法人代表姓名、企业地址、电话邮编等一系列信息来匹配企业以构建面板数据。为此，Brandt et al.(2012)详细介绍了他们的方法并将其STATA程序公布，方便了其他研究人员。另一个例子是OP和LP生产率估计方法。由于生产率是微观实证研究中非常重要的变量，这两种估计方法近年来被广泛应用。Petrin et al.(2004)和Yasar et al.(2008)编写并公布了这两种方法的STATA代码，大大减少了同行的成本。

数据和程序的共享在国外经济学界已经非常普遍。不少领域都有自己专业的数据网站，联邦贸易委员会的Jon Haveman建立了专业的国际贸易数据网站，免费提供许多国际贸易研究常用的数据，如各种不同版本的产品分类方法转换、引力模型常用的贸易成本数据、移民数据和Rauch产品差异化分类等。由美国经济史学会管理的EH.net网站则为研究者提供了丰富的经济史研究方面的数据。由艾尔弗·斯隆基金资助，牛津大学和哈佛大学合作创办的国际家庭金融网站则整理了大量家庭金融研究领域的数据④。类似更加综合的网站还有美国经济学联合会的数据资源板块和美国国家经济研究局的数据栏目。然而，国内经济学界在数据共享方面还十分落后。张军等发表的《中国省际物质资本存量估算：1952-2001》(2004)一文估算了1952-2001年期间中国各省的实际资本存量，其估算方法很快获得一致认可。作者也将其数据张贴在复旦大学中国社会主义市场经济研究中心的网站，但至今该数据只到2005年止。若能更及时地更新数据，将使更多学者受益。事实上，就连许多中国经济数据，也大多是国外学者系统整理和公开的。例如，对于国际标准产业分类和国民经济行业分类的转换，可以从耶鲁大学Peter Schott的个人主页上下载⑤。再比如，查找中国地级市层面的经济数据，最便捷的去处不是国家统计局或国内某个研究机构，而是密歇根大学创建并维护的中国数据中心⑥。

(四)复制可促进经验研究的进一步深化

不断发现新问题开拓新领域是保持一个学科活力的必要条件，但对每一个问题刨根问底才是彰显研究价值的关键。与自然科学相比，经济研究的困难在于数据资料的欠精确和研究方法的不成熟。当两项相似的研究得到不同的结论时，经济学家往往感到非常困惑，因为很难确定结论的差异究竟源于数据还是方法。数据和程序的公开，将有助于减少这一不确定性，并降低其他学者从事相同研究的进入成本，从而吸引更多人在同一框架下将问题彻底澄清。Rose所发表的《我们真的知道WTO会促进贸易吗？》(2004)一文发现，GATT/WTO并没有显著地增加贸易，挑战了大众的直觉。由于原始数据完全公开，其他学者得以快速重复Rose的研究并提出自己的观点。不同观点的碰撞使得真相逐渐浮出水面。Subramanian & Wei(2007)认为世贸组织虽然在整体上没有促进贸易，但在局部国家和产业范围起了作用。Tomz et al(2005)则认为Rose的自变量“世贸成员”出了问题，如果将那些名义上没有加入但实际已经加入的国家算作世贸成员，那么世贸组织对贸易有显著的促进作用。Helpman et al.(2008)和Liu(2009)则发现，在对贸易额取对数后，贸易量为零的样本被人为截尾，因而Rose的估计存在样本选择偏误。根据作者的统计，目前已有20多篇跟进的文章。为了让读者更清楚地了解这一问题，作者将这些文章全部张贴在个人主页。对于原文和数据中的错误，他也一一在网上更正并感谢了这些错误的指出者⑦。国内经济研究之所以缺乏公信力和影响力，很大程度上不是因为研究范围不够广泛，而是深度和精度不够。近年来，国内学者已能立足于中国经济的特殊性，发现许多有趣的问题并引起国外学术界的注意，但分析过程还欠缺说服力，讨论深度也有待提高。在中文刊物上，几乎很难看到不同学者就同一问题展开深入辩论。引入复制政策，有助于提高研究的深度。

(五)复制可增加文章的引用率和影响力

根据《期刊引用报告》(Journal Citation Report)的统计，2013年合计332份SSCI来源经济学期刊，共发表17308篇论文。其中，前五大期刊共发表379篇⑧。根据《中国社会科学引文索引数据库》，2013年合计73份CSSCI来源经济学期刊，共发表17 061篇论文。其中，前五大期刊共发表802篇⑨。在这样一个论文批量化生产的时代，任何一篇文章要吸引其他学者的注意，都非易事。影响一篇文章能否脱颖而出的因素很多，包括作者的声望、刊物的口碑、媒体的宣传和文章的主题等等。Gleditsch et al.(2003)的研究表明，数据和程序是否公开也是一个重要因素。一方面，在信息不对称和文章可信性无法确定的情况下，公开数据和程序实际上是在向读者发信号，以证明作者的文章是真实的可复制的；另一方面，分享数据和程序能够减少其他研究者的成本。通过对发表于《和平研究期刊》(Journal of Peace Research)的416篇文章的研究，Gleditsch et al.(2003)发现，同时公开数据和程序能使文章的引用率提高一倍。

(六)复制有助于初学者提高研究水平

对研究新手们而言，最大的困难是将理论应用于实际。虽然已系统学习过计量理论，也接受了一些实验训练，但在面对一项未知的研究任务时，初学者仍会感到无从下手。对于部分有条件的研究者，可以跟随导师边干边学，在实战中积累经验。对于没有条件的，复制无疑是入门的最好方法。实际上，复制是在作者的指引下模拟整项研究，其效果远远大于单纯阅读文章。当然，由于作者只公开了最终结果，读者仍无法完整地看到中间修改和逐步优化的过程。这使得复制的作用多少打了折扣。无论如何，复制经典文献是初学者提高科研能力的一种高效方法。德国哥廷根大学的Jan H.

和Thomas Kneib两位教授专门开设了复制经济学的课程。在他们的课堂上，虽然学生并不总能找出前人研究的错误，但时常能就文章的模型和数据等问题发表不同的见解。前文提及的马萨诸塞大学阿默斯特分校的三位研究生，正是在学习和复制的过程中发现了著名研究者的错误。

三、复制政策在国外的推行情况

虽然复制对实证研究如此重要，但这一制度尚未得到普及。可能的原因有以下几个：(1)对作者而言，提交数据和程序会耗费时间。为保证自己的数据和程序能被读者理解，作者可能需要在研究完成之后，用额外的时间整理和完善文件，包括对变量加标签，对程序附注解等。在某些情况下，作者可能还要用一些时间给予复制者相关的指导和帮助。(2)公开数据和程序减少了研究对手的成本，损害了作者的利益。实证研究，特别是微观层面的实证研究，可能80%以上的时间都用在前期的数据搜集和准备工作上。处理数据的速度直接决定了完成和发表论文的速度。(3)大部分经济学文章只是流于形式，内容空洞，并无多大复制的价值。并且，由于缺少原创贡献，复制型研究很难得到发表。(4)对编辑部而言，强制实施复制制度会增加管理成本，包括网络维护费用和匿名审稿费用等。并且，公开数据和程序意味着更彻底地公开文章，编辑部的风险和责任相应增加。(5)包括《经济学季刊》和《金融学期刊》(Journal of Finance)在内的知名期刊坚持不采用强制复制政策，但仍然保有较高的影响力。

(一)复制政策在国外经济学期刊的采用情况

目前，国外部分期刊，特别是高质量期刊，已就复制做了明文规定。早在1982年，《货币、信贷和银行期刊》(Journal of Money，Credit and Banking)就采取了非强制性复制政策：应读者请求，作者有义务向其提供数据和程序。Dewald et al.(1986)在《美国经济评论》发表文章，评估了这项政策的效果。令人失望的是，在54篇文章中，仅2篇可成功复制。他们还发现，除非作者在发表文章之前就提交了数据和程序，否则几乎不可能成功复制原文结果。作为回应，《货币、信贷和银行期刊》采取了强制性复制政策：要发表文章，就必须先将数据和程序交予编辑部备份⑩。然而，包括《美国经济评论》在内的部分期刊仍坚持采用非强制复制政策。McCullough & Vinod(2003)的研究再一次表明，在非强制复制政策下大部分作者都不会向读者提供数据和程序。他们联系了《美国经济评论》、《国际产业组织学期刊》(International Journal of Industrial Organization)和《国际经济学期刊》(Journal of International Economics)的部分作者，只有约1/3的作者按要求提供了数据和程序。面对这样的尴尬，《美国经济评论》时任主编本·伯南克终于决定改革这种名不副实的政策，转而在2005年开始实施强制性复制政策。包括《计量经济学刊》(Econometrica)、《经济研究评论》(Review of Economic Studies)和《政治经济学期刊》(Journal of Political Economy)等在内的众多顶尖期刊也陆续响应(11)。

那么，强制性复制政策的效果如何？在此项政策的约束下，有多少文章能够被成功复制呢？答案再次让人感到悲观。McCullough et al.(2008)以《圣路易斯联储评论》(Federal Reserve Bank of St.Louis Review)为例的研究表明，即使在强制约束下，也只有极少数文章能够被复制。该刊自1993年开始施行这一政策，在1993-2003年期间共发表406篇文章，其中251篇应该公开程序和数据。但McCullough发现，只有143篇(57%)文章按要求公开了数据和程序。在这143篇中，18篇使用了作者无法得到的计量软件，8篇涉及数据版权。剩余的117篇文章，仅9篇(7.7%)被成功复制。失败的原因很多，其中之一是作者对数据和程序的注解不够清楚(McCullough et al.，2006)。这说明，即使表面上采取了强制复制政策，编辑部也没有认真审查作者提交的数据和程序，或者对文件提交还未作足够细致的规定。

为了更全面地了解复制政策在国外的施行情况，笔者搜索并分析了主要期刊的投稿须知。以汤森路透集团2013年《期刊引用报告》收录的336家SSCI期刊为分析对象，并在Elsevier、Wiley-Blackwell、Springer和牛津大学出版社的网站以及期刊的官方网站搜索到它们的用搞须知，然后分析了其复制政策。截至2014年，这些期刊的复制政策大致可分为以下三种：(1)强制复制政策。所谓强制复制政策，必须满足以下三个条件：其一，除非涉及到版权或机密问题，作者必须向编辑部提交数据、程序以及如何使用数据和程序的相关帮助文件。其二，数据和程序必须公开供读者下载(12)。其三，数据和程序必须在文章发表之前向编辑部提交；(2)非强制复制政策。只要不属于强制复制政策的，但也对复制做出一定要求的，统称其为非强制复制政策。这包括强制要求提交和公开数据但不提交程序的，强制要求提交数据和程序但只在编辑部备份不对读者公开的，自愿提交数据和程序但应读者请求作者有义务提供的，鼓励作者提交数据和程序的；(3)不对复制做任何要求。

表1列出了所有采用复制政策的SSCI期刊和2家非SSCI期刊，包括期刊全名、2009-2013年期间平均影响因子以及政策起始时间。前半部分是采取强制性复制政策的期刊，共31家，占全部SSCI期刊的9.2%。其中，排名前100位的期刊中，有21家采用了强制性复制政策；排名前10位的期刊中，有5家采用了强制性复制政策。这说明，强制复制政策在质量更高的期刊中采用率更高。后半部分是采取非强制性政策的期刊，共14家，占全部SSCI期刊的4.2%。

从动态角度看，采用强制复制政策的期刊正在逐年增加。2000年采用这一政策的期刊只有6家，但到2014年增至33家。另外，许多采用非强制复制政策的期刊逐渐将其政策调整为强制性。例如，《美国经济评论》在2005年之前只要求作者向复制者提供数据和程序，但在2005年调整为强制提交数据和程序。《计量经济学期刊》(Econometrics Journal)在2014年之前只要求公开数据，但在2014年调整为同时公开数据和程序(13)。

(二)国外其他与复制相关的活动

此外，为了增加复制的收益以鼓励更多人参与复制，包括《应用计量经济学期刊》(Journal of Applied Econometrics)、《实证经济学》(Empirical Economics)、《印度经济和商业期刊》(Indian Journal of Economics and Business)、《经济与社会测量期刊》(Journal of Economic and Social Measurement)、《财政学评论》(Public Finance Review)、《教育经济学评论》(Economics of Education Review)、《经济发展和文化变迁》(Economic Development and Cultural Change)、《国际预测学刊》(International Journal of Forecasting)及《经济学期刊观察》(Econ.Journal Watch)在内的9家期刊还开设了复制专栏。这些期刊不仅接受狭义复制，也接受广义复制；不仅接受对本刊文章的复制，也接受对其他经典文章的复制；不仅接受支持原文结论的复制，也接受否定原文结论的复制。以《应用计量经济学期刊》为例，该刊自2003年开设复制专栏，至今已发表34篇复制类文章。

前文提及的哥廷根大学的两位学者Thomas Kneib和Jan H.

以及他们的几位学生则发起了“Replication in Economics”的计划，以推广复制的理念。他们借鉴维基百科的运营模式，创建了“Replication Wiki”这一开放网站(14)。除了发起人在网站建立初期公布的部分实证文章及其数据和程序外，其他注册过的学者也能发布新的文章和程序。此外，他们还鼓励学生将复制结果以报告的形式发表在工作论文专栏中。他们也创建了专门的论坛，供学生讨论复制。迄今为止，该网站已搜集和整理148个复制案例1810篇实证文章。其他类似的复制工程还有：(1)国际影响评估动议组织(3ie)的“影响评估复制计划”，旨在鼓励从事政策影响评估方面的复制研究，并推动这一领域数据和程序的共享。该计划已完成两期，第三期的主题是HIV预防政策效果评估。(2)AidData 3.0的复制数据库，旨在搜集和公开有关国际援助研究方面的数据和程序。(3)EDaWaX的论文复制计划。该计划由德国研究基金会资助，分三个阶段完成。第一阶段围绕数据公开激励和期刊的复制政策展开研究；第二阶段开发数据备份和传播方面的技术，包括为数据对象配置唯一的标示符(DOI)、元数据传播和数据分类整合；第三阶段传播数据，包括发布数据、与期刊编辑和数据使用者交流等。(4)哈佛大学的“Harvard Dataverse Network”(15)。该数据库向全世界提供免费的科学数据，其中包括全球最大的社会科学数据集。在该网站，也能找到许多经济学过刊论文的数据和程序。

四、国内经济学界引入复制政策的必要性和可行性

国内至今还少有期刊已经或准备引入复制这一制度。查阅了所有CSSCI来源期刊的投稿须知后，我只发现《世界经济》和《管理世界》两家刊物对可复制性有所要求。前者在其征稿启事的第一条规定，“初审通过的稿件需要提供论文的电子版及文中涉及的原始数据和处理过程，以供审稿使用。”后者在其投稿须知的第四条规定，“编辑部在审稿过程中，若向作者索取文章所用的研究数据，作者应提供这些数据。为了促进知识传播，在文章发表后，若读者向作者索取文章所用的研究数据，作者也应配合提供这些数据；若作者出于合理原因无法提供研究数据时，应详细说明获取这些数据的途径。”从这些规定中可看出，两家期刊对文章的可复制性都是非强制性的。至于该政策是否得到落实，需要对编辑部和作者进行深入调查。另外，国内青年经济学者聂辉华等曾在2009年发起一个名为“使中国的经验研究更加透明”的倡议，获得海内外77名学者的联名支持(16)。为此他们还在人大经济论坛计量版开辟了一个“学者数据公开”专栏，一度引起巨大反响。然而遗憾的是，这项倡议最终不了了之，他们的专栏也不复存在。

从当前国外的情况来看，强调可复制性以使经验研究更加透明，实为大势所趋。一方面，越来越多的学者开始注意到推行复制政策的必要性，并敢于脱下“皇帝的新衣”，直面行业准则的漏洞。另一方面，互联网技术的发展为复制政策的实施创造了硬件条件。在纸质刊物时代，高昂的通讯费用大大限制了数据和程序的公开和共享。进入电子刊物时代，文件的上传、下载和管理皆变得简便易行。在高级别期刊的示范效应下，相信会有更多的英文期刊引入复制政策。面对这样的变革，国内经济学界是否应当有所作为呢？

本文第二部分所列复制之诸多益处，同样适用于中文期刊。考虑到中文期刊的风格和水准，至少还有两个额外的理由可要求中文期刊引入复制政策：(1)中文文章的政策导向性要求可复制性必须得到保证。得益于国内经济学教育的改革，中国经济学者的研究水平正在迅速提高，但离国际一流尚有不小的距离。不得不承认，国内发表的经济学论文中，除少数文献综述和理论研究外，绝大部分还是经验研究。根据李子奈和齐良书(2010)的统计，在《经济研究》发表的论文中，以计量经济学为分析工具的文章比例从1984年的0%上升到2007年的53.3%。这些经验研究，又以应用计量分析为主，贡献大多在于对中国经济问题和政策的分析，而非对计量理论的发展。因此，客观地讲，中文文章的价值主要体现在对实体经济运行的影响。既然关乎实体经济，就必须强调研究结论的可靠性，而研究结论发表前后的复制是确保准确性的必要工作。(2)本土经济学的国际化趋势迫切要求中文期刊改进质量，以留住更多优秀作者。为了与国际主流接轨，国内许多高校和科研机构开始将英文论文发表纳入考核体系。这势必导致部分高水平作者的流失和中文期刊水准的降低。期刊水准的降低又进一步导致作者的流失，从而陷入恶性循环。面对如此不利冲击，中文期刊要在竞争激烈的学术市场保留一席之地，就必须从细节处着眼，强调研究的可复制性，营造良好的科研环境，提高文章的质量。

知易行难。在当前的环境下，要全面推行复制政策还存在很多阻力。首先，国内经济学者的水平尚不足以支撑复制政策的实施。公开程序的基本要求是作者会写程序，但国内目前仍有相当一部分学者习惯采用窗口菜单方式来操作计量统计软件，而不懂得命令和程序式方法。另外，在更严格的审稿制度下，部分期刊可能陷入无稿可用的尴尬处境。其次，统计软件差异给匿名审稿带来麻烦。不同学者会依据其偏好选择不同的计量软件，而不同软件的操作方法往往存在很大差别。要让复制成为匿名审稿的一个环节，就要求审稿人通晓所有软件。这显然存在一定难度。最后，备份和公开数据程序会增加编辑部和出版商的成本。大多数中文经济学期刊都经由中国知网和国家哲学社会科学学术数据库网络出版。即便编辑部有公开数据和程序的意愿，这些数据库能否提供硬件支持也是一个疑问。

利弊权衡之下，笔者不敢妄下结论。最终的选择权当然在期刊编辑部。对于低质量期刊，引入复制政策可能过于激进。因为根本不用复制，它们发表的文章中存在的问题也显而易见。对于高质量期刊，不妨进行渐进的尝试。在强制复制政策的实施还不具备条件时，可以先要求作者向审稿人和读者提供数据和程序，也可鼓励发表复制性的论文。

①Hamermesh(2007)将复制分为纯复制和科学复制。陈云松和吴晓刚(2012)则将复制分为校验和拓展。这些分类方法，与本文的狭义和广义复制无本质区别。

②Econlit数据库是美国经济学会创办的电子数据库，收录了经济学领域最主要的引文和文摘来源期刊文章，包括图书、精选文集、博士论文、工作论文和来自Journal of Economic Literature的书评。Econlit收录了SSCI中的全部英文经济学期刊以及极少数被认为是各国、各语种质量最高、最权威的经济学期刊。

③这几乎已成为默认标准。如果你发现制度对经济增长没有显著影响，那人们首先会怀疑你的数据和研究方法的正确性。即使接受你的结论，也不大可能发表你的文章，因为不影响经济增长的因素很多，显然人们更希望你找到能够解释经济增长的因素。

④分别参见http://www.macalester.edu/research/economics/PAGE/HAVEMAN/Trade.Resources/TradeData.html#classifica; http://eh.net/databases/;http://hhf.oxford-man.ox.ac.uk/about-us。

⑤参见http://faculty.som.yale.edu/peterschott/sub_international.htm。

⑥参见http://chinadatacenter.org/。

⑦分别参见http://faculty.haas.berkeley.edu/arose/RecRes.htm; http://faculty.haas.berkeley.edu/arose/ERRORWTO.htm。

⑧Quaterly Journal of Economics 40篇，Econometrica 67篇，American Economic Review 196篇，Review of Economics 52篇，Journal of Political Economy 24篇。

⑨《经济学季刊》156篇，《经济研究》169篇，《中国工业经济》143篇，《世界经济》81篇，《管理世界》253篇。

⑩当然，对于机密或付费数据，作者可以选择不公开。

(11)前五大英文期刊中，只有Quarterly Journal of Economics尚未施行这一政策。

(12)少数期刊的数据和程序公开时间较论文出版时间存在一定时滞。如Review of Economics and Statistics目前只公布了2013年以前发表的文章的数据和程序。本文不以零时滞作为强制复制政策的条件。

(13)目前为止，仅有Macroeconomic Dynamics 一家期刊选择终止复制政策(McCullough，2009)。

(14)参见http://replication.uni-goettingen.de/wiki/index.php/Main_Page。

(15)分别参见http://www.3ieimpact.org/en/funding/replication-window/; http://aiddata.org/replication-datasets; http://www.edawax.de/; https://thedata.harvard.edu/dvn/。

(16)参见http://www.niehuihua.com/dispArticle.Asp?ID=592。

标签：论文发表论文; 经济学论文; 经济论文;

实证研究的可复制性与透明度_论文发表论文

猜你喜欢