治理量化研究:理论演进与反思--以世界治理指数(WGI)为例_定量研究论文

治理量化研究:理论演进与反思--以世界治理指数(WGI)为例_定量研究论文

治理定量研究:理论演进及反思——以世界治理指数(WGI)为例,本文主要内容关键词为:为例论文,定量论文,指数论文,理论论文,世界论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号| D52

一、治理定量研究背景及其进展

20世纪初,从心理学家尝试识别和测量智商开始,整个社会科学界都在设法对抽象概念进行数量化测定。这种学术努力体现在将统计技术应用于公共行政领域,测量公共服务绩效;在政治学中,测量治理、民主、政治态度和认知等概念;在社会学领域,测量社会行为与社会结构分层及变迁等。这些“量化在人们对专家作出公正分析的认知中起了关键作用”。①但社会科学测量的对象毕竟不像物理学等那样能够直接计算出精确数值,社会科学家往往由于面临直接测量的观测变量及样本选取困难,或测量成本太高而常使用替代变量测度。随着各种新兴测量技术和理论模型的快速发展以及后行为主义政治学的转向,促使基础理论和实践应用相结合、价值和科学方法相结合,治理定量研究成为政治学领域的新焦点。

治理定量研究一方面是基于定量研究方法的进展,另一方面也得益于20世纪90年代以来发展领域内研究者和实践者对“治理”问题的关注。据估计,“可供用户使用的综合治理指标大约有140种及数千个单项指标”。②在所有的指标中,世界银行开发的世界治理指标(Worldwide Governance Indicators,WGI)被认为是当前诸多治理定量研究中严谨度高、影响力大、使用面广的综合指标之一。

指标的创立者考夫曼(Kaufmann)等在1999年首次公布了世界治理指数,提供了可比指数和多层治理测量相结合的新途径。他抽取25个(到2009年已经上升为32个数据源)不同来源(如公共部门、商业机构等)的第三方的有用变量,进而重新调整为WGI六项指标。③新聚合而成的六项指标具体如下:(1)表达与问责(Voice and Accountability,VA):测量一国公民在选举政府领导的参与程度,以及言论、结社和新闻自由;(2)政治稳定与无暴力程度(Political Stability and Absence of Violence,PV):测量人们对政府稳定、政治暴力或恐怖主义等事务的感知;(3)政府效能(Government Effectiveness,GE):测量政府公共服务,政策制定及执行水平,职业文官工作与独立于政治压力的能力,以及政府兑现政策的可信度等;(4)监管质量(Regulatory Quality,RQ):测量政府为允许和提升私人部门发展而形成和执行良好政策监管的能力;(5)法治(Rule of Law,RL):测量社会成员对社会规则的信心和遵守规则程度,特别是法律执行水平及发生犯罪和暴力的可能性;(6)腐败控制(Control of Corruption,CC):测量把公共权力用于谋取私利程度,包括各种形式的腐败,也包括国家被精英和私人利益“俘获”的程度。“WGI采用综合聚类方法形成此六项指标,较之单独数据来源包含了更丰富的内容,让治理问题的相关探讨更加实证化”。④

WGI在同类指标中表现出色,还由于设计者记录和初步公开了构造指标的方法,较为清晰地表明了其数据来源及测量设计思路。同时,WGI采用统计学上比较合理的路径,注重精确性,并计算和强调了指标估算(Estimated Indicators)带来的误差。加之,WGI数据库覆盖范围广,尽管有某些缺失值,它依然覆盖了高达213个国家和地区,从而弥补了以往其他测量指标覆盖面狭窄的不足。此外,WGI还提供颇为有效的治理指标分类学方法,区分并整合基于专家意见的治理指标和基于调查结果的治理指标类型,实现将专家评估和抽样调查相混合的指标聚类来测量现实规则的可能性。WGI在1996-2009年间发布了10次分析报告,考夫曼等人还为介绍数据库情况撰写了大量论文。其良好的设计规划和稳健的持续性受到研究者和实践者愈来愈多的关注,被用做解释变量来分析世界各国的发展。该指标也被决策者所采用,如美国“千年挑战对外援助项目”声称,要注重援助那些治理良好的国家,并使用WGI的5个指标以及其他11个指标来决定一国是否有接受援助的资格。据世界银行统计,风险评估机构与非政府组织等也有采用,如国际开发协会在形成对一国政策和制度的评估时的判断依据就是通过WGI实现的;世界银行前行长詹姆斯·沃尔芬森(James Wolfensohn)把关于腐败的议题带入世界银行与借款人的谈判当中,其继任者保罗·沃尔福威茨(Paul Wolfowtiz)继承并强化了这个做法,世界银行当前正根据治理水平来确定借贷国贷款资格及额度。这种援助方根据治理和水平设定援助条件的例子,在当前国际援助中比比皆是。

二、治理定量研究的应用与误用:WGI的现实困境

WGI虽然已成为研究者和决策者参考的重要标准之一,但没有任何治理测量能达到完美,也无法从根本上解决社会科学定量研究所面临的难题。若从WGI指标在具体实例中产生的效果来看,至少在治理质量与性质判断、治理质量改善提升方向等方面无法实现预期目标。

首先,应用WGI可能无法实现对一些国家治理质量的准确判断。当前国际社会对特定国家减少贫困的援助中常考虑治理水平高低因素,并借助WGI进行跨国比较评判。但低收入经济体中的资源分配政策常是基于多因素考量下的方案,单独使用WGI作为评判依据,容易产生一些与现实相悖的结果。如印度处在“政治稳定和无暴力”指标排名的末端,而这一结果并没有反映印度的现实。

再如,WGI中撒哈拉以南非洲地区国家在六项治理指标中位于全球排名末端,治理质量恶化将对其区域国际贷款、外商直接投资带来显著影响。而现实是,自20世纪80年代末90年代初以来,非洲投资回报率便开始高于其他发展中地区。据国外学者调查,1995-1998年间,美国企业在非洲最不发达国家投资回报率接近23%,日本企业在非洲投资回报率为33%,而同期美国企业在亚洲和大洋洲投资回报率为13%,在欧洲投资回报率为10%。⑤因此,20世纪末以来流入非洲的外商直接投资呈快速增长态势。WGI对非洲治理质量的判断,对非洲国家矿产资源的勘探与开采投资热的影响显得微不足道。

其次,采用WGI作为处理治理难题的指南,可能无助于确定一些国家“治理难题”的性质。如孟加拉国六项治理指标得分在过去十年世界范围排行显著低于低收入国家平均水平,其中“腐败控制”指标更是接近透明国际腐败指标末端。⑥如此糟糕的治理质量,却在经济社会发展中有着相对较好的表现。⑦尽管某些发展指标可能没有体现出它们所呈现的发展状况,世界银行也称其在摆脱腐败治理难题的情况下可能表现得更好,但这不能回答为何孟加拉国发展结果比那些拥有“更好”腐败治理指数国家要好。在此,我们认为,WGI治理指标没有体现出孟加拉国一个事实,即该国拥有活跃的民间社会,它不仅提供服务,而且向政府提供问责。WGI也可能忽视了该国日益成熟的媒体,包括扮演监察员角色的地方报刊。同时,由于孟加拉国是一个人口稠密的同质社会,创新能够像野火一样在其中传播。当一个村庄发现某举措有效时,邻近的村庄很快也将发现并加以使用,因此在这里小额信贷等项目能够比在其他地区易于开展且更有效。这种结果也造就了一个腐败治理指标排名靠后,但事实上其发展却令人印象深刻的国家。

这些实例说明,在某一特定国家,WGI这样的治理指标无法解释政府对发展的多层影响。在很多国家正处于发展中的情况下,治理测量对改善国家发展并不那么有用。尽管一些国家治理质量被评价为较低,长期无法摆脱治理难题,但快速增长是当前各国的显著特点。⑧按照WGI的测量,如果某国的治理质量是薄弱的,由此便可推知其持续增长困难,而现实却是许多治理薄弱的国家同样能够长期维持良好的发展。所以,在不考虑一国治理与发展的特定关系情况下直接通过治理指数而得出简单结论,是危险的。研究者和决策者不能单独依靠治理指标本身来设计政策,以回应治理质量问题。

三、治理定量研究的限度与验证:对WGI的理论反思

治理定量研究的现实应用困境,引起越来越多学者的理论反思。虽然WGI提供对国家治理质量认知有用的简单轮廓,但依然存在大量理论问题,研究者和实践者都开始对该指标及其应用产生不同看法。考夫曼等曾对这些理论批评做过归类。一类是关于指标跨国跨时的可比性问题,另一类是专业民意调查或其他特殊数据源所存在的抽样偏差问题,还有一类是不同数据源之间的独立性问题和聚合性指标(Aggregate Indicators)效果问题。这些批评,部分已经由WGI设计者在一些出版物中给以广泛的回应,⑨但基于WGI自身设置特征和现实应用困境,以下不可避免的缺陷并没有因WGI设计者的反驳而消除。

1.使用聚合指标进行跨国比较,难以体现不同国家具体细节的丰富性,并容易出现选择偏差

指标聚类过程包括两个重要的决定性因素。首先是确定“类”(Clusters)的数量,以便最好地运用数据。WGI设计者认为六个不可观测的治理构念最能展示和利用数据,但他们没有回答为什么是六个,若根据不同的不可观测的治理要素来决定合并指标,将使任何估计都变得毫无意义。各自不同的指标经由同一要素来决定,从而进入多元化的类,将导致误差不必要地扩大。其次,聚类算法过程更透明,理论上更自洽,也关系到基础数据能否被WGI六类指标充分反映。然而,在指标设计者给出的解释中,聚类算法过程及相关聚类假设并未得到理论证明,也未得到清晰表达,而只纯粹是设计者的个人理解。

指标设计者考夫曼等人承认,在总结聚合性指标的过程中存在折中。这是为避免过于专注于一国特性,而冲淡WGI相比于其他类似指标的主要特征:跨国可比性,在原则轻于工具的丁伯根传统(Tinbergen Tradition)中,指标设计者强调人们不应期望使治理指标服务于太多目的。但这种聚合性指标失掉了国家治理的丰富细节,如对非正式规则的现实安排指标无法加以综合考量,而一些非正式机制促成的交易的成本并不比正式契约要高,且有时恰是非正式规则在国家治理过程中体现出旺盛活力,特别是在亚非国家。

2.缺乏透明度、过度包装(over-selling)及隐匿偏见(hidden biases)

将多源的、纯粹数字化、不同的指标纳入单一的WGI中,这使其很难被理解。许多数据源的内部次级指标也没公开。WGI指标构建时力求囊括尽可能多的数据,这种做法几乎没有留下什么独立的数据源来进行比较或模型检验。尽管2006年9月世界银行宣布公开出版测量治理水平的31个数据源当中的28个,但公开的也只是聚合源变量,而非基础性的次级指标(聚合基础指标的定义和方法也未公开)。由于无法获得完整的数据,其他研究者就无法批评、改进,无法根据指标对理论进行反复验证。这也是因为WGI过分依赖于专有和保密数据,使商业保密数据源的覆盖面较宽,在WGI中占了很大比重。同时,对入户调查给以较低权重,而对专家评估和商业调查则给以较高权重。

世界银行学院宣传WGI是“治理的有效测量体系”,但容易给人以WGI很好地代表了大众观点这一错误印象。学者霍尔兹纳(Burkhart Holzner)总结道:“知识只意味着一些观察者对经验的现实绘制的图谱,不意味着掌握了现实本身……更加严格地说,我们不得不将知识界定为观察者用象征性的术语来对经验现实的某些方面描绘出的可沟通图谱。”⑩过度包装宣传,并不意味WGI实现对经验现实的准确测量。

此外,WGI将学术工具演化为具有道德立场的指标过于武断,并内含隐匿的偏见。武断和偏见让WGI的现实应用处于不断争论的漩涡之中。如同人们批评国际货币基金组织代表团的数据使用一样——该组织决定什么是“好”数据,使什么数据合法化,而拒绝另外一些数据。WGI数据指标设计中同样存在类似问题。因为“这类指标设立的国际组织坚信,它们的专业知识和专业训练使得自己能够很好地适应推进国际社会进步的目标和抱负。专业知识不仅使得国际组织具有权威性,而且塑造了这些组织的行为方式。专家权威能够使得国际组织通过形成非政治化的外观而变得强大……专家越来越能成功使数字看起来是为自己在说话,并且不需要官方的解释就产生了清楚的政策处方”(11)。这种极度的自信和自负,暗含着商业、政治及主观偏见。

3.缺乏根本的治理理论和有效性概念及系统的假设验证

在科学的研究中,概念若能够被有意义地操作,研究者需要从理论中推导出预设,从而验证操作化定义是否违反预设;若无法预期概念与观测变量之间的关系,也就无法继续验证效度。在对效度进行验证之后,研究者方能对概念给出一个操作化的测量途径选择,叙述概念与观测变量之间的关系。并没有统一、规范的单一概念或理论来区分好的治理或坏的治理。“对于治理涵盖范围缺乏清晰明确的界定,从而留下自由斟酌的发挥空间,使得概念的使用者任意选择和设定参数。”(12)所以,税收、劳工或环境监管什么时候是必需的、可取的,又在什么时候是过分的?这种认知操作的偏差超出了定义范畴,并给测量引入了系统性偏差。考夫曼等人也坦言,“根据治理定义来对指标进行分类,并不具有绝对性。相反,它只是简单地反映了我们的看法,能够把数据一致而合理地组织起来,并且与当前关于治理的主流看法保持一致”。

WGI依赖诸多未经理论论证的假定,可能会让指标变成错误的数据。如六大治理指标中的“法治”这一广泛应用的基本概念,它们却只是用不同的实践表达同样的概念,而民主国家和威权国家都会承认法治的重要性,前者认为法治意味着“国家受到规则约束”,后者认为“公民应当服从政府法令”。如果深究具体细节的话,这些特殊的、别出心裁的解读,隐含了用各自国家意识形态取向的定义来进行测量,将有关治理的共识完全打破。伊娃(Eva)和莫纳(Mona)就曾质疑将西方民主作为政府善治的测度标准,有的国家政府相信它们行为适用于善治的概念,但文化差异却导致与国际标准相冲突,(13)难以在有效共识中实现同一化测量。WGI要测量的概念并未被很好地界定,也不是植根于理论,这样一来,该指标的实用价值就大打折扣,使得其对提高治理质量的具体实践提供的指导不具有现实意义。

另外,WGI模型的构建,通过把来自不同数据源的指标合并为单一源变量,其假定源变量与某个不可观测的治理要素之间存在线性函数,这是模型的关键假定,本质上产生出次级指标的加权平均值。但每个次级指标并不简单是某个不可观测治理要素的函数——如果指标不能测量其对象,那么对其加权平均并不能让概念更有意义。用来估计治理水平的源指标越多,意味着需要的前提假定越多,而且囊括的变量数量越多,模型复杂性和出现设定偏误的风险就越大,甚至导致某些假定一看上去就知道是不可信的。且数据源变量的独立性意味着相关数据源对最终聚类指标的影响存在不确定性。但是,如果来自不同源变量的次级指标存在彼此之间的函数,或是被忽视变量的函数,源变量将会产生相关的误差项。这类设定偏误不仅会扩大WGI的标准误差,或导致某些国家被错误排序,而且会导致遗漏变量偏离率(Omitted Variable Bias),产生参数估计上的不一致性。(14)误差会导致以下情况:当基础数据的抽样发生变化时,估计值也发生变化,使国家排名的年度变化变得毫无意义。

四、治理定量研究前瞻及启示

本文之所以关注治理定量研究,关注WGI,是因为国内外越来越多的第三方在使用它,特别是一些国家或组织依靠WGI作出重要的对外援助决策。既然WGI估计值存在上述诸多理论和现实问题,那么将指标应用到对单个国家的决策上就显得不那么可靠。

本文关于WGI的思考也同样适用于当前的其他治理指标。尽管对测量全球治理水平的需求明显,但这项工作依然处于起步阶段,用法上也不成熟。WGI指标或许并不是好的数据,它们只能为决策者和善治因果关系的研究者提供有限的使用指南,(15)但政策制定者不得不依赖手中可以利用的信息进行决策,因此对不良数据、干扰数据或错误数据的区分还是很有必要。研究者和决策者在采用治理指标之前,应当询问更多更基础性的问题:这些指标测量的是什么,我们又怎么来理解?在没有验证的情况下,根据该指标得出的研究结论,是无法令人信服的。

我们深知现有的治理指标不仅仅存在着上述一些问题,还包括诸如WGI静态结构数据无法反映动态变迁、主客观数据不平衡叠加等问题。这无疑是当前最为突出的问题。未来对国家间比较及单一国家层面治理的定量研究还有很大提升空间,我们希望看到在现有的定量研究基础上出现更高质量的研究成果,重新构建更为合理的新模型,这对于促进研究深化大有裨益。下一代治理指标必须是理论自洽的,效度信度验证变得严格,并向同行评议开放。

感谢北京大学徐湘林、沈明明、燕继荣、金安平、王丽萍等老师的建议。

①J.Lave,The Value of Quantification,in J.Law(ed.),Power,Action and Belief:A New Sociology of Knowledge? London:Callon,Routledge and Kegan Paul,1986,pp.88-111.

②World Bank,World Bank Releases Largest Available Governance Data Source,Washington,D.C.:World Bank,2006.

③指标、源变量和指标归类参见Kaufmann,Daniel,Aart Kraay & Massimo Mastruzzi,Governance Matters V:Aggregate and Individual Governance Indicators for 1996-2005,Washington,D.C.:World Bank,2006.

④D.Kaufmann &A.Kraay,Governance Indicators:Where Are We,Where Should We Be Going? The World Bank Research Observer,Vol.23,No.1,2008,pp.1-30.

⑤资料来源:联合国贸发会议《2005年世界投资报告》和英国经济学家情报社网站。转引自李智彪:《非洲FDI流入的现状与特点》,《海外投资与出口信贷》2006年第6期。

⑥孟加拉国在WGI的“言论和问责”上得分仅为全球水平的30%;在“政府效能”指标上接近指标值的25%。但是在“控制腐败”指标上仅为标准值的5%左右(比率越低,相关治理水平越差)。

⑦如其人均GDP增长率20世纪80年代保持在1.7%(70年代还是负数),90年代则上升到3.1%。这一数字虽低于很多东亚和南亚国家,但好于同期其他低收入国家1.2%的增长率。伴随着经济增长,孟加拉国贫困人口比率从90年代的59%下降到2000年的50%,并保持较低的通货膨胀率,在90年代平均消费价格指数维持在5.1%的水平,低于印度的8.6%和巴基斯坦的9.2%,同时还普及了初等教育,实现了中学教育性别平等,有望到2015年将儿童死亡率减少三分之二(相对于1990年水平)。

⑧A.Berg,Jonathan D.Ostry & J.Zettelmeyer,What Makes Growth Sustained? Paper Presented at the 2006 Annual Congresses of the EEA and LACEA ,2006.

⑨D.Kaufmann,K.Aart & M.Massimo,The Worldwide Governance Indicators:Answering the Critics,World Bank Policy Research Working Paper,No.4149,2007; D.Kaufmann,A.Kraay & M.Mastruzzi,Response to “What do the Worldwide Governance Indicators Measure”,European Journal of Development Research,Vol.22,No.1,2010,pp.55-58.

⑩B.Holzner & J.Marx,Knowledge Affiliation:the Knowledge System in Society,Boston:Allyn and Bacon,1979,p.92.

(11)[美]迈克尔·巴尼特、玛莎·芬尼莫尔:《为世界定规则》,薄燕译,上海人民出版社,2009年,第34~35页。

(12)S.Agere,Promoting Good Governance,London:Commonwealth Secretariat,2000.

(13)E.Poluha & M.Rosendahl,Contesting“Good” Governance:Crosscultural Perspectives on Representation,London:Curzon Press,2002.

(14)抽样规模越大,具备一致性的估计值向总体参数靠拢的可能性就越大,不具备一致性的估计值则否。单纯增加抽样规模,无法保证改善精确度。Jeffrey M.Wooldridge,Introductory Economics:A Modern Approach,N.P.:South-Western,2003.

(15)M.A.Thomas,What Do the Worldwide Governance Indicators Measure,European Journal of Development Research,Vol.22,2010,pp.31-54; L.Langbein & S.Knack,The Worldwide Governance Indicators:Six,One,or None? The Journal of Development Studies,Vol.46,No.2,2010,pp.350-370.

标签:;  ;  ;  ;  

治理量化研究:理论演进与反思--以世界治理指数(WGI)为例_定量研究论文
下载Doc文档

猜你喜欢