随机干预试验——影响评估的前沿方法,本文主要内容关键词为:方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.11820/dlkxjz.2013.06.001
修订日期:2013-06.
1 引言
近年,影响评估已经成为发展类项目或政策设计和执行的重要部分。国际上有很多组织支持科学影响评估新方法的探索并鼓励将其用于相关项目的效果及影响评估,例如贾米尔贫困行动试验室(J-PAL)、贫困行动创新(IPA)组织、世界银行发展影响评估项目(DIME)、国际影响评估基金(3ie),以及由各国政府设立或资助的影响评估机构等。随着政府部门、发展组织和机构对科学影响评估重要性认识的逐步提高,未来类似的研究活动会越来越多,开展影响评估的重要性主要基于如下问题:①有限的资源是如何使用的;②有限资源的利用有没有改善的空间;③是否有必要进一步推广或者增加投入。要回答这3个问题,关键是要评定项目是否有效地达成了预期目标,这就需要进行科学、定量的影响评估。
科学定量地评估发展类项目的影响,在社会科学研究中已经得到广泛重视。研究者在对原来倡导的“监测与评估”在项目实施中所起的重要作用持肯定态度的同时,支持开展更加科学的影响评估。新型影响评估方法的推动者反复强调的一点,就是在开展影响评估时不但要找出哪些发展项目或政策是有效的,还要解释这些发展项目或政策为什么有效或为什么无效。这不是凭借单纯的项目“监测与评估”报告所能解决的。国际影响评估基金也强调:“研究要清楚地说明干预措施(投入)将如何影响最终结果,而且要对从投入到最终结果之间的因果链(假设)进行检验。评估设计应当包含从投入到影响之间整个因果关系链的分析。”(White,2009)
基于以上背景,本文将介绍如何利用科学影响评估的前沿方法——随机干预试验(Randomized Controlled Trials,RCTs)进行影响评估。文章第2部分概述了常用的2类影响评估方法,并强调了采用RCTs的必要性;第3部分介绍RCTs的基本设计和操作步骤;第4部分以典型案例的形式介绍RCTs在中国影响评估实践中的应用;第5部分对当前还存在的问题及未来的应用前景进行讨论。
2 影响评估方法概述
2.1 影响评估的核心问题
影响评估的核心问题是归因。影响是指政策(或者干预)的作用对象与它在未接受政策(或干预)的情况下在结果上的差别。同时,影响程度的大小也随时间变化而改变(图1)。影响评估就是要在控制其他因素作用的情况下,分解出哪些影响和变化是由于某项(组)因素干预所引起的。此类归因要借助于反事实分析,或者说找到一组有说服力的对照组(不接受干预,也称控制组)用来与干预组(接受干预,也称处理组)进行对比,影响评估的难点也在于此(White,2009)。那么反事实对照组从哪里来呢?最理想化的方案是,对于同一个接受项目干预的主体,比较其在某一时点接受项目干预与不接受项目干预之间的结果差异。但这在现实中不可行,因为我们不能既看到主体接受项目干预后的结果变化,同时又让其回到干预前的原点重新开始发展,得到该主体未接受干预的结果变化,再比较这两个变化的差异(这就是影响)。如果只是比较此主体在接受干预前后的差异,则通常不能得到可靠的结果,因为其中有一个非常关键的假设,即与结果变量相关的其他任何因素在干预时期内不能发生变化,但是现实中这一假设可能不成立(Duflo et al.2007)。有鉴于此,我们可以设法将1组接受干预的人群与1组与之类似(统计意义上)但未接受干预的人群进行对比,以此来评估项目或政策的真实影响。
图1 事实与反事实(White,2009)
Fig.1 Factual and counterfactual(White,2009)
2.2 影响评估的2类主要方法
2.2.1 2类方法主要特点
影响评估的方法很多,最常见的可以分为以下2类:①传统经济学经常采用的非试验性的或者拟试验的评估方法,如事前事后评估比较法、倍差分析法、匹配法、工具变量法、断点回归法;②随机干预试验(RCTs)法,也叫做社会试验、随机分配研究等,这类方法使用的前提是可以对干预对象进行随机分配,在合格目标群体中随机分配其中的一部分对其实施干预,另外部分则作为对照组,不实施任何干预。
以上两类方法的主要特点以及应用时所需的基本条件和环境等详见表l。从表l中可以看出,每种方法都有其关键假设条件,如果在应用中这些假设无法满足或不成立,那么采用该方法估算的影响就是有偏差的,以此得出的评估建议也会是不准确的。两类方法在作者研究团队“农村教育行动计划(Rural Education Action Program,REAP)”①开展的影响评估研究中都有应用,但采用RCTs方法的占大多数。
2.2.2 RCTs方法的优点与适用范围
在各类影响评估方法中,RCTs方法被认为是影响评估的“黄金准则”(Guo et al,2010)。RCTs最早用于对医疗卫生服务中的某种疗法或药物的效果进行检测和评估,后常用于医学、药学、护理学等自然科学研究,近年来在农业经济、教育等社会科学领域得到越来越多的应用,如农业推广服务、公共健康和教育项目等。
RCTs可以解决一般影响评估中的选择误差问题,而后者是导致评估结果不准确的核心因素。例如,在评估就业培训对就业机会的影响时,如采用报名参加培训与不参加培训的人进行比较,就可能会出现选择误差,因为比较的往往不是同一类型的人——如果报名是自愿的而非随机分配的,那么主动报名的人的求职愿望可能高于不参加培训的人,无论他们参加培训与否,其获得工作的可能性都会高于不愿意参加培训的人,这样不对称的对比结果就不能反映培训的真实效果。只有将培训的机会随机分配给一组人,再将其与随机分配且特性相似的另一组没有接受培训的人比较,得到的比较结果才反映真实的培训效果。
因此,相对于第一类影响评估方法而言,由于干预组和对照组在干预前没有系统差异,RCTs方法能够将两个组在项目实施之后的差异归因于干预,而不是其他因素,从而能得出与项目“净”影响效应最接近的估计值。
需要强调的是,并不是所有项目的影响评估都能通过RCTs方法来实现(Duflo et al,2007),例如涉及政治问题、民族问题、尤其是伦理道德等方面的问题时。具体采用什么样的评估方法取决于研究的假设、参照对象的可获得性、数据的可获得性和项目的成本预算。总之,在实际研究中,必须在综合考虑这些因素后再选择合适的评价方法。
除了评估项目干预的影响程度以外,对影响如何产生这一过程的理解同样重要。“基于理论的影响评估”(Theory-based impact evaluation,TBIE)利用相关理论,强调通过对干预措施和评估结果之间的因果关系链的探索,旨在检验反映投入与最终结果和影响间的因果关系的假设(Weiss,1998; Carvalho et al,2004)。该方法对项目或政策的改进和扩展具有重要意义。但是,此方法并非创新之举,长期以来,一些准试验方法的实践者也尝试利用相关理论解释其研究成果,并且基于理论的方法适用于任何案例(Rogers,2009)。
3 RCTs的试验设计和操作步骤
3.1 RCTs的试验设计
采用RCTs方法进行影响评估,首先要考虑的问题是如何设计试验。试验设计过程中涉及的具体问题包括:
(1)建立干预与结果变量之间的因果链,探索合适的干预措施。研究者需要确认干预措施与结果变量之间存在明确的因果关系。例如,如一个项目的目的是减少儿童缺铁性贫血,那么干预措施就应该是补充铁元素,而不是补充蛋白质;而结果变量的选取也取决于干预时间的长短,短期影响的结果变量只能用儿童体质指数(BMI)、贫血水平等指标,但中长期的指标就可以是学生的学业表现、工资收入等。
(2)明确干预的单位。干预的单位可以是个人、农户、社区等,根据项目的总体目标和干预措施的性质决定。例如,如一个项目旨在研究服用驱虫药对减少儿童肠道寄生虫感染率的影响,那么研究者在设计干预时就要考虑到肠道寄生虫在儿童间的交叉感染可能会影响到最终结果,最好选择以社区或学校为单位进行干预,而不是以儿童个人为单位进行干预。
(3)随机选择的方法。可选择的方法包括摇奖法、轮流干预法和逐步推进法等。在RCTs执行过程中,如采用摇奖法,只对部分参与者进行干预,考虑到对照组的参与者可能会因不能受益而不愿意参与该项目,在实施项目时可采用逐步推进法,开始只对干预组进行干预,过一段时间后再对对照组进行干预。
(4)识别可能影响到项目设计的因素,常见的包括项目是否存在溢出效应和交叉效应。例如,如果要评估营养知识培训对提高婴幼儿健康水平的影响,研究者就要考虑如在一个村内既有干预组的婴幼儿,又有对照组的婴幼儿,那么干预组的婴幼儿家长就可能将培训信息传递给对照组家长,产生交叉效应。
(5)样本选择和样本规模。确定RCTs样本的规模十分重要,规模的大小要具有足够的“势”(power),确保能够识别出干预的影响(或者在备选假设为真的条件下具有80%以上的概率拒绝虚拟假设)。因此样本量的多少通常取决于干预类型的数量、置信水平、检验的“势”、干预单位组内相关性、预期影响的大小等(Spybrook et al,2008)。采用RCTs方法进行影响评估时,最不希望看到的结果是:由于样本量过少,使得从理论上来说应该有效的干预手段,却未能在评估结果中显出效果。
3.2 RCTs的操作步骤
设计好RCTs方案后,研究人员就可以通过“三部曲”(基线调查、干预试验和评估调查)来展开试验。
3.2.1 RCTs“三部曲”简介
(1)开展基线调查(Baseline Survey)。在项目干预之前,需要通过基线调查来掌握项目参与者的基本信息,其核心是收集主要结果变量以及可能影响结果变量的控制变量信息。这一阶段要做的工作包括设计调研方案、开展预调查、完善调查表等。调查问卷设计要涵盖因果关系链中的各种因素,通过调研取得相应的资料,对RCTs提供数据支撑。
(2)开展干预试验。基于随机分配原则,将所有样本按照预定的干预方案分成不同的干预组和对照组,并在干预过程中进行实时监测,确保因果关系链中的因素得到控制,避免因果链断裂。例如,并不是所有受邀参加婴幼儿营养知识培训的家长都会实际参加培训,即可能出现违约者;由于那些愿意参与项目的样本和那些被选中而不肯参与项目的样本本身就存在一些特定的差异,这就需要随时进行记录并在最后分析时进行区分。
(3)评估调查。当干预实施达到预定时间点后,开展第三步工作,即评估调查。评估调查不仅是重复基线调查的所有内容,同时还要附加定性访谈,深入理解干预因果链。评估调查可以根据项目干预的性质不同而重复多次,以便区分不同时间段项目干预的效果及其变化。评估时最常遇到的问题就是样本流失,即基线调查的样本未被追踪到。如干预组和对照组的流失样本存在系统差异,那么仅利用追踪到的样本进行影响评估就会出现偏差。
3.2.2 RCTs操作步骤和结果分析实例
下面以“消除小学生贫血、提高学业成绩”项目为例,第一步基线调查是对学生进行贫血检查和标准化数学测试;第二步展开干预,给干预组的学生提供含铁的维生素片;第三步评估调查,再次对学生进行贫血检查和标准化数学测试,评估学生在服用含铁维生素片后贫血率是否降低;如果降低,学生的学习成绩是否相应提高(图2)。
在所有的干预和调查工作完成之后,便可以对RCTs结果进行分析。利用事前和事后2期数据、干预和对照2组分类,通过倍差分析就可以达到目的。图3将消除学生贫血、提高学业成绩项目的结果直观地加以表达。
由图3可以看到项目干预的影响:通过给学生提供维生素,干预组学生相比对照组学生血红蛋白水平提高了3g/l,贫血率下降了20%以上,数学标准化考试成绩提高了0.3个标准差。这些结果可以很好地说明提供含铁的维生素片对消除小学生贫血和提高学业成绩的影响。
另外,为了验证结果的稳健性,经济学家往往还会运用计量模型来分析干预影响的统计显著性。利用试验设计的干预组和对照组2期面板数据,在倍差分析法框架下,初步模型设计如下:
图2 随机干预试验“三部曲”
Fig.2 "Three Steps" of conducting RCTs
图3 含铁维生素片对学生健康和学业的影响
Fig.3 Impact of multivitamin on students' anemia and school performance
需要强调的是,RCTs并不只是研究者独立完成一种实施方案。研究者除自己设计RCTs外,还可与政府部门、非政府组织等一起合作,将RCTs的设计融于政策和项目的设计。REAP计划在这方面已经有许多成功的案例(Boswell et al,2011)。但有3点需要注意:①干预活动前要有基线调查。对干预已经结束的项目进行评估时,由于缺少基线数据,就不能采用RCTs的方法。②RCTs的设计必须科学。例如,在REAP计划实施中,项目组也经常收到对某一个或两个项目点进行影响评估的邀请,但通常这些项目样本量过小,且干预已经完成,由于无法保证RCTs的科学性而难以操作;③在使用RCTs方法开展影响评估前,需要与利益相关者(如政府部门)进行沟通并取得其支持和配合,这不仅有利于项目工作的顺利开展、项目标准的严格执行,也有利于项目的后期推广。
在社会科学领域中应用RCTs来开展影响评估面临的最大挑战是无法像自然科学那样精确控制环境条件。在开展RCTs过程中,最常遇到的挑战来自以下4个方面:①干预者的干预信息被对照组得知并对其也产生影响的交叉感染,这点在干预设计时可尽量考虑避免;②由于政策或其他因素突然变化,导致样本的外部环境发生变化造成的外部污染,需要在干预过程中随时监测和记录;③有些干预对象采取的行动没有遵守规定的干预方式,这只有在评估调查中才可能被发现;④由于某些个人或环境因素导致干预对象离开了干预地或干预区域而无法继续所导致的样本流失。以上4点均会影响到项目干预的效果。在评估过程中,要注意尽量收集这些方面的相关信息,并在项目结束后以此帮助解释项目为何有效或无效。
4 RCTs在中国应用的典型案例
对那些大部分时间在办公室或实验室进行研究工作的人来说,开展RCTs是富有挑战性的。不同于实验室试验中研究者可以精确控制各类环境条件(温度、光线、湿度等),社会科学领域内的RCTs需要在社会中开展,参与的主体是人,要干预的是人的行为,因而使得研究者在许多方面需要面对与自然科学试验不一样的挑战。
在过去5-6年中,本着缩小城乡人力资本差距,探索有效提升贫困地区教育水平途径的目的,REAP在中国西北贫困农村地区开展了30多项RCTs。本文以项目组在西北农村开展的关于婴幼儿营养健康和教育的影响评估项目为例,介绍RCT方法的实证应用。
4.1 问题的提出
婴幼儿贫血等营养不良疾病在贫困地区非常普遍,其危害也十分严重。研究显示,婴幼儿阶段是个体生理和心理发育最迅速的关键期,如婴幼儿在0~3岁时营养不良,不仅严重影响其当前身心健康,更会对其未来的身体发育和智力发展带来持久的伤害,甚至会影响他们成年后的受教育水平、健康状况和工作能力。有研究指出,给营养不良的婴幼儿提供微量营养素等营养补充品的投资回报率高达35倍。在如何帮助贫困人群的最优先投资战略选择中,8名经济学家(其中5名是诺贝尔经济学奖获得者)一致认为,给贫困儿童补充微量元素是最有效且成本收益最显著的方式。
尽管为贫困地区婴幼儿提供均衡营养,对于促进婴幼儿身心健康发育有非常重要的作用,但在中国贫困农村地区,有效改善婴幼儿营养存在很大困难,主要原因有:①贫困农村家庭由于收入原因,难以负担通过日常膳食给婴幼儿提供均衡营养的巨额支出(如购买配方奶粉每月需要几百元)。②贫困农村地区婴幼儿监护人(父母或祖父母)缺乏科学的婴幼儿养育知识和信息。③婴幼儿营养主要由家庭负责,没有一个政府机构或组织专门为贫困农村地区婴幼儿营养提供服务。④即使统一为婴幼儿营养提供服务,由于贫困农村地区婴幼儿居住分散,也难以有效地开展服务。
针对上述现象和问题,探讨如何减少和消除贫困农村地区婴幼儿营养不良,从源头上提高中国人口素质是非常必要也是具有战略意义的。借鉴国内外的经验,以提供微量营养素补充品为主,结合婴幼儿营养知识培训,是最为直接和可行的方案。因此,本项目针对贫困农村的婴幼儿营养不良问题,以婴幼儿监护人(父母或祖父母)作为干预对象,探寻用较低成本解决贫困农村地区婴幼儿营养不良问题的可行途径。
4.2 项目设计
本项目主要聚焦于向贫困农村婴幼儿提供微量营养素补充品的可行办法,希望通过项目的实施和经验的总结,推动政府将学龄儿童的营养改善计划扩展到婴幼儿阶段,避免微量营养素缺乏对贫困农村婴幼儿未来成长和发展带来长期性伤害,以利于提高人口素质,加快中国从人口大国向人口强国的目标转变。
为达到上述目标,在借鉴国内外婴幼儿营养改善项目实施的做法和经验,模拟未来国家推动婴幼儿营养改善的可能方式后,本项目设计了2种不同类型的婴幼儿营养干预模式:①免费营养包干预组,免费提供婴幼儿营养包(补充微量营养素),并给家长进行营养知识培训;②免费营养包+短信干预组,在为家长进行营养知识培训并提供婴幼儿营养包的基础上,每天向家长发送1条提醒服用营养包的短信,并根据营养包的发放情况给予当地有关人员一定的激励。第3组则没有任何干预,作为对照组。
根据计算,如果初次调查能够保障每个村有5个左右6~12个月的婴幼儿,同时假设免费营养包干预组的干预效果为0.2个标准差(也就是说干预之后的影响是干预组的贫血水平比对照组提高0.2个标准差),免费营养包+短信干预组的干预效果为0.4个标准差,结果变量的组内相关系数为0.1,基线调查结果变量能解释干预后结果变量的50%,在5%的显著水平下,要使检验的“势”达到0.8,本项目的样本总体规模就需要300个行政村。为避免交叉效应,本项目仅在1个乡镇抽取1个村庄,通过空间距离将干预组和对照组相隔开。
4.3 项目干预的因果链
本项目试验中涉及的主要因果关系链如表2所示。
基于项目特点,选取项目开始时年龄为6~12个月的婴幼儿进行研究,项目干预时间为2年,因此要分阶段来开展基线和评估调查:①在第1次开展基线调查时,将村里所有6~12个月的婴幼儿均纳入到项目中。②完成基线调查以后,对干预组开始干预。在项目干预时对6~12月龄的婴幼儿家长进行婴幼儿营养和健康信息培训,同时对婴幼儿开展为期2年的免费营养包干预和免费营养包+短信提醒干预活动。③6个月以后,去相同的村开展第一次评估调查,对干预时间达到6个月的12~18个月的儿童进行影响评估。这样循序渐进,直到项目结束。
通过本项目的实施,项目组可以了解中国贫困农村地区6~30月龄婴幼儿的营养不良情况(特别是贫血情况)和智力发育情况,相关人员对婴幼儿营养知识及如何克服婴幼儿营养不良知识的了解程度,不同的婴幼儿营养包提供方式对婴幼儿父母的喂养行为、婴幼儿营养水平(身高、体重和血红蛋白水平)、健康状况(生病次数和医药花费)和能力(认知等)发展等方面的影响,对不同性别、民族和年龄群体的影响是否存在差异,上述不同提供方式的成本收益情况等信息。项目期满后,还可以进行长期跟踪,了解婴幼儿营养干预对未来成长和发展的长期影响。
在项目实施过程中,我们也会遇到前面提到的4个挑战:①在项目设计时,为了防止交叉感染,只在1个乡选1个村,通过距离来阻断信息交流,但当乡与乡之间发生人员流动时(如干部参观)还有可能导致信息泄露而产生交叉感染。②项目的实施期至少为2年,如果当地政府在此期间采取与项目组相似的措施,如免费给本县所有婴幼儿发放营养包,就会产生所谓外部污染,造成全县的样本不能使用。③某些经济条件困难的家庭,因为父母或看护人家务或工作繁忙,即使获得了免费的营养包,也没有及时喂给孩子,造成不遵守规则的问题。④某样本户试验中途因外出打工而举家搬迁,导致营养包无法送达,也无法跟踪,这样的样本就属于流失样本。所有这些因素,在设计干预方案时均应有所考虑。
本项目尚在进行之中,干预试验已开展3个月,计划在干预6个月之后开展第一次评估调查,届时会收集婴幼儿营养健康方面的信息(身高、体重、血红蛋白水平、是否生病等),并进行能力(认知等)发展等方面测试;然后将这些信息与基线调查数据进行比较,就可以评价干预是否有效,其影响程度如何。
5 讨论
尽管RCTs被认为是影响评估的“黄金准则”,但国际上对采用RCTs进行影响评估还存在一些争议(Banerjee et al,2009),对其局限性也有所认识,如干预措施具有环境依赖,难以在不同环境下复制或推广;由于干预而产生的霍桑效应(即由于参与试验本身而非干预对参与者产生了影响);一些随机分配的干预对象可能不接受干预;RCTs方法中存在均衡效应(与小范围的干预不同,如果干预在大范围内实施时,干预会影响市场的供给或需求,从而对市场均衡产生影响);RCTs影响的异质性问题(批评者认为,随机控制试验报告对影响作平均处理,但实际上干预对不同群体的影响可能是有差异的)等。
以Heckman等(1999)对给贫困女童教育券使其能够上学的研究为例,如果试验证明教育券能使更多的贫困女童受更多的教育,那么当它在更大范围(如全国)内推广时,可能会面临两种挑战:①学校因此变得过于拥挤;②教育的回报率可能因为接受高等教育的人增加而下降。这两种挑战都可能导致RCTs对教育券项目在现实中的真实回报率产生高估。
作为经济学的一个新兴领域,严格科学的影响评估越来越广泛地被应用于经济研究、政府决策、项目管理、管理咨询等领域。与传统非试验性影响评估方法相比,RCTs通过利用随机分配,使干预组和对照组在结果上的差异可以完全归因于干预,由此可以得到与项目“净”影响效应最为接近的估计值。进一步借助于因果链分析,RCTs可以帮助研究者和政策决策者打开影响评估的“黑匣子”,理解项目或政策的作用机理,从而寻找到项目或政策成功与失败的源头,为未来进一步完善设计、改进决策奠定基础。
因此,我们认为中国的研究者和政策决策者应当更多地将RCTs的影响评估方法运用到项目或政策的试点中,科学地、定量地评估项目或政策的影响,认真分析影响产生的路径,进行“以事实为基础”的决策。
致谢:张林秀团队的成员易红梅、战雪峰、杨恩艳、罗仁福、刘承芳对本文亦有贡献,在此一并感谢。
①REAP是一个由多家中外研究与教育机构联合发起的行动研究团队,以开展和倡导科学影响评估为主要手段,专门为农村教育中的问题寻找和探索解决方案。其核心发起单位有中国科学院中国农业政策研究中心、斯坦福大学Freeman Spogli国际问题研究所、西北大学社会经济发展研究中心,同时REAP还与国际、国内很多其他研究与教育组织、政府部门以及企业社会主任部门合作。其目标是为中国教育、健康和营养支持制定提供决策依据,帮助中国落后地区的学生获得优质教育,促进人力资本积累,帮助他们摆脱贫困,推动中国经济的可持续增长。REAP目前有3个主要的研究领域:营养健康和学生身心健康、信息技术与人力资本形成、防止学生辍学的助学计划和职业生涯教育。