教育政策定量评估方法中的因果推断模型以及混合方法的启示,本文主要内容关键词为:方法论文,推断论文,定量论文,因果论文,启示论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G40-034 文献标识码:A 文章编号:1001-4519(2013)03-0029-12
一、引言
近十年来,随着国家“科学发展观”在教育政策制定领域的不断深化,随着教育领域可用于研究的数据库不断增加,我国教育政策评估类的定量研究从数量和质量上都在迅速提高。一个科学的、对纳税人负责的教育政策的制定和实施应该由以下几个环节构成:政策设计、论证、制定、实施、评估、改进。由于教育问题错综复杂、教育资源投入巨大,而且教育政策和改革直接影响到学生和家庭的前途命运、乃至国家人才培养的目标,因此,制定和实施有效的教育政策至关重要。而准确评估政策的效果则是实现这一目标的技术关键。
政策评估方法包括定量研究方法和质性研究方法。国际上整个社会科学的发展趋势越来越青睐定量研究方法,国内教育政策分析类研究也越来越偏爱实证研究。这一方面说明了不论是政策制定者还是教育研究者都希望用更加科学、严谨的方式制定和评估教育政策;但另一方面,现有的定量研究存在很多局限,部分定量研究类文章在研究设计、研究规范性以及定量研究的局限认识不足。本文尝试概括性地介绍国际主流教育政策定量研究方法,并探讨混合式教育政策评估方法的优势,希望对教育政策评估有一定借鉴意义。
本文将首先界定教育政策评估的概念以及本文所讨论的定量研究方法的范围,随后简要介绍美国近几十年教育政策定量研究方法的发展历程。文章的主体有两部分:(1)对定量研究方法中的因果推断模型的介绍;(2)对定量研究方法的局限的讨论以及对混合式教育政策评估方法的讨论。
二、讨论范围的界定和背景
教育政策和改革(下文统称为政策)的目标基本上都是为了提高教育质量和教育公平。教育政策评估包括对不同阶段(小学、中学、高等教育等)的教育政策实施效果的评估。每一项教育政策的出台,都有其期望实现的目标(即提高某项教育产出,比如学生某科成绩、某项能力、升学率、就业率,教师质量等)。政策评估的目的就是通过科学的研究设计,把某项政策的效果识别出来。其结论主要有两类:(1)该政策对相应的期望产出到底有没有显著影响?(2)如果有,那么这个影响是正向还是负向、影响大小如何?转换成定量研究的术语,就是某项教育政策的实施和目标教育产出的变化是否有因果关系(该项教育政策是否是导致目标教育产出变化的原因,还是另有他因)?这里需要强调的一点是,只有因果关系才能为教育政策制定和评估提供可靠的依据,相关关系则不能说明问题。因此,本文主要讨论教育政策评估定量研究方法中的因果推断模型。
因果推断模型不仅仅是国际主流教育政策评估的定量研究方法,也是公共财政、劳动力经济学等多个社会科学领域所主要采用的实证研究方法。因果推断法首先在实证经济学中发展,随着教育理论的发展和高质量教育研究数据的增加,因果推断法也逐渐被引入教育政策评估。以美国为例,自从1966年科尔曼报告①对美国教育现状敲响警钟以来,美国政府、学校以及学术界都在积极寻求提高教育质量和教育公平的方法。上至联邦政府,下至州政府、各学区纷纷开展各类教育实验、改革和资助项目。而且各项教育政策、改革项目等都要接受学术界的跟踪效果评估。这一方面是为了满足政府问责制的要求,另一方面也是为了根据实际效果改进下一步财政拨款的分配方案。例如美国的教育券,特许学校(Charter School),STAR②项目,大规模的大学生资助(例如Pell Grant,State Merit Aid),以及墨西哥的有条件的现金转移支付③(Conditional Cash Transfer)等。可以说,迫于国家人才培养的需要以及来自公众监督的压力,把教育财政拨款用于最有效果、有效率的改革和政策上,已经成为公认的价值取向和评判标准(当然,提高教育公平也是很重要的一条标准)。
然而,在我国的教育定量研究中,这些方法鲜被使用。其中一个重要因素是数据的不可获得。从文献中可以看到,很多国家从联邦政府到地方政府、甚至到学校都进行了很多由政府主导并资助的、由学者参与设计和评估的教育实验和教育改革,这些实验和改革在一开始就考虑了实验的研究设计,并注意在整个过程中跟踪搜集数据。有的实验会持续很多年,这也保证了研究者有足够的时间序列数据来识别干预效应。而且,这些数据是对大部分学术研究者开放的,并鼓励学者们应用这些数据去研究现实问题。但在中国,尽管我们有很多的教育改革和教育实验,但这些干预在设计和实施过程中没有考虑到后续评估所需要的研究设计和数据需求。即便有一部分管理数据,这些数据也不对学术界公开。因此,如果政府和相关机构作为公共服务的提供方,能够本着科学的精神,使得政策的执行过程中的数据搜集常态化,并鼓励广大定量研究者应用数据做出严谨的分析,则不仅教育研究的水平会得到大幅度提高,也为后续的政策和项目改进提供科学的依据。
三、因果推断模型
因果推断模型是基于传统的计量经济学(尤其是最小二乘法和工具变量法)发展起来的一套基于实验理念的定量研究方法。国际上已经有一系列系统总结因果推断模型的论文和著作④。因此本文的重点在于介绍,而非系统论述。
教育政策评估中最常见到的问题就是内生解释变量和自选择问题。例如,如果我们想研究大学质量对大学毕业生工资的影响,我们会估算大学毕业生工资对大学质量这个变量的回归系数,即大学质量的变化是否能解释大学毕业生工资变化。但OLS假设所有自变量(包括大学质量)必须是外生的,即所研究系统之外的因素决定的。但事实上大学质量往往是由高考择校过程决定的,即由学生能力、高考成绩、家庭背景、学校偏好等变量决定的。如果由于缺失变量问题,其中的若干个变量在残差项中,大学质量就成为内生解释变量。这时候用OLS估计的大学质量的系数是有偏的,我们很难讲高质量大学的毕业生工资高到底是因为学生本身能力强、家庭背景好,还是因为优质的大学教育。因此,因果推断法的主要思路就是寻找能帮助我们识别因果关系的外生的变化(External Variation)。为实现这个目的而进行的研究设计也被称为识别策略(Identification Strategy),即识别出外生变化以估算因果效应(Causal Effect)。
Angrist & Pischke在书中第一章就提出了应用定量研究方法成功做出因果推断所必须回答的四个问题:(1)你所感兴趣的因果关系是什么?(2)如果设计一个理想的实验来识别这个因果关系,这个实验应该如何设计?(3)你的识别策略是什么?(4)你的统计推断模式是什么?本文也建议研究者在做研究设计或者评估其他研究时都尝试回答这四个问题。下面将分别介绍几类常用的因果推断模型。
1.随机试验(Random Experiment⑤)
随机试验可以说是因果推断模型中的黄金原则。随机试验以外的其他方法,其实都是在模拟随机试验的条件。因此,我们首先讨论随机试验模型。在后续讨论中,我们把教育政策、改革或者项目统称为干预(Intervention)⑥。当我们想评估一个干预到底有没有效果时,有一个根本性的、无法解决的难题就是数据缺失问题。因为教育研究不同于自然科学实验,可以找到两个完全一样的被试(比如:成分完全一样的两份试剂)。在教育研究中,每一个被试都具有独特性,对干预的反应都会不一样。严格地讲,如果我们想识别一个干预的效果,应该看同一个被试在接受干预和不接受干预这两种情况下产出的差别。但是由于教育过程具有不可逆的特点,我们不可能让一个学生既接受干预、又不接受干预。例如,如果我们想研究公立小学和私立小学哪个对提高学生成绩更有效,我们不可能让一个学生先去公立小学上完六年后,再退回到6岁、重新在私立小学读六年,然后比较这两种教育的差别。
为了后续模型讨论的方便,我们先设定模型。假定:
换言之,我们可以寻找两组人,这两组人在重要特征(例如:性别、年龄、家庭背景等)上的平均值是一样的(用于模拟同一个人)。我们可以同时让一组人接受干预(称为实验组),另一组人不接受干预(称为对照组)。这样,如果两组人在统计上是可比的(Identical),那么干预结束后,实验组和对照组在教育产出均值上的差距就应该是干预造成的。严格的数学推导如下:
其中δ即为干预效应,其估算值和标准差都和相等。即和均值比较及t检验结果相同。但回归方程的优势在于,我们可以根据已有理论,在等式右边加入控制变量,使得估计值的标准差减小,从而提高估算的精确度,提高统计推断力⑧(Statistical Power⑨),并提高模型的拟合优度(Goodness of Fit)。控制变量必须满足三个要求:(1)在理论上确实是对产出变量Y有因果关系的影响因素、且方程形式是线性;(2)根据理论和实际情况,控制变量必须是外生解释变量,即与残差项不相关;(3)控制变量必须在随机分组之前产生,因为随机分组之后产生的变量很可能是随机分组及试验干预产生的,从而有因果倒置的危险。新的方程形式如下:
随机试验法是社会科学从自然科学的定量研究方法中借鉴的,在因果推断法中被认为是黄金标准。但是随机试验法在实施过程中往往会出现很多问题,使得最终的效果并不是真正的随机试验。下面我们简单讨论几个常见的问题。首先,试验参与者可能根据个人的意愿、违背随机分组结果,选择另一个组(Crossovers)。比如,我们在某小学进行一个随机试验,考察某种教学方式是否能更好的提高教学质量。有的学生被随机分配到实验组,有的学生被随机分配到对照组。但学生家长听说这个实验后,可能会不同意现有的分组结果。有的学生被分到对照组,但其家长可能觉得不能错过这个实验机会,因此找校长和班主任争取让自己的孩子进入实验组。有的学生被分到实验组,但其家长可能觉得这个实验对自己的孩子不合适,因此会找校长和班主任争取让自己的孩子进入对照组。这种重新选择的行为往往和家长的个人特征有关(家庭背景、对学生的关心程度等),而这些个人特征往往对学生的成绩是有影响的。因此,这样导致的最终分组结果实际上受到了家长的影响,使得分组结果不是真正的随机分配,两组学生在基本特征上也并不相同。这种情况可以通过工具变量法(Instrumental Variable,IV)来解决。
其次,实验组的学生可能与对照组的学生私下交流他们接受干预的收获和感受,或者他们在其他场合(比如其他课堂)上的表现间接影响了对照组学生,从而产生溢出效应(Spillover Effect)。如果这种情况发生,即便对照组的学生没有接受干预,但依然受到了干预的影响。这时候两组学生的差异比真正的干预效应要小。
再次,随机试验的一个暗含假设是实验组和对照组的成员不会因为参与这个随机试验课题而对其行为和产出产生影响,但现实中往往不是这样。参与者因为参与实验本身而产生的行为上的变化叫做霍桑效应(Hawthorne Effect)。其中,对照组的成员可能因为自己在对照组而更加努力学习,以证明自己即便在对照组,也会表现很好,这就叫做约翰亨利效应(John Henry Effect)。如果这种情况发生,我们的估计值比真正的干预效应要小。
上述这些问题都会影响随机试验法的内部效度(Internal Validity),即研究设计是否能从逻辑上保证其结果的可靠性。此外,由于随机试验往往只是针对一个较小的样本进行分析(例如:在一个学校内、一个学区内或者某个年级内),因此其样本很难代表更广大的群体(例如:全国小学生)。这就使得随机试验法的外部效度(External Validity)受到影响,即无法把随机试验结论推广到更广大的群体。此外,随机试验的实施成本非常高,需要政府、学校、家长的支持和配合,且会涉及研究伦理问题,这种方法在教育政策评估中并不是经常使用,而是作为研究设计的标准。已发表的教育研究中使用随机试验法的有Krueger⑩、Stem(11)、Lee(12)、Banerjee等(13)。
2.自然试验和双重差分法(Natural Experiment and Difference-in-differences)
由于随机试验法在实施过程中往往很难实现真正的随机分配,而且家长和学校也不一定会支持这样的试验,研究者会寻找自然发生的试验或者用现有的观察数据(Observational Data,区别于实验数据,即实验过程中采集的数据)构造试验条件。前一种情况被称为自然实验,采用的估计方法是双重差分法。后一种情况被称为准实验(Quasi-experiment),包括断点回归(Regression Discontinuity),倾向分数配对法(Propensity Score Matching)等。
自然实验所需要的外部变化来自于不受人为控制的大事件的发生,使得被研究对象被迫的被随机分成实验组和对照组。比如自然灾害导致政策的变化,使得一部分人受到影响,而另一部分人没有受到影响;或者某项政策/法案在一个地区实施,但没有在另一个类似的地区实施。我们仍然把这个事件称为干预,把受到干预影响的人群称为实验组,把没有受到干预影响的人群称为对照组。如果已有的观察数据在干预前后、对实验组和对照组都有记录,那么我们就可以用双重差分法估计干预效应。
双重差分法的关键假设是实验组与对照组的时间效应一样。这个假设只有通过足够长的时间序列数据才能检验。需要指出的一点是,即使干预发生之前两组时间序列一致,也不能保证干预发生后两组时间序列是一致的。有可能在干预发生的同时在实验组或者对照组中又发生了其他影响产出的事件,则干预发生后两组的时间趋势是不一致的。简单的双重差分估计是有偏的。如图3所示,如果对照组是虚线所示,则双重差分估计是无偏的。但如果对照组是上方的实线,则双重差分估计法是有偏的,偏差部分是在时刻,该实线与虚线之间的距离。
解决这个问题有两个思路:第一个是寻找更多的对照组,把多个对照组加权构造成一个虚拟的对照组,使得虽然每个对照组都与实验组的时间趋势不一样,但加权后的虚拟对照组的时间趋势与实验组的一样。这个方法被称作综合控制法(Synthetic Control Method)。Abadie & Gardeazabal(2003)(14)用这个方法研究了恐怖冲突对经济发展的影响。
解决这个问题的第二个思路是估算出这个因为时间趋势不同而带来的偏差,然后从双重差分结果中减去这个偏差即可。这被称作三重差分法(Difference-in-differences-in-differences,DDD)。三重差分法的思路是,既然两个地区(分别指实验组和对照组)的时间趋势不一样,那么我们可以分别在两个地区寻找一个没有受到干预影响的人群/行业,通过对这两组的双重差分估算出时间趋势的差异,然后再从原来实验组和对照组的双重差分估算值中减去这个时间趋势差异。Gruber(15)就使用了这种方法。由于篇幅所限,本文不再对上述方法以及其他双重差分法的延伸模型进行探讨。
图3 时间趋势差异造成的估计偏差
3.断点回归(Regression Discontinuity)
断点回归是一种准实验设计。如果政策在一个关于个人背景的连续的变量(例如考试成绩、家庭人均收入等)上设定一个临界值(Cutoff/Threshold),使得在临界值一侧的个体接受政策干预,而在临界值另一侧的个体不接受干预,则在临界值附近就构成了一个准实验。我们把这个决定了是否接受干预的连续变量叫做强制变量(Forcing Variable),由于强制变量是连续的,所以在临界值两侧的个体应该是类似的、可比的,则这两侧的个体在产出上的差异就应该是干预造成的差异。
当个体是否接受政策干预由强制变量值与临界值之间的关系决定时,我们可以用如下数学表达式:
现在假设设立了奖学金,且只有成绩高于一个临界点的学生才能获得,则获得这个奖学金对上大学概率的影响可以用公式(10)来表达:
应用断点回归的一个经典研究是Lemieux&Milligan(2008)(17)。他们研究社会救助会不会影响就业率。劳动力经济学家根据理论推测,增加社会救济会减少接受救济的人群工作的必要性,从而减少劳动力供给、降低就业率。Lemieux&Milligan(2008)研究的这个社会救助项目规定30岁以下的人只能获得185美元,而一旦超过30岁,就可以获得507美元,这是一个巨大的差额。因此年龄就是这个政策的强制变量,临界点是30岁。图4展示了1986年人口普查时30岁以下和30以上的人群获得社会救助的额度。可以看到在临界点两侧,人们的救助收入有一个飞跃。因此,实际情况完全符合政策设计。
图5展示了人口普查当天在临界点30岁附近,就业率的情况。可以看到,在30岁附近的就业率确实有一个跳跃。这就是在30岁时大幅增加社会救助的干预效应——降低就业率。
断点回归的分析必须经受多方面的假设检验,才能保证其内部有效性。比如,我们应该检验临界值两侧的两群人是否在一些重要的背景变量上分布连续,强制变量本身在临界值附近是否连续。此外,由于断点回归是在临界值附近构建准实验,因此,我们要界定“附近”的区域到底有多宽。如果这个区域太窄,则样本量很小,可能影响估计的精确度和统计推断力。如果这个区域太宽,则我必须控制其他因素,以保证两边人群的可比性。顺便指出,因为断点回归是在一个临界值附近估算干预效应,而不是在整个定义域内估计平均的干预效应(Average Treatment Effect,ATE),因此这个估计值是局部平均干预效应(Local Average Treatment Effect,LATE)。
断点回归包括参数回归和非参数回归。参数回归主要强调对临界点附近的函数类型做出正确的假设。如图6(18)所示,第一张图是线性模型,第二张图是非线性模型,在临界点附近都有一个跳跃,因此可以用断点回归来识别这个干预效应。但第三张图实际上是一个在临界点附近没有跳跃的非线性模型,如果把这个非线性方程错当做线性方程对待,而且使用断点回归模型去估计,也能估算出一个跳跃,但这个估计结果是一个严重的错误。因此,在断点回归中,观察散点图的形状非常重要,而且我们往往把方程(11)写成一个更笼统的函数形式:
非参数回归则不对临界点附近的函数形式做出假设。最简单的非参数回归就是选择一个临界点附近的区域,分别计算临界点之上和之下的观测点的平均产出,然后比较均值。这种方法不够精确,且忽略了强制变量本身对产出的影响。其改进方法是Kernel方法,即在选定的区域中对观测点进行加权平均,权重大小由不同的分布函数来表示。第三种非参数回归则是局部线性回归,即在临界点左侧的局部区域和临界点右侧的局部区域分别进行线性回归,根据回归系数计算两个方程在临界点的估算值,估算值之差即为干预效应。这种方法的基础是随着强制变量从两边逼近临界值,临界值两边的方程形式已经不重要,而且可以用线性函数来近似。
图6 清晰的断点回归模型设计
那么,如何定义和寻找模拟的对照组成员呢?一般来讲我们都希望模拟对照组与实验组在一组变量上的统计值都无显著差异。这是比较难做到的。因为,当两组人在第一个变量上无显著差异时,可能在第二个变量上显著不同;当调整模拟对照组成员使得两组人在第二变量上无显著差异时,可能又在第三个变量上显著不同。因此,我们主要通过分析样本中的每个人选择接受干预的概率来进行配对。个体选择接受还是不接受干预,可以通过Probit模型或者Logit模型来估算,我们所关心的主要特征变量都应该是影响接受干预概率的变量。
这个配对的理念虽然比较简单,但具体的配对方法却比较复杂。例如,用于计算倾向分数的选择模型(14)是否有效?在配对时,如果一个没有接受干预的个体已经被配给某个接受干预的个体作为其对照,那么这个个体能否再配给另一个接受干预的个体?如果一个接受干预的个体在未接受干预的群体中找到若干个倾向分数相近的个体,是否都要把他们作为对照、或者只是随机选一个?如果都选为对照,给每个人赋予的权重是多少?Heckman(23)、Dehejia(24)等对倾向分数配对法都做了详细而深入的讨论。Altonji等(25)应用倾向分数配对法评估了天主教学校是否比公立学校更能提高学生的学业表现。读者可以参考。
5.延伸讨论
除了上述从实验的思路出发构建的因果推断模型,为了使得统计分析结果真实可靠,定量研究者还需在研究设计和数据分析中考虑以下几个重要问题:(1)教育研究中的数据往往是聚类数据(Cluster)或称为多层级数据(Hierarchical Data,Nested Data)。这种数据结构会增大估计值的标准差,减小统计推断力。因此,我们必须在模型估算中考虑这种数据结构,采用多层级模型中的随机效应模型或者固定效应模型(26)。(2)当产出变量不是连续随机变量,而是分类变量(Categorical Variable)时,则应考虑OLS之外的模型,如Tobit,Probit,Truncated Data Model(27)。(3)如果干预效应针对处于不同分布的人群并不相同,即具有异质性(Heterogeneity),则要使用分位点回归(Quantile Regression)等方法来解决(28)。(4)如果数据中的缺失值较多,且很难证明是随机缺失时,应在估算模型前采用多重填充法(Multiple Imputation)来处理(29)。(5)如果样本不是具有代表性的样本,则需要通过抽样权重来调整。
总之,由于教育领域研究对象(学生、家长、学校、教师等)的行为的复杂性,尤其面对各种政策和教育干预的自选择性,用定量研究的方法评估教育政策的效果必须非常谨慎。要根据政策的执行方案、数据结构等恰当选择模型,并对模型的假设做出严谨的检验。否则数据分析的结果可能是有偏的,有时候这种偏误是非常隐蔽的,不易被发现。基于这样的结果做出的政策建议也是不可靠的。
四、对定量研究方法的讨论以及混合方法的优势
当然,定量研究方法并不是万能的,甚至存在很多陷阱和误区。本文第三部分已经点出了部分定量研究方法的假设,一旦数据不满足假设,结果就是有偏的,甚至严重背离真实情况。此外,教育定量研究中的一个重要难题是测量问题。在经济学领域,很多变量是在生产和经济活动中自然发生、并有确切数字记录的,比如资金投入量,交易额等。但在教育领域,大部分变量是概念性的,比如智商、能力、动机等。这些变量很难测量,已有的量化测量工具也只能是近似。当测量误差(Measurement Error)足够大时,会导致回归系数趋向于零,标准差变大。
此外,定量研究模型一定是基于理论的,一般也是为了验证理论的。教育领域的理论虽然非常丰富,但并没有一致的结论。不像经济学中的理论思路清晰、结论相对一致。这是由于教育过程的复杂性和人的发展本身还没有被完全了解。基于这样的理论体系进行的实证研究,解释力度和解释范围都受到局限。
再次,定量研究模型一般只检验有没有干预效应,并不解释这种效应产生的机制。例如Zhang(30)发现农村学生参加课外补习班会对高考成绩产生负影响,对这个结果的原因就比较难回答。虽然文章对此做出了猜测性的解释,包括学校层面的内生性、农村学生参加课外补习班是学校教学质量差、教学腐败的信号等,但这些都不是确切的结论。因此,我们需要采用质性研究方法进一步挖掘其中的原因。
图7 近十年应用混合法研究教育问题的英文论文数量
因此,现在越来越多的教育研究采用定量方法与质性方法相结合的混合方法(Mixed Method(31))。图7描述了近十年来在Google Scholar上查到的用英文发表的论文中使用混合法研究教育问题的论文数量变化(32)。可以看到,该领域论文数量呈现快速增长趋势。
定量和质性方法属于不同的研究范式,一般来讲,到底选取哪种研究范式取决于对事实的假设(实体论)、对事实的知识(认知论)以及了解事实的方法(方法论)(33)。基于对事实理解角度的差别,定量研究和质性研究一般并不研究相同的现象。定量研究者假设真理是一个独立于观察者的客观事实,等待研究者去发现。质性研究者认为事实会随着人们经验的变化而不断变化,在这个演化过程中,研究者作为研究工具与被研究对象是共同作用、无法分开的。因此,在混合方法中,针对同一个研究话题,定量方法和质性方法应该分别从各自的角度研究不同的现象,最后给出一个全面的结论(34)。在同一个研究中,定量研究和质性研究既可以同时进行,也可以序贯进行。Johnson等(35)对两种研究范式的结合方式做了总结(如表3所示)。
由于定量研究和质性研究在研究对象和哲学基础上的区别,我们在使用混合方法时不能简单地用一种方法去弥补另一种方法的劣势,而是应该遵循研究范式的规律,更好的解释现象。Greene等(36)基于大量的混合方法文献综述,总结出五个可以通过混合方法实现的目的:(1)三角验证(Triangulation),即从两种方法中得出趋向于一致的结论;(2)互补性(Complementarity),即用一种方法去增强、解释、澄清另一种方法得出的结论;(3)发展(Development),即用一种方法的结论为另一种方法提供思路;(4)启蒙(Initiation),即发现悖论和理论上的矛盾,重新提出研究问题;(5)扩展(Expansion),即拓展研究的宽度和范围。
因此,在熟练掌握定量研究方法和质性研究方法的前提下,针对具体研究问题设计混合方法,有可能更好地研究教育领域中的现象,帮助我们了解更加本质和规律性的事实。需要强调的是,混合研究设计不应该是为了逃避某种研究范式的不足,从形式上拼接两种方法。
本文的撰写得到李曼丽教授的指导和黄振中在混合法文献搜集方面的帮助,特此致谢。
注释:
①J.S.Colman,E.Campbell,C.Hobson,J.McPartland,A.Mood,R.Weinfeld & R.York.Equity of Educational Opportunity.Washington,DC:Government Printing Office,1966。
②The Tennessee Student/Teacher Achievement Ratio Experiment,简称 Project STAR。
③http://wbro.oxfordjournals.org/content/20/1/29.short。
④J.Angrist and J-S.Pischke.Mostly Harmless Economics:An Empiricist's Companion.1st ed..Princeton,NJ:Princeton University Press,2009; Richard Blundell & Monica C.Dias.Alternative Approaches to Evaluation in Empirical Microeconomics.Journal of Human Resources,44,3(2009):565-640; Guido W.Imbens and Jeffrey M.Wooldridge.Recent Developments in the Econometrics of Program Evaluation.Journal of Economic Literature,47,1(2009):5-86; Richard J.Murnane & John B.Willett.Methods Matter:Improving Causal Inference in Educational and Social Science Research.1st ed.Oxford University Press,2010。
⑤也被称为Randomly Controlled Trail(RCT)。
⑥有时也被称为治疗(Treatment),这种称呼来自医学实验。
⑦Y1i-Y0i被称为个体干预效果(Individual Treatment Effect,ITE)。
⑧备择假设为真时,接受备择假设、拒绝零假设的概率。
⑨Richard J.Murnane & John B.Willett.Methods Matter:Improving Causal Inference in Educational and Social Science Research.1st ed.Oxford University Press,2010,82-106。
⑩Alan Krueger.Experimental Estimates of Education Production Functions.Quarterly Journal of Economics,114,2(1999):497-532。
(11)Stem,David,Dayton,Charles,Paik,IL-Woo,Weisberg,Alan.Benefits and Costs of Dropout Prevention in a High School Program Combining Academic and Vocational Education:Third-Year Results from Replications of the California Peninsula Academies.Educational Evaluation and Policy Analysis,11,4(1989):405-416。
(12)David S.Lee.Training,Wages,and Sample Selection:Estimating Sharp Bounds on Treatment Effects.Review of Economic Studies, 76,3(2009):1071-1102。
(13)Ablijit V.Banerjee,Shawn Cole,Esther Duflo,Leigh Linden.Remedying Education:Evidence from Two Randomized Experiments in India.Quarterly Journal of Economics,122,3(2007):1235-1264。
(14)A.Abadie & J.Gardeazabal.The Economic Costs of Conflict:A Case Study of the Basque Country.The American Economic Review,93,1(2003):113-132。
(15)J.Gruber.The Incidence of Mandated Maternity Benefits.The American Economic Review,84,3(1994):622-641。
(16)(18)(28)J.Angrist and J-S.Pischke.Mostly Harmless Economics:An Empiricist's Companion.1st ed.Princeton,NJ:Princeton University Press,2009。
(17)T.Lemieux and K.Milligan.Incentive Effects of Social Assistance:A Regression Discontinuity Approach.Journal of Econometrics,142,2(2008):807-828。
(19)J.Angrist and V.Lavy.Using Maimonides Rule to Estimate the Effect of Class Size on Scholastic Achievement.Quarterly Journal of Economics,114,2(1999):533-575。
(20)F.Barrera-Osorio,Leigh L.Linden and M.Urquiola.The Effects of User Fee Reductions on Enrollment:Evidence from a Quasi-experiment.http://www.leighlinden.com/Gratuidad%20Draft %202007-01.pdf。
(21)Sandra E.Black.Do Better Schools Matter? Parental Valuation of Elementary Education.Quarterly Journal of Economics,114,2(1999):577-599。
(22)J.Hahn,P.Todd and W.Van der Klaauw.Identification and Estimation of Treatment Effects with a Regression-Discontinuity Design.Econometrica,69,1(2001):201-209。
(23)James Heckman,Hidehiko Ichimura,Jeffrey Smith and Petra Todd.Characterizing Selection Bias Using Experimental Data.Econometrica,66,5(1998):1017-1098。
(24)Rajeev H.Dehejia and Sadek Wahba.Causal Effects in Nonexperimental Studies:Reevaluating the Evaluation of Training Programs.Journal of the American Statistical Association,94,448(1999):1053-1062; Rajeev H.Dehejia and Sadek Wahba.Propensity Score-matching Methods for Nonexpeimental Causal Studies.The Review of Economics and Statistics,84,1(2002):151-161。
(25)Joseph G.Altonji,Todd E.Elder and Christopher R.Taber.Selection on Observed and Unobserved Variables:Assessing the Effectiveness of Catholic Schools.Journal of Political Economy,113,1(2005):151-184。
(26)S.W.Raudenbush & A.S.Bryk.Hierarchical Linear Models:Applications and Data Analysis Methods.2nd ed.Newbury Park,CA:Sage.,2002。
(27)J.Scott Long.Regression Models for Categorical and Limited Dependent Variables:Advanced Quantitative Techniques in the Social Sciences.1st ed.Sage Publications,Inc.,1997。
(29)P.D.Allison.Missing data.In Handbook of Survey Research.2nd ed.P.V.Marsden & J.D.Wright Emerald Group Publishing Limit-ed.,2010。
(30)Y.Zhang.Does Private Tutoring Improve Students' National College Entrance Exam Performance?:A Case Study from Jinan,China.Economics of Education Review,32,1(2013):1-28。
(31)Jennifer C.Greene,Valerie J.Caracelli & Wendy F.Graham.Toward a Conceptual Framework for Mixed Method Evaluation Designs.Educational Evaluation and Policy Analysis,11,3(1989):255-274; Jennifer C.Greene & Valerie J.Caracelli.Advances in Mixed Method Evaluation:The Challenges and Benefits of Integrating Diverse Paradigms:New Directions for Evaluation.1st ed.Jossey-Bass,1997。
(32)搜索方法是在Google Scholar中以Mixed Method为关键词搜到的文章,去除非教育领域的研究,去除对Mixed Method本身的讨论的文章,发表时间范围为2002-2012。共计101篇。
(33)E.G.Guba.The Alternative Paradigm Dialog.In The Paradigm Dialog,ed.E.G.GubaNewbury 17-30.Park,CA:Sage,1990。
(34)Joanna E.M.Sale,Lynne H.Lohfeld & Kevin Brazil.Revisiting the Quantitative-qualitative Debate:Implications for Mixed Methods Research.Quality and Quantity,36,1(2002):43-53。
(35)R.Burke Johnson and Anthony J.Onwuegbuzie.Mixed Methods Research:A Research Paradigm Whose Time Has Come.Educational Researcher,33,7(2004):14-26.
(36)Jennifer C.Greene,Valerie J.Caracelli & Wendy F.Graham.Toward a Conceptual Framework for Mixed Method Evaluation Designs.Educational Evaluation and Policy Analysis,11,3(1989):255-274。