论美国教育评价的历史发展,本文主要内容关键词为:美国论文,评价论文,历史论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
教育评价的渊源可追溯至中国古代的科举考试制度,但现代意义上的教育评价却产生于美国,并在美国得到蓬勃发展。美国教育评价的历史发展可划分以下五个阶段:
一、早期的考试制度
考试的形式有口试和笔试。美国在19世纪后半期多采用口试法,即教师向每个学生提出不同的问题,要求学生口头作答,以判定学生的知识掌握程度。由于口试法不能向各个学生提出同样的问题,所以缺乏统一的标准,难以进行比较。而且随着教育的发展,学生渐多,口试法要从多方面考查,在时间上也是一种很大的浪费。基于这些原因,口试很快为笔试所取代。在西方,笔试创自1702年英国剑桥大学,1845年在美国著名教育家贺拉斯·曼(Horace·Mann)倡导下,波士顿文法学校首先引进这种考试,后来在美国逐渐推广和发展起来。不过那时的笔试方式主要是写论文或用同一试题同时考查全体学生。这样固然省时经济,但评分仍带有很大的主观性,而且试题太少,也不能检测全部知识。为矫正此弊,力求使考试客观化,便产生了美国的教育测验运动。
二、测验运动阶段
在教育评价中,考试与测验有明确的区别。测验是“经过标准化的测量”。标准化的过程是取得常模、信度、效度等资料的过程。常模是有一定代表性且数量足够大的样本在某项测验上的平均成绩。这是运用测验分数对人作出评价的参照系。这里所说的测验是指标准测验(客观测验)。正因为这一点,我们用考试标征上一阶段的评价水平和特点,而用测验标征本阶段的评价水平和特点。
实际上,美国的教育测验所以会在本世纪20年代形成一种运动,除了针对传统论文式考试的弊端外,还有其客观的历史背景,即(1)德国实验心理学的发展;(2)英国对个别差异的研究;(3)法国对于不适应者的临床关心。这三种研究思潮对美国的教育测验运动起了很大的促进作用。
在美国的教育测验运动中,桑代克和他的学生做出了突出的贡献。1904年桑代克(Thorndike,E,L.)发表了《精神与社会测验学导论(Anin-troduction to the theory of mental and social measurement)》,这是一本在测验学史上的划时代的巨著,他在书中提出了“凡是存在的东西都有数量,凡有数量的都可测量”的著名信条。在这一信条的激励下,他与他的学生积极投入教育测量工作,陆续编制了各科标准测验(Standard Test)和标准测量表(Scall)。经桑氏努力,教育测验运动蓬勃展开,不到20年(1909-1928),美国便有三千多种的测验问世。大致包括学业测验、智力测验和人格测验三类。
就学业测验而言,它具有以下特点:
1.标准测验的内容包括多数学校共同的一般内容;
2.标准测验采集问题的范围包括知识技能的全部重要部位;
3.标准测验包括一学年或一学期的全部课程;
4.标准测验由专家利用实验手段经过统计编订试题,并制定固体性标准,即常模;
5.标准测验的结果,可知被试者在被试的总体中处于什么位置。
标准测验的评分方案有以下几种:
(1)商数法。所谓教育商数就是以实际年龄除量表年龄所得的商数(为了方便再乘以100,以消除小数)。而量表年龄就是学生在这个量表上(这次测验中)所得分数达到的那个年龄的常模。如果他的实际年龄是10岁,而他的得分达到12岁的常模,那么他的教育商数就是120。
(2)偏差值法(即标准分)。所谓标准分是一种以标准差为单位的相对位置量数。等于数列中各原始分数与平均数的差除以标准差所得的商,公式为{g195c.ipg}。标准分的作用除了能够表明原分数在分布中的位置外,还能对本来不能直接比较的各种不同单位的量数进行比较。
(3)百分等级法。百分等级也称相对地位量数,表示任何一个分数在该团体中的相对地位。在按大小顺序排列的分数数列中,要表示任何一个分数在该团体中的相对地位,须把该分数转为百分等级,计算公式为:
{g195c.jpg}
式中,P[,r]为百分等级符号,x为给定的原始分数,L[,b]为该分数所在组的精确下限,F[,b]为小于L[,b]的各组次数之和,f为该分数所在组的次数,n为总次数,i为组距。
随着教育测验运动的不断发展,人们逐渐认识到,教育测验尽管能使考试客观化、标准化,并能把人的能力换算成数字,甚至个别差异的程度也可以度量(这些都是教育测验的重大成就),但测验毕竟不能测得人的全部,即使是研究最多最有成果的学力测验也不能测得学力的全部领域。如社会态度、实际技术、创造力、兴趣、鉴赏力等现代重要学力内容,因难以数量化,教育测验便不能充分把握,往往被教育者所冷落。因此,教育测验受到了批评:
第一,测验是片断的,无论是知识测验还是人格测验,都只能做片断的测定,不能全部了解人格之发展与知识之过程;
第二,测验只注重客观信度,而对于质的妥当性却不足说明;
第三,教师为测量成绩所采用的学业测验,根本就是教科书主义;
第四,测验或考试必然养成个人主义与被动式的学习态度。
教育评价正是为弥补教育测验之缺陷而发展起来的,当然教育评价并非取代教育测验,而是在重视原有教育测验的同时,也注重测验以外的评价方法,从而把所有能够用以考查教育效果的方法综合起来,以评定教育是否实现全部教育目标。
对“测验”的批评影响着“测验”向“评价”的转化,而教育评价的提出、形成、运用、推广却是与“八年研究”分不开的。
三、教育评价的诞生和形成
教育评价诞生于“八年研究”。“八年研究”指的是美国自1933年至1940年开展的一次课程改革研究活动,因这项研究历时八年,故史称“八年研究”。它由美国进步主义教育协会会长艾钦(Aikin,W.M.)直接领导,研究的中心是改革中学核心课程(Core Curriculum)。为研究(检验)课程改革实验的结果,研究(分析)新课程与大学学习的关系,全面衡量学生的各项进步,成立了以泰勒(Tyler.R.N)为首的评价委员会,他们进行了卓有成效的评价改革实验研究,取得一系列新成果。后人把以泰勒为首的评价委员会的八年研究成果《史密斯——泰勒报告》,称为“划时代的教育评价宣言”。泰勒也因此被称为教育评价之父。
泰勒教育评价的基本思想有四条:(1)所谓教育,就是使人的行为方式发生变化和改进的过程;(2)这些形形色色的行为方式的变化,就是教育目标;(3)所谓教育评价就是确定教育目标实现程度的过程;(4)人的行为是复杂的,有的可以量化,有的难以量化。所以,除测验以外,还需要用其它各种评价手段(如观察、评定、调查等)来检查教育效果。
泰勒教育评价的过程分为四个步骤:第一步,确定教育目标,这是最重要的一步。其它的三个步骤都是围绕第一个步骤进行;第二步,设计评价情境。评价情境的设计必须依据预先规定的教育目标中期望学生变化的那种行为来进行;第三步,选择和编制评价工具。选择和编制评价工具必须使这些工具能够引发教育目标所期望的那种行为;第四步,分析评价结果。分析评价结果必须以教育目标为依据。
综上所述,我们可把泰勒的评价思想和过程概括为如下图示:
这就是著名的泰勒模式(行为目标模式),这一模式把确定教育目标作为评价过程的核心和关键,行为目标模式也因此而得名。
至本世纪50年代末,泰勒的评价思想一直是西方各国占统治地位的评价思想,故这一时期也被称为“泰勒期”。实际上由于泰勒评价模式结构紧凑、逻辑脉络简洁清晰,不仅容易理解,而且容易实施,所以至今依然是世界各国的常用的评价模式。
我们认为,从教育评价的历史来看,泰勒对教育评价发展的贡献突出表现在:
第一,泰勒在实验研究和评价实践的基础上首次提出了“教育评价”的概念,使测验与评价分家,并据此提出了富有创新意义的评价体系和模式,从而赋于教育评价以新的意义。
第二,泰勒用具有学生行为对应物的具体的教育目标作为评价标准,用预定的结果作为尺度来衡量学生进步水平,从而避免了教育评价的任意性和主观性,在一定程度上提高了评价的客观性和科学性。
第三,泰勒的评价是一种目标参照评价,他注重的是绝对的教育目标到达度,而不像以往测验那样只关心学生团体中的成绩差异和位次问题,所以泰勒的评价模式比较符合教育实际对评价的要求。
第四,泰勒创造和倡导了除考试和测验以外的其它多种评价工具,如问题情境测验、轶事记录法等,从而使教育评价工具逐渐增多起来。
四、教育评价的蓬勃发展时期
本世纪60年代初始,泰勒的评价思想和模式,一方面由其弟子们加以不断发展和完善,另一方面也受到根本性的批评和否定。有人根据课程及教育改革的需要提出了全新的评价思想和模式,从而使教育评价研究和实践进入繁荣阶段。
(一)教育目标分类与泰勒模式的完善
如上所述,泰勒模式是一个目标中心模式,即强调评价以目标为中心为依据,但目标的制定必须以教育目标分类理论为依据,才能在统一的基点上进行测定和评价。所以在泰勒之后,50年代初由泰勒早期的学生B·S·布卢姆及其同事对教育目标进行了更详尽的研究,他们提出并完成了教育目标分类学的工作。所谓分类学是探索一组事物分类的一种体系,通常依照穷尽性和排他性原则从简单到复杂、从低层次到高层次排列。它被广泛应用于各种学科,布卢姆等将其应用于教育领域。他们关于教育目标的第一级分类包括:知识及知识应用的认知领域,对学习的情绪反应和价值取向的情意领域,内心活动控制肢体活动的动作技能领域。第二级分类,以认知领域为例,分为知识、理解、应用、分析、综合和评价6大类、14个亚类和9个次亚类,构成了由简单到复杂的目标阶梯,高层次目标是在低层次目标的基础上发展起来的。
布卢姆等人关于教育目标的分类及其在教育评价中的应用有两个特点。首先该分类学是以对教学大纲的分析为基础的,教育目标的分类学的基本依据是教学大纲对学生的要求,这些要求具体体现在教育目标中关于学生掌握知识和发展智力、能力的情况上,因此他们所说的教育目标实际上和教学目标是同义的,也即他们所讲的教育评价即为教学评价。当然也正是由于立足于教学大纲和教科书,才使布卢姆的教育目标分类学具有很强的现实性和广泛的实际应用价值。其次,由于情意领域和动作技能领域内容本身的复杂性,在理论上对其研究远不如认知领域那样深入,在实践上更是有意无意地被忽视了。所以目标中心模式实际上只侧重对认知领域的评价。尽管如此,布卢姆等为完善和发展目标中心模式所作的卓越的贡献却是举世公识的。布卢姆的分类学明确了学习的各级目标,可以帮助教师和其它人员按各级目标制定出不同的测验,从而对教学效果作出更有效、更准确的评价,因此,它对于教学评价,特别是对于教学评价过程中各种直接的和间接的测量有很大的应用意义。
(二)对泰勒模式的批判与其它评价思想和模式的发展
1.对泰勒模式的批判
(1)评价观是低层次的。泰勒把教育评价定义为确定教育目标实际实现程度的过程,这一定义强调的是对评价对象进行价值判断,它注重的是评价的鉴别、确证和检查功能,而没有突出其形成性功能和为新的决策提供信息的功能。
(2)评价目标的凝固性。泰勒把目标作为评价的出发点和归宿,但对目标本身的合理性评价却被忽视了。这就暗含着预定的目标是绝对无误的,无须检讨,无须论证,无须纠正,无须改进。目标的这种凝固性既反映了泰勒模式的机械性和僵化性,也反映了泰勒价值观上的收敛性,即把预定的目标作为评价的统一的参照系和统一的标准。所谓进行价值判断就是检查实现了多少原定的目标,这种模式完全忽视了评价对象有自己独特的“输入”特征、外部环境、内部结构和追求的目标,因而有自己独特的输出结果和评价参照系。
(3)行为目标的局限性。泰勒模式深受行为主义的影响,强调用行为动词来为目标定义,行为目标有其优点,清晰、直接,具有可观察性和可测量性,对教育目标的描述和外显化有积极作用,但行为目标难于覆盖教育产生的全部效果,所以目标评价模式显然缺乏全面性。
2.其它评价思想和模式的发展
(1)克龙巴赫(L.J.Cronbach)的教育评价思想与斯塔夫宾(D.L.Stufflebeam)的CIPP模式。
1963年,克龙巴赫发表了《通过评价改进教程》(CourseImprovem-ent Through Evaluation)》一文。在这篇论文中,他提出了“评价是为进行决策提供信息的过程”的新思想,主张评价应放在教学过程或课程改革过程中,而不是在教学过程或课程改革过程结束后,并据此强调评价的“改进功能”(即改善和发展一种正在进行的活动的功能),使评价的目的观或功能观发生了根本的变化,教育评价成为改善自己工作的“帮手”。
斯塔夫宾在这个基础上,于1966年提出CIPP模式。CIPP是相互联系的四种不同评价的缩写,C代表背景评价(Contest evaluation),I代表输入评价(inputevaluation),第一个P代表过程评价(Process evalua-tion),最后一个P代表结果评价(Prodnct evaluation)。这四种评价为决策的不同方面提供信息。背景评价为确定目标提供信息,它主要包括描述教育目标,以及确定教育目标的适当性和可行性(目标本身成了评价对象)。输入评价为设计教育程序的决策提供信息,它主要包括确定目标实现的条件(例如人力、物力、财力和时间等),以及实现目标的程序。过程评价为改进教育进程的决策提供信息,主要包括找出教育过程存在的问题,并提出改进建议。结果评价为鉴定结果的决策提供信息,主要是测量结果,并给予解释和价值分析。CIPP模的主要特点是把背景、输入、过程和结果综合起来评判,为决策过程提供全面的信息,突出了评价的决策功能。该模式提出了输入评价和过程评价很有启发意义。
(2)斯克里芬(M.Scriven)的教育评价思想和目标游离模式
斯克里芬于1967年发表了继克龙巴赫的《通过评价改进教程》之后的另一篇重要论文《评价方法论(The Methodology of Evaluation)》。在这篇论文中,他首次明确提出将评价分成形成性的(Formative)和总结性的(Summarive)两类的思想,所谓形成性评价是指为改进课程教学及其它方案活动而在活动过程中进行的评价;所谓总结性评价是指作出选择决策而在活动结束后对其最终结果进行的评价。形成性评价是整个课程编制过程和教学改进过程的一个重要组成部分,它讲究信息的及时反馈,以便给课程编制人员或教学设计人员提供必要的信息,但“这样一种作用并未排除对该过程最后结果的评价”,即总结性评价。总结性评价讲求结论的全面性,以便给政策制订部门或决策人员提供某种依据。斯克里芬把评价分成形成性评价与总结性评价的思想,早已被广大教育评价工作者和评价研究人员所普遍接受——布卢姆后来关于教学评价可分为诊断性、形成性与总结性三类的思想就直接受到了斯克里芬(当然也受了斯塔夫宾)的启发。斯克里芬的贡献还远不只如此,他还于1974年提出了在西方影响广泛的目标游离模式。
斯克里芬认为,实际进行的教育活动除了收到预期效应外,还会产生各种“非预期效应”,或者叫“副效应”或“第二效应”。布卢姆也说过:“人们无法预料教学所产生的成果的全部范围。没有预料不到的成果,教学也就不成为一种艺术了。”(《教育评价》华东师大出版社1987年版)斯克里芬还强调,这种非预期效应的影响有时是重要的,而在目标评价中却得不到反映,所以他提出目标游离评价(也称无目标评价),这种评价不受预定目标的影响,促使评价者能注重更为广泛的可能结果。显然与泰勒和斯塔夫宾相比,斯克里芬还把探寻意外结果这一问题引向深入。
这一时期的教育评价理论与实践的特点是:
a、明确提出评价为决策服务的新思想。
b、开始探讨目标本身的科学性和合理性,即目标本身成为评价的对象,同时预期目标之外的教学效果也受关注。
c、正式提出形成性评价的思想,“评价的最主要目的不是为了证明,而是为了改进。”(斯塔夫宾《方案评价的CIPP模式》)
五、教育评价的新动向
80年代后,美国教育评价的发展出现了新动向,评价从以决策为中心转向以人为中心。这一动向实际上是美国80年代占主导地位的人本主义教育思潮在教育评价领域的反映。所谓人本主义教育思潮指“人权论和尊重人的思想,教育机会均等论和发展每个人个性的教育思想”。(转引自《教育研究》1991年第11期第76页)
这种以人为中心的评价有以下几个特点:
以人为中心的评价强调将完整的有血有肉有情感的有个性的人当作自己的对象,并努力通过评价促使受教育者个性的充分发展。这种评价注重质的分析,它不像传统评价那样片面追求和强调量化而排斥了除知识外的难以量化的其它一切人类价值。
以人为中心的评价主张从每个学生的发展的内在需要和实际状况出发,评价他们各自的发展进程,并努力通过评价促使他们向着更高、更美、更远大的方向前进。这种评价一般采用个体参照评价法,它带有较强的主观色彩,而不具备较强的客观性,但却真正体现了尊重学生个性的教育精神。而传统评价用某种僵硬的外在的所谓客观尺度来衡量个性各异的人,这种评价直接造成了对学生个性的忽视,使评价对象失去了自己的个性存在,而被沉重的外在因素所操纵。
以人为中心的评价坚持人道主义精神,要求教师在友爱的、相互信任与尊重的良好的人际氛围中组织评价活动,这种评价充分体现了对学生人格的尊重、能力的信任和发展的关心,它大大有助于宏扬学生人格的主动精神。而传统评价则明显具有非人道性的一面,常表现为对学生贬损性评价,对学生人格的践踏,从而导致强烈的师生冲突和对抗现象,并给学生带来焦虑、抵触情绪和消极情绪。
以人为中心的评价注重学生的自我评价,把学生看成评价的主体,坚持评价的民主性,注重启发和提高学生的主体意识,增强学生对评价的参与感和自我体验,养成学生自我分析、自我评价、自我调节的习惯和能力。传统评价由教师独揽,学生只是被动的评价客体,没有评价的主动权和积极性,这种评价造成了学生对教师的极端依赖,从而大大削弱了自我评价自我发展的能力。
从美国教育评价的发展历史来看,教育评价是个变化中的概念,教育评价的理论和方法是不断发展的,但是这种变化和发展不是杂乱无章的,而是有规可循的,教育评价从以测验为中心,转向以目标为中心、以决策为中心,进而强调以人为中心,为学生个性充分发展服务。显然这种变化和发展过程蕴含着十分丰富的辩证法。各阶段之间的更替和中心的转移用黑格尔的话来说就是“扬弃”,即在继承中发展,批判中前进。