学生学业成就评价处在十字路口——兼论评价范式的转移,本文主要内容关键词为:评价论文,范式论文,学业论文,路口论文,成就论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
我国中小学生学业成就评价变革问题的焦点并非改或不改,而在于为什么改,怎样改?来自不同利益群体的各种变革方案让人眼花缭乱,学生学业成就评价在十字路口徘徊,何去何从?而在各种对“应该改什么”的论证和辩护中,我们发现,极少有人清理既有的变革思维和方式——“学业评价是如何进行变革的,为什么会这样变”。这一追问的缺失,削弱了我们对变革方向的判断力,也遮蔽了我们对既定变革范式的省察以及在此基础上寻求更好的变革思路的可能性。
成功的问题解决者往往需要为正确的问题找出正确的解决方法。我们通常会失败的原因是:用正确的方法解决了错误的问题,更胜过用错误的方法解决正确的问题。[1]因此,在推动评价变革时,建构正确的政策问题,实为评价变革的关键因素。如果不能跳出既往的框架重新思考和定位评价变革,了解既有的变革思路及与之对应的变革行为,只能在原定的轨道中做重复运动。
一、50多年的评价变革史是考试变革驱动整个评价体系变革的复演史
50多年来,我国中小学生学业成就评价是如何变革的?考查相关评价政策,我们发现,中小学生学业成就评价变革的历史可以说是一部试图通过不断完善选拔、鉴别功能的单一考试的变革来驱动“整个评价体系”变革的历史。以选拔或鉴别为目的的考试,如高考、中考、地方统考等长期以来占据了评价政策的核心,而基础教育体系内的评价变革往往是对这些变革的不断复演。
对国家层面上的主要评价政策的追踪有助于我们深入理解上述推断。自1952年实行高考,1979年恢复高考直至今日,高考一直在进行各种改革:从会考制度的建立到考试方法的完善,从科目设置的调整到考试形式的转变等不一而足。①在历次变革过程中,人们对高考为什么改、怎样改积累了比较完善的经验,定位逐渐清晰。
与高考变革的深度、频率、幅度形成鲜明对比的是,自20世纪50年代开始的国家政策中,关于基础教育体系内部的评价变革,除了泛泛地提出“小学儿童学业成绩的考查,依照下列的规定:平时考查、学年考查、毕业考查”②或“要加强平时成绩的考查及改善考试制度”外,③其性质、功能、体系构成从未有过实质性的规定。在20世纪80年代开始至21世纪初的评价政策中,强调的是“考试次数的减少,出题的要求等”,④其政策的关注点都放在回应由于选拔、鉴别性的考试过度膨胀而产生对学校、课堂层面的评价的“回波效应”(比如减负、纠正片面追求升学率的倾向等等)上,几乎没有提出任何有前瞻性的评价政策。
由此,单一考试的完善取代了对健全的评价体系的追求。具有选拔、鉴别功能的评价履行了其“代政策”的功能,基础教育体系内学校、课堂层面的评价成为这类考试的“练兵场”。大规模考试的变革史成为整个基础教育评价领域的复演史。只要高考的模式、题型、内容有所改变,地方、学校、课堂中各层级的考试都会跟着变化。如若高考不改,各层面几乎不会进行主动的评价变革。随着第八次课程改革的深入,这一放弃对自身“为何而评价”的拷问,直接屈从于高考变革的思路愈加明显——“高考不改,课改难行!”
上述将基础教育评价体系的功能依附于高考或统考不禁让我们追问基础教育评价体系对学生的学习是否应该有自己的独立功能和品质?如果不应该,为什么?如果应该,又是什么?依据雷斯纳克(Resnick)提出评价的三个前提:你测你所追求的东西;你没有评价的,你就得不到;评价的内容要值得教师去教。[2]在“类似统考”的基础教育评价体系中,由于这类考试的特性,必然有相当一部分学习结果是无法测量的,比如身心的健康、人格的完善、高品质的思维能力、对未知世界探究的兴趣等等,如果基础教育评价体系不改变,这些将在学生未来人生中扮演重要角色的学习结果必然是“得不到”的,这既无益于基础教育体系的自身发展,同时也是对教师、学生、家长乃至整个社会的极大戕害。
二、评价变革的通用范式批判:用结果规划过程
为了更清晰地探究上述评价变革的思路,我们先用一个简化模型来分析当前评价变革过程中不同层面评价的关系。从信息流动的角度看,评价体系内有两种方向的流动,一条是从课堂(过程)到评价体系(结果),一条是从体系(结果)回到课堂(过程)。理想的状态是两方面的流动都比较通畅,并且能够相互补充。[3]
据此衡量上述评价变革范式,有两个显著特征:第一,信息主要从结果流到过程。内容主要是分数、等级、排名,而不是关于学习的分析数据。由于国家、地方层面的统考大多是在学期结束进行,这部分信息往往只起到监测的作用,不服务于学生学习的目的,并通过和特定的奖惩机制相联系,对学生、学校、地方形成弥散而持久的压力。第二,几乎没有从过程到结果的流动。课堂评价的结果很难进入评价体系,为学校、地方、国家层面的教育决策服务,很难说这不是教育信息资源的极大浪费。
这两个特征清晰地表明,我们评价变革的“通用范式”呈现一种用结果规划过程的取向,这使得我们的决策基础极端不稳定。麦斯雷弗(Mislevy)等人的ECD模式(the evidence-centered design model)支撑了这样的观点:不管测验设计得多么完美,也不能或不应当承担如此高利害的政策功能。更进一步说,他认为,为了确实支持教育政策和实践中的明智决策,寄希望于通过整个教育评价的体系协同合作来提供不同层级和不同类型的关于学生知识和能力性质的信息才是更明智的。[4]更重要的是,研究和实践表明,单一考试的完善从来不可能支撑起一个真正健康的教育体系。任何一种评价方式,其功能都是有所侧重的,依靠单一考试的完善来促进整个体系的健康发展,是将千钧系于一发的高危害行为。[5]
那么,这种评价变革的范式为什么能长久存在并成为我们难以挣脱的枷锁呢?其中牵涉到的原因是相当复杂的。在评价变革过程中,不可避免地存在着深度变革通常会遇到的三大阻力——文化障碍、政策障碍、利益障碍。
首先,这一范式植根于深远的“选举”文化。在我国历史上,“用结果制约过程”一直是我们思考、运作评价变革的惯例。从汉代考试制度正式兴起历经魏晋南北朝、隋唐五代、宋辽金元,直到明清科举制度蔚为大观,“学校科举化,科举学校化”已经融入我们民族的血脉,在这样的“选举社会”中,终点的评价变革成为绝对的关注焦点。更重要的是,在我们的历史上,几乎未曾有过国家层面上的评价体系的规定。在某种程度上可以说,直到此次课程改革开始,以2003年的《教育部关于积极推进中小学评价与考试制度改革的通知》为政策层面的标志,才开始真正在国家层面上关注学校层面的评价变革。
其次,这一范式符合当前回应性的政策设计。如前所述,到目前为止,评价领域的政策大多是回应性设计,高利害的评价所隐含的重大危机一直驱赶政策对评价做出相应的调整和变革,而在这样被动的危机设计中,问题的即时解决而非体系的协调发展成为关注的重心。[6]基础教育评价变革领域的问题是累积、渐进、弥散性的,相当多的问题很难转为政策问题,即使可以,这一转化过程也需要更长的时限。
再次,这一范式最低限度地降低了个人所需承担的风险。当前,学业评价在某种程度上已演变为个人、地方、学校对资源的争夺。评价变革成为“雷区”,它所带来的危机和压力往往是间接通过其他更为边缘性的变革,比如改变教学的内容、方法、提高教师质量等等得以缓解。而“从过程进行变革”意味着个人或地方行动的风险增大,由于担心过程的改革将会危及结果的产出,很少有人敢在此领域中“冒天下之大不韪”进行变革。相反,将评价的责任和风险转嫁到由政府负责的“结果”,不失为一种最保险的方法。在这种情况下,基础教育体系中的评价变革只能变其形式,却难动其本质。
三、评价变革的“范式转移”:指向四个方向的系统变革
克莱波(Craib)说:“每一回你观察世界的角度有所移动时——无论是多么轻微的移动,你就会看到此前未曾看过的事物。”[7]确实,当我们受限于已有的评价变革范式,孤立地看待当前不同层面的评价体系时,往往有无能为力之感。但如果我们转换观察评价变革的角度,立足于不同信息之间的相互补充和流动,我们发现了完善评价体系的巨大空间。
如何在变革中关注过程和结果的互为补充、相得益彰?如何从单一考试的变革转移到对整个评价领域的系统变革?如何提供多种类型的信息,既促进学生的学习发展又提高整个体系的问责能力?在传统的“结果规划过程”视野下,这些问题被极大地边缘化,更难以对其解决做出回答。而当前社会和教育体系对评价要提供各种类型的信息的合法要求,广阔的学习科学、评价理论和实践领域的新进展等都迫切需要对这些问题形成新的洞见。新的评价范式不仅需要拓宽既往“用结果规划过程”的狭隘视野,而且必须同时指向四个方向的系统变革。
一个完整的评价体系的建立,需要这四者的同时完善,鉴于在以往的评价变革中,我们的评价过程(Ⅱ)、过程的信息运用于结果(Ⅲ)两条变革途径太过缺乏,下文着重论述这两条途径。
首先,建立课堂、学校、地方层面上的“促进学生学习的评价”体系。
令人欣慰的是,近年来,我们国家的评价领域在这一点上产生了积极的变化,不管是在国家层面,还是在地方、学校层面,都进行了不同程度的尝试。这些变革在某种程度上改变了当前完全通过完善单一测验带动整体变革的套路,在我们单一的评价文化机体中注入了多样的元素。但是,持续深入变革的复杂性和所需付出的努力仍是巨大的,到目前为止,国内几乎还未曾有过系统的关于这个领域的研究结果,也没有相应的框架可以引导各方人员的行动。
在国外的相关研究中,尽管斯克莱(Scriven)、布鲁姆(Bloom)等人早就对“促进学生学习的评价”进行了界定,同时也勾勒出它应该如何使用——为了教师的教学和学生的学习。但是,它的理论、研究和实践却是直到20世纪80年代后期才大放异彩,而相应的实践研究和应用仍是比较狭窄。[8]因此,如何对各种已有的模式进行比较、分析,在中国特定的文化情境中进行经验研究并合理修正;如何大量收集我们现有的教师、学校、地方对学生学习评价的证据,并在此基础上进行富有针对性的实证研究,是决策不可或缺的研究基础。
这一评价体系建立的必要条件是高度认可教师的专业自主、责任心和能力。从理论上说,教师作为专业人员,作为拥有最丰富学生信息的人,应当享有参与对学习评价的权利,这点在当前美英等国的实践和研究中,也得到了验证,各种研究文献越来越倡导教师在整个评价体系中的核心地位。但是,鉴于我们的国情和当前教育的实际状态,一方面我们确实需要在“促进学生的学习的评价”体系中提升、凸显教师的核心地位,但对教师在高利害评价中作用的厘定要谨慎。因此,需要同步实行提升教师的专业标准,在国家层面上建立对这一评价体系的监控等措施。
其次,将“促进学生学习的评价”的体系所得到的信息应用于问责体系。
这是一个更难攻克的“堡垒”。而只要是同时存在课堂评价和大规模评价的教育体系,都会存在这一问题。近年来,我们国家也在此方面进行了一些努力,如结合大规模考试的成绩、学生的平时成绩,对初中毕业生进行综合素质评定等各种结果共同用于问责体系。但受限于用结果规划过程的范式影响,这些措施的力度和影响力远远不够。
关于此一领域的研究,西方的相关文献可以追溯到20多年前。[9]而在近期的学术和实践研究中,将课堂、学校层面所产生的信息和大规模的问责机制相联系的趋势日益增强,学习科学的发展、心理测量技术的日益完善也加大了它实践的可能性。比如,美国名为BEAR (Berkeley Evaluation & Assessment Research)的课堂评价研究,通过增加课堂评价的信度、效度为教师的教学决策提供更为丰富的信息,并进一步将其和大规模的问责机制联系起来;如澳大利亚的弗斯特(Fosters)和马斯特(Masters)从课程标准出发,为教师开发发展性评价资源包括诸如进步地图等在内的各种教师评价学习的工具,这样得出的评价数据经过处理就可以应用于问责体系中;再如英国当前在政策层面上从“关于学习的评价”整个转向“为了学习的评价”。尽管这些研究模式仍然是少数学校、课堂中的试点,其大规模的推广效果,还未有深层的研究和实证依据,但它们代表了当前国际学生学业成就评价的基本发展趋势,为我们建立为了学习的评价的研究带来新的视角和启发。
不管怎样,尽管考试在今天高利害的问责环境中已经成为主要的政策工具,依赖它可以极大降低政策制定的成本,尽管随着心理测量学的发展它也将不断改进,但是,这些都不能成为我们支持评价变革的“结果规划过程”的通用范式的理由,基础教育体系的健全发展需要突破这一范式狭隘的视野,走向结果和过程互动的评价系统的变革,建立定位更为准确,数据更为丰富,渠道更为畅通而功能更为多样的评价体系。
注释:
①《关于进一步提升普通中学教育质量的几点意见》.中号召试行会考制度(1983);1985年引进标准化考试,制定考试大纲、建立题库,从1993年起,又进行分数制的改革;1978年后,科目从文理分类到3+2到3+X等不断变动;最近几年来,关于二次考试的改革也有了试点和讨论。
②中央教育部颁发试行的小学暂行规定(草案)[Z].
③教育部《关于减轻中、小学生过重负担的指示》.(55)中教张字第109号.
④如1983年12月31日:教育部关于全日制普通中学全面贯彻党的教育方针、纠正片面追求升学率倾向的十大规定(试行草案).(83)教中字016号;1990年3月8日国家教委《印发现行普通高中教学计划的调整意见的通知》,教基[1990]004号。