PISA阅读素养测试阅卷程序之启示——PISA 2009阅读素养测试与上海语文中考的比较分析,本文主要内容关键词为:素养论文,测试论文,上海论文,中考论文,启示论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
PISA是近10年来出现的较具权威性的国际学生评价项目之一,是一项针对15周岁在校学生的国际性评价项目。2009年上海第一次正式参加此次测试,其中阅读为本次测试的主项。笔者有幸被聘为本次测试的阅卷专家参与了整个阅卷过程,对PISA阅读素养测试(以下简称PISA)的阅卷程序留下了深刻印象。本文希望通过PISA与上海初中语文学业水平考试(以下简称上海语文中考)阅卷程序的对比分析,为上海建立科学有效的学业质量监测和评价体系提供一定的思路。
一、PISA阅读素养测试阅卷程序分析
(一)阅卷程序
为保证测试内容的公正,PISA建立了严格的命题、选题、阅卷的程序。尤其是在阅卷环节上,致力于保证评价结果的公正性。
PISA阅卷环节可以用图1表示:
图1 PISA的阅卷程序
这样的阅卷程序,体现的是程序公正的原则。
所谓程序公正,本义是指制定和实施法律、法规、条例及其他政策时应遵循公正合理的程序(流程)安排,即“正义不仅要实现,而且要以看得见的方式实现”。将此概念借用到阅卷过程中,目的是为了体现PISA的每一个环节都有严格的规范,都是可控的,是“看得见的”。这样的程序公正就能保证PISA测试结果的公正性和科学性。
(二)程序解读
在PISA阅卷程序中,“提供评分标准”和“评分者培训”是整个阅卷环节最重要的两个组成部分。
首先看评分标准。PISA 2009阅读测试的评分标准由检测的能力点(题旨)、评分原则的描述、参考答案、其他有代表性的符合要求的答案及错误的答案五部分内容构成。其中“评分原则的描述”是评分标准的核心内容,不但明确了得分的具体要求,而且对答案的开放程度也做出了规定。有些难度较高或答案开放程度较高的题目,对正确或错误的答案依据评分原则还给出了为什么对或错的描述,其实际意义是明确评分的临界线。由于评分标准比较复杂,评分者需要花一定的时间进行研读。只要在培训过程中评分者真正领悟和掌握这一标准,不同的评分者就能较好地达成评分的一致性。
PISA阅读测试评分标准的形成基础是PISA对阅读素养的界定和水平量表,“检测的能力点(题旨)”和“评分原则的描述”由此生成。对于阅读测试来说,主观性试题对考查学生的阅读素养往往是不可缺少的,因为它可以考查学生对文章的理解感悟等较高层次的心智活动,并且能够给予学生自由表达个人阅读感受的机会,但这种题目的使用也带来一系列问题,例如“评分者效应”难于控制便是主观性试题的一大弊端。由于有前测,PISA测试可以在制定评分标准的过程中参考已有的学生答题情况,并选择具有典型意义的不同答案作为评分标准的组成部分,为评分者更好地掌握评分尺度提供清晰的参照,从而确保了评分标准的科学性和可解释性。
其次是评分者培训。经上海市教委教研室推荐和上海PISA测试研究中心的相关测试选拔,共确定评分专家16人,最低教龄不少于10年,年龄上限不超过45岁,区教研员占80%,高级职称占60%,从而确保了评分队伍的高素质。负责培训的专家均在国际PISA会议上经过严格培训。为保证评分质量,评分严格按照国际规范,每天评分时间不超过6小时,每两小时必须休息10分钟。整个评分过程有21天,而评分者培训的时间就达到6天,占整个评分时间的近三分之一,PISA对评分者培训的重视可见一斑。
在具体培训过程中,PISA测试为培训提供了《评分指南》、《国内样例》、《国际样例》和《工作坊材料》四份材料,按照专有的程序进行培训。培训专家首先带领评分专家仔细解读《评分指南》,《评分指南》在搜集国际国内体现不同答题思路的数量众多的样例的基础上,按照“阅读素养的5级水平概述”量表的要求将评分标准分层、细化,根据不同的层次或角度赋以不同的评分代码,可操作性强。评分过程中,《评分指南》的评分标准不可随意更改,评分专家必须严格遵照执行;实际评分时站在考生的角度,在答题成功的前提下尽量去理解学生的答案。当然,因为试题来源于不同国家或组织,各国提供的评价标准在操作时也有不完全平衡的地方,有的标准严,有的题目又相对比较松。
《评分指南》解读完毕,评分专家必须研习《国际样例》、《国内样例》两套练习卷,前者提供的是国内学生在试测过程所做的回答样例,后者提供的则是国际学生在以往测试中的回答样例。设计这两套练习卷的目的,是使评分专家对不同文化背景的学生所做出的最通常的回答样例,以及那些可能接近评分等级分界线的答案,都能做出恰当和具有一致性的评判,,作为培训的总结,评分专家必须完成《工作坊材料》中的所有例题,并根据先前所确定的评分标准来检查各自的评分情况,只有准确率达到80%以上才能参与正式评分。在最终确定的评分标准中,《工作坊材料》是作为评分标准的重要补充,它提供了各个回答水平的更加详细的描述和更多的具体样例,是为了说明所期望的一系列回答以及学生回答主观性试题的最通常的答案。为了使评分者在具体阅卷中对答案有更清晰的认识,练习卷中的回答样例都有明确的注释,以此来解释给分的根本原因。
为进一步保证评分的有效性,PISA还设置了多次评分环节。16位阅卷专家依次编号,编号最后4位的专家参与多次评分。学生答题本的封面上都贴有专门设计的表格,内容包括评分专家编号、题目编号等,单次评分与多次评分的题目均用不同颜色标识,多次评分的题目组约占总题量的三分之一。在终端计算机输入时,会及时生成某位评分专家的评分准确率,评分监督会根据统汁情况及时决定是否终止其评分资格。
通过上述分析,我们发现,PISA测试在阅卷评分过程中,非常重视程序的清晰性和可操作性.在具体执行过程中,又体现了人性化和精细化,从而确保了测试结果的公正性和科学性。
二、上海语文中考阅卷程序分析
(一)阅卷程序
近几年,上海采用计算机和人工相结合的阅卷方式,具体阅卷程序可用图2表示:
图2 上海初中学业水平考试语文卷阅卷程序
(二)程序解读
从程序上看,上海语文中考也同样制定了“提供评分标准”和“评分者培训”两个步骤,但在操作的精细化方面还有待改进。
从评分标准看,2009年上海语文中考卷阅读部分的评分标准只有测量目标、分值分配、参考答案三部分内容。而其中的“测量目标”是直接引用“考试标准”中的表述,缺乏直接针对题目评分的原则性描述。由于缺乏对不同等级水平的具体描述,即使命题者有心将评分原则描述得更详尽、清晰,也会陷于“评分原则”缺乏依据的尴尬之中。整个评价标准没有一个专门的评价量表,只在具体的题目后面根据该题的总分值确定本题的评分建议,对于分值低于5分的题目一般只提供一个参考答案或答题要点,有的题目可能有部分得分情况出现,则在参考答案后加以补充说明,个别分值高的题目虽然也分档次评分,但档次之间的表述比较模糊。
再看评分者培训,由于受招生时间节点的限制,整个中考阅卷的时间只有6天左右,一般在考试结束第二天即开始,因此培训时间包含在阅卷过程中,时间不超过一天。阅卷者都是由区教研员将名额分配给各个学校,对阅卷者的教龄、职称等都没有严格规定。
就培训过程而言,由于缺少前测,培训者和评分者只能依据学生的实际测试卷进行培训,客观上给部分学生带来了评分上的不公平。培训者也不提供相关的评分指南,虽然在培训中命题者会将命题意图作为评分原则传递给评分者,但这种口口相传的“评分原则”由于缺乏具体的学生答题情况的参照,评分者在面对五花八门的答案时就很难把握评分的临界线,评分误差在分值较高的主观性试题中就难以避免,从而造成“评分者效应”难以有效降低,有损评分的一致性。评分者根据“参考答案和评分建议”在操作时一般采取缺陷评分的思维方式,实行的是“找错误”的扣分制。所以学生试卷上会出现半对的情况,但学生很难知道自己错在何处,所以也会缺乏改进的思路和方法。
(三)对比分析
从图2可知,除了前两个步骤,上海语文中考阅卷程序与PISA的阅卷程序相比,主要差异在于“第二次评分”、“第三次评分”以及计算机参与评分。以下稍作展开。
增加“第二次评分”显然是出于对评分者掌握评分标准的顾虑,而不是为了检测“第一次评分”的有效性,而增加“第三次评分”则是为进一步强化其公正性。当然,“第三次评分”客观上还具有求证功能,即求证前两次评分哪一次的信度更高。但由于“第三次评分”依然是整个评分过程中的一个环节,其求证或检测功能实际上并不存在。
再看让计算机参与评分会出现怎样的结果。
在上海语文中考阅卷程序中,计算机可谓“位高权重”。无论试题经历两次评分还是三次评分,最终都要经过计算机的检验才能生成最终得分。
当设定的阈值为零,且“第一次评分”和“第二次评分”一致时,计算机自动生成最终得分,并与前两次评分保持一致。在这一过程中,计算机其实并没有起到检验的作用,检验评分一致性的任务是由“第二次评分”提前完成了。同理,当设定的阈值为零,但“第一次评分”和“第二次评分”不一致时,计算机会请求“第三次评分”,如果“第三次评分”的阈值同样设置为零,那么“第三次评分”就自然地承担起检验前两次评分有效性的责任。在这一过程中计算机依然是个“旁观者”。然而,这正是计算机应该扮演的角色。
当设定的阈值大于零时,问题就变得完全不同了。“第一次评分”和“第二次评分”的差异在阈值设定的范围之内,计算机就充当了最后的裁决者,快速地求得前两次评分的均值生成最终得分。这一最终得分,既不是“第一次评分”的得分,也不是“第二次评分”的得分,而是计算机评出的分。那么,计算机给出的分是否准确、公正呢?以下面的例子来说明。
2009年上海语文中考卷第19题总分为9分,如果阈值设定为1分,某位学生的答题“第一次评分”为8分,“第二次评分”为7分,在设定的阈值范围内,那么这名学生这一题的最终得分就是7.5分,这是计算机给的分。这一评分过程中可能存在以下三种情况:第一,“第一次评分”是准确的,在计算机参与了评分之后,这位学生在这一题上的得分少了0.5分;第二,“第二次评分”是准确的,这位学生幸运地在这一题上多得了0.5分;第三,前两次评分都不准确,真实的得分或大于8分,或小于7分,计算机给出的7.5分无疑是在扩大评分误差。如果前两次评分的差异大于设定的阈值,那么就需要“第三次评分”。假设上述的同一份试卷中的同一题,在“第一次评分”中得9分,“第二次评分”中得7分,“第三次评分”的阈值设定同为1分,在“第三次评分”中会出现以下四种情况:第一,“第三次评分”得9分,最终得分为9分,同时证明“第一次评分”是准确的;第二,“第三次评分”得7分,最终得分为7分,同时证明“第二次评分”是准确的;第三,“第三次评分”得6分,就将重演上述两次评分在设定的阈值范围内的三种情况;第四,“第三次评分”得8分,计算机会如何给分呢?是给8.5分,还是给7.5分?
以上分析只是基于一道分值为9分,阈值设定为1分,而且答案相对容易界定的阅读填空题,如果是分值更大,阈值设定也更大的题呢?比如“写作”,上述分析会依然有效,而其荒诞性也更加明显。
可以得出以下结论:主观性试题阅卷评分的准确性和公正性只有评分者才能做到,也只有依靠评分者才能做得更好,计算机只能用于处理表示分值的数字,而不能参与主观性试题的评分。因为主观性试题评分的公正性需要一个能够“看得见”的程序,而计算机参与评分会制造出太多“看不见”的东西。
三、结论和建议
(一)结论
通过对比PISA与上海语文中考的阅卷程序,我们发现貌似差异不大的程序背后蕴含的却是理念上的明显差异。
PISA重在考查学生通过阅读解决应用型任务的能力,按照PISA的观点,应用维度要求学生能够在特定的“情境”下来阅读文字材料,所以PISA提供的文本必须具备情境要素。有数据显示:在已进行的三届阅读测试中,约有45%是要求建构式反应的测试题目,评分者在给这些题目评分时包含有较多的主观因素,而为了保证测试结果的公平公正,提高测试的信度和效度,就必须形成一个切合学生能力水平的科学完善的评分标准,这个时候一个透明公正、具有可操作性的阅卷程序就显得极为重要。
(二)建议
上海的语文教学改革已持续多年,在课程建设、课程实施等方面已取得了较好成果,但在课程评价领域仍需作进一步探索。随着课改的深入,母语教学最终应落实到“言语层面”已经成为大家的共识,而语言学习更多地需要学习者自身的主观感悟,在语文阅读测试中如何对此做出科学有效的评价,目前还有很多问题亟须解决。PISA给我们提供了很好的借鉴和启示。为此,笔者对上海语文中考提出如下建议:
评价标准方面:
(1)制定学业水平等级量表,用描述性的语言具体、清晰地表现各个水平标准。
(2)评分标准的制定要与命题同步进行,评分标准在缺乏学生前测的情况下,可以参考相近测试中学生的表现,准确把握学生的水平状况。
(3)适当延长从考试到阅卷之间的间隔天数,以利于补充具有典型性的评分样例;扩充阅卷中心组人员,以期在最短的时间里,在评分者培训开始之前研制出表述具体、操作性强的评分标准。
阅卷程序方面:
(1)为评分者提供内容具体的评分标准文本;适当增加评分者培训的时间,丰富培训内容。
(2)利用计算机阅卷网络平台,开发评分者评价工具,用于检验评分的一致性和监控评分质量,让计算机做该做的事。
(3)适当增加阅卷时间或增加评分者人数,有效降低评分者单位时间的工作量,将“评分者效应”的影响降到最低。
上海的二期课改已历时十年,如何建立科学有效的学业质量监测和评价体系,从而进一步促进和提高课堂教学的有效性,是当前基础教育的主要任务之一,相信PISA测试的引入会给我们的学业评价探索注入新的活力。