高考作文改革与评分误差控制:基于测量学的视角,本文主要内容关键词为:测量学论文,误差论文,视角论文,高考作文论文,评分论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、研究问题的提出 2014年9月,国务院发布了《关于深化考试招生制度改革的实施意见》,对高考考试内容与形式改革提出了明确的要求,其中关于“改进评分方法,加强评卷管理”的具体要求,其终极目标指向就是要减少评分误差,确保考试评分的公平公正。作文评分质量一直是心理与教育测量领域研究重点关注的问题之一。国内外许多研究证实,作文评分中存在很大误差,因此作文评分中的误差控制一直是考试研究中的一个重点。从测量学的角度来讲,作文最致命的弱点在于信度,因其评分无法客观,信度难以保证,更无从谈及效度。 影响作文评分的主要因素有三个层面:考生层面、作文层面和评分者层面。就考生层面而言,主要是考生的写作能力,这也是测量的目标,但显然考生的书法质量会带来评分误差;就评分者层面而言,造成评分误差的原因多种多样,评分者对标准的掌握、评分的宽严程度,评分者的个人喜好、疲劳程度,以及在评分过程中的犹豫等个体差异都会损害评分信度[1]。就作文层面而言,作文任务类型会同时影响考生的作答和评分者的评分,作文任务难度和评分标准等也会引起评分员评分的差异。 近些年,网上(无纸化)阅卷技术为作文评分过程带来了巨大的便捷,考生的作文图像通常要经过两名评分者“背对背”评阅,有的甚至要经过三评、四评,最终得出一个合理的分值。虽然网上阅卷系统通过阈值设置和误差监控等对评分者评卷过程和质量进行了一系列控制,但对评分一致性的过分关注造成了习得性的“越保守,越安全”的趋中评分现象[2]。其中语文作文评分最为明显,以某年高考语文、英语的作文得分为例,总体来看,语文作文的平均分较高,但标准差过小,这就表示考生的得分集中在中等偏上的高分区,且评分出现了比较明显的趋中效应,因此对考生的中文写作能力没有很好地区分开。 从测量学角度,高考作文如何改革才能提高作文评分的信度呢?从前面提到的影响作文评分的三个层面的因素来看,考生因素可以暂不考虑;因网上阅卷系统已有比较成熟的质量评价体系,评分者因素只能是“加强评卷管理”;作文因素,或者说作文设计本身如何改革,也许更值得考试工作者研究和思考。 从测量学技术手段分析,关于作文评分误差的早期研究多采用经典测量理论(CTT),主要关注评分主体即评分者的一致性。随着研究者对评分误差来源的深入认识,以及测量理论和计算机技术的发展,近些年,开始越来越多地关注评分标准的科学性、评分者的数量、试题的形式,以及上述因素的交互作用等对评分误差的影响。这些误差来源使用传统的经典测量理论无法有效评估,概化理论(GT)和多面Rasch测量模型(MFRM)则在不同程度上解决了此类问题,成为当前探讨作文评分误差的主要手段[3][4][5]。 本文聚焦作文本身的改革,探讨作文评分量表的设计以及作文任务的数量对评分信度的影响。研究者分别采用多面Rasch模型和概化理论模型,试图从现代测量学的视角为减少作文评分误差提供一个可能的改革思路。 二、改革作文评分量表设计:大小两种评分量表的评分误差比较 1.研究背景 目前国内外涉及作文的大规模考试中,只有我国作文部分的分值较大(大评分量表),不论是汉语作文,还是外语作文,且作文成绩计入总分;而美国、英国、德国、澳大利亚等国的考试项目作文部分的分值均小于10分(本文称为小评分量表),且报告分数独立于总分。 国外考试为何都选择小评分量表?在对比国内外考试作文评分量表时,我们最关心的是评分量表的大小是否影响评分效果?具体来说,同一组评分者如果采用两种评分量表评价同一组考生的作文,我们会问:①评分的趋中效应是否存在差别?②对评分标准的掌握是否存在差别?③评分的稳定性是否存在差别? 2.研究设计与研究方法 6位评分者先后分别采用大评分量表(0~60/0~40)和小评分量表(0~6),分别对某次考试中113名考生(每名考生完成两篇作文)的226篇作文进行评分。研究者采用多面Rasch模型,使用FACETS软件对数据进行了分析。 3.研究结果 研究发现: (1)大评分量表趋中评分现象严重,不能很好地区分考生的写作能力;而且大评分量表中,评分者使用的有效分数范围没有涵盖理论值,作文的满分值越大,评分者使用的有效分数的比率越低,60分制中,有40%的分数值没有被使用。 (2)大评分量表下评分者对考生作文的评分标准更为宽松,评分比率排名前三的等级集中在高分区,即对考生能力普遍高估(见表1)。高考作文改革与分数差错控制&以测量学为视角_测量学论文
高考作文改革与分数差错控制&以测量学为视角_测量学论文
下载Doc文档