重建高考作文评分规则的思考,本文主要内容关键词为:高考作文论文,评分论文,规则论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
“花里胡哨的作文竟是满分作文!”已经不止一次听到这样的忿忿之言了。
诚然,作文评分受到诸多因素制约,是评价的世界性难题。但是,当质疑的声音聚焦于2012年浙江省30多万份作文卷中选出的6篇满分作文时,我们需要思考的,就不仅是阅卷员的主观性问题(如立意定势、风格偏爱、趋中倾向等[1]),还有其他更为关键的问题。
一、满分作文的粗略评点
根据网上评卷双评差值“语文作文双评或三评中出现满分,系统自动提交进行终评”的规定,一篇满分作文的产生至少三评,且一般经作文组长或学科组长审查终评。也就是说,6篇满分作文,其优秀性最符合评分规则中的优等标准,几无瑕疵。真是这样吗?
限于篇幅,我们只能窥斑见豹。请看某考生《矮纸斜行闲作草》,全文以“坐在路边鼓掌,其实也挺好”立意,第1~3段(302字)为第一部分,用华丽的文笔铺垫,再提出观点;第4~9段(470字)为第二部分,以“苏子的旁观”和古语“无欲则刚”展开形象论述;第10~11段(91字)为第三部分,以“但求闲作碧池边的一席矮草”点题并为全文作结。
作者具有清晰的立意、严密的构篇和老练的语言驾驭能力,这不容否定。但是,文中所说的“旁观”“无欲”,是否就是在“路边鼓掌”?用苏轼的材料,是否也有套话作文“题材总是选用历史文化(文学)名人”之嫌?全文议论、抒情、描写兼用且分类相当,属于“论述类”还是“文学类”?如归入“散文”,又是哪类散文?如此等等,自可见仁见智。
其实,所以选这篇考场满分作文说事,实在因为它具有近几年浙江省高考满分高分作文的典型样貌:题意上,善借命题中的关键词点化全文;素材上,巧用历史文化(文学)名人和所谓的“陌生化名言”;文体上,崇尚散文化的议论文;语言上,善用诗化语言。
然而这篇满分作文,如果让北京市高考语文阅卷组负责人、北京大学中文系漆永祥教授来评,将会如何呢?在接受《中国青年报》记者采访,回答“高考作文质量下降主要体现在哪些方面”一问时,漆教授说:
存在的问题非常多。首先,在所谓“攻略”的引导下,不少作文“假大空”,程式化、模块化严重,模仿痕迹明显;其次,喜欢用生僻、华丽或怪异的词藻,排比句型,夸张语言或者四不像的“文言文”,来表现自己的知识面和写作才能;第三,内容空洞无物,没有生活气息、真情实感,没有年轻人的朝气;第四,错别字、替代词甚至网络语言使用越来越多。[2]
以笔者所见,漆教授所说的“假大空”“用华丽的词藻,排比句型来表现自己的知识面和写作才能”“内容空洞无物,没有生活气息、真情实感”这些词句颇可以用作这篇满分作文的“评语”。难保漆教授不会将这篇作文打入二类、三类之列。
为何如此?是浙江阅卷者的集体风格偏爱,还是阅卷团队存在强权?但满分作文至少是三人匿名评断的呀。笔者以为,所以如此,必有多方面原因,但“上有所好,下必甚焉”,评分规则这根高考的“指挥棒”难辞其咎!
二、现行评分规则的问题思考
评分规则就是用来评分的准则或规定,通常包括等级/水平、描述符和表现样例三部分,作为一种评价工具,它提供表现程度或水平的描述,适用于对学生复杂表现或作品(如作文)的评价。[3]现行的高考作文评分规则包括分项评分规则(习惯称为“分项分等评分标准”)和整体评分规则(一般设五类,每类有特征描述)两类。
(一)现行评分规则的静态分析
根据朱迪思·阿特等的研究,合格有效的评分规则应考虑内容/覆盖面、清晰度/详细度、实用性、技术合理性等方面。[4]现行的评分规则,无论是分项还是整体的,均基于《考试说明》,汲取了我国近百年来有关写作能力、写作要素研究的成果,总体是合格有效的。
但是,现行的评分规则,下列问题不能不引起思考。
1.是否抓住“关键因素”?内容是全面的,一般包括基础等级的“内容”和“表达”、发展等级(或称“特征”)。但是,它是否足够成为判断高考作文的“关键因素”,也就是说,是否抓住最能区别不同水平作文的核心指标,却是要打问号的。
2.描述是否足够清晰?“足够清晰”,意味着运用同一评分规则,不同的教师,或同一教师相隔一段时间,能对同一篇作文给出一致性高的评定。这一点,由于语言本身的模糊性、要素描述的概要性,始终是作文评分的世界性难题。如今的评分规则也并没有突破。
3.内容再完整,描述再清晰,还需要操作简便,这就是实用性的要求。从如今的阅卷操作看,有多少阅卷员能记忆评分规则,并严格遵循规则?
4.技术合理性方面,一般要求整体的评分者一致性不能低于65%,单个评分点不能低于98%。[4]目前我们没有见到高考评分的相关数据,估计这是非常高的一个指标,少能企及。
(二)现行评分规则的操作分析
有了合格有效的评分规则,尚需对评分规则的合理使用,否则也会影响评价的效度、信度。在作文评分规则的运用中,下列问题不能不引起注意。
1.分项评分规则形同虚设。传统阅卷,阅卷员用笔打分,尚能在作文上画画圈圈,最后写出“内容+表达+发展(特征)”分项分和总分。而今网上阅卷,只用键盘、鼠标输入评分,分项评分难以持续,名存实亡。
2.整体评分规则如何落到实处。对大范围且要求快速评分的高考作文评分来说,分项评分远不如整体评分。但由于“关键因素”没有考虑文体(特殊写作能力)分类等,其通用性(如立意深刻、结构严谨)受到限制,评分规则的实用性就大打折扣。
3.“操作细则”如何补充“等级评分标准”之不足。不管是分项的,还是整体的作文评分规则,总不能罗列全部的评分点。从现行的各省操作看,均有“操作细则”,但从我们见到的情况看,均失之过简,未能起到统一阅卷分歧点的作用。
4.“表现样例”是否典型,是否经过足够的讨论并形成共识,这是操作的关键。学理上说,表现样例应是“事先”的,与评分规则一同制订。在高考作文评分中,却只能“事后”的,在足够的试批中甄选。但从这几年非官方流出的例文看,其“样本”性质显然不足。
(三)现行评分规则的效用分析
评分规则要满足客观、公平、快速阅卷的需要,这是首先要思考的。但是,仅此是不够的。为什么“满分作文”遭人质疑?为什么良善的阅卷者激愤而言“作文评分是草菅人命”?为什么难以破解学科专家屡屡感叹的“高考作文质量下降”难题?
我们认为,这与没有发挥评分规则的教学引导作用有关。尽管高考与日常的形成性考试相比,不需要反馈分项得分和补救教学,但对后来的考生具有重要的学习价值,对教师具有教学价值。如何发挥评分规则与命题所共有的“指挥棒”作用,值得探索。
三、高考作文评分规则的重建
既然现行的评分规则有诸多问题,就当加以重新审视,并作审视后的修订或重建。
(一)“关键因素”的厘定
开发评分规则,首要任务是弄清足以区别作文水平高低的特征,也就是“关键因素”。根据初步的研究和实践,我们认为,高考作文评分规则的“关键因素”有审题立意、材料运用、文体特征、结构布局、语言表达、卷面格式等六个维度。
1.审题立意,意在检测审题、确定中心(即立意)的能力,包括三个子因素(或评价项目):一是切题情况,二是立意的清晰度,三是立意的高下。
2.材料运用,意在检测素材的积累、选择和组合的能力,包括三个子因素:一是与作文中心的一致性,二是材料的质量,三是对材料的处理。
注意,不同的文体对材料的选择、处理有所不同,如能加强这方面的权重,正确引导学生梳理生活积累、丰富阅读积累,可有效控制“套话”作文,实现写作本真的回归。对满分高分作文的指责,莫过于内容空泛,与传统作文“言之有物”的认知相背离。
3.文体特征,意在检测选择、运用体裁的能力,包括两个子因素:一是符合某一文体惯常特征的情况,二是表达方式的运用与文体特征的契合度。
近年来高考高分作文的文体特征模糊,样例单一(少有典型的议论文、记叙文),“四不像”作文泛滥,与《课程标准》《考试说明》的表述模糊、与“文体不限”导向的误读有关。如要纠偏,专家解读、日常教学、高考评分都需要作出努力。
4.结构布局,意在检测思维的条理性(思路)和结构安排的能力,包括三个子因素:一是段的划分,二是段的排列,三是段的技巧性处理。
结构布局,可以简称“文脉”。文脉清晰的文章,有助于实现作文“作者—读者”的言语交流。传统作文要求“言之有序”,其内在表现为思而有路,外在则表现为段落的处理,实际上是内外兼顾的,评分中要注意“隐”和“显”之间的平衡,鉴别纯技巧的投机者。
5.语言表达,意在检测语言表达能力,其评估价值是由语文学科的性质决定的,包括两个子因素:一是规范、通顺的程度,二是丰富、灵活的程度。语言是写作中最为稳定的因素,而其评分主观性最强,易受阅卷者的语感强弱和风格偏爱影响。不少教师偏爱华美,学生效而从之,助长华而不实的文风蔓延,应当引起重视。
6.卷面格式,包括四个子因素:一是正字,二是标点,三是格式,四是行文(字写得是否漂亮)。前三者属于书面表达的纯技术性要求,评估的客观性最强;后者属于书面表达的美学效应,容易“先入为主”,导致晕轮效应,影响综合成绩的评定。
(二)评分方法的选择
确定关键因素后,还需要选择评分方法。评分方法,依据评分规则的类型,分整体法(综合法)和分项法。选择的基点,一是有效性,哪一种最能体现评分结果一致性、实现跨时间稳定性,具有理想的区分能力;二是实用性,哪一种更适合阅卷者的经验,以实现有效基础上的快速阅卷,做到公平、效率兼顾。
1987年江西、1991年河北曾有这方面的实践检验,整体法和分项法的相关系数分别为0.885和0.924,没有实质性差异。[1]高考作文评分均可采用,问题是具体怎么操作。
1.整体评分法的运用。整体法的优势是快速作出评定,其快速在于:①作文本身的特点,关键因素的分解只是研究的需要,实际上彼此联系成为一个整体;②阅卷者的心理特点,阅卷者对评分规则的掌握是靠记忆来保持的,这种记忆带有抽象性和综合性;③阅卷者的专业判断能力,成熟的阅卷者能快速阅读并作出判断。
我们在2011~2012学年区、校两级高三作文阅卷中,设计和采用了整体法。
(1)六个方面都较优秀的,可判一等(51~60分)。
(2)四个方面较优秀的,其他两个方面一般的,可判二等(45~50分)。
(3)三个方面较好的,其他三方面一般的,可判三等(39~44分)。
(4)有两个方面问题很突出的(卷面格式除外),可判四等(33~38分)。
(5)离题,套作,字数在600字以下,有三者之一的,可判五等(32分以下);其中离题且字数不足400字的,20分以下。
与高考作文的纯选拔性不同,这样的设定,是基于教学反馈、阅卷速度,而其效度、信度等都缺少研究和检验,仅作为例子使用,具体操作有待于完善。
2.分项评分法的运用。需要解决两个问题:一是分项的数量和各项的权重,二是网上阅卷的技术支持。根据信息加工学原理,人们对项目、等次的区分能力大致在3~7个(级)之间,超过7个往往难以辨别。作文评分的六个“关键因素”,在正常的辨别阈内,但还是不够简便,为此,我们需要重组,粗略设计如下:
内容(20分):审题立意,材料运用。
形式(15分):文体特征,结构布局。
语言(20分):语言表达。
文面(5分):卷面格式。
一般认为,作品的“形式”包括结构、语言、体裁。我们将“语言”单列,是为了凸显其在写作能力构成中的地位。“文面”可有三种处理:一是独立设项,控制权重(如上);二是并入“形式”;三是做加减分处理,列入“操作规则”。如果分项评分,阅卷屏幕就需要设置分项,阅卷者分项打分,由机器生成总分,在不增加阅卷人员劳动强度的情况下,使分项评分与整体评分结合起来。
3.建立评分模型的考虑。阅卷者对评分规则的记忆特点,无论是整体评分还是分项评分,都不具有亲切性和直观性,能否借助统计学、工程学的方法,将分项(含权重)、整体评分、操作规则等综合思考,开发类似“九九乘法表”“天体运行图”那样的模型,以提高阅卷的效度、信度和速度,寄希望于更多的研究和探索。
(三)操作细则和表现样例的确定
确定评分规则和评分方法后,就是评分规则的操作。评分规则的操作,涉及配套规则的制订、阅卷员的规则使用、考务管理等方面。这里只谈操作细则和表现样例的确定。
1.必须高度重视细则和样例。广义的评分规则应包括操作细则、表现样例。高考作文评分规则进入使用阶段,必须尽快确定操作细则、表现样例,以解决规则的模糊性、抽象性问题。另一方面,每次考试的试题都有个性,都有与其他试题不同的地方,而且考试作文的实际写作情况,都有超出命题预想的,显出“事先”制订的评分规则不完善的地方。
2.多种确定方法并用。一是阅卷核心组专家确定,这需要在阅卷员集中前完成;二是让全体阅卷员在试批阶段参与细则制订、样例确定;三是前两种方法的综合。确定后的细则、样例,都需要点评、解读和充分的讨论,以取得最大的共识。
3.细则和样例的“质”的规定。作文的“操作细则”,需要有利于解决评分规则操作中的实际问题。如“审题立意”三个子因素,要结合学生作文的多样性,尽可能明确评分规则中“切题”“偏题”“跑题”和“立意深浅”等比较模糊的概念,确定等间距离、分界,尽可能在试批环节就减少阅卷员的随意性和立意思维定势的干扰。
表现样例,则要解决三个问题。一是各档例文的选定,未必需要各档的最佳。在阅卷实践中,常出现一、二类卷不敢打高分,四、五类卷不愿给低分,从而形成趋中倾向,因此一、二类卷应取下限,三类卷取上下限,四、五类卷取特征。二是有足够的例文数量,如果将作文分为五等,每等又分上、下,那么需要的例文量为5×2=10篇,如果再分文体,则需要20篇或30篇,这在试卷随机流转、阅卷强调速度的情况下,是很难做到的,但并非无法可想。三是例文要附有依据评分规则作出的评语,明确评等评分的理由,把评分规则具体化。
(四)评分规则教学效用的发挥
要发挥评分规则的教学效用,“公布策略”是首选。华东师范大学课程与教学研究所崔允漷教授曾说:“没有理由把学生蒙在鼓里,不让他们知道你要评价什么、你将依据什么标准来评价。提前给予学生评价内容和评价标准,他们可以为此早做准备。”[3]
如何“公之于众”?其方法很简单,在《考试说明》的参考试卷中提供试卷中作文题的评分规则(含操作细则、表现样例)。其实,这件事并不难做,近年来许多省份都组织了对参考试卷在抽样学校的试测,将试测检验后的评分规则、操作细则和表现样例公之于众,听取基层意见,完善评分规则,另一方面作为很好的教学材料。
不要担心这会引导师生考什么教什么学什么,威金斯指出,如果这个考试是有价值的、值得学生去花时间的,这不成问题,关键是你考些什么,是否能达成标准。[3]实践中,我们将月考和县、市模拟考阅卷后的评分规则、操作细则和表现样例提供给学生,已经证明这种担心是多余的,反而有助于学生更好地诊断自己的作文问题,写出更满意的作文。