反思我国对语文测量的评价,本文主要内容关键词为:测量论文,语文论文,评价论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
我国是一个考试的大国,从科举至今的一千多年,除文化大革命的二十年外,凡涉及个人重大地位变化的几乎都要进行考试。在进入21世纪后,更是如此,大至副厅甚至厅级干部,小至单位招考一名保安文员,都要进行考试。
由于考试的社会需求历史悠久至今仍然旺盛不衰,考试测量的水平自然也就不断提高,其中,语文的测量评价显得尤为突出。特别是改革开放以来,当人口激增、竞争趋烈,语文这一古老而又基础的学科首先在高校招生的全国统一考试中体现了出来。不断开辟考试领域,从只考作文发展到考古文翻译,考语文知识及语言表达技能的运用,考成篇现代文阅读,考科技文阅读。考散文阅读,考见仁见智的文学鉴赏。就是作文,也从标题作文、材料作文、看图作文,到范围作文、选题作文、话题作文。在确保全国性考试的公正性前提下也不断地探索命题技术的提高,学习借鉴国外的主观客观试题的命制方法,不断调整选择题所占的比例,不断探索作文评分误差的控制,不断改进主观题包括作文的赋分方式。所有这些努力,有力地牵引和指导了中国特别是高中的语文教育,促进了语文教育与社会发展的有机结合,得到了广大语文教育工作者的充分肯定。
然而,对语文考试测量的评价,不仅没有同步发展,反而呈现出了严重滞后的局面。
由于高考是改变一个人社会地位唯一正确的途径,高考在我国的社会地位就成了基础教育最终最权威的测量,高考语文的考试自然就牵动着社会方方面面尤其是语文教育者们的关注。每年高考语文试题一问世,社会上自然就有成千上万的评价。新闻媒传对其他的学科内容一时弄不懂或记不住,但是作文题目却是以最快速度刊登了出来。接着,横挑鼻子竖挑眼的有之,重温当考生的感觉去家里写高考考场作文的有之,查找工具书对十多页试卷进行校对找错的有之,写文章进行商兑甚至讨伐的有之……沸沸扬扬,从六月的报刊网络开始一直热闹到语文教研杂志的年底。这种群众性的社会性的批评,一定程度上促进了高考语文命题组的博导专家们的反思,在当年秋季的试题评价会上再听取各地意见,这样,来年的高考语文试题的命制水平和命制技术都自然会得到不少的提高。尽管1997年秋后,一些人随着世纪之交的反思与亢奋,全然不看不管我国高考的实际和语文高考测量的进步,从一些形式和枝节问题入手,脱离大规模选拔考试的实际,按照农业文明时代的语文考试思路进行狠揭猛批,但是,这种急风暴雨式的情绪化的评价不是真正意义上的对测量作出的科学和理论上的评价。虽然一些人身居高位,由于缺乏基本的现代测量常识,也无法继续对高考语文测量提出评价提出建设性的意见来。
我国的中考语文是一个特殊的考试,全国有初中语文教学大纲,但是没有全国的中考语文考试大纲,没有对中考语文进行研究的专门机构,更没有深厚的理论支持和热心于此的专门的教育研究人员,因此,多年以来是姐姐做鞋妹妹学样,紧随高考语文测量探索的步子蹒跚前行的。但是,由于涉及的地域面相对比较窄,考试的性质又兼顾很难兼顾的选拔与毕业,命题人员的变动非常大(有的地方为了保密是临考前二十天临时抓阄选人),中考的考试大纲相对比较粗疏(有的地方连写作与阅读的要求都刚好弄反),准备时间短,试题的稳定性比较差,考试的结果自然波动就比较大。然而,对中考语文测量的评价,多年以来却没有提上议程,全国性的语文教研杂志对局部性中考语文的试题不愿意刊登评说的文章,本地的内部刊物有时也登上几篇,也往往是命题者或者命题组织者处于自身利益出发而组稿几篇叫好的文章,行政人员看了高兴,广大语文教育工作者很有意见的文章。长此以往,中考语文(其实也包括其他学科)试题的命制水平越来越参差不齐,社会反响越来越大,对平时的课堂教学的负面影响越来越厉害,一定程度上还波及到了小学。一些小学也在不适当地拔高对语文测量的要求,用选择题来替代基本的纸笔作答,学生逐渐远离文本和文题去猜题猜答。
教育部基础教育司1998年开始出面对中考首先是对中考语文考试进行直接管理。先在全国确定了七个中考语文改革试点地区,然后每年对试题组织人员进行评价。这一来,全国各地的中考语文试题逐步好转,死记硬背的试题在减少,客观选择题在减少。到了国家级课程改革实验区的第一批学生毕业时,基础教育司为了保卫课程改革的成果,2004年春,直接培训各地将要参加2004年课改实验区中考命题人员的技术培训,采用政府行为培训到县级的学科命题人员,真正重视了对考试的研究,这在过去是忌讳的,这也是建国以来所没有过的。中考试题评价对七个最早实施语文考试改革的结果没有说法,又匆匆进入了对课程改革后的中考的评价,由北师大和华东师大的博导们为主对全国的试题进行评说。
现在,我国对语文测量的评价,基本上是这样一种状态:高考语文试题的评价是群众性评价为主,供专家反思,多少起到了广开言路自然匡正的作用;中考的语文考试评价则是专家性评价为主,基层仍然跟着感觉走;小学语文测量还不敢名正言顺进行,基本上处在无评价无理性追求。
具体说来,我国语文测量的评价现状有以下缺失:
没有自己的评价术语。虽然社会大量需要评价测量,学校教育却非常忌讳使用评价测量这一概念,使得对评价的评价,始终处于随意和借用的阶段。由于语文内容的宽泛性母语性,任何人都可以根据自己的感觉对语文试题指手画脚说东道西,没有学过中文专业的人,一点不知道语文学科性质的人,都可以从自己的情绪出发,使用自己喜欢的任何术语或概念对语文试题进行评价。至今,就连十多二十年以前的教育测量的信度效度难度区分度在命题人员之中远没有普及,而这些概念也远远难以进入专家们的报告之中,更不用说专对语文测量的更专门的评价工具及评价使用的名词术语了。基础教育司2004年春对课改中考命题人员培训下发的材料,虽然署名是同一为“全国初中毕业、升学考试语文学科评价课题组”,三份材料的内容都是几乎相同的,但是,其报告名却分别为《2003年全国初中毕业升学考试语文学科评价报告》《2003年全国初中毕业升学考试语文学科试题评价报告》《2003年全国初中毕业升学考试语文学科试卷评价报告》,绝大部分试题例子都是相同的,结构和结论都是八九不离十的自由述说,报告名称却分别为考试、试题、试卷,专家们用大半年时间研究后在概念上尚且如此,基层的命题者们要廓清思想就更加困难了。
没有试题的全局观念。2004年的语文中考评价报告陆续问世,但是,比较浮躁的零敲碎打的多,分门别类的多,而对一份试题进行整体的中肯评价的少,甚至没有,而是大卸八块,各自站在不同角度孤立评说。如有些地方按照课标要求把古诗词默写放在了古诗文阅读(课标明确要求古诗文的阅读以积累为主),就机械认为应该在积累中明确古诗词默写。把口语交际和综合性学习(课标明确要求学习的内容)的测量内容揉进运用之中,就批评为缺少了“口语交际”和单独立项的“综合性学习”。没有全局观念,还表现在对试题的评价,只说自己的或者自己周边的试题,对于其他地方的试题,或许没有时间或许比较陌生,就进入不了自己的“全国试题评价”的视野。由于分别评说,每一部分都在求全,一求全自然就“求全责备”,全然忘了抓大放小的道理,去批评内容上的所谓“不完整”的遗漏。
没有评价的可行性检验。评价中提出了很多非常理想化的要求,如中考尝试进行面试,口语交际最好不要转化为纸笔形式,能够开卷的尽量开卷考试,等等。在人口不断激增,高中优质学位远远满足不了老百姓要求的情况下,中考要保证公正公开公平,采用面试,将调动多少人力物力财力,将占用多少时间,这是需要冷静下来思考的问题。中考像高考那样文言文考课外的,现代文出不考课内的,这对已经不重视课本现代经典教学的现状和文言文课内学习并没有很好完成的现状,将起到什么作用,缺乏实践性思考和检验。
没有试题评价的评价。当一种行政行为只剩下一种声音而没有不同的声音时,评价就自然离停滞和僵化不远了。中考语文测量代表的是政府行为,而对测量的评价又没有来自群众的声音,一些专家的即兴的言说就成了一些中考语文试题的定论。譬如,一些专家在引进外国语文试题时欣赏一些试题之首的温馨提示语,甚至还有小天使之类的小插画,认为这样可以舒解紧张心理,体现了以人为本,而另一些专家则作为不应该干扰学生考试的典型事例在全国会议上严厉批评。对这样的情况,基层的命题者没有反批评的地方,没有讨论的阵地,其结果是使得我国的语文试题的命制水平三年河东三年河西,难以稳定提升。
就语文试题评价的现状来看,高考语文试题的评价求科学精确多,但是缺少用宏观标准来进行的评价,学科外的批评多而学科内的评论细,但是没有进入到一定的理性的高度。中考语文试题的评价专家言说多群众发言少;苛求创新多,缺少测量的实际意义;学科外的求全多,学科内的反评价少,中考语文试题评价面对众多试题如何抓大放小突出主干,评价有影响的几套十来套试题,作出有理论有见地有说服力有前瞻性的指导,还有不短的路要走。
进一步分析,便可以发现,造成以上现状的原因有以下几点:
基础研究的脆弱。我国的语文教育同其他学科的基础研究一样,还非常薄弱。这表现在语文是什么,初中阶段应该完成哪些量化的语文内容的积累知识的运用和能力的迁移,高中阶段有哪些具体的可以操作和检测的教学任务,至今没有能够取得共识。也就是说,测量的内容对象是一笔糊涂账,谁也说不清楚,只是别人是这么考的,我也就这么考吧。其次是测量技术手段的研究,似乎也从来没有引起重视。同样是考查一个字词的掌握,有多少种方式,哪些方式的有效性高哪些比较高哪些不那么高,就没有人能够说得清楚,更不用说对文章的阅读理解能力以及批评鉴赏能力的检测,有多少种方式供命制试题的人员选择,这些方式中分别适应的阅读对象和被试有哪些差异,其时间能力思维强度如何,至今没有量表可以提供参照。在国家没有投入足够充分的人力财力和时间的情况下,任何单位和个人都难以进行这一极其浩繁的艰苦的基础性研究,长此以往,语文测量水平的提高自然非常缓慢,试题命制的随意性模仿性将在相当长时间内继续,语文考试分数的提高靠机械重复的现象就还将持续下去。
学科及考试性质的双重。学科性质的双重性,使得试题命制时很难把握,工具性是一个比喻的说法,没有正面下定义,没有一门学科的确定的内涵与外延,这自然就使试题命制者难以把握准学科试题的内涵特征及外部边界;人文性,又有些无所不包之嫌,很难划出语文与其他人文学科的明确界限,使得语文自身的学科特点不容易凸显。考试,尤其是中考,要求它兼顾毕业与升学两重性质,也就是强行要求体现水平考试和选拔考试双重功能。实践中这是无法兼顾的事情,教育行政部门为了宣示义务教育的政绩,要求的合格率越来越高,必须一年比一年高,而高中优质学位的有限性使得升学竞争越来越剧烈,要求区分度要越来越高。2004年国家级课改实验区的测试,就要求以水平测试的名义进行,难度值必须达到0.75,即人均得分率在75%。(有的地方教师认为将答案发给学生抄写也难以达到75%,因为从小学一年级开始实行的是不留级制度,无论其实际水平多么低都会初中高中毕业)实践中又有多少能够达到呢,对2004年国家级实验区12份试卷的难度值,至今没有数据问世。何况还有高中招生对试题的满意程度,更是无人去过问了。
评价机构的缺失。作为有十多亿人口的大国,语文考试的需求量自然非常巨大,中小学的语文教育与测量又涉及千家万户乃至方方面面,应该有全国性的国家机构进行母语教育的测量研究,也应该有类似的母语教育测量的评价机构,就像工业生产的国家质量检验总局一样,专司其职,肩负起对各地各类语文试题的评价工作,就像对衡器的检验鉴定认证一样。不能够为了某一次行政命令的需要临时召集一些有学历无经历,没有从事过或没有一定实践从事中考高考试题命制的人员对实际使用着的语文试题进行评价,靠自己当学生时的考试感觉、书本上的一些说法和想当然的理念,靠临时召集后的短期应制,来评价全国的语文试题,就像是没有专门的裁判员队伍,难以实现对运动水平的提升一样,是难以对语文测量的科学化,起到持续的盘点匡正指导牵引的作用的。