数学学业成绩评价试题的编制研究_数学论文

数学学业成就评价试题编制研究,本文主要内容关键词为:学业论文,试题论文,成就论文,评价论文,数学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着我国基础教育的普及与发展,教育的关注重点逐渐从数量扩张转向质量提升.学业成就评价是测评学生的知识素养与学科能力的重要举措,我国对于数学学业成就评价一般采用会考或大规模教育质量监测考试的形式.然而,我国的会考制度和基础教育质量监测体系均不够完善,其中一个明显的不足是学业成就评价试题的质量问题.试题编制质量的优劣将直接关系到教育监测的科学性与权威性,是教育发展水平的重要指示牌.鉴于此,本文以义务教育第三学段的数学学科为例,着力探索数学学业成就评价试题编制原则和操作程序,以期为基础教育质量监测体系建设提供参考.

一、学业成就评价的理论进展

所谓学业成就评价,是指以国家课程标准为依据,以学业评价标准为准则,以学科内容为目标,运用质性和量化的方法,测评学生在一定时期内的知识、能力和情感的发展水平,并进行价值判断.现代学业成就评价理论的发展共经历了测量、目标为本、目标参照和人本化四个阶段.[1]19世纪末,以传统测量理论和测量技术为标志的评价系统在学业成就评价中占有主导地位;20世纪30年代,对学生的学业成就测评强调教学目标的有效性;20世纪50年代,基于布卢姆的教育目标分类学理论,目标参照的学业评价模式开始流行.以上三个时期可统称为古典测量理论阶段,皆以真值理论为基础,并衍生出信度、效度、区分度、难度等统计指标,对于标准化考试的试题编制和试题分析起到了巨大的指导作用.

20世纪60年代,心理学界和教育学界开始围绕古典测量理论的弊端展开激烈讨论,最终导致了新的测量与评价理论的诞生,即项目反应理论(Item Response Theory).它把学业成就测量引向了智能化和人本化的方向,采用严格的数学模型来刻画不同水平的测试者对于试题的迥异反应.20世纪90年代至今,围绕项目反应理论产生了许多新的测评方法,如多维项目反应理论、非参数项目反应模型和认知诊断理论.[2](57)在这些测量理论的影响下,学业成就评价的试题编制正在朝着更加科学、更加人性化的方向迈进.

二、数学学业成就评价试题编制原则

数学学业成就评价以试题为媒介进行测评.试题是一个测量单元,它有刺激情景和对应答形式的规定,目的是要获得被试的应答,并根据应答对考生的心理特质(如知识、能力)进行推测.[3]借鉴经典测量理论的精髓和现代测量理论的优势,我们认为,在设计数学学业成就评价试题时应遵循以下原则.

一是能力导向原则,即试题编制理念应从“知识立意”转向“能力立意”,侧重考查学生应用所学的数学知识分析与解决现实背景下实际问题的能力,从而促使教学从知识灌输转向能力培养.

二是促进发展原则,即试题测评目标并非仅定位于对识记性数学知识的考查,而是体现学生的终身发展和可持续发展的成长诉求,实现“为了学习的评价”的目标.

三是科学规范原则,即试题编制须遵循科学的流程和严格的指标规范,与数学课程标准和学业评价标准的要求保持高度一致.

四是公平适切原则,即试题编制的出发点是“公平教育”,不因为学生的学习背景不同而影响测评结果.同时试题编制要符合数学学科特点、学生认知特点和心理发展水平.

三、数学学业成就评价试题编制程序

数学学业成就评价试题编制是一项技术性很强的系统工程.国外的相关命题过程都有一套相对严格的程序,如唐宁(Steven M.Downing)将整个考试开发过程描述为12个步骤:指定考试开发整体方案一定义考试内容领域—编制考试规范—撰写试题—设计试卷结构并组卷—试卷制作—施测—评分—确定划界分数—报告考试结果—建立题库—公布考试技术报告.[4]当今国际上比较流行的学生测评项目,如TIMSS和PISA,其命题借鉴先进的测量评价理论,通过科学的试题编制流程实现.通常,国外学业成就评价试题编制的程序为:(1)澄清测验目的与测量结构;(2)规定编制范畴;(3)制定细目表;(4)确定试题格式;(5)编题;(6)题目审查;(7)试测,确定试题属性;(8)完善试卷,编写使用手册.[5]

对照以上标准化的试题编制程序,不难发现,我国的数学试题编制往往不够规范,很大程度上存在主观性和随意性.为了给广大试题编制者提供借鉴,下面以八年级数学学业成就评价试题编制为例,说明试题编制的标准化流程与技术关键.

(一)澄清测验目的与测量立意

试题编制的首要工作是澄清测验目的,即试题的功能定位.测验目的决定了试题的性质、结构和功能基于标准的水平性测试.侧重基础知识和基本能力的考查,测试范畴广而浅;基于常模的选拔性测试,偏向知识的灵活运用和综合实践能力的考查,测试范畴窄而深.数学学业成就评价是基于标准(standardbased)的评价,不同于高利害的选拔性考试.

试题的测量立意是指测量载体的“意愿指向”,它表征出测量“构念”的方式.构念(construct)原指一种心理特征,现引申为测验所要测量的概念或特征.[6]适切的试题测量立意可以弱化“构念代表性缺乏”以及“构念无关因素方差”的不利影响.常见的试题测量立意方式有“知识立意”、“能力立意”和“应用立意”,这与PISA关于数学素养评价的三个维度——内容、能力、情境,[7]具有高度的一致性.当前,我国的数学学业成就评价试题已经开始从“知识立意”逐渐转向“能力立意”,但由于无法完全摆脱试题的甄别、筛选的功能桎梏,试题的测量结构还不够理想,尤其是大规模的学业评价试题的测量结构亟待优化.

(二)规定测试范畴

试题编制范畴是评测的范围结构,是整个测评体系建立的基本和关键要素,直接关系到评价的科学性和有效性.[8](58)影响试题编制范畴的因素很多,如课程标准、教材、评价标准、评价对象、评价目的、测量结构、教育现状以及试题开发者的主观理解,它具有多元、多维度、多层面的特点.通常,大规模的数学学业成就评价试题编制范畴的确定需执行以下步骤:分析不同版本教材的特点,找出共同知识点,作为测评的知识目标;分析课程标准对核心内容的认知要求,作为测评的认知目标;基于评价目的和评价对象的特点,建立明确、具体、可测的评价标准;在评价标准的指导下,根据测量结构和教育现状,选择合适的测评内容.在此,评价标准的建立尤为重要,其知识维度是数学课程标准中知识领域的核心概念和重要原理、法则,认知维度则反映出学生认识和理解数学以及从事数学活动所达到的操作水平.知识维度与认知维度构成的二维矩阵列联表是评价标准建立的基础,也是试题编制的关键环节.

(三)制定细目表

为了规范试题内容的选择,SEC(Survey of Enacted Curriculum)模型从知识内容和认知水平构建了二维矩阵,要求学科知识的重要性、教学时数、试卷分值三者之间应该保持一致.[9]SEC模型在数学学业成就评价过程中以试题的细目表形式呈现,包括试卷的内容维度细目表、认知维度细目表和单个题目细目表.内容维度细目表,即数学课程标准中规定的该学段具体内容和学时分布比例的统计表,它反映出核心内容的组织结构和地位.心理学研究表明,认知能力存在水平差异,布卢姆、加涅、安德森等人分别从不同视角刻画了认知的层次结构.美国学者韦伯(Norman L Webb)在“学业评价与课标一致性”的研究中,将认知结构分为回忆、技能或概念、策略方法和拓展思维四个层次.[10]我国的数学课程标准采用若干行为动词,如了解、理解、掌握、运用、经历、体验、探索,来刻画不同的认知层次.[11]由于这些行为动词具有高度抽象性和描述的不确定性,在学业评价时难以把握其“度”,造成了在同一课标下试题难度往往相差甚远.借鉴国外学者的认知分类,笔者将认知维度划分为获得事实、应用规则、推理证明、拓展思维四个层次.按照学业成就评价试题整体难度系数控制在0.75~0.85之内的惯例,将上述四个认知层次的试题比例确定为2:4:3:1.[8](60)若试题承担筛选功能,则须适当增加高层次认知的试题比例.按照内容维度和认知维度各指标的权重,则可以计算每项知识在不同的认知水平上所分配到的试题数目和分数.当然,确定试题的总数目参量指标N和试题总分参量指标S通常由大样本抽样统计或根据命题专家的判断得到.下面以人教版八年级数学教材为例,描绘内容维度和认知维度的双向细目表.

该表的行与列的权重数据之积可称为项目参数,当试题数目和分数在内容维度和认知维度上呈均匀分布时,各项测评内容在每个认知水平上的试题数为N·,得分为S·;当一套试卷难以实现内容与认知能力的全覆盖时,可将未覆盖的那部分参数值分配到其他项目单元格.

至于题目细目表,则是将题干特征与答案特征用描述性语言表达出来,作为题目编制者的依据,举例如表2.

有了类似的题目细目表,出题人不再仅凭自己的经验或主观理解来编制题目,而是有章可循、有据可依,避免了主观性和盲目性,从而保证了试题的科学性、准确性、一致性和标准化.

(四)确定试题格式与编题

在试题编制时,需要考虑考查内容的呈现方式,即试题的格式.通常的数学试题格式有客观题和主观题,客观题包括判断题、选择题、填空题、连线题等,主观题即我们通常所说的开放题,包括解答题、论证题、说明题、评价题等.不同格式的试题对学生的需求不一样:客观题属于“选择—反应”类型,追求答案的确切性和唯一性,评判具有很强的绝对性;主观题属于“建构—反应”类型,注重结果的多元性和过程性,评判具有一定的相对性.因此,在编制试题时若采用主观题格式,则一定要充分考虑最大限度地降低评分的人为性,在编题之初便要考虑制定详细的、可操作的评分细则.著名国际测评项目PISA的试题采用了单项选择题、多项选择题和开放题的试题格式.并且,开放题在同一情境下编制了系列问题,提高了试题文本的利用效率.另外,PISA试题采用双位编码评分制度,可以分辨不同的问题解决方法,容许保留认知过程和知识之间大不相同的反应和回答.[12]这些举措对于我国的数学学业成就评价具有重要的借鉴意义.

在我国,编题的工作通常由教师或教研员来承担,他们主要凭借自己的工作经验和对评价对象的理解来组织题目,主观随意性较大,难以保证试题达到预期的测评效果,对教与学都增添了些许障碍.况且当下各种教辅资料充斥教材市场,试题质量良莠不齐,使得试题使用者更加无所适从.因此,我国迫切需要一支精通学科知识、深谙教育规律、熟悉被测对象、通晓编题技术的专业化队伍来进行学业成就评价试题的选编和组织,进而提高试题质量,达到测评的预期目的.

(五)审查题目

在编题之后,需要对试题进行全面的审查.首先,对照数学课程标准和命题细目表进行一致性分析,保证试题的良好结构.当今,国际上较为流行的韦伯模型,从知识种类、知识深度、知识广度和知识分布平衡性四个维度来探索学业评价与标准的一致性.近年来,韦伯模式已经成为理解学业评价和课程标准之间关系的最重要、最具有创新性的模式.[13]其次,要进行试题外在指标的审查,保证试题无科学性错误,语言表述准确恰当,无影响阅读的印刷质量问题.再次,还要进行试题的意识形态检查,确保试题无政治偏见,无种族歧视,无特定群体倾向.我国的试题编制在意识形态检查方面基本上是缺位的,国外一般是通过学术委员会和伦理道德委员会来执行此项检查.

(六)试测题目

在题目审查无误之后还不能立刻投入测试,需要进行小范围样本试测,以期获得试题属性,便于局部调整试卷.试题属性是指测试的主要描述统计量,如均分、标准差、频数分布,以及试题的效度、信度、难度和区分度.通过收集试测数据,使用统计软件SPSS则可获得上述指标参数,并与测试目的和评价标准进行对照,从而局部调整试卷的内容或结构.在项目反应理论发展之后,试题属性还包括题目特征曲线(item characteristic curve)和题目信息函数(item information function).题目特征曲线刻画了不同能力水平的考生正确回答某个题目的可能性大小,题目信息函数则反映出该题目对不同能力水平考生的敏感性.这两个属性折射出学业成就评价的人本主义色彩,也为个体的学业成就归因和认知诊断找到科学的途径.另外,其他属性如知识负荷、技能属性、认知属性、反应时间等也可以作为题目的属性.[2](59)这些属性往往更加复杂,更加专业,对于深入研究教育测量与评价、有效监测基础教育质量具有不可忽视的科学价值和社会价值.在大规模数学学业成就评价项目中,试测样本的选取通常采用多阶段随机抽样方法,它与测试总体保持同质性.因此,试测的试题属性在大范围的测评中也将保持稳定,纵有差异,也是统计学上可以容忍的误差变异.这就是我们需要进行试题试测的根本原因所在.试测还有一个功能,即进行试题功能偏差(DIF)检验,用来分析学科认知结构相同的不同子群体考生在试题上得分的概率或在难度、区分度等统计参数上出现统计意义上的差异的原因,[14]从而发挥学业成就评价试题的诊断作用.

(七)编写使用手册

由于一套试题承载的容量有限,在大规模的数学学业评价测试中,为了达到测试内容的全覆盖,通常会编制多套试题,这些试题具有同构性或等值性.在这种情形下,采用矩阵抽样技术,不同的被测对象可以参加不同的试题测试,而无须完成每一套试题,这大大降低了“监测文化”带来的额外负担.为了达到测试的科学性和严谨性,需要编写一套详尽的试题使用手册,来规范试题的抽取、测试、装订、运输、批改、信息发布等相关事宜和保密工作.

当今,以推进素质教育、提高教育质量为目标的学业成就评价试题编制是国家层面上实施基础教育质量监测的重要环节和细化研究.对我们来说,这是一项全新的领域,纵有国际经验可以借鉴,但由于我国的特殊国情和学情,学业成就评价试题编制的理论和实践仍需研究、论证、完善和推广,以实现国际化和本土化和融合与发展.因此,国家要积极转变政府教育管理职能,通过教育立法,制定配套的制度体系,完善基础教育监测与督导制度,促进教育评价与考试体制改革,为基础教育创造良好的体制环境.社会各界也要积极关注基础教育,各级政府和教育管理部门依法治教,推进义务教育均衡发展,减轻学生学业负担,克服应试教育倾向,实现教育的健康发展.教育工作者也要积极参与教育改革,为我国的学业评价献计献策,完善试题编制技术,科学地评价学生的数学学业成就.

标签:;  ;  ;  ;  

数学学业成绩评价试题的编制研究_数学论文
下载Doc文档

猜你喜欢