如何对纸笔考试测试结果作质量分析
●陈 基
一个学期即将结束,老师们又将在期末的纸笔考试测验后,对纸笔考试测验的结果进行质量分析了。对考试测验结果进行质量分析在教学和学业评价上有着重要的作用:有利于评价考试测验的质量;有利于改进考试测验工作;有利于改进教学工作。
但遗憾的是,课改至今,我们的质量分析还是沿用课改前的传统经验型质量分析。经验型质量分析,是在设定纸笔考试试卷编制是没有一点问题的基础上进行的,仅凭成绩的优秀率和合格率,以及平均分和学生做题出现的状况进行分析,从而得出教与学的优劣和存在的问题。我们都知道,影响纸笔考试测验结果的因素有三个:纸笔考试测验卷的编制、教师的教学和学生的学习。而传统经验型质量分析是把“纸笔考试测验卷的编制”这个影响纸笔考试测验结果的因素剔除在外而进行的质量分析。因此,分析的结论是不科学的、不准确的,是无法实现质量分析在教学和学业评价上的重要意义的。
科学的考试测验结果质量分析应该包括分析考试测验卷编制的质量和分析教与学的情况,从而得出考试测验结果质量分析的结论及教与学改进的意见。通常的步骤为:采集样本——统计分析——作出结论和意见。
采集样本。一个班人数不多,一般全部采集。一个年级或一个片区,因人数多,根据教育教学统计的要求,随机采集30%的样本进行统计分析,基本可以说明问题了。
2.2.2 说明书虽未明确标明材质属于非铁磁性和弱铁磁性材质植入物,但对行MRI检查规定磁场强度要求或时间要求的,划归为MRI限制类。
统计分析。需作的分析有:效度分析、信度分析、难度分析、区分度分析和试题编制技术规范的分析;需作的统计有:难度系数(通常用P表示)、区分度、全距(最高分与最低分的差距,通常用R表示)、各分数段百分比(该分数段人数/总人数)、平均分(全体得分之和/总人数)、标准差(表示学生成绩水平的差异程度,通常用SD表示)。
在进行考试测验结果质量分析之前,我们还要弄清该考试测验的目的,因为目的不同,有些数据说明的问题就不同,直接影响到做出的结论和意见。
从分数解释参照标准分,考试测验可以分为目标参照评价模式和常模参照评价模式。目标参照评价模式又称水平评价模式,它不以评定学生之间的差别为目的,而是以教学目标为评价标准,依据课程标准的教学目标和教科书编制试题来测量学生的学业成绩,判断学生是否达到了教学目标的要求,即是否“及格”。如升级考试、毕业考试、合格考试,不适用于甄选人才。常模参照评价模式则以评定学生之间的差别为目的,依据学生个人的成绩在该次成绩序列中所处的位置来评价和决定他的成绩优劣,不以是否“及格”为标准,不考虑他是否达到教学目标的要求。如高考、学科竞赛,适用于甄选人才。由此可见,小学阶段的所有考试测验,都是目标参照评价模式,只判断学生是否达到教学目标的要求,而不是甄别学生成绩所处的位置。
3.“我”家搬进了新公房,“我”有了玩具角,“怜怜”也就有了许多好伙伴,变成了“欢欢”。
1.效度分析。这里的效度是指内容效度。所谓内容效度是指测验能代表所欲测量的内容和引起预期反应的程度。拿语文课程举例,“所欲测量的内容”是指语文课程内容,“预期反应”是指学生的行为活动,如对语文课程内容的记忆、理解和应用等。
内容效度的分析,一般由教师和专家对考试测验内容进行判断而定。
内容效度的判断依据有两个:(1)分析考试测验编制依据的教科书和考试测验对象学习的教科书的一致性程度;(2)比较考试测验题目内容与课程标准教学目标和教科书呈示的课程内容的一致性程度。
分析测验编制依据的教科书和考试测验对象学习的教科书的一致性程度。在判断内容效度时,首先考虑考试测验编制者是根据什么教科书来编制的,是用来考试测验谁的。如果两者一致,那么,此考试测验可期望获得较高的内容效度。反之,此考试测验的内容效度就低。如,小学语文教学考试测验编制者根据人民教育出版社所编制的教科书出的题目,用来测验学习语文社S版小学语文教科书的学生,由于这套题目不能代表语文社S版语文教科书内容,所以测验的内容效度就低。
城外,虎狼般的胡人随时可冲杀进来,城内,也让秀容月明放心不下。他亲手斩杀过临阵脱逃的十几名士兵,他也听到禀报,丛时敏手下士兵怕死,已有近百人脱下盔甲,跑了。还有两名偏将带着几百人假传他的命令,要打开北门逃跑,幸亏看门的是秀容兵,看出破绽,及时示警,秀容月明赶过来,平息叛乱。
比较考试测验题目内容与课程标准教学目标和教科书语文课程内容的一致性程度,这“一致性”包含内容的一致和水平的一致。如要求会认的字,就不能要求写。这是内容上不一致,没有效度。又如,使用人教版教科书的地区,命题考试测验修改病句、改写成双重否定句等题目内容,由于教科书语文课程内容中没有这些内容,所以是没有效度的。又如,陈述句与反问句的认识比较,其目标水平是认识这两种句式以及了解它们在表情达意上的异同,就不能考试测验这两种句式的相互改写,因为这是目标水平不一致,没有效度。
2.信度分析。信度即考试测验的可靠性,它是指对相同的应试者多次测验结果的一致性的程度。如果在大体相同的条件下,几次测验得到了大体相同的结果,那么这个测验的信度是较高的;反之信度较低。评估信度一般有下列几种方法:(1)再测法;(2)复份法;(3)半分法。但是,这只是编制考试测验题目的要求,那么,考试测验结果质量分析应如何进行信度分析呢?由于高信度也是实现考试测验效度高的一个必要条件,所以,我们可以从考试测验题目的操作形式与考试测验内容的操作形式是否一致来分析题目的信度。比如,用纸笔考试测验卷考查口语交际和综合性学习的题目,因口语交际和综合性学习的教学目标或是一种能力,或是一种体验性目标,只能在实践过程中通过其他考查形式进行评价,所以,这类题目就失去了信度和效度了。又如,纸笔考试测验试卷中的感情朗读应该选择用怎样的语气、情感的题目,也因感情朗读是操作性的内容而失去了信度和效度。再如,题目“用自己的话概括短文的主要内容(在20个字以内)”,短文的主要内容按照教科书的要求,是将各部分的内容连起来表示,是不可能用20个字就能表达的,因此,这个题目也失去了信度和效度。
工人按照标准化、精细化工艺进行安装,从原先的“建造”变成了“制造”,从而大大提高了工程的精细化程度。装配式建构筑施工周期短,可在短期内竣工,工人劳动强度大幅度减小,交叉作业方便有序,施工产生的噪声降低,施工垃圾少,物料堆放场地减少,有利于环境保护。
3.试题编制技术规范的分析。小学语文考试测验卷的编制有一定的技术规范要求,以保证学生不受到别的因素的干扰,能正确答题。常见的不符合编制技术规范要求的有:题目内容有语法性、知识性的错误;题干导语讲述不明确,指向不够清楚;题型的编制不符合题型要求,如判断题本身蕴含暗示性词汇,选择题的选项表述形式不一致或少于三项,填充题的语境不完整等。下面以某小学语文考卷的三道题为例谈谈(撇开效度和信度,仅就编制规范而言)。
机组检修,通流部分各洼窝中心的原始记录是在轴系中心调整后测量的,因此,需要根据调整轴系中心时的调整量,推算出修前的各道洼窝中心才能进行全面的分析。
(1)击败(2)击退(3)击溃
2.区分度分析。区分度是表示试题区分能力大小的指标,即试题能把各个层次能力的学生区分开来的指标。区分度也是衡量试题质量的基本指标之一。
1.社会组织党组织要在促进社会组织发展中发挥政治核心作用,坚持党的政治领导不动摇。坚持发挥社会组织党组织的政治核心作用,是由我们党和国家的性质决定的,是党的执政地位和领导作用的体现,是贯彻党的基本路线的需要,也是党章赋予党组织的光荣职责。虽然社会组织的组织形式不尽相同,党组织参与重大问题决策的方式也各有不同,但党组织的政治核心地位和保证监督作用始终没有变。其主要职责仍然是要保证党和国家的方针政策的贯彻执行,依法维护员工的合法权益,对重大问题提出意见和建议,做好党员教育管理、发展新党员和思想政治工作。总之,无论社会组织形式上如何变化,党组织的政治核心地位不能变。
题干导语中“病句”“错别字”“标点”并列,犯了逻辑分类不当的错误,“病句”包含错别字、标点符号错用。
例二:“这一切,都得感谢浦东开发呢!”的“这一切”是指( )。选择合适的答案把序号填在括号里。
东北师范大学教育技术学专业的本科毕业生可在教育行政机关、大中小学校、企业以及科研院所等单位工作。在本科阶段延边大学教育技术学专业就业方向包括:电教馆专业技术人员、教育技术中心教师、电视节目采编人员、企业人力资源培训师、政府公务员以及学校信息技术教师等。
1.“怜怜”改名为“欢欢”。
2.浦东的开发。
进行考试测验结果质量分析,首先要做的是对考试测验的题目作效度分析、信度分析和试题编制技术规范的分析。
该题犯了选项表述不一致的错误,选项3的句式与1、2明显不同,易给学生暗示。
现阶段大多数的企业因为追求经济利益,进而把经济利益当作企业运营的主要任务,虽然利益和企业的运作有着一定的联系,不过不可以过度追求利益,不然就会严重影响到社会的金融管理工作。总的来说,无论是个人还是社会,金融管理都可以保障社会保持一个良好的发展状态,而且为了确保这种发展状态能够持续保持下去,就需要高度重视金融管理,这样可以显著提升国家社会的整体实力。
“文化自信是一个国家、一个民族发展中更基本、更深沉、更持久的力量”,“没有高度的文化自信,没有文化的繁荣兴盛,就没有中华民族伟大复兴”。[3]23,41强调文化自信,符合科学社会主义的理论逻辑,深化并拓展中国特色社会主义的文化规定性,不仅涉及意识形态、文化形态和物性载体的统一,而且蕴涵着精神信仰、价值规范与价值承诺三个基本维度的“应然”融合。
当对考试测验的题目作了效度分析、信度分析和试题编制技术规范的分析后,考试测验的题目符合了要求后,就可以进行难度分析和区分度分析了。
“词语含义的深浅”“按照意思由浅到深的顺序”这样的导语对一个小学生的理解能力而言实在是太深奥了。
例三:按照词语含义的深浅,把下面三个近义词按照意思由浅到深的顺序排列起来。(将数字填在括号内)
1.难度分析。难度是指一组考生对该题作答的困难程度,一般用难度系数(P)表示。难度是衡量试题质量的基本指标之一。
难度系数(P)=答对人数/总人数。如五年级某次语文测验中概括各部分内容一题,已知参试人数为50,答对此题有24人。P=24/50=0.48。
如果是常模参照评价,难度系数P以0.5为适宜。P越大,说明此题难度越小;P越小,说明此题难度越大。该例P=0.48,小于常数0.5,说明有些难度。但如果是目标参照评价,不存在设置难度的问题,P=0.48则说明该试题偏离了水平评价的目标了。
例一:修改下面这段话中的病句、错别字和标点方面的毛病(在原句上修改)。
试题的区分度计算步骤如下:
(1)将参试学生的试卷按分数由高至低排列。
(2)将学生参试人数乘以0.27,小数点后四舍五入,取整数n。
(3) 取n个最高分数,组成上组,再取n个最低分数,组成下组。
(4)用该题上组答对人数减去下组答对人数,再除以n。
即:区分度=(上组答对人数-下组答对人数)/每组人数(n)。
农村集体具有独立的团体人格和显著的团体属性,是构造集体成员代表诉讼制度的团体法基础。《民法总则》通过前,学术界对农村集体是否具有团体人格,存在较大争议。有的学者认为农村集体本质上属于或勉强属于非法人团体[6],有的学者认为农村集体完全符合法人的实质要件或者可以改造为法人[7]。《民法总则》通过后,农村集体经济组织被明确赋予特别法人资格,这是历史的重大进步,对学界争议进行了明确的立法回应[8]。
我国从20世纪60年代开始研制退化草地改良机具,机具类型最初源于传统农田耕作机具,近十几年来逐步研制草地专用改良机械,机械类型由单一机具发展为联合作业机组。从目前使用的和最新研制开发的草地改良机械来看,国内的机具多半是传统农田耕作机具的改进机型,一少部分是在引进吸收的国外草地补播机械基础上研制开发的产品[35-38]。我国在“十一五”期间研制开发了一些新型草地改良机械,主要有以下几个方面。
如:某题参试学生总数为58人,n=58×0.27=15.66≈16,该题上组答对人数为8,下组答对人数为3,(8-3)/16=5/16=0.31,得出区分度为0.31。
一般区分度总在-1和1之间。如果是常模参照评价模式,如区分度大于0.3,说明此题能很好地区分出学生水平;如区分度大于0.2且小于0.29说明此题尚能区分出学生水平,需改进;如区分度小于0.19甚至为0的话,说明此题将淘汰或作较大修改。上例区分度为0.31,说明该题能很好地区分出学生水平。但如果是目标参照评价模式,则区分度就应该小于0.19或为0,因为这是目标参照评价模式的目的决定的,只检验学生是否达到教学目标,而不区分学生水平高低。
在这些分析的基础上,排除了试卷的问题,就应该结合其他的统计数字,对教师教学行为和学生学习行为进行分析,找出问题的所在以改进教和学了。
标签:质量分析论文; 纸笔考试论文; 测验结果论文; 测试论文; 学业评价论文; 教学工作论文; 试卷编制论文; 经验型论文;