基于教育测量理论的试卷质量评价研究论文

基于教育测量理论的试卷质量评价研究

◆辽宁师范大学王琦璇

摘要：在各国都高度重视教育的背景下，本研究打算从试卷的质量评价方面，运用经典测量理论，选取一些实例验证，并对试卷进行质量调查。首先，要了解选题的背景；然后要充分理解经典测量理论的内容和要求，选取某中学的某次数学统考试卷，运用统计的方法对数据进行分析，从而得出试卷上各个习题的信度、效度、难度和区分度。

关键词：教育测量理论；信度；效度；难度；区分度

一、前言

（一）选题的背景和意义

近些年，教育测量理论越来越受到人们的关注，这是教育改革走向成功的必然结果，广大教师希望可以借助科学的方法及时了解学生的发展变化，以便不断改进教学，提高教学质量；学校为了有效地组织教育教学工作，则需要准确掌握教学状况；教研人员在深入探讨教与学的规律时，必须采用科学的测评方法；各级教育行政部门为了有效地指导和做好教育工作，离不开科学的高效管理，每个行业都需要有效开发和利用社会人力资源。这一切都赖以科学合理的教育测量和教学评价。

然而，就目前状况看，我国教育测量与教学评价在理论和方法上，远不能适应教育发展的需求。因此，迅速提高教育测评的科学化水平，建立具有中国特色的现代测量与评价的科学体系，充分发挥评价功能是当务之急。

（二）研究的方法和思路

本项研究通过定性和定量研究相结合的方法，运用文献研究法、比较研究法、实验研究法等方法，通过定量的研究方法具体分析某中学的一次数学考试的数据，应用统计的方法分析，用经典测量理论分析和说明试卷质量分析的可行性和可操作性，从而改进试卷设计，提高命题的合理性和科学性。

基于经典教育测量理论（CTT），结合统计学的理论和方法，通过对某省某中学的某次数学统考试卷的研究，得到试卷质量和考试结果，得出试卷的总体评价，研究经典教育测量理论在试卷质量评价上的实现方法。而在运用经典测量理论之前，要了解经典测量理论的基本原理和主要内容。

二、经典测量理论的介绍

（一）基本原理

经典测量理论（CTT）认为测验分数X是由真分数T和随机误差E组合而成，即：

2）职教体系建设的试点和推广。在党和国家的大力支持下，天津市成为我国现代职业教育体系建设的先行者，天津市于2005年8月与教育部正式签订了共建国家职业教育改革试验区的协议，提出要在天津试点构建“具有中国特色的现代职业教育模式”；同月，国务院出台国发〔2005〕35号文件（《关于大力发展职业教育的决定》），把构建“灵活开放、自主发展，有中国特色的现代职业教育体系。”作为发展目标。2006年3月，国家出台《国家职业教育改革试验区建设实施方案》，在天津开展试点，并把“借鉴发达国家的职业教育经验，构建具有中国特色的现代职业教育体系”作为试验的重点之一。

（A）式中，X表示实测值，T表示真实值，E表示误差。

（二）教育测量的质量指标

1.信度。

天南星妖便施妖法封印了他魂魄，以此要挟全族人寻找竹沥珠。若半年之内找不回竹沥珠，被封印的族长魂魄就会灰飞烟灭。

信度是指测量结果的稳定性或可靠程度，亦即测量的结果是否真实、客观地反映考生的实际水平。

信度的计算公式为：

赛十娘喑了下来，只闷头吃烟。一直到把烟吃完，她才哀哀地说：“果然冇撑几天。东洋人见她病得不轻，良心发现，前几日才把她放了。”赛十娘又点起根烟，朝我努了下嘴，“你困的那个床，原先就是二丫的。她就是吃了烈的亏。她不晓得，东洋人有些怪种，你越是烈，他越是来劲，把人弄得死去活来。”

实际上，智能矿井是一个复杂的巨系统，生产过程都与地理空间有关，信息化建设必须满足监控实时化、系统集成化、数据海量化、控制协同化和决策在线化的实际需求，很多事故的发生都是多专业、多因素综合作用的结果。所以，结合空间信息技术，如何实现大数据技术与复杂系统具体业务的集成应用，从而开发大数据集成分析平台，使之服务于智能矿井安全生产、减人增效、管理升级等方面，是本文研究的重点和将要解决的问题。

2.效度。

效度的概念：效度是指测量结果的准确性和有效性的程度，亦指测量是否达到预期的目的。

效度的计算公式为：

提高信度的方法：信度系数以多大为宜，信度系数的标准值为多少，目前没有定数，要看测验的目的和类型；测量误差的来源：主要分为三类，第一类误差产生于测验的本身；第二类误差与特定的实施条件有关；第三类误差包括被试本身的变化；提高测验信度的方法：测验题数合适的增加一些；测验题目的难易程度要把握好；测验内容尽可能地做到一致；测验程序及流程大体相同；测验时间控制在合理的范围内；评分最大限度地减少误差，做到客观公正。

提高效度的方法：首先，可以提高系统的准确性，提高误差，提高量表的完整性，安排好样本的测验，增加样本数量保证代表性，调整好效度和信度的关联。其次，影响效度还包括很多方面，我们应注意多个方面，包括测验实施、测验组成、被试主观状态和样本。最后，因效度系数会被原测验相似于效标的测验而受到一定的影响，所以，为了提高效度，我们就要保证两者相似度要高。

戒烟组治疗后血清中细胞因子IL-4，IL-6及IL-8浓度较治疗前明显下降，差异有统计学意义（P＜0.05）。继续吸烟组治疗后细胞因子IL-4，IL-6及IL-8浓度较治疗前有所下降，但差异无统计学意义（P＞0.05）。戒烟组治疗后较继续吸烟组治疗后细胞因子浓度明显下降，差异有统计学意义（P＜0.05）。见表 1。

3．难度。

二是主观题难度的计算：

难度的概念：难度是指测验试题的难易程度。难度是试题对学生知识和能力水平的适合程度的指标。

综上所述，我们能够看出傈僳族非物质文化遗产在保护和传承过程中不仅需要根据本民族历史现状来进行分析，还要从当今社会大背景分析。傈僳族非物质文化遗产产业化延续保护需要进行融合发展，通过和旅游、互联网、金融等相结合，寻找一条合适的发展道路。将适合进入市场的傈僳族非物质文化遗产进行开发，打造品牌，重点和产业、旅游、互联网相结合，挖掘出最大的经济效益，带动地区经济发展，让非遗成为新的经济增长点。

在日常工作中，吴躜辉会寻找志同道合的合作伙伴，同合作伙伴一起开展试验示范工作，把优秀的适合本地的产品、套餐式的产品带给农民。同时，爱普科技的技术部门以业务人员反馈回的市场信息为导向，对下级经销商和农民开展技术支持工作，针对区域出现的普遍性问题为工作重点，开展试验示范工作，有针对性地解决农民在实际生产中遇到的问题，切实帮助其找准应对方法，提高农业生产效率。

计算难度的基本公式包括以下两类：

一是客观题难度的计算：

近40年来，书法是以展览为主要交流方式的创作时期。传统书法走出小书斋，进入大展厅，走出文人群体，进入公众生活。应该说，这是一个根本性的变化，引发了当代书法从创作本体到学术观念，书法价值标准、书法与公众关系等一系列的深刻变革。我们的讨论当然建立在这一基础之上。一方面，这种变革的确带来了书法的繁荣发展。另一方面，这种变革也出现了许多值得书法界认真思考的问题。今天我们想就其中书法界普遍关心的当代书法创作走向、书法创作和书法教育的技术化、书法欣赏中的“丑书”、书法批评标准及批评家的修养等问题做一个讨论，以期引起更多的人的关注，更加深入的思考与探究。

测验的适宜难度：在绝大部分题目的难度适中且系数于0.3～0.7之间的常模参照性测验中，若题目难度不在这个范围而题目数量控制较好，使整个试卷的平均难度在0.5上下也是被允许的。对于区分不同程度考生，只有难度适中的题目才能产生良好的效果，并使考生成绩呈正态分布。对于难度过高或者难度过低的题目都应该剔除，提高区分度。

(3)职业素养。对于客服人员而言，工作能力胜任的关键在于职业素养，其中包括工作态度、应变能力、情绪管理能力、矛盾解决能力。

用万分之一分析天平准确称取适量10种酚类化合物，分别置于50 mL烧杯中，咖啡因和香草醛用乙醇溶解，其余均用超纯水溶解，并用超声波清洗器辅助溶解，然后转移至50 mL容量瓶中，均用超纯水定容至刻度线，得到标准溶液。使用前稀释到所需浓度，进样前均经0.45 μm滤膜过滤。

控制题目难度的基本方法：控制知识点的数量；要求考查的能力和层次适中；要保证试题的适度创新；保证出题的创新性。

4.区分度。

区分度的概念：是指测验对考生实际水平的区分程度，用符号D表示。当某项测验拥有良好区分度时，实际水平高的应该得高分，实际水平低的应该得低分。所以，区分度又叫鉴别力。区分度是进行试题筛选，测算试卷质量的重要工具。

通过SPSS21.0和EXCEL对10道客观题进行分析。

区分度的评价标准：在其他条件一定的情况下，区分度越高的试卷，质量越好。但是在实际情况下具有高的区分度是非常困难的。一般来说，可参照下表标准。不过对于有些质量要求较低的测验，偏低的区分度不会造成过大影响，是可以被接受的。

表1 采用极端分组法计算的区分度的评价标准

三、试卷质量分析的实证研究

（一）试卷统计分析的一般思路

式中，Mijk为存储在第k排货架，第i列、第j行货位的货物的质量；h为货位高度；xijk为判断货位是否为空的决策变量。

第二步收集数据：对抽取的实验样本进行分数采集。

第三步统计分析数据：形成质量分析报告。

（二）基于经典测量理论的试卷质量分析

综合上述，确定研究对象的各种因素，利用实习的便利，收集某省部分中学的期中考试试卷，随机抽取部分学校的学生作为实验样本。

将10道客观题按照0、1记分的方式进行转化，即3分记为1，0分记为0。

第一步确定研究对象：首先，为保证调研对象的代表性，最好选择统考的中学数学测验。因为正规大型的数学测试利于增加数据的客观性与规范性，这样也有利于针对试卷质量进行分析进而得到比较准确的结果，从而发现试卷命题中存在的问题，并加以改进。其次，对于测量样本的选择，应该充分考虑实验实施的可能性以及统计结果的有效性，并且要注意保护被测验者的隐私。最后，要注意基于教育测量理论进行测算时，选择的样本一定要具备代表性，这样分析的结果才有利用价值。

提高区分度的方法：通过控制题目难度使其保持在中等水平，让整个考试的难度处于中等水平。并且要重点观察一些相对复杂的学习结果。

通过SPSS21.0对10道客观题进行信度分析，结果如下：

表2 内部一致性信度

结果显示，客观题的内部一致性alpha系数小于0.6，说明信度较低，可能需要修改试题。

通过SPSS21.0对10道客观题进行效度检验时，SPSS提示相关系数矩阵非正定矩阵，无法给出KMO值（通常使用KMO值表示效度）。经分析可能是由于样本量太少，或是存在一些特征值过小的自变量，无法满足正定矩阵的条件导致的。

通过逐一淘汰法对客观题的变量进行剔除，发现分别剔除第2题和第9题可以正常显示KMO值，结果如下：

表3 KMO和Bartlett的检验

可得出结论，KMO的值为小于0.6，其值是0.458，效度不适用。接下来同时剔除这两题，效度分析结果如下：

表4 KMO和Bartlett的检验

可得出结论，KMO的值大于0.6，其值是0.608，效度可以被接受。根据Bartlett球形检验结果P值小于0.05，可以说明剩余这8个题目不是相互独立的。

表5 题目难度

结果显示，在难度指标上，共有9个题目的通过率在0.7以上，有1个题目的通过率处于0.3～0.7之间。

根据客观题总分对被试得分进行排序，当样本团体过少时（n＜100），将50%看作一个基点，将超过50%与低于50%分为两组，采用该规则将两组比作高分组与低分组。

表6 题目区分度

结果显示，在区分度指标上，只有1题的区分度在0.3以上，其余题目的区分度均在0.2以下。

四、试卷分析的信息反馈

基于经典测量理论，对各个项目的信度、效度、难度、区分度进行计算，由数据分析可知：客观题的内部一致性alpha系数小于0.6，说明信度较低，可能需要修改试题；KMO值为0.608，大于0.6，效度可接受；Bartlett球形检验结果P值小于0.05，说明剩余这8个题目不是相互独立的；在难度指标上，共有9个题目的通过率在0.7以上，有1个题目的通过率处于0.3～0.7之间；在区分度指标上，只有1题的区分度在0.3以上，其余题目的区分度均在0.2以下。

五、结论与展望

（一）研究结论

本文以某省某中学的某次统考的数学试卷为样本，将定量研究法和定性研究法相结合，利用文献研究法、实验研究法、比较研究法等，基于经典测量理论对该份试卷的质量进行分析，作出价值判断。

先要判断试卷的题目是否符合基本的命题要求与考查的目标，做出基础判断和客观描述，这是关于质的分析。其次，利用信度、效度、难度和区分度这四大测量指标，对试卷质量进行科学和客观的评价，并依据考生的答题结果进行反馈，这是关于量的分析。结果表明：试卷的题目设置基本符合命题要求与考试大纲，各项测量指标中，信度、效度、难度的适用性极高，可以接受，区分度存在一定的问题，需要对部分题目进行修改。

（二）反思与建议

研究过程中存在问题和障碍是有利有弊的，虽然会浪费研究时间，但是也会为接下来的实证探索与研究提供强大的动力。现做出反思总结如下。

反思1：总分是否能反映学生的能力？

研究表明，仅仅利用分数判断学生的能力是不符合实际的。考试成绩虽然能够在一定程度上体现学生对于课本内容的掌握程度，但是无法体现学生的实际动手操作能力以及其他无法体现在课本上的能力。因此，通过试卷得出的分数以及排名并不能作为衡量学生能力的标准，而应该当作一个参考条件。

反思2：试卷质量分析过程中，如何调和质性分析与量化分析的关系？

当前随意查看一所学校的课程设置，就可以发现，几乎每所学校都有一个庞大的课程体系，国家课程门类自然一门都不能少，专题教育、地方课程是区域必须要求的，除此之外，不少学校赫然已经开发了上百门校本课程。细致分析会发现，这种“为开发而开发”的做法已经给学校课程建设带来了诸多问题。要破除加法法则，需要秉持整合思路，以学生的基本诉求为内在逻辑，统整学科育人要素，在符号世界与生活世界之间搭建桥梁，提升学生的学习与生活品质。

罗四强把阿里带到阿东跟前时，阿东正捧着母亲的骨灰坛沉痛地朝汽车停泊处行走。火葬场的仪仗队吹打着乐器跟在他的身后。乐队后面则是一群悼念的人们。音乐在火葬场上空回旋。旋律是《唱支山歌给党听》。

从理论分析的角度而言，质性分析和量性分析确实存在一定的区别，但是两者作为教育评价中使用的主要方法，并不是对立的，而是求同存异，在试卷质量评价的统一战线上，互相弥补对方的不足。

从实际的题目角度而言，基于两项测量理论的各项测量指标分析，表明题目的可行性较低，但是由有经验的教师通过对试卷的基础性、发展性、综合性、目的性、价值性等多方面的分析，可能认为题目的可行性良好，这就表明了质性分析与量性分析的差异。针对二者矛盾，究其原因，可归结为老师在教学过程中过分注重课本理论知识的学习而忽略了对理论知识的实际应用以及发展。教育测量评价不能只关注学校的教育成果，更应该侧重学生未来的发展。

（三）研究展望

本文在利用经典测量理论的基础上，对中学数学试卷的质量分析过程进行研究，取得了一定的价值成果。但是，做研究绝不能满足于现状，本文所作的研究仅仅是这一研究领域中小小的一部分，还有很多问题亟待解决，需要我们进一步探索。

参考文献：

[1]王汉澜．教育测量学[M]．郑州：河南大学出版社，1987．

[2]史晓燕．教育测量与评价[M]．北京：北京师范大学出版社，2016．

[3]沈玉顺．现代教育评价[M]．上海：华东师范大学出版社，2002．

[4]郭熙汉、何穗、赵东方．教学评价与测量[M]．武汉：武汉大学出版社，2008．

[5]薛薇．统计分析与SPSS的应用．（第五版）[M]．北京：中国人民大学出版社，2017．

[6]吴慧萍．基于教育测量理论的中学数学试卷质量评价研究，2012．

[7]胡中锋．教育质量与评价[M]．广州：广东高等教育出版社，2006．

【中图分类号】 G

【文献标识码】 B

【文章编号】 1008-1216（2019）07C-0013-03

标签：教育测量理论论文; 信度论文; 效度论文; 难度论文; 区分度论文; 辽宁师范大学论文;