统计方法在教学管理中的实践——试卷质量的统计分析,本文主要内容关键词为:教学管理论文,统计分析论文,试卷论文,质量论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
考试是教学工作不可或缺的环节。它既是了解学生学习效果的重要窗口,亦是测定教学效果的传统方法。然而,考试这种对被试状况所作的数量测定并非总是有效的。由于教学主体和客体所处位置及身份的不同,事实上即便是精心组织的考试,其结果与设定目标的偏离亦是难免的。试卷是考试运行的真正载体,其内容构成制约或决定着考试的质量。科学地编制试卷和实施考试,以真实地反映教学水平和有效地测定学习效果,这是教学工作当然的诉求重点。因而试卷质量的检测和合目的性评价,是教学管理不容忽视的课题。
一、试卷的符合性检验
大量的统计实践和理论分析表明,自然界或社会领域中的大量现象都是服从或趋近于正态分布即“中间高,两侧低,左右对称”为特点的钟形分布的,而有效的考试亦应该能够体现这一分布特征的。试卷符合性检验的实质即是在此基础上的试卷合目的性程度的评价。其常用的评价指标有试卷信度、题目效度、难度和覆盖度等等。
1.试卷难度和题目效度的测定。所谓难度是指试题被测后的答对率。常规参考性考试要求成绩近似正态分布,而适宜的难度才能实现这一分布。典型经验表明,用难度在50%左右的试题构成的试卷,分数最易形成正态分布。难度过高或过低都易导致偏态分布。
题目效度也称区分度,它是反映考试主体能力差异的重要指标。区分度高即意味着题目的分选性好,从而也能较好地实现被测者高低能力的界定。大多数得高分或得低分都不宜于被试者的区分。题目效度α[,j]=(H[,j]L[,j]/a[,j]
式中:H[,j]为样本总体中高分组第j题成绩均值;
L[,j]为样本总体中低分组第j题成绩均值。
一般地,α>0.4为好,α<0.2为差。
2.试卷信度和覆盖度的测定。考试是教育评介取得信息的有效途径。这些分数信息和效度因此直接关系着试卷评价的质量。所谓试卷信度,即指试卷一致性程度,其计算表达式为:
式中:B表示试卷信度,n为试卷试题量,S[,j]为第j题成绩的标准差,S[2]为学生成绩的总体方差。有效试卷的信度B应大于0.7。
覆盖度是考察考试题样是否具有代表性的指标。由于一次考试只能容纳有限的试题,因此,这些少量的试题是否属于测量内容试题总体以及能否较好地代表总体是试卷有效与否的关键。如果试题同构性高,则表示有效覆盖率低。我们用试题得分的相关系数来表示试卷的覆盖度,相关系数愈小,则表明试题覆盖面愈宽,反之则覆盖面愈小。
式中:γ[,ij]为第i题与第j题得分的相关系数,S[,i],S[,j]为i题和j题得分值的标准差,N为样本总体容量。
笔者据此对无锡某大学九四级成教班85名同学的《统计学》期末试卷进行了相关的符合性检验。该班成绩的次数分布经处理后见表4(原始资料略),试卷共七道题,各题满分值分别为:15,20,15,8,12,15,15。经计算该班《统计学》平均成绩为69.5分,总体标准差为14.669。各题方差之和ΣS[,j][2]=56.56。易计算试题信度值为:
这表明试卷可靠性较高。
试题效度分析见表1。计算结果显示,一、四题效度不足,区分度差,应予改进;三题应适当改良。二、五、六、七题都有较好的区分度,可积累用作题库试题。
表1 试题效度分析
注:高分组选取前20名同学
低分组选取后20名同学
难度及覆盖度分析(见表2,表3)亦证明这次考试是比较成功的。试卷综合难度为0.37。除四题偏易外,二,六,七题难度适宜,可保留使用。表3数据表明各试题得分值间多呈低相关或弱相关事实,试题覆盖度较好,对总体有一定的代表性。
表2 难度分析
表3 相关系数(覆盖度)分析
二、试卷的拟合性检验
学生考试成绩的常态分布不是自动实现的。试卷命题的或难或易,教学水平的或高或低以及学生理解能力的或强或弱,左右或影响着成绩的分布特征。试卷实际次数分布是否服从或符合理论分布则可由总体分布的x[2](卡方)拟合检验得到说明,其基本步骤如下:
1.建立假设
原假设H[,o]:观测数据的次数分布与正态分布没有显著差异。
备择假设H[,1]:观测数据的次数分布在正态分布有显著差异。
2.计算x[2]值。统计量x[2]的计算式为:
式中:f[,o]为实际频数,k为组数,fe为理论次数,且fe=N·P[,e]。
P[,e]为各分数组界限在标准正态曲线F下的概率面积。显然,理论次数分布与实际次数分布具有相同的样本容量、平均数和标准差。
3.作出推断。选取显著性水平α=0.01或0.05,并确定自由度df=k-r-1(r为理论分布参数个数)。若x[2]<x[,a][2](df),则接受H[,o],拒绝H[,1],表示实际分布所属总体与正态分布没有显著差异;若x[2]≥x[,a][2](df),则拒绝原假设H[,o],接受备择假设H[,1],表示实际次数分布所属总体与正态分布有显著差异,应寻找原因,改善考试质量。
根据这一思路,我们对上述《统计学》成绩分布进行了x[2]拟合性检验。其计算过程见表4。查x[2]临界值分布表,易得:
说明:(1)若f[,e]=N.pe<5,则合并相邻组,k为合并后组数。
(2)标准分z=(x-u)/α(参数u,α未知时可用x,s代替)
(3)自由度df=k-r-1=6-2-1=3
(4)正态曲线二端细微部分面积并入首尾部分面积。
检验结果表明,这85名同学《统计学》成绩分布与具有相同的样本容量、平均数和标准差的正态分布有显著差异,即总体实际频数分布不符合正态分布。表4提供的信息进一步表明:学生成绩差异性较大(其离散系数)这一事实尚不足以引致次数分布的偏移,而阅卷过程中老师的手下留情可能是导致次数偏态分布的真实成因。由于阅卷老师的提携,部分同学成绩“更上层楼”,人为地进入了下一分数段。60—80组次数(54人)明显高于理论次数(43人)即是佐证。与此同时,80分以上的人数并没有相应呈扩张态势,其实际次数异常地少于理论次数的结果表明,评阅过程中可能存在“高分受损,低分受益”的事实。50—60分数段的实际人数仅4人,远远低于理论人数14人,从而人为地增大了x[2]值。这是破坏分布规律的主要力量(该组x[2]达7.25,占其总额12.17的60%之多),应引起我们的足够重视。
不言而喻,试卷质量的统计分析为我们提供了相当丰富的信息。此可为教育工作提供一种非线性的管理效果,也为我们从总体上把握考试质量提供了理论依据。它一方面有助于教学质量的动态管理,另方面对激励同学的学习自觉性也起了推波助澜的作用。值得注意的是,统计方法毕竟只是一种经验或思想,形式上它是开放的,内容上它仍是贫乏的,它只能使我们认识部分事实。教学管理问题的研究因此仍然任重而道远。