教学质量评估的统计分析法,本文主要内容关键词为:教学质量论文,分析法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O212.1;G40-058
在教学评估中,由于人们对事物的认识存在差异,同时受到测评技术和方法等客观原因的影响,往往使评估结果与评估对象的本质属性产生一定的偏差,在一定程度上影响了教学评估的质量。如何对各种误差进行统计分析,是教学评估中一个值得研究的课题。本文根据数理统计原理及笔者对教学评估实践的研究,初步得出了几种检验评估误差的计算公式和方法,经过对某些课程评估的实验性应用,证明是行之有效的,这有利于提高评估的科学性和准确性,使评估结果真实可信。
一、指标误差的统计分析检验
假定评估中使用的指标体系已经优化,但由于评估者在主观认识上存在着的差异、评价标准带有一定的模糊性,评估误差仍然是不可避免的,从而使评估指标与评估对象本质之间产生差异,我们称之为指标误差,这误差也象其它测量误差一样,通过统计检验,可以控制在精度要求范围之内。
指标误差的统计分析检验包括以下两个内容:
1、指标评价等级的统计频率的稳定度检验
一般地,评估中的随机误差越小,所得结果越可靠,因此稳定度也就越高,稳定度为1的评估数据是最精确的。为提高稳定度,首先对测量方法以进行优化设计,以使所得数据便于检验和控制。在普通测量中,一般采用多次测量、对称测量等方法,将所得结果取平均值来消除随机误差的影响。经验证明在教学评估中,最单的实施技术是同时采用两种不同方法来获得相应的两组数据X=(X[,1],X[,2],…,X[,n])和Y=(Y[,1],Y[,2],…,Y[,n]),其中X[,i]、Y[,i]分别表示评估指标体系中各项指标的统计频率,如果实测数据精度较高,那么这两组数据构成的分布数列应呈现一定的稳定性,此稳定度可用X和Y的相关系数R业控制,相关系数越大,说明其稳定度越高。一般地,当R大于0.9时,认为稳定度较高,在0.7~0.9之间属较好,在0.4~0.7之间为一般,0.4以上者是为较差,其计算公式为
其中n为评估指标的项目数。
在教学评估中,对某些较为敏感的问题的实测数据,可以在检验合格后,取其加权平均值以提高评估的可靠度。表1是稳定度检验的一个实际例子,其中x、y为对同一评估对象采用两种不同方法所得实测数据的统计频率,由此可得
由于稳定度较高(0.7<R<0.9),说明评估结果与评估对象的客观情况吻合较好。
表1 稳定度检验
指标项目
x
y
x[2]
y[2]
xy
1 0.11 0.07
0.0121
0.0049
0.0077
2 0.30 0.28
0.0900
0.0784
0.0840
3 0.31 0.22
0.0961
0.0484
0.0682
4 0.62 0.46
0.3844
0.2116
0.2852
5 0.56 0.74
0.3136
0.5476
0.4144
6 0.04 0.07
0.0016
0.0049
0.0028
7 0.41 0.25
0.1681
0.0625
0.1025
8 0.15 0.25
0.0025
0.0625
0.0375
9 0.31 0.25
0.0961
0.0625
0.0775
100.52 0.37
0.2704
0.1369
0.1924
110.35 0.31
0.1225
0.0961
0.1085
120.65 0.36
0.4225
0.1296
0.2340
130.23 0.07
0.0529
0.0049
0.0161
∑4.56 3.70
2.0528
1.4508
1.6308
2、分项指标评价一致性的x[2]检验
分项指标的测量是对评估对象进行关于指标规定的某一属性(或定量)分析的过程;而评价一致性是指在评估过程中评估者对某一评估对象的各项评估指标在评价尺度上是否一致的问题。例如:某班有n个学生对某一任课教师讲课质量的m个指标进行评价。一般来讲,一个教师的讲课质量在一段时间内是相对稳定的,因此,如果学生在评价中出现明显的差异,那么这批数据就不能作为评价的依据,而应在分析的基础上重测。“分项指标评价一致性”统计检验的目的,就是通过检验以确定是接受还是拒绝这批数据作为综合评估的原始数据。
检验的一般方法与步骤是:
①根据实测数据列出n×m矩阵表,如表2表示,其中x[,ij](i=1,2,…,n;j=1,2,…,m)是第i个评估者对第j个指标的评价等级。
②根据评估者对m个指标的评价结果,算出相应的顺序号,简称序号,并将表2改成序号矩阵,如表3表示,其中r[,ij]是第i个评估者对第j个指标的评价等级在m个指标中的序号,序号是将m个数按从小到大的顺序进行排列,其中最小的序号为1,最大的序号为m。当出现多个指标的评价等级相同时,序号r[,ij]应采用平均值算法。例如,评估者对m项指标进行评价,结果有t个指标的评价等级相同,则此t个指标应该有相同序号,其序号为
(W+1)+(W+2)+…+(W+T) 1
r[,ij]=────────────=W+─(t+1)
t
2
其中W是比这t个指标的评价等级低的所有指标个数,也就是说,如果这t个指标的评价等级处于最低,则W=0;如果处于次低等级,则W=1;其余情况以此类推。
表2
1 2 3
……
m
1
X[,11]
X[,12]
X[,13]
……
X[,1m]
2
X[,21]
X[,22]
X[,23]
……
X[,2m]
… …………………………………………………………
… …………………………………………………………
… …………………………………………………………
n
X[,n1]
X[,n2]
X[,n3]
……
X[,nm]
表3
1 2 3
……
m
1
r[,11]
r[,12]
r[,13]
……
r[,1m]
2
r[,21]
r[,22]
r[,23]
……
r[,2m]
… …………………………………………………………
… …………………………………………………………
… …………………………………………………………
n
r[,n1]
r[,n2]
r[,n3]
……
r[,nm]
③计算指标的序号之和,即
④计算序号的离差平方和,即
⑤计算x[2]检验的统计量值,这里我们采用Kruskal-Wallis检验统计量的修正值,即
k[3,i]-k[,i]
式中T[,i]=───────,k是同一个评估者对m个指标评估中有
12
相同序号的个数,当同时存在p组相同序号时,
⑥查x[2]分布表,对于给定的显著性水平α,求出x[2,α](m-1)的临界值。当x[2]<x[2,α](m-1)时,则认为评估者之间有明显差异,此时实测数据需要进行分析,必要时应重新测试;当x[2]>x[2,α](m-1)时,则认为评估者评价结果显著一致,此时,对实测数据可接受,并以此作为教学综合评估的依据。
表4 分项指标评价一致性检验算例
表4是分项指标评价一致性x[2]检验的一个实际例子:
1、表中编号1,2,…,10表示从某班随机抽取的10名学生,他们是评估者;
2、表中斜线上方为第i个评估者对第j个指标的评价等级,斜线下方为计算得出的序号;
3、表中项目一栏代表被评价的指标;
4、算得x[2]=40.66,对于给定a=0.05,查x[2,0.05](13-1)=21.03。因x[2]>x[2,a](m-1),故可接受这批数据。
分项指标评价一致性的检验,是控制评估质量的有效方法之一。若所得数据不可靠,则测评结果不能反映事物的本质属性,这样的评估也就失去了意义。
二、量化误差的统计检验
量化误差是指对模糊等级度量的结果进行量化处理过程中产生的一类误差,它同样可能使评估的结果与评估对象本质之间产生偏差,因此应同样予以注意。这里我们主要考虑“各种指标评价结果集中趋势的统计分析”。
理想的评估结果是正确、客观地反映事物的真实属性,即实测数据经统计处理后,所得统计频率应相对集中在某一档次。如果某项指标的不同档次的统计频率大小没有明显差异,即出现近似均匀的分布状态,则数据的可靠性很差,一般不予采用。常见的情况是某相邻两档次的统计频率大小比较接近,即出现双峰状态,此时应再对这两个档次做一次评估。
三、指标权重的Wilcoxon配对符号秩检验法
在目前尚无统一“法定标准”的情况下,评估指标的权重往往带有很大程度的经验性和随机性,这样势必与其应具有的真实权重之间产生误差(不同权重经量化后可形成不同的评价结果)。由于教学评估系统的复杂性,所以对各项指标权重进行科学地检验,是一件十分困难的工作,至今尚无一套令人满意的检验方法。本文仅讨论对“可塑性”较小的评估对象进行测评时,如何采用Wilcoxon配对符号秩检验法对各评估指标的权重分配是否合理进行检验。
以检验学生对教师教学水平的评价指标的权重集为例。一般情况下,教龄较长教师的教学状况可塑性不大。根据这一特点,选择n位教师,他们的教学水平多年来已在学生和同行中获得较为一致且受欢迎的评价。设其评价值分别为a[,1],a[,2],…,a[,n],并将此评价值近似作为标准值;然后再按现在使用的权重对实测结果(假设实测结果是可靠的)进行量化计算,算得相对应一组评价值B[,1],B[,2],…,B[,n],并求出差数V[,i]=B[,i]-a[,i](i=1,2,…,n);最后,通过对这组差数进行Wilcoxon配对符号秩检验,即可看出此权重集是否适当。
检验步骤:
①提出假设H[,0]:P[B[,i]>a[,i]]=P[B[,i]<a[,i]](i=1,2,…,n);
②求评价值与标准值的差数:V[,i]=B[,i]-a[,i](i=1,2,…,n);
③编秩次。依差数绝对值(|V[,i]|=|B[,i]-a[,i]|)的大小,从小到大编秩次,其中当差数为0时,不予编号,差数相同者,由其所占位置的秩次取平均值;
④分别算出r[,+](按正差计算的秩和),r[,-](按负差计算的秩和),并取T=min(r[,+],r[,-])通常称为Wilcoxon-T统计量;
⑤对于给定的显著性水平α,从符号秩检验表中查得检验临界值T[,α]。当T>T[,α]时,接受原假设,即认为a[,1],a[,2],…,a[,n]与B[,1],B[,2],…,B[,n]之间没有明显差异,也就是说来用该指标权重集进行量化所得结果与客观情况较为一致;当T≤T[,α]时,则拒绝原假设,此时需对该权重集进行重新修正。
教学质量评估的检验是一项极有现实意义的工作,本文论述的统计检验思想在测评工作中具有普遍性,有关公式和具体实施技术经实践验证,也相当有效,因此可以推广到其它各种测评系统的质量检验。