三种常用DIF检测方法的比较研究,本文主要内容关键词为:三种论文,检测方法论文,常用论文,DIF论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G40051 文献标识码:A 文章编号:1003-5184(2001)01-0043-06
DIF是Differential Item Functioning的简称,常被译为项目功能差异。我国对DIF的研究起步较晚,针对国外已经开发出的众多的DIF检测方法,我们应该加以借鉴和吸收,使我们的研究与工作少走弯路。
1 DIF的定义
DIF定义为:对于某个特定项目,如果在来自同一目标特质的两批平行被试组中,显现出不同的统计特性,那么该项目就存在功能差异。
这里所讲的“同一目标特质的两批平行被试组”是指在测验打算测查的能力(目标特质)上,两组被试具有相同的水平。在DIF的实际研究中,常会人为地把被试分为两组,分别称为参照组和目标组。划分被试依据一般有:性别、地域、民族、职业、年级、社会经济地位等[1]。衡量参照组与目标组的被试是否具有相同能力水平的变量就称为匹配变量。匹配变量既可以是观察分数,一般是测验的总分;也可以是潜在能力值,一般是用IRT模型估计出的θ值或经典测验理论的真分数t。因此,根据匹配变量的不同,DIF在数学上的定义就有三个[2]。
2 检测DIF的常用方法
在众多的DIF检测方法中,常用的方法主要有MH方法、STND方法与SIBTEST方法[3]。
2.1 MH方法(Mantel-Haenszel Procedure)
MH方法由Mantel和Haenszel(1959)首先提出,Holand(1985)以及Holland和THayer(1988)把这种方法用于检测项目功能差异[4]。现在已经成为检测DIF应用最为广泛的一种方法。MH法用于侦查两级记分项目的DIF,以测验总分作为匹配变量。MH方法统计量的计算建立在一张S×2×2的列联表中,其中S是测验总分的水平数,对于其中的任一水平K,可构成一个来自于两子群体在项目上得、失分数的2×2列联次数表。
根据样本数据完成上述的S×2×2列联表,即可按表中数据计算αMH,公式如下:
其中f[,1rk]、f[,0rk]分别是在第K个能力水平组中,参照组答对项目的人数和答错项目的人数:f[,1fk]、f[,0fk]则是目标组答对的人数和答错的人数。
α[,MH]的取值介于0至正无穷之间。αMH=1.0时,表示该研究项目无DIF;αMH<1.0时,表示研究项目对目标组有较低难度;αMH>1.0时,表示所研究项目对参照组有较低难度。
但是由于αMH的计算来自于样本数据,因此对其值是否等于1.0必须进行统计检验。检验统计量是MHx[2],其计算公式为[5]:
MHx[2]被认为是服从自由度为1的x[2]分布的,如果经检验MHx[2]值处于显著性水平,则认为所研究项目存在DIF。美国ETS公司对αMH又作了一个变换,以与他们的Δ量表相配,转换公式如下:
ETS公司根据MH方法计算的结果,把项目分成三种等级[6],即:可直接用于测验、应修改、应删除。
2.2 STND方法(Standardization)
STND方法常被译为标准化方法,由Dorans和Kulick(1986)提出。标准化方法认为,如果一个项目无DIF,那么
E[,r](Y|Z)=E[,f](Y|Z)(6)
E(Y|Z)表示项目分数对测验分数水平Z的回归[7],意思是说,如果项目无DIF,则项目分数对测验分数的回归应该是不受群体划分的影响而完全相等的,如果在不同群体上的回归不等,就说明项目存在DIF。
应用标准化方法计算的DIF统计量被称为标准化P差(简记为STND[,p-DIF]),计算公式如下:
分别表示目标组和参照组在第k个分数上正确作答测验项目的概率,
表示第K个分数水平上两子群体正确作答之差的加权数。Holland还进一步提出了标准化方法的DIF指标的标准误[8]:
n[,f]是目标组被试数。
STND[,P-DIF]取值范围在-1.0到+1.0之间。负值表示项目有利于参照组,正值表示项目不利于参照组。STND方法没有显著性检验,只用STND[,P-DIF]来表示项目的功能差异的大小。通常对于STND[,P-DIF]指标取值介于-0.1到+0.1之间时,认为是应该容纳的取值误差[9],即使是稍有偏差也可以忽略不究。对于取值在正负0.1范围之外的值,就必须对项目作进一步的检查,以了解形成DIF的原因。
(3)SIBTEST方法(Simultaneous Item Bias Procedure)
SIBTEST方法意思是同时性项目偏差估计(Simultaneous Item Bias),由Shealy和Stout(1993)提出。它在概念上与STND方法十分相似,它的DIF指标为:
SIBTEST还作显著性检验,其检验统计量这:B=β/σ(β)[10],其中:
式中σ[2](Y|s,g)是匹配测验分数为s的g组(g=R或F)被试,在所研究的项目上得分的方差。当项目无DIF时,B近似于N(0,1)的正态分布[11]。如果B值大于1.96或小于-1.96时(α=0.05,双侧检验),假设被拒绝,即认为该项目存在DIF。
SIBTEST方法不仅可以对单个项目是否存在DIF进行检测,而且可以对一批项目同时进行DIF检测,这称为项目束功能差异(Differential Bundle Functioning),简称DBF。如可以同时对一篇阅读理解文章后面的五个题目进行DIF分析。在项目束功能差异分析时可能出现二种现象。一是“放大”(amplification)现象:单独分析每个项目时,DIF值都不大,但同时对这些项目进行分析,则DBF值马上增大;二是“收缩”(cancellation)现象:单独分析每个项目时,DIF值很大,但同时分析时,DIF值却减小了。
Stout和Roussos(1996)认为对项目束进行功能差异分析有二大益处:一是可以提高该方法的检测效率和减小I型错误。另一个重大用途是对项目产生DIF的原因进行验证。对DIF原因进行分析时,主要是评估造成该项目产生DIF的第二维度,并把具有相同第二维度的项目找出来,组成项目束,进行项目束功能差异分析,如果DBF明显地增大了,则说明假设的第二维度确实是存在,并且造成了项目功能差异。
3 实证研究
3.1 研究材料与样本
1.本研究采用1999年全国高考英语试卷,为固定选项位置的影响,只对同一形式试卷(A卷)中的75道选择题进行分析。
2.本研究的数据资料由国家教育部考试中心提供。从北京、广西、海南、湖南、江苏、天津六个省市随机抽取了45850人(均为A卷的考生)。
表1 各组考生在99年英语高考的选择题上的成绩分布情况
性别
学科
城乡
男生
女生
理科
文科
城市
农村
平均分
35.56 39.28
37.99
36.45
35.77 38.20
标准差
11.22 10.55
10.97
11.13
10.85 11.10
3.SIBTEEST方法使用的是由Shealy、Stout和Roussos开发出来的SIBTEST程序(Simultaneous Item Bias Procedure)[12],MH方法和标准化方法使用的是自编的计算机程序。
3.2 研究设计
本研究分别把农村、理科、男生组作为目标组,把城市、文科、女生组作为对照组。为每组随机抽取四种不同容量的样本,进行DIF分析。
表2 各组人数分布表
性别
学科
城乡
男生
女生
理科
文科
城市
农村
样 1000
1000
1000
1000
1000
1000
本 2000
2000
2000
2000
2000
2000
容 3000
3000
3000
3000
3000
3000
量 5000
5000
5000
5000
5000
5000
根据表二对样本容量的规定,采用完全随机抽样的方法,从45850被试中抽取数据资料。
3.3 研究目的
通过计算结果之间的比较,对以下几个问题进行探讨:①在相同样本容量情况下,三种方法的检出率(即敏感性);②在相同样本容量情况下,三种方法的一致性;③每一种方法在不同样本容量间的稳定性,即样本容量对该方法的检测效率是否有显著的影响。
3.4 结果
运用三种方法对不同样本容量的各组进行DIF检测,计算结果如表三、表四所示。
表3 在不同条件下三种方法的检出率
样本容量
1000
2000
3000
5000
组别
MH
0.23
0.25
0.40
0.51
性别
STND 0.12
0.07
0.12
0.08
SIBTEST
0.24
0.25
0.43
0.51
MH
0.11
0.16
0.21
0.32
城乡
STND 0.09
0.04
0.04
0.01
SIBTEST
0.09
0.17
0.21
0.31
MH
0.17
0.21
0.24
0.44
学科
STND 0.11
0.07
0.07
0.05
SIBTEST
0.15
0.23
0.25
0.44
表4 MH方法与SIBTEST方法检测的一致程度
容量1000
2000
3000
5000
性别54[*] 完全一致
37[*]、66[*]
完全一致
城乡70
47[*] 完全一致
54
学科2、39
58[*]
12[*]、52[*]、62
完全一致
注:数字表示题号,如54表示第54题。*表示SIBTEST方法检测出来,而MH方法没有。如果没有*,则相反。
3.5 讨论
从以上结果可以看出:
1.不论在何种实验条件下,MH方法与SIBTEST方法有着几乎相同的检出率,STND方法检出率要低的多。而且STND方法检测出有DIF的项目,基本包含于MH与SIBTEST检测出的项目之中,因此,可以认为STND方法对DIF的敏感性要比MH与SIBTEST方法低。
2.MH方法与SIBTEST方法一致性程度相当高。这不仅表现在二者的检出率十分接近,更表现为二者检出的项目也十分一致。
3.随着样本容量的增加,MH方法与SIBTEST方法检测出的存在DIF的项目逐渐增多。从表3-4可以看出,当样本容量为5000时,检测出存在DIF的项目的比例相当高,与样本容量为3000时(城乡、学科)或2000时(性别),有着显著的增加,而1000、2000(或3000)之间差异并不十分明显(性别DIF在2000与3000之间存在明显的差异)。但STND方法并未呈现出这种规律,这可能是由于STND方法判断项目是否存在DIF的标准不够恰当,又缺少差异显著性检验统计量造成的。这结果说明,MH与SIBTEST两种方法对样本容量的增加较为敏感,而STND方法对样本容量的反应不敏感。
为什么性别DIF在样本容量为2000与3000之间存在明显的差异,而城乡、学科两种情况下,是在3000与5000之间存在明显的差异呢?这可能与样本来自的本平均数差异的大小有关。通过表一可以知道,男女生的均数之差要比城乡学生、文理科学生的均数之差大。
综上所述,可以认为MH方法与SIBTEST方法在检测DIF时都是可选的方法。但由于SIBTEST方法具有DBF检测的功能,所以在实际应用中可以作为首选。
至于样本容量的问题,应根据实际情况来确实。本研究的结果,可以认为,在一般情况下,采用1000人左右的样本进行DIF分析是完全可取的。如果要更为谨慎地话,那么选用2000人左右的样本就可以了。因为根据统计学的知识,我们知道样本容量太大时,一点点微小的差异经检验都会是十分显著的,这增大了犯I型错误的概率。
另外,根据本研究的结果,采用SIBTEST方法对99年高考英语试卷进行了DIF检测及验证性研究,发现:99年高考英语试卷中,存在性别DIF的题目较其他两类DIF要多,城乡DIF的题目最少;在所有产生DIF的原因中,多数属于良性的DIF,如读音能力的差异、语法掌握程度导致的DIF。只有一些在内容上有利于某部分考生的题目才存在不利的DIF,即偏差。例如,涉及到计算机知识的题目对男生有利。但这些题目毕竟是少数,因此可以认为,99年高考英语试卷的命题是较为成功的。