基于CTT的锚测验非等组设计中四种等值方法的比较研究,本文主要内容关键词为:四种论文,测验论文,方法论文,CTT论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 问题提出
许多大型测验项目,出于保密性或者多次施测的需求等原因,常常要求对同一测验构建不同的测验版本,尽管编制者总是尽量保持不同版本的难度相同,但难以避免会存在一些差异。为使这些不同测验版本上的分数具有可比性,必须将其置于一个统一的尺度上,这个过程就是等值(equating)。在大型正规考试中,为使参加同一考试的不同试卷形式的考生之间的分数具有可比性,保证测验的公平性,也必须进行等值处理。
当前,随着项目反应理论的普及应用,以及计算机技术的飞速发展,计算机自适应考试日趋成为一种重要的考试手段,计算机自适应考试的核心问题之一就是实现不同考生所测不同题目之间的等值。另外,题库建设也需要以等值为前提。如今,等值研究在国外已经非常深入,但在我国相关的介绍和研究还很少,等值研究迄今是我国测验研究中最薄弱的一个环节[1]。
所有的等值方法都包括两部分:数据收集设计和用于分析数据的统计模型。等值数据收集设计中,由于锚测验设计的众多优点,在实践中应用最为广泛。等值数据分析依据的测量模型有两种:经典测量理论和项目反应理论,分别对应于传统等值方法和IRT等值方法。 这些不同等值方法的比较研究是等值研究领域的热点问题之一。
关于不同等值方法的比较,存在着两种类型的研究[2]。一种是使用不同的等值群体来比较某一等值方法的充分性,另一种是对不同等值方法的最终结果进行比较。本研究属于第二种。
早在1977年,Lord[3],Marco[4],Woods和Wiley[5] 等人就对基于CTT和IRT的不同等值方法进行了比较研究,这些研究发现,不同的等值方案产生了不同的结果。Marco , Petersen 和Stewart[6] 比较了传统等值方法和IRT等值方法对SAT(Scholastic Aptitude Test)的口语部分等值的充分性,结果发现当使用和某一测验具有相同难度的锚测验将该测验等值到自身时,除了等百分位方法中的一种变体外,所有方法的结果都较好,其中线性等值的结果最精确。
Lord[3] 从理论角度出发, 认为传统等值方法不适合等值不同难度的测验。Slinde和Linn[7] 的研究也发现,等百分位方法在等值不同难度的测验时效果不好。Kolen[2] 在Lord等人观点的基础上提出了平行测验等值和非平行测验等值的区分,认为非平行测验等值只要求参加两等值测验的同一考生所得分数相同,而平行测验等值除要求参加两等值测验的同一考生所得分数相同之外,还要求考生在等值之后的两测验上所得分数的分布情况(测量标准误和高阶动差)也相同。Kolen认为[2],为使传统等值方法精确,必须进行平行测验等值。这不难理解,因为传统等值方法通常要求构建共同的分数尺度,以使期望频数分布在考生组的所有子群体中都相同。
在我国测验研究领域,有关等值问题的系统性文献十分罕见[1]。关于不同等值方法的比较,只有谢小庆[1] 对此进行了较为全面的研究,这是等值方法比较中的一个开创性研究,具有参考和借鉴价值。但是,我们认为,该研究存在以下问题。第一,没有在平行测验的前提下考虑传统等值方法的比较,而只是得出了两测验相关较高的结论,但由于两测验中包含部分共同题目,相关较高是在意料之中,因此并不能说明问题。第二,样本容量不够大(关于样本容量对等值结果的影响见后文论述)。这两个问题都将使传统等值方法的精确度降低。然而该研究在等值方法的比较标准中又以传统等值方法的结果作为操作性检验标准,以精确度不是足够高的等值结果作为总误差计算时的标准等值分数,所得结论令人质疑。而且,仅以一个单一的指标来衡量各等值方法的优劣,显得不够充分。该研究对于传统等值方法比较所得结论是,Tucker线性方法最好,等百分位方法其次,再次是Levine线性方法[1]。
但是,Petersen[8] 的研究却表明,对于严格的平行测验,线性等值较为合适,其中,Levine线性方法的结果(对于其研究所选用的等值情境)更稳健。那么,利用传统等值方法对平行测验进行等值时,线性等值是否最为精确?在线形等值中,Tucker方法好还是Levine方法更好?本研究选用实践中应用较多的锚测验非等组设计,基于平行测验等值,依据多种评价指标,对基于经典测量理论的等值方法进行比较,以期对上述问题得出有效的结论,同时为实践中等值方法的选择提供理论依据。
2 研究方法
2.1 等值数据收集设计
采用锚测验非等组设计,锚题内置。锚测验设计要求对两组考生(组1和组2)实施不同的测验版本(X,Y),这两个测验版本包含共同的题目(锚题V)。锚题得分既可以包含在总测验得分中(锚题内置),也可以不包含在总测验得分中,而采取单独施测的形式(锚题外置)[9]。借助锚测验对两测验版本上的分数进行等值。
2.2 实验数据
选自TIMMS1999数据库。TIMMS是由国际性评价组织所组建的数据库,用来测量不同国家不同年级学生的数学成绩。其测验共有8个测验副本,题目分别选自从A到Z的26个部分中的个别部分。本研究选取的是TIMMS1999的第1和第3个测验副本,为使测验更接近严格意义的平行测验,将测验1删掉3题,实施等值时两测验长度均为42题。锚题数量均为17个。题目为多择一型选择题,采用0、1记分。施测对象是七(或八)年级学生。被试来自美国,测验X的被试(组1)数目是1132个,测验Y的被试(组2)数目是1144个。
2.3 所比较的等值方法。
本研究比较了四种传统等值方法[9]:
(1)Tucker线性方法:该方法有两个前提假设,假设一为线性回归假设, 即假设测验X(Y)对锚测验V的回归在两被试组中有相同的线性函数形式。假设二为条件方差假设,即假设对于给定的锚测验V,测验X(Y)的条件方差在两被试组中相等。基于这两个前提假设,得出两考生组的合成组(S)在两测验中的均数和方差,进而依据线性等值公式进行等值。
(2)Levine观察分数线性方法:该方法有三个假设, 这三个假设均是基于真分数所做的假设。假设一为相关假设,即假设测验X、测验Y与锚测验V 的真分数在两被试组中的相关都是1。假设二为线性回归假设,即假设测验X(Y)的真分数对锚测验V的真分数的回归在两被试组中有相同的线性函数形式。假设三为误差方差假设,即假设测验X、测验Y和锚测验V的测量误差方差在两被试组中都相同。 基于这三个前提假设,得出两考生组的合成组(S)在两测验中的均数和方差, 进而依据线性等值公式进行等值。
(3)Braun-Holland线性方法:它也是一种线性方法,但其均数和标准差的估计都用到了频数估计中的假设。Braun-Holland线性方法可以看作是Tucker 线性方法的一般化拓展,由于其计算方法比Tucker线性方法复杂,所以在实践中很少使用,但它可用于Tucker线性方法的线性回归假设不被满足的情况。
(4)频数估计等百分位方法:该方法有一个前提假设——条件概率假设, 即假设两被试组中测验X(Y)的频数分布在给定锚测验V条件下的概率相等。基于这一前提假设,得出合成组(S)在两测验中的频数分布, 进而依据等百分位方法的等值公式进行等值。
2.4 等值比较的评价标准
本研究兼用两个指标对四种等值方法进行比较。首先,使用等值标准误作为衡量各等值方法优劣的指标。等值标准误是描述等值随机误差的指标,其定义为,通过从总体中重复抽样,以一个完全拟合数据条件的等值方法进行等值,那么,等值结果分布的平均数即是真正的等值分数,而分布的标准差即是等值标准误[10]。
其次,使用交叉验证(cross-validation)分析方法来评价不同等值方法。具体做法为:从大样本(参加测验X,Y的两考生组)中抽取约10%的小样本(100人)作为交叉验证样本,以大样本所得等值结果为检验标准,衡量各等值方法在跨样本比较中所得结果的稳定性。我们生成了一个计算指标T 作为各方法所得等值结果比较的统计指标,这个指标是在跨样本比较时,不同等值方法在交叉验证样本中所得结果差异量或误差(Y—Y′)的均方差根。其计算公式为:
附图。
其中,Y[,i]是在交叉验证样本中,测验X上总分排在第i位的考生采用各等值方法所对应于测验Y上的实际等值分数,n是获得该分数的人数,Y ′是依据大样本的等值结果,该分数所对应的测验Y的等值分数,N是交叉验证样本的总人数。该统计指标的值越小,表明各等值方法所得结果的一致性越高。
2.5 所采用的计算机程序
采用Kolen和Brennan等人(Kolen和Brennan,2004)开发的CIPE程序, 使用windows console 1.0版本。
3 结果
3.1 两测验的主要统计量汇总
两等值测验X和Y及锚测验V在考生组1和组2上的统计量见表1。
表1 两测验和锚测验的统计量汇总
组别 分数 平均数 标准差 偏度 峰度 相关系数
1 X 21.153846 8.838627
0.224459 2.206325 [,1](X,V)
1 V 8.136163
3.996797
0.239647 2.189007 =0.94
2 Y 21.514436 8.990396
0.187696 2.104102 [,2](X,V)
2 V 8.449694
4.105654
0.048336 2.116774 =0.94
从表中可以看出,组1在测验X和锚测验V上的相关及组2在测验Y和锚测验V上的相关均高达0.93以上。说明锚测验V和测验X和Y的难度非常近似。另外,从锚测验V上的得分可见组2的水平略高于组1。
3.2 三种线性等值方法的比较结果
首先,对三种线性方法进行比较。表2列出了三种线性方法等值的斜率和截距,从表中可见,三种方法的斜率和截距值较为接近,这表明,它们所估计出的等值结果较为相似,这从表3中可以看出,表3列举了三种线性方法所得测验X对应的测验Y的等值分数。
表2 三种线性方法等值的斜率和截距
方法
斜率 截距
Tucker 0.993614 -0.146522
Levine 0.986288 -0.083325
Braun-Holland 1.000325 -0.364191
表3 三种线性方法所得测验X对应的测验Y的等值分数(例举)
XTucker Levine
Braun-Holland
0-0.15 -0.08-0.36
10
9.79
9.78 9.64
20
19.73 19.6419.64
30
29.66 29.5129.65
40
39.60 39.3739.65
42
41.59 41.3441.65
3.3 Tucker方法线性回归假设的检验结果
对于每一个给定的锚测验V上的分数,我们可以分别计算出考生组1和考生组2在给定V条件下在测验X和测验Y上所得实际分数的平均值,同时也可以根据Tucker方法的线性回归假设,利用回归方程计算出给定V条件下估计的测验X和Y的均数,估计均数和实际均数的差值为均数残差,对给定V条件下的测验X和Y上的均数进行检验,如果均数残差的值在0附近随机变化,那么说明线性回归假设是正确的。 检验结果如图1所示。
附图
图1 测验X和测验Y总分对锚测验V线性回归的残差分析结果图
由图1可见,除末端极端值外,测验X和Y的均数残差基本在0附近上下波动,说明测验X(Y)对锚测验V的线性回归假设满足。那么,在这种情况下,Braun-Holland方法不如Tucker方法合适。因此,在3.5的各等值方法的比较结果中不再涉及该方法。
3.4 线性方法和等百分位方法的等值关系图
图2列出了不同等值方法将测验X上的分数转化为测验Y上分数的比较结果。
从图2可以明显看出,等百分位方法的结果非常不规则, 而且与其他方法相差较大。线性方法中,Tucker和Levien方法的结果较为接近,Braun-Holland方法的结果则与其他两种线形方法有一定差距,这与上面的线性回归假设检验结果基本一致。
附图
图2 各等值方法的关系图
3.5 三种等值方法的比较结果
图3列出了三种等值方法的等值标准误比较结果。从图3可见,等百分位方法的等值标准误较大,Tucker线性方法的等值标准误最小,而Levine线性方法介于二者之间,与Tucker方法的结果较为接近。因此,依据等值标准误指标,可以初步得出三种方法的一个优劣比较结果。等百分位方法不足取,线性方法中,Tucker方法结果更精确。
附图
图3 三种方法的等值标准误
表4列出了依据第二个比较标准——交叉验证分析方法所得指标T的结果。结果显示,Tucker方法的跨样本稳定性最好,等百分位方法稳定性最差,而Levine方法略次于Tucker方法。这与前面依据等值标准误指标的比较结果一致。
表4 交叉验证比较结果
方法T
名次
Tucker 1.3547581
Levine 1.3933672
Unsmoothed EQ% 1.4736853
3.6 样本大小对等值结果的影响
将参加测验X和测验Y的被试各分成两个子样本,其中一个子样本中包含约90%的被试,可称之为分析样本,另一个子样本中包含约10%的被试,称之为交叉样本,这样,对于测验X和测验Y而言,各由其分析样本和交叉样本组成。我们分别根据分析样本和交叉样本对测验X和测验Y进行等值,图4和图5分别列出了在对分析样本和交叉样本进行等值时各方法的等值标准误。为便于和图3(总样本)的结果进行对照,我们将三个图中的坐标端点值设置相同。
把图4、图5和图3进行对照,可以看出:样本容量减小时, 等百分位方法的标准误有明显增加,且不规则性增强。在原样本容量下,Tucker和Levin方法的等值标准误均介于0.2与0.4之间,而对剩余样本,Tucker和Levin 方法的等值标准误则介于0.4与0.8之间,小样本的等值标准误更大,介于0.45与1.2之间。 这一趋势表明,随样本容量减小,各方法的等值标准误急剧增加。
附图
图4 分析样本(测验X的考生1032人,测验Y的考生1044人)上的等值标准误
附图
图5 交叉样本(测验X和测验Y上考生均为100人)上的等值标准误
4 讨论
4.1 关于传统等值方法比较的前提问题
前人研究表明,对平行测验进行等值时,传统等值方法能产生比较精确的结果[6,8]。因此,比较传统等值方法的优劣应以平行测验等值为前提。已有部分研究忽视这一前提,所得有关传统等值方法的比较结果令人质疑。本研究基于平行测验等值对传统等值方法进行比较,所得结果是可信的。
4.2 关于等值比较中样本容量的问题
Angoff[11] 和Lord[2] 认为,样本容量增大时,任何等值方法所得结果的精确度都相应增加。本研究通过比较三种样本容量下的等值标准误变化,从实证的角度证实了样本容量增加可以增大传统等值方法的精确度,说明在小样本情况下所得等值结果的误差较大,并不可取。Kolen和Brenan[12] 提供了一个样本容量需要参考的标准,对传统等值,线性等值中通常每个测验需要400个样本,等百分位等值需要略多于1500的样本容量。
4.3 关于等值方法比较的评价标准问题
等值方法比较的评价标准问题是等值方法比较研究中至今没有解决的难题。以往研究主要使用了三种评价标准,但这些标准均存在一些无法克服的缺点。一种是循环等值(equating in a circle),适用于随机组设计或锚测验设计,其缺点是,易于高估预测参数少的等值方法,且在锚测验设计中,开始循环的起始测验不同所得结果也不同。另一种比较标准是模拟等值,即使用测量模型定义真实的等值,然后生成数据来模拟这种模型,其缺点是,生成模拟数据所依据的测量模型不同会产生不同的结果,且在真实的等值测验项目数据和模拟数据类似的条件下,结果才有效。还有一种是大样本标准,即使用很大的样本容量代表总体,从中抽取小样本,把其结果和大样本的结果对照,其局限是,实践中很难找到大量的考生样本。
基于上述原因,为增加结果的可信度,本研究同时采用了两种等值比较的评价标准。首先采用等值标准误差指标来预测不同等值方法的随机误差。其次采用交叉验证的分析方法,衡量各等值方法在跨样本比较中所得结果的稳定性,并生成了指标T用来衡量等值结果一致性的高低。所得比较结果与等值标准误的比较结果一致,这从另一个角度证实了交叉验证作为等值比较评价标准的有效性。
同时采用等值结果的精确性和稳定性双指标作为评价不同等值方法比较的标准是本研究的主要特色。由于本研究所采用等值方法评价标准的严密性和可靠性,所得结果是经得起验证的。
4.4 有待进一步研究的问题
(1)本研究所得结果中,Tucker方法和Levine方法的等值结果较为接近,那么,如何通过统计指标的差异显著性检验判断Tucker方法是否显著优于Levine方法是需要进一步研究的问题。
(2)等值研究的目的是为社会实践服务。 由于我国的许多重要考试都尚未实现统计等值,因此,依据现有的大型考试,采用严密的等值数据收集设计,有效控制影响等值结果的无关因素,对不同等值方法进行比较,找出最精确的等值估计方法,从而为大型考试的等值实践提供理论依据是等值研究者应该完成的工作。
5 结论
(1)样本容量的增加将增大传统等值方法结果的精确度。
(2)交叉验证分析方法可以作为等值比较的有效评价标准。
(3)针对本研究所设置的等值情境,线性等值优于等百分位等值,其中Tucker线性方法比Levine观察分数线性方法更好一些,Braun-Holland 线性方法不如前二者适合,频数估计等百分位方法等值误差较大,不足取。