我国一大型考试等值的铆题参数漂移检验,本文主要内容关键词为:参数论文,我国论文,考试论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
在项目反应理论下通过共同题目(Common Items)或铆题(Anchor)进行等值时,理论上,由于只存在随机误差,所以目标测验上的铆题参数在经过线性转换后,应该与其在基准测验上的参数值相差不大。这一性质在测量学中称之为项目参数不变性。然而,在铆题再次使用时由于某些特殊原因,其难度参数可能会发生变化,导致它在目标测验上的难度参数经过等值后仍会与基准测验上的难度参数差别很大,超过了随机误差可以解释的范围,测量学中就认为这个铆题的难度参数产生了飘移。Goldstein(1983)将项目参数在不同施测时间上的改变现象定义为项目参数漂移(Item Parameter Drift,IPD)。
Kim和Nering(2007)指出,当铆题受到了与测量目标无关的外部因素的影响,比如题目曝光、作弊、两次的评分标准不同、印刷错误等,就可能导致题目参数漂移问题和量尺的不稳定。在题库的长时间使用过程中,一个高区分度的题目多次重复使用之后,其难度和区分度都会下降。课程内容重点的改变也会导致题目参数发生漂移。Bock,Muraki和Pfeiffenberger(1988)的研究显示,美国大学入学考试物理测验中的部分题目所发生的难度参数漂移现象,实际上反映了美国中学物理课程侧重点的变化。
1.1 铆题参数漂移对等值的影响
通过增加样本容量和铆题数量,可以提高参数估计的精度和减小等值中的随机误差,但无法控制铆题参数漂移问题,因为在理论上,此时铆题在两个测验形式中所发挥的功能不一致,只是在形式上还是同一题目,非但无法起到媒介或链接的作用,反而会给等值计算带来系统误差。
Huiqin,Rogers和Vukmirovic(2008)通过模拟作答数据考察了平均数/标准差法、特征曲线法和同时校准三种等值方法的表现,发现随着发生难度参数下降的铆题数量的增加,三种方法都有明显的等值偏差;删除参数漂移铆题可以在大多数情况下减小等值偏差,但这种效果会受到参加不同测验被试能力水平差异的影响,对不同的等值方法也存在差异。Huiqin等人(2008)的研究中只考虑了难度参数漂移的情况,而DeMars(2004)的研究显示,题目的区分度参数也会发生漂移。理论上,铆题性能的改变,无论是难度还是区分度,都将使不同的测验形式失去链接的桥梁,导致等值失准。探讨不同的参数漂移模式对等值的具体影响模式,需要考虑不同的等值方法、等值设计、漂移方向、漂移幅度、评价标准等多种因素,目前这方面的文献不多,需要更多的研究探讨现实中存在的多种铆题参数漂移现象给等值带来的影响。
1.2 铆题参数漂移影响的消除方法
BILOG-MG 3.0中提供了一个特殊模型(Item Parameter Drift Model)来解决参数漂移问题,此模型基于Bock等人(1988)的研究,是较早提出的关于项目参数漂移问题的解决方案。此模型引入了额外的参数来拟合题目难度的变化,使用此模型,可以估计出标准IRT模型的难度、区分度、猜测度参数,还可以根据题目使用次数不同,估计出相应的拟合题目难度的线性或多项式变化趋势参数。但此模型有一个明显缺陷,它只考虑了题目难度参数漂移,而视区分度参数为不变,近期研究否定了这种假设(DeMars,2004),所以此模型在研究和实践中使用都较少。
在测量实践中,对于有参数漂移问题的铆题,更常用的做法是将其移除后再进行等值计算。具体而言,可以通过项目功能差异检验或比较平均数/平均数法与平均数/标准差的方法来确定铆题是否存在参数漂移现象,在Rasch模型下也可以使用“0.3logits筛选标准”(Miuer & Fitpatrick,2009)。
总而言之,铆题参数漂移问题涉及等值质量与考试公平,是等值研究中重要问题。但关于铆题参数漂移对等值影响的实证研究在我国较少,本研究将检查我国一大型考试等值的铆题质量,通过实测数据分析探查铆题参数漂移的类型及其对等值的影响,为等值的理论研究与实践提供参考。
2 方法
2.1 测验数据
本研究采用我国一个大规模考试的2002年和2007年两次施测的数据进行分析。2002年考试有431个题目,有2597人参加;2007年考试有412个题目,有1066人参加。两次考试所使用的题目中有121个铆题,这些铆题在2002年首次使用,于2007年再次使用,其间未曾使用。所有题目均为0、1记分。
2.2 模型假设检验
本研究将使用三参数Logistic模型(Three-Parameter Logistic Model,3PLM)拟合两次考试的数据。项目反应理论的优势建立在其一定的假设基础之上,若不满足假设便使用相应的模型分析导致参数估计及解释上的偏差。三参数模型的一个重要假设是就是测量目标单维,本研究采用Prelis 2.7做探索性因素分析,考察两次考试数据是否满足模型所要求的单维性。
本研究使用S-X[2]评价题目模型拟合程度,这个指标是依据总分对被试分组,所以计算出的观察值完全独立于模型。避免了传统题目拟合指标中,观察值与测量模型不独立的问题。研究显示,S-X[2]的误检率比传统拟合指标要更小(Stone & Zhang,2003)。
2.3 铆题参数漂移检验
MH检验是传统的统计检验在测量领域中的推广,使用广泛,已成为DIF检测的一种标准方法。但研究显示,对于一致性DIF,MH检验比Logistic回归要更有效,而对于非一致性DIF,Logistic回归的检验力比MH检验要更大(Hidalgo & López-Pina,2004)。本研究采用MH检验和Logistic回归来检验铆题是否存在参数漂移问题,这两种方法均以测验总分为匹配变量。其中MH检验采用DIFAS 4.0完成,Logistic回归使用R软件中的glm函数完成。
使用Logistic回归时,对两种DIF分别进行检验可以提高统计检验力,但需要效应量来控制由多次统计检验导致的I型误差膨胀问题(Jodoin & Gierl,2001)。在Logistic回归中,可以将模型间的Nagelkerke伪决定系数的差值作为DIF的效应量(Zumbo & Thomas,1996; Zumbo & Thomas,1997;Zumbo,1999)。
3 结果
3.1 单维性检验
对两批数据的探索性因素分析显示,2002年考试数据的第一特征根为42.04,第二特征根为6.82,两者比值为6.16;2007年考试数据的第一特征根为57.83,第二特征根为7.71,两者比值为7.501。两次考试的第一第二特征根比值均大于5,符合单维性要求。
3.2 题目拟合检验
2002年的考试数据中有410题通过拟合检验,不拟合的题目之中有1个铆题、20个非铆题;2007年考试数据有388题拟合于三参数模型,不拟合的题目之中有16个铆题、28个非铆题。这样通过拟合检验的铆题一共有105个。在后面的等值计算中采用的都是通过拟合检验的铆题。题目数量较大,为节约篇幅,本文不呈现题目拟合检验结果。
3.3 铆题参数漂移检验
参数漂移检验时使用观察分数作为匹配变量,题目不拟合对MH检验和logistic回归方法没有影响。另外,在拟合检验中本文发现一个值得注意的现象,即有15个铆题在2002年的数据中拟合良好,但在2007年却无法通过拟合检验。有必要考察这些拟合性能发生改变的铆题是否存在参数漂移问题,所以铆题参数漂移的检查工作将使用完整的测验数据。
表1呈现了MH检验结果,其中MH LOR表示公共优势比的对数,MH CHI表示MH检验卡方值,为0时表示无参数漂移问题,BD表示BreslowDay卡方检验,有研究显示其对非一致性DIF比较敏感(Penfield,2003)。BD和MH CHI都服从自由度为1的卡方分布,那么0.01的显著性水平的临界值为6.63。ETS对公共优势比提出了一种分类,首先对公共优势比的对数乘以一个常数(-4/17),若其绝对数值大于1.5,则将题目归为C类,表示差异较大;若绝对值小于1,则归为A类,表示差异较小或无差异;其它取值归为B类,表示有中等程度的差异。一般情况下,B类和C类题目应从测验中删除(漆书青,2003)。两种卡方检验一致的情况下,则有更充分的理由认为铆题存在参数漂移问题。数据分析结果显示,有20个铆题存在参数漂移问题,其中有7个是未通过拟合检验的铆题;有6个铆题可归为B类,14个铆题归为C类。
Logistic回归对铆题的检验结果将根据Jodoin 和Gierl(2001)所提出的效应量标准进行分类,即:A 类题,小于0.035,铆题参数改变很小或可以忽略;B类题,介于0.035和0.070之间,铆题参数漂移程度中等;C类题,大于0.070,铆题参数漂移严重。将题目归为A类时不需要考虑统计检验结果,但将题目归为B类或C类时,统计检验也必须显著。
依据上述规则,Logistic回归的检验结果显示(表2),有27个铆题存在参数漂移问题,其中有11个铆题未通过模型拟合检验。难度参数发生漂移的铆题有23个,其中13个可归为B类,10个可归为C 类。区分度参数发生漂移的铆题有2个,都可以归为B类。难度和区分度同时发生漂移的铆题有2个,其难度和区分度的漂移程度都可以归为B类。
MH检验和Logistic回归检验的两种方法一共检出22个铆题,检出的参数漂移铆题存在一定数量的交集,有13个铆题被两种方法同时检出。这些可能存在参数漂移的铆题与不拟合的铆题,应在等值计算之前排除。
3.4 等值结果比较
模拟研究显示,删除参数漂移铆题在绝大多数条件下都可以减小等值误差(Huiqin et al.,2008)。本研究的105个铆题之中有22个铆题的参数可能发生漂移,将这些铆题移除后,尚有83个铆题能够用于等值计算,约占整个测验总题数的1/5,是可以接受的。本研究分析采用的测验包含题目较多,将两批数据合并,参数估计产生的计算量非常大,所以同时校准法(Concurrent Calibration,CC)并不适合。本研究中将采用平均数/标准差法(Mean/Square,M/S)和特征曲线法(Test Characteristic Curve,TCC)进行等值。
删除参数漂移铆题前,平均数/标准差法得到的等值系数为,alpha=0.887,beta=-.218,特征曲线法得到的等值系数为,alpha=1.341,beta=-.637;删除参数漂移铆题后,平均数/标准差法得到的等值系数为,alpha=1.173,beta=-.494,特征曲线法得到的等值系数为,alpha=1.361,beta=-0.679。可以看出,在删除参数漂移铆题前后,平均数/标准差法的结果变化较大,而特征曲线法的结果变化不大。在比较平均数/标准差法和特征曲线法时,仍需要考虑参加两次测试的被试能力水平差异。将参加2007年考试的被试能力参数转换到2002年上之后,统计检验结果显示(表3),无论采用哪种等值方法,两次测试中被试能力水平差异均显著。
在删除参数漂移铆题后,我们采用平均数/标准差法进行最后的等值转换。表4呈现了2007年题目参数的最大值、最小值和均值的转换结果,可以看出若不考虑铆题参数漂移问题,区分度参数越大,越会高估区分度;题目难度参数和被试能力参数越极端,错估程度越大。总之,删除参数漂移铆题前后,等值计算的结果差异明显,如果不考虑铆题是否存在参数漂移问题,采用最初的等值计算结果,将会导致很大误差。
4 讨论
减小等值过程中的各种误差、提高等值质量、保证考试的科学性,是我国测量学研究者面临的一个迫切任务。用铆题进行等值,要保证铆题在接受两个测验形式的被试群体中发挥的功能一致(Kolen & Brennan,2004)。等值计算前有必要对铆题是否发生参数漂移进行检查。MH检验和Logistic回归检验显示,我国的一大型考试2002年和2007年等值用铆题中有22题发生参数漂移。发生参数漂移的铆题不仅无法起到链接两个测验的作用,反而会带来误差,因为虽然名义是同一个题目,但其实际功能已不相同。所以在保证一定数量铆题的前提下,应移除参数漂移铆题以保证等值质量。
项目参数漂移问题在我国测量学领域研究不多,国外研究主要关注于铆题的难度参数漂移对等值的影响(Huiqin et al.,2008)。本研究实测数据的统计检验显示,但仍有部分铆题的区分度参数会发生漂移,甚至难度与区分度同时漂移。所以关于铆题功能的稳定性及其对不同等值方法的影响,需要更多的研究给实践者提供参考。
对题目的拟合检验分析发现,2002年的考试数据中有1个铆题未通过拟合检验,2007年考试数据有16个铆题未通过拟合检验。虽然导致题目不拟合的有多种原因,但用于等值的铆题通常是经过筛选的质量较好的题目,铆题在2002年和2007年测试中模型拟合程度上的差异,更有可能是由于题目功能已经发生了系统改变。事实上,也有研究者认为,题目在两个群体中的模型资料拟合程度差异也可作为题目功能是否存在差异的一项指标(漆书青,戴海琦,丁树良,2002)。
在作心理特质的组间比较时,也需要保证题目在各组发挥的功能一致(Lange,Thalbourne,Houran,& Leste,2002)。同样,在纵向研究或追踪研究中,也应考察题目在不同时间点的功能是否一致,检查测验题目参数是否发生漂移,否则研究结果将难以排除测量工具功能不一致造成的混淆。如智力研究中的弗莱因效应的一种可能原因是测量工具题目难度下降,而并非人群的一般认知能力水平真正发生了改变(Beaujean & Osterlind,2008)。所以,为减小等值过程中的误差和纵向研究中结果解释上的混淆,应将项目参数漂移检验作为测验质量检查中的一项常规工作(Chan,Drasgow,& Sawin,1999)。
5 结论
本文采用MH检验和Logistic回归对我国一大型考试等值中的铆题进行参数漂移检验,得出以下结论:(1)我国一大型考试等值用铆题有22个铆题存在参数漂移问题,不仅铆题的难度参数可能改变,区分度参数也会发生漂移。(2)铆题发生参数漂移可能会导致这些铆题在二次使用时无法通过模型拟合检验。(3)删除参数漂移铆题前后的等值结果差异较大,所以在实践中,铆题参数漂移检验应成为等值工作中的一个必要程序。
本研究没有涉及导致铆题参数漂移的原因分析,这涉及社会文化和考试目标的变动,需要进一步的探索。将DIF方法用于铆题参数漂移检验时,由于样本量等条件的变化,各种DIF的适用性和检验力可能需要进一步研究。此外,在铆题多种参数发生漂移的条件下,不同等值方法的稳健性也亟待实践性比较。