RT混合模型下五种线性等价方法的交叉分布比较_参数估计论文

RT混合模型下五种线性等值方法跨分布比较,本文主要内容关键词为:线性论文,五种论文,模型论文,方法论文,RT论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      分类号 B841.2

      1 引言

      测验等值(test equating),是指测量同一心理特质的不同测验分数或试题参数,通过一定的数学模型,转换成同一单位系统中的量数,以利于相互比较的方法(张敏强,胡晖,1988)。测验等值在题库建设和教育评价中必不可少。IRT(Item Response Theory)框架下实施等值,不仅理论完善,前提条件较容易满足,而且等值关系式也十分简洁。随着教育测验评价形式的不断丰富,越来越多的试卷采用了混合题型,也就是测验中同时包含多重选择题(Multiple-Choice items,MC)、简答题或解答题(Construct-Response items,CR),例如高考数学等。其中MC为0-1评分(dichotomously scored,DS)项目,CR为多级评分(polytomously scored,PS)项目。对于混合题型测验,需要选择适当的模型和等值方法,以便能够将试题的项目参数或测验分数等值到同一量尺上。

      在实际应用中,用IRT模型分析同一批数据资料时,发现有的项目(如填空题)拟合两参数逻辑斯蒂模型(two Parameter Logistic Model,2PLM),有的项目(如选择题)拟合三参数逻辑斯蒂模型(three Parameter Logistic Model,3PLM)(Embretson & Reise,2000),还有的项目(如简答题、证明题)拟合等级反应模型(Graded Response Model,GRM)(Samejima,1972),这时任何一个单个IRT模型均不能同时反映所有项目的特点,导致大量项目与任何一个特定IRT模型不拟合。这时可考虑应用多个IRT模型来分析,即混合模型(Mixed Mode,MM),以达到对数据的最佳拟合。混合模型是指0-1评分的试题选用0-1评分模型,多级评分的试题选用多级评分模型,两个模型(甚至多个模型)相结合(即“混合模型”)共同完成同一个测验的参数估计和测验等值。在Parscale(Scientific Software International,Inc,2003)程序中,可以根据实际需要选择不同的模型同时进行分析,且将不同模型中的参数标刻在同一量尺上。“混合模型”在参数估计过程中,所有参数均同时估计,而不是各自独立估计。

      非等组锚测验设计(Non-Equivalent groups with Anchor Test,NEAT)是将两个不同的测验,分别施测于不同的被试样本组,但这两个测验中分别都包含一组相同题,即锚题(Anchor Items),用来作为等值转换的中介。按照IRT,同一项目在不同单位系统上虽然参数值的数字表现形式不同,但实质一样。假设有两个测验X和Y,且两测验有M个锚题,同一项目的两套参数间必然存在如下的线性转换关系:

      

      通过求取等值系数A和B,就可以将Y测验的项目参数等值到X测验的量尺上。等值系数A和B,可以通过一定的数学方法估计出来,主要有以下五种线性等值方法:平均数-平均数法(Mean-Mean Method,MM;Loyd & Hoover,1980)、平均数-标准差法(Mean-Sigma Method,MS;Marco,1977)、稳健的平均数-标准差法(Robust Mean and Sigma Method,RMS;Linn,Levine,Hastings,& Wardrop,1981),Haebara法(HA;Haebara,1980)和Stocking-Lord法(SL;Stocking & Lord,1983)。

      平均数-平均数法通过使用锚题的a的均值和b的均值来获得等值系数。平均数-标准差法通过使用锚题的b或θ的均值及标准差来获得等值系数。稳健的平均数-标准差法是在平均数-标准差法的基础上提出来的,对于分别由X和Y组估计的各对参数(

),以两估计值中最大估计误差的倒数作为对参数的权数,即误差越小,赋权越大,然后再按平均数-标准差法获得等值系数。Haebara法为最小化某一给定能力的被试在所有锚题上的项目特征曲线差异的平方,来求取等值系数,故又称为项目特征曲线等值法。而Stocking-Lord法为极小化各测验间真分数之差,故又称为测验特征曲线等值法。

      3PLM和GRM构成的混合模型,其基本思想是:在0-1记分项目上选用3PLM中的概率反应函数,在多级评分项目上选用GRM中的概率反应函数;在计算似然函数时,根据局部独立性假设,将3PLM的似然函数与GRM的似然函数相乘,得到一个总的似然函数,这样就保证了3PLM和GRM中的参数在同一量尺上。该混合模型可实现对0-1评分猜测行为的分析,弥补了GRM模型单独分析的缺陷。国内学者涂冬波等人(2011)介绍了基于3PLM和GRM的混合模型的参数估计及模型性能,但未涉及到混合模型的等值研究。

      本研究采用EM算法实现对混合模型的参数估计,参数估计软件采用Parscale4.1。在基于3PLM和GRM的混合模型下,采用NEAT设计,运用模拟的方法比较了五种线性等值方法:平均数-平均数法,平均数-标准差法,稳健的平均数-标准差法,Haebara法和Stocking-Lord法,以下分别简称为MM,MS,RMS,HA和SL法。并考虑了被试数量,跨分布下,即不同目标组被试能力分布的对等值精度的影响,探讨在不同条件下何种等值方法为最佳,为测验工作者选择相应的等值方法提供决策依据。

      2 方法

      2.1 实验设计

      主要考察三个因素,包含等值方法、被试数量和目标组被试能力分布,具体情况如下:

      (1)等值方法分别为MM,MS,RMS,HA,SL,共五个水平;

      (2)被试数量为500,2000,共两个水平;

      

      被试数量设为500,代表实践中能够用混合模型进行参数等值的最小被试数量,被试数量设为2000,代表实践中为得到稳定的项目参数估计结果的大型测验的情形。

      基准组(X组)的被试能力分布设为N(0,1),目标组(Y组)被试能力分布采用了和X组十分相似的能力分布N(0,1),与X组稍微不同的分布N(0.25,1.12),与X组有较大不同的分布N(0.5,1.22)。

      共有30种条件:5种等值方法×2种被试数量×3种目标组被试能力分布。每种条件下基准组和目标组作答矩阵都重复模拟30次,以减少随机误差。

      2.2 数据模拟

      模拟生成X(基准测验)和Y(目标测验)测验的项目参数,这两个测验也就是需要进行等值的测验。X和Y均含有72个项目(二级计分60个,四级计分12个),其中有20个MC锚题(二级计分)和4个CR锚题(四级计分),其余为独立项目。需要模拟的数据有:

      

      (3)根据参数真值及概率反应函数,模拟生成不同条件下被试的作答矩阵U。

      项目参数的生成和被试作答矩阵的模拟采用WinGen3软件(Han,2007),对混合模型的参数估计采用Parscale4.1进行,采用IRTEQ软件(Han,2009)调用Parscale4.1中估计出的参数进行不同方法的等值计算,采用SPSS 18.0计算评价指标。

      2.3 评价标准

      评价标准为平均绝对离差(Absolute Error,ABSE),计算公式如下:

      

      3 结果与分析

      被试数量为500,目标组被试能力分布为N(0,1)时,不同等值方法下MC题型的ABSE值如表1所示,以字体加粗标记在该实验序号下ABSE最小者,即对应的等值方法等值精度最高,在五种方法中胜出,当ABSE值相同时,取标准差小者胜出。

      

      由表1可得,在该条件下MM法对a参数的返真性最高,胜出次数为25,而b参数,MM与SL不相上下,胜出次数分别为12,14。该条件下的30批数据中,五种等值方法返真性的离散性程度(标准差)均非常小(远小于0.1),说明这五种等值方法的等值稳定性均较强。本研究中其他所有条件下标准差的值也都远小于0.1,说明在不同条件下这五种等值方法的等值稳定性均较强。

      

      

      为了简洁及方便讨论,以下不再一一列举不同条件下ABSE值的大小,而统一采用胜出次数进行描述。表2和表3分别为被试数量为500和2000时,五种等值方法在不同分布下的ABSE指标胜出次数。由于MS和RMS对a参数的估计值相同,相应地,ABSE_a值也相同,为了简洁和方便分析,下表中MS(RMS)表示这两种方法在ABSE_a下相同的胜出次数,胜出次数最高者用字体加粗标记。

      通过分析表2和表3可知,对于区分度参数a:当目标组被试能力分布为N(0,1),即与基准组被试能力分布相似时,对3PLM的a值的估计,MM法的胜出次数最高(25次),也就是MM法对a值的等值精度最高,对于GRM的a值,SL,HA,MM三种方法旗鼓相当,胜出次数分别为10,9,8;随着目标组与基准组被试能力分布差异逐渐增大时,MM的优势渐渐被削弱,而MS(RMS)的优势逐渐显现出来,尤其是当被试数量为2000,目标组被试能力分布为N(0.5,1.22)时,MS(RMS)的胜出次数达到了27(3PLM)和20(GRM)。

      对于难度参数b,b1,b2,b3:小样本情况下,当目标组被试能力分布为N(0,1),即与基准组被试能力分布相似时,SL法对3PLM的b值估计精度最高(胜出次数:15),略优于MM法(胜出次数:11),而就GRM的难度而言,MM法均优于其他方法,而在大样本情况下,MM法对3PLM和GRM难度值估计的胜出次数均为最高;随着目标组与基准组被试能力分布差异逐渐增大,在两种样本条件下,MM的优势均渐渐被削弱,而MS的优势逐渐显现出来,尤其是当被试数量为2000,目标组被试能力分布为N(0.5,1.22)时,MS的胜出次数达到了18,26,27和26。HA法在各种条件下的胜出次数范围为0-9,尤其当被试数量为2000时,所有条件下的胜出次数总和仅为1,远不及其他方法,并且程序运行时间最长。

      4 结论

      (1)五种等值方法并没有好坏之分,而是各自有不同的适用条件,应根据实际情况选择合适的等值方法,以尽量减少等值误差,提高等值精度。

      (2)对于混合题型测验,采用基于3PLM和GRM的混合模型时,当目标组与基准组被试能力相似或差异很小时,选用MM法可以有效减少等值误差,并且方法简单,程序运行时间短;当目标组与基准组被试能力差异较大时,则选用MS法较佳,并且方法简单,耗时短。

标签:;  ;  ;  

RT混合模型下五种线性等价方法的交叉分布比较_参数估计论文
下载Doc文档

猜你喜欢