多维计算机化自适应测验中项目 曝光控制选题策略的比较
毛秀珍 王娅婷 杨 睿
(四川师范大学教育科学学院,成都 610066)
摘 要 :在MCAT中考查四种项目选择指标在有无曝光控制条件下的选题表现。项目选择指标分别是:(1)贝叶斯的D优化方法(D-optimality)、后验期望Kullback-Leibler方法(KLP)、基于等权重复合分数的最小误差方差方法(the minimized error variance of the linear combination score with equal weight,V1)和基于最优权重复合分数的最小误差方差方法(the minimized error variance of the composite score with optimized weight,V2)。将针对认知诊断CAT项目曝光控制的的限制阈值方法(Restrictive Threshold,RT)和限制进度(Restrictive Progressive,RPG)方法、单维CAT中的最大优先指标方法(Maximum Priority Index,MPI)推广到MCAT。模拟研究表明:(1)KLP,D-优化和V1对领域分数估计准确,能力返真性比V2更好。(2)尽管V1和V2方法相比KLP和D-优化方法提高了题库利用率,但这四种选题指标都产生不均匀的项目曝光率分布。(2)三种曝光控制策略都极大地提高项目曝光均匀性,且不明显降低测量精度。(3)MPI与RPG方法在曝光控制方面表现类似,且比RT的方法表现更好。
关键词 :多维项目反应理论;计算机化自适应测验;选题方法;测量精度;项目曝光率
1 引言
计算机化自适应测验(Computerized Adaptive Testing,CAT)根据被试潜在特质水平自适应地选择测验项目,打破了千人一卷的考试模式,真正实现了测验的“量体裁衣”,极大地提高了测验效率。CAT与传统纸笔测验相比,因其效率更高、测验时间更短、测验参加者更少的压力等优势使其受到广大实践者和研究者的青睐。CAT的另一个特征是可以运用各种项目反应模型开展测验。例如,单维项目反应理论模型(Unidimensional Item Response Theory,UIRT)、多维项目反应理论(multidimensional IRT,MIRT)模型、认知诊断模型以及展开模型等等。
MCAT兼具MIRT和CAT的优点,在实践中突显了测验的高效、快捷和诊断功能。一方面,基于不同条件的大量研究都一致表明MCAT与单维CAT相比具有更高的测验精度和测量信度,换句话说在达到相似测量精度的条件下能大大减少测验长度、缩短测验时间。例如,Segall(1996)基于军队服务职业倾向题组测验(ASVAB)数据的9个自适应模拟研究发现MCAT与单维CAT在达到相似或更高测量精度的情况下减少了约三分之一的测验项目。又如,Luecht(1996)研究表明具有内容约束的情况下,MCAT可以减少25%~40%的测验项目。再如,Wang和Chen(2004)在不同潜特质相关、潜特质数量和评分水平的情况下表明MCAT的测验效率比单维CAT更高。另外,MCAT同时估计被试在多个维度上的能力水平,提供关于领域能力和总体能力的详细诊断信息。正是因为MCAT具有高效和多维性优点,使得它比单维CAT更适用于实际测验。因此,许多MCAT研究都基于实际测验如TerraNova(Yao,2010),美国大学入学考试(ACT)(Veldkamp & vanderLinden,2002)和ASVAB(Segall,1996;Yao,2012,2014a)等。
自Bloxom和Vale(1987)将UCAT推广到多维以来,MCAT越来越受到研究者的关注,其相关研究在最近几年取得了突破性进展。由于选题策略对测验质量和测量精度具有重要影响,从而成为当前研究热点。因此,大多数研究者关注提出新的项目选择指标以减少能力估计的误差。Yao(2014a)研究表明大部分项目选择方法总是倾向于选择特定类型的项目,导致项目曝光不均匀。她还以Kullback-Leibler指标为例,指出该方法倾向于选择所有维度具有高区分度的项目或者不同维度之间区分度相差较大的项目。又如,D-优化方法倾向于选择在某一维度具有高区分度的项目(Wang,Chang,& Boughton,2011)。目前,CAT已广泛应用于多种测验。因此,控制项目曝光率在MCAT应用中极其重要,尤其是在高风险测验中的应用。此外,在MACT中关于控制项目曝光率的研究很少。因此,本文的目的是比较MCAT中多种曝光控制方法的表现。
至今,单维CAT中的许多项目曝光控制方法已经推广到MCAT情景。例如,Finkelman,Nering和Roussos(2009)将Sympson-Hetter(S-H)(Sympson & Hetter,1985)和Stocking-Lewis(S-L)(Stocking & Lewis,1998)方法推广到MCAT。他们发现SH方法、推广的SH方法和推广的SL方法都能较好地控制最大项目曝光率,但还存在较多曝光不足的项目。另外,它们都需要较长的时间事先模拟来确定曝光率控制参数。另外,Yao(2014a)比较了S-H方法和固定曝光率程序。固定曝光率程序类似于Cheng和 Chang(2009)针对单维CAT中提出的最大优先指标方法(MPI)。她指出,S-H方法的测量精度更高,固定比率方法的题库利用率更高,项目曝光更均匀。
Lee,Ip 和Fuh(2008)借鉴UCAT 中a-分层方法的思想,提出按区分度向量a =(a j1 ,a j2 )的函数|a j1 -a j2 |对题库分层的项目选择方法,结果表明该方法能提高大部分曝光过低项目的使用率,显著降低卡方值。但这种方法不能保证没有过度曝光的项目。因此,Huebner,Wang,Quinlan和Seubert(2015)将按该方法与项目合格方法(van der Linden & Veldkamp,2007)结合来增强项目曝光平衡性。这种组合方法提高大部分曝光率较低的项目的使用率,同时控制最大项目曝光率,但它只适用于二维能力空间。对更高维度的情况下建构合适的项目区分度参数的函数是今后的一个重要研究问题。
借鉴Wang和Chang(2011),Yao,Pommerich和Segall(2014),Wang等(2013)研究,研究从多变量正态分布中模拟产生5000名被试。其中能力均值为 [0,0,0],考虑三种相关水平,并假设方差协方差矩阵为:运用M2PL模型计算被试i正确作答项目j的概率P ij ,并产生(0,1)区间的随机数p ij 。如果P ij 大于p ij ,则被试i在项目j上的反应为1,否则为0。
MCAT在实践应用中,特别是应用于高风险测验时,项目曝光均匀性和测量精度是需要考虑的两个重要问题。因为二者总是相互抵消,实践者希望找到能保证测量精度且能平衡项目曝光均匀性的项目选择方法。然而,没有很好的方法能有效的平衡高维测验的项目曝光率。Wang,Chang和Huebner(2011)报告限制进度(Restrictive Progressive,RPG)方法和限制阈值(Restrictive Threshold,RT)方法在认知诊断CAT中能很好地平衡项目曝光率。另外,目前没有研究考察它们在MCAT中的表现。因此,本文的目的是考察它们在MCAT中能否控制最大项目曝光率且提高曝光不足项目的使用率,同时不显著损失测量精度,并进一步比较它们和MPI方法的表现。
第二部分将介绍采用的MIRT模型和能力估计方法,第三部分介绍项目选择指标和曝光率控制方法,接下来的三个部分分别是研究设计、结果、结论和讨论。
2 选用的多维项目反应理论模型和能力估计方法
2.1 多维两参数逻辑斯蒂克模型(Multidimensional two parameters Logistic Model,M-2PL)
MIRT模型按完成任务时某一能力维度上的不足是否可以被其它优势能力所补偿分为补偿模型和非补偿模型。Bolt 和Lall(2003)指出二者能很好拟合非补偿模型产生的数据,但是非补偿模型不能很好地拟合补偿模型产生的数据。目前,大部分研究选用补偿的二级评分模型((van der Linden,1999;Veldkamp & van der Linden,2002;Mulder & van der Linden,2010)。鉴于补偿模型的优势,M-2PL模型将用于模拟被试的作答。
教学查房是临床实践教学的一个重要环节,是医学生培养的必经过程。通过教学查房,留学生开始进入医生角色,深入临床实践。在肿瘤学教学查房中,教师应不断提升自身教学水平,应用适应于留学生特点的方式进行教学活动,鼓励学生积极参与、主动思考,培养学生综合能力,促进师生协作交流,完善教学中的不足,最终提高留学生教学质量。
M-2PL模型(McKinley & Reckase,1982)中项目j包括斜率(截距)参数b j 和区分度向量a j =(a j1 ,a j2 ,…,a jD )T ,其中T 表示转置,D表示测验的维度。那么,能力为θ =(θ 1,θ 2,…,θ D )T 的被试正确作答项目j 的概率可以根据(1)式计算而得。
(1)
上式中表示二维空间中的直线。它表明所有使相等的能力向量θ 具有相同的正确作答概率,体现了模型的补偿特征。
2.2 最大后验能力估计方法(maximize a posterior estimation,MAP)
Yao(2014b)研究比较了MAP、期望后验估计方法(expected a posteriori,EAP)和极大似然估计方法(maximum likelihood estimation,MLE),并指出(1)MLE方法产生更小的偏差和更大的均方误差根,然而MAP和EAP运用强先验或标准先验都得到更高精度的能力估计值;(2)MAP和EAP表现类似,但是EAP的运行时间比MAP更长。最近,Huebner等(2015)在MCAT中比较了EAP和MLE方法,并证明EAP在能力估计方面总是产生更稳定的结论和更低的均方误。基于上述研究和估计精度以及计算简便性考虑,本文采用MAP方法估计能力。
令θ 的先验密度函数f (θ )服从均值为μ 0、协方差矩阵Σ0的多变量正态分布。记项目j 的作答反应为x j ,已做答k-1个项目的反应为X k-1 。基于贝叶斯定理,有f (θ |X k-1 )∝L (X k-1 |θ )·f (θ ),L (X k-1 |θ )代表似然函数。MAP的目标就是找到后验密度函数f (θ |X k-1 )的众数。也就是说,能力估计值等价于求解
迭代方法可以用于求解这个方程组,详细方法请参见Yao(2014b)。
颇具特色的泰安铭座三泰宾馆,将成为泰山文化的一张名片,展现着更美丽更生动的泰山风情。本次在这里召开首届山东省文化主题饭店发展论坛,极具实际指导意义。
3 项目选择指标和曝光控制策略
下文统一用N表示被试人数,L代表测验长度,M表示题库容量。S k-1 ={i 1,i 2,…,i k-1 }表示已施测项目的集合,R k ={1,2,…,M }/S k-1 表示选择第k-1个项目之后的剩余题库。
3.1 项目选择指标
i k =max {(1-er j /r max)·[(1-k /L )u j +Index j ×βk /L ],j ∈S k-1 }
3.1.1 贝叶斯D-优化方法
将xA的估计值带入公式(6)计算得到yC,进而获得直线FA′和C′D在新坐标系下的直线方程。6条直线的直线方程确定后,利用已知的虚拟图像中的像素距,可获得线段EF和ED在世界坐标系下的长度,即为长方体的底面长与宽,再由得到为长方体的高。
对V 1和V 2方法,则按式(9)选题:
总之,电商(商务秘书)场景实验室教学实践表明:大多数学生认为电商(商务秘书)场景教学对认知岗位、提升技能帮助很大。明显感觉自己的专业知识有了实践方面的积累,专业技能有了操作层面的增长,对相关职业岗位职责有所了解,对今后从事的电商工作有了初步规划。学生的就业率、就业对口率、就业质量大大攀升。对教师而言,电商(商务秘书)场景实验室教学,显著提升了教师的理念,教学能力和水平。场景实验室及企业真实场景教学活动,增强了教师参与企业实践的主动性与合作性。电商(商务秘书)场景实验室教学改革具有很好的启发性和推广价值及借鉴意义。
(2)
施测k-1个项目后,能力估计值构成一个椭圆(球)V k-1 。于是,为使施测第k个项目后,V k 的面积(体积)下降最快,Segall(1996)提出选择使后验测验Fisher信息矩阵行列式值最大的方法,又称为D-优化方法(Mulder & van der Linden,2009)。具体而言,该方法的选择标准可以表示为:
(3)
4.1.5 评价指标
3.1.2 后验期望KL信息量方法(Posterior Expected KL information,KLP)
KLP方法是通过对根据能力的后验分布信息对项目KL信息进行加权而获得。也就是,第k个项目根据下式来选择
(4)
其中,
(5)
为简化计算,通常将缩小积分区间,得到(11)式。
(6)
其中4γ j 等于因此,KLP方法中,第k个项目选自使(10)式取最大值的项目。
3.1.3 基于相等权重复合能力最小误差方差方法(V 1)
van der Linden(1999)给出二维能力空间中计算复合能力估计方差的方法,然后提出第k个项目应选择使复合分数具有最小误差方差的项目。Yao(2012)进一步指出对D维线性复合能力而言,在施测k-1个项目后,θ α 的测量标准误为SEM (θ α )=(V (θ α ))1/2=(wV (θ )w T )1/2,其中V (θ )的值通常由I (θ )-1来逼近。于是,V 1方法设置所有权重w =(1/D ,1/D ,…,1/D ),那么第k个项目将在剩余题库中选择使SEM (θ α )取值最小的项目。
Wang等(2011)提出的限制阈值方法(RT)和限制进度指标方法(RPG)是在认知诊断CAT中表现较好的两种项目曝光控制方法,下面将它们推广到MCAT情景。
V 2与V 1方法不同的是,V2中θ α 不是领域能力相等权重的线性组合,而是基于最优权重的线性组合。根据已施测项目信息量计算使复合能力估计误差最小的权重,称为最优权重。具体而言,Yao(2012)通过数理证明了使SEM (θ α )=(wV (θ )w T )1/2取最小值的权重存在,而且该权重为
(7)
其中,b ol 表示I k-1 (θ )的第o行l列的元素。因此,V 2方法在选择每个项目之前根据已施测项目计算在当前能力估计值处的Fisher信息量矩阵并计算最优权重;然后在剩余题库中选择使SEM (θ α )值最小的项目。
3.2 项目曝光率控制策略
3.1.4 基于最优权重复合能力最小误差方差方法(V 2)
3.2.1 RT方法
该方法在每个被试参加测验之前将曝光率大于预先设定的最大值的那些项目从题库中去掉后形成一个影子题库,然后第k (k =1,2,…,L )个项目将从由剩余题库中项目选择指标值落在最大(最小)值的一个较小区间内的项目所构成候选项目集中随机选择。例如,当按D-优化方法和KLP方法选题时,候选项目集由信息量落在区间[max(Index )-δ ,max(Index )]的项目构成;当按V 1和V 2方法选题时,则将选题指标值落在区间[min(Index ),min(Index )+δ ]的项目放在一起构成候选项目集。其中δ =[max(Index )-min(Index )]*(1-k /L )β ,L为测验长度。β 的值越大,δ 越小,测量越准确,项目曝光均匀性越差。因此,β 是平衡项目曝光分布和测量精度的权重,其值可根据测验要求灵活设置,本文令β 等于0.5。
3.2.2 RPG方法
MCAT中当采用D-优化指标和KLP指标选题时,RPG方法将根据式(8)选择第k题(Wang et al.,2011):
基于计算复杂性和运行时间的考虑,本文选用贝叶斯D-优化方法(Mulder & van der Linden,2009)、后验期望KullBack-Leibler信息方法(VelderKamp & van der Linden,2002)、基于等权重复合能力最小误差方差方法和基于最优权重复合能力最小误差方差方法(Yao,2012)四种项目选择指标。
(8)
MIRT中项目Fisher信息量不再是一个实数,而是一个矩阵。特别地,M-2PL中的项目j的Fisher信息量为:
一天,冯一余从起点站上车占到座位,过了两站,上来个孕妇,冯一余站起来给她让座,孕妇动作迟缓,旁边一个年轻女孩“哧溜”一下坐了上去。冯一余赶紧说,哎,我不是让给你的,我是让给她的。女孩耳朵里塞着耳机,只朝他翻个白眼,不说话,听音乐呢。冯一余来气,旁边的乘客也都来气,七嘴八舌地说了几句,那女孩干脆连眼睛都闭上了。等他们说了一阵后,又忽然睁开眼睛,扯下耳机,冲冯一余说,素质?你还跟我谈素质,素质好的人,都开私家车哦。我素质差,才坐公交车。这话又惹恼了坐公交车的众人,一番舌战,让冯一余真正体会了什么叫素质。
i k =max {(1-er j /r max)·[(1-k /L )u j +(C -Index j )×βk /L ]j ∈S k-1 }
(9)
er j 与r max分别表示项目j的曝光率和期望项目曝光率,为了统一方向,常数C必须大于所有项目在复合能力处的估计误差,本文令C等于10000。实验发现SEM总是在前几个项目很大,但是很快就下降到1000以下。因此,最好将C的值设置为大于1000。令H *等于剩余题库中所有项目信息量的最大值,那么u j 均匀取值于区间(0,H *),β 是平衡项目曝光控制和测量准确性的权重,本文取β =0.5。
3.2.3 最大优先指标方法
根据Yao(2014b),容易得到项目j基D-优化方法和KLP方法选题时量的优先指标(Priority Index,PI)为:
(10)
n j 为第j个项目被调用的次数,Index j 表示D-优化或KLP指标,MPI方法的任务就是找到使PI值最大的项目。对V 1和V 2方法,PI指标相应地变为:
本次研究结果中,实验组治疗两周后,NT-ProBNP水平更低,LVEF更高,6分钟步行距离更长,治疗总有效率也比对照组高,说明实验组患者治疗后心脏功能、活动能力都优于对照组患者。
(11)
C的含义和值与RPG方法的相同,Index j 表示V 1或V 2指标。
4 方法
本文采用MATLAB(R2010a)为工具编写MCAT代码,进行模拟实验。
4.1 模拟研究的设计方法
4.1.1 题库的模拟
尽管Stocking(1994)建议题库应包含测验长度12倍以上的项目,MCAT的大部分研究都采用了较为严格的题库。例如,van der Linden(1999)的实验中针对测验长度为50的MCAT使用包含500个项目的题库;Lee等(2008)的研究中题库包含480个项目,测验长度为30和60两种情况;在Veldkamp和van der Linden(2002)的研究中对测验长度为30的MCAT测验使用仅包含200个项目的题库。鉴于此,本文固定测验长度为30,模拟产生包含450个项目的题库。
为简化实验条件,大部分研究都假设测验考察2或3个维度利用M-2PL或M-3PL产生项目参数和做答反应(van der Linden,1999;Veldkamp & van der Linden,2002;Lee et al.,2008;Mulder & van der Linden,2009;Finkelman et al.,2009;Wang,Chang,& Boughton,2013;Wang & Chang,2011)。因此,不失一般性,本研究假设测验考察三个维度,利用M-2PL产生数据,并借鉴Yao和Schwarz(2006),Wang和Chang(2011)等人的方法确定项目参数。对项目j,每个维度的区分度从对数正态分布中产生,即(a j1 ,a j2 ,a j3 )j (j =1,2,…450)独立产生于logN (0,0.5),项目难度b j (j =1,2,…450)从标准正态分布中随机产生,项目猜测参数均设置为0。
4.1.2 模拟被试的真实能力水平和作答反应
一是研究学生问题。虽然学生个性迥然不同,但学生问题大同小异。比如课堂违纪、不交作业、打架、早恋等,如果班主任初次处理这些问题时,不停留在解决此次问题上,而进一步思考怎样预防这类问题再次发生,在教育实践中积累教育智慧,将来处理类似问题就会得心应手、从容优雅。二是研究学段特点。很多教育问题都会呈现阶段性的特征,掌握了学段特点,班主任才能高瞻远瞩、运筹帷幄、料事如神。管理一届又一届的学生,班主任要不断总结经验,对各阶段的教育问题和解决策略了然于心。
众所周知,项目曝光率均匀性受到过度曝光和曝光不足项目数量的影响。在上述曝光控制方法中,S-H方法、推广的S-H方法、推广的 S-L方法、固定曝光率和项目合格性方法在控制最大项目曝光率方面表现良好;按|a j1 -a j2 |对题库分层的项目选择方法能有效提高曝光率较低项目的使用率。虽然Huebner等(2015)使用的组合方法在两个方面都表现良好,但它只适合于二维能力空间。
宁夏图书馆地方文献检索室的读者用户大多是为查找论文的资料和课题研究的文献资料,所以服务内容多为用户的需求所指引。下表是2013年~2016年读者查找资料前10位的文献。
资管新规对理财产品的冲击主要来源于取消刚性兑付的规定。一方面,“金融机构开展资产管理业务时不得承诺保本保收益”这一新规定,说明保本理财将彻底退出市场,目前这一块的规模在7.37万亿元。另一方面,通过 “金融机构对资产管理产品应当实行净值化管理”这一新规定,能够采取摊余成本的封闭式产品仅有一小部分,这样一来,非保本理财的稳定高收益光环就会消失,投资吸引力也逐渐降低,最终产生非保本理财规模萎缩的情况。另外,作为银行理财重要投资途径的通道业务也在资管新规中被重新定义,也对银行发行理财产品的积极性起到了一定的阻碍作用。
4.1.3 能力估计方法
3.银皇后 它的叶片能够有效吸附空气中所散发的尼古丁气体和甲醛,空气中这些有害物质的浓度越高,它的净化能力就越突出。银皇后喜欢湿润和阴凉的环境,生长期需要充足的水分。
初始能力估计值从多变量标准正态分布中随机产生。假设能力先验分布为多变量标准正态分布,利用MAP方法估计能力值。
4.1.4 项目选择方法和测验终止规则
本文考查了四种项目选择指标:D-优化指标、KLP、V 1和V 2在与项目曝光控制方法相结合前后的选题结果。项目曝光控制方法是MPI、RT和RPG。测验长度固定为30。
其中,表示已施测项目集在能力估计值处的测验信息量,表示候选项目在能力估计值处项目信息量。
每个能力维度的平均偏差与均方差用于表示能力估计精度,它们通过下面的式子计算。
(12)
(13)
项目曝光率即项目的使用频率。本文选用未使用的项目个数、过度曝光的项目个数(即曝光率大于0.20的项目个数)、χ 2统计量和测验重叠率评价各项目曝光率的结果。其中,表示项目观察曝光率和期望曝光率之间的差异(Chang & Ying,1999)。项目i的期望曝光率等于测验长度L除以题库容量M。χ 2越小,总体上项目观察曝光率与期望曝光率之间的差异越小。测验重叠率定义为随机选择的两个被试之间期望重叠的项目个数与测验长度之比。假设有N个被试参加长度为L的测验,它可以通过公式(21)(Chen,Ankenmann,& Spray,2003)计算,
(14)
其中,表示项目曝光率的方差。测验重叠率越小,项目曝光控制越好。
5 模拟数据的结果
5.1 能力估计结果
由于每种方法在任意两个维度估计值的偏差相差极小,图1展示了三个维度的平均偏差。图2展示了各种相关水平下每个维度的MSEs。根据图1和图2很容易得知:(1)D-优化、V1方法和V2方法得到相似的估计偏差,且比KLP方法的偏差更大;(b)对每个维度的MSE,KLP方法的值最小,接下来是D-优化、V1方法和V2方法。总体上,KLP方法的测量精度明显高于其它三种方法的结果,D-优化方法次之,V2方法表现最差。
我国是世界最大的有色金属生产国和消费国,在我国发展有色金属工业具有潜在的资源优势。我国矿产资源潜在总值居世界第三位,是世界上矿产资源总量丰富、储量可观、品种较齐全、资源配套程度较高的少数国家之一[1]。但是,我国的铜、铅、锌等重要金属资源矿石一般品位较低,成分复杂,且随着矿石资源的不断开采,易选冶的硫化矿逐渐减少,为有色金属行业的发展带来难题[1-2]。因此,资源的综合利用应运而生,对各金属的氧化矿及二次金属资源的开发受到了人们的广泛关注。
图1 各种实验条件下每种方法在三个维度的平均偏差值
项目曝光控制方法对测量精度的效应通过以下几个方面进行检测。首先,从图1可知,固定项目选择方法,当与不同曝光控制方法结合选题前、后的偏差几乎没有差异。因此,项目曝光控制方法不会显著影响测量偏差。其次,根据图2,比较各指标与曝光控制方法相结合前、后选题的测量MSE,可发现除V2方法外,所有项目曝光控制策略都增加了MSE的值。V2方法的MSE比V2-RT方法的MSE更大。从下面的结果可知V2方法本身能提高题库利用率和项目曝光均匀性,这也使其在一定程度上降低了测量精度。总体上讲,结合曝光控制策略选题总会降低测量精度。
图2 各种方法在每种实验条件下各个维度的MSE值
注:Original=没有结合项目曝光控制方法的选题指标;D=D-optimality;K=KLP;‘-1’,’-2’,and ’-3’代表第一、第二和第三维度。
第三,当曝光控制方法和D-优化方法,KLP方法或者V2方法相结合时,他们在测量精度方面具有所差异。然而,当与V1方法相结合时,所有曝光控制方法都产生类似的测量精度。除此之外,能力相关越高,同一选题指标与项目曝光控制方法结合前后在测量精度的差异越低。
最后,比较不同项目曝光控制方法的结果可知RT方法总是产生最低的MSE。因此,它比RPG和MPI方法的测量精度更高。尽管RPG和MPI方法在不同项目选择指标下表现的优劣次序有所波动,总体上二者的表现类似。RT方法和RPG方法的表现和Wang等(2011)在认知诊断测验下的检验结果一致。一般地,不同项目曝光控制方法按测量精度从高到低排序为RT、RPG和MPI方法。
5.2 项目曝光率分布结果
每种项目选择指标在与曝光控制方法结合前后的结果呈现在表1、图3和图4。
表 1不同条件下各选题方法的测验重叠率和卡方值
注:每个单元格中代表相关为0.3/0.6/0.8的结果。
首先,根据卡方值、测验重叠率、题库利用率和过度曝光项目比例很容易推知四种项目选择指标的项目曝光率分布极不均匀。其中D-优化和KLP方法的题库利用率不足50%;D-优化、KLP方法和V1方法过度曝光的项目比例达到10%及以上。尽管V2方法中从未曝光的项目比例接近0,测验重叠率和χ 2值也比其它三种方法更小,它也不能得到比较满意的项目曝光率分布。图形4(a)以项目曝光率升序的方式描述了四种项目选择指标项目曝光率分布的曲线图。从图形4(a)可知四种项目选择指标的项目曝光分布都不均匀。
图3 各种实验条件下不同方法的题库利用率和过度曝光项目比例
第二,所有项目曝光控制方法都增加了题库利用率,降低了过度曝光项目的比例、测验重叠率和卡方值,从而提高了项目曝光均匀性。根据表1,尽管RPG方法与MPI方法表现类似,在大部分条件下都比其它方法表现更好。表1还可推知,相同项目曝光控制方法在与不同项目选择指标相结合的项目曝光率分布具有相似特征。因此,图4(b)以KLP选题指标为例,描绘了在能力相关为0.6的情况下,KLP与不同曝光控制方法相结合前后的曝光率分布曲线。
另外,从图4(b)可以得知不同项目曝光控制方法的项目曝光率分布具有不同特征。结合图形3,可知除了KLP-MPI方法外,其它方法的题库利用率达到100%。换句话说,所有项目曝光控制方法都显著提高了题库利用率。检查过度曝光项目的比例,RPG方法和MPI方法产生中过度曝光项目的数量在大部分条件下比RT方法的更多。一般地,RT能将项目曝光率控制在允许的最大项目曝光率之下,而RPG和MPI方法都有少量过度曝光的项目。
图4 不同方法在能力相关为0.6时的曝光率分布图
注:图a为项目选择指标没有与项目曝光控制方法结合时的图形;图b为以KLP指标为例,与各种方法结合时的项目曝光率分布图。
根据表1和图3,还发现一些特殊的情况。首先,当MPI与D-优化、 V1和V2方法结合时,项目曝光率分布比它与KLP方法相结合时的曝光率分布更均匀。其次,当RPG方法与V1或V2方法相结合时,总会有1个或2个项目施测给所有被试。检查V1-RPG和V2-RPG的内部过程,发现在选择第一或第二个项目的时候,误差方差值总是显示“NaN”。换句话讲,V1-RPG和V2-RPG方法中的过度曝光项目主要是由于项目信息矩阵非正定造成的。此外,V1-RPG和V2-RPG的测验重叠率和卡方值显然也相应地受到第一个或前两个项目的影响。
总体上讲,尽管项目曝光控制策略的项目曝光率分布特征不尽相同,它们都能极大地提高项目曝光率分布的均匀性。这个结论可以通过直接比较图4(a)和图4(b)获得。研究结果也体现了测量精度和项目曝光率分布之间在一定程度上相互抵消的情况。
6 结论与讨论
许多研究已经表明CAT具有优于P&P测试和计算机测试的优点,例如它在减少测验长度,提高测量精度以及模型拟合方面表现得很好。对具有众多优势的MCAT而言,项目选择方法是MCAT成功应用于实践的关键之一(Wang & Chang,2011)。尽管已有项目选择指标能提高测量精度,但他们在处理过度曝光项目和曝光过低的项目时都显得脆弱无力。解决这个问题的有效方法是在项目选择过程中融合项目曝光控制策略。因此,本文基于模拟数据,考察了四种项目选择指标在与项目曝光控制策略结合前后的选题表现。
研究表明,V2相对于D-优化方法,KLP和V1具有更高的项目库使用率,更少的过度曝光项目和更低的测试重叠率。通常,项目选择指标在不使用项目曝光控制策略时在项目曝光统计方面不令人满意,并且按照心理测量精度的的高低可以排序为KLP,D-优化方法,V1和V2。 此外,当使用项目曝光控制方法时,在所有项目选择指标的测量精度趋于降低。
用户可以通过登录账号的方式,进入app,可以实现以第一人称视角进入到校园建筑的各个房间,并且可以在房间任意位置放置信封,并且可以在信封上留言自己在这个地方曾经发生过什么事情,其他用户也可以通过登陆的方式进入到这个虚拟校园,发现这些信封并在上面留言,时间一长校园建筑的各个地方都会布满信封,建筑本身也会被加上人的情感,不再是一个冰冷的建筑。
热闷法是利用钢渣热量在密闭环境中对表面进行喷水,使得蒸汽在压力作用下渗入钢渣内部,f-CaO遇水反应后膨胀,使得钢渣破碎,目前应用的主流热闷技术有高温钢渣池式热闷技术和钢渣辊压破碎—余热有压热闷技术两种。
在比较不同项目曝光控制方法产生的项目曝光率分布时,尽管RPG方法和MPI方法表现类似,RPG方法在大多数情况下的表现优于其他方法,RT方法表现最差。此外,每个项目曝光控制方法在不同的项目选择指标下产生相同的曝光率模式。当比较测量精度时,不同曝光控制方法可以排序为RT,RPG和MPI。Chang和Twu(1998)曾指出在许多研究中观察到测量精度和项目曝光率的均匀性之间总是相互抵消。换句话言,为保证项目曝光率达到期望值,必将在一定程度上牺牲测量精度。
在本研究和Wang等(2011)的研究一致表明,在相同的测试条件下RT方法的测量精度优于RPG方法,在项目曝光分布的均匀性方面,RT方法略差于RPG方法。总之,RT与RPG方法能平衡测量精度和项目曝光均匀性,然而MPI方法在项目曝光分布方面表现较好。但在测量精度方面表现较差。
关于MCAT的项目选择方法的几个问题值得进一步研究。首先,虽然D-优化性,V1和V2比KLP快得多,但运行时间通常会随测试维度的增加而增加。因此,耗时的缺点可能影响MCAT在处理复杂测试条件时的应用。事实上,MCAT优于单维CAT的特点主要在于能从多维度获得的详细的认知信息。因此,需要更多关于减少项目选择方法的计算时间的有效算法,在已有选题方法上进行简化,提出有效简单的选题策略。例如Wang等(2011)提出的两个简化的KL指标。其次,MCAT项目选择方法虽然可以保证每个维度的测试的测量精度,但在实际测试中遇到许多其他约束。 因此,研究如何处理MCAT的非统计约束非常重要。
参考文献
Bloxom,B.M.,& Vale,C.D.(1987).Multidimensional adaptive testing :A procedure for sequential estimation of the posterior centriod and dispersion of theta .Paper presented at the meeting of the Psychometric society,Montreal,Canada.
Bolt,D.M.,& Lall,V.F.(2003).Estimation of compensatory and noncompensatory multidimensional item response models using Markov chain Monte Carlo.Applied Psychological Measurement ,27,395-414.
Chang,S.W.,& Twu,B.Y.(1998).A Comparative Study of Item Exposure Control Methods in Computerized Adaptive Testing.ACT Research Report Series ,98-113.
Chang,H.H.,& Ying,Z.L.(1999).a-Stratified multistage computerized adaptive testing.Applied Psychological Measurement ,23,211-222.
Chen,S.Y.,Ankenmann,R.D.,& Spray,J.A.(2003).The relationship between item exposure and test overlap in computerized adaptive testing.Journal of Educational Measurement ,40,129-145.
Cheng,Y.,& Chang,H.H.(2009).The maximum priority index method for severely constrained item selection in computerized adaptive testing.British Journal of Mathematical and Statistical Psychology ,62,369-383.
Finkelman,M.,Nering,M.L.,& Roussos,L.A.(2009).A conditional exposure control method for multidimensional adaptive testing.Journal of Educational Measurement ,46,84-103.
Huebner,A.R.,Wang,C.,Quinlan,K.,& Seubert,L.(2015).Item exposure control for multidimensional computer adaptive testing under maximum likelihood and expected a posterior estimation.Behavior Research Methods ,DOI 10.3758/s13428-015-0659-z.
Lee,Y.H.,Ip,E.H.,& Fuh,C.D.(2008).A strategy for controlling item exposure in multidimensional computerized adaptive testing.Educational and Psychological Measurement ,68,215-232.
Luecht,R.M.(1996).Multidimensional computerized adaptive testing in a certification or licensure context.Applied Psychological Measurement ,20,389-404.
McKinley,R.L.,& Reckase,M.D.(1982).The use of the general Rasch model with multidimensional item response data (Research Report ONR 82-1).American College Testing,Iowa City,IA.
Mulder,J.,& van der Linden,W.J.(2009).Multidimensional adaptive testing with optimal design criteria.Psychometrika ,74,273-296.
Mulder,J.,& van der Linden,W.J.(2010).Multidimensional adaptive testing with Kullback-Leibler information item selection.In W.J.van der Linden & C.A.W.Glas(Eds.),Elements of Adaptive Testing ,Statistics for Social and Behaviroal Sciences .Springer Science+Businesws Media.
Segall,D.O.(1996).Multidimensional adaptive testing.Psychometrika ,61,331-354.
Stocking,M.L.(1994).Three practical issues for modern adaptive testing item pools (ETS Research Report No.94-5).Princeton,NJ:Educational Testing Service.
Stocking,M.L.,& Lewis,C.(1998).Controlling item exposure conditional on ability in computerized adaptive testing.Journal of Educational and Behavioral Statistics ,23,57-65.
Sympson,J.B.,& Hetter,R.D.(1985).Controlling item-exposure rates in computerized adaptive testing.In Proceedings of the 27th annual meeting of the Military Testing Association (pp.973-977).San Diego,CA:Navy Personnel Research and Development Center.
van der Linden,W.J.(1999).Multidimensional adaptive testing with a minimum error-variance criterion.Journal of Educational and Behavioral Statistics ,24,398-412.
van der Linden,W.J.,& Veldkamp,B.P.(2007).Conditional item exposure control in adaptive testing using item-ineligibility probabilities.Journal of Educational and Behavioral Statistics ,32,398-418.
Veldkamp,B.P.,& van der Linden,W.J.(2002).Multidimensional adaptive testing with constraints on test content.Psychometrika ,67,575-588.
Wang,C.,& Chang,H.H.(2011).Item selection in multidimensional computerized adaptive testing-gaining information from different angles.Psychometrika ,76,363-384.
Wang,C.,Chang,H.H.,& Boughton,K.A.(2011).Kullback-Leibler information and its applications in multidimensional adaptive testing.Psychometrika ,76,13-39.
Wang,C.,Chang,H.H.,& Boughton,K.A.(2013).Deriving stopping rules for multidimensional computerized adaptive testing.Applied Psychological Measurement ,37(2),99-122.
Wang,C.,Chang,H.H.,& Huebner,A.(2011).Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement ,48,255-273.
Wang,W.C.,& Chen,P.H.(2004).Implementation and measurement efficiency of multidimensional computerized adaptive testing.Applied Psychologica Measurement ,28,295-316.
Yao,L.(2010).Reporting valid and reliability overall score and domain scores.Journal of Educational Measurement ,47,339-360.
Yao,L.(2012).Multidimensional CAT item selection methods for domain scores and composite scores:Theory and applications.Psychometrika ,77,495-523.
Yao,L.(2014a).Multidimensional CAT item selection methods for domain scores and composite scores with item exposure control and content constrains.Journal of Educational Measurement ,51,18-38.
Yao,L.(2014b).Multidimensional item response theory for score reporting.In Y.Cheng & H.-H.Chang(Eds.),Advances in modern international testing :Transition from summative to formative assessment .Charlotte,NC:Information Age.
Yao,L.,Pommerich,M.,& Segall,D.O.(2014).Using Multidimensional CAT to Administer a Short,Yet Precise,Screening Test.Applied Psychological Measurement ,38,614-631.
Yao,L.,& Schwarz,R.D.(2006).A multidimensional partial credit model with associated item and test statistics:An application to mixed-format tests.Applied Psychological Measurement ,37,3-23.
A Comparison Study of Item Selection Strategies with Item Exposure Controlling in MCAT
Mao Xiuzhen Wang Yating Yang Rui
(Institute of Educational Science,Sichuan Normal University,Chengdu 610066)
Abstract :Four item selection indexes with and without exposure control are evaluated and compared in multidimensional computerized adaptive testing(CAT).The four item selection indices are D-optimality,Posterior expectation Kullback-Leibler information(KLP),the minimized error variance of the linear combination score with equal weight(V1),and the minimized error variance of the composite score with optimized weight(V2).The maximum priority index(MPI)method for unidimensional CAT and two item exposure control methods(the restrictive threshold(RT)method and restrictive progressive(RPG)method,originally proposed for cognitive diagnostic CAT)are extended to the miltidimentional CAT.The results show that:(1)KLP,D-optimality,and V1 perform well in recovering domain scores,and all outperform V2 in psychometric precision;(2)KLP,D-optimality,V1,and V2 produce an unbalanced distribution of item exposure rates,although V1 and V2 offer improved item pool usage rates;(3)all the exposure control strategies improve the exposure uniformity greatly and with very little loss in psychometric precision;(4)RPG and MPI perform similarly in exposure control,and are both better than RT.
Key words :multidimensional item response theory;computerized adaptive testing;item selection methods;exposure control strategy;psychometric precision
中图分类号 :B841.2
文献标识码: A
文章编号: 1003-5184(2019)01-0047-10
基金项目 :国家自然科学基金青年项目(31400897)。
通讯作者 :毛秀珍,E-mail:maomao_wanli@163.com。
标签:多维项目反应理论论文; 计算机化自适应测验论文; 选题方法论文; 测量精度论文; 项目曝光率论文; 四川师范大学教育科学学院论文;