计算机化自适应测验中能力估计新方法
李 佳,丁树良
(江西师范大学计算机信息工程学院,江西 南昌 330022)
摘要 :能力估计的极大似然估计方法(MLE)不能处理全0或全1的被试反应模式,若事先设置好能力估计的上下界,则会导致能力估计的有效范围缩小的后果;而贝叶斯估计方法需要选择先验分布,先验分布的选择必须很慎重.在原有似然函数的基础上,构建2个新的项目,提出了改进的MLE方法(NMLE).NMLE既不需要能力先验分布,也不会缩小能力估计范围,而且可以处理各种反应模式.蒙特卡洛实验结果表明新方法表现良好.
关键词 :贝叶斯众数估计方法;期望后验估计方法;改进的极大似然估计方法;能力估计效率
0 引言
计算机化自适应测验(computerized adaptive testing,CAT)具有测验精度高、长度短、成本低、实时反馈考试成绩、题型灵活多样、考试时间灵活等优点,是项目反应理论(Item response theory,IRT)最成功的应用之一,被广泛应用于美国医生护士资格考试、美国研究生入学考试和中国汉语水平考试中[1].国内外学者主要研究CAT的选题策略,具有大量的研究成果,但在CAT中对能力估计方法的研究较少.而事实上,CAT自适应选题是建立在对被试能力准确估计的基础上的,这关系到测验结果的准确性、测验的安全性和测验的可信度.因此,能力估计的准确性决定了CAT的使用效果[2].
目前,国际上流行的CAT能力估计方法主要有极大似然估计法(MLE)[3]、贝叶斯众数估计法(MAP)[4]和贝叶斯期望后验估计法(EAP)[5].这些方法各有特点:MLE方法的主要缺点是参数估计中需要不断迭代估计以及无法处理被试全对或全错的反应模式,其优点是MLE估计是能力参数的充分统计量,是一种渐近无偏的能力估计方法;EAP方法不需要迭代;但是EAP和MAP等贝叶斯方法的主要缺点是需要选择能力的先验分布,且当先验分布方差比较小时,估计会收敛到先验分布期望附近,有可能会缩小能力估计的范围.
表2给出了在不同DMA大小(kbyte)下,单、双DMA缓冲机制的图像传输速率V1/V2的测试结果,以及双DMA缓冲机制下图像传输带宽提升的百分比(V2-V1)/V1。
0.1 极大似然能力估计方法
在IRT中假定同一被试对各个项目的作答是相互独立的(局部独立性假设),各个被试的作答模式是相互独立的,则被试反应向量(即为被试作答反应的得分阵)为U =(u α1 ,u α2 ,…,u αm ),对应的似然函数为表示被试α 对项目j 的反应,取值为0或1,分别表示答对或答错该项目,m 为施测项目数.在IRT框架下,P αj 可以取不同的形式,表示能力为θ α 的被试正确作答项目j 的概率,比较常见的是3参数Logistic模型(3PLM):P αj =c j +(1-c j )/(1+exp(-Da j (θ α -b j ))),其中D =1.7.若猜测度c j =0,则化为双参数Logistic模型(2PLM);若c j =0且区分度a j =1则化为单参数Logistic模型(1PLM),b j 表示项目j 的难度.因为L (U |θ α )表示得分向量U 与能力θ α 之间的关系,所以称使|θ α )成立的为θ α 的极大似然估计值.又因为对数似然函数和似然函数L (θ α )在同一个处达到最大.求θ α 的极大似然估计值可令
∂lnL (θ α )/∂θ α =0,
(1)
因为(1)式是非线性方程,需使用牛顿-拉夫逊迭代算法对其求解,的第t +1次估计值为直到达到终止条件为止.
由于该式含有积分,R. Bock等[5]使用高斯-厄尔米特积分公式给出了它的数值积分形式/),其中X k =-3.5+7(k -1)/(q -1)为数值积分节点,k =1,2,…,q ,q 为等距点,方法不需要迭代.
因为模型参数的似然函数包含了观察数据值所能反应的所有信息,MLE估计是能力参数的充分统计量,具有渐近一致性和渐近正态性等优良特性[6].在理想条件CAT下,当测验较长时,MLE是一种渐近无偏的能力估计方法[7];但是MLE方法有一个明显的缺点,即当被试作答全对或者全错时似然方程会出现没有有限解的情况.为了解决这个问题,通常人为设定一个最小和最大的能力估计值对MLE估计值的界限加以约束[8],这是一种强行拉回的处理方式,会破坏MLE计算过程中的不连续性,从而缩小能力估计的有效范围.虽然如此,但因为MLE对被试能力分布不作要求,带界限的MLE方法(MLET)还是被广泛地应用于CAT实测中.
0.2 贝叶斯众数估计方法
F. Samejima认为若在测验之前知道被试总体的能力分布信息,则应充分利用这种信息,以提高测验的估计准确度.MAP方法直接将先验概率密度(一般取标准正态概率密度函数)乘以似然函数构建后验分布并求极大值,似然函数其中f (θ α )是θ α 的先验分布,其对数似然函数令
∂lnL MAP (θ α )/∂θ α =0,
(2)
为了考察能力的先验分布对各种能力估计方法的影响,共设计3组被试:(i)被试组1,模拟产生1 000个被试,被试能力真值均服从均值为0、方差为1的标准正态分布;(ii)被试组2,模拟产生1 000个被试,被试能力真值均服从均值为-1、方差为1的正态分布;(iii)被试组3,模拟产生1 000个被试,被试能力真值均服从均值为1、方差为1的正态分布;后续内容中被试组a 简称为组a ,a =1,2,3.
雨又开始下,而且来势很猛,小半会儿,沟渠里的汇水就响起狰狞的奔涌。他掀亮手电,想找个能躲避的地方。电话铃响了,是他老婆打来的,问他在干啥?睡了没有?一是惦记,二是查岗,老婆的惦记给了他暖意,至于查他的岗,她那脑袋瓜子压根就整不明白他的事。
为保证旅游的良好发展,一定要充分重视数据库的建立。同时整合各种电商以及搜索引擎的数据,做大数据共享,强化数据和用户之间的联系。在智能旅游发展中可以可发展较好的企业进行合作,构建起完善的地面服务。最终和其形成完善的服务网络,提升用户的旅游体验。在进行相互合作中数据得到共享,利益得到分享。
0.3 期望后验估计方法
房颤是由于心房活动不协调而导致心房舒缩功能受损的一种快速室上性心律失常,可诱发脑卒中、心力衰竭、外周血管栓塞及心肌缺血等并发症,对患者的生活质量造成不利影响,永久性房颤与非永久性房颤相比,并发症更为严重,预后效果更差,故而有必要加强对永久性房颤因素的控制,降低非永久性房颤进展为永久性房颤的风险[1] 。血管紧张素Ⅱ(AngⅡ)受体拮抗剂、他汀类药物为常用药物,联合应用可对房颤起到综合防治作用[2] 。本研究旨在探讨缬沙坦联合氟伐他汀治疗高血压合并非永久性房颤对房颤负荷、心率及预后情况的影响。现报道如下。
/
).
3PLM对数似然函数1阶和2阶偏导数为
被试能力的EAP估计的理论依据是贝叶斯定理h (θ α |U ,ξ )=P (U |θ α )g (θ )/(P (U )),其中设被试后验分布为g (θ α ),其均值可以表示为
0.4 改进MLE的能力估计新方法
在MLE方法的基础上,设计2个有固定反应的项目来限制能力估计值.具体而言,改造MLE方法中的对数似然函数,新的似然函数为lnL *(θ α )=P αj )).
本文在3PLM模型下设计题库,所有试验模拟条件同文献[9].题库结构如下:模拟生成520个项目且满足条件lna ~N (0,1),b ~N (0,1),c ~Beta(5,17),0.2<a <2.5,-3.5<b <3.5,|a -b |<4,c <0.4.题库的项目数据见表1.
∂lnL *(θ α )/∂θ α =0,
(3)
求得为θ α 的极大似然估计值.
新方法在任何被试反应模式下均存在估计值,可适用于各种反应模式;其先验信息仅由P min和P max给出,这仅涉及2个项目,不会影响能力估计的整个过程,所以不会缩小被试能力估计范围.和能力估计的MLE相比,NMLE仅仅增加了2个“新的”项目,所以NMLE具有MLE的基本性质.比如NMLE仍然是能力参数的充分统计量,也具有渐近一致性和渐近正态性等优良特性.当测验较长时,NMLE像MLE方法一样是一种渐近无偏的能力估计方法.
MAP会出现估计向先验均值回归的现象,即有偏估计.事实上,MAP的先验分布不一定是标准正态分布,还可以是一般正态分布、均匀分布或者是其它先验分布.
0.5 新方法的合理性和可行性
为了检验新方法的合理性和可行性,共有4种能力估计方法参与比较:(i)MLET方法,用牛顿-拉夫逊迭代方法对方程(1)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束,并且被试能力估计值限制在-3.5~3.5之间;(ii)MAP方法,设能力的先验分布为正态分布,用牛顿-拉夫逊迭代方法对方程(2)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束;(iii)EAP方法,设能力的先验分布为正态分布,从-3.5~3.5中共取35个积分点;(iv)NMLE方法,用牛顿-拉夫逊迭代方法对方程(3)求根,迭代更新30次后或者在更新值误差小于0.001时迭代结束.
思想政治课教师看时事新闻就是备课。明确要求思想政治理论课教师必须每天收看新闻,即要求思想政治理论课教师每天看中央电视台的早上7点的“朝闻天下”,中午12点的“新闻30分”,晚上7点的“新闻联播”。倡导和坚持这种“7-12-7”天天备课法。同时要求思想政治课教师关注“两报一刊一网”(《人民日报》《中国教育报》《半月谈》新华网)等,要关注家事、国事、天下事及身边事。
1 模拟实验
1.1 被试及题库模拟
求得为θ α 的极大似然估计值.同理方程(2)也是非线性方程,需要进行牛顿-拉夫逊迭代.
在题库中,记所有题目中的最大难度为b max,最小难度为b min,最大区分度为a max.构造2个虚拟题目,一个是具有大区分度且特别容易的题目:难度为b min,区分度为a max,猜测度为0,在3PLM下P min=1/(1+exp(-Da max(θ α -b min))),并且假设被试一定能做对;另一个是大区分度且特别难的题目,难度为b max,区分度为a max,猜测度为0,在3PLM下P max=1/(1+exp(-Da max(θ α -b max))),并且假设被试一定会做错.再令
表1 题库的项目数据
1.2 模拟CAT的施测过程
本文不考虑内容平衡,项目曝光控制以及机会红利对CAT的影响,简化CAT设计为:(i)取被试的能力初值为0;(ii)采用最大Fisher信息量选题策略,信息量计算公式[1]为
(iii)分定长和不定长2种测验.定长测验的测验长度分别为10和40,取测验长度为10是为了考察NMLE方法是否适用于短测验和CAT测验初期的能力估计,取测验长度为40是为了考察NMLE是否和MLE一样在长测验中是一种渐近无偏的能力估计方法;不定长测验在被试累积信息量达到16时结束.
1.3 评价指标
评价指标有:测验偏差测验平均绝对离差测验均方根误差能力估计效率(abilityθ min),不定长测验的测验平均长度其中N 为被试总人数,θ i 为第i 个被试的能力真值,为第i 个被试的能力估计值,θ max为N 个被试中能力的最大值,θ min为N 个被试中能力的最小值,为N 个被试中能力估计的最大值,为N 个被试中能力估计的最小值,t est_length (i )为被试i 的测验长度.
测验偏差(Bias)表示能力估计的无偏性,测验平均绝对离差(ABS)和测验均方根误差(RMSE)表明了能力估计的准确性.Bias和ABS反映了能力估计的系统偏差,RMSE反映了能力估计值和真实值的随机误差,它们都是评价测验准确性的常用指标,它们越接近0,表示能力估计越接近无偏,即能力估计越准确.能力估计效率(AEE)是本文提出的一个新的评价指标,用来评价能力估计方法对能力估计范围的影响,A EE 取值越接近1表明该能力估计方法受外界影响越小,不会缩小能力估计范围.因为不定长测验中每个被试的测量精度类似,所以早达到测验精度的被试所需测验长度更短,而晚达到测验精度的被试所需测验长度就更长,这项指标体现了测验效率[10].
企业与开发商作为城市的基本经济细胞,是城市更新不可或缺的重要参与主体。开发商与企业的参与虽然本质上是逐利,但是其作用却是不可否认的。一方面,私人资本的投资是对公共部门投资的有力补充与帮助;另一方面,开发商的参与对于解决城市更新过程中的公共服务设施建设、社会住房供应等一系列市场化问题都具有重要的意义。
1.4 实验结果及其分析
3种测验条件下的测验偏差(Bias)值见表2,当测验长度为10时,结果见表3,当测验长度为40时,结果见表4,当测验为不定长时,结果见表5.
能力估计的无偏性对项目反应模型的应用非常重要,若参数估计的偏差较大,则会给更深入的测评带来严重的误差[11-13],测验偏差(Bias)用于评价无偏性和偏差的方向性(正偏或负偏).在长测验中,较小的Bias值体现了MLET方法和NMLE方法一样,具有能力估计的渐近无偏性.
需求情况:农业秋季用肥已经结束,需求欠佳。下游复合肥企业检修增加,开工率较前周继续下滑0.36个百分点至35.71%左右;下游经销商采购较为谨慎,多以观望为主;市场交投清淡,需求无明显支撑。
表2 3种测验条件下测验偏差 (Bias )值
表3 当测验长度为10时4种能力估计方法的表现
在短测验中,被试能力分布对MLET方法和NMLE方法没有太大影响,但在被试服从标准正态分布时正好和假设的MAP和EAP的先验分布一致,此时MAP和EAP的能力估计精度更高;NMLE方法无论是ABS还是REMS都小于MLET方法,这表明新方法参数估计的精度优于传统的MLE方法,新方法具有更小的估计误差.又因为NMLE方法可以处理各种被试反应模式,所以NMLE方法比MLET方法更适用于短测验和CAT测验初期的能力估计.因为测验太短,4种能力估计的AEE指标差别不大,NMLE方法表现稍好一点.
表4 当测验长度为40时4种能力估计方法的表现
在长测验中,较小的ABS值和RMSE值体现MLET方法和NMLE方法能力估计具有良好的返真性,这表明2种方法受测试条件的影响较小.能力的先验分布对MAP方法和EAP方法的影响也逐渐体现出来,因为先验分布信息的作用,估计值会倾向于先验中心(在本文中先验分布标准正态分布的均值为0,先验中心为0),所以当能力估计值大于0时,就会被低估,当能力估计值小于0时,就会被高估,这样会缩小能力估计范围.又因为MLET方法中设定了能力估计的上界和下界,超出界限的不同被试,尽管有不同的反应模式但得到的却是相同的能力估计值,所以这也缩小了能力估计的范围;NMLE的AEE值均大于其它3种方法的AEE值,并且随着测验长度的增加,NMLE的AEE值接近1,这表明新方法不会缩小能力估计的有效范围.
表5 不定长测验4种能力估计方法的表现
从表5可以看出,当测验为不定长时,实验结果和定长测验类似,先验分布对MAP和EAP的影响依然存在.各种方法测验精度比定长测验更低一些,但测验平均长度都短于定长测验的测验长度,这也说明了不定长测验更有利于提高测验效率.NMLE方法的被试平均使用项目数少于其它3种能力估计方法,这说明NMLE方法比其它方法具有更高的测验效率.
通过这4组实验表明,新方法NMLE具有如下优点:(i)对MLE方法而言,似然函数没有太大的改动,但易于实现;(ii)不需要先验分布信息且还可以处理MLE处理不了的各种反应模式,适用于短测验和CAT能力估计初期;(iii)在长测验中和MLE方法一样都具有能力估计的无偏性;(iv)该方法迭代计算过程是连续的,不会缩小能力估计有效范围;(v)具有更小的估计误差,测验精度更高.
2 讨论
能力估计的准确性影响了选题策略的自适应性,也影响了CAT测试结果.本文是在最简单的CAT模式下讨论的,仅考虑了测验精度,一般CAT还需要考虑如何提高题库利用率、降低机会红利、满足内容平衡等要求,这些都可能影响分析结果.能力估计新方法NMLE,虽然它的似然函数有所改变,但是使被试对所有反应模式都有确定的能力估计值,且不像MLET方法对能力估计是绝对的限制,NMLE方法依据题库参数,能力估计值是弹性变化的;它只要在似然函数中增加2个“新题”所以是一种相当简单的方法,而模拟实验表明它又有效.当然增加高区分度高难度的“新题”比较合理,而增加高区分度低难度的题目有一点勉强.
统计方法:采用SPSS 19.0软件对数据进行统计学处理,组间比较采用χ2检验,P<0.05为差异有显著性。
冰碛湖溃决风险评价指标体系大致可分为定性、半定量和定量三类。王欣根据McKillop等在筛选冰碛湖溃决参数时把评价指标分为冰碛湖参数、冰碛坝参数、母冰川、冰湖盆参数以及它们之间相互关系的思想,归纳得出冰碛湖溃决风险评价指标如表 1。
MAP和EAP的先验分布可以是各种可能形式,理想的先验分布是像标准正态分布那样的单峰对称钟形曲线.但是在现实中,往往是非正态或者是不知名的分布,在实测中选择先验分布是一个比较困难的问题,而NMLE中的先验信息仅来自相应的题库,不需要被试本身的先验能力分布.所以,NMLE方法在理论上是可行的,可以直接应用到多级评分模型中.当然,把NMLE方法应用于基于多维项目反应理论(multidimensional item response theory,MIRT)背景下的多维CAT(multidimensional CAT,MCAT)[14-15]中还需要进一步讨论.
3 参考文献
[1] 漆书青,戴海崎,丁树良.现代教育与心理测量学原理 [M].北京:高等教育出版社,2002.
[2] 张心,涂冬波.计算机化自适应测验中几种常用能力估计方法的特性与评价 [J].中国考试,2014(5):18-25.
[3] Lord F M,Novick M R.Statistical theories of mental test scores [M].New Jersey:Addison-Wesley,1968:392-449.
[4] Samejima F.Estimation of latent ability using a response pattern of graded scores [J].Psychometrika,1969,34(1):1-97.
[5] Bock R,Mislevy R.Adaptive EAP estimation of ability in a microcomputer environment [J].Applied Psychological Measurement,1982,6(4):431-444.
[6] Hambleton R K,Swaminathan H.Item response theory:Principles and application [M].Boston:Kluwe-Nijhoff,1985.
[7] Wang Tianyou,Walter P Vispoel.Properties of ability estimation methods in computerized adaptive testing [J].Journal of Educational Measurement,1998,35(3):109-135.
[8] Warm T A.Weighted likelihood estimation of ability in term response theory [J].Psychmetrika,1989,54(3):427-450.
[9] 李佳,丁树良.多种分层方法在CAT校准误差中的应用研究 [J]. 江西师范大学学报:自然科学版,2016,39(1):69-72.
[10] 李佳,丁树良,方剑英.基于平均数形式的选题策略比较 [J].江西师范大学学报:自然科学版,2015,39(1):69-72.
[11] 孟祥斌,陶剑,陈莎莉.四参数Logistic模型潜在特质参数的Warm加权极大似然估计 [J].心理学报,2016,48(8):1047-1056.
[12] Baker F B,Kim S H.Item response theory:parameter estimation techniques [M].New York:Marcel Dekker,2004.
[13] Magis D A.Accuracy of asymptotic standard errors of the maximum and weighted likelihood estimators of proficiency levels with short tests [J].Applied Psychology Measurement,2014,38(2):105-121.
[14] 毛秀珍,辛涛.多维计算机化自适应测验:模型、技术和方法 [J].心理科学进展,2015,23(8):907-918.
[15] 韩雨婷,涂冬波,王潇濛,等.多维计算机化自适应测验选题策略的开发及比较 [J].心理学报,2017,40(4):997-1004.
The New Method of Ability Estimation in CAT
LI Jia,DING Shuliang
(College of Computer Information Engineering Jiangxi Normal University,Nanchang Jiangxi 330022,China)
Abstract :The maximum likelihood estimation method (MLE) of the ability estimation does not work with special response patterns,such as all elements of the response patter are 0s or all 1s.If setting lower and upper bounds of ability estimation,the ability estimation scale will shorten.Bayesian-based estimation methods need a prior distribution,the choice of prior distribution must be careful.A new ability estimated method (NMLE) is introduced,adding two new items to establish a new likelihood function based on the existing item bank.New method not only need not ability prior distribution,but also does not shorten the ability estimation scale,and can deal with all kinds of response patterns.New method has better performance through the Monte Carlo simulation method on 3PLM.
Key words :MAP;EAP;NMLE;ability estimation efficiency
中图分类号 :B 841
文献标志码: A
DOI: 10.16357/j.cnki.issn1000-5862.2019.02.05
文章编号 :1000-5862(2019)02-0142-05
收稿日期 :2018-07-19
基金项目 :国家自然科学基金(31500909,31360237,31160203,30860084,11401271)和江西省教育厅科学技术(GJJ170212)资助项目.
作者简介 :李 佳(1979-),女,江西南昌人,讲师,主要从事计算机辅助教学和心理测量方面的研究.E-mail:1276676143@qq.com
(责任编辑 :冉小晓 )
标签:贝叶斯众数估计方法论文; 期望后验估计方法论文; 改进的极大似然估计方法论文; 能力估计效率论文; 江西师范大学计算机信息工程学院论文;