变长CD-CAT中的曝光控制与终止规则,本文主要内容关键词为:变长论文,规则论文,CD论文,CAT论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 B841 1 引言 近些年来,国内外对认知诊断计算机化自适应测验(Cognitive Diagnostic Computerized Adaptive Testing,CD-CAT)的研究越来越多。CD-CAT结合了认知诊断理论和CAT的双重优势,比起传统的测验形式,它可以更精确、更迅速、更灵活地测量出被试的潜在知识结构,也称为知识状态(Knowledge State,KS),从而获得被试在知识点上的掌握情况,为教育教学工作提供有针对性的指导,促进学生的个性化发展。 CD-CAT和传统CAT的组成部分是相似的,主要包括五部分:(1)参数已知的题库;(2)初始项目选择方法;(3)知识状态或能力值的估计;(4)选题策略;(5)终止规则(陈平,2011)。由于CD-CAT发展较晚,截至目前,CD-CAT的研究主要集中在选题策略(Cheng,2009,2010;Wang,2013;Wang,Chang,& Douglas,2012;Xu,Chang,& Douglas,2003;毛秀珍,辛涛,2011)、项目曝光控制(Wang,Chang,& Huebner,2011;陈平,2011;毛秀珍,辛涛,2013)和属性在线标定(Chen,Xin,Wang,& Chang,2012;陈平,辛涛,2011;汪文义,丁树良,游晓锋,2011)方面,对终止规则的研究相对较少。在查阅国内外关于CD-CAT终止规则的文献后发现,仅有Hsu,Wang和Chen(2013)专门对变长CD-CAT的终止规则进行过模拟研究,而大部分的研究还是围绕选题策略、曝光控制和属性在线标定这三方面展开的。但关于这三方面的研究均是以定长(fixed-length)CAT的形式作为终止规则,即固定每次测验的长度,当被试完成测验后,根据被试的作答反应估计知识状态。定长CAT由于固定了测验长度,施测较为方便,但对不同的被试会有不同的测量精度。一个更加合理的做法是,应该使得CAT形式的测验对每个被试的测量精度相同,这也正是自适应测验的优势所在(Weiss & Kingsbury,1984)。与定长CAT相对应的终止规则为变长(variable-length)CAT,变长CAT能够达到每个被试具有相同测量精度的目标,具有更高的估计精度(Babcock & Weiss,2009)。Kingsbury和Houser(1993)的研究表明,不管是在多级评分CAT还是0-1评分CAT中,变长CAT在测验效率、能力估计的收敛和能力估计精度等方面均优于定长CAT。相对于定长CAT,变长CAT更能体现出自适应的特点和优势,因此,开展这方面的研究非常有意义。在传统CAT中,一些学者对变长CAT的终止规则进行了相应的研究(Choi,Grady,& Dodd,2010;Dodd,1990;Dodd,Koch,& De Ayala,1993;Dodd,De Ayala,& Koch,1995),总体来讲,可以归纳成两类:(1)不断施测项目直到测量标准误落在可接受范围内,或测验信息量达到某个预先设定的指标;(2)最小信息量终止规则,即剩余题库中所有项目的项目信息量都低于某个预设水平(陈平,2011)。在CD-CAT中,Hsu等(2013)在Tatsuoka(2002)提出的基于后验概率序列方法的基础上稍做改进,提出了变长CD-CAT的终止规则(本文将其称为HSU法,详见第2部分)。其研究结果表明,当固定知识状态后验分布的最大后验概率预设水平时,被试的模式判准率会随着第二大后验概率预设水平的降低而增大;当固定知识状态后验分布的第二大后验概率预设水平时,被试的模式判准率会随着最大后验概率预设水平的升高而增大。这是对变长CD-CAT研究的一大推动。 与传统CAT一样,在CD-CAT的实际应用中,不容忽视的一个重要问题是项目曝光问题。Wang等(2011)在研究中指出,当前CD-CAT着重于测量精度的实现,未考虑到项目曝光问题,导致题库使用极其不均匀,优质题目曝光十分严重。尽管CD-CAT不是高风险测验,但当认知诊断结果与某些教学评价指标挂钩时,CD-CAT就会变得具有高风险,测验安全将变得十分重要(毛秀珍,辛涛,2013;唐小娟,丁树良,俞宗火,2012)。而且CD-CAT的题库建设比传统CAT建设更加复杂耗时,除了像传统CAT要考虑题目质量等因素之外,还要对每道题目测查的属性(即Q矩阵)进行详细准确的界定,如果优质题目过度曝光,将会导致资金和时间的严重浪费。因此,在CD-CAT中对项目曝光率进行控制具有重要意义。 正如前文所述,仅有Hsu等(2013)对变长CDCAT的终止规则进行过模拟研究,更多的文献仅在讨论部分提出了研究变长CD-CAT的重要性和必要性,缺乏对具体方法的研究,更缺乏在变长CD-CAT下控制项目过度曝光的研究。例如,Cheng(2008)提出可以求取邻近两次后验分布的KL距离,当该距离小于预设水平时即可终止测验的方法。本文首先借鉴前文总结的传统变长CAT的终止规则,提出了两种变长CD-CAT的终止规则,分别称作属性标准误法(standard error of attribute,SEA)和二等分法(halving algorithm,HA)。然后从估计的相对稳定性角度提出了邻近后验概率之差法(difference of the adjacent posterior probability method,DAPP)。最后,将相对稳定性的思想与Tatsuoka(2002)提出的经验性准则相结合,提出了混合法(hybrid method,HM)(参见本文第2部分)。接下来以DINA模型(Junker & Sijtsma,2001)为例,在未控制曝光和采用不同的曝光控制条件(参见本文第3部分)下,将四种新方法与HSU法以及Cheng提出的KL法进行比较,意在全面考察不同的变长CD-CAT终止规则在不同实验情景下的实际表现。 2 变长CD-CAT终止规则 本文所涉及的6种变长终止规则可以归纳为三大类:第一类是基于绝对标准的终止规则,包括HSU法、SEA法和HA法;第二类是基于相对标准的终止规则,包括DAPP法和KL法;第三类是结合两种标准的终止规则,即混合法。其中,HA法属于项目水平(item-level)的终止规则,即终止规则是从题目角度出发判断的;其余5种方法属于被试水平(examinee-level)的终止规则,即终止规则是从被试自身的角度判断的。下面分别对本文涉及的6种方法进行介绍。 2.1 HSU法 Tatsuoka(2002)给出了变长CD-CAT的经验性准则,即被试属于某种知识状态的最大后验概率超过0.8时,测验终止。Hsu等(2013)基于Tatsuoka的思想,进一步提出了双重标准的变长CD-CAT终止规则,即当被试属于某个知识状态的最大后验概率不低于某个预设水平(例如,0.7),并且第二大后验概率不高于某个预设水平(例如,0.1)时,测验终止。 2.2 属性标准误法(standard error of attribute method,SEA) 理论上,应该根据知识状态的后验概率分布求取知识状态的方差,进而得到基于被试KS的标准误,这样就能实现对KS估计精度的直接操作。但可惜的是,我们无法直接求取KS的标准误,这是因为CDM可以看成是偏序分类模型(partially ordered classification models;Tatsuoka,2002),目前统计学界对偏序集理论(partially ordered sets)的研究并不多见(Zhang & Ip,2012)。不论是偏序集理论还是认知诊断理论,均未能直接求取KS的标准误。因此,一个变通的做法是利用每个属性的边际分布来逼近(approximation)KS的联合分布。尽管这种利用低维的边际分布对高维的联合分布进行逼近的方法未能保持联合分布中的数学属性,但这种做法在统计中有着广泛的使用,其中结构方程模型(structural equation modeling,SEM)的参数估计就是最经典的例子之一,这种逼近方法并没有严重损坏SEM的科学性与实用性。在本研究中,二者之间存在如下关系:通过控制属性的边际概率可以得到KS后验概率的一个对应区间,(见公式1),该区间为KS的联合分布提供了一个范围,即联合概率不低于属性边际概率的乘积,不高于最小属性边际概率。而单个属性为二分变量,掌握某个属性的概率服从伯努利分布,因此,可以根据求出属性的标准误(Rupp,Templin,& Henson,2010;P242)。当属性标准误已知后,可以利用逼近的思想间接地控制KS。属性标准误的计算公式为: 其中,为属性k的标准误,k=1,2,…,K。为掌握属性k的边际后验概率。SEA法的测验终止规则为:被试每做完一道题目,便计算每个属性的标准误,直到所有属性的标准误均小于预设水平时(例如,0.2),测验终止。 2.3 二等分法(halving algorithm,HA) Tatsuoka和Ferguson(2003)提出了基于二等分算法的选题策略,即选择剩余题库中能将被试的知识状态后验分布尽量二等分的题目。受他们研究的启发,本文提出了基于HA指标的终止规则:当剩余题库中的所有题目不能再提供“二等分”信息的时候,测验终止。具体为,在已知某道题目所考察的属性时,能够依据此题将知识状态全集分为两组:一组是掌握了该题目考察的所有属性的知识状态集,另一组是至少有一个考察的属性未掌握的知识状态集,两组构成了知识状态全集。假设被试i作答完t题后的后验概率为,根据二等分思想,将第一个知识状态集的后验概率之和记作为剩余题库的题目,则HA指标为:。当剩余题库中所有题目的HA值均小于预设水平时(例如,0.1),测验终止。 2.4 邻近后验概率之差法(difference of the adjacent posterior probability method,DAPP) 随着CD-CAT的进行,被试作答反应能提供的信息量越来越多,他属于某个“真实”的知识状态的后验概率会越来越大(Cheng,2009),将此后验概率记为最大后验概率,等同于HSU法中的。DAPP法的测验终止规则为:当前后两次邻近的,并且是从属于同一种知识状态的最大后验概率()之差的绝对值小于预设水平时,即表示被试作答完t题。表示作答完t题后,KS为对应的最大后验概率),测验终止。 2.5 KL距离法 Cheng(2008)提出了基于KL距离的变长终止规则:邻近两次后验分布的KL距离小于预设水平时,即(为被试i作答完t题后的后验概率),测验终止。 2.6 混合法(hybrid method,HM) 根据Hsu等(2013)的研究结果可知,如果只控制不低于某个预设水平而未对加以限制的话(即Tatsuoka(2002)的准则),被试知识状态估计的精确性并不理想。HM法的测验终止规则为:当达到预设水平之后,再结合DAPP的做法,使得(t表示被试作答完t题。表示作答完t题后,KS为对应的最大后验概率)成立,测验终止。 3 选用的认知诊断模型、选题策略及曝光控制方法 3.1 认知诊断模型—DINA模型 3.2 选题策略 根据已有研究结果表明,后验加权的KL信息量法(PWKL),综合后验加权和距离加权的混合KL信息量法(HKL)以及香农熵法(SHE)均具有较高的属性判准率和模式判准率(Cheng,2009;陈平,2011)。本文按照Hsu等(2013)的做法,选取PWKL作为变长CD-CAT的选题策略。PWKL指标的计算公式如下: 3.3 曝光控制方法 Wang等(2011)将应用于传统CAT中的曝光控制方法进行了修正,并加入了重要参数(importance parameter),提出了两种适用于定长CD-CAT的曝光控制方法:限制进度法(restrictive progressive method,RP)和限制阈值法(restrictive threshold method,RT)。RP法(或RT法)通过运用“进度因子”1-x/L(x为已施测的题目数量,L为测验长度)来分配随机成分(或阈值大小)和信息量在选题指标中的权重,从而达到控制项目过度曝光的目的。进度因子1-x/L的含义为:在测验初始阶段,进度因子接近于1,选题指标的大小基本上由随机成分的大小决定,信息量的作用很小;随着测验的进行,进度因子逐渐减小,选题指标主要由信息量的大小决定,随机成分的作用变得很小。显然,进度因子的计算依赖于测验的固定长度L,因此,这两种方法只适用于定长CD-CAT情景。本文将RP法和RT法进行修正(详见3.3.2和3.3.3部分),分别称作修正的限制进度法(modified restrictive progressive,MRP)和修正的限制阈值法(modified restrictive threshold,MRT),使之适用于变长CD-CAT情景。同时考虑第三种项目曝光控制方法:简单控制法(simple),并采用以上三种方法分别对CD-CAT测验进行曝光控制。接下来,分别对这三种项目曝光控制方法进行介绍。 3.3.1 simple法 simple法是在PWKL选题策略指标前乘以一个曝光控制因子(陈平,2011),计算公式如下: 3.3.2 MRP法 在定长CD-CAT中,RP法中的进度因子由已施测的题目数量和测验长度之间的关系描述。类似地,MRP法利用当前最大后验概率和预设最大后验概率之间的关系来重新定义“进度因子”。同时,根据Wang等(2011)的预实验结果,只在RP方法中加入随机成分并不足以保证能够有效地控制所有过度曝光的项目。因此,需要引入曝光控制因子来将所有项目的曝光率控制在预设水平以下。MRP法对进度因子进行了重新刻画,同样需要引入对过度曝光项目进行控制。于是,MRP法将在剩余题库中选择具有最大值的项目进行施测: 3.3.3 MRT法 该方法根据选题策略(本文使用的是PWKL选题策略)从剩余题库中选出符合要求的项目构成候选项目集,然后再根据一定原则从候选项目集中选出下一题(本文采用的是随机方法)。符合要求的候选项目落在区间内。其中,区间长度。值得注意的是,当使用MRT法时,作者发现有些曝光率大于的项目仍会被选中,这是因为的增长并非线性增长,存在“折回”现象,即下一阶段的会小于上一阶段的。因此,在使用MRT法时,需要将越界的项目从题库中剔除,保证参加测验的被试在今后测验中不再使用该题。 4 方法 本文采用Matlab(R2011b)自编所有程序,进行模拟实验。 4.1 题库及被试生成 本研究题库及被试的知识状态采用陈平等(2011)的方法生成。陈平等(2011)在假设属性之间相互独立前提下,给出了三种类型的基本Q矩阵,分别称作矩阵。然后对它们进行简单操作后,生成考察6个属性,共360道题目的题库。题库中的猜测参数和失误参数从均匀分布U(0.05,0.25)中抽取。生成2000名被试并且假设每个被试掌握每个属性的概率是0.5。 4.2 模拟作答及KS估计方法 运用DINA模型计算被试i在题目j上的正确作答概率,然后从U(0,1)分布中产生一个随机数m。如果大于等于m,则被试i在题目j上的作答反应记为1,否则为0。在被试进入CD-CAT时,首先随机生成被试的知识状态,在被试每作答完一道题目后,运用贝叶斯最大后验概率方法(Maximum A Posterior,MAP)估计被试的知识状态。 4.3 终止标准设置 (1)包含两个水平:0.8和0.9;包含两个水平:0.002和0.003; (2)由于尚无ε在不同终止规则下的研究,因此,本文首先对ε在不同终止规则下得到的测验使用情况和模式判准率进行了预研究(由于篇幅所限,未将预研究结果列出,并不妨碍对本文的理解),以此确定出了不同终止规则下ε合理的取值条件,具体为:在使用HM法、DAPP法和KL法时,ε包含4个水平:0.05、0.01、0.005和0.001;在使用SEA法时,ε包含5个水平:0.3、0.25、0.2、0.1和0.05;在使用HA法时,ε包含5个水平:0.1、0.05、0.01、0.005和0.001; (3)当加入项目曝光控制因子时,固定值为行业标准0.2,β=2。同时,为了不让变长CD-CAT的题目数量过长,与实际情况更加贴近,本文设置测验长度的上限为30题。 综上所述,本研究共涉及4种曝光控制条件(无控制、simple法、MRP法和MRT法)和6种终止规则。并且,根据预研究确定出了每种终止规则下的终止标准,分别为:HSU法4个水平、SEA法5个水平、HA法5个水平、DAPP法4个水平、KL法4个水平和HM法4个水平。为了减小随机误差,每种实验条件均实验30次。最终共需进行4×(4+5+5+4+4+4)×30=3120次实验。 4.4 评价指标 被试知识状态估计精确性的指标为模式判准率(pattern correct classification rate,PCCR),计算公式如下: 同时,还记录了测验长度(平均数,标准差,测验最长值和测验最短值)、未使用的题目数量等指标来衡量不同终止规则表现的差异。 5 结果与讨论 5.1 未加入曝光控制的实验结果与讨论 表1是在未加入曝光控制方法下,6种终止规则的CD-CAT测验使用情况和模式判准率结果。从表1可以看出,6种变长终止规则均有很好的表现,彼此差异不明显。总体来看,随着的增大和ε的减小,测验平均用题量逐渐上升,题库中未使用的题目数量逐渐减小,PCCR值逐渐上升。这是因为终止规则越严格,被试需要作答更多的题目才能达到终止标准。作答的题目数量越多,被试能够提供的信息量也就越多,于是被试属于某一知识状态的可能性就越大。 具体来看,在HSU法中,只控制时的PCCR值要小于同时控制和的PCCR值(0.8394<0.9968,0.9219<0.9980),未使用题目数量为前者多于后者,但在平均用题量上,前者要少于后者,这跟Hsu等(2013)的研究结果一致。在HM法中,ε=0.001时的结果与HSU法中同时控制条件下的实验结果(即表1中第8行与第2行,第12行与第4行)相似;当ε=0.05时,平均用题量分别增加了2.8题(12.0-9.2)和1.5题(12.9-11.4),而PCCR值分别提升了9.63%(0.9357-0.8394)和3.67%(0.9586-0.9219)。在SEA法中,当ε=0.3时,PCCR值只有0.7963,平均用题量为8.6题;当ε=0.25时,PCCR接近但仍然低于0.9,但当ε=0.2时,PCCR值上升至0.9672,与HSU法的第三行结果相比,平均用题量只多了1.3题(12.7-11.4),而PCCR值上升了4.53%;当ε=0.05时,PCCR高达0.9927,与HSU法的第四行结果相似。在DAPP法中,当ε=0.05时,PCCR值非常低,只有0.3387,平均用题量只作答了5.6题;但当ε=0.01时,PCCR值立刻增长到0.9885,平均用题量也上升到15.9题,当ε继续下降至0.001时,PCCR值高达0.9989,并且题库中未使用的题库数量也由240题下降至102题。KL法以及HA法和DAPP(SEA)法结果类似,故不再赘述。 综上,本文提出的4种新的终止规则以及KL法在测验使用情况和被试模式判准率上的表现均和HSU法相差无几,表明不论是基于项目水平(HA法)的终止规则,还是基于被试水平(HSU,DAPP,HM,SEA和KL法)的终止规则,均能有效地作为变长CD-CAT的终止规则加以使用。 5.2 加入不同曝光控制方法的实验结果与讨论 表2至表4分别为加入simple、MRT和MRP曝光控制方法时,6种终止规则的模式判准率和测验使用情况。总体来看,不论采用何种曝光控制方法,均能很好地控制最大项目曝光率。在绝大部分的实验条件下,按照精度终止的PCCR(p)值要高于按照最大测验长度终止的PCCR(max)值,这与Hsu等(2013)的研究结果一致。随着的增大和ε的减小,平均测验长度逐渐增加,题库中未使用的题目数量逐渐减小(特别地,MRT和MRP法中的未使用题目数量均为0),PCCR(p)值逐渐增加,按照最大测验长度终止的被试百分比(记作%max)也逐渐增加。在相同实验条件下,采用不同的曝光控制方法,%max在各个终止规则下是不同的,甚至在有些终止规则下判准率也有所差异。例如,SEA法在simple条件下的%max最高为14.9(当ε=0.05时),而在MRT和MRP条件下的%max最高分别为65.85和45.60,但三者的PCCR(p)值相差无几,分别为0.9951\0.9971和0.9975。HA法在simple条件下的%max最低,其次是MRP条件下,最高是MRT条件下,但三者的PCCR(p)最大值均接近1。而另外一种情况是,KL法在MRP条件下的%max最低,其次是simple条件下,最高的%max出现在MRT条件下,PCCR(p)最大值在simple和MRT条件下均高于0.98,但在MRP条件下PCCR(p)最大值只有0.7802。这些结果均表明不同的曝光控制方法会以不同的方式和程度影响各个终止规则的表现。 具体来看,在simple曝光控制下(见表2),除了DAPP法中ε=0.05时,PCCR(p)只有0.3361,6种终止规则的表现相差无几。在MRT曝光控制下(见表3),DAPP法的表现变得很差,当ε=0.005时,PCCR(p)值只有0.6438,而当ε=0.001时,PCCR(p)立刻上升至0.9823,但%max也已高达47%左右,表明DAPP法容易受到MRT方法的影响。在KL法中,有一个特例,即当ε=0.05时,PCCR(p)只有0.3658,但随着ε由0.01减小至0.001,PCCR(p)值由0.8395上升至0.9873。在SEA、HA和KL法中,随着ε的减小,PCCR(p)值会逐渐升高,但%max也逐渐上升,作者分析其原因可能有两点:第一,ε较小对应着比较苛刻的终止条件,即需要被试作答更多的题目才能满足测验终止的要求;第二,MRT法在项目曝光率的控制上存在过度控制(overcontrol)现象,即Max(r)值远远小于=0.2,使得质量较好的题目未能提供给被试作答,从而增加了测验长度。在MRP曝光控制下(见表4),DAPP法的表现依然最差,即使当ε=0.001时,PCCR(p)只有0.6724。在该曝光控制条件下,KL法同样变差,PCCR(p)最大值也只有0.7802。同样的,MRP法在项目曝光率的控制上也存在过度控制现象,但在相同的实验条件下,%max的比例要比MRT中的小,而PCCR(p)要稍差于MRT法,这与Wang等(2011)在定长CD-CAT下的研究结果一致。 特别地,在部分实验条件下,如表2至表4中粗体部分结果所示,PCCR(max)值要高于PCCR(p)值,这与大部分实验结果存在矛盾,这些矛盾的结果主要集中在属于相对标准终止规则的DAPP法和KL法上,其余从属于绝对标准的终止方法并未出现。这是因为,相较绝对标准终止规则,相对标准终止规则并没有设置一个低限临界值(例如,最大后验概率至少要高于0.8),会出现在未达到0.8之前就符合前后之差低于预设标准(例如,ε=0.01),甚至可能在绝对水平很低时就已经符合相对标准而终止测验的情况。例如,图1和图2分别表示在DAPP方法(ε=0.05)下,按照精度停止时,判别正确和判别错误的两个被试的KS后验概率随测验长度变化的趋势图。每个图中共有条折线,分别表示种知识状态的后验概率。根据DAPP法的思想,被试A在作答完18题后终止测验。其中,尽管在测验前期的上升有些波折,但最终还是上升至0.95附近,并和其他KS的后验概率拉开了差距。因此,被试A的KS得到了正确的判别。而被试B在作答完4题后便终止了测验,表明此时邻近的从属于同一种知识状态的之差的绝对值小于了预设水平,但的绝对水平仍然很低(只有0.07左右),并且未能和其他KS的后验概率拉开差距,因此,被试B的KS未能得到正确的判别。 图3和图4分别表示在DAPP方法(ε=0.05)下,按照测验最大长度停止时,判别正确和判别错误的两个被试的KS后验概率随测验长度变化的趋势图。被试C在作答前24题时,有好几条后验概率折线相互纠缠,导致KS仍未能分辨清楚。但在作答25题之后,其中一条折线迅速上升。当作答至30题时,该后验概率已超过0.9,并和其他KS拉开了差距,因此,被试C的KS得到了正确的判别。而被试D在作答完30题后,的绝对水平只有0.5左右,没有和其他KS拉开差距,导致其KS未能得到正确的判别。 图1 被试A的后验概率变化图 图2 被试B的后验概率变化图 图3 被试C的后验概率变化图 图4 被试D的后验概率变化图 上述结果和分析表明,曝光控制方法会对相对标准终止规则的表现产生较大影响。 6 结论与展望 CD-CAT结合了认知诊断理论和CAT的双重优势,比起传统的测验形式,它可以更精确、更迅速、更灵活地测量出被试的潜在知识结构,从而获得被试在知识点上的掌握情况,为教育教学工作提供有针对性的指导,促进学生的个性化发展。然而,当前大部分的研究均是以定长CD-CAT的形式进行研究,这是由于定长CD-CAT固定了测验长度,施测较为方便,但对不同的被试会有不同的测量精度。而自适应测验的精髓应该是使得CD-CAT测验对每个被试的知识状态估计拥有相同的估计精度。与定长CAT相对应的终止规则为变长(variable-length)CAT,变长CAT能够实现每个被试具有相同测量精度的目标,具有更高的估计精度(Babcock & Weiss,2009)。 本文提出了4种新的变长CD-CAT的终止规则:SEA法、HA法、DAPP法和HM法,并在未采用曝光控制与采用不同的曝光控制条件下和HSU法以及KL法进行了比较。研究结果表明本文提出的4种新方法能够有效地作为变长CD-CAT的终止规则加以使用。通过模拟研究,得出的主要结论有:(1)6种变长终止规则均有较好表现,并且相差无几。终止条件越严格,平均测验长度越长,按最大测验长度终止的测验百分比越大,模式判准率越高。(2)当未加入曝光控制时,4种新的终止规则均有较好表现,与HSU法十分接近,并且随着最大后验概率的增加或ε的减小,模式判准率呈上升趋势,平均测验长度逐渐增加,题库中未使用的题目数量逐渐减小,但在题库使用率方面均较差。(3)当加入项目曝光控制时,6种变长终止规则下的题库使用率有了极大的提升,尤其是在MRT和MRP条件下,题库中未使用的题目数量为0,并且仍能保持较高的模式判准率,但会出现对项目曝光率过度控制的现象。不同的曝光控制方法对各个终止规则的影响是不同的,其中,相对标准终止规则极易受到曝光控制方法的影响。(4)结合加入曝光控制后的实验结果来看,SEA、HM以及HA法在各项指标的表现与HSU法基本一致,其次为KL法和DAPP法。 本研究仍存在一些不足之处,需要得到进一步地改进和完善。首先,SEA法未能直接对被试知识状态的后验概率进行操作,而是通过控制每一个属性的边际概率来间接地实现对知识状态后验概率的控制。根据目前的认知诊断理论,无法求取KS的标准误,但属性的边际概率和KS的后验概率之间存在着一定的数量关系,属性的边际概率能够确定KS后验概率的一个区间。未来的研究需要进一步提出全新的认知诊断理论,推导出知识状态的方差,提出更加直接的CD-CAT变长终止规则。 第二,题库中的猜测参数g和失误参数s从均匀分布U(0.05,0.25)中随机抽取。实际上,根据已有实证研究表明,参数g和s会有较大值出现(de la Torre,2009;张启睿,2012)。在参数波动范围增大的情况下,6种变长终止规则的表现如何值得研究。 第三,本研究假设属性之间是独立结构关系,并且固定属性数量为6个。根据已有研究表明,属性层级还可以包括线型、收敛型、发散型及它们组合起来的更为复杂的结构(Leighton,Gierl,& Hunka,2004),而且,实际中的属性层级结构确实是错综复杂的,并且考察的属性数量通常会多于6个。当属性之间存在层级关系时,属性之间是否可以通过互借信息的方式来提高判准率,值得研究。后续研究还需考察在不同的属性层级结构及不同的属性数量下,6种变长终止规则的表现。 第四,不同认知诊断模型的假设是不同的,大体可以分为补偿模型和非补偿模型。在不同类型的诊断模型下,变长终止规则会有何表现;不同的题目上限设置(本文为30题)是否会影响变长终止规则在判准率和测验使用情况上的表现,是未来的一个研究方向。 第五,如何将一些非统计约束(Mao & Xin,2013)纳入到变长CD-CAT的考虑中也值得进一步研究。变长cd-cat的曝光控制和终止规则_概率计算论文
变长cd-cat的曝光控制和终止规则_概率计算论文
下载Doc文档