双因子模型下CAT测验优化设计及其效果验证论文

双因子模型下CAT测验优化设计及其效果验证

刘馨婷,彭思韦,涂冬波*

(江西师范大学心理学院,江西 南昌 330022)

摘要 :在2种传统的BCAT 测验设计的基础上,提出了4种新的BCAT 测验设计,并采用国际上通用的Monte Carlo 模拟实验的方式,从被试能力参数估计精度、题库使用的曝光率及测验的效率等3大指标来验证新开发的4种BCAT 测验设计,再与传统的BCAT 测验设计进行比较,以验证该文提出的4种新的BCAT 测验设计的科学性、效果及优势.最后,对BCAT 测验设计在实际应用中的选用提出了具体的意见与建议,以供实际应用者参考及借鉴.

关键词 :双因子模型;计算机化自适应测验;双因子模型计算机化自适应测验;多级评分

0 引言

因素分析方法(Factor Analysis,FA)是国内外心理学研究中经常使用的一种统计分析方法,它主要用于探明或验证人类心理特质的结构与维度,对人们进一步认清心理学本质有着的重要影响.双因子模型(Bifactor Model)是一种特殊的因素分析方法,又被称为全局-局部因子模型(general-specific factor model)或是嵌套模型(nested model)[1].双因子模型起始于斯皮尔曼的智力二因素理论,双因子模型假定所有项目均测量了一般因子(general factor),也称为G因子;但同时每题最多只能测量1个特殊因子(specific domain factor),也称为S因子;且假设所有因子间(G因子与S因子间以及S因子间)正交,即相互独立.大量研究表明双因子模型符合认知能力、心理特质、精神病理等多类测验的结构特征.

计算机化自适应测验(Computerized Adaptive Testing,CAT)采用自适应的测量方式,即电脑根据被试的特点智能化采用适合测量被试的题目进行测量,从而突破了以往测量中所有被试作答完全相同测验或量表的缺陷,真正实现了因人施测、减少了测验长度并同时提高了测量的精度.正因CAT具有以上多重优点,目前CAT被很多大型的国际测评采用,如美国研究生入学考试(GRE)、经企管理研究生入学考试(GMAT)、军队职业倾向测验(ASVAB)、注册护士执照考试(NCLEX-RN)等.

为了充分发挥全息项目双因子分析模型及计算机化自适应测验(CAT)的优点,有研究者提出将两者结合,提出了全息项目双因子模型的计算机化自适应测验(BCAT),并成功将BCAT的思想用于心理测评实践.如R.D. Gibbons等[2-3]将BCAT应用于抑郁症(depression)和焦虑症的测评,其中R.D. Gibbons等[2]的研究表明:在基于BCAT的抑郁症测评系统(CAT-D)评估中,CAT-D平均每个患者只需用12题就可以达纸笔测试中被试做389题的效果(两者能力估计值间相关高达0.95,即CAT-D只需12题就可以达到传统纸笔测验389题的效果),大大减轻了患者的测试负担,这充分表明BCAT在实践中具有较强的应用价值和应用前景.

自从易非买了房后,他们的关系就不知不觉地进了一大步,有一天陈留送易非回来,老妈正好在家,他们就这样见面了,陈留表现得大方得体,母亲似乎也很喜欢。再后来,易非过生日,陈留带了蛋糕和鲜花来,就算是正式见面了。

虽然BCAT在实践中的应用价值不断突显出来,但目前国际上针对BCAT方法本身及相应的算法的研究仍有许多有待进一步深入的地方,尤其是BCAT测验设计的研究有待进一步深入与探讨.目前国际上仅提出了2种BCAT测验设计(详见下文):一种为单维视角的BCAT测验设计[4],另一种是基于多维视角的BCAT测验设计[5-6].然而,在单维视角的BCAT测验设计中,一般先施测G因子,待G因子测试完后再测试S因子,直至所有S因子测试完毕.即用多个单维CAT测试模式来处理1个多维的BCAT,这种测验设计模式最大的不足是没有充分利用项目的多维性特点,而且使得测验的长度更长.更为重要的是在这种测验设计中,题目仅仅使用了1个维度上的信息,例如在测量G因子时,仅仅使用了项目在G因子上的信息(即仅仅利用了在G因子上的区分度参数)而没有充分利用该项目同时也包含了S因子的信息(即没利用该项目在S因子上的区分度参数),造成了浪费.而在多维视角的BCAT设计中,往往需要计算信息量矩阵的逆矩阵,在一些情况下可能会出现逆矩阵不存在的情况,因此这种方法依然存在一定的局限.为了充分利用全息双因子模型的多维性以及各因子间的正交性(即相互独立性),本文拟针对当前BCAT测验设计的不足,分别在单维视角BCAT和多维视角BCAT上,提出4种新的BCAT测验设计,一方面进一步优化当前BCAT测验设计,另一方面提升BCAT对被试能力参数的估计精度,并为实际应用者提供新的方法支持.

2011年2月11日,辽宁省委、省政府出台了《关于贯彻落实〈中共中央国务院关于加快水利改革发展的决定〉的实施意见》(以下简称《实施意见》),对加快辽宁水利改革发展作出了全面部署,提出力争通过5~10年的努力,到2020年进一步增强水利支撑经济社会发展的能力,基本建成防洪抗旱减灾体系、“东水济西”水资源配置格局和高效利用体系、水资源保护及江河流域健康保障体系和有利于水利科学发展的制度体系。

1 传统的BCAT测验设计

目前国际上关于BCAT的测验设计主要有2种:一是单维视角的BCAT(Unidimensional BCAT,UBCAT),另一种是多维视角的BCAT(Multidimensional BCAT,MBCAT).

1 .1 传统的基于单维视角的BCAT设计 (UBCAT )

双因子模型最大的特点是所有因子间(一般因子G因子和特殊因子S因子)相互独立,即G因子与S因子间、S因子间均是相互独立的,因而有学者提出基于单维视角的BCAT(UBCAT)[4].即将每1个维度当成是1个独立的维度,分别进行单维的选题和估计,并按照单维的终止策略终止测验.

2.4 转染pSIREN-hTERT对A2780细胞凋亡的影响 PI染色流式细胞学检测显示:pSIREN-hTERT转染48 h后,A2780细胞凋亡率为(26.76±7.42)%,明显高于对照质粒pSIREN-Con转染组的(3.73±0.78)%及空白对照组的细胞凋亡率(1.33±0.15)%,且差异有统计学意义(t1=9.74,t2=10.82,P<0.05),shRNA对A2780细胞凋亡的影响常规PI染色行流式细胞学检测见图3。

在UBCAT中,一般因子与特殊因子的施测过程是分开序列进行的,首先施测一般因子(G因子),当一般因子测试精度达到要求后,接着逐个施测特殊因子(S因子).由于在施测一般因子的项目同时测量了1个特殊因子,因此UBCAT会根据在某个特殊因子上项目的作答估计被试在特征因子上的能力值,并将该特殊因子的能力值作为UBCA的能力初始值进行该特殊因子单维的CAT选题.

传统的基于多维视角的BCAT设计(MBCAT)[5-6]充分考虑了双因子模型的多维特征.与UBCAT的单维思路不同,MBCAT使用了多维CAT的思路来完成MBCAT,即采用多维能力估计、多维选题策略和多维终止策略.

无关变量的控制:(i)在UBCAT框架下,一般因子初始题的选取采用随机选题,单维的选题策略采用最大Fisher信息量选题,单维的估计方法采用的是单维EAP估计(每个维度选取[-3,3]上的31个积点),终止策略采用的是计算单维的测验信息量来终止测验.关于测验信息量终止的标准选取,主要是参考了R.D. Gibbons等[2-3]的标准.当维度的精度S E ≤0.3时,就终止测验,相当于在其研究中,终止时的信息量约为11.11.在本研究中采用与之相近的信息量标准,即保证每个维度的测验信息量大于12(I ≥12),就是每个维度的测验标准误在MBCAT框架下,多维的选题策略采用D.O. Segall等[5-6]提出的D优化方法,能力估计方法为多维EAP.因为各维度的估计标准误S E 设置为根据前文中的推导,多维的终止策略按照信息矩阵的逆矩阵对角线元素单维的终止策略为单维测验信息量≥12.(iii)同时,为了防止因题库和被试差异导致的误差,本研究中所有BCAT设计下的题库参数及被试参数相同.

1 .2 传统的基于多维视角的BCAT设计 (MBCAT )

UBCAT在选题时,每次只考虑1个因子维度,被试每完成1个题目,当即估计被试在当前施测维度上的潜在特质水平(θ ),而且这时使用到的区分度参数仅仅是该项目在该维度上的区分度参数,而不使用该项目在其他维度的区分度参数,即单维的算法.在整个BCAT过程,由于每次只进行1个维度的自适应,因此BCAT自始至终都是使用传统的单维CAT的单维能力估计、单维选题策略及单维终止策略.

在MBCAT中,一般因子(G因子)与特殊因子(S因子)的施测过程是同时进行的,选题时同时考虑一般因子和多个特殊因子,被试每完成1个题目,当即估计被试在一般因素与所有特殊因素上的潜在特质水平(θ ).MBCAT测验设计本质上是沿用多维CAT(MCAT)的方法.

2 BCAT的优化设计

在BCAT的测验设计中,涉及一般因子与特殊因子能力估计的先后顺序、选题策略、能力估计方法与终止策略等算法.本研究中的BCAT优化设计包括以上算法的设计与优化,具体如下.

2 .1 基于单维视角的BCAT优化设计 (UBCAT_optimality )

2.1.1 基于单维视角的优化设计1 UBCAT_optimality1方法是在传统UBCAT方法的基础上,被试测试完后,最后一次采用多维IRT的方法同时估计被试的G因子和S因子上的能力特质水平.它一方面综合了所有题目的信息,另一方面充分利用了每题测量2个维度(G因子和S因子)的信息,而传统单维能力估计仅仅利用了每题测量1个维度的信息,因而UBCAT_optimality1有望进一步提高UBCAT的G因子能力和S因子能力的参数估计精度.

2.1.2 基于单维视角的优化设计2 UBCAT_optimality2设计建立在UBCAT_optimality1基础上,UBCAT_optimality2不是在整个UBCAT结束时而是在UBCAT的整个过程中自始至终都采用多维能力的估计方法.

2 .2 基于多维视角的BCAT优化设计 (MBCAT_optimality )

双因子模型因不同维度间相互独立,因此双因子模型中的每个维度均具有单维性特点,但同时双因子模型中的每个项目一般同时测量了2个因子(1个G因子和1个S因子),因此它又具有项目内多维的特征,故也可以考虑从多维的角度进一步优化MBCAT.

传统MBCAT的测验设计实质上是沿用了多维CAT的思路.一般情况下,在施测多维CAT的过程中,希望每1个维度的精度均能达到理想的标准,但是在多维CAT中常用的一些多维终止策略(如T规则[7]),即采用方差协方差矩阵的迹小于事先界定的标准来终止测验.这种方法是保证整体达到标准,但是并不能保证在测验终止时每个维度的估计精度均能达到指标.为了避免出现这样的问题,Wang Chang等[7]提出采用信息矩阵逆矩阵对脚线元素最大值小于标准的方式终止测验:

即让每个维度的估计方差都小于预先设定的标准d ,这样可以保证每个维度的精度都能达到标准.因此,在本研究中MBCAT的终止策略采用上述方法作为MBCAT的终止策略.

2.2.2 基于多维视角的优化设计2 MBCAT_optimality2施测的过程与单维信息量终止的MBCAT相似.采用多维选题、多维估计,每选出1个题目,估计完被试在各维度上的特质水平,就计算各个维度上的单维测验信息量.与方法7相似,不需要等所有维度都达到精度标准才能终止测验.如果有维度的测验信息量已经满足标准,在接下来的选题过程中,就不再选择这个维度的题目.

其中表示信息矩阵的逆矩阵中对角线元素的第k 个元素,表示维度k 的方差,因为在研究中假设各维度服从均值为0,方差为1的多元正态分布,所以

可证该式关于s1的二阶偏导数小于0,存在最大值,求该式关于s1的一阶偏导,并令其为0,得到企业1最优续航里程研发水平同理可得,企业2最优续航里程研发水平

采用上述方式作为终止策略,因为需要计算信息量矩阵的逆矩阵,在一些情况下可能会出现逆矩阵不存在的情况,因此上述方法依然存在一定的局限性.同时,采用方差协方差矩阵的对脚线元素小于标准终止测验的方法并不能保证其结果能够与UBCAT下的方法进行比较.因此,根据双因子的单维特性,可以考虑在施测过程中,采用单维的终止策略来结束测验,与UBCAT方法下的终止策略保持一致.基于传统MBCAT方法,提出以下2种优化的设计.

采用Monte Carlo模拟的方法进行实验研究,验证本研究中新开发的5种BCAT优化设计方法的科学性与合理性,并与2种传统的BCAT方法进行比较.

基于Pade近似的广域电力系统关键模态时滞轨迹分析//聂永辉,张鹏宇,马彦超,张艺川,方彬彬,吕大朋//(12):87

在多维的CAT中,要求所有的维度都要达到设定的标准,才会停止选题.因为选题的过程中会综合考虑待选题目在所有维度上的信息,在这个过程中,有可能出现某些维度已经满足了精度标准,但还会继续选用该维度的题目,从而导致施测总题数变长.为了防止这种情况,需要对已经满足精度标准的维度进行控制,一旦维度满足标准,就让这个维度的剩余题目退出选题.在接下来的施测过程中,只关注那些剩余的还未满足的维度.由此基于传统MBCAT方法以及单维信息量终止的MBCAT方法,提出以下第2种新的MBCAT优化设计.

在Wang Chun等[7]研究中同时还指出,在MIRT模型下,某一维度θ k 的信度可以采用下式定义:

3 实验研究

2.2.1 基于多维视角的优化设计1 MBCAT_optimality1与传统MBCAT过程相似,不同点在于每选出1个题目估计出被试的当前能力之后,还需要计算每个能力维度的单维信息量,采用单维的信息量作为终止策略,若所有维度的单维测验信息量都达到要求,就终止测验.

在本视频中,来自中国出生缺陷监测中心、全国妇幼卫生监测办公室的朱军教授强调,如果不加大防控力度,出生缺陷总量势必增加,并给出了数据来支持这一说法。

3.1 研究设计

研究采用单因素(即BCAT设计)的实验设计,探讨并比较6种BCAT设计(详见表1)的效果,主要比较6种BCAT设计的能力估计精度指标、BCAT测试效率指标、题库曝光率指标.

限于篇幅,关于传统的基于单维视角的BCAT设计(UBCAT)的详细介绍,感兴趣的读者可参考文献[4].

根据公式r xx =1-(S Exx )2,其中σ x =1,可以推出,当为单维、估计标准误时,所以,在多维终止策略中,d 的设置标准为1/x .

表1 BCAT及其几种优化的测验设计

3.2 评价指标

1)能力估计精度指标.均方根误差(RMSE):能力估计值和真值之间均方根误差,其值差异越小,估计精度越高.

2)BCAT测试效率指标.根据以往研究,本文主要采用被试使用的平均题长(Max_ Length)作为测验效率(Test Efficiency,TE)指标,即在相同精度下,平均使用的题目量.

在近年来的校企合作实践中,高校和企业广泛建立了良好的合作关系,并且培养了一批适应企业发展的优秀人才。但校企合作的一个典型矛盾日益突显,即企业对各专业人才的输入需求往往是小批量、多品种的,而学校的培养模式却是在既定专业设置的情况下进行大批量、标准化的人才输出,这一突出的供求矛盾严重阻碍了产学合作的深入与广泛发展。

3)题库曝光率指标.采用卡方指标(χ 2)和测验重叠率(TOR)来反应题库曝光率,前者越大或后者越小说明题库的曝光率越高.

3.3 蒙特卡洛模拟

在本研究中模拟的题库大小为300题,题库的结构为双因子模型,其中特殊因子5个,一般因子1个,共6个能力维度.所有项目测量了一般因子(G),但每题只测量了5个特殊因子中的1个.共模拟产生300题,每个特殊因子均被60题测量,项目计分方式为0-3的4级评分.采用F. Samejima[8]的多维等级反应模型(MGRM),其项目反应函数为且b i1 <b i2 <b i3 ,题目区分度对数标准正态分布生成,即a i ~logN (0,1).被试能力真值从独立的多元标准正态分布中生成.

3.4 选题策略

在UBCAT中,选题策略采用最大Fisher信息量法,在多维等级反应模型下的计算公式为

在MBCAT中,借鉴D.G. Seo等[6]的做法,选题策略采用常用的D-优化方法,即选择那些使测验的Fisher信息量矩阵行列式达到最大的题目,计算公式为

其中为根据已经施测过的n -1题估计出的特质水平向量;为已经施测的n -1个题目在处的信息量;为剩余题库中题目在处的信息量.

4 研究结果

4.1 不同BCAT设计下被试能力估计精度比较

表2是不同BCAT设计下能力参数估计精度指标(RMSE).由表2可以看出,本文提出的4种BCAT设计,不论是一般能力因子G还是特殊能力因子S,能力参数估计精度均高于传统的UBCAT和传统的MBCAT设计.本文提出的4种优化设计中,能力参数估计精度最高的是单维信息量终止的MBCAT(MBCAT_optimality1),其次是带维度约束单维信息量终止的MBCAT(MBCAT_optimality2),再次是重新多维估计的UBCAT(UBCAT_optimality1)以及单维选题多维估计的UBCAT(UBCAT_optimality2).

这说明基于多维的BCAT(MBCAT)设计比基于单维的BCAT(UBCAT)设计在参数估计精度上更具优势.在UBCAT的3种设计中,相比于只进行单维估计(传统UBCAT设计),采用多维估计(UBCAT_optimality1和UBCAT_optimality2)不仅能够提高一般因子上的参数估计精度,同时还能够提高特殊因子上的能力估计精度.同时,在传统UBCAT设计与UBCAT_optimality1设计中,2者使用的题目是完全一样的,唯一不同的是UBCAT_optimality1设计只是在传统UBCAT设计的基础上,用已经选出的题目重新再估计一次,因此不存在题目长度不同而导致的精度不同的情况.UBCAT_optimality1和UBCAT_optimality2都是属于单维选题、多维估计的类型,但是不同之处在于UBCAT_optimality2是在自适应过程一开始就采用了多维估计,而UBCAT_optimality1则是在自适应过程中采用单维估计,等所有的题目满足了标准之后才采用多维估计,2种方法的能力估计精度都比较接近,这说明无论是在自适应过程中还是在自适应结束之后采用多维估计方法都能够提高能力估计精度.

1.5 统计学方法 采用SPSS 15.0进行统计学处理,率的比较用χ2检验,在屈光异常检出率的影响因素分析时,单因素分析采用χ2检验、趋势χ2检验或Fisher's确切概率法、多因素分析采用logistic逐步回归方法,以P<0.05为差异有统计学意义。

表2 不同BCAT设计下下RMSE指标比较

4.2 不同BCAT设计下题库曝光率比较

题库的曝光率结果见表3.从表3可看出,在UBCAT下,由于传统UBCAT设计与UBCAT_optimality1使用的测验项目是完全一样的,因此,这2种方法在题库使用情况上是完全相同的.就其他BCAT设计而言,传统MBCAT设计的题库使用中具有最小的验重叠率(TOR)和χ 2等曝光指标,相比较而对题库的使用最为均匀,其余BCAT设计的题库使用情况指标基本接近,但总体来讲基于MBCAT的设计在题库的使用上略优于基于UBCAT的设计.

表3 不同BCAT设计下题库使用指标比较

4.3 不同BCAT设计下测验效率的比较

评价CAT效率的1个重要的指标就是被试平均使用的测验长度,即TE指标,结果如表4.从表4可知,对于UBCAT 3种设计,无论是否采用多维估计各维度特质水平,测验效率基本相当且都比较高(TE指标低),即平均题目数量最少;而对于MBCAT的3种设计,带有维度约束单维信息量终止的MBCAT(MBCAT_optimality2)平均题目长度也比较短,和UBCAT的平均题非常接近.主要原因在于MBCAT_optimality2限定,凡是某个维度达到事先界定的信息量则随后的不再选择含有该维度的项目,这一点与UBCAT的设计是相同的,因此与UBCAT设计在题目使用数量上比较接近.而传统的BMCAT设计与MBCAT_optimality1没有“凡是某个维度达到事先界定的信息量则随后的不再选择含有该维度的项目”这一限定,即已满足精度条件的维度的题目不进行控制,那么就有可能会使得一部分已经满足条件的维度的题目被继续选择进行测试,从而使得测验的长度变长,测验效率降低,因此就出现表4中传统的BMCAT设计与MBCAT_optimality1的测验效率较低.同时总体来看,传统的MBCAT设计是所有6种BCAT设计中平均使用题目量最大,因此测验效率相对最低.

表4 不同BCAT设计下测验效率指标比较

5 结论与讨论

本研究在传统BCAT 2种测验设计的基础上,提出了4种新的BCAT设计,并采用国际上通用的Monte Carlo模拟实验的方式,从能力参数估计精度、题库使用的曝光率及测验的效率等3大指标来验证新提出的4种BCAT设计,并同时与传统的BCAT 2种设计进行比较.模拟研究与实证应用研究结果表明:本研究新提出的4种BCAT设计在能力参数估计精度普遍优于2种传统的BCAT设计,体现新方法的优越性.在题库使用率或曝光率方面,基于MBCAT的设计在题库的使用上略优于基于UBCAT的设计,整体来看,传统的MBCAT及本文提出的MBCAT_optimality1在曝光控制上最优;在测验效率方面,基于UBCAT 3种设计的平均使用题长基本相当,而基于MBCAT的设计中本文提出的2种新MBCAT设计优于传统的MBCAT,整体比较而言,基于UBCAT的测验效率优于基于MBCAT的测验效率.

1)在UBCAT设计下,不同BCAT测验设计的选用.在UBCAT设计中:本文提出的UBCAT_optimality1方法拥有最高的能力估计精度、最优的曝光控制和最优的测验效率,因此整体上是UBCAT设计中最优的设计,也是首推实际使用者使用的设计.而考虑到传统的BCAT设计是所有设计中能力参数估计精度最差,虽然这2种方法下过度曝光题目数量不多,测验效率上也有一定的可取之处.但在BCAT的实际应用中,需要的是既能够高效地评估,更要能够准确评估的方法,因此,不推荐实际运用者选用传统的BCAT设计.当然,这也从另一个侧面说明本研究的必要性与重要性.

2017年,江苏省艺术研究院对江苏省现有的三家京剧剧团的目前困境和未来发展进行了分析与设想。江苏的京剧剧院(团)如今需要依靠政府的扶持,京剧逐渐沦为了“福利文化”,这是目前急需解决的问题。调查徐州京剧艺术的民间生态,能确切地反映京剧在徐州的受众和活跃程度。

2)在MBCAT设计下,不同BCAT测验设计的选用.在MBCAT设计中:本文提出的MBCAT_optimality1方法拥有最高的能力估计精度、次高的曝光控制和次高的测验效率,整体上是MBCAT设计中最优的设计,也是首推实际使用者使用的BCAT设计.而传统的MBCAT与本文提出的MBCAT_optimality2各有优劣,前者最大的优点是曝光控制比较理想,但缺点是能力参数估计的精度稍差;MBCAT_optimality2具有最优的测验效率,但缺点是曝光控制稍差.

●乌拉特后旗巴音格乐县级示范园区用硅谷功能肥在重度盐碱地改良土壤,当年都获得了大丰收,巴彦淖尔市电视台致富路频道多次专访报道,在当地农户中产生强烈反响。

限于时间及研究精力,本研究还有很多值得进一步研究及探讨的地方.如本文未探讨D.G. Seo等[6]在其研究中指出的不同因子结构下,本文新开发的4种测验设计的效果;同时在MBCAT测验设计中,选题策略采用的是D-优化法,未来还可以进一步探讨其他选题策略的效果,如基于贝叶斯的D-优化方法[9]、互信息法[10]等方法;同时本研究BCAT的终止策略为不定长CAT,定长的BCAT以后还有待深入.

父亲什么时候回来的,我不知道。第二天我醒的时候,父亲坐在床边,问我昨晚的事,我只好如实说了。他对我讲,不能把这事再告诉任何人,包括祖父。我说为啥啊。“如果别人知道了,咱家的粮食就不够吃了,就要挨饿,懂吗?”我没有说话,坚定地点了点头。

6 参考文献

[1] Chen Fangfang,West S G,Sousa K H.A comparison of bifactor and second-order models of quality of life [J].Multivariate Behavioral Research,2006,41(2):189-225.

[2] Gibbons R D,Weiss D J,Pilkonis P A,et al.Development of a computerized adaptive test for depression [J].American Journal of Psychiatry,2013,69(11):1104-1112.

[3] Gibbons R D,Weiss D J,Pilkonis P A,et al.Development of the cat-anx:a computerized adaptive test for anxiety [J].American Journal of Psychiatry,2014,171(2):187-194.

[4] Weiss D J,Gibbons R D.Computerized adaptive testing with the bifactormodel [EB/OL].[2018-06-12].http://publicdocs.iacat.org/cat2010/cat07weiss&gibbons.pdf

[5] Segall D O.Multidimensional adaptive testing [J].Psychometrika,1996,61(2):331-354.

[6] Seo D G,Weiss D J.Best design for multidimensional computerized adaptive testing with the bifactor model [J].Educational & Psychological Measurement,2015,75(6):954-978.

[7] Wang Chun,Chang Huahua,Boughton K A.Deriving stopping rules for multidimensional computerized adaptive testing [J].Applied Psychological Measurement,2013,37(37):99-122.

[8] Samejima F.Graded response model [M]∥van der Linden W J,Hambleton R K.Handbook of modern item response theory.New York:Springer-New York Press,1997:85-100.

[9] Mulder J,van der Linden W J.Multidimensional adaptive testing with optimal design criteria for item selection [J].Psychometrika,2009,74:273-296.

[10] Mulder J,van der Linden W J.Multidimensional adaptive testing with Kullback-Leibler information item selection [EB/OL].[2018-09-16].doi:10.1007/978-0-387-85461-8.

The Optimization of Testing Design for CAT with Bifactor Model and Its Application

LIU Xinting,PENG Siwei,TU Dongbo*

(College of Psychology,Jiangxi Normal University,Nanchang Jiangxi 330022,China)

Abstract :Four new type of testing designs of computerized adaptive testing with bifactor model (BCAT) has been proposed on the basis of two traditional testing designs for BCAT.Two proposed optimality testing designs belong to the unidimensional BCAT,which are called as UBCAT_optimality1 and UBCAT_optimality2,respectively.Another two proposed optimality testing designs belongs to the multidimensional BCAT,which are called as MBCAT_optimality1 and MBCAT_optimality2,respectively.Results showed that:(i)The proposed four optimality designs for BCAT overall had higher parameter estimation precision of both general factor and special domain factor,than two exiting designs for BCAT.(ii)As for item bank exposure rate,the MBCAT designs were better than the UBCAT designs.The proposed MBCAT_optimality1 and the exiting MBCAT performed best in item exposure control.(iii)On test efficiency,the UBCAT designs used fewer items than those of the MBCAT designs.

Key words :bifactor model;computerized adaptive testing;BCAT;polytomously score

中图分类号 :B 841

文献标志码: A

DOI: 10.16357/j.cnki.issn1000-5862.2019.02.03

文章编号 :1000-5862(2019)02-0128-07

收稿日期 :2018-10-21

基金项目 :国家自然科学基金(31660278,31760288)资助项目.

通信作者 :涂冬波(1978-),男,江西南昌人,教授,博士,博士生导师,主要从事心理统计与测量的研究.E -mail: tudongbo @aliyun .com

(责任编辑 :冉小晓 )

标签:;  ;  ;  ;  ;  

双因子模型下CAT测验优化设计及其效果验证论文
下载Doc文档

猜你喜欢