多维标准参照测验下分数报告质量评价指标论文

多维标准参照测验下分数报告质量评价指标

宋丽红1,汪文义2

(1.江西师范大学初等教育学院,江西 南昌 330022;2.江西师范大学计算机学院,江西 南昌 330022)

摘要: 标准参照测验主要关注学生在特定内容、知识或技能上的掌握程度和表现水平.分数报告中表现水平的分类信度和效度,通常采用分类一致性和分类准确性进行评价.首先介绍多维测验下的分类决策规则;然后介绍多维项目反应理论模型下3类分类一致性和分类准确性指标,一类是基于总分量尺的指标、另外2类分别是基于似然函数和信息矩阵定义在能力量尺的指标;同时还介绍了这些指标的作用;最后指出分类一致性和分类准确性可以用于评价标准参照测验子分数的分类信度和效度,还可以指导计算机分类测验选题和组卷.

关键词: 多维项目反应理论;分数报告;决策规则;分类准确性;分类一致性

0 引言

标准参照测验(criterion-referenced tests,CRT)主要报告学生在特定内容、知识或技能上的掌握程度和表现水平.标准参照测验一般在各个维度上将被试分为2个水平(掌握、未掌握)或3个水平(初级水平、熟练水平、高级水平)等表现水平.根据CRT分数报告结果及结果解释,教师可改进教学侧重点,学生也可根据自己的强项和弱项进行针对性学习.因此,CRT有助于发挥考试的诊断功能和促进学生个性化学习[1].标准参照测验已经广泛应用于水平、资格和成就考试等,例如国际学生评价项目、国际阅读素养测评项目、国际数学和科学成就趋势调查、美国国家教育进步评价、美国研究生入学考试、中国国家基础教育质量监测等[2-3].随着新课程标准的建立,基于新课程标准的标准参照测验也有待开发.因为一旦建立和采用新标准,就需要开发新测试,以测量学生是否达到相关标准[4].

任何测量都存在测量误差.测验信度和效度指标可用于评价测量各种随机和系统误差大小.CRT通常会估计和报告学生在特定内容、知识或技能上的子分数或能力分数,再结合专家划定的标准或划界分数,给出学生的表现水平.一般而言,测验题量、难度分布、题目质量、测量模型、子分数或能力分数估计方法等均会影响表现水平的分类信度和效度,并且分类结果会影响分数报告使用者的决策.因此,表现水平分类结果的稳定性和准确性对于分数报告十分重要.分类一致性和分类准确性指标,成为研究者关注的重点[5-6].作为信度指标的分类一致性,它是指2次重复测量中被试观察分类或表现水平一致的比率,主要衡量分类结果的稳定性.作为效度指标的分类准确性是指被试观察分类与其潜在真实分类相同的比率[6-7].

下面先简要介绍分类一致性和分类准确性指标的发展概况[8-15].最早是采用平行测验的方式来估计分类一致性和分类准确性.因为平行测验在实际中较难实现,后来有研究考虑如何从单个测验数据估计分类一致性和分类准确性.随着单维和多维项目反应理论(multidimensional item response theory,MIRT)的发展,基于经典测验理论分类一致性和分类准确性指标,逐渐推广并应用于项目反应理论下指标估计.考虑到项目反应理论的优势,本文主要关注单个测验和项目反应理论模型下分类一致性和准确性指标及其估计方法.按照分数报告所采用的量尺不同,这些指标主要分为2类[9]:基于观察分数(测验总分)的决策指标和基于潜在能力分数的决策指标.其中,基于观察分数的决策指标主要采用W.C. Lee[7,11]提出的方法进行估计,基于潜在能力分数的决策指标主要采用Guo Fanmin[8]或L.M. Rudner[13]提出的方法进行估计.

文献[7-8]的方法开始主要用于单维项目反应理论模型下指标估计.众多实证研究发现,前面提到的许多大型标准参数测验均为多维测验[16-20].这极大地推动了MIRT相关理论和应用研究迅速发展[21-28].伴随着MIRT的发展,对于多维测验,有些研究[14-15]采用文献[7]的方法估计不同内容维度分数的分类一致性和分类准确性,其采用的MIRT模型主要有简单结构多维模型、双因子模型和题组模型.近年来有些研究[9]发现,基于能力分数指标比基于观察分数指标更高.因此,最近一些研究者[29-31]将基于能力分数的文献[8]的方法、文献[13]的方法推广到MIRT模型,并比较了各方法的表现.本文在介绍多维项目反应理论模型之后,重点介绍分类决策规则以及3类分类一致性和分类准确性指标.

1 多维等级反应模型

下面先简要介绍后面要使用的多维等级反应模型(multidimensional graded response model,MGRM).MGRM是等级反应模型的多维模型,是多维能力下有序多值评分项目的测量模型.约定以下记号:样本中被试数为N ,即被试i =1,2,…,N ;测验项目数为J ,即项目j =1,2,…J ;项目j 的最低分数等级为0,最高分数等级为K j ,对应等级分数k =0,1,…,K j ;被试i 在项目j 的得分记为y ij ,它的取值为0~K j 的整数;测验结构的潜在能力维度记为d ;被试i 的潜在能力列向量记为θ i =(θ i1 ,θ i2 ,…,θ id )′;α j 表示项目j 与区分度有关的参数向量;β jk 是项目j 的第k 个等级难度,它满足严格递增关系β j1 <β j2 <…<β jKj .若采用双参数Logstic模型,则能力为θ i 的被试i 得分为k 及以上分数的概率为

结合(5)式和能力分布,可计算边际分类概率p (h )为

(1)

其中k =0,1,2,…,K j .

怀远成立了农业示范区,大批企业和大户入驻。并且政府每年投资建设种植基地,形成了“两点一线”的栽种布局。这样的格局有利于扩大种植规模,进行集约化生产。

MGRM定义了给定能力为θ i 的被试i 在项目j 上作答反应为y ij 的条件分布.已知作答反应矩阵或得分阵,有计算机程序或软件(包)可用于多维模型的项目参数和被试能力估计[32],如BMIRT(bayesian multivariate item response theory)、IRTPRO软件和R软件下mirt包等.在局部独立假设下,给定项目参数估计(α β )与观察数据y i ,最大化下面似然函数可得到被试能力估计:

设真分数量尺上划界分数为τ 01,…,τ H ,其中τ 0=0,划界分数将被试分为H 类.根据划界分数,确定能力为θ 被试的“真实”类,即当被试真分数满足τ (θ )∈[τ hh+1 )时,第h 类视为被试的“真实”类.再计算能力为θ 被试的条件分类准确性指标γ (θ ),即能力为θ 的被试分到其“真实”类的概率

(2)

其中示性函数定义为

2 决策规则

决策规则直接影响测验分类结果的信度和效度.根据教育与心理测量标准,对于学生有重要影响(如升学、录取)的决策,不能仅基于单个方面的测验分数做决策[33],而要求使用多重测量(multiple measures)结果做决策,以提高测量的信度、效度、公平性等[34-35].多重测量结果一般按照一定决策规则生成合成分数(composite score).合成方法通常可采用联合(conjunctive)、补偿(compensatory)、联合和补偿混合、验证(confirmatory)规则.相关规则已经应用于英语考试、通识考试和学业评价等[33-34,36-37].其中,联合规则要求被试在各个测量目标上达标,补偿规则允许测量结果之间补偿,验证规则用于用一个测量去证实或评估其他测量结果的质量.研究生入学考试同时规定考试科目单科分和总分最低要求,这属于混合型决策规则.MIRT能细致地反馈学生在各个内容、知识和技能方面的信息,它特别适合于分析和合成多重测量结果[25,38].下面主要在MIRT框架下介绍3种多维潜在能力下的决策规则[29-31].

1)基于各个能力分数的决策规则,决策区域定义如下:

学科类课程包括金融学、会计学、管理学、经济学等课程,目前大部分的本科院校都已经开设这类课程,但是在学分和学时上的划分和安排还不是很合理,有的课程还无法开设。学科平台课的课程可以概括为以下几种:线性代数、概率论与数理统计、会计学原理、微观经济学、宏观经济学、管理学、管理信息系统、统计学、经济法、财经应用文写作、金融市场学、货币银行学和市场营销学。还有部分没有提到的课程,可以作为选修课供学生选择。

R 1k ={θ =(θ 12,…,θ d )|τ 0kk1k ,-∞<θ k′ <+∞,k ′=2,3,…,d },

开展大学生思想政治教育工作是辅导员的核心工作,然而由于辅导员自身指导理论的有限性以及多重身份的局限性等因素,在一定程度了增加了其在思想政治教育工作中的难度。与此同时,信息网络化的普及、文化多样化的发展在一定程度上拓宽了大学生对思想政治教育内容的获取途径,也为辅导员话语权带来了诸多挑战。

R hk ={θ =(θ 12,…,θ d )|τ (h-1)k ≤θ khk ,-∞<θ k′ <+∞,k ′=1,…,k -1,k +1,…,d },

其中h =2,3,…,H ,τ hk 为第k 维能力分数量尺上的划界分数,满足-∞=τ 0k1k <…<τ Hk =+∞.

还有,跟宇晴师父学做菜!那一道“飞龙卧雪”,用花猴的腱子肉、野鹿的鹿茸、晴狼的舌头切成细丝炒在一起,堆积在荷花瓣上,王知味那家伙将菜谱借给宇晴师父时,他脸上依依不舍的样子!星雨被宇晴派到晴昼海里猎晴狼,割狼舌,将狼舌上厚厚的腥膻的白苔用小刀子一点一点刮下来,原来这是上官府里厨役们做的事啊,星雨做得津津有味,一点都不烦。

2)基于合成能力分数的决策规则,决策区域定义如下:

g (θ )dθ 1…dθ d ,

其中若τ (θ i )∈[τ hh+1 ),则w ih =1,否则w ih =0.

1.名词适用应统一。行政院提出之草案版本名称为“纠缠行为防制法”,而立法委员提出之草案版本名称为“跟踪骚扰防制法”。为贴近一般大众所能理解的反复、持续侵扰情形,建议应将名词统一,以避免名词解释上模棱两可。

R h(H +1)={θ =(θ 12,…,θ d )|τ (h-1)(H +1)

分类准确性指标γ 对应的Kappa系数为

3)基于各个能力和合成分数的决策规则,决策区域定义如下:

3 分类一致性和分类准确性

3.1 基于文献[7]方法的分类一致性和分类准确性指标

记g (θ )表示能力分布的密度函数.根据测验总分将被试分为H 类(或表现水平),设置划界分数或划界点:s 0,s 1,…,s H ,满足0=s 0<s 1<…<s H-1 <s H =+∞且当被试观察总分<s 1时,被试判为第1类;当s 1≤被试观察总分<s 2时,被试判为第2类;依次类推,当被试观察总分≥s H-1 时,被试判为第H 类.

3.1.1 分类一致性指标 被试的测验总分随机变量X 的概率分布为

糖尿病为临床多发疾病,是一种慢性消耗性疾病类型,以老年患者作为常见人群,该疾病的发病因素主要与不良饮食习惯和生活方式、遗传因素、环境因素等密切相关[1]。该疾病的常见表现为血糖水平异常上升,对患者的生活质量和身心健康均造成不利影响。而控制血糖为治疗该疾病的主要目标[2]。本院对阿卡波糖对社区糖尿病患者的治疗效果及安全性进行分析,并总结分析结果(2016至2017年),具体情况见下文描述。

其中随机变量X 的观察值它表示被试在测验总分的可能取值,且表示能力为θ 的被试在含J 个项目的测验总分为x 的条件概率.在项目反应理论的局部独立假设成立情况下,对于测验长度为J 、能力为θ 的被试在测验上总分为x 的条件概率的递推公式为

(3)

P Jk (θ )由(1)式计算,它表示能力为θ 的被试在项目J 恰得k 分的概率,P J-1 (X =x -k |θ )表示前J -1个项目上总分为x -k 的概率.(3)式也可以写成容易理解的公式:

(4)

(4)式表示给定能力θ 下的所有满足测验总分为x 的所有可能得分向量(y 1,y 2,…,y J )的联合概率或似然函数之和.

从农村走出来的我,能体会到农村教育资源的相对贫乏,城市教育资源的优越及丰富,这也是我关注教育的一个原因。

根据给定能力θ 下测验总分X 的条件分布、决策规则中指定的观察分数量尺上的划界分数,可以得出能力为θ 的被试测验总分X 位于表现水平第h 类所在区间的概率,即能力为θ 的被试被分到第h 类表现水平的概率为

首先,农产品初加工水平不高。目前,东营市小麦、玉米、棉花等农产品大多以原材料输出为主,农产品增值转化率不足30%;海洋水产以销售初级产品为主,缺少深加工项目,难以提升附加值水平,限制产业发展。

p θ (h )=P J (s (h-1) ≤X <s h |θ )=

(5)

其中h =1,2,…,H .

由此可以计算出能力为θ 被试的条件分类一致性指标φ (θ ),即2个平行测验上能力为θ 的被试分类一致的概率为

条件分类一致性指标只是反映固定能力水平的测验分类一致性.测验对整个能力空间上能力的分类一致性,只需计算φ (θ )的期望,即可得到测验或边际分类一致性φ 为

为消除随机一致分类偶然概率的影响,Kappa系数对因随机分类的偶然概率(the chance probability)进行修正,由此可采用下式计算φ 对应的Kappa系数:

κ =(φ -φ c )/(1-φ c ),

其中φ c 表示由于随机一致分类偶然概率,其计算公式为

其中j =1,2,…,J ,k =1,2,…,K .β jk 越小表示被试越容易得到等级分数为k 或更高等级分数.该模型假设P (y ij ≥0|θ i ,α j ,β j )=1和P (y ij ≥K j +1|θ i ,α j ,β j )=0,且项目j 的各个等级难度是严格单调递增.由此可知,能力为θ i 的被试i 恰得k 分的概率等于得k 分或更高分的概率与得k +1分或更高分的概率之差:

3.1.2 分类准确性指标 先计算能力为θ 的被试的期望总分或真分数:

(6)

记者了解到,现如今,广东海事局制定了西江联动执法和统一执法工作制度,积极推动交界水域通航环境治理,不断提升西江水域的巡航执法效能,形成西江流域监管常态化、一体化。与此同时,广东海事局还综合沿江六市特点,完成西江流域风险源辨识和管理研究,编制《西江流域风险防控手册》,建立统一的风险类型、风险评估标准、风险管控及预警机制,实现西江沿江六市风险防控标准化,进一步夯实了协同西江、联合执法的基础。

γ (θ )=p θ (h ),若τ (θ )∈[τ hh+1 ).

条件分类准确性指标只是反映给定能力处的测验分类准确性.测验对整个能力空间上能力的分类准确性,只需计算γ (θ )的期望,即可得到测验或边际分类准确性γ 为

其中h =2,3,…,H ,w k 表示第k 维能力上的权重,τ (h-1)(H +1)表示合成能力分数量尺上的划界分数,满足-∞=τ 0(H+1) <τ 1(H+1) <…<τ H(H +1)=+∞.

κ =(γ -γ c )/(1-γ c ),

R 1(H+1) ={θ =(θ 12,…,θ d )|τ 0(H+1) <

还可以定义条件假阳性率(the conditional false positive error rate)或高估概率、条件假阴性率(the conditional false negative error rate)或低估概率分别为

若τ (θ )∈[τ hh+1 ),

若τ (θ )∈[τ hh+1 ).

边际假阳性率γ +和边际假阴性率γ -分别为

(7)

(8)

3.2 基于文献[8]方法的分类一致性和分类准确性指标

决策规则是将整个能力空间划分为多个互不相交区域的函数.若将d 维能力向量空间R d 划分为H 个互不相交的决策区域,分别记为R 1,R 2,…,R H ,这H 个决策区域对应H 个不同的表现水平.

3.2.1 分类一致性指标 文献[8]的方法是由似然函数计算分类一致的概率.给定被试i 的得分y i 、项目参数估计α β ,由似然函数和决策区域可计算被试i 被分到第h 类表现水平的概率为

其中h =1,2,…,H ,似然函数L (y i |θ ,α j ,β j )见(2)式.

由图9a所示,截割头从中间位置向下运动,当截割轨迹超出模拟的巷道边框时,报警的指示灯发生变化,以此引起操作人员警示。由图9b所示,截割头的位置实时显示在可视化界面中,掘进机根据界面中规划好的截割路径和移动截割头,截割轨迹显示正常。

分类一致性为平行测验下各个表现水平上所有被试被分到相同类的比率,即分类一致性φ 为

分类一致性φ 对应的Kappa系数为

κ =(φ -φ c )/(1-φ c ),

其中

3.2.2 分类准确性指标 下面定义基于文献[8]方法的分类准确性指标.矩阵W =(w ih )N×H 用于标识被试的表现水平的估计.如果使用真分数量尺上划界分数,根据被试能力的极大似然估计θ ,由(6)式可计算被试的期望总分或真分数τ (θ ),再根据划界分数,确定能力为θ 的被试的“真实”类.当被试期望总分满足τ (θ )∈[τ hh+1 )时,记w ih =1,否则w ih =0.w ih 指示被试的“真实”类.若使用潜在能力量尺上的决策规则,则可根据被试的能力估计确定w ih .由于第h 类可视为被试i 的“真实”分类,p ih 即表示被试i 被分到第h 类的期望正确分类概率,则正确分类概率或分类准确性指标γ 为

分类准确性指标γ 对应的Kappa系数为

κ =(γ -γ c )/(1-γ c ),

其中

类似于(7)式和(8)式,边际假阳性率γ +和边际假阴性率γ -分别为

其中表示被试i 的“真实”分类.

扩大增值税增收范围改革符合经济发展规律,对于我国经济发展具有重要的意义,但是在进行改革的过程中仍然有些问题有待解决。

权力就是责任,责任就要担当。要夺取全面建成小康社会的伟大胜利,离不开敢闯敢干,勇于试错的精神。但前提是,必须从实际出发,实事求是。假如不顾客观规律,不经科学论证,急功近利,盲目瞎干;或是一味追求所谓的政绩,大搞“面子工程”“形象工程”,那么,结果必然事与愿违,不仅不会对经济发展起到任何促进作用,还可能出现资源浪费、环境破坏、财政空耗等副作用。

3.3 基于Rudner方法的分类一致性和分类准确性指标

在多维项目反应理论模型下,测验信息量可用于评价能力估计的误差.例如,能力向量极大似然估计的渐近协方差阵是信息量矩阵的逆矩阵[39].多维项目反应理论模型下项目信息量矩阵[40-41]定义如下:

I j (θ )=-E (∂2logL (Y j |θ )/∂θ θ T),

其中L (Y j |θ )表示项目j 上的似然函数,可由(2)式变化而来.对于多维等级反应模型下项目信息量矩阵I j (θ )主对角线元素计算公式如下:

其中l =1,2,…,d .单维模型下信息量计算公式的可参见相关文献[22,42-43].项目信息量矩阵I j (θ )非主对角线元素计算公式如下:

其中l ,l ′=1,2,…,d ,l ≠l ′.项目信息量矩阵I j (θ )的公式如下:

在局部独立假设条件下,项目信息量具有可加性[42],由此得到能力点θ 处的测验信息量矩阵为

下面介绍基于信息量矩阵的分类一致性和分类准确性指标.能力向量的极大似然估计渐近服从多元正态分布,记为由多元正态分布可计算被试i 分到第h 类的期望概率为

其中表示能力点处的测验信息量矩阵.该积分式可通过数值积分方法的蒙特卡罗模拟方法计算.由此,可计算分类一致性和分类准确性指标分别如下:

基于Rudner方法的分类一致性和分类准确性指标对应的Kappa系数,可类似于文献[8]的Kappa系数计算.

4 分类一致性和分类准确性的价值

CRT根据测验分数和决策规则只将被试在各个维度掌握程度上分成少数几类表现水平.因为分类的类数少,在各个内容维度只需较少试题便可得到较好的分类精度,特别适合于大规模测评等.前已述及,许多大型CRT具有多维性.若不同能力维度之间存在相关性,则由于MIRT可以互借不同维度信息从而提高分类结果的信度和效度,因此,MIRT是分析多维测验数据的重要方法之一.众多研究者介绍了分类一致性和分类准确性指标及其估计方法,有必要分析其应用条件、应用场合及其价值.

这些指标可用于估计单个测验的分类一致性和分类准确性.无需进行重复测量,也无需采用能力分布和项目参数估计模拟平行测验再估计分类一致性和分类准确性.测验的分类一致性尽管可以通过重复测量计算,但重复测量条件比较苛刻,在实际应用中较难获得重测数据[11].而对于测验的分类准确性,在真实测验情景下被试的真实能力未知,无法计算估计能力与被试真实能力分类相同的比率.

能力分数或观察总分的条件标准误差[1]也可用来评价CRT的分类误差,但是它并不能直接等同于测验的分类准确性.条件标准误差反映能力估计值与能力“真值”之间的渐近误差大小,在测验长度较短时可能未必合适.条件标准误差可反映测验在各个能力处的标准误差,并未直接显示测验的整体分类准确率.不过,当单维IRT模型能力误差分布为正态分布时,条件标准误差与测验分类准确性存在非线性转换关系[45].在多元正态分布假设下,理论上这种关系在MIRT模型中很可能仍然成立,但有待深入研究.

本文介绍的指标及估计方法可用于模拟研究和实证研究.只需在调用MIRT模型的参数估计程序之后再调用指标估计的实现算法,就可基于测验作答数据、项目参数估计、估计的能力分布和决策规则(或划界分数),也可计算或估计真实测验的分类结果的分类一致性和分类准确性指标,用于反映分类结果的信度和效度.另外,基于观察分数量尺的分类一致性和分类准确性指标已经用于评价真实测验的分类信度和效度.例如,在单维IRT模型或其他统计模型下,已有研究[10]表明文献[7]的方法已经用于评价许多真实测验的分类结果质量,并且已经开发了专门的商业或免费软件供用户使用.

这些方法或指标可用于评价复杂决策规则和多维模型下域分数(domain scores)或子分数(subscores)的质量.域分数或子分数可反映被试对某个内容、知识或技能的掌握程度,它比量表分数解释性更好,大众接受度也更高[46].因为IRT或MIRT具有参数不变性和成熟的等值方法、可以利用维度间信息相关从而提高各个子分数的分类信度和效度等优势,基于IRT或MIRT模型的领域分数或子分数更具优势.

5 结论

本研究介绍了MGRM下的分类一致性和准确性指标,下面对已有研究的相关结论进行归纳和总结:3类方法均可较好地用于多维模型下的分类一致性和准确性估计,可用于多维CRT表现水平的信度和效度评价;类似于单维模型的结论,在多维模型下,基于潜在能力量尺分数的2类方法(文献[8]方法和文献[13]方法)比基于观察分数的方法(文献[7]方法)所得到的分类一致性略高,在能力之间相关性较大时分类准确性更高;3类方法中涉及的求和或积分可通过蒙特卡罗模拟方法估计;基于潜在能力量尺的2类方法比基于观察分数量尺的方法应用范围更广,可适用于多种决策规则指标估计(既适合于能力分数指标估计,还适合于内容或技能子分数、合成分数等指标估计);在总分决策规则和无信息先验分布下(即先验分布为均匀分布),文献[7-8]方法下分类准确性指标估计量依概率收敛于同一真值.

6 讨论

不同于Rudner的方法[12-13],文献[8]方法可适用于非正态性数据,无需借助能力估计误差渐近正态性假设[8],这样可避免分数正态转换过程可能引起分类结果差异的问题[5].测验长度越长,极大似然法估计的渐近正态性满足越好.已有研究并没有考虑在能力估计误差分布为非正态分布条件下各指标的表现.当能力估计误差分布为非正态分布时,各指标尤其是Rudner指标的稳健性如何,有待研究.在不同条件下,有待将本文介绍的指标估计方法与非参数估计方法[10]进行比较.

6.4 蘸花保果:在开花前后的两天内应用2.4-D蘸花,浓度为25~35毫克/千克。涂抹时在药液中加入红颜料作为标记,以免重复涂抹产生畸形果。对不易脱离的花冠应在果实膨大期及时摘除,以免着色不良。

因为各指标的估计方法均依赖于测量模型,在实际应用中不能单纯考虑分类一致性和分类准确性的高低,还需要考虑模型-资料拟合等其他信度和效度的影响因素.例如,文献[8]方法需要基于项目反应函数计算似然函数;文献[13]方法需要利用能力估计的信息矩阵,信息矩阵同样依赖于似然函数;文献[7]方法也同样依赖于似然函数或联合概率分布.另外,能力向量的信息矩阵还可以采用不同的估计方法得到,信息矩阵的不同估计方法对指标估计的影响如何,也有待考虑.

若以合成能力分数信息量最大或分类准确性最高为目标求取分数合成的权重[47],则不等权重的合成分数是否可显著提高分类结果的分类一致性和准确性值得探讨.在特定应用中,需要综合考虑测验目的、结构效度、内容效度、分数解释性、测验公平性和决策风险等因素决定决策规则.对于计算机分类测验,分类一致性和分类准确性指标在计算机自动组卷、计算机多阶段自适应测验构建中的应用,也需要探讨.

7 参考文献

[1] 戴海琦.心理测量学 [M].北京:高等教育出版社,2010.

[2] 甘良梅,余嘉元.标准参照测验分数体系的探讨研究 [J].心理学探新,2006,26(3):79-83.

[3] 辛涛,李勉,任晓琼.基础教育质量监测报告撰写与结果应用 [M].北京:北京师范大学出版集团,2015.

[4] Duncan A.Address by the secretary of education at the 2009 governors education symposium:states will lead the way towards reform [EB/OL].http://www2.ed.gov/news/speeches/2009/06/06142009.pdf.

[5] Douglas K M,Mislevy R J.Estimating classification accuracy for complex decision rules based on multiple scores [J].Journal of Educational and Behavioral Statistics,2010,35(3):280-306.

[6] 陈平,李珍,辛涛,等.标准参照测验决策一致性指标研究的总结与展望 [J].心理发展与教育,2011(2):210-215.

[7] Lee W C,Brennan R L,Wan L.Classification consistency and accuracy for complex assessments under the compound multinomial model [J].Applied Psychological Measurement,2009,33(5):374-390.

[8] Guo Fanmin.Expected classification accuracy using the latent distribution [J].Practical Assessment,Research and Evaluation,2006,11(6):1-6.

[9] Lathrop Q N,Cheng Ying.Two approaches to estimation of classification accuracy rate under item response theory [J].Applied Psychological Measurement,2013,37(3):226-241.

[10] Lathrop Q N,Cheng Ying.A nonparametric approach to estimate classification accuracy and consistency [J].Journal of Educational Measurement,2014,51(3):318-334.

[11] Lee W C.Classification consistency and accuracy for complex assessments using item response theory [J].Journal of Educational Measurement,2010,47(1):1-17.

[12] Wyse A E,Hao Shiqi.An evaluation of item response theory classification accuracy and consistency indices [J].Applied Psychological Measurement,2012,36(7):602-624.

[13] Rudner L M.Expected classification accuracy [J].Practical Assessment Research and Evaluation,2005,10(13):1-4.

[14] Yao Lihua.Classification accuracy and consistency indices for summed scores enhanced using mirt for test of mixed item types [EB/OL].[2018-12-16].http://www.bmirt.com/8220.html.

[15] LaFond L J.Decision consistency and accuracy indices for the bifactor and testlet response theory models detecting heterogeneity in logistic regression models [EB/OL].[2018-12-21].https://ir.uiowa.edu/etd/1346.

[16] Debeer D,Buchholz J,Hartig J,et al.Student,school,and country differences in sustained test-taking effort in the 2009 pisa reading assessment [J].Journal of Educational and Behavioral Statistics,2014,39(6):502-523.

[17] Makransky G,Mortensen E L,Glas C A W.Improving personality eacet scores with multidimensional computer adaptive testing:an illustration with the Neo Pi-R [J].Assessment,2012,20(1):3-13.

[18] Rijmen F,Jeon M,von Davier M,et al.A third-order item response theory model for modeling the effects of domains and subdomains in large-scale educational assessment surveys [J].Journal of Educational and Behavioral Statistics,2014,39(4):235-256.

[19] Yao Lihua,Boughton K A.A multidimensional item response modeling approach for improving subscale proficiency estimation and classification [J].Applied Psychological Measurement,2007,31(2):1-23.

[20] Zhang Jinming.Calibration of response data using MIRT models with simple and mixed structures [J].Applied Psychological Measurement,2012,36(5):375-398.

[21] Cai Li.High-dimensional exploratory item factor analysis by a metropolis-hastings robbins-monro algorithm [J].Psychometrika,2010,75(1):33-57.

[22] Reckase M D.Multidimensional item response theory [M].New York:Springer,2009.

[23] 刘红云,骆方,王玥,等.多维测验项目参数的估计:基于SEM与MIRT 方法的比较 [J].心理学报,2012,44(11):121-132.

[24] 杜文久,肖涵敏.多维项目反应理论等级反应模型 [J].心理学报,2012,44(10):1402-1407.

[25] 康春花,辛涛.测验理论的新发展:多维项目反应理论 [J].心理科学进展,2010,18(3):530-536.

[26] 涂冬波,蔡艳,戴海琦,等.多维项目反应理论:参数估计及其在心理测验中的应用 [J].心理学报,2011,43(11):1329-1340.

[27] 许志勇,丁树良,钟君.高考数学试卷多维项目反应理论的分析及应用 [J].心理学探新,2013,33(5):438-443.

[28] 詹沛达,王文中,王立君,等.多维题组效应Rasch 模型 [J].心理学报,2014,46(8):1208-1222.

[29] 汪文义,宋丽红,丁树良.复杂决策规则下MIRT的分类准确性和分类一致性 [J].心理学报,2016,48(12):1612-1624.

[30] Wang Wenyi,Song Lihong,Ding Shuliang,et al.Estimating classification accuracy and consistency indices for multidimensional latent ability [EB/OL].[2018-10-12].https://link.spriger.com/chapter/10.1007%2F978-3-319-38759-8-8.

[31] Wang Wenyi,Song Lihong,Ding Shuliang.An extension of rudner-based consistency and accuracy indices for multidimensional item response theory [EB/POL].[2018-12-11].www.doc88.com/p-3149195293902.html.

[32] Chalmers R P.MIRT:a multidimensional item response theory package for the r environment [J].Journal of Statistical Software,2012,48(6):1-29.

[33] Henderson-Montero D,Julian M W,Yen W M.Multiple measures alternative design and analysis models [J].Educational Measurement:Issues and Practice,2003,22(2):7-12.

[34] Chester M D.Multiple measures and high-stakes decisions a framework for combining measures [J].Educational Measurement:Issues and Practice,2003,22(2):32-41.

[35] McBee M T,Peters S J,Waterman C.Combining scores in multiple-criteria assessment systems:the impact of combination rule [J].Gifted Child Quarterly,2014,58(1):69-89.

[36] Carroll P E,Bailey A L.Do decision rules matter?A descriptive study of english language proficiency assessment classifications for english-language learners and native english speakers in fifth grade [J].Language Testing,2016,33(1):23-52.

[37] Abedi J.The no child left behind act and english language learners:assessment and accountability issues [J].Educational Researcher,2004,33(1):4-14.

[38] Chang Huahua.Making computerized adaptive testing diagnostic tools for schools [C]∥Lissitz R W,Hong Jiao.Computers and their impact on state assessment:recent history and predictions for the future.Charlotte,NC:Information Age Publisher Inc,2012:195-226.

[39] Wang Chun.On latent trait estimation in multidimensional compensatory item response models [J].Psychometrika,2015,80(2):428-449.

[40] Ackerman T A.Full-information factor analysis for polytomous item responses [J].Applied Psychological Measurement,1994,18(3):257-275.

[41] Yao Lihua,Schwarz R D.A multidimensional partial credit model with associated item and test statistics:an application to mixed-format tests [J].Applied Psychological Measurement,2006,30(6):469-492.

[42] Chang Huahua.The asymptotic posterior normality of the latent trait for polytomous irt models [J].Psychometrika,1996,61(3):445-463.

[43] Samejima F.Estimation of latent ability using a response pattern of graded scores [J].Psychometrika,1969,34(1):1-97.

[44] Chang Huahua,Stout W.The asymptotic posterior normality of the latent trait in an irt model [J].Psychometrika,1993,58(1):37-52.

[45] Cheng Ying,Liu Cheng,Behrens J.Standard error of ability estimates and the classification accuracy and consistency of binary decisions [J].Psychometrika,2015,80(3):645-664.

[46] 辛涛,谢敏.群体水平领域分数及其估计方法 [J].心理发展与教育,2010(4):416-422.

[47] Yao Lihua.Multidimensional linking for domain scores and overall scores for nonequivalent groups [J].Applied Psychological Measurement,2010,35(1):48-66.

The Quality Evaluation Index for Score Reporting in Multidimensional Criterion -Referenced Tests

SONG Lihong1,WANG Wenyi2

(1.Elementary Education College,Jiangxi Normal University,Nanchang Jiangxi 330022,China;2.College of Computer Information Engineering,Jiangxi Normal University,Nanchang Jiangxi 330022,China)

Abstract :For criterion-referenced tests,classification consistency and accuracy are important indicators for evaluating the reliability and validity of classification results in scores reporting.Numerous procedures have been proposed to estimate these indices in the framework of unidimensional item response theory(UIRT).Multidimensional item response theory(MIRT) has been devoted to models that include more than one latent trait to account for the multidimensional nature of complex constructs.MIRT has been successfully employed to analyze many criterion-referenced tests.Because MIRT has enjoyed tremendous growth,the purpose of this study will give a brief review of decision rules and three types of classification consistency and accuracy.The first one is the classification accuracy and consistency based on total sum scores,the second is the likelihood-based consistency and accuracy,and the last is the information-based consistency and accuracy.Finally,two practical implications of this research have been identified.First,it is easily to estimate classification consistency and accuracy indices for subscores or composite scores in each knowledge,content or skill area when the true cut scores were on the total score or latent ability scale.Second,they might be useful for developing test construction method in a multistage testing which is a form of computerized adaptive classification testing for making classification decisions.

Key words :multidimensional item response theory;score reporting;decision rule;classification accuracy;classification consistency

收稿日期: 2019-02-17

基金项目: 江西省教育科学“十二五”规划一般课题(13YB032)资助项目.

作者简介: 宋丽红(1981-),女,江西新干人,副教授,博士,主要从事教育测量研究.E-mail:viviansong1981@163.com

文章编号: 1000- 5862( 2019) 04- 0368- 08

中图分类号: B 841.7

文献标志码: A

DOI: 10.16357/j.cnki.issn1000-5862.2019.04.07

(责任编辑:冉小晓)

标签:;  ;  ;  ;  ;  ;  ;  

多维标准参照测验下分数报告质量评价指标论文
下载Doc文档

猜你喜欢