多级评分多策略认知诊断方法论文

多级评分多策略认知诊断方法

黄 玉,罗 芬,熊建华,丁树良,甘登文*

(江西师范大学计算机信息工程学院,江西 南昌 330022)

摘要: 多级评分比2级评分能提供更全面更丰富的诊断信息,更好地反映被试对知识的掌握状况.考虑到存在不同认知诊断策略对应不同属性层级关系的情形,甚至在某种评分规则下,存在同一个项目使用不同策略,对应的满分值也不同的复杂情况,该文利用项目反应理论等值的做法,处理这种复杂情况.Monte Carlo模拟实验表明:对含有多策略的多级评分反应数据,这种处理方法有助于提高认知诊断模型分类的准确性.

关键词: 认知诊断;多级评分;多策略认知诊断;Q 矩阵

0 引言

认知诊断(CD)将当代心理测量学与认知心理学的理论方法相融合,它不仅仅是停留在对个体(被试)的能力评价上,更主要是根据被试对项目的作答反应,诊断被试的知识状态(Knowledge State,KS),为对被试进行个性化补救提供依据.

在大多数认知诊断模型中,假定每个被试在解答同一个任务时的答题策略以及基本心理过程等均相同[1],这可能与实际情形不相符,被试的年龄和工作记忆会对其采取的策略产生影响[2].例如,小学算术运算题,国外小学生大多使用数手指、出声计算、直接提取和分解等策略[3];我国小学生从2年级开始就会熟记九九乘法口诀表,对于简单的乘法运算无需计算就可以快速作答[4].又如,对于问题“1+2+3+…+100=?”,低年级学生一般采用逐个直接相加的方法,高年级学生可能会使用“(1+100)+(2+99)+…+(50+51)=5050”方法.显然,在答题时不同的被试可能采用不同的解题策略[5],这种情况下如果仅仅使用第1种策略进行诊断,必然无法为使用第2种策略的被试进行有效诊断.在认知测试中,考虑答题策略的多样化能够更准确地判断被试的知识状态[6].

长期以来,在“重开发,轻保护”思想影响下,旅游对公园内生态环境损坏日显突出,修复和重建工程欠账太多,需要通过生态补偿来缓解。

基于连续Hopfield网络的复杂网络社团结构提取…………………………………代婷婷,董延寿,韩 艳(14)

随着考试形式的多样化,多级评分的试题在考试中占有举足轻重的比例,如计算题和论述题等,往往这类测试题更能反映出考生对知识的掌握状况.查阅国内外的研究文献,发现多数的认知诊断模型采用单策略0-1评分模式,而对于多策略的多级评分研究较少,因而有必要进行此类评分模式的认知诊断方法的研究.

1 多级评分多策略认知诊断方法的提出

1.1 多策略认知诊断研究进展

在2级评分方式下,de la Torre等[5]将单策略DINA扩展到多策略DINA(MS-DINA)模型.涂冬波等[6]在此基础上结合广义距离判别法[7]以及修正的Q 矩阵理论[8],提出了MSCD方法.刘铁川[9]将混合IRT模型与DINA模型结合,提出了混合DINA (Mix-DINA)模型.戴步云等[10]针对CD-CAT进行多策略研究,将RRUM(缩减的再参数化统一模型)[11]拓展为MS-RRUM(多策略RRUM模型).祝玉芳等[12]在文献[6]的基础上开发了一种多策略的多级评分认知诊断方法.

多数研究实际上隐含了一个假设,即不同策略的属性对应相同的层级关系,只要考察它们使用的Q 矩阵就可以证实,因为Q 矩阵是属性层级结构的数学表示.也可能存在不同策略对应的属性层级不同的情况.由此,假设测验中存在2种答题策略,各自对应的5个属性的层级结构如图1所示(策略A 的A 1~A 5与策略B 的A 1~A 5相同).

本文针对多级评分多策略认知诊断展开研究,采用基于IRT的认知诊断模型,通过测验观察得分直观、有效、稳定地反映被试的潜在特质以及项目的参数指标.考虑到祝玉芳等[12]采用先诊断被试答题使用的策略,再诊断其知识状态的2步诊断法;由于在诊断策略前的分值转换的处理方式可能造成信息的缺损,因此,本文提出了基于IRT的多级评分多策略的模式分类(认知诊断)方法,即若对同一个题目使用不同的策略,则规定的满分值会不同,采用IRT等值的做法,将不同Q 矩阵和不同知识状态对应的所有期望反应模式与所有观察反应模式放在一起做IRT参数估计,这时项目的参数就在相同量尺上,可以相互比较.

在概念网络中,可以围绕着一个中心概念进行动态生成,从而找到与它相关的概念,这使得类比推理具有较好的扩展性,具有联想的特征。由此可见,类比推理能拓展人们的思维,产生新的概念、思想和方法,有利于创新。但是,也可能随着概念的无限制的扩展,形成一些矛盾的或无关的信息,使得类比推理的前提与结论不一致或不相关。

1.2 多级评分多策略认知诊断方法

本文在祝玉芳等[12]的基础上进一步对多级评分多策略认知诊断方法进行探讨.使用多个不同的Q 矩阵,每个Q 矩阵表示一种属性层级结构不同的策略,运用GDD-P(多级评分的广义距离法)[13]以及多级评分认知诊断测验蓝图的设计[14-15].

高铁会促进民航票价的稳定,二者之间相互制约,相互竞争,有利于价格的均衡。高铁有效改善了民航运输业的垄断性,有利于促进民航降低票价,优化服务。高铁的运营,可以采取针对老年乘客的特殊服务策略,更多地考虑老人的感受,也可以进行早高峰晚高峰和其余时间的差别定价,可以针对女性旅客开设女性候机室等来优化服务[2]。

众所周知,评分方式(即评分规则)会对被试的测验得分产生影响.本文的评分规则为:若被试每掌握项目所需的一个属性,则得分加1[13,16].

(iii)模拟被试的测验得分.将每种期望反应在给定s lip (即失误概率)分别为2%、5%、10%和15%下波动100次得到(具体做法见文献[19]).

对于摩擦作用对材料变形的影响,已有不少学者做了研究。李达人等[7]通过数值模拟方法确定了W-40%Cu粉末烧结材料在热加工数值模拟过程中的摩擦因子。邓华红等[8]通过数值模拟研究了叶片精锻过程中摩擦的作用,发现摩擦对温度场和载荷形成曲线均有较大影响。马勇等[9]采用有限元软件分析了不同摩擦条件对7075铝合金等通道角挤压过程的影响,发现随着摩擦因数增大,载荷峰值明显增大甚至成倍增长,且载荷值波动加剧,等效应力应变分布不均匀。本文结合Deform 3D有限元软件,研究了摩擦系数对2024铝合金的热模拟压缩过程的影响。

其中J 为项目总数,Y i =(Y i1 ,Y i2 ,…,Y iJ )为被试i 的测验得分向量,为策略m 下第t 种期望反应,为在项目j 上被试i 的测验得分与策略m 下第t 种期望反应之间的GDD-P值,θ i 为根据观察作答反应估计出的被试i 的能力值.比较所有的值,并将使值最小的对应的理想掌握模式作为被试的知识状态,对应的解题策略即为该被试的解题策略.

1.3 多级评分多策略认知诊断过程

第一,安全层面。一是国防安全,南海诸岛是中国国土的最南端也是南大门,其与海南岛之间的海域构成了中国的南部防御纵深,一旦失去,海南岛将成为防御前沿。二是经济安全。中国从中东、非洲等地进口原油的80%都要从南海海域和其南端的马六甲海峡通过,数据显示每日经过该区域的船只中有60%属于中国,因此可谓中国最重要的海运通道。[27]因此南海区域攸关中国的能源供应与对外贸易安全。

2 多级评分多策略认知诊断方法与多级评分单策略认知诊断方法的比较

2.1 实验设计

情景1 多级评分单策略,所有被试均采用策略A 答题.

情景2 多级评分多策略,一部分使用策略A 答题,另一部分使用策略B 答题.比较传统单策略认知诊断结果和本文提出方法的诊断结果,检验该方法的性能.

2.2 策略数据( Q 矩阵)的模拟

祝玉芳等[12]在利用多级评分的广义距离法[13]对某学校750名学生在“进位计数制”进行认知诊断过程中,通过对学生的访谈发现一些被试在某些题目上使用了不同的解题策略,并在文献[6]的基础上提出了解决“进位计数制”测验中多策略问题的多策略多级评分认知诊断方法.该诊断过程分成2个步骤:(i)测验蓝图的制定,不同策略对应不同测验蓝图;(ii)对于不同测验蓝图,分别做策略诊断和认知诊断.由于策略的使用不受评分方式的影响,而多级评分可以提供更加丰富的诊断信息.因此,先将得分看成0-1评分进行策略诊断,再进行多级评分认知诊断.由于使用不同策略解答同一个题目,可能满分值不同,对在不同测验蓝图中相同题目对应不同得分,需采取某种方式进行转换.

图1 2种策略对应属性间的层级结构图

由此可导出每种策略的可达矩阵R 、潜在Q 矩阵(Q r 阵)、学生Q 矩阵(Q s 阵)(详细计算方法见文献[8]).对每种策略的Q r 阵重复若干次得到相应的测验Q 矩阵,测验Q 阵涵盖了各自的R 阵,因此理想掌握模式与期望反应模式一一对应[17-18].测验Q 阵设计如表1所示.

表1 模拟的 Q 矩阵

注:f jA 和f jB 分别为策略A 和策略B 的项目满分值.

2.3 Monte Carlo模拟过程

其中N 为被试总数,K 为属性总数,N i 为是否判对第i 个被试的整个知识状态,对为1,错为0;N ik 为是否判对第i 个被试的第k 个属性,对为1,错为0;N i-strategy 为是否判对第i 个被试的答题策略,对为1,错为0.

(i)被试知识状态真值模拟.由每个策略对应的属性层级可知,策略A 的理想掌握模式有6种,策略B 有11种.这17种属性模式各分派100名被试,即共1 700名被试,其中600人使用策略A ,1 100人使用策略B .对于知识状态为全0的被试,无法诊断其采用的答题策略,因此在实际的诊断测验中,不对这种类型的被试进行诊断分析.

(ii)计算每种策略下的期望反应模式.每种策略下的被试在不发生失误和猜测答题情形下,根据测验的评分方式得到其期望反应.例如,策略A 下属性掌握模式为(1 1 1 1 0)的被试,在1~6个项目上的期望反应为(1 2 3 4 4 1);策略B 下属性掌握模式为(1 1 1 0 1)的被试,在1~6个项目上的期望反应则为(1 2 2 2 3 3).策略A 下属性的理想掌握模式为(1 1 1 1 0),在前6个项目上的期望反应为(4 4 4 3 2 3);策略B 下同样的理想掌握模式,在前6个项目上的期望反应则为(2 2 2 3 1 2).

表示被试的测验得分向量与期望反应模式之间的GDD-P,公式如下:

(iv)估计项目参数与被试能力值.本文使用F. Samejima等级反应模型(GRM)[20]拟合数据,其原因在于GRM是适用于多级评分并且不包含猜测参数的简单模型.利用多序列相关系数法[21]估计项目参数和被试能力.将所有被试的测验得分矩阵O RP 与所有的期望反应模式矩阵I RP 联合估计项目参数,并采用最大后验估计被试的能力.

医学英语的词汇量大,外来语比较多,专业术语冗长,句式结构复杂多变。因此,在医学英语的翻译过程中,翻译者除了要掌握扎实的医学专业知识外,还必须熟悉翻译理论与技巧,才能确保医学英语翻译过程中用词的准确性,体现医药外文资料的完整性。

(v)诊断被试的知识状态和答题策略.计算被试的测验得分向量与每种策略下每种期望反应之间的GDD-P值.使得GDD-P值最小的期望反应对应的理想掌握模式和策略即为被试的知识状态和使用的答题策略.

(vi)为了降低实验偏差,每种测验均重复实验30次.

针对诊断结果计算模式判准率(Pattern Match Ration,PMR)、属性边际判准率(Average Attribute Match Ratio,AAMR)、策略判准率(Strategy Match Ration,SMR),计算公式分别为

2.4 评价指标

充分考虑果蔬产品市场需求的不断增加,以及居民对于高质量绿色无公害产品的倾向性。总结“胶州大白菜”品牌案例可以看出,果蔬产品品牌化离不开标准化生产。要建立健全果蔬产品标准体系。按照国际、国家、行业标准,组织建设标准化品牌果蔬产品基地,推动果蔬生产专业化、标准化。

根据上节的方法固定属性、策略以及测验Q 阵.以下是多级评分多策略的模式分类方法具体过程.

2.5 实验结果

表2为单策略和多策略认知诊断方法在2种测验情景下关于3个评价指标的比较.

表2表明:作答数据含有多策略反应后,使用多策略的诊断结果要明显好于单策略的诊断结果,其结果的模式判准率(P MR )在4种失误率下的平均值为97.40%,当失误率为2%时,其模式判断准确率高达99.78%;属性边际判准率(A AMR )在4种失误率下的平均值为99.35%,且S MR 的平均值为93.25%;其中,使用策略A 的被试诊断结果的P MR 、A AMR 和S MR 在4种失误率下的平均值分别为94.74%、98.61%和99.98%,使用策略B 的被试诊断结果的P MR 、A AMR 和S MR 在4种失误率下的平均值分别为98.73%、99.72%和89.89%.若采用传统的单策略的诊断方法进行诊断,则发现P MR 和A AMR 在4种失误率下的平均值分别为45.28%和82.08%.

表2 单策略和多策略认知诊断方法的判准率比较(实验30次的平均值)

3 多级评分多策略认知诊断方法的性能

3.1 实验设计

在同样的多策略实验情形下,采用祝玉芳等[12]的多策略的多级评分认知诊断方法与本文提出的新方法分别进行诊断分析,并比较2种方法的诊断结果.策略数据及评价指标与第2节相同.

3.2 Monte Carlo模拟过程

本文方法模拟过程已详细介绍,以下为祝玉芳等[12]的方法模拟过程,其中步骤(i)~(iii)模拟方法与第2节一致.

(iv)确定被试的策略参数.将所有被试多级评分的观察作答反应以及每个策略下的所有理想反应模式全部转换成0-1评分.将所有被试0-1评分的测验得分与期望反应模式拼接进行参数估计,利用GDD值确定被试的答题策略.

具体的诊断过程如下:(i)根据不同策略的认知模型,计算所有可能的策略下被试理想的知识状态(理想掌握模式),进而获得每一种理想的知识状态在测试项目上的理想反应(期望反应);(ii)在所有被试都完成作答得到测验得分后,将每种策略下的期望反应模式与观察反应联合,使用适合的项目反应理论模型进行参数估计;(iii)使用认知诊断模型GDD-P[13]对每位被试进行诊断分类,分别计算被试的观察作答反应(测验得分向量)与每种策略下每种期望反应模式之间的GDD-P值,根据GDD-P的最小值确定被试的知识状态和答题策略.

(v)估计项目参数与被试能力值.将被诊断出使用相同策略的被试的测验得分与相应策略的期望反应模式组合估计项目参数和被试的能力参数.

(vi)诊断被试的属性掌握模式.分别计算被试的测验得分向量与判定的策略下的每种期望反应模式之间的GDD-P值,诊断被试的知识状态(属性掌握模式).

(vii)重复实验30次.

由表2可知,日粮不同普鲁兰酶添加水平对3~28日龄临武鸭生长性能各指标均无显著影响(P>0.05)。不过添加100 g/t和150 g/t普鲁兰酶的2个试验处理试鸭平均日增重较对照处理Ⅰ分别高出2.15%和0.87%。另外,试验除日粮250 g/t普鲁兰酶添加水平处理的试鸭料重比高于对照处理Ⅰ外,其它4个普鲁兰酶添加水平处理的料重比低于或与对照处理Ⅰ持平。故从生长性能结果角度考虑,3~28日龄雌性临武鸭玉米-豆粕型日粮中普鲁兰酶添加水平以100~200 g/t为宜。

3.3 实验结果

表3为在多级评分多种策略测验中分别采用本文提出的认知诊断方法和祝玉芳等[12]的认知诊断方法进行诊断,并在3个评价指标上进行比较.

表3表明:在多策略多级评分测验情形中,本文提出的诊断方法在各个s lip 下对于被试的模式判准率分别为99.78%、99.44%、97.82%和92.56%,平均值为97.40%,它们均高于祝玉芳等[12]方法的模式判准率93.10%、92.63%、90.48%和84.70%及平均值90.23%.实验结果表明祝玉芳等[12]的分值转换损失了部分信息.

表3 本文的方法和文献[12]的方法判准率比较(实验30次的平均值)

4 结论、讨论与展望

本文在祝玉芳等[12]的研究基础上提出了一种新的基于IRT的多级评分多策略认知诊断数据处理方法,利用GDD-P诊断被试的知识状态和答题策略.研究结果表明在多级评分的测验中答题策略不唯一时:(i)本文方法的诊断结果要明显优于单策略诊断方法;(ii)祝玉芳等[12]的分值转换造成了信息的缺损.模拟实验结果表明,新方法能提高分类的准确性.

本文在模拟研究的过程中,通过计算被试的测验得分向量与每种策略下每种期望反应模式之间的GDD-P值来确定被试的知识状态及其答题策略.然而,这与祝玉芳等[12]的方法有所不同,他们的研究对于每个被试先判定策略再诊断知识状态,提到由于评分规则不会对答题策略的采用产生影响,故先将被试的测验得分和所有的期望反应均转化成0-1评分,随后用GDD值确定被试在作答时的策略,最后用GDD-P诊断被试的知识状态.

值得注意的是,由于本文的评分方式会导致同一个项目采用不同的答题策略涉及到的属性内容和个数以及满分值有所不同.故项目的满分值取所有被试在该项目上测验得分中最高的分值.对此,祝玉芳等[12]指出在估计参数之前需要进行不同策略之间的分值转换.由于其研究的项目满分最多为3分,分值转换相对简单,若满分值过大,则这种分值转换方法无法推广,且随机性大.因此,本文在模拟祝玉芳等[12]的诊断方法时没有进行分值转换.

在认知测试中,属性层级关系反映被试对属性认知过程的层次性[22].被试在作答每个项目时使用不同策略所需的属性内容、属性个数以及对于这些属性的认知过程可能有所不同.因此,不同的策略所对应的属性层级也可能有差异.注意到属性层级关系可以使用可达阵(或者必要Q 矩阵)表达,不同的策略对应的可达阵可能不同[23].因此本文探索在这种情景下的认知诊断问题,先假设测验中2种不同解题策略分别对应不同的属性层级结构.当然,这样的假设的合理性还有待深入研究.

本期木皮市场需求一般,总体销势下滑,行情也属稳中转跌,价格水平有所偏软。但进口木皮较比国产木皮销势还是要好一些。市场上麦当娜树瘤的进口天然木皮,售价高达170~200元/m2,雀眼枫木、红影、白影,以及环纹沙比利等高档树种的木皮制品标价在140元/m2上下,虽然买卖频率不高,但是大单需求几率不少,促使价位还是居高不下。本期科技木皮、染色木皮价格下落变化明显,例如桦木、杨木产品几块钱就能买到,枫木的市场售价也下到十几元钱。

5 参考文献

[1] Rupp A A,Mislevy R J.Cognitive foundations of structured item response models [C].New York:Cambridge University Press,2007.

[2] 丁晓,吕娜,杨雅琳,等.工作记忆成分的年龄相关差异对算术策略运用的预测效应 [J].心理学报,2017,49(6):759-770.

[3] Geary D C,Hoard M K,Byrd-Craven J,et al.Cognitive mechanisms underlying achievement deficits in children with mathematical learning disability [J].Child Development,2007,78(4):1343-1359.

[4] Zhou Xinlin,Chen Chuansheng,Dong Qi,et al.Event-related potentials of single-digit addition,subtraction,and multiplication [J].Neuropsychologia,2006,44(12):2500-2507.

[5] de la Torre J,Douglas J.Model evaluation and multiple strategies in cognitive diagnosis:an analysis of fraction subtraction data [J].Psychometrika,2008,73(4):595-624.

[6] 涂冬波,蔡艳,戴海琦,等.一种多策略认知诊断方法:MSCD方法的开发 [J].心理学报,2012,44(11):1547-1553.

[7] 孙佳楠,张淑梅,辛涛,等.基于Q 矩阵和广义距离的认知诊断方法 [J].心理学报,2011,43(9):1095-1102.

[8] 丁树良,祝玉芳,林海菁,等.Tatsuoka Q 矩阵理论的修正 [J].心理学报,2009,41(2):175-181.

[9] 刘铁川.Mix-DINA模型功能开发及其与DINA、MS-DINA模型的模拟与实证比较 [D].南昌:江西师范大学,2012.

[10] 戴步云,张敏强,焦璨,等.基于CD-CAT的多策略RRUM模型及其选题方法开发 [J].心理学报,2015,47(12):1511-1519.

[11] Hartz S M.A bayesian framework for the unified model for assessing cognitive abilities:blendding theory with practicality [D].Urbana:University of Illinois at Urbana-Champaign,2002.

[12] 祝玉芳,王黎华,丁树良,等.多策略的多级评分认知诊断方法的开发 [J].江西师范大学学报:自然科学版,2015,39(4):371-376.

[13] Sun Jianan,Xin Tao,Zhang Shumei,et al.A polytomous extension of the generalized distance discriminating method [J].Applied Psychological Measurement,2013,37(7):503-521.

[14] 丁树良,罗芬,汪文义.多级评分认知诊断测验蓝图的设计:独立型和收敛型结构 [J].江西师范大学学报:自然科学版,2014,38(3):265-269.

[15] 丁树良,汪文义,罗芬.多级评分认知诊断测验蓝图的设计:根树型结构 [J].江西师范大学学报:自然科学版,2014,38(2):111-118.

[16] 田伟,辛涛.基于等级反应模型的规则空间方法 [J].心理学报,2012,44(1):249-262.

[17] 丁树良,杨淑群,汪文义.可达矩阵在认知诊断测验编制中的重要作用 [J].江西师范大学学报:自然科学版,2010,34(5):490-494.

[18] 丁树良,汪文义,杨淑群.认知诊断测验蓝图的设计 [J].心理科学,2011,34(2):258-265.

[19] Leighton J P,Gierl M J,Hunka S M.The attribute hierarchy method for cognitive assessment:avariation on Tatsuoka′s rule-space approach [J].Journal of Educational Measurement,2004,41(3):205-237.

[20] Samejima F.Estimation of latent ability using a response pattern of graded scores [J].Psychometrika,1970,35(1):139.

[21] 陈青,丁树良,朱隆尹,等.3参数等级反应模型及其参数估计 [J].江西师范大学学报:自然科学版,2010,34(2):117-122.

[22] Leighton J P,Gierl M J.Cognitive diagnostic as-sessment for education:theory and applications [J].Journal of Qingdao Technical College,2007,45(4):407-411.

[23] 丁树良,罗芬,汪文义,等.Q 矩阵探微 [J].江西师范大学学报:哲学社会科学版,2017,50(1):71-79.

The Multiple -Strategy Cognitive Diagnosis Method with Polytomous Scoring

HUANG Yu,LUO Fen,XIONG Jianhua,DING Shuliang,GAN Dengwen*

(College of Computer Information Engineering,Jiangxi Normal University,Nanchang Jiangxi 330022,China)

Abstract :Cognitive diagnosis (CD) is the product of the combination of modern psychometrics and cognitive psychology.Polytomous scoring items can provide more comprehensive information,and better reflect the KS of the examinees.Taking into account the existence of different cognitive strategies corresponding to different attribute hierarchies,even under some scoring rules,there is a complex situation in which the same item uses different problem-sovling strategies maybe corresponding to different values,borrowing the equivalent approach of project response theory to deal with this complex situation.Monte Carlo simulation experiments show that in the polytomous scoring test when the response data of examinees contained multiple-strategy responses:The diagnosis results using multiple-strategy CD method pattern match ration (PMR) better than the single-strategy CD method.The method,the PMR in various slip all higher than other methods,their method the score conversion caused the lossing of information.

Key words :cognitive diagnosis;multiple-strategy cognitive diagnosis;polytomous;Q matrix

收稿日期: 2018-10-17

基金项目: 国家自然科学基金(31500909,31360237,31300876)和教育部人文社会科学研究青年基金(BYJC880060)资助项目.

通信作者: 甘登文(1956-),男,江西奉新人,教授,主要从事智能教学软件和应用统计方面的研究.E-mail:gdw8120429@126.com

文章编号: 1000- 5862( 2019) 04- 0376- 06

中图分类号: B 841.7;TP 301.6

文献标志码: A

DOI: 10.16357/j.cnki.issn1000-5862.2019.04.08

(责任编辑:冉小晓)

标签:;  ;  ;  ;  ;  

多级评分多策略认知诊断方法论文
下载Doc文档

猜你喜欢