认知诊断模型中项目参数的方差-协方差矩阵估计方法比较：Bootstrap与解析法论文

认知诊断模型中项目参数的方差-协方差矩阵估计方法比较：Bootstrap与解析法

李令青辛涛刘彦楼赵海燕

【摘要】认知诊断模型中，项目参数的方差-协方差矩阵具有很重要的作用。作为一种非参数化的方差-协方差矩阵估计方法，Bootstrap法的一个主要优势在于它不需要解析推导。比较认知诊断模型中基于解析法的经验交叉相乘信息矩阵、观察信息矩阵和三明治协方差矩阵法，与Bootstrap法在估计项目参数标准误时的表现，模拟结果显示，认知诊断模型及Q矩阵正确设定或是模型中错误设定较少时，解析法的表现优于Bootstrap法，只有在样本量N=5000的条件下，Bootstrap法的表现才基本与解析法接近；当模型中错误设定较多时，Bootstrap法也没有表现出明显的稳健性。因此，在认知诊断模型中，推荐使用基于解析法的方差-协方差矩阵估计方法，尤其是三明治协方差矩阵法；当没有现成的基于解析法的方差-协方差矩阵估计方法可用时，Bootstrap法可以作为一种粗略的估计方法使用，尤其是在样本量较小的情况下。

【关键词】认知诊断模型；方差-协方差矩阵；Bootstrap法；解析法；信息矩阵

一、问题提出

认知诊断模型（cognitive diagnostic model，CDM）作为一类有约束的潜在类别统计模型^[1]，其开发的主要目的是根据受测者的外在作答反应，提供关于知识、技能、人格特质或心理障碍等潜在属性的多维、细粒度诊断性反馈信息。CDM在心理、教育、语言等多个领域有着重要的应用，是当前心理与教育测量领域的研究热点之一。^[2]

在CDM中，极大似然-期望最大化算法是最常用的模型参数估计方法之一，然而，这一算法并不能自动产生模型参数的信息矩阵（或者是其逆矩阵方差协方差矩阵），需要单独估计。模型参数估计值的方差-协方差矩阵有许多重要应用。例如，方差-协方差矩阵对角元素的平方根就是参数估计值的标准误，用以构建参数估计值的置信区间；方差-协方差矩阵在项目水平的模型比较^[3][4]以及项目功能差异检验^[3][4]等方面同样有重要作用。研究发现，使用不恰当的方法估计出来的模型参数的方差-协方差矩阵会产生有误导性的结论。^[5]

当前，在CDM中，研究者已经开发出多种基于解析法的方差-协方差估计方法，包括经验交叉相乘信息矩阵（empirical cross-product information matrix，XPD）、观察信息矩阵（observed information matrix，Obs）以及三明治协方差矩阵法（sandwich covariance matrix，SW）等。研究表明，XPD、Obs 以及SW 在估计模型参数的方差-协方差矩阵时有好的表现，在模型正确设定或存在较少错误设定时Obs 及SW 有好的表现，当模型的错误设定较多时SW 能为模型参数的极大似然估计值提供健壮的标准误估计。^[6]

一如家喻户晓的柳州螺蛳粉，在满足着柳州人味觉的享受的同时，悄无声息地秉承着柳州的饮食方式和文化，航道通畅、磅礴奔腾的柳江在参与城市经济社会发展之中，也逐步融入城市核心。

相对于解析法，在统计中另一类广泛应用的方差-协方差矩阵估计方法是Bootstrap 法。与解析法中需要大量的公式推导不同，Bootstrap 法是一种非参数的估计方法，它通过重复抽样的方式解决了模型参数估计值的方差-协方差矩阵计算问题，在统计中有着广泛的应用。然而，解析法以及Bootstrap 法在估计CDM 方差-协方差矩阵时表现的优劣有待进一步研究。

选取2013级护理本科学生270名作为研究对象，学生以组为单位进行情境的模拟，15～20人／组，并讨论相关问题。

1.CDM及其极大似然函数

根据受测者的项目作答反应矩阵x，项目反应函数P_lj以及属性掌握模式概率函数p_l，可获得用于估计模型参数的对数极大似然函数，

CDM 定义了属性掌握模式为的受测者正确作答项目j的概率，以饱和对数线性认知诊断模型（log-linear CDM，LCDM）^[5]为例，

进入新世纪以来，随着人们环保意识的不断提升，我国人民对环境保护的重视程度越来越高，在市政工程建设中，都市生态环境保护也成为一项十分重要的工作。因此在一些发达城市的市政工程建设中，会有意识的采取一些都市生态保护措施，发挥出了不俗的作用。但与此同时，不重视都市生态保护的现象依旧十分严重，如决策过于随意、超预算投资、资金不合理浪费等。针对这些情况，我国必须进一步优化市政工程管理，为都市生态健康发展提供良好的保障。

公式（2）中是项目j 所测查属性的数量，λ_{j，1，（k）}是对应于属性k的主效应参数，λ_{j，2，（k，k′）}是对应于属性k及k^′的一阶交互效应项为最高阶交互效应项参数。对饱和模型中的项目参数进行约束，可以获得一些特殊的CDM。例如，约束所有的主效应及低阶交互效应项为0 可获得DINA 模型，以及约束所有交互效应项为0 可获得C-RUM。^[7]

假定在一份诊断性测验中共有N个受测者，J个项目，K个属性，且所有项目均为0-1计分，那么测验的观察反应矩阵可以表示为其中为第i个受测者的反应模式。再设为受测者的全部的可能属性掌握模式为第l种属性掌握模式，在不考虑属性层级的情况下，L=2^K。令表示从总体中随机选择的一个样本具有第l种属性掌握模式的概率，为模型的结构参数。Q矩阵定义了测验属性与项目之间的关联，举例而言为Q 矩阵中第j 行中的元素，它定义了j 中所测查的属性，如果q_jk=1 那么在j 中测查了属性k，如果q_jk=0 则代表没有。

其中为模型中所有的参数为模型中所有的项目参数并且，

其中，λ_j_，0 是截距项，h 是用于设定之间的关系的映射函数是模型的主效应以及交互效应参数。对于饱和的对数线性认知诊断模型而言，

对公式（3）求关于模型参数的一阶导数，并令其为0，可以获得模型参数估计值。

2.基于解析法的方差-协方差矩阵估计

评价指标为偏差（bias）、绝对偏差（absolute bias）、均方差根（root mean squared difference，RMSD）以及相对差异（relativedifference，RD）。具体计算公式如下：

Obs 矩阵是-1 倍的观察反应数据对数似然函数关于模型参数二阶导的矩阵，

XPD 及Obs 用矩阵的形式可以分别表示为：

20世纪80年代，在新公共管理思潮的影响下，教育改革席卷全球，高等教育如何借力市场发展开始变成一股世界性潮流，加强大学与企业的合作使高等教育更好地实现服务社会的功能。独立学院的举办成功开创了“中国高等教育发展的第三条道路”，经过20年的发展，快速壮大的办学规模、办学特色与定位不准带来了独立学院发展的新矛盾。如何能够在推动职业教育发展的同时成功地找到独立学院转型发展和人才培养模式的新路径，成为当前高等教育改革的新命题。

以及

根据XPD 及Obs 矩阵，SW 矩阵可以表示为：

住院医师规范化培训是指医学专业毕业生完成院校教育后，在经认定的培训医院接受以提高临床技能为主的培训，目的是按照统一规范的培训标准培训合格的住院医师，是医学生毕业后教育的重要组成部分。欧美发达国家及我国香港、台湾地区均已建立了政府主导的、较为成熟的住院医师规范化培训制度。根据卫生部要求，上海市从2010年起在全市范围内实施住院医师规范化培训，北京市也随后实施住院医师规范化培训。

采用计算机模拟研究方法进行，测验长度固定为J=30，属性数量固定为K=5 且限定每个项目最多测3个属性。表1 中呈现的是Q 矩阵，表2 中呈现的是项目参数真值。在Bootstrap 方法中，重复抽样次数为R=2000。

3.基于Bootstrap 法的方差-协方差矩阵估计

Bootstrap 法通过对已有观察反应数据进行多次有放回的随机取样的方法计算模型参数估计值的方差-协方差矩阵。其具体步骤如下：（1）从受测者作答反应矩阵x 中通过有放回的取样方法抽取样本矩阵x^*；（2）根据新抽取的作答反应矩阵x^*，使用极大似然法估计模型的参数估计值；（3）重复前两个步骤R 次，根据这R 次获得的模型参数估计值计算模型参数的方差-协方差矩阵。

二、模拟研究

1.研究目的

在以上5个公式中是每个重复中的项目参数估计值是所有重复中的项目参数估计值的平均。以上4个指标越接近0，代表方差-协方差矩阵估计方法在提供一致性标准误估计方面的表现越好。

表1 本研究中所用的Q 矩阵

2.研究方法

根据目前的行业要求，提供给咨询单位的图纸、文件，以纸质版为准。因此，咨询单位每天会接收到大量的纸质图文，需要专人进行登记管理。图文室有一套图文台账，各专业（如隧道、桥梁专业）会另建一套台账，驻外工作部还会再建一套台账。因此，存在大量的数据重复和不必要的精力浪费。

本研究中共有4个自变量：属性之间的四分相关、样本量、数据生成模型、Q 矩阵设定类型。属性间的四分相关有两个水平：ρ=0.5 以及0.8。样本量共有3个水平：N=1000、3000 及5000。数据生成模型：饱和的LCDM、DINA 以及C-RUM。Q 矩阵设定类型：正确设定，以及Q 矩阵中有8个元素错误设定，表3 中呈现的是Q 矩阵错误设定的概要。我们使用饱和的LCDM 模型拟合数据，分别使用R 软件^[8]中的CDM 以及dcminfo 包估计模型参数与XPD、Obs 及SW 矩阵。本研究为2×3×2×3 完全随机实验设计，每种实验条件组合各重复rep=100 次。

表2 项目参数真值概要

表3 Q 矩阵错误设定概要

表4 当模型正确设定为饱和LCDM 时各种估计方法的表现

3.评价指标

在CDM中，XPD 矩阵是观察反应数据对数似然函数关于模型参数一阶导的向量的交叉相乘，

其中，

本研究试图在CDM 及Q 矩阵完全正确设定条件、CDM 中项目参数存在冗余以及Q 矩阵错误设定条件下，比较基于解析法的XPD、Obs 及SW 矩阵法，以及Bootstrap 法在估计项目参数标准误时的表现。

你知道明星跟路人合照常常遭遇什么悲惨的处境吗？就是合照之后，当我们要离开的时候，常常会被叫住说：“不行，再拍一张。”

三、研究结果

表4呈现的是在数据拟合模型，也就是数据生成模型且Q 矩阵完全正确这一理想条件下，XPD、Obs、SW 以及Bootstrap 法在估计项目参数标准误时的表现。通过表4 中的结果我们可以发现，当样本量N≤3000 时，Obs的表现是最优的，其次是SW 以及XPD，Bootstrap 法在估计项目参数标准误时的表现不够好。在此条件下属性之间的四分相关对于这个方差-协方差矩阵估计方法的表现也有较大影响。随着相关系数的增大，AB、AAB、ARMSD、ARD的值也在增大。通过表4 我们还可以发现，随着样本量的增大，XPD、Obs、SW以及Bootstrap 在提供一致性标准误估计方面的表现也在变好，尤其是当样本量N=5000 时，XPD、Obs、SW 以及Bootstrap的表现都很好。表5呈现的是数据生成模型为C-RUM 且Q 矩阵正确设定时的结果。对比观察表4 及表5，我们可以发现，当模型中项目参数有少量冗余时，XPD、Obs、SW 以及Bootstrap的表现同模型完全正确设定时的结果非常相似。

在建设项目中，电力轴的主要功能是为每个楼层的电梯，电力消耗和照明等各个基础设施提供电源线，以确保其正常使用，满足人们的日常需求。电力轴的安装质量与每层楼的正常使用直接相关，并与建筑功能的充分发挥有关。因此，相关技术人员必须在实际工作中保证安装质量，避免建筑功能的不合理运行，避免造成巨大的经济损失。在下文中，结合工程实例，简要讨论了建筑物电动轴中电气设备的安装和构造的质量控制。

表5 数据生成模型为C-RUM 时各种估计方法的表现

表6 数据生成模型为DINA时各种估计方法的表现

表7 Q矩阵错误设定数据生成模型为饱和LCDM时各种估计方法的表现

表8 Q矩阵错误设定数据生成模型为C-RUM时各种估计方法的表现

表6呈现的是当数据生成模型为DINA 且Q 矩阵正确设定时的结果，在此条件下，模型中的项目参数有较多冗余。我们可以发现，当样本量为N=1000 时，SW的表现是最优的，尤其是当属性之间的四分相关为ρ=0.8 时；但在此条件下XPD 以及Bootstrap的表现较差。同样，随着样本量的增大，XPD、Obs、SW 以及Bootstrap的表现也在变好，尤其是当N=5000 时，这4种方法的表现都比较好。

表7及表8分别呈现的是数据生成模型为饱和LCDM 及C-RUM 在Q 矩阵错误设定条件下的结果。观察表7及表8我们可以发现，Obs 以及SW的表现要优于XPD 及Bootstrap。对比表7及表8中的结果我们可以发现，当Q 矩阵中部分元素错误设定及模型中存在冗余参数时，这4种方法的表现变差。对照表4与表7、表5与表8，我们可以发现，当样本量N≤3000 时，Q 矩阵中元素的错误设定使得这4种方差-协方差矩阵估计项目参数标准误时的一致性变差；当样本量N=5000 时，虽然Obs 以及SW的表现仍优于XPD 及Bootstrap，但差别已经变得很小。

表9呈现了数据生成模型为DINA 且Q 矩阵中元素存在错误设定时，XPD、Obs、SW 以及Bootstrap 在估计项目参数标准误时的表现。观察表9我们可以发现，在模型中项目参数存在严重冗余及Q 矩阵中元素也存在错误的条件下，当N=1000 时，只有SW 方法有着较为稳健的表现；随着样本量的增加，XPD、Obs、SW 以及Bootstrap的AB、AAB、ARMSD、ARD 值在变小。但需要明确指出的是，即使在N=5000的情况下，Bootstrap的表现与XPD、Obs、SW 相比仍然较差，尤其是当ρ=0.8 时。

四、结论与讨论

本研究中，我们首次尝试使用Bootstrap 方法估计CDM 模型参数估计值的方差-协方差矩阵，并与以往研究中开发的多种基于解析法的方差-协方差矩阵估计方法进行了比较。结果发现，在CDM 完全正确设定或参数存在少量冗余时，Bootstrap 方法只有在N=5000 条件下的表现才能与基于解析法的XPD、Obs、SW的表现接近；当模型中的项目参数存在较多冗余时，尽管在某些条件下Bootstrap的表现要优于XPD 以及Obs，但就稳健性而言，SW的表现是最优的。

CDM 中模型参数估计值的方差-协方差矩阵有许多重要的作用。Bootstrap 作为一种非参数化的方差-协方差矩阵估计方法在多种测量模型中有着重要应用。同解析法相比，Bootstrap 虽然计算负荷比较大，但其优点在于不需要复杂的公式推导，简单易行。通过本研究中的结果，我们认为，尽管Bootstrap 作为一种简单的非参数的方差-协方差矩阵估计方法广泛应用于多种统计与测量模型中，但在CDM 中，相较于基于解析法的方差-协方差矩阵估计方法，它的表现较差。因此，我们推荐使用基于解析法的方差-协方差矩阵估计方法，尤其是SW 法。在CDM 研究中，当没有现成的基于解析法的方差-协方差矩阵估计方法可用时，Bootstrap 方法只能作为一种粗略的估计方法使用，尤其是在样本量较小的情况下。

表9 Q矩阵错误设定数据生成模型为DINA时各种估计方法的表现

参考文献：

［1］Rupp，A.A.，et al. Diagnostic Measurement：Theory，Methods，and Applications［M］.New York：Guilford，2010：9-29.

［2］辛涛，乐美玲，张佳慧.教育测量理论新进展及发展趋势［J］.中国考试，2012（5）：5-13.

［3］De la Torre，J.and Lee，Y.-S.Evaluating the Wald Test for Item-Level Comparison of Saturated and Reduced Models in Cognitive Diagnosis［J］.Journal of Educational Measurement，2013（4）：355-373.

［4］Ma，W.，et al. Model Similarity，Model Selection，and Attribute Classification［J］.Applied Psychological Measurement，2016（3）：200-217.

［5］刘彦楼，辛涛，李令青，等.改进的认知诊断模型项目功能差异检验方法——基于观察信息矩阵的Wald 统计量［J］.心理学报，2016（5）：136-146.

［6］Liu，Y.，et al. Information Matrix Estimation Procedures for Cognitive Diagnostic Models［J］.British Journal of Mathematical and Statistical Psychology，2019（1）：18-37.

［7］De La Torre，J.The Generalized DINA Model Framework［J］.Psychometrika，2011（4）：179-199.

［8］R Core Team.R：a Language and Environment for Statistical Computing［Z］.Vienna，Austria：R Foundation for Statistical Computing，2018.

A Comparison of Item Parameter Variance-Covariance Matrix Estimation Procedures in Cognitive Diagnostic Models:Analytical and Bootstrap Methods

Li Lingqing，Xin Tao，Liu Yanlou，Zhao Haiyan

Abstract: The item parameter variance-covariance matrix plays an important role in cognitive diagnostic models. As a non-parametric variance-covariance matrix estimation method，one of the main advantages of the Bootstrap method is that it does not require analytical derivation.The performance of the empirical cross-product information matrix，observed information matrix and sandwich covariance matrix based on the analytical method，and the bootstrap method with respect to the item parameter standard error calculation were compared. The simulation results indicated that the analytical method is better than the Bootstrap method when the cognitive diagnosis model and Q matrix are correctly set or the error setting is small in the model；only under the condition of sample size N=5000，the performance of Bootstrap method is basically close to the analytical method.The Bootstrap method also showed no obvious robustness when there were more errors in the model.Therefore，in the cognitive diagnosis model，it is recommended to use the analytic-based variance-covariance matrix estimation method，especially the sandwich covariance matrix method；when there is no ready-made analytic-based variancecovariance matrix estimation method available，the Bootstrap method can be used as a rough estimation method，especially if the sample size is small.

Keywords: cognitive diagnostic model，variance-covariance matrix，Bootstrap method，analytical method，information matrix

【本文检索信息】李令青，辛涛，刘彦楼，等.认知诊断模型中项目参数的方差-协方差矩阵估计方法比较：Bootstrap 与解析法[J].教育测量与评价，2019（4）：10-17.

【中图分类号】 G40-058.1

【文献标识码】 A

【DOI编码】 10.16518/j.cnki.emae.2019.04.002

本文为山东省社会科学规划项目（编号：18CJY16）研究成果。

李令青/ 曲阜师范大学教育科学学院教师，主要研究方向为教育与心理测评。（曲阜 273165）

辛涛/ 北京师范大学中国基础教育质量监测协同创新中心常务副主任，教授，博士生导师，主要研究方向为教育质量评估、心理测量与评价。

刘彦楼/ 曲阜师范大学中国教育大数据研究院教师，硕士生导师，博士，主要研究方向为心理测量与评价。

赵海燕/ 供职于北京教育考试院，副研究员，博士，主要研究方向为教育测量与评价。

责任编辑/王彩霞

标签：认知诊断模型论文; 方差-协方差矩阵论文; Bootstrap法论文; 解析法论文; 信息矩阵论文; 曲阜师范大学教育科学学院论文; 北京师范大学中国基础教育质量监测协同创新中心论文; 曲阜师范大学中国教育大数据研究院论文; 北京教育考试院论文;