一种基于多阶认知诊断模型测评科学素养的方法^*

詹沛达于照辉李菲茗王立君

(浙江师范大学教师教育学院, 金华 321004)

摘要科学素养是指作为一名有反思意识的公民所具有的解决科学问题和运用科学理念的能力。为实现在认知诊断中对科学素养的测评, 本文基于PISA 2015科学素养测评框架首次提出科学素养包含的三阶潜在结构, 使用新提出的多阶认知诊断模型对PISA 2015科学测评数据进行分析, 并通过模拟研究探究新模型的心理测量学性能。结果表明：(1)新模型能够较好地分析包含三阶潜在结构的科学素养; (2)科学知识对科学素养的影响最大, 科学背景次之, 科学能力的影响最小; (3)全贝叶斯MCMC算法能够为新模型提供较精准的参数估计。

关键词科学素养; 认知诊断; PISA; DINA模型

1 引言

“科学技术推动了生产力的发展、经济的繁荣和社会的进步, 促进了人们的生产方式、生活方式和思维方式的变革。科学技术的快速发展对每一位公民的科学素养提出了新的要求” (中华人民共和国教育部, 2017)。实际上, 关于如何提高个体或公民的科学素养是一个交叉学科问题, 它一直以来都是科学教育、教育心理学和学习科学等学科领域的学者们共同关注的重难点。科学素养是一个不断发展的概念, 它的内涵和界定方式会随时代发展而发生改变(see Miller, 1983; OECD, 2006)。2017年, 《义务教育小学科学课程标准》将“科学素养”定义为“了解必要的科学技术知识及其对社会与个人的影响, 知道基本的科学方法, 认知科学本质, 树立科学思想, 崇尚科学精神, 并具备一定的运用它们处理实际问题、参与公共事务的能力”, 从本质上讲, 该定义就是说“科学素养是指作为一名有反思意识的公民所具有的解决科学问题和运用科学理念的能力” (OECD, 2016)。

为实现对科学素养的客观测评, 国际学生评估项目(Programme for International Student Assessment, PISA)在2015年把科学素养的内涵划分为科学能力(Competencies)、科学知识(Knowledge)、科学背景(Contexts)和科学态度(Attitudes)四个相互关联的维度, 并给出了相应的测评或评估框架, 见图1。这就要求学生在一定的科学背景中, 根据自己的科学态度, 运用科学知识来解决科学问题, 从而展现出自己的科学能力(刘克文, 李川, 2015)。PISA 2015测评框架是在PISA 2006科学测评框架(OECD, 2006)的基础上修订而来的, 其发展主要体现在对科学知识维度的更详细划分。科学测评框架的逐步完善, 是在实践基础上不断重新认识科学素养的结果。可以说, PISA 2015科学素养测评框架是目前最新最具可操作性的科学素养测评框架。

除具有可操作性的测评框架外, 一个适宜测评方法也同样重要。适宜的测评方法应能够匹配测评框架, 并能够实现对科学素养客观且准确的评价。然而, 目前国内外已有研究绝大多数只是对公民或中小学学生科学素养的问卷调查(e.g., Roos, 2014; 高宏斌, 2011; 秦浩正, 钱源伟, 2008), 这仅是对科学素养整体现状的大致了解。而且这些调查多采用自我报告法, 主观性较强, 存在一定的社会赞许性。仅有少许研究关注到了对科学素养的测评(e.g., 胡咏梅, 杨素红, 卢珂, 2012)。除研究方法有待改进外, 目前绝大多数研究所使用的测评/数据分析方法和理论也较为落后, 仍以经典测量理论为主(e.g., Roos, 2014; 任磊, 张超, 何薇, 2013), 仅有个别研究使用到了题目作答理论(item response theory, IRT)模型(e.g., 胡咏梅等, 2012)。另外, 需要强调的是尽管PISA为科学素养建构了多维结构, 但数据分析时仍使用了单维IRT模型(OECD, 2017)。即PISA现有的测评方法并不匹配测评框架, 其主要原因之一是因为PISA更关注的是国家/经济体的整体现状而非个体参与者, 所以对个体使用一个笼统的单维潜在特质可以简化整体研究的复杂性。而当把个体视为测评主体时, 就需要更复杂的测评方法(e.g., Zhan, Jiao, & Liao, 2018)。综上所述, 为在PISA 2015科学素养测评框架下实现对科学素养客观且准确的测评, 需要尝试从新的视角切入, 使用或开发更适宜的测评方法。

width=340.7,height=132.15

图1 PISA 2015科学素养测评框架(来源：OECD (2016)第23页图2.2).

近些年, 随着认知心理学的发展, 研究者们逐渐发现被试在完成某项任务时常需要多种能力的相互配合, 因此, 早期心理测量模型中的单维性假设并不符合实际(Reckase, 2009; Wang & Chen, 2004; 康春花, 辛涛, 2010; 詹沛达, 王文中, 王立君, 2013)。另外, 除了简单的总分外, 人们也希望能从被试的实际作答情况中获得更丰富的信息, 以便对被试做出更客观的评价和补救。基于此, 认知诊断测评(cognitive diagnostic assessment, CDA)在近一二十年内受到了国内外学者的更多关注(Rupp, Templin, & Henson, 2010; 涂冬波, 蔡艳, 丁树良, 2012)。CDA是指在心理与教育测量学中对个体认知过程、加工技能或知识结构(统称为属性)的诊断性测评。作为一种将形成性评价和终结性评价相结合的综合评价形式(詹沛达, 陈平, 边玉芳, 2016), CDA的初衷是通过测评个体对属性的掌握状态为教师或干预者提供诊断反馈报告, 进而帮助他们实施补救教学或有针对性的干预(Zhan et al., 2018)。CDA改变了以往评价方法重结果、轻过程的弊端, 符合当前我国一些教育政策导向。比如：《基础教育课程改革纲要(试行)》中“改变课程评价过分强调甄别与选拔的功能, 发挥评价促进学生发展、教师提高和改进教学实践的功能”的具体目标。因此, 如何在CDA中实现对科学素养的测评是一个兼具理论意义和实践意义的议题。

以“两微一端”为代表的新媒体成为当下媒体发展的主流，越来越多的媒体借助微信、微博和客户端不断拓展发展平台。传统媒体的发展囿于电视传播，但是，移动设备的普及逐渐取代电视的功能，发挥更加灵活的作用。传统媒体只有与新媒体融合，借助手机客户端等推出简洁的信息传播方式，将图片、文字和视频等集中在较短的篇幅内传播，适应当下观众对效率和快节奏生活的要求，为传统媒体发展赢得更多的用户，创新信息传播的方式，扩展发展平台。

下文中, 我们首先将对PISA 2015科学素养测评框架做进一步解读, 明确该框架所包含的三阶潜在结构; 其次, 对现有的高阶认知诊断模型(higher- order cognitive diagnosis model; HO-CDM)进行介绍并阐明其局限性; 然后, 提出一种新的多阶认知诊断模型(multi-order CDM; MO-CDM), 以期在CDA中满足对三阶或更高阶潜在特质的分析需求, 并匹配PISA 2015科学素养测评框架, 实现对科学素养的准确测评。再然后, 我们以PISA 2015科学测评数据分析为例来说明新模型的现实可应用性, 并对数据分析结果进行解读。最后, 通过一个模拟研究来探究新模型的参数估计返真性。

2 科学素养包含的三阶潜在结构

PISA 2015认为科学素养的核心是科学能力, 而科学能力的展现需要在特定的科学背景下辅以足够的科学知识, 并受到科学态度的影响。这4个维度相辅相成, 共同组成了科学素养, 即科学素养是科学能力、科学知识、科学背景和科学态度的高阶/高位概念, 个体科学素养的高低决定了他在这4个维度方面的表现情况。进一步, 根据《PISA 2015测评与分析框架》(OECD, 2016)：

(4) 科学态度又被细分为3种子态度, 分别是对科学的兴趣、评估科学探究方法的价值和环境意识。即科学态度是这3种子态度的高阶概念, 个体的科学态度影响其3种子态度。

(2) 科学知识又被细分为3种子知识, 分别是内容性知识、程序性知识和认知性知识。即科学知识是这3种子知识的高阶概念, 个体对科学知识的掌握程度决定了其对3种子知识的掌握程度;

(3) 科学背景又被细分为3种子背景, 分别是个人的、当地/国家的和全球的。即科学背景是这3个子背景的高阶概念, 个体对科学背景的熟悉程度影响着其对3种子背景的熟悉程度;

(1) 科学能力又被细分为3种子能力, 分别是科学地解释现象、评估和设计科学探究和科学地解释数据和证据。即科学能力是3这子能力的高阶概念, 个体科学能力的高低决定了其3项子能力的高低;

综上所述, 基于PISA 2015科学素养测评框架, 科学素养包含三阶潜在结构, 如图2所示。其中, 第三阶潜在特质为科学素养, 是PISA 2015科学素养测评框架中的最高阶概念; 第二阶潜在特质包括：科学能力、科学知识、科学背景和科学态度, 是该测评框架中的4个主要概念; 而第一阶潜在特质为科学地解释现象、评估和设计科学探究等12项, 是该测评框架中的低阶概念。

为在CDA中实现对科学素养的测评, 需要一种能够分析科学素养三阶潜在结构的CDM。鉴于目前尚未有CDM能够处理三阶潜在结构, 这就需要我们建构新的模型, 以期满足测评需求。

3 多阶认知诊断模型

3.1 高阶认知诊断模型及其局限性

在心理学和教育学中, 潜在特质除了可能存在多维性外, 还可能进一步存在层阶关系, 这被称为高阶(层阶)潜在特质, 比如, 图2所示的科学素养所包含的三阶潜在结构; 再比如, 韦氏成人智力量表中也测量了三阶潜在特质：第一阶中包含了13个子测验并分别测量了一种潜在特质, 在第二阶中这13种潜质就被归为4种外延更广的潜在特质(言语能力、知觉推理、工作记忆和信息加工速度), 而在第三阶中这4种潜在特质又包含在一般智力之中(Ryan & Schnakenberg-Ott, 2003)。

家长群的本质是一种教学和家校沟通工具的延伸，但因为群是半开放的空间，而且具有天然的社交属性，所以常常会变味儿，很多家长群事实上已成为信息过载的“负担群”。怎样在这样一个虚拟的“小社会”里构建合理的秩序呢？这又是另外一个复杂的话题。而我希望，不管是家长还是老师都能在群里多一些理解和包容——至少不要一言不合就把人家给踢了出去。

在CDA中, 鉴于被试对属性的掌握可能受到一个(或多个)更高阶的潜在特质的影响且为减少参数估计的数量, de la Torre和Douglas(2004)提出了高阶潜在结构模型

(4)改进实践环节，锻炼学生的综合能力.由于教师授课、学生练习均在真实的网络学习平台中进行，学生时时感受课程的所有知识点，具有强化作用，达到掌握课程规定的或课外延伸的知识点的目的.

width=137,height=15 . (1)

式中, width=94.6,height=31.2 ;P(α_nk = 1 | θ_n)为给定第二阶潜在特质θ_n后被试n掌握属性k的概率; λ_0k为属性k的难度参数, λ_1k为属性k的区分度参数。式(1)所描述的潜在结构见图3。式(1)是潜在结构模型, 将它们与测量模型相结合即可得到HO-CDM。比如, 将它们与DINA模型(Junker & Sijtsma, 2001; Macready & Dayton, 1977)相结合即可得到高阶DINA (HO-DINA)模型。限于高阶潜在结构模型的理论局限, HO-DINA模型只能处理包含二阶潜在结构的数据, 无法实现对科学素养所包含的三阶潜在结构的测评, 不满足本研究的需求。

width=448.1,height=170.3

图2 PISA 2015科学素养所包含的三阶潜在结构

width=114,height=104.05

图3 CDA中二阶潜在特质与属性间的关系示例图

注：θ为第二阶潜在特质; α为(第一阶)属性; K为总属性数量;I为总题目数量

3.2 多阶认知诊断模型的建构

3.2.1 多阶潜在结构模型(MO-LSM)

针对目前缺乏可处理三阶或更高阶潜在结构的CDM这一问题, 本研究借鉴高阶IRT模型的建模思路, 把线性潜在结构模型引入到当前的二阶潜在结构模型(式(1))之上, 提出多阶潜在结构模型(multi-order latent structural model; MO-LSM)。首先, 假设潜在特质存在多阶结构, width=18,height=17 表示被试n在第h(h≥2)阶中的第m个潜在特质, 则与更高阶的潜在特质 width=24.95,height=17 之间的线性潜在结构关系可被描述为：

因此，测试化妆品防晒指数（SPF值）时首先需要确定受试者的最小红斑量（MED），目前，国内外主要通过以下几种方法确定MED。

width=175.95,height=33 , (2)

式中, width=21,height=17 为第h阶回归向量; width=17,height=17 为第h阶中的第m个潜在特质的残差; width=24.95,height=19 为被试n在第h+ 1阶中的第p个潜在特质。需要说明的是, 除了线性关系外, 式(2)也可以修改为非线性关系(e.g., 多项式), 但鉴于心理学研究中通常假设潜变量之间为线性关系(e.g., 结构方程模型), 且为降低模型复杂性, 本研究暂只关注线性关系(de la Torre & Song, 2009; Huang et al., 2013; Rijmen et al., 2014)。将式(2)引入式(1)中即可得到MO-LSM：

高阶潜在特质的概念是建构在多维潜在特质概念之上的, 用于描述多个潜在特质之间可能存在的结构关系。基于此, 研究者们开发了两类不同的高阶心理测量模型(陈飞鹏, 詹沛达, 王立君, 陈春晓, 蔡毛, 2015)：基于多维IRT模型建构的高阶IRT模型(de la Torre & Song, 2009; Huang, Wang, Chen, & Su, 2013; Rijmen, Jeon, von Davier, & Rabe- Hesketh, 2014)和基于CDM建构的高阶认知诊断模型(HO-CDM) (de la Torre & Douglas, 2004; Templin, Henson, Templin, & Roussos, 2008; Zhan, Wang, & Li, in press), 本文聚焦于后者。

width=165.6,height=36.55 (3)

基于条件独立性假设, MO-LSM假设当给定更高一阶的潜在特质时, 各低阶潜在特质之间相互独立。需要说明的是, 尽管式(3)在理论上能够处理多阶的潜在特质, 但考虑到现实测验情境中出现四阶潜在特质的可能性已经较小, 且为匹配PISA 2015科学素养所包含的三阶潜在结构, 本研究聚焦于仅包含1个第三阶潜在特质的三阶潜在结构模型, 如图4, 该模型可被描述为：

width=178,height=63 (4)

甘薯淀粉/魔芋胶复配凝胶的表观粘度随剪切速率的变化情况如图4所示，通过Herschel-Bulkley方程拟合得到的参数见表4。由表4可知，决定系数R2均大于等于0.94，表明该模型对稳态流变数据具有较高的拟合精度。流体指数n＜1，屈服应力τ0＞0，由曲线的走势以及方程拟合参数可以判定淀粉/魔芋胶复配凝胶属于屈服-假塑性流体，具有剪切稀化的性质。由图可以看出所有样品均形成滞后环，这是由于体系结构的破坏与重建速度不同导致的，滞后圈表示了该体系内部结构的松弛特征[15]。

width=213.1,height=145.1

图4 CDA中第三阶潜在特质与属性间的关系示例图.

注：θ⁽³⁾为第三阶潜在特质; θ⁽²⁾为第二阶潜在特质; α为(第一阶)属性; K为总属性数量;I为总题目数量。

3.2.2 MO-DINA模型

通常, CDM由两部分组成：测量模型和潜在结构模型(Rupp et al., 2010), 前者定义了被试作答题目的正确概率, 后者描述了属性之间的结构关系。在3.2.1中, 我们已经定义了MO-LSM, 为提高参数估计的精度和效率, 我们选用引入题目内特征依赖性的贝叶斯DINA模型(Zhan, Jiao, Liao, & Bian, 2018)作为测量模型, 模型详述见附录。

本研究采用全贝叶斯马尔可夫链蒙特卡洛(MCMC)算法来实现对MO-DINA模型的参数估计, 并基于JAGS软件(Version 4.3.0)实现。各待估计参数的先验分布详见附录, 相应的JAGS代码也可向作者索取。关于如何使用JAGS实现对贝叶斯CDM的参数估计, 可参阅Zhan、Jiao、Man和Wang (in press)。

4 PISA 2015科学测评数据分析

4.1 研究问题与目的

通过对PISA 2015科学测评数据的分析, 呈现出MO-DINA模型的现实需求和可应用性。基于上文中对科学素养所包含的三阶潜在结构划分, 在针对科学素养的测评中, 我们想测评被试在所有第一阶、第二阶和第三阶潜在特质(属性)上的表现情况。因此, 本研究欲回答两个问题：(1) MO-DINA模型是否适用于测评含三阶潜在结构的科学素养？如果可以, 那么(2)科学素养的子维度中哪个对它的影响最大？即在PISA 2015中, 科学素养的核心维度是哪个？

4.2 数据描述

4.2.1 多阶潜在特质设定

根据本文第2节的内容, PISA 2015科学素养包含了三阶潜在结构, 各阶潜在特质的名称及它们之间的结构关系见图2。在数据分析时, 我们依据MO-DINA模型将模型参数与多阶潜在特质进行匹配,第三阶潜在特质：θ⁽³⁾→科学素养; 第二阶潜在特质：θ₁⁽²⁾→科学能力, θ₂⁽²⁾→科学知识, θ₃⁽²⁾→科学背景; 第一阶潜在属性：A1→科学地解释现象, A2→评估和设计科学探究, A3→科学地解释数据和证据, A4→内容性知识, A5→过程性知识, A6→认知性知识, A7→个人背景, A8→地区/国家背景, A9→全球背景。需要说明的是, 在第二阶潜在特质中, 因为科学态度是通过学生问卷来获取的, 并不包含在认知题目数据中, 所以本研究暂不涉及。

4.2.2 被试与题目

根据《PISA 2015技术报告》(OECD, 2017)的“附录A：题池的分类(Item Pool Classification)”, 数据清理过程如下：(1)选用“2015 field trial and main survey cluster”中S01所包含的18道题目, 共47548人; (2)选用中国(QCH)样本, 共1079人; (3)将数据中“not reached”和“no response”等设定为缺失值NA; (4)删除在18题中全部缺失作答的3名被试, 剩余1076人; (5)将剩余所有缺失值视为完全随机缺失。全贝叶斯MCMC算法可以根据其他参数的估计值计算出缺失值的后验分布, 这是一种“自动填补”的过程, 无需做其他设定。另外, DS519Q01原为三级评分题目(i.e., Y_ni∈{0, 1, 2}), 限于MO-DINA模型暂只能处理二级评分题目, 我们将该题目分数二级化：0→0, 1→0, 2→1。最终, 清理后的数据包含N = 1076人在I = 18题上的二级评分数据。属性与题目之间的对应关系(i.e., Q矩阵)见表1。

表1 PISA 2015科学测验部分题目的Q矩阵

注：空白为“0”; 选用“2015 field trial and main survey cluster” = S01的题目。

4.3 分析

本研究选用MO-DINA、HO-DINA和DINA模型分别对该数据进行分析并比较。在潜在结构模型方面：对MO-DINA而言, 其多阶潜在结构依据图2中结构设定(不考虑科学态度); 对于HO-DINA模型而言, 假设第一阶属性直接受科学素养的影响, 忽略第二阶潜在特质, 即约束 width=31.95,height=17 ; 对于DINA模型而言, 忽略所有多阶潜在结构, 直接使用无结构潜在结构模型。

为实现对科学素养的客观且准确的测评, 本文首先根据PISA 2015科学素养测评框架, 提出了科学素养所包含的三阶潜在结构。然后, 鉴于当前尚未有CDM能够处理包含三阶潜在结构的数据, 我们提出了多阶认知诊断建模思路, 并以DINA模型为例, 建构了多阶DINA (MO-DINA)模型。新模型采用全贝叶斯MCMC算法实现参数估计。新模型与PISA 2015科学素养测评框架相匹配, 满足对科学素养的客观且准确测评的需求。之后, 本文以PISA 2015科学测验数据分析为例来说明新模型的现实需求和可应用性。最后, 通过一个模拟研究来探究新模型的参数估计返真性。实证研究结果表明当测验数据结构存在多阶潜在结构或者数据分析者需要了解被试在多阶潜在特质方面的表现时, 可考虑使用MO-DINA模型。模拟研究结果表明本文提出的全贝叶斯MCMC算法能够为MO-DINA模型提供较好的参数估计返真性。

该工程采用信息法施工，为确保基坑开挖过程中的安全，必须对基坑进行监测，发现问题应及时反馈并分析，采取相应的抢救措施，使基坑不发生意外破坏和变形。该工程各剖面的安全等级均为二级，按规程的规定，基坑变形允许值为0.4%，基坑边坡变形预警值均定为25 mm，控制值定为35 mm。

4.4 结果

表2呈现了3个模型的各项模型−数据拟合指标值。首先, 根据ppp值, 3个模型均拟合该数据。其次, 4个相对拟合指标都判断DINA模型的相对拟合最差, 说明针对该数据应考虑高阶潜在结构。然后, 在4个相对拟合指标中, –2LL和AIC均判断MO-DINA模型的相对拟合更好, 而BIC和DIC则判断HO-DINA模型的相对拟合更好, 这是由BIC和DIC对模型复杂性的惩罚相对更高导致的。另外, 由于HO-DINA模型是MO-DINA模型的特例(i.e., 约束γ_m⁽²⁾ = 1), 似然函数比检验(Δ–2LL = 13, df = 3, p < 0.05)认为两模型差异显著, 应选择MO-DINA模型。最后, 再结合本研究的研究目的和问题, 我们综合认为MO-DINA模型更适宜于本研究。下文将基于MO-DINA模型的分析结果进行解读。

表2 PISA 2015科学测验部分题目数据的模型−数据拟合指标值.

表3 PISA 2015科学测验部分题目的参数估计值.

注：95% CI = 95%贝叶斯可信区间; g_i = 猜测参数, s_i = 失误参数; IDI_i= 题目区分度.

表4 PISA 2015科学测验部分题目的题目均值向量和方差协方差矩阵估计值.

表3呈现了题目参数的估计值。整体看这18道题的质量一般, 有个别题目的猜测参数或失误参数达到了0.8左右。这点根据题目区分度(IDI_i= 1 – s_i–g_i) (de la Torre, 2008)也能够发现, 部分题目的区分度已经低于0.2。这其中可能原因是(1)测验Q矩阵不完备(Köhn & Chiu, 2017); (2)题目涉及了Q矩阵以外的其他属性。另外, 表4呈现了logit转换后的题目参数的均值向量和方差协方差矩阵, 可以看到两类题目参数之间呈高程度负相关, 这符合Zhan等人(2018)的观点。

就高阶潜在特质的估计值而言, 首先, 1个第三阶潜在特质和3个第二阶潜在特质的估计值整体分布形态基本一致, 这是因为它们之间的相关性较高(3个回归系数分别为：0.847 (SE = 0.094)、0.973 (SE = 0.025)和0.927 (SE = 0.057), 因此, 它们之间相关系数约为0.8)。需要说明的是, 特质之间在统计上有高相关并不一定代表它们是同一个特质。比如, 尽管身高和体重之间呈高相关, 但两者绝非同一种特质。因此, 当特质之间存在高相关时, 能否用一个笼统的高阶特质来囊括它们是需要做进一步理论判定的。基于PISA 2015科学素养测评框架, 我们认为这3个第二阶潜在特质在定义和内涵上都是不一样的, 不应将它们视为同一特质。另外, 我们还使用HO-DINA模型和单维两参数Logistic模型(Birnbaum, 1968)分析了该批数据, 发现MO-DINA模型中的第三阶潜在特质估计值与HO-DINA模型的高阶潜在特质估计值的相关系数为0.996, 且与单维两参数Logistic模型的潜在特质估计值的相关系数为0.936, 表明三者对“科学素养”的估计值具有高相关性, 同时也表明MO-DINA模型可提供更多的分析结果信息。

图5呈现了高阶潜在结构参数的估计值, 包括第三阶与第二阶潜在特质之间的回归系数和第二阶潜在特质与属性之间的属性区分度参数。首先, 3个回归系数均接近于1, 说明PISA 2015科学素养测评框架中把科学能力、科学知识和科学背景作为科学素养的主要组成部分的做法是合理的。其次, 根据这3个回归系数的大小可知：对科学素养而言, 科学知识的影响最大, 科学背景的影响次之, 科学能力的影响最小。然后, 根据属性区分度的大小可发现, (1)科学地解释现象对科学能力的影响最大; (2)过程性知识对科学知识的影响最大; (3)地区/国家背景对科学背景的影响最大。

表5呈现了个别被试的诊断结果示例。使用MO-DINA模型进行分析时, 除了能够得到9个属性的诊断分类结果外, 还能够得到被试在多阶潜在特质上的估计值。以2号和23号被试为例, 尽管两者在属性模式上完全一样, 但他们在多阶潜在特质上的表现还是有所差异的, 说明它们对属性的掌握概率存在差异。

总体而言, 根据对PISA 2015科学测验数据的分析结果, 可以说MO-DINA模型满足本文的分析需求, 在匹配PISA 2015科学素养测评框架的基础上, 实现了对科学素养的客观测评。

书斋石，指天然形成的、具有个性化特征与偏好的、赏心悦目的、适于摆放书桌上的观赏石。如小型造形石或画面石等。

5 模拟研究：参数估计返真性探究

5.1 研究设计与分析

在探讨完MO-DINA模型的现实可应用性后, 我们通过一个简单的模拟研究来探讨它的参数估计返真性。模拟研究中的部分设定参考上文的实证数据分析结果, 使用图7中的三阶潜在结构, 即第三阶潜在特质1个, 第二阶潜在特质3个, 属性K = 9个; 题目数量设定为I = 30, Q矩阵设定见图6; 题目参数按如下方法生成：(logit(g_i), logit(s_i))’ = (β_i, δ_i)’ ~ N(μ, Σ), 其中μ_β = μ_δ = –2.197, Σ = [1, –0.6; –0.6, 1]; 属性截距向量λ₀ = (–1, 0, 1, –1, 0, 1, –1, 0,1), 所有属性区分度均设定为λ_1mk = 1.5, 即假设属性之间为中等程度相关; 被试量设定为N = 1, 000, 第三阶潜在特质从标准正态分布中生成, 第三阶与第二阶潜在特质之间的3个载荷均设定为γ_m⁽²⁾ = 0.8, 即假设各二阶潜在特质之间相关系数为0.64。模拟研究中, 迭代次数、预热次数等与实证研究中的保持一致, 本研究中所有参数的PSRF均小于1.2, 表示参数估计已收敛。另外, 使用偏差(Bias)、均方根误差(RMSE)和皮尔逊相关系数(Cor)来探究连续变量(e.g., 题目参数, 潜在特质)的返真性。使用属性正确判准率(ACCR)和属性模式正确判准率(PCCR)来探究属性的返真性。

本研究使用AIC、BIC和DIC作为模型−数据相对拟合指标, 指标值越小的模型表明该模型与数据的拟合相对更好。另外, 本研究使用后验预测模型检验(posterior predictive model checking, PPMC)来评估模拟−数据绝对拟合指标, 其中后验预测概率(ppp), 接近0.5则表明模型与数据拟合, 小于0.05或大于0.95则表示该模型不拟合该数据。

width=387.95,height=285.95

图5 PISA 2015科学测验中潜在结构参数估计值(基于MO-DINA模型).

注：括号内为95%贝叶斯可信区间.

表5 PISA 2015科学测验部分题目数据的诊断结果示例(基于MO-DINA模型).

注：括号内为95%贝叶斯可信区间.

width=467.9,height=82.8

图6 模拟研究中的K×I的Q’ 矩阵. 灰色表示“1”, 白色表示“0”.

width=364.7,height=151.45

图7 模拟研究中题目参数的返真性.

注: bias = 偏差; RMSE = 均方根误差.

5.2 结果

图7呈现了题目参数返真性。就Bias而言, 绝大多数题目的参数Bias小于0.01, 猜测参数和失误参数的Bias的平均绝对值分是0.002和0.004。就RMSE而言, 所有题目参数的RMSE均小于0.05, 猜测参数和失误参数的RMSE的均值分别是0.018和0.026。还可发现, 猜测参数的RMSE随着题目测查的属性数量的增加而下降, 而失误参数的RMSE随着题目测查的属性数量的增加而增加, 这与以往一些研究的结论是一致的(e.g., de la Torre, 2009; Zhan, Jiao, Liao, et al., 2018)。此外, 猜测参数和失误参数的Cor分别是0.981和0.964, 即题目参数的估计值与真值之间呈高相关。整体而言, MO-DINA模型的题目越参数返真性较好。

两个人同时吆喝着出手，徐艺出的是布，左达出的是剪子。徐艺紧张地看着左达，左达笑着看着徐艺，说：“你太紧张了，可惜，我用五十万只赢了一个钱包。”

为使模型可识别, 设定 width=56,height=17 且 width=42.95,height=17 width=39,height=19 , 进而有 width=57,height=17 , 此时, 任意两个第二阶潜在特质之间的相关系数等于 width=18,height=17 × width=18,height=18 。当 width=31.95,height=17 时, 有 width=34,height=17 , 则式(4)退化为式(1)。

图8呈现了属性参数的ACCR。9个属性的ACCR均高于0.900, 表明单个属性的参数估计返真性很好。另外, PCCR为0.512, 考虑到属性数量为9, 即有512种可能的属性模式需要被估计, 根据已有研究经验, 该判准率符合预期。

width=224.9,height=125.05

图8 模拟研究中属性参数的属性正确判准率(ACCR).

表6呈现了高阶潜在特质参数的返真性。首先, 4个高阶潜在特质的返真性类似, 1, 000名被试的bias的平均绝对值约为0.1, RMSE的均值约为0.69, Cor均高于0.7。参考以往关于HO-DINA模型的研究结果(e.g., de la Torre & Douglas, 2004; de la Torre, 2009; Zhan et al., 2018), 整体而言, 高阶潜在特质参数的返真性良好, 满足实际应用需求。

表6 模拟研究中高阶潜在特质参数的返真性.

注：bias = 偏差; RMSE = 均方根误差; Cor = 皮尔逊相关系数.

表7 模拟研究中潜在结构参数的返真性

注：bias = 偏差; RMSE = 均方根误差; Cor = 皮尔逊相关系数; λ_0k = 属性难度参数, λ_1km = 属性区分度参数, γ₁, γ₂, γ₃ = 第三阶与第二阶潜在特质之间的回归系数.

表7呈现了高阶潜在结构参数的返真性。首先, 对于属性难度参数的返真性优于属性区分度参数的返真性, 与以往关于HO-DINA模型的研究结论一致。其次, 第三阶潜在特质与3个第二阶潜在特质之间回归系数的返真性也较好, RMSE均小于0.08。整体而言, 潜在结构参数的返真性较好。

6 总结与讨论

三模型均使用两条马尔可夫链(随机起点), 每条链包含10, 000次迭代, 其中预热5, 000次迭代, 稀疏值1。最终剩余10, 000次迭代用于参数估计。使用潜在量尺缩减因子(PSRF) (Brooks & Gelman, 1998)进行参数估计收敛检验, 本研究中所有参数的PSRF均小于1.2, 表示参数估计已收敛。

本文中, 尽管MO-DINA模型是针对PISA 2015科学素养所包含的三阶潜在结构而提出的, 且因为MO-DINA模型是HO-DINA模型的拓广, 所以理论上该模型也可以适用于其他包含二阶及以上阶潜在结构的测验, 比如国际数学和科学趋势研究(TIMSS)和(中国)国家义务教育阶段教育质量监测等大规模测验均包含了多阶潜在结构。当然, 本研究并不是为了说明任何包含多阶潜在结构的测验或者任何针对科学素养的测验都需要使用MO-DINA模型来进行分析, 而只是从“为学习而评价(assessment for learning)”的新测评理念出发, 向读者提供一种新的测评视角和方法, 以期进一步丰富数据分析模型的可选项。在实践中, 我们除了可根据测验编制的理论和实际测验需求等来选择分析模型外, 还可以尝试使用数据驱动方法, 依据模型−数据拟合指标(e.g., AIC、BIC和DIC等)来选择合适的模型, 进而得到客观的、准确的以及满足需要的数据分析结果。

需要强调的是, 一般存在3个及以上的低阶潜在特质时才会考虑使用高阶模型。具体而言, 对于二阶LSM (见式(1)), 当K = 3时, 使用无结构潜在结构模型需要估计2³– 1 = 7个结构参数, 而使用二阶LSM仅需要估计6个参数(包含3个属性区分度和3个属性难度); 而对于第三阶与第二阶潜在特质而言, 当第二阶潜在特质属性数量为3时, 直接估计3者之间的相关系数和估计第三阶与第二阶潜在特质之间的载荷均需要3参数, 而当第二阶潜在特质数量大于3时, 则使用高阶结构可以减少待估计参数数量。比如, 就图5的三阶潜在结构而言, 直接使用DINA模型需要估计2⁹– 1 = 511个结构参数, 使用MO-DINA模型仅需要估计21个结构参数(包含9个属性区分度、9个属性难度和3个载荷), 可以大幅降低待估计参数数量。但若使用包含三个维度的二阶DINA模型, 则同样需要估计21个结构参数(包含9个属性区分度、9个属性难度和3个相关系数), 但此时就无法实现对“科学素养”维度的测量。因此, 是否选用高阶模型, 可以从理论(测验框架)和模型简约两个角度进行考虑, 但究竟高阶模型是否合理, 最终还要回归到理论, 因为并不是所有潜在特质都适合建构高阶结构。比如, 大五人格的五个维度就不应用高阶潜在特质“性格”去解释, 因为从理论上讲人格的五个维度应该是独立的(尽管数据分析结果会存在低相关)。

尽管本研究将科学素养划分为了三阶潜在结构, 但第一阶的属性粒度仍然较大, 而通常CDA可能更适用于测评一些粒度较小的属性(see Leighton & Gierl, 2007; 詹沛达等, 2016)。实际上, 基于PISA 2015科学测评框架, 本研究中的第一阶属性还能够进一步划分为粒度更小的概念, 比如, A1“科学地解释现象”还能够进一步划分为“回忆并应用适当的科学知识(Recall and apply appropriate scientifc knowledge)”和“提供解释性假设(Offer explanatory hypotheses)”等小粒度概念, 详见OECD (2016)的表2.4a。尽管理论上我们可以使用包含四阶潜在结构的MHO-DINA模型做进一步分析, 但受限于《PISA 2015技术报告》中并未呈现题目与小粒度概念之间的具体对应关系(即没有相应的Q矩阵), 所以本文暂只关注到对科学素养所包含的三阶潜在结构的测评。另外, 如有需要, 后续还可以尝试使用三阶IRT模型(e.g., Huang et al., 2013)来分析该数据, 并与本文的分析结果进行对比研究。

2.幸福感就是满足感。员工通过立足主岗，开拓复岗，不停地提高自身学习能力和创造力，在实现自身的人身价值的同时，也将为企业的发展增光添彩、添砖加瓦。在这种“我为企业做贡献，企业为我谋幸福”的良好互动模式下，员工将会从超越自我、敬业奉献中获取一种自我心理的安慰和暗示。与此同时，它会给广大员工提供一种正能量，使得员工对待工作更加积极，并且经常能提出一些有建设性的见意，推动工作不断向前发展。形成一种动态的闭环管理体系，从而能够为公司乃至企业提供永不枯竭的生命助推力。

当然, 由于能力和精力有限, 本研究仍有一些局限值得后续做出进一步探究, 比如：(1)尽管本文主要关注的是潜在结构模型, 但仍仅使用了DINA模型作为测量模型, 后续可尝试探究基于其他测量模型时的性能; (2)未考虑属性之间可能存在的层级结构(Leighton, Gierl, & Hunka, 2004), 如何将属性层级结构引入到多阶潜在结构中值得今后进一步关注(e.g., Zhan, Ma, Jiao & Ding, in press); (3)仅涉及二分属性, 而未考虑更为精细的多分属性(Karelitz, 2004), 如何将MO-LSM拓广到多分属性是一个有意义的话题(e.g., Zhan, Wang et al., in press); (4)假设多阶潜在结构建构合理, 而现实测验中多阶潜在结构的界定可能会存在偏差, 在这种情况下MO- DINA模型的表现情况值得做进一步研究; (5) MO- DINA模型仅考虑了单一的作答数据源, 并未考虑诸如题目作答时间、鼠标点击次序数据等过程性数据, 如何将过程性数据引入到当前建模思路中非常值得关注(e.g., Liu, Liu, & Li, 2018; Zhan et al., 2018); (6) MO-DINA模型仅针对横断测验数据, 暂无法处理纵向测验数据, 后续可尝试对其做进一步拓广(e.g., Li, Cohen, Bottge, & Templin, 2016; Zhan, Jiao, Liao & Li, in press); (7)实证数据分析中, 未考虑科学态度维度, 如何将由学生问卷测评的科学态度和由认知题目测评的其他3个维度一同纳入到对科学素养的测评中值得今后做进一步探索。

参考文献

Birnbaum, A. (1968). Some latent trait models and their use in inferring a student’s ability. In F. M. Lord & M. R. Novick (Eds.). Statistical theories of mental test scores. Addison- Wesley, Reading, MA.

Brooks, S. P., & Gelman, A. (1998). General methods for monitoring convergence of iterative simulations. Journal of Computational and Graphical Statistics. 7(4), 434–455.

Chen, F., Zhan, P., Wang, L., Chen, C., & Cai, M. (2015). The development and application of higher-order item response models. Advances in Psychological Science, 23, 150–157.

[陈飞鹏, 詹沛达, 王立君, 陈春晓, 蔡毛. (2015). 高阶项目反应模型的发展与应用. 心理科学进展, 23, 150–157.]

de la Torre, J. (2008). An empirically-based method of Q-matrix validation for the DINA model: Development and applications. Journal of Educational Measurement, 45(4), 343–362.

de la Torre, J. (2009)．DINA model and parameter estimation: A didactic. Journal of Educational and Behavioral Statistics, 34(1),115 –130．

de la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis. Psychometrika, 69(3), 333–353.

de la Torre, J., & Song, H. (2009). Simultaneously estimation of overall and domain abilities: A higher-order IRT model approach. Applied Psychological Measurement, 33(8), 620–639.

Gao, H. B. (2011). Results of the eighth survey on Chinese citizens' scientific literacy were released. Bulletin of National Natural Science Foundation of China, 25, 63–64.

[高宏斌. (2011). 第八次中国公民科学素养调查结果发布. 中国科学基金, 25, 63–64.]

Hu, Y., Yang, S., & Lu, K. (2012). The research of assessment tools of adolescents’ scientific literacy and its quality analysis. Education Research Monthly, 3, 16–21.

[胡咏梅, 杨素红, 卢珂. (2012). 青少年科学素养测评工具研发及质量分析. 教育学术月刊, 3, 16–21.]

Huang, H.-Y., Wang, W.-C., Chen, P.-H., & Su, C.-M. (2013). Higher-order item response models for hierarchical latent traits. Applied Psychological Measurement, 37(8), 619– 637.

Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25, 258–272.

Karelitz, T. M. (2004). Ordered category attribute coding framework for cognitive assessments (Unpublished doctoral dissertation). University of Illinois at Urbana-Champaign

Kang, C., & Xin, T. (2010). New development in test theory: multidimensional item response theory. Advances in Psychological Science, 18(3), 530–536

[康春花, 辛涛. (2010). 测验理论的新发展：多维项目反应理论. 心理科学进展, 18(3), 530–536.]

Köhn, H.-F., & Chiu, C.-Y. (2017). A procedure for assessing the completeness of the Q-matrices of cognitively diagnostic tests. Psychometrika, 82(1), 112–132

Leighton, J., & Gierl, M. (Eds.). (2007). Cognitive diagnostic assessment for education: Theory and applications. Cambridge University Press.

Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka’s rule-space approach. Journal of Educational Measurement, 41(1), 205–237.

Li, F., Cohen, A., Bottge, B, & Templin, J. (2016). A latent transition analysis model for assessing change in cognitive skills. Educational and Psychological Measurement, 76(2), 181–204.

Liu, H., Liu, Y., & Li, M. (2018). Analysis of process data of PISA 2012 computer-based problem solving: Application of the modified multilevel mixture IRT model. Frontiers in Psychology, 9, 1372.

Liu, K., Li, C. (2015). The content and characteristic of PISA 2015 draft science framework. Comparative Education Review, 37(7), 98–105.

[刘克文, 李川. (2015). PISA 2015科学素养测试内容及特点. 比较教育研究, 37(7), 98–105.]

Macready, G. B., & Dayton, C. M. (1977). The use of probabilistic models in the assessment of mastery. Journal of Educational and Behavioral Statistics, 2(2), 99–120.

Miller, J. D. (1983). Scientific literacy: A conceptual and empirical review. Daedalus,112(2), 29–48.

OECD. (2006). Assessing Scientific, Reading and Mathematical Literacy: A Framework for PISA 2006. Paris: PISA, OECD Publishing

OECD. (2016). PISA 2015 Assessment and Analytical Framework: Science, Reading, Mathematic and Financial Literacy. Paris: PISA, OECD Publishing

OECD. (2017). PISA 2015 Technical Report. Paris: PISA, OECD Publishing

Qin, H., & Qian, Y. (2008). A survey report on Shanghai adolescents’ scientific literacy. Research in Educational Development, (24), 31–35.

[秦浩正, 钱源伟. (2008). 上海青少年科学素养调查报告. 教育发展研究,(24), 31–35.]

Reckase, M. D. (2009). Multidimensional item response theory. New York: Springer.

Ren, L., Zhang, C., & He, W. (2013). Constructing and anallysis of the model of how the factors affect the scientific literacy of Chinese citizens and a comparative investigation. Studies in Science of Science, 31, 983–990.

[任磊, 张超, 何薇. (2013). 中国公民科学素养及其影响因素模型的建构与分析. 科学学研究, 31(7), 983–990.]

Rijmen, F., Jeon, M., von Davier, M., & Rabe-Hesketh, S. (2014). A third-order item response theory model for modeling the effects of domains and subdomains in large-scale educational assessment surveys. Journal of Educational and Behavioral Statistics, 39(4), 235–256.

Roos, J. M. (2014). Measuring science or religion? A measurement analysis of the National Science Foundation sponsored science literacy scale 2006–2010. Public Understanding of Science, 23(7), 797–813.

Rupp, A. A., Templin, J., & Henson, R. A. (2010). Diagnostic Measurement: Theory, Methods, and Applications. New York, NY: Guilford Press

Ryan, J. J., & Schnakenberg-Ott, S. D. (2003). Scoring reliability on the Wechsler Adult Intelligence Scale-Third Edition (WAIS-III). Assessment, 10(2), 151–159.

Templin, J. L., Henson, R. A., Templin, S. E., & Roussos, L. (2008). Robustness of hierarchical modeling of skill association in cognitive diagnosis models. Applied Psychological Measurement, 32(7), 559–574.

The Ministry of Education of the People's Republic of China. (2017). Compulsory education primary school curriculum standards. Retrieved June 2, 2017, from http://www.moe.edu.cn/srcsite/A26/s8001/201702/t20170215_296305.html

[中华人民共和国教育部. (2017). 义务教育小学科学课程标准. 2017-06-02取自http://www.moe.edu.cn/srcsite/A26/ s8001/201702/t20170215_296305.html]

Tu, D., Cai, Y., & Ding, S. (2012). Cognitive diagnosis: Theory, Methods, and Applications. Beijing: Beijing Normal University Publishing Group.

[涂冬波, 蔡艳, 丁树良. (2012). 认知诊断理论、方法与应用. 北京: 北京师范大学出版社。]

Wang, W.-C., & Chen, P.-H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing. Applied Psychological Measurement, 28(5), 295–316.

Zhan, P., Chen, P., & Bian, Y. (2016). Using confirmatory compensatory multidimensional IRT models to do cognitive diagnosis. Acta Psychologica Sinica, 48(10), 1347–1356.

[詹沛达, 陈平, 边玉芳. (2016). 使用验证性补偿多维IRT模型进行认知诊断评估. 心理学报, 48(10), 1347–1356.]

Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times. British Journal of Mathematical and Statistical Psychology, 71(2), 262–286.

Zhan, P., Jiao, H., Liao, D., & Li, F. (in press). A longitudinal higher-order diagnostic classification model. Journal of Educational and Behavioral Statistics.

Zhan, P., Jiao, H., Liao, M., & Bian, Y. (2018). Bayesian DINA modeling incorporating within-item characteristic dependency. Applied Psychological Measurement. Advanced online publication. URL https://doi.org/10.1177/0146621618781594

Zhan, P., Jiao, H., Man, K., & Wang, L. (in press). Using JAGS for Bayesian cognitive diagnosis modeling: A tutorial. Journal of Educational and Behavioral Statistics.

Zhan, P., Ma, W., Jiao, H., & Ding, S. (in press). A sequential higher-order latent structural model for hierarchical attributes in cognitive diagnostic assessments. Applied Psychological Measurement.

Zhan, P., Wang, W.-C., & Li, X. (in press). A partial mastery, higher-order latent structural model for polytomous attributes in cognitive diagnostic assessments. Journal of Classification.

Zhan, P., Wang, W.-C., & Wang, L. (2013). Testlet response theory: an introduction and new developments. Advances in Psychological Science, 21(12), 2265–2280.

[詹沛达, 王文中, 王立君. (2013). 项目反应理论新进展之题组反应理论. 心理科学进展, 21(12), 2265−2280.]

附录：

1. MO-DINA模型

测量模型选用引入题目内特征依赖性的贝叶斯DINA模型(Zhan, Jiao, Liao, & Bian, 2018), 可表示为：

3.4 烟农缺乏科学合理的施药技术烟农不能准确把握用药关键期，达不到最佳防治效果，促使烟农加大农药使用浓度。施药部位不明确，采用整株喷施的方法不仅达不到防治效果，还会造成农药浪费及污染。

width=225.4,height=25.2 ,

width=96,height=29 ,

式中,Y_ni为被试n作答题目i的结果; Ψ_i = (β_i, δ_i)’为logit量尺上满足二元正态分布的题目参数向量(两者通常为负相关), 它们与常规DINA模型中的猜测和失误参数之间的关系为：logit(g_i) = β_i, logit(s_i) = δ_i;q_ik为Q矩阵中元素,q_ik = 1表示题目i考查了属性k, 反之, q_ik = 0。将该模型与正文中式(4)相结合即可得到MO-DINA模型。

2. MO-DINA模型中各待估计参数的先验分布设定如下：

首先, 基于局部独立性假设, Y_ni ~ Bernoulli (P(Y_ni = 1 | α_n, Ψ_i)), width=117,height=15 。

其次, 关于题目参数的先验分布, 参考Zhan, Jiao, Liao等人(2018), 设定如下：

width=110,height=29 ,

μ = (μ_β, μ_δ)’为logit转换后的题目参数均值, Σ为方差协方差矩阵, 有

width=71,height=31 ,

ρ_βδ为logit转换后的题目参数之间的相关系数。其中, μ_β和μ_δ的超先验(hyper-prior)分布分别设定为μ_β~N(–1.096, 4)和μ_δ~N(–1.096, 4), 鉴于logit(–1.096) ≈ 0.25, 所以该设定与四则一选择题的理论猜测概率相符合; 另外, 设定Σ ~ InvWishart(R, 2), 其中R为二维单位矩阵。

再有, 关于高阶潜在特质参数, 参考Huang等人(2013), 设定如下：

基于微课的翻转课堂+对分课堂教学模式调查问卷发放30份，回收30份，结果见（表1）。分析结果显示，83.33%以上的学生都认为基于微课的翻转课堂+对分课堂教学模式能激发学习系统解剖学的兴趣，课本知识基本能内化吸收，可以锻炼并提高学生的自主学习能力、表达能力及分析解决问题的能力，同时也增强了教师与学生之间的沟通交流。

width=229.95,height=15

最后, 关于高阶潜在结构参数, 参考Zhan, Jiao和Liao (2018), 设定如下：

建筑企业要考虑到建筑整体设计方案、使用方案、项目特点等多方面因素，进行合理招投标。在招投标时，设置一定的额度标准，对造价成本进行控制，从中选择最合理的方案。另外，还需要相关的管理部门积极参与，将经济方案与建筑方案相结合，选择出最经济实惠的方案，充分发挥其监督职能，明确资金流向。与此同时，建筑企业在对设计公司的选择时，需要询问专家意见，确保设计公司的选择的正确性，避免设计方面出现的不合理，造成建筑企业的经济损失。设计公司的正确选择，可以有助于顺利完成招投标，对建筑工程造价进行诸多方面的监控，有效控制建筑造价的成本控制。

width=157,height=13.95

Using a multi-order cognitive diagnosis model to assess scientific literacy

ZHAN Peida; YU Zhaohui; LI Feiming; WANG Lijun

(College of Teacher Education, Zhejiang Normal University, Jinhua 321004, China)

Abstract

In PISA 2015, scientific literacy is defined as “the ability to engage with science-related issues, and with the ideas of science, as a reflective citizen”. There are four interdependent dimensions are specified in the scientific literacy assessment framework for PISA 2015: Competencies, Knowledge, Contexts, and Attitudes. Given that knowledge of scientific literacy contributes significantly to individuals’ personal, social, and professional lives, it is of vital importance to find an objectively and accurately assessment method for scientific literacy. However, only unidimensional IRT models were used in the analysis in PISA 2015. Which means that the analysis model does not match with such a multidimensional assessment framework. It is desired to develop a new analysis model. This study attempts to measure scientific literacy in cognitive diagnostic assessment for the first time.

The corresponding time dependence of the experimental resistance modulation index is that given in Fig. 1 (Bottom)after scaling M by the divisor Ro.

According to the scientific literacy assessment framework for PISA 2015, a third-order latent structure for scientific literacy is first pointed out. Specifically, the scientific literacy is treated as the third-order latent trait; Competencies, Knowledge, Contexts, and Attitudes are all treated as second-order latent traits; And nine subdomains, e.g., explain phenomena scientifically and content knowledge, were treated as first-order traits (or attributes). Unfortunately, however, there is still a lack of cognitive diagnosis models that can deal with such a third-order latent structure. To this end, a multi-order DINA (MO-DINA) model was developed in this study. The new model is an extension of the higher-order (HO-DINA) model, which is similar to the third-order IRT models. To illustrate the application and advantages of the MO-DINA model, a sub-data of PISA 2015 science assessment data were analyzed. Items were chosen from the S01 cluster, and participants were chosen from China. After data cleaning, 1076 participants with 18 items were retained. Three models were fitted to this sub-data and compared, the MO-DINA model, in which the third-order latent structure of scientific literacy was considered; the HO-DINA model, in which the scientific literacy was treated as a second-order latent trait and contacted with attributes directly; and the DINA model.

All three models appear to provide a reasonably good fit to data according to the posterior predictive model checking. According to the –2LL, AIC, BIC, and DIC, the DINA model fits the data worst, and the MO-DINA model fits the data best, the results of MO-DINA model are used to make further interpretations. The results indicated that (1) the quality of 18 items are not good enough; (2) The correlations among second-order latent traits are high (0.8, approximately); (3) Knowledge has the greatest influence on scientific literacy, Contexts second, and Competencies least; (4) Explain phenomena scientifically, procedural knowledge, and local/national has the greatest influence on Competencies, Knowledge, and Contexts, respectively. In addition, a simulation study was conducted to evaluate the psychometric properties of the proposed model. The results showed that the proposed Bayesian MCMC estimation algorithm can provide accurate model parameter estimation.

Overall, the proposed MO-DINA model works well in real data analysis and simulation study and meets the needs of assessment for PISA 2015 scientific literacy which included a third-order latent structure.

Key words scientific literacy; cognitive diagnosis; PISA; DINA model

DOI:10.3724/SP.J.1041.2019.00734

收稿日期:2018-09-21

* 国家自然科学基金青年基金项目(31600908)、浙江省自然科学基金项目(LY16C090001)、教育部人文社会科学研究青年基金项目(19YJC190025)和浙江省教育科学规划重点课题(2019SB112)资助。

通信作者: 詹沛达, E-mail: pdzhan@gmail.com

分类号B841

标签：科学素养论文; 认知诊断论文; PISA论文; DINA模型论文; 浙江师范大学教师教育学院论文;

一种基于多阶认知诊断模型测评科学素养的方法论文