认知诊断技术在学科学业评价中的应用——以初中一年级“有理数及其运算”为例,本文主要内容关键词为:有理数论文,为例论文,认知论文,学业论文,学科论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
当前,学校对教学质量的管理通常都是根据经典测量理论(CTT),计算试卷或试题的难度、区分度以及各班级的平均分、优秀率、及格率等考试参数,并以此为依据进行教学评价.尽管这种评价方式可以体现评价的激励作用,但是以“排队”为管理手段的评价方式也导致很多学习困难的学生在学习过程中缺乏成就感,并且卷面总分不能具体指出学生掌握或没有掌握哪些知识和技能,更无法诊断学生作答错误的原因,没有体现出评价的诊断功能.如果通过测试为教师及学生本人提供诊断信息,这将为师生改变教与学的策略、改进教与学的方法提供重要的参考依据.为此,本研究借助教育统计与测量中的前沿技术——认知诊断(cognitive diagnosis,CD)技术,尝试在初中一年级对“有理数及其运算”这一内容进行认知诊断.认知诊断技术是在项目反应理论(IRT)[1]基础上发展而成的,本文详细介绍了其具体操作过程、测验结果及诊断分析,以期抛砖引玉,为学校教师和管理者在实践中运用认知诊断技术促进学生发展、促进教师发展进而实现学校的发展提供借鉴和参考.
一、“有理数及其运算”相关认知属性及其Q矩阵的确定
(一)“有理数及其运算”相关认知属性确定
属性是指学生解题时所运用陈述性知识(知识点)、程序性知识或解题策略的总称,属性之间可以没有关联彼此独立,也可以彼此之间具有一定的层级关系,即完成一次测试所需要的属性之间具有一定的逻辑或心理次序.
本研究组织学校具有丰富教学经验的数学教师来确定“有理数及其运算”这一章所涉及的相关知识和技能(属性),具体过程是:首先由数学教师根据课程标准分别独立完成“有理数及其运算”所涉及的核心知识点和技能,再集体讨论并统一意见,最后再通过头脑风暴将这些属性进行整合,共得出15个认知属性,详见表1.
在一次测试诊断中,所有试题所涉及的属性个数一般不宜超过10个,否则诊断的准确率会受影响.如果确实要超过10个属性,有两种处理方法:一是用更大的属性去包含几个小属性,即属性合并,以减少属性的个数;二是将众多的属性按照它们的逻辑关系分解为几个小的属性群,对各个属性群分别单独进行诊断测试.由于“有理数及其运算”这一章的学习内容比较多,我们最后将其所涉及的15个认知属性分解为两个属性群,分两次进行诊断.本文主要报告第一属性群的认知诊断情况.
(二)测验Q矩阵与认知诊断测验的编制
Q矩阵是用来连接试题与认知属性关系的矩阵,一般由I行K列组成,I指试题数,K指认知属性数.其中的元素只有“1”和“0”两种取值,若=1,说明第i题测量了第j个认知属性;若=0,说明第i题未测量第j个认知属性.Q矩阵被认为是认知诊断测验编制的蓝图.
试题编制过程如下:首先,收集一批“有理数及其运算”这一内容的测试题,题型全部为单项选择题.然后,将每道试题所运用到的属性直接标示在该题题首,这是属性与试题关联匹配的过程.最后,由具有丰富教学经验的教师在这一批测试题中挑选出较有典型性、代表性,且难度相对适中的试题组成认知诊断测验.我们针对第一属性群共挑选了23道测试题,从而得到“有理数及其运算”第一属性群的诊断测验Q矩阵,详见表2.表2中,第1题只测量认知属性A1,第8题只测量了认知属性A4,第21题测量了A4和A5两个认知属性,其余试题可以类推.
二、认知诊断测验及试题的测量学特征分析
(一)试题测量学特征分析
第一属性群的测试题涉及有理数中的8个基本概念,是一次大部分试题只运用到一个属性的形成性测试,测试时间为30分钟,每题4分,共有238名初一学生参加了测试,作答数据全部有效.
分别采用经典测量理论(CTT)和项目反应理论(IRT),对测验试题进行测量学特征分析,IRT采用2PL模型,结果见表3.
表3表明,在CTT下该诊断测验的平均区分度为0.504,IRT下的平均区分度为0.785,表明测验试题的区分度整体较高,测验题目的质量较高.对于难度而言,CTT下平均难度在0.6~0.7间,IRT下的平均难度为-0.187,说明测验难度适中,略偏易.因此,不论是从难度还是区分度看,依据两种测量理论对该诊断测验所做的判断基本一致,对于刚刚接触代数知识的初一学生,本次测验试题难度适中,试题区分度较好.
(二)试卷测量信度分析
主要分析常用的基于CTT的克龙巴赫系数及分半信度,采用SPSS 15.0统计软件包完成,见下页表4.
表4说明所编制的认知诊断测验的克龙巴赫系数和分半信度均在0.8以上,说明测验具有较高的测量信度,测验质量较佳.
三、“有理数及其运算”的认知诊断分析
(一)采用的认知诊断模型简介
要实现测验的认知诊断功能,需借助特定的认知诊断测量模型进行分析,本研究主要采用DINA模型[2-4](deterministic inputs,noisy“and”gate model).DINA模型(参见Jimmy de la Torre,2009[4])是一个非补偿随机联合模型,将Q矩阵中试题所需所有属性联合起来,其项目反应函数(IRF)为:
由于DINA模型相对比较简洁,而且有研究表明,该模型具有较高的判准率,因此本研究采用该模型进行分析.
(二)学生对各属性的掌握情况
DINA模型根据测验Q矩阵及测验数据,可以估计出每个学生对每个认知属性的掌握情况,即每个学生对各知识和技能的掌握程度,这对于有效地开展针对性教学补救具有重要的意义.为了节省篇幅,本文不具体对每一个学生的掌握情况进行分析,而主要是分析238名学生的整体情况,如学生整体上对每个属性的掌握情况、学生所犯的主要认知错误类型等.
我们根据DINA模型估算出238名学生对8个认知属性的掌握比例(见表5),并且组织有经验的数学教师对此结论进行分析和解释,表述如下.
8个认知属性中,学生掌握比例在80%以上的属性有A1(整数与分数概念)和A2(有理数概念),说明学生对这两个属性掌握较好,这和教师在日常教学中的课堂观察和学生的作业反应基本一致.从大到小排列,掌握比例在70%~80%之间的属性有A5(有理数大小比较)和A7(有理数加法),掌握比例在60%~70%间的属性有A4(相反数)、A8(有理数减法)和A6(绝对值),属性A3(数轴)的掌握比例只有33%.
在8个属性中,A6(绝对值)是相对较难被学生掌握的属性,这其中的原因很多.首先,学生对绝对值这一定义的理解不够透彻;其次,在建立绝对值概念时,教师是运用数形结合的思想,借助于数轴建立此概念,但是测试题向学生呈现的方式常常是包含字母的代数式,学生还没有养成数形转换的思维方式,也很难从整体上把握各种可能的情况;再次,面对复杂多变的测试题,学生在短时间内还无法形成解题思路和方法,导致无从下手.运用属性A8(有理数减法)解题也是学生的一大障碍,主要原因在于初一学生难以实现将有理数减法转换为有理数加法,即减去一个数等于加上这个数的相反数,因此运用属性A8解题比运用属性A7解题更复杂一些.除了属性本身具有一定难度之外,教师的教学方法也是重要原因.
属性A3(数轴)的掌握概率只有33%,也就是说有67%的学生未掌握此认知属性.从属性之间的关系上分析,数轴概念中包含着比较多的信息,涉及绝对值、相反数、有理数的大小比较等内容.同时,数轴概念是初中学生第一次接触数形结合的数学思想,在思维方式上不少学生还不适应数和形的相互转化,确实是代数学习起步阶段的学习难点之一.测量属性A3的试题为:
第5题:在数轴上,原点及原点右边的点所表示的数是()
A.正数B.负数
C.非正数D.非负数
我们认为,此题除了涉及数轴属性以外,还有另外一个属性没有被纳入第一属性群中,即逻辑推理.刚入初一的学生在逻辑推理上还有不完整的一面,对非、或等逻辑言语的实质把握不清,尽管这里的逻辑推理并不复杂,但一些学生认为非正数就是负数,而忽略了零的存在,这也是教师在今后需要注意的教学盲点.
总之,在诊断理论指导下的诊断性测试能够为教师提供更详细的学生属性掌握信息,为改进教学提供依据,改变以往以排序为特征的评价方式.
(三)学生属性掌握模式的分析
为进一步分析学生所犯认知错误类型,我们又对学生属性掌握模式进行了归类,在第一属性群的8个属性中,已经掌握的属性标示为1,尚未掌握的属性标示为0,例如“11111111”模式表示8个属性全部掌握,“11011111”模式表示属性A3尚未掌握,不同的掌握模式反映了学生所犯不同类型的认知错误.238名学生从全未掌握(00000000)到全部掌握(11111111)的模式共49种.为了表述方便,本文主要列出了其中的18种掌握模式(见表6),少于3人的掌握模式未列出.这18种掌握模式涉及的人数为199人,占所有学生的84%,其中8个认知属性全部掌握(即“11111111”的掌握模式)的比例为25.6%,也就是说只有约25.6%的学生掌握了所有认知属性,仍有的74.4%学生犯了不同类型的认知错误,而这些认知错误中主要分布在五种类型:(00000000)、(10000000)、(11011111)、(11011110)和(11111110),这五种掌握类型涉及的人数为90人,占37.8%,90人的分布又呈现出两极相对集中的特点.其中,(00000000)和(10000000)两种类型共18人,占7.56%,属于学习问题比较严重的学生,需要教师从学习兴趣、学习态度、小学基础、家庭背景、智力因素等方面给予高度关注并提供帮助.另外三种类型:(11011111)、(11011110)和(11111110)共涉及72人,占30.25%,这些学生对大部分属性掌握比较好,只需要针对个别属性进行补救,并从学习方法上给予关注和指导,从学习内容和难度上进行适当的拓展和提高.因此,认知诊断理论为教师根据不同对象的不同特点采取不同的补救策略提供了有效信息.
四、结论及讨论
(一)研究结论
1.分别采用经典测量理论(CTT)和项目反应理论(IRT)对于测试数据统计分析,两种测量理论在难度、区分度两项测试参数上所得出的判定结论一致:试题难度适中,区分度较好.从基于CTT理论的信度分析看,克龙巴赫系数及分半信度均在0.8以上,本次测试具有较高的测量信度,测验质量较佳.
2.本次测试涉及8个属性,学生对各个属性的掌握程度各不相同,通过认知诊断技术获得的属性掌握信息和教师的教学观察相吻合.
3.通过认知诊断技术还获得了各种属性掌握模式的学生人数和比例,为教师改进教学方法、进行针对性补救提供了有效信息,也为管理者加强教学质量监督提供了依据.
(二)讨论
1.本次测试的题目来自教材和常见的教辅材料,任何一题都没有经过刻意改编,只是要求每个属性至少有一道题目单独测试该属性.测试题量和测试时间也符合学校的实际,测试过程中包括确定属性、选择测试题、关联匹配等环节都可以转变为教学评价中的常规环节.更为重要的是,与CTT理论相比,认知诊断技术支持下的学业测量与评价能够为教师、学生本人和学校管理者提供更精细、更全面的信息,对课程实施和教学质量管理更具有指导意义.尽管诊断模型比较复杂,但就像门诊医生不必过多关注化验的技术和过程一样,只需要知道诊断模型的适用条件,能看懂诊断报表即可.因此,这一方法具有普遍性和推广价值.
2.属性的确定过程相对复杂.首先,属性不仅仅是学科知识点,还可以是技能、策略,甚至是典型的题型和方法,很多因素都会对诊断结果带来干扰.其次,在获得Q矩阵的过程中,难免遗漏一些关联,这会对诊断的准确性带来一些影响.例如在题10中关联的属性是A5,但测试之后发现该题目也运用到A7(有理数加法)和A8(有理数减法).因此,属性的确定以及属性和测试题之间的关联匹配是一个长期积累和实践的过程,而现代信息技术又为这种积累和实践提供了保障和支持.
3.学生的知识和能力是一个动态的发展过程,随着学习的持续进行,往往在今后的学习中又可能弥补了之前遗留的知识缺陷,学生的学科能力也在不断发展.因此,这种诊断性测试结果具有时间阶段性,相同学生群体在间隔几个月之后再次测试相同属性群,结果也会有差异.
4.根据学生对属性掌握情况进行横向和纵向比较,可以建立不同层次和不同范围的学业质量监控.对于同一所学校,在不同年份招收学生的素质和学业水平通常是一个常模,每年相同年级(如每年初一年级)的教学进度和内容也都大致相同,在每年大致相同月份进行相同属性群的测试,依据属性掌握情况进行学业质量监控要比根据CTT理论进行排序完成的学业质量监控更加合理、更具说服力.
5.在诊断性测试完成之后,我们组织教师对诊断结果进行了分析和讨论,老师根据日常课堂教学观察和学生作业情况,普遍认为诊断结果符合学校的实际情况.在后续的研究中,当学生完成某个属性群的测试之后,还可通过问卷调查、学生作答过程口述录音等方式立刻进行作答信息采集,对认知诊断技术支持下的学业测量与评价结果作进一步验证.