基于IRT和KST的网络测试_自适应论文

基于IRT和KST的网络测验,本文主要内容关键词为:测验论文,网络论文,IRT论文,KST论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

信息科学的迅速发展,使计算机网络的应用越来越广泛,包括计算机局域网和国际互联网,于是网络测验也就应运而生了。目前在国际上最新的研究成果是基于项目反应理论的测验,简称基于IRT的测验,以及基于知识空间理论的测验,简称基于KST的测验,它们都是在传统纸笔测验的基础上发展起来的,但又克服了纸笔测验的缺点,将测验和高新技术结合起来,有着广泛的应用前景。

一 传统的纸笔测验

我们目前所实施的各种教育和心理测验,绝大多数是根据经典测验理论进行编制和数据分析的(注:余嘉元:《教育和心理测验》,江苏教育出版社,1987。),一般是通过纸笔的方式对学生进行测量。这种测验的特点是对所有的学生都实施相同的测验题目,而不论各人的实际水平如何。虽然人们从直观上感到这种测验是公平的,因为每个学生都被给予了相同的题目,大家都能在同一尺度上进行度量。但实际上并非如此,因为测验的理论和实践都告诉我们,只有在题目的难度和学生的真实能力水平匹配的时候,才能可靠地对学生进行测量。

由于被测团体中各学生的能力水平是有差异的,一般而言,中等能力的学生占大多数,另有少数是优等生和差生,于是测验编制者往往令测验中大多数题目为中等难度,并有少数高难度题目和低难度题目。如果将难度作为横坐标,以各种难度的题目在测验中所占的比例为纵坐标,这样所得到的曲线为两边低中间高的峰形,人们把这种测验称作“峰形测验”。如果学生的能力确实是呈正态分布,而且大多数学生的能力正好和题目的中等难度相匹配,那么“峰形测验”可以对大多数学生进行较精确的测量,这就是许多测验都为“峰形测验”的原因。不过这种测验是有不少缺点的,首先我们无法事先保证学生的能力是正态分布的,特别是在样本比较小的情况下。另外,在没有测量以前,我们很难确定学生的中等水平并且找出和它难度相匹配的题目。退一步讲,即使满足了上述条件,该测验也只能对中等水平的学生作较精确的测量,对于优等生和差生,适合于他们能力水平的题目很少,根据斯皮尔曼——布朗公式,测验题目越少,测量的精度就越低,也就是说,“峰形测验”对于这两类学生的测量精度就很低。由此看来,同一个测验对于不同的学生测量精度是不一样的,它对于中等生可以精确测量,但对于优等生和差生就不能精确测量,这就使得该测验是不公平的。

为了克服“峰形测验”的缺点,人们提出了“矩形测验”,即在某个测验中,各种难度的题目所占的比例是相同的,每个学生都有相同数量的题目和他的能力水平相适应,根据斯皮尔曼——布朗公式,这种测验可以对所有学生都有相同的测量精度,显然这是一种较公平的测验。但是,由于测验的长度是有限的,为了要在同一测验中有各种难度的题目,就使得每一种题目的数量都很少,由此造成对每一个学生都不能得到精确的测量,这也是我们不愿意看到的。

综上所述,传统的纸笔测验面临着一种两难的困境,如果采用“峰形测验”,在理想的情况下虽对大部分学生可以得到较精确的测量,但它对高水平生及差生是不公平的。如果采用“矩形测验”,虽然能够对各个学生进行公平的测量,但由于受到时间及题量的限制,使测量的精度都很低,这种测量就没有什么意义。

产生上述困难的主要原因是,传统的纸笔测验对于所有的学生都施测了相同的题目,在整个测验中每个学生都只有其中的一部分题目和他的能力水平相适应,其余的题目由于和学生的水平不一致而不能提供有效的信息。于是人们就设想,是否可以编制一种测验,使其中的每一个题目都尽可能地适应于各个学生的能力水平呢?这样就产生了自适应测验,这种测验可以根据各个学生的能力水平,向其提供适合于他们水平的不同测验题目,通过这种方式使每个学生的能力水平都得到精确的测量。

二 基于IRT的计算机化自适应测验

根据教育和心理测量原理,如果呈现给学生的项目的难度恰好使该学生答对的概率为0.5左右,那么该题目对学生的测量精确度最大。怎样才能做到这一点呢?教师在考试前并不知道学生的能力水平,也就无法根据其水平来确定要呈现的下一个题目。解决的办法是先给学生呈现一道中等难度的题目,根据学生的反应情况,再从题库中选择下一个题目呈现给学生。这里的关键是如何选择下一个题目,选择题目的原则是什么,怎样使该题目的难度适合于学生的水平。

为了达到这一目的可以采用不同的策略,早期的自适应测验是采用固定分枝的方法,世界上第一个自适应测验是法国人比纳编制的智力量表,该量表后来又演变为斯坦福—比纳智力量表,它是采用固定分枝策略的典型。在该测验中,研究者根据被试的年龄水平,事先编制好不同难度的测验题库。在实施测验时,依据被试的实际年龄,向他们呈现相应年龄的一组题目,并根据被试对这组题目的回答情况进行评分。如果这组题目都能答对,那么就再向被试呈现更高年龄组的题目,如此不断进行下去,直到被试对某一年龄组的题目都答错为止,该水平就被称为顶端水平。如果被试对第一次呈现的题目都答错了,那就向他呈现较低年龄水平的题目,如此不断进行下去,直至将某一年龄水平的题目都答对为止,该水平就称作基底水平。如果被试对于第一次呈现的题目答对了一部分,则可以先向上找出顶端水平,再向下找出基底水平。显然,对于不同的被试,其顶端水平和基底水平是不同的,但在这两水平之间的题目都是比较适合于他们各自能力水平的。因此,就解决了传统纸笔测验所面临的困难,它对于所有的被试都有较高的测量精确度。这种自适应测验的特点是分枝规则很简单,每次呈现新的难度水平的题目时,总是从题库中取出和前面呈现的题目组相邻的那组题目,不会根据被试的实际水平而灵活地选择和其水平最为适应的题目,因此称为固定分枝策略。由于题库中的题目是事先根据其难度顺序排列的,因此在选择题目时就只考虑了题目难度的信息,对于题目的区分度和猜测参数则没有加以利用。

现在的自适应测验是根据项目反应理论(简称IRT),对学生的真实能力水平进行测量。它采用了灵活分枝的办法,每次都尽可能选择和学生能力水平的估计值相适应的项目。由于这种测验是在计算机上进行的,因此我们把它称为计算机化自适应测验(简称CAT)。在计算机网络应用越来越广泛的今天,计算机化自适应测验也开始在网络上进行了,这就是我们所说的网络测验。ETS是全球最大的测验公司,它集中了世界上相当一批著名的测验专家,这些专家向各国推出了许多众所周知的测验,例如:TOEFL,GRE,GMAT。在过去的几十年中,这些测验都是纸笔的形式出现的,但经过多年的实践和研究,EST已经意识到必须用计算机化自适应测验(CAT)来代替原有的纸笔测验,(注:Cole,N.S.Why Compu-terize Assessment? An Issues Brief for the Colleagues of Educ-ational Testing Service,Vol.1,No.1,1997.)他们认为CAT能够使测验更适合于每一个学生的水平,题目将不是过难或过容易,用较少的题目就能达到传统纸笔测验的效果。由于是在计算机上进行测验,就使得能够更加灵活地安排测验的时间和地点,测验的环境更加个体化。除了写作部分外,其他部分的测验结果当场就能得到,在10-15天内,就能完成对整个测验的评价报告。因此,EST已决定于1997年开始对GMAT实施CAT,从1998年开始对TOEFL实施CAT,对于GRE的计算机化自适应测验也很快就将开始实施。

计算机化自适应测验的理论基础是项目反应理论(IRT)(注:余嘉元:《项目反应理论及其应用》,江苏教育出版社,1992。),和经典测验理论(CTT)相比,IRT有许多突出的优点,其中最主要的是项目参数不变性,也就是说每个题目的难度,区分度,猜测参数不会随着被试样本的不同而改变。正是由于项目反应理论的这种特点,使得我们可以构造一个稳定的题库,在这题库中的每一个题目都有确定的项目参数。在项目反应理论中有许多数学模型,其中最主要的是三参数逻辑斯谛模型:

式中D为常数1.7。

在该模型中,θ是被试的能力(潜在心理特质),a[,i],b[,i],c[,i]分别为项目i的区分度,难度和猜测参数,P(θ)是能力为θ的被试答对该题目的概率。通常人们是根据被试对一组题目的回答情况,运用极大似然法或贝叶斯方法对被试的能力进行估计,同时也估计各项目的参数。(注:余嘉元:《项目反应理论中若干模型的比较》,心理学报,1990.1。)由于在进行参数估计时要解数以千计的偏微分方程,要运用计算数学中的牛顿—拉普森迭代法,因此没有计算机是无法完成这项工作的,特别是在被试对部分题目做出解答后,立即要对他的能力进行估计,并马上要根据该估计值确定下一个要呈现的题目,然后对被试的能力作进一步的估计,直至接近他的真实值,这些都需要高速运行的计算机和良好的算法。

IRT的另一个特点是能够把同一题目的三个项目参数综合成项目信息函数I(θ),对于三参数逻辑斯谛模型,第i个项目的信息函数为:

式中D为常数1.7,p[,i]为上式中的p[,i](θ),Q[,i]=1-P[,i]

项目信息函数的自变量是学生的能力θ,因变量是信息量,也就是说,同一个题目对于不同能力水平的学生所提供的信息量是不同的。例如:较难的题目能够向我们提供较多关于优等生的信息,但对于较差的学生,则主要是由容易的题目来提供信息。因此,我们在选择题目的时候所依据的是信息量最大的原则。

基于IRT的网络测验是对每个学生个别进行的,教师将题库存放在网络的服务器中,通过连线将测验题目呈现在各个学生面前的客户机上,对于不同的学生可以根据他们的不同能力水平呈现不同的题目。学生通过键盘和鼠标将他们各自的反应输入计算机后,计算机可以立即得出他们的能力水平的估计值,然后采用最大信息量的方法选择下一个要呈现的题目,即该题目能够为我们进一步估计学生的真实水平提供最大的信息量,这个过程(包括呈现题目,学生作出反应,估计学生的能力水平,选择下一个题目)不断重复,直至达到预定的终止标准。同时项目反应理论还能估计出测量的误差,当用极大似然法估计项目参数和学生能力时,IRT用标准误作为测量误差,当用贝叶斯方法估计项目参数和学生能力时,IRT用贝叶斯后验方差作为测量误差。在计算机自适应测验中,通常使用测量误差作为预先确定的终止标准,这种方法可以保证对所有的学生都有同样的测量精确度。同时,由于在测验过程中呈现的题目和学生的能力水平基本上是相适应的,这就使测量达到了较高的精确度,因此就较好地解决了传统纸笔测验所存在的问题。

基于IRT的测验选择题目时,根据最大信息量的原则,采用灵活分枝的方法,使得每一次呈现的题目都能保证提供最多的信息量,因此,只要用较少的题目就能达到较精确的测量结果。国外的有关研究表明,对大学生进行计算机化自适应测验,只用了不到传统纸笔测验50%的题目,就达到了传统的测验信度和效度。在有的研究中,只用了11个题目就达到了传统纸笔测验29个题目的效果,通过因素分析可以证实,虽然基于IRT的测验只用了较少的题目,但和传统纸笔测验所测量的各种能力因素是一致的。

当然,基于IRT的测验也向人们提出了新的问题,首先是要求在测验过程中就不断地对学生的能力水平进行估计,并根据不同学生的不同水平,向不同的学生提供不同的题目,随着计算机网络技术的发展,这个问题已经得到了较好的解决。另一个问题是,由于不同的学生被呈现了不同的题目,那怎样对他们的作答结果进行比较呢?项目反应理论已经提出了许多测验等值的方法,使得我们可以对不同学生的反应结果进行比较。还有一个问题是关于题目的曝光度,多年的实践表明,如果只是根据最大信息量的原则进行题目选择,由于项目区分度对信息量的影响较大,因此区分度高的题目容易被多次使用,即这些题目容易被曝光,影响了测验的保密性。于是,研究人员提出了各种控制题目曝光率的方法,主要是条件概率的方法(注:Stocking,M.K.,&.Lewis,C:A New Methodof Controlling Item-exposure Rates in Computerized Adaptive T-esting(Research Report 95-25)Princeton,NJ:Educational Testing Service,1995.)和基于区分度的分层多阶段方法,(注:Chan,H.,&.Ying,Z.:A-Stratified Multistage Computerized Adaptive Testing,Spec-ial CAT Issue of APM,1998.)运用这些方法可以很好地解决题目的曝光度问题。

三 基于KST的计算机化自适应测验

作为一个良好的测验,应该能够对学生的心理特质进行精确而有效的测量,但在根据项目反应理论进行测量时,主要是考虑了项目的信息函数,即测量的精确度,对于测量的效度则考虑不多。而且,它比较强调项目的区分度,显然,根据这一理论编制的测验,比较适合于常模参照测验,因为这种测验的目的是尽可能把不同水平的学生区分开来。但是对于标准参照测验(效标参照测验),项目反应理论并没有提出比较好的编制方法,这主要是由于该理论所重视的是题目的统计特性,这是一种外在的、可观测的特性,由于组成测验的每一个题目都代表了相应的知识,各个题目之间的关系反映了一定的知识结构,这说明任何一个测验都有某种内在的、难以观测的特性。正是由于项目反应理论对于这种内在的知识结构重视不够,从而使得它难以对测验的效度进行分析,那么怎样在测验编制时考虑各题目所反映的知识结构呢?研究人员提出可以运用知识空间理论(简称KST)的方法。(注:Schrepp,M.&.Held.T.:A Simulation Study Concerning the Effect of Error on the Esta-blishment of Knowledge Spaces by Querying Experts,Journal of Mathematical Psychology,1995,4.)(注:余嘉元,吉一宁:《运用知识空间理论进行成就测验的研究》,全国第八届心理学学术会议,1997年10月。)(注:Thiery,N.,Cosyn,E.,Lauly,D.Yu,L.&.Falmange,J:Knowle-dge Space Assessment via the Web,1998.(Unpublished manuscript))

根据知识空间理论,某个学生的知识状态被定义为在全部题目的集合Q中,他所能掌握知识的题目的子集,记作X。各题目之间存在某种前提关系,例如,在某个小学的分数测验中,有两道题目,第一题是关于通分的题目,第二题是关于异分母分数加法的题目,显然,第一题就是第二题的前提,如果学生没有掌握第一题的知识,那么他肯定就不会做第二题。这种前提关系可以确定Q中哪些子集是知识状态,哪些子集不是知识状态。被试所有可能的知识状态的集合(包括空集)称为知识结构,满足对并封闭的知识结构称为知识空间。根据这一理论编制的测验有较高的内容效度,很适合于测量及诊断学生掌握知识的情况。

在构造知识空间时,首先需要搜集一组能够反映有关领域知识的题目,这些题目和教学目标是直接相关的。下面是有关小学数学分数的部分教学目标示例:

(1)熟练地进行约分。

(2)熟练地进行通分。

(3)熟练地进行同分母分数的加减运算。

(4)熟练地进行异分母分数的加减运算。

(5)熟练地进行带分数的加减运算。

在测验中对于每一个教学目标都要编制相应的题目,以考察学生是否达到了这些目标。我们知道各个目标并不一定是相互独立的,某些目标之间存在着前提关系。例如,上述的教学目标(1),(2),(3),(4)就是教学目标(5)的前提,若要达到教学目标(5),必须首先达到前面的4个教学目标。反之,如果某个学生达到了教学目标(5),那么他肯定具备了达到教学目标(1),(2),(3),(4)的能力。由此可见,考察各项目之间的前提关系对于成就测验是非常重要的。

在知识空间理论中,通常用道林和卡卢斯查提出的专家评判方法来确定前提关系(注:Dowling,C.E.&.Kaluscha,R.:Prerequistie relation-ships for the adaptive assessment of knowledge,Artificial Int-elligencein Education,1995,43-49.),该方法向专家们提出了一系列如下标准形式的判断句:“假设某个学生没有答对项目p[,1],p[,2],……,p[,k],那么他是否就不可能答对项目q呢?”这里p[,1],p[,2],……,p[,k]构成前提,项目q为结论,专家对于这些判断句的反应为接受或拒绝。根据专家的反应可以了解各项目之间的前提关系,这种前提关系可以用多种方式表达出来,其中最常用的方式是与/或图,在该图中每一个题目都通过“与节点”或者“或节点”和它的前提题目相连接。或者用逻辑符号来表示各题目之间的关系,即用“→”表示“如果……那么……”,用“←”表示“只有……才……”,用“∧”表示“并”,用“∨”表示“或”。

由于专家之间存在着个别差异,各人给出的知识空间是不同的,通常将所有专家都同意的前提关系整合成一个知识空间,称为“一致性空间”,记作k[,c],它可以作为评价被试知识水平的标准。(注:Dowling,C.E.:Integrating different knowledge spaces.In G.Fischer &.D.Laming(Eds.),Contributions to Mathematical Psychology,Psychometrics and Methodology.New York:Springer,1994.)假设Q是由一组项目构成的有限集合,有n个专家对这些项目进行前提关系判断后,得到n个知识空间,分别用Ki表示,i=1,…,n。如果Q的子集的集簇F满足对并封闭,那么记作f[u]。

当我们对学生进行成就测验时,通常是根据学生的测验结果得到他们的知识空间,然后将其与专家的一致性空间进行比较,计算出它们的距离。

我们运用知识空间理论,通过和任课老师的讨论,确定了小学数学分数部分的29个教学目标,将其中16个重点目标作为测验的内容,对于每一个目标都编制了一个相应的题目,然后根据专家的意见,确定了各个目标之间的前提关系,并用与/或图来表示这种关系。

我们运用团体测验的方法对学生进行测量,所测对象是南京市三所小学的320名六年级学生,平均年龄为11.6岁,其中男生为156人,女生为164人,要求这些学生在40分钟内完成测验。

在运用KST编制测验时,首先是对知识空间进行分析,即考察知识空间本身的质量。一般是计算专家们两两判断的相关性,用phi系数表示,若各相关值都达到了显著相关,则认为该知识空间质量较好。

另外,也可以根据专家们判定各题目为前提的数目,计算他们之间的斯皮尔曼等级相关系数,若它们也都达到了显著相关,则表明该知识空间的质量是比较高的。

然后可以对学生的知识结构进行分析,通常把学生的解题情况称作模式,记作S,用它表示知识结构,并将它和专家的知识空间k相比较。可以用计算距离D(S,K)或相似系数A(S,K)的方法,来表示学生的知识结构和专家知识结构的差距。

另外,我们还对测验分数相同的学生进行了分析,发现他们的知识模式并不完全相同,这说明知识空间理论可以比传统的测验提供更多的信息,对于诊断学生在学习中存在的问题,这是一种有用的工具。

项目反应理论和知识空间理论为计算机网络测验提供了良好的理论基础,和传统的纸笔测验相比,它们有许多优越之处,基于IRT的测验和基于KST的测验是今后网络测验的发展方向。当然,它们又都有各自的特色,适合应用于不同的情况,基于IRT的测验比较适合于常模参照测验,特别是对单维能力的测验,因为目前比较成熟的IRT模型只涉及到单维的能力θ,但它在对测验的精确度控制方面比较成功。如果我们要考察学生知识结构,诊断他们的认知缺陷,则运用知识空间理论比较合适。

标签:;  ;  ;  

基于IRT和KST的网络测试_自适应论文
下载Doc文档

猜你喜欢