项目反应理论与经典测验理论之比较,本文主要内容关键词为:理论论文,测验论文,项目论文,经典论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
心理测验是测量人的心理特质的主要方法之一。随着心理学的日益科学化,对心理测验的要求也越来越高。这需要心理测验理论不断更新与发展。
心理测验理论是对心理测验中诸如误差、样本容量、测量单位等问题进行研究,并设计方法加以解决的理论研究。它与心理学的发展紧密相联。心理学中的个别差异的研究引起了心理测验运动,高尔顿、卡特尔、皮尔逊等人对此作出了杰出的贡献。在此研究基础上,本世纪初,斯皮尔曼发表了《认知的规律和智慧的本质》与《人类的能力》等文,提出因素分析的方法后,经典测验理论CTT(ClaSSic Test Theory)研究开始蓬勃发展,至今已有九十余年。
CTT主要是指真分数理论,虽然它是编制心理测验常用的方法, 而且在不断地完善自身,但作为一种理论,其不足之处不是修修改改就能够解决的。针对这些,现代测验理论应运而生。在项目分析部分,主要出现了项目反应理论IRT(Item Response Theory)。 美国测量专家洛德1952年在其博士论文中首次提出了项目反应模型,即双参数正态卵形模型,并提出了与此相关的参数估计方法,使得IRT 可被用于解决实际的二值记分的测验问题。它标志着IRT的正式诞生。在这之后,IRT得到了充分发展,尤其七、八十年代在大多数发达国家得到测量专家的关注,在心理学研究中的使用频率大幅度上升,超过经典理论和概化理论。IRT解决了CTT未能解决的许多问题,但其本身也有许多缺点,阻碍其推广。本文拟对CTT与IRT(尤其后者)进行概括介绍,比较两者之长短,并对它们的运用前景作一简要预测。
一、CTT与IRT的主要内容
CTT是心理学研究者所熟悉的, 其基本思想是把测验的得分(通常称为测验的观察分)看作真分数和误差分数的线性组合,可归结为如下简单数学模型:X=T+e X是观测分数,T是真分数,e是误差分。传统信度、效度、项目分析的原理与方法均建立在这一模型之上。
IRT虽然在国外发展很快,但在国内研究不多, 因此对多数心理学工作者来说是比较陌生的,其基本思想与心理学中关于潜在特质的一般理论有关。它是假设被试对测验的反应受某种心理特质(因其无法直接测量,称为潜在特质)支配, 于是我们就可对这种特质进行界定。IRT然后估计出该被试这种特质的分数,并根据其高低来预测、解释被试对项目或测验的反应。因此IRT 主要在于建立各种与数据拟合的模型—确定被试的潜在特质值和他们对于项目的反应之间的关系。
CTT是建立在弱假设基础上的,IRT则建立在强假设基础上的。后者有三条基本假设:潜在特质空间的单维性假设—指组成某个测验的所有项目都是测量同一潜在特质;局部独立性假设—指对某个被试能力而言,项目间无相关存在;项目特征曲线假设则是对被试某项目的正确反应概率与其能力之间的函数关系所作的模型。IRT有各种各样的模型, 其中著名的是二级评分模型中的单参数逻辑斯蒂模型(即拉什模型)和三参数逻辑斯蒂模型,后者有项目难度、项目区分度、猜测三个参数。只要找到适合数据的模型,就可以对项目进行比较精确的分析。
二、CTT之不足与IRT之优点
CTT经过长期的发展,在理论与实践上都有公认的成就, 但仍存在许多无法克服的技术问题。在这些方面,IRT却有较大的突破。 这里就CTT的缺点,结合IRT的解决方法,对两者进行比较。
首先,CTT 依据其项目分析法所得的项目统计量受样本的抽样变动影响大。即项目统计量依赖于测验所实施的被试样组。CTT 中项目统计量主要是项目难度(P值)和项目鉴别力(D值或项目得分与测验总分的相关系数)。项目难度P=R/N是答对该项目的被试比率。 如果抽取的样本中,能力高的被试多,那么R值就高,P值也随之增高;若抽取的样本中,能力低的被试多,P值就会降低。在以D值为项目鉴别力的项目分析中,如果样本同质,那么被试能力高低差不多,高分组与低分组答对项目的比例就会相差无几,D值就小;若样本异质,D值就会大。以相关系数为鉴别力也是一样的情况。由此可见,抽样变动是CTT 无法解决的问题。
IRT能够解决这一问题, 它采用局部独立性假设与样本独立项目较准的方法。因为每个项目都各自有一条项目特征曲线,其项目参数固定,不需要根据抽样计算答对率来计算项目参数。因此针对曲线的横轴—能力水平上的某点θ,被试有一相应的答对概率。CTT是确定性模型, 某个被试确定为答对,或答错,而IRT是概率性模型, 每个被试有答对概率,随被试能力水平提高,答对该项目的概率提高。(这儿的答对概率与CTT总的P值不同,后者旨答对人数,前者是某个被试的答对概率)。至于样本独立项目较准,是指在IRT中,即使抽取不同被试样组, 估计出的项目参数仍旧是相对不变的,因此就可以用任何能力的一组被试的数据估计参数。这些估计值无疑就能运用于其它被试组,包括全部被试。另一方面,即使某个被试没有回答一个测验的全部项目,也可估计出项目的参数。
第二,CTT中,被试测验分数依赖于项目的难度, 使得进行不同测验的被试难以比较。不同测验测量同一种心理特质时,会得到不同测验分数。项目难度高,被试测验分数就低。为了解决这个问题,CTT 要求所有被试都实施相同的测验项目,才能对测验结果进行比较,即利用相同测验或平行复本测验被试。但是一般成就测验和能力测验适于中等能力的被试,对一般能力特别高或特别低的被试,估计时就不太精确了,因此需要有适合不同能力被试的测验。这就又回到了源头—适合不同能力的测验,势必项目难度不同。这样,被试的能力仍然难以比较。
为此,IRT提出了适性测验、测验独立被试测量、 测验等化来解决这一困难。适性测验是根据每个被试的不同水平,对不同的被试实施不同的测验项目,并使这些项目的难度和被试的水平相适应。其方法是先给被试呈现一道中等难度的项目,根据被试的反应情况(答对或答错),再从题库中选择下一个项目呈现给被试。可以采用固定分枝或灵活分枝等多种方法选择和被试能力相适应的项目。在这种情况下,被试能力当然就很容易比较了。适性测验另一优点是,能力高的被试不会要求回答低难度的项目,于是增加了挑战性;而能力低的被试又不会由于要求回答高难度的项目而失去信心。
测验独立被试测量,是指被试能力的测量不依赖于所选择的测验的难度,因此不管何种难度的测验项目,根据其项目特征曲线,都可估计出相应的能力值。这样就可以对这些被试的能力进行比较了。另一种解决方法是测验等值化。经典测验理论也有等化方法,但是依赖于被试样组,因此它在公平性、对称性和不变性方面都存在严重的困难。IRT 则不同,因为它具有参数不变性的优点,只要测验数据和模型是拟合的,就能克服上述困难。因为项目参数在同一量表上,同一被试的能力估计值不变。
第三,CTT中经常用到的平行测验假设是不可能实现的。CTT在平行测验(又称复本)的假设下估计测验信度、测量标准误,以及达到预期信度所需的测验长度。事实上,平行测验是不可能实现的,即使是同一组测验项目对同一组考生施测,因为遗忘、动机、焦虑程度、新知识与新技能获得的影响,也不可能达到完全平行的程度。
IRT就不存在这个问题, 因为它完全没有必要用到平行测验这一概念。
第四,CTT无法预测被试在一个新测验项目上的正确反应概率, 这一正确反应概率在适性测验中是十分重要的。更为重要的是,在实际工作中往往要对这一概率进行估计,以使编制的测验与被试的能力水平相适应。比如编制研究生入学英语考试,就要求有一定难度,以使最后的分数分布情况利于录取工作。如果测验能配合被试的能力水准,那就可得知其答对某题的概率。如果测验的项目都具有不同被试能力可能答对的概率,那么测验编制者就可以根据项目概率资料来预测某些被试组的得分情况。
IRT的项目特征曲线就明确表示出被试能力θ与项目的关系, 横轴θ,纵轴P(θ),它表示具有某能力θ的被试答对某项目的概率P。因此,只要已知被试的能力值,就可预测出他们可能答对某个项目的概率。这在某些入学考试中用处较大。
第五,CTT假设所有被试的测量标准误差都相等, 这是不太可能的,因为不同能力组在测验上的稳定性也不同。一方面,让能力低的被试参加一个较难的测验时,由于猜测性,其测量误差肯定比高能力被试参加该测验时的测量误差大。另一方面,再进行一次平行测验,就会发现低能力组被试成绩变动大,所以其测量标准误差也大。所以CTT 的等测量标准误差也是一个不小的缺点。良好的测验模式应能针对某一测验得分或被试能力进行精确的估计,不同的得分或能力有其不同的测量标准误差。
IRT理论就无此假设,它采用信息函数(包括测验信息函数、 项目信息函数、分数信息函数。其中,测验信息函数量是各项目信息量之和)来说明这一问题。项目信息函数是将反映项目特征的难度、区分度和猜测参数合而为一,它反映各个项目对不同能力水平被试所能提供信息的多少,信息量大,测量标准误差小。而分数信息函数I(θ,Y)则表示对于能力为θ的被试得分为Y时所得到的信息量, 它反映了测量的精确度。信息量越大,测量的标准误差越小。
第六,实际应用中,CTT也存在一些问题。CTT无法向测验编制者提供各项目及测验在其分数量表上具有最大区分能力的位置。比如高考要设定录取分数线,该点具有最大的区分能力,但CTT 却无法确定这一分界点。IRT却可以根据一定的被试能力θ, 综合测验中各项目的特征曲线,利用计算机程序确定临界点。另外,CTT在对项目偏差、 测验等值的研究上,所用方法不尽如人意,IRT 却有了较好的解决方法(在前面几点中已有论述,此处不再重复)。此外,CTT认为项目难度P是非等距的,因此要转化为等距量表,这样提高了计算复杂性;更主要的是项目统计量的计算中,仍然未考虑到“不等距”的这一面。比如以分组法计算P值,是高分组通过的比率与低分组通过的比率的平均数, 此处就用到了加法和除法,事实上是不能进行四则运算的。应该说这是项目统计量存在的问题之一。在IRT中直接用项目参数代替了项目统计量, 就不再受这些问题的困扰了。
最后要提的是关于题库建设的问题。米尔曼和阿特把题库定义为:一个容易取得测验题目的相对大的项目集合。建立题库,益处不言自明,但有条件,必须用计算机进行管理,题库中所有项目必须是高质量的,所有项目难度必须是在同一个量表上标定的。运用IRT 进行题库建设的基本思路和经典测验理论对题库建设的考虑是类似的,主要区别在于项目参数的获得、标准参照测验项目的选择、常模的建立等方面。CTT 提供项目统计量—项目难度和鉴别力,但依赖于被试样组。而IRT 项目参数具有不变性,因此各被试团体所得的项目参数具有可比性,对题库建设很有用。在项目的选择上,CTT 往往根据内容效度与项目统计量选择测验题;IRT则可以根据各项目在临界分数附近的信息量, 选择能够提供最大信息量的项目—最佳项目选择法,可以用这种方法以最少测验项目达到所需的测量精确度。在常模的建立上,因为根据IRT 所得的能力估计值具有不变性,因此运用某一样组的实测结果建立的常模可用于解释题库其它项目样组的测验结果。概言之,以IRT为基础, 用计算机建立题库是较省时省力的方法。
综上所述,CTT与IRT相比较,存在一些显见的缺点。造成这些缺点的原因是多方面的。首先是理论基础不可靠;其次在于弱假设,弱假设固然可以扩大应用范围,但因其限制条件减少,测量误差较大;第三,CTT把测验分数看作是一连续变量, 其分布用固定的均值和方差加以描述。但在绝大多数情况下,测验分数是二值变量的函数,其统计特性复杂。
三、CTT与IRT应用前景
尽管CTT有如此多的缺点,IRT有这么多优点,但是在IRT 出现后的四十余年,尤其在中国,未见流行多广。 在心理与教育测量中, 仍以CTT为基础进行大量心理测验,收集、评价各项目, 心理测量关于项目分析的教学部分也仍以CTT为主,鲜见IRT,这又是何故呢?
首先,CTT与IRT有相同之处。其一,两种理论最核心的部分都是其数学模型,两者模型的共同之处是把可观察到的被试的反应和无法观察的被试的潜在特质联系起来,只是CTT采用了线性确定性模型,而IRT采用了非线性概率模型,能更好地反映人的心理现象。其二,CTT 的真分数T和IRT中的潜在特质θ之间存在一一对应的关系,即,它们是用不同度量方式表示的同一种心理特质。其三,从项目参数和统计量来看,两者有密切关系。洛德(1980)认为,当被试能力为标准正态分布,并排除猜测因素时,CTT与IRT中的项目区分度有如下关系a[,i]≈ρ[,i]
,a[,i]为IRT中的项目区分参数,ρ[,i]为CTT中的项目i的区分度 ;对于项目难度,当被试能力为标准正态分布,并且没有猜测的情况下,b[,i]≈φ[-1](ρ[,i])/(-ρ[,i]),b[,i]是IRT的项目i的难度,φ[-1](ρ[,i])是标准正态分布的Z轴上某一点的Z 分数,通过该点作Z轴垂线,其左边部分的面积P[,i],P[,i] 为经典测验理论中项目的难度。
余嘉元通过蒙特卡罗实验发现CTT与IRT对被试心理特质和项目难度的估计精确程度除项目区分度以外,都是相近的。又由于国际上心理和教育测量的趋势是越来越多地使用标准参照测验,这种测验又并不强调项目的区分度,因此,CTT在未来的测量领域仍有其作用。
第二,IRT的复杂及本身的缺陷导致其应用范围受到很大限制。IRT强调以数学模型为核心,模型的数学公式复杂,令大多数人望而生畏,心理学工作者并没有统计学家那样丰富的数学知识,要理解它们是比较困难的,应用的可能性也就大大降低了。另外,IRT比较复杂, 人工计算是不可能的,计算机软件得到了一展所长之处。但由于各种软件有一定局限性, 主要是对被试数和项目数及适用的模型有所限制, 比如LOGIST是根据三参数对数模式设计的,要求被试人数至少为1000,项目数至少为40;BICAL软件分析Rash模型;BILOG处理单、双、三参数对数模型等等。所以对心理测量人员,首先要懂得什么模型用什么软件,又需要对被试数、项目数进行控制,自由度比较小。
最主要的是本文二中提到的IRT针对CTT所具有的那些优点中,有些并不名副其实。IRT的确在那些方面优于CTT,但离理想化的状态,相距仍十分遥远。比如项目参数估计的不变性,根据IRT, 应该是不管抽取什么样组,项目参数都保持一致。但事实上,IRT 仍要通过某些数据去估计参数;这些参数还是通过被试样组获得,不同的样组,测验数据就不同,据此估计的参数无法保证一致。换言之,把任何一组测验数据输入计算机,用IRT的软件进行估计,并不一定能得出稳定的参数值。 而要得出稳定的参数值,其首要的条件是测验项目和模型拟合。而拟合性指标又严重依赖于被试样组的大小,样组小,即使数据与模型有很大偏差,也难以检测出来。由此可见,对IRT 来说建立良好的模型与数据拟合是十分重要的。另外,由于IRT又是建立在相当强的假设基础上的, 因此对假设的检验就变得十分重要了。各种模型都需要进行检验的一条假设是单维性检验。恰恰在单维性问题上,IRT 承受着来自理论上和实际应用方面的巨大压力,学者们对此存在尖锐的不同看法,既然被试的测验数据不仅仅由能力θ决定,还受测验时的多种内外环境的影响,比如心境、身体状况、环境气氛,甚至气候、照明等等,那么IRT 要求的单维性假设就根本不能满足。IRT对此采取的做法是, 只要某种心理特质占主导地位,就算满足该假设。从严格意义上说,显然是有缺陷的。这也制约了IRT的发展及应用。
总之,CTT仍有存在、发展的趋势。在遇到一般问题, 不需精确求解的情况下,用它进行项目分析是恰当的,因为比较简单、易于掌握,而且作为一种传统方法,它相对自身而言,已经发展得比较充分了。而IRT只有在克服自身的一些弱点,尤其变得简单易操作以后, 才会广泛应用于教育和心理测验中,既然IRT确有优于CTT的地方,采用IRT 方法总较精确一些,唯有对之不断改进、完善,才能既推动其自身的发展,又推动心理测量理论的发展,进而促进心理测量的发展。