项目反应理论在心理测量学中的地位_项目反应理论论文

项目反应理论在心理测量学中的地位,本文主要内容关键词为:学中论文,地位论文,理论论文,项目论文,心理测量论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

心理测量学是一门研究心理测验与评估的科学。它包含两个有机的组成部分:一是心理测验的编制和应用,二是心理测验资料的统计和评估。这两个部分紧密相联。心理测验资料的统计和评估在心理测量学中的地位已被心理学界所认同。国内有学者撰文指出:“当实际的量表工作或测验编制工作达到一定水平之后,统计研究的不足早晚会影响到量表工作质量的提高……统计研究的水平决定了心理测量水平,它在很大程度上制约着心理测量学的发展。”(陈富国、李伟明,1988。)当今心理测量学界对心理测验资料的统计处理存在着三大学派,即经典测验理论(ClassicalTestTheory,

CTT )、概括化理论(Ganeralizability Theory,GT )和项目反应理论(Item

ResponseTheory,IRT)。其中经典测验理论和概括化理论都属于随机抽样理论,它们的理论基础都是建立在真实分数模式基础上的。本文试图对经典测验理论和项目反应理论的基本假设、项目参数、基本概念等作一比较(对概括化理论则不加讨论),着重阐述项目反应理论在处理材料信息上独到的见解和方法,从而预测心理测量学的发展方向。

一、项目反应理论(以下简称IRT )和经典测验理论(以下简称CTT)的比较

(一)关于数学模式。CTT是最早的测验理论, 它是建立在真实分数模式基础上的。所谓真实分数模式,即是指任何测量值皆由两部分组成,一是实际代表某个潜在特质的“真实分数”,二是观察不到也不被潜在特质所解释到的“误差分数”。这两部分之间没有任何关联,即相互独立。若以数学公式来表示,则是:X=t+e

其中X代表实得分数,t代表真实分数,e代表误差分数。CTT依据的是一种弱势假设,被试的某种潜在特质无法单有某次测验的实得分数来表示,它必须在无数次测验的基础上,求其平均值才能代表。

IRT是以项目特征曲线和潜在特质等概念为理论架构, 依据强势假设来发展其理论模式。它的核心是项目特征曲线。项目特征曲线描绘了被试的某一能力水平与它可能正确回答项目的概率之间的关系。 如图1所示是一般化的项目特征曲线。θ表示能力或特质水平,Pi(θ)表示θ能力的被试回答i项目的正确率,θ与Pi (θ)之间的关系可以用三参数logstic模型表示为:

1

Pi(θ)=Ci+(1-Ci)─────────────

1+exp〔-Dai(θ-bi)〕

a、b、c三个参数可定量表示θ与Pi(θ)的关系。a 指曲线拐点处的斜率,b指曲线拐点上的θ值,c是下渐近线,表示随机猜测的可能性。

图1

θ和t都是表示被试的潜在特质的,但两者有一个基本不同, 当θ的均值和方差求得以后,被试的θ就不再依赖特定的测量工具,以θ表示个体可以跨不同组的测验项目进行比较。而t 是按照所回答的特定项目来定义的,从测量同一结构的两组项目中得到的t值是不可比的, 除非项目组在CTT意义上是“平行的”,但事实上, 在实际的测验情境里,“平行测验”的假设不合理也不可能。

(二)关于基本假设。在CTT中,基本假设主要有五条:

1、x=t+e(实得分数等于真实分数与误差分数之和)。

2、E(x)=t(实得分数的期望值等于真实分数)。

3、ρte=0(真实分数与误差分数的相关系数为零)。

4、ρele2=0(不同测验的误差分数间呈零相关)。

5、ρelt2=0(不同测验的误差分数与真实分数间呈零相关)。

在IRT中,基本假设主要有四条:

1、单向度假设, 即测验中的每一个项目都测量到同一种共同的潜在特质。

2、局部独立性假设,即被试在每一个项目上的反应是独立的, 在n项目中观察到的反应并不能对n+1个项目的反应提供附加的信息。

3、非速度测验假设, 即测验的进行是在没有时间限制的条件下完成的,被试在项目反应上不理想,是由于能力不足引起的,而不是由于时间不够所致。

4、知道——正确假设,即被试知道某一项目的正确答案, 他必然答对,换句话说,若答错某一项目,则他必然不知道答案。

(三)关于估计测验可靠程度的指标。在CTT中, 通常用信度来表示测量可靠程度。信度被定义为是真分数变差与实得分数变差之比,用公式表示即为:

γ=λ[2][,t]/λ[2][,x] 公式(1)

式中λ[,t]为真分数变差,λ[,x]为实得分数变差。事实上,真分数、真变差在实际的心理测量中不可能直接测量到,因此信度常用两个平行测验的相关来估计。根据估计的信度,就可以求出测验误差变差。由公式(1)得:

r=λ[2][,t]/λ[2][,x]=1-λ[2][,e]/λ[2][,x] 公式(2)

λ[2][,e]为误差变差。

所以,λ[2][,e]=(1-r)λ[2][,x]

公式(3)

在IRT中,不使用依赖于平行测验的信度指标, 而是深入到分析每一个项目所能提供的信息量的大小,分析每一个项目的测量误差,并得出整个测验的信息函数,以这些指标对测量的可靠程度作出估计。具体说来,可以分以下几步:首先,对于一特定θ水平,可以计算出项目提供的信息量I(θ),公式为:

n〔Pi(θ)〕[2]

Ii(θ)= Σ ─────────公式(4)

i=1

Pi(θ)Qi(θ)

式中Pi(θ)是给定能力θ在项目i上的正确反应概率, 即在项目特征曲线上的值,Qi(θ)是错误反应的概率,Pi(θ)是项目i 的项目反应曲线在θ处的导数(斜率),Ii(θ)值越大,表明项目提供的信息越多,在θ水平的测量越精确。然后,把项目信息函数Ii(θ)连加便得到测验信息函数,用公式表示即为:

n

Ii (θ)= ΣIi(θ)

i=1

IRT中测验误差被定义为与在θ处的信息量成反比,即:

1

λ[2][,e]=───── 公式(6)

I(θ)

比较公式(3)和公式(6)可以看到,在CTT中, 测量误差是一个统计量,它依赖于样本;而在IRT中,测量误差不是一个统计量, 它依赖于能力水平θ,是关于θ的函数。不同的θ,有不同的标准误,因此在IRT中用信息函数I(θ)来对测验可靠性作估计。

(四)关于项目参数。在CTT中, 难度和辨别力通常可以用数学公式来计算。其中较为简单的一种方法,是分别计算高分组和低分组正确回答某一项目的比例,然而求其平均值,公式为:

P[,H]+P[,L]

P=───────公式(7)

2

D=P[,H]-P[,L] 公式(8)

P[,H]为高分组正确回答某一项目的比例,P[,L]为低分组正确回答某一项目的比例,P表示难度,D表示辨别力。

而在IRT中,项目参数可由不同的数学模式来估计。 如前述的三参数logistic模式中,参数b相当于难度,参数a相当于辨别力,可以用迭代逼近法或递次逼近法估计。目前已有计算机程序。

二、项目反应理论的优越性

从上述比较可以看出,IRT与CTT是有很大差别的。在较强的前提假设下,IRT有许多优越性,CTT可以得到的信息,IRT 都可以在更高的层次上、更可靠的意义上获得。IRT 的出现导致了心理测验领域全新的变化。有人称“项目反应理论之与经典测验理论,就好比爱因斯坦相对论之与牛顿的理论”(Warm,1978)。

IRT在以下几个方面表现出了较为突出的优越性:

(一)IRT在估计被试能力或潜在特质时, 同时考虑被试的反应组型,因此对于原始得分相同但反应组型不同的个体,也往往提供不同的能力估计值,这一特性是CTT所无法比拟的。在CTT中,原始得分相同的被试,其能力估计值也相同。

(二)IRT可以针对每个被试提出其能力估计值的测量误差指标,而不是以一个笼统的标准误来代表测量误差,因此能够比较精确地断定每个被试能力估计值的误差范围。

(三)IRT所采用的项目参数,不依赖于被试样本, 也不依赖于项目库,这一点CTT也无法做到。

(四)IRT 可以由同质性较高的分测验中计算出被试的能力估计值,主试在时间、精力有限的情境下,可以较快而又不失精确地获得所需要的信息。

(五)IRT提出的项目信息函数和测验信息函数的概念, 可以作为评定个别项目或整份测验的测量误差的指标,完全可以取代传统的“信度”概念。

三、项目反应理论的发展前景

IRT的理论假设是建立在严谨的数学统计模式基础上的, 它借助于电脑科技在近一、二十年取得了突飞猛进的进展。在过去的十余年中,不断有新的项目反应模式诞生,有新的项目参数估计方法提出,国内也有一些学者对IRT进行了一系列的应用研究。

但总的说来,目前我国对IRT的理论和应用研究尚处于起步阶段, IRT的推广应用更要受到一些客观条件的限制。IRT对模式参数的估计,必须要有电脑的辅助,没有电脑, 其繁琐的运算过程几乎无法完成; IRT的应用推广,还需要应用者有较深厚的数学功底, 或至少在数理统计方面训练有素, 这是国内一般的心理学者所缺乏的, 因而推广应用IRT的步履相当缓慢。

然而,正如本文第二部分所述,IRT在理论架构、 项目参数的估计、可信度指标的获得等方面都比CTT更为精确和有效,因此, IRT 取代CTT已成为必然趋势。我们有理由相信,随着电脑技术的进一步普及, 随着心理学者、教育学者知识结构的更新,IRT 在我国的普及推广也只是时间问题。IRT最终必将取代CTT而成为心理测量学的一大主流。

标签:;  ;  ;  ;  ;  ;  

项目反应理论在心理测量学中的地位_项目反应理论论文
下载Doc文档

猜你喜欢