关于心理测验理论模式的比较,本文主要内容关键词为:测验论文,理论论文,模式论文,心理论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
世界上出现的第一个比较公认且可资实用的心理测验,是1905年比奈编制的智力量表。从那时起至今,心理测验发展和形成了自己一套完整的体系,真分数理论(True score Theory )和项目反应理论(ItemResponse Theory)构成了这一体系的基本框架。 由于真分数理论出现时间最早、发展时间最长、应用和影响范围最广,故被称为经典测验理论(Classical Test Theory), 而把近年来发展较快的项目反应理论称为现代反应理论(Modern Test Theory)。
一、经典论——真分数理论
经典测验理论也叫“经典信度理论”,因为它的主要工作就是估计测验中实得分数的信度或者是估计实得分数与真分数之间关联程度的,这样也把它称为真分数理论。这一理论由基本假设、信度、效度、标准化等几个基本概念组成。基本假设就是关于真分数与观察分数之间的一种假设,它假定观察分数由真分数和测量所产生的误差所组成的。信度,最早是由斯皮尔曼于1904年将其引入心理测量的,指的是测验结果的一致性程度或者可靠性程度,一般以两组测量结果的相关系数(信度系数)为信度指标,有时也用真分数变异数在总分变异数中所占比例来表示信度,主要有重测信度、折半信度、等值复本信度、布郎校正公式和克隆巴赫提出的a系数等。效度(validity)也称有效性, 是指所要测量的东西与实际所测得的结果的吻合程度,可分为内容、结构和效标关联三种效度,按基本假设,当测量次数足够多时,则所产生的误差可以互相抵消。但在实际测量中,由于测量次数达到足够多或者说要消除误差是不可能的,这样为了控制、消除误差源对测验结果所产生的影响,标准化概念便应运而生了。所谓标准化就是测验题目相同、评分标准相同、对施测结果用同一标准进行解释评价、施测条件基本相同等。同时为了进一步提高施测题目的鉴别力,建立了常模并提出诸如难度、区分度等一系列用以对题目进行分析的方式和方法。
经典理论常模可以说全部建立在真分数数学模式基础上。真分数理论模型是指任何测量皆由两部分组成:一部分是不能够观察到的,代表着某种潜在特质,这部分是真实分数部分;另一部分为观察不到的,也不能为潜在特质解释,这部分是误差部分。这两者构成任何一个测得的值(即实得分数),而且二者彼此之间没有任何关联存在。由此,只要符合这一模式的便为真分数理论模式,它可以用数学公式:X=T+E 进行表示。X代表观察分数,T代表真实分数,E代表误差。由此可见, 真分数理论这一数学模型建立在三个基本假设基础之上:其一,在所讨论的整体中的每一个个体具有恒定特质、量值确定、真分数不会改变;其二,误差是完全随机的。一方面,误差因素与个体特质无关,误差分数跟真分数值相互独立,另外,各平行测验上误差分数间、误差分数跟所测特质以及其它变量间相关为零;另一方面,误差因素为一随机变量,它服从于正态分布平均数为零;第三,观察分数是真分数与误差分数的和,而不是其它函数关系。这样,我们认为真分数理论属于随机抽样理论的范畴。它是参照具体样本来定义真分数以及难度、区分度、信度等测验质量指标的。因此,它所选用样本必须具有代表性,否则,所求得的各项结果都是不真实的,不具有类比特点。另外,它还指导了效度验证、测验等值、项目的有偏性的研究等问题。
通过上面假设,可以分析并得出多项结论:例如,误差分数的期望值为零;实得分数的变异数等于真实分数的变异数与误差分数的变异数之和;复本测验分数与另一分数或变项间的相关系数相同;实得分数和真实分数间之相关系数的平方等于复本测验间的相关系数的平方;任意两个测验的真实分数间之相关系数等于该两个测验的实得分数间之相关系数除以该二测验的复本测验的实得分数间之相关系数的相乘积的根等等。
综上所述,真分数理论已形成了自身一套完整简便易行的项目(试题)分析的方法与技术,就是:把难度定义为施测项目在所测被试组中的通过率,即P值; 把区分度定义为所测被试在项目上的得分与测验总分的相关系数,即为积差相关或双列相关等系数值。并要求按难度适中、区分度高的原则进行了筛造和修订项目,编制测验。
二、现代论—项目反应理论
项目反应理论,又译作潜在特质理论(Latent Trait Theory),项目特征曲线理论(Item Characteristic Curve Theory)。追根溯源,对于项目反应理论的建立,理查逊、劳勒、塔克为其打下了坚实的基础。首先,理查逊于1936 年提出了最初的估计项目反应理论参数的方法;其次,劳勒于1943、1944年进一步提出了一些参数估计的新方法;再次,塔克于1946 年第一个在心理计量学中引进了项目特征曲线(ICC)一词。但对于项目特征曲线得以正式建立要归功于美国的洛德和丹麦的拉希。洛德于1952 年在他的《测验分数理论》(A Theory of TestScore) 提出了现代测量理论中第一个项目反应模型——双参数正态肩形曲线模型,并第一次导出了这种模型参数的估计方法,成功地将这种模型与方法应用于真实的学业成绩与态度的测验调查资料。拉希提出了在项目反应理论中具有重要地位的拉希模型。但项目反应理论被提出以后并没有完全为世人所接受。直到1968年,《心理测验分数统计理论》(由洛德和诺维克著)出版以后才激发起了人们的研究兴趣。1969年,赖特和潘杰帕克森编成了拉希模型参数估计的计算机程序,名为BICAL 。这是项目反应理论中第一个专用的参数估计程序,使得人们能实际地将拉希模型广泛地使用起来,具有深远而重大的意义。另外,1969年塞米吉玛提出一些新的项目反应模型,且把单维推广为多维,把二分反应资料分析推广为对多级及连续反应资料的分析,从那时起项目反应理论得以迅猛发展。
项目反应理论是对被试能力的一种估计,并将被试对单个测验项目的某种反应概率与此项目的一定特征联系起来。这一理论是由潜在特质、项目特征曲线等基本概念组成的。所谓潜在特质是指被试某种相对比较稳定的、支配其对应的测验作出反应,并使反应表现出一致性的内在特征。由于特质是不能直接被观察到的,所以人们通常称其为潜在特质。多用θ表示特质或能力水平。它是测验所要测量的目标。项目特征曲线是项目反应理论中的最基本概念。现以三参数逻辑斯谛模型为例,详尽、透彻地对其进行分析。
三参数logistil 曲线图
1-C
这一曲线图的函数表达式为:P(θ)=C+---------------------
1+e[-1·7a(θ-b)],P(θ)是答对概率, θ为被试特质水平,而a.b.c是项目性能的三个参数。由此图可以看出, 它是点对称图形,是一条类似正态累积次数曲线的S形曲线。 从中可以看出它明确地刻划了答对概率随特质水平值提高而单调上升的关系。而且,这一曲线通过自身的形状和位置刻划了项目的测量性能。首先,其下尾端渐近线在纵轴上的高度C, 说明特质水平很低的被试答对项目的概率有多大。因而,C又称之为猜测参数(Guessing Parameter);其次,曲线的对称点称为曲线拐点,它在特质水平轴(θ轴)上的取值为b —这为曲线的位置参数。显而易见,拐点的位置越靠右,整个曲线也就要随之向右平移。可见,如果要在项目上取得一次大的答对概率,所需的特质水平就要更高。因此,b 值能代表项目的难度, 是项目性能的难度参数;再次, 以拐点为切点作一曲线切线,a 是跟切线斜率成比例的一个值。从图不难发现,当切线斜率增大时,曲线则变得更加陡峭,项目在曲线中部区特质水平能力就增强,反之,当拐点切线斜率减小时,曲线变得平缓,项目区分被试特质水平的能力就要减弱。因而, a 是项目性能的区分度参数(Discramenation Parameter)。当然,这一曲线,还有一种极为特殊的情况,就是曲线变成了一条与横轴完全平行的直线,这就意味着不论特质水平高低如何,答对项目的概率全都一样。总之,logistic曲线(这一类),能比较好地说明项目的性能和质量,另借助它又能统一地答对概率跟特质被试水平和项目性能(质量)有机地结合起来,这就构成了项目反应理论中最基本概念,称为项目特征曲线。
对能力进行估计的项目反应理论的模型可以说已经发展成很多种,但多用两种模型进行表示:正态卵形模型(Normalogive model )和逻辑斯谛模型(Logistic model),比较常用的是三参数逻辑斯谛模型。这一理论模型的基本假设包括能力维度(即潜在特质的空间维度)、项目特征曲线的形式和局部独立性等。对于能力维度,项目反应理论认为,资料背后起决定作用的内部特质可假定有一组K个,这K个特质就定义为K维潜在空间。被试在这K维空间中的位置,由他在这K 个特质上的实际水平来决定。对于项目特征曲线的形式事实上指项目反应理论不是首先从理论上推导出函数关系的存在,而是假定有某种形式的项目特征曲线,然后找出满足相应曲线的函数形式。所以,关于项目特征曲线的特征形式的假设实际上就是对未来函数关系的假设。对于局部独立性,是项目反应理论假定被试处在特定能力下或能力水平相同的一批被试在每个项目上的反应彼此之间在统计上是独立的,即在测验的几个题目是同时答对的概率等于在各题上答对概率的乘积。但这种假设有一个重要特点,就是测验成绩只取决于某种主导因素,其它因素均可忽略不计,而到底应采用哪种数学模型要由项目反应模型来决定。
三、经典论与现代论的优势与不足
1.经典论。经典测验理论因其理论模式历史悠久,规模甚大,而且计算公式简单明了,浅显易懂,所以它广泛应用于教育与心理测验和社会科学研究之中。当然,随着时代的发展,科技的进步,经典论已明显地显露出自身的局限性及不足,其突出的困难与不足有:
第一,按经典理论求得的各种统计量,由于过度依赖于样本,这样造成其普遍性是有限的,最多只适用于跟求出它们的样本组类似的被试。
第二,项目(测验)难度与被试特质水平被定义在两个毫不相干的度量系统上,从而它们的值不能进行比较。根据经典理论,真分数是实测项目上的答对个数或答对比率,故被叫作被试的掌握范围分数,这里,参照对象是项目组;而项目(及测验)难度,是所测被试组中的通过人数或通过比率,这里的参照对象是考生。显然,项目组答对比率为 0.85,与考生组通过人数比率0.85, 是两个毫不相干的度量系统上的取值,是不能进行相互比较的,但事实上被试特质水平和项目难度是有内在联系的,是能够进行比较的。可见,经典论并不能解决这一问题。
第三,信度,由于是建立在平行观念上,从而显得含混而不确切,据此求得的测验精度经常是低限估计或偏差不明估计。原因在于严格意义上的平行测验无法得到,认为测验对任何水平被试都具有同样的测量精度那是不可能的,是随被试的不同水平而发生变化的。测验项目只有在被试能力和其难度相匹配时,才能估计出被试水平提供最大信息;另外,要具体分析不同难度试题对不同水平被试能提供多大信息,每个项目对整个测验精度控制的贡献有多大,这样,才能从根本上保证得到准确的估计。
第四,测验编制的指导单一,基本是假定特质水平分布呈正态且保持不变而采取反复试误的方法,修订项目和测验使得分数与正态分布接近。而事实上,某些心理特质和学业成绩水平就不能认为一定接近正态分布,而且也不会长期不变。
第五,最重要一点,经典理论避开了一实质性问题——被试本身的内部特质与被试所面临任务及外部环境到底是一种什么样的关系。由此,事实上心理测验是很难反复施测的。
2.现代论。前面我们曾讲过,项目反应理论是在经典理论的基础之上发展起来,但绝不是经典理论,而是对经典测验理论的一种改进,具有一定的先进性,表现在:(1 )项目与特质参数具有固定不变的特点。这些参数的估计值不受样本不同的影响。即使被试接受了两个完全不同项目组构成的测验,估出的被试特质水平仍然会在同一度量系统上取值,仍然是相同的;(2 )项目反应理论可以对每位被试提出能力估计值的测量误差指标,而不是一个笼统的标准误;(3 )项目反应理论所提出的项目信息、测验信息等概念可以作为评定个别项目或整份测验的测量精度的指标,似可取代传统的“信度”,作为内部一致性的指标。并提出了项目信息量最大原则为测验编制新原则,以及组拼测验时对以测验信息目标曲线为指导的原则;(4 )项目难度和被试特质水平的取值定义在同一度量系统之上,为更好地筛选项目铺平了道路;(5 )如果说经典论对常模参照测验的发展给予了有力的推动的话,项目反应理论由于项目难度与被试特质水平相匹配,对标准参照测验的编制指出了明确的途径,并定义了经典论中没有类似物的项目和测验信息函数;(6 )经典理论对复本的标准化测验的建立都很有限,而项目反应理论具有参数不变性,对大型题库的建设以及自适应测验编制具有突出的优势。
虽然项目反应理论具有很大的优势,但它也具有自身的不足: (1)由于其理论假设建立在较深奥的数学基础之上,所以普遍性上有一定的难度;(2)由于项目反应理论从测量模型的理论框架来讲, 多使用1、0记分资料的单维模型,故造成其应用上的严重局限;(3 )由于受到苛刻的假设限制,必须有大样本进行配合,否则精确性则不高; (4)项目反应理论至今对经典理论许多研究领域未能给出什么新的观点与方法,或作出进一步的解释;(5 )在应用过程中多以先进的电脑科技作为辅助。
四、我国心理测验领域的发展方向
由于经典理论思想简单、易懂且方便实施,并为广大心理学工作者广泛接受,故将在相当长的一段时间内存在。通过比较我们可以看出项目反应理论克服了经典论的某些缺陷,虽也存在很多争议〔1〕, 但具有一定先进性,可见,今后我国的测验理论发展的新趋向将是以IRT 理论为主体,与其它小型理论〔2〕(包括经典理论CTT等)共存的一种局面,特别是建立在项目反应理论基础之上的计算机适应性测验则是未来发展的新趋势。
注释:
〔1〕陈立:《项目反应理论初评》,《心理科学》1991年第1期。
〔2〕张厚粲、丁艺兵:《心理测验理论及其发展》, 《教育研究》1988年第3期。
本文于1997年5月5日收到。
IICOMPARISION BETWEEN THEORETICAL PATTERNS OF PSYCHOLOGICALTESTRR True score theory and item response theory are the twogreat theoretical patterns of psychological test.The formeris to estimate the relationship between the
true scoreand the actual score,while the latter is to connect thereaction probability of the examinee to single testing
itemwith certain characteristics of the item. Item responsetheory can be said to be a development based on true scoretheory,but by no meas the true score theory itself. The twotheories are based on different theoretical hypothesis, andech
has
its
advantages
and
inadequacies.Today'spsychological test is under the situatuion where the twotheories cooexist,promote each other and supplement eachother,on the basis of which it advances more rationaly andmore perfectly true score theory/item response theory/ logistic model/item charateristic curve
Education Department,Inner Mongolia Teachers University
标签:真分数论文; 项目反应理论论文; 特质理论论文; 参数估计论文; 心理测试论文; 测量理论论文; 数学论文; 能力模型论文; 误差分析论文;