功能差异分析在心理测量中的应用_差异分析论文

被试功能差异分析在心理测量中的应用,本文主要内容关键词为:差异论文,功能论文,心理测量论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:R395.1 文献标识码:A 文章编号:1005-3611(2011)03-0316-03

上世纪70年代之后,项目反应理论(Item Response Theory,IRT),已在发展教育心理测量方面得到广泛应用,近来在临床心理方面的应用也逐渐增加[1]。主要包括项目功能差异(Differential Item Functioning,DIF)、计算机化自适应测验以及量表的项目和功能分析,尤其是DIF得到了非常广泛的应用,现今已是大型测验的标准操作程序之一。心理测量有两个主要的目的:一是反映某种心理特征在不同个体之间的差异,二是反映个体内部各项特征的差异。DIF分析主要是关注不同被试间的差异而忽略了被试个体内部的差异,而这恰恰是被试功能差异(Differential Person Functioning,DPF)所关注的重点。DPF分析可以用于考察不同类型的测验项目对某个被试的测量是否具有相同的效果。在成就测验、人格测验以及认知测验领域,可用来甄别被试异常的反应模式、考察不同测验形式对被试反应的影响和评分者的一致性等。它在详细了解被试自身能力特点的同时也为测验研究者提供有关测验本身的信息。本文试图对DPF的概念、计算方法及其应用情况做一综述。

1 被试功能差异(DPF)的概念

DPF的概念是由DIF延伸得来的,但它在数据分析过程中将DIF分析中的项目-被试矩阵转至被试-项目的矩阵中进行,考察被试在不同难度的项目组之间反应是否具有偏差,从而分析被试个体内部的差异。Johanson与Alsmadi正式提出了DPF的概念,被试功能差异(也被译为个人功能差异)是指某个被试对于不同的项目具有不同的反应,也就是说,被试对于不同类型(如内容范围或测验形式)但具有相同难度的项目,答对的概率不同[1]。

DPF包括一致性DPF和非一致性DPF两种类型,前者指被试反应与项目难度水平之间没有交互作用,在所有难度水平上,被试答对某一组项目的概率都大于另一组,其作答呈现明显的单向性(图1);后者指被试的反应与项目难度水平之间存在交互作用,例如在某个难度水平上,被试对目标组项目的正答率高于参照组的项目,而在另一个难度水平上,被试对参照组项目的正答率高于目标组(图2)。

DPF与另外几个有关测验偏差的概念非常相似,如DIF(项目功能差异)、Person-fit(个人拟合)、Person impact(个人影响)。在这里将逐一对这些概念进行区分。

DIF是一种考察测验项目对于来自不同团体的被试是否具有相同功能的分析方法,通过观察项目特征曲线来揭示同一项目在不同被试组之间是否存在差异;而DPF所关注的是同一被试对在不同项目之间的差异。因此,DIF分析被用于考察测验在不同被试团体中公平性,而DPF分析则用于考察被试在不同类型项目中表现出的差异。

Person-fit是一种对个体在测验中的反应与某一IRT模型拟合程度的评估方法,可用来检测个体反应模式与整个测验以及模型预测的能力水平之间的一致性程度。它与DPF极为相似,它们都是通过检验被试反应的偏差得到被试的信息。不同的是:Person-fit所考察反应偏差是针对整个测验的模式,其分析的基础是测验的数学模型;而DPF针对的则是测验中不同的项目组,与整体模型不一定有关。

由此可见,Person-fit的局限在于它并不能提供更多关于具体项目的信息。同样,DIF的局限在于它仅能提供测验项目与被试组的信息,却不能提供单个被试的信息。相比而言,DPF是一种理想的方法,它可以将项目的信息与被试个人的信息结合起来进行分析,以提供更加全面综合的评价指标[2]。

Person impact也是分析个体反应偏差的一种常见方法,它关注的是不同项目对被试回答正确率的影响,这些影响是单纯由于项目不同而造成的,被试反应的变化是随机的(如图3)。只有被试对在不同项目组之间的反应差异固定地出现时,才被称为DPF(如图1与图2)。并且Person impact只能在项目的平均水平进行分析,并不能控制项目难度等因素的影响,DPF是在将条目按照难度或其他类型配对后进行分析,可以提供更多的信息[2]。

图1 一致性DPF

图2 非一致性DPF

图3 个人影响

2 DPF的计算方法

DPF作为DIF研究的一种拓展和延伸,许多研究都采用了与DIF分析相同的统计方法,但其关注的焦点是被试对不同项目反应的差异。

2.1 Mantel-Haenszel(MH)法

MH法是分析DIF时最常用的方法,也被许多研究者用于DPF的分析中。被试在每一个难度水平下的反应构成一个2×2列联表,采用“aMH”指标来检验。MH方法对一致性DPF比较灵敏,但对检验非一致性DPF比较迟钝。因为当被试表现与项目难度出现交互作用时,即在某个难度等级上目标组的正确作答概率高于参照组,而在另一个难度等级上参照组的正确作答概率高于目标组时,MH法会将不太明显的差异互相抵消,因此必须进行统计显著性检验[3]。罗贵明对2004年度全国经济专业技术资格考试的DPF进行分析时发现MH法能有效甄别DPF(罗贵明,个人差异研究及其初步应用硕士学位论文:江西师范大学,2006)。

2.2 Logistic Regression(LR)法

Abdulla在评分者判断标准的研究中,使用MH法与LR法对不同评分者设定标准的DPF进行考察,结果发现两种方法所得出的结果非常相似[3]。Allsmadi对加利福尼亚成就测验的DPF分析结果也表明两种方法产生的结果具有很高的一致性,但在实际应用过程中,LR法更为有效,因为它可以处理同时包含两个或以上控制的变量[4]。

2.3 IRT方法

DPF可以看做是被试对一组项目的实际反应与所选的IRT模型预期反应之间的差异,可视为模型的残差。Engelhard[5]采用残差分析法对RASCH模型下的DPF进行研究,所选用的指标是Outfit。计算估计值与实际观测值之间的残差,然后计算出标准化残差,继而得出每个被试的Outfit值。Outfit=1时,说明模型与数据拟合非常好不存在DPF;Outfit<1.0时,被试的反应存在作伪的嫌疑;Outfit>1.0时,表明有模型之外的变量影响了被试的反应。在这种方法中,DPF被视为一种模型与数据不拟合的情况,与Person-fit很类似。

3 DPF在心理与教育测量中的应用

3.1 侦查被试的异常反应模式

Johanson与Alsmadi在2002年运用DPF方法分析了384名小学六年级学生在加利福尼亚成就测验中不同类型的数学题目(计算题与应用题)的反应模式。他们采用MH法侦查被试的异常作答反应,结果发现部分被试表现出非常显著的一致性DPF,而部分被试则表现出非常显著的不一致性DPF。进一步分析发现这些存在异常的反应模式的被试其各种能力水平具有差异性[1]。因此,通过DPF分析我们可以发现被试自身能力的强点和弱点。

在人格测验中,常常会遇到被试不真实回答的现象,这种情况的出现常有两个主要原因:一是被试在下意识地迎合社会赞许的标准而进行自我欺骗;另一种则是被试为了达到某种目的而进行的印象修饰,这是被试故意而为的。虽然被试的不诚实作答会严重影响人格问卷的效度和使用,Scherbaum认为,一些具有异常反应模式的被试可以为测验提供许多有用的信息,如果将其直接从结果中剔除,会带来很大的损失。因此他用DPF分析了被试在“大五”人格测验中的异常反应出现的原因和程度。在人事测评中有必要对被试的结果进行DPF分析,以便进一步了解被试各方面的特点[2]。

3.2 不同测验形式对被试反应的影响

许多临床量表中的项目都具有正面表述和负面表述两种形式,不同的表述方式可能会对被试的反应造成一定的影响。Cronbach最早将那些在是-否测验中每次遇到不确定项目就选“是”的人称为“默许的”。后来Rorer发现一些被试在回答正面表述项目中更倾向于选择“是”,他将这种反应称为“默许反应”。

Johanson与Osborn在2001年分析临床态度量表过程中,发现被试在回答正面表述与和负面表述的项目时均有不同的反应模式,一些异常反应模式导致了量表的第二因子几乎全部由负面表述的项目组成,这表明DPF的存在[6]。2004年,他们二人又重新用DPF的方法将这些份数据进行分析,结果表明DPF是鉴别态度量表中被试“默许反应”的有效方法[7]。

Weems等人研究了被试对于正面表述和负面表述的项目反应的差异,通过调查被试在对焦虑自评量表、阅读理解能力、工作环境选择问卷、学习习惯调查等一系列态度量表的正面表述项目与负面表述项目的反应特征,得出项目表述方式的确会对被试反应造成影响的结论,通常正面表述项目的反应均值高于负面项目。另外,这种特征可以用于鉴别在两种表述类型上反应差异较大的被试,从而为我们了解被试提供更多信息[8]。

Johanson与Brooks的研究表明,左利手与右利手的棒球运动员用其利手进行连续击打与轮流用左右手击打时的成绩存在明显差异[9]。Alsmadi与Alsmadi对150名被试在情绪智力问卷中的DPF进行分析,发现其中共有20人表现出DPF。他们认为在情绪和认知诊断测验中,有必要对被试进行DPF分析,尤其当测验包含有几个不同类型的内容时,采用DPF分析可以全面了解被试自身能力的特点[10]。

3.3 评分者一致性

Jones,Andrew对于在人事决策中划界分的差异造成的影响进行研究,发现DPF的存在会影响评分者对于被试能力值的估计,尤其在划界分的附近,影响更大[11]。Tamanini研究了评分者的一致性,他们采用DPF与另外两种传统方法考察了评分者在严格/不严格方面的差异,但研究并未能证实DPF方法比传统方法更加敏感。因此他指出还应该进一步探索检测不同评分者之间存在差异的有效方法[12]。然而,研究不同评分者在制定划界分或合格标准时是否具有一致性,这是保证测验公平性的重要方面。尽管DPF分析方法在这方面的作用尚有待证明,但仍值得研究者进行尝试和深入探讨。

由于DPF的研究时间较短,目前研究者重点关注的是某个被试对于不同类型的项目的反应差异,以及这些差异产生的原因。尽管对被试在个体水平上的具体分析和评估比较费时费力,但它却能全面综合的了解被试的信息与项目的信息。对于被试者个人而言,可以通过测验了解自己各方面能力和优缺点,对于测验编制人员来说,也可以考察出那些对项目的反应具有明显差异的被试所具有的特征,得到关于项目和测验的信息,对人格综合评价和测验修订提供了新的视角。

标签:;  ;  ;  ;  

功能差异分析在心理测量中的应用_差异分析论文
下载Doc文档

猜你喜欢