心理测量学的重大进展_心理学论文

心理计量学的长足进步，本文主要内容关键词为：计量学论文,心理论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

心理计量学（Psychometrics）是心理学、统计学和测量学互相交叉、渗透而形成的一门边缘学科。从这个意义上说，它是心理测量的统计研究方法论，也是心理统计在心理测量学中的应用。心理计量学不等于心理测量学。心理计量学和经济计量学（econometrics）、生物计量学（biometrics）、技术计量学（technometrics）、社会计量学、行为计量学等类似，都可归属于统计学的范畴，但也可认为是测量学的应用分支。

美国心理计量学协会（Psychometrics Society ）成立的宗旨和它的会刊Psychometrika所刊登文章的特点，从一个侧面反映了心理计量学与心理测量学的区别。本文主要介绍在80年代中期之后心理计量学发展得比较快的几个领域。

0 迅速的发展

心理测量学家Anastasi在她著名的《心理测验》第6版（1988 ）中写道：“八十年代是心理测验发展异乎寻常快的10年。技术的进步、理论的复杂化和专业人员（笔者加注：道德和法律）责任的提升，都是这个领域飞速发展的证明。”。10年之后，当《心理测验》第7 版问世时，她认为心理测验的发展在九十年代仍然势头不减，“（人们对）九十年代的心理测验高涨的兴趣是八十年代的扩展”（Anastasi&.

Urbins，1997）(1)。心理计量学家们认为，题目反应理论（IRT）、标准参照测量（CRM）、概化理论（GT ）、协方差结构分析、综分析（Meta-Analysis）、决策理论在测验中的应用、题目差异功能（DIF）分析、计算机化的测验的编制和实施等，使编制和评价能力测验和成绩测验的方法焕然一新（Hambleton & Zaal，1990(6)）。日新月异的心理计量学使传统的心理测量学的一些重要原则变得不再正确。1995年在由美国心理学会（APA ）的心理测验与评价委员会CPTA （Committee onPsychological Tests & Assessment ）负责召开的学术讨论会上， Lowman提出了一个严峻的问题：作为一个心理学家，应该懂得哪一些测量知识？一年之后，权威的《心理评价》杂志以同样的专题发表了专辑，Lowman为此写了引论（Lowman，1996）(7)。Embretson在这一专辑上的文章“测量的新规则”列举了6 个已经不再成立的传统的测量原则。（笔者注：Embretson是1997年NCME“杰出技术贡献奖”的得主。）严峻的问题和强有力的证据，读来发人深省。

1 一场静悄悄的革命

自从Lord 和Novick 的经典名著《心理测验分数的统计理论》在1968 年问世以来，一场静悄悄的革命在测验理论领域内发生了（Embretson，1997）(5)。这个理论即IRT，亦称潜在特质理论或项目特征曲线理论，或强真分数理论。这个理论很快地成为心理测量的主要理论基础。用这个理论去编制测验去解释分数，不仅理论上正确，而且在实践中具有更大的解决问题的潜在能力。例如Armed Services Vocational Aptitude Battery (Dept.of Defence,1996) ( 3 )、 Scholastic Aptitude Test和最新版的Stanford-Binet均以IRT 作为分析、评价的理论依据。

一维的IRT模型已经在实践中不敷应用，多维IRT模型（MIRT）在研究测验结构、进行DIF分析，在选择好的题目和等值研究中显示了它的优越性（Reckese，1997）(8)。1997年版的《现代IRT 手册》汇集了27个IRT模型，很多属于MIRT的范畴。

Embretson建议：由于IRT需要复杂的统计方法和技术，心理学的研究生们应该把IRT作为长达一年的必修的统计课程来读。她还建议：要为心理学的学生写一本专门的IRT教材，以心理学的内容作为教材中要阐述的例子，使学生学以致用。

2 两条综分析的路线

Meta-Analysis是一种综合研究文献的定量方法（Wolf，1986 ）(14)。正因为如此，将它译为“综分析”更为直截了当，相比之下“反省分析”和“元分析”的译法显得比较含糊。 1976 年Glass 引进Meta-Analysis这个术语之后，综分析很快受到心理学家的青睐，它被当作是一种科学的文献综合研究方法广泛地应用到心理学各个领域中去（Anastesi等，1997）(1)。以下数字充分说明这一技术的飞速发展：从1976到1978，综分析在文献数据库psyc-lnfo中只占0.5%和1.7%，到1983翻了一倍多，增长到4.3 %。到1985 年，论文标题中含 Mete-Analysis的有100多篇。在1987年，仅仅上半年，光在个性心理学和社会心理学领域内就有近100篇综分析的文章。从1990到1996，文献摘要中包括综分析这个词的数以千计（段斌，1997）(4)。

以Glass和他的同事们为代表的综分析，集中在研究统计量均值上；而以Hunter和Schmidt为代表的综分析，集中在跨研究的方差问题方面。这是两条互补的方向。关于检验量概率大小的综分析有7种方法，如Z和法（Adding Zs）、d指标和r 指标等；而关于效应大小（effectsize）的方差之分析,则至少有3 种方法。流行的统计软件包SPSS 和SAS均只用来产生综分析所需要的统计量。综分析在消除由于测量误差而引起的数据偏斜（bias）中起重要作用（Schmidt & Hunter，1996）(9)。

图1 测验理论的发展

3 3种测验理论

Cronbach和他的同事们在七十年代完整地提出了基于方差分量模型的概化理论（GT）之后，八十年代的测量理论界形成了三足鼎立的局面。图1直观地显示了这种态势。由于数学背景的高深和软件包的缺乏， GT一度萎缩。到八十年代中期，CTT、IRT和GT再度“三分天下”。由于实证评价（Authentic Assessment）顺应了美国教学改革的需要，开创了测验评价领域的新纪元（Stiggins，1991）(11)，GT得以大展鸿图。到九十年代初，GT几乎与IRT旗鼓相当；每10.000篇教育研究的论文中，GT与IRT各占20篇以上，是CTT的4—5倍。事实上，近两年的测量专业杂志上登载了不少用GT评价评分者的信度、估计界定分数的误差、评价学校的效率和研究分数的可推广性等文章（Yen，1997；(15)Cronbach ，Linn，Brennan & Haertel，1997(2)）。多变量的GT理论也从研究阶段到了实际应用阶段。

4 4类决策模型

给考生一个分数并不是测验的最终目的。通过测验录取新生、雇用新职员、招收公务员；通过测验，给被试适当的补救、建议被试朝某个职业方向发展；在教学中，通过测验发给合格或结业证书、评价教学效果等等。这可用一言以蔽之：决策！利用统计决策理论建立模型并寻找最优的分数之使用，是八十年代之后心理计量学中的一个活跃的分支（Van der Linden，1990）(13)。常见的决策模型有四个：（1 ）挑选决策（通过测验，淘汰一批，将“合乎”要求的进行“处理”，到处理结束，用一定的准则去判别当时决策的好坏）；（2 ）掌握决策（通过“处理”，将被试分为掌握与未掌握，在结束阶段进行考核，以检验“处理”的合适与否）；（3 ）分配决策（通过测验将每一个被试分配到相应的类别中去）；（4）分类决策（它和（3）的区别是后期用不同的准则去验证处理的恰当性，而不是如（3）那样用相同的准则）。决策模型中的测量结果可以用极大极小化方法处理，也可以用贝叶斯方法分析。一个成功的例子是用决策理论来确定界定分数（cut-off score ），以极小化错化的概率。

5 5类题目差异功能（DIF）的分析方法

测验的公平性是一个优良测验的基本条件，为此北美的测验编制者和使用者有一个共同必须遵守的法规（即code）。DIF 是可能造成测验偏斜的一个重要原因，也是使测验无效的最重要的因素之一。因此， DIF的研究在近几年中逐步地完善了起来。如果置基于CTT的方法于一边，跳过两级记分的IRT 模型，已有五类分析多级记分的DIF 方法：SIBTEST（Shealy &.Stout，1993）(10)、logistic回归、标准化、推广的Mantel-Haenszel方法和logistic判别。

所有这些方法都源于一个定义：如果一个题目对具有相同能力的两个可比的团体产生了不同的反应结果，则该题目属于有差异功能的题目。用数学语言来说，有DIF的题目使以下等式不成立：E[,R]（Y │θ）＝E[,F]（Y│θ）。这里E是期望算子，Y是观察变量，θ为潜在能力，下标R和F分别代表了参照组和目标组。当然θ可以是观察分数X 或真分数t。

6 6个测量新规则

在应用心理学会中，新知识的发现和常规的知识应用之间总是存在着一种显著的后滞。心理统计测量也不例外。面临着心理计量学的飞速发展，编制或应用测量评价过程的心理学家们应该重新认识许多传统的概念和公式，缺乏这样的新知识，或者误用了有关的技术，是难以原谅的（Lowman，1996）(7)。下面是Embreston列举的6 个新规则：①测验分数的误差不再是一个常数，它随着特定总体内考生的考分而变化；②较长测验不一定比短测验更为可靠，短测验可以具有比长测验更高的信度，这取决于如何挑选题目；③“多种版本的测验分数的可比性依赖于测验的平行性或测验等值”不一定是对的，在IRT模型中，那些难度有相当大的差别的测验版本（当然，不可能是平行的版本），会产生可比的分数估计；④无偏的题目参数估计可以从一个没有代表性的考生样本中获得；⑤意义明确的量表分不一定依赖于考分分布的位置比较，它可以从比较不同题目间的距离来获得；⑥为了使原始分的分布达到正态化从而考分具有等距量表的性质，以这样的原则来挑选题目已经是不必要的了，只要模型合适，IRT的分数具有等距量表的性质。

7 7种结构方程建模（SEM）的软件包

在八十和九十年代，心理学家们在各自的专业领域内应用SEM 的速度之增长给人以十分深刻的印象（Anastasi等，1997）(1)。由于心理学家们经常用模型来考虑问题，而SEM 给心理学家提供了一个从理性思维到经验行动的途径，所以SEM 已经成为心理研究中十分有用的工具（Tanaka，Panter，Winborne &.Huba，1990）(12)。SEM 的应用如此广泛，其理由之一是它是许多非常有用的统计方法之“母”。例如：相关、一元回归、多元回归、典范相关、通径分析及验证因素分析等等，都是SEM在某种情况下的特例。当然，SEM可以处理如此复杂的关系数据,依赖于计算机软件包的辅助。目前,至少有以下7 种软件包可供使用：SAS中的LISCOMP.SPSS中的LISREL、简化的LISREL （即SIMPLIS ）、 Bentler和Weeks的EQS、Fraser和McDonald的COSAN、Lohmoller的PLS以及Schoenberg 和Armiger 的LINCS （Linear Covarance

StructureAnalysis）。笔者推荐使用LISREL，不仅是由于个人的选择，而且是因为LISREL的作者Joreskog在SEM理论和方法上所具有的领先地位。

标签：心理学论文;

心理测量学的重大进展_心理学论文

猜你喜欢