心理测验:问题和对策,本文主要内容关键词为:测验论文,对策论文,心理论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
自1905年以比奈为首的心理学家们创立了作为诊断异常儿童为其初衷的心理测验以来,其应用已经扩展到“鉴别智力、因材施教、人才选拔、就业指导、临床诊断”〔1〕等广泛的领域。 这种在实践中的应用可谓势头强劲。但冷静地思考一下,心理测验的学科水平不是很高,而且还存在许多问题。本文通过对心理测验的内外因的分析,指出了存在的问题,并进而提出一些解决问题的对策,以求教于同行。
一、心理测验内部存在的问题分析
1.主体的偏差。心理测验是一个从测量量表的编制、施测到结果的解释的过程。参与这一过程的主体可能有两方、三方,也可能有四方。有时候测量的编制者就是施测者,同时也是结果的解释者,再加上被测者共有两个主体;也可能是编制者与施测者相分离,与被测者构成三方存在于测量过程的情况;但有时也有编制者、施测者、结果解释者与被测者构成测量过程中四方主体存在的情况。不论是哪一种情况,只要这一过程有主体存在,就不可避免地出现偏差。主体越多,偏差越大。我们惯常称这种偏差为系统误差或常误。
当人们认识到某些心理因素的可测性后,或由实践的需要进行量表的编制时,首先面临的一个问题是编制什么样的题目来对被试进行施测。由于作为主体的编制人员的不同,所选定的题目就会有别,这样要测到什么与能测到什么,就发生了第一次“折射”。如果编制主体与施测主体分离,施测主体就有一个对编制主体设定的题目、指导语以及整个施测过程的感知过程,这就产生了第二次“折射”。同理,若结果解释主体与施测主体再分离,就会产生第三次“折射”。而且每一次都有一个被测试主体的“复合折射”。从这个意义上说,心理测验的主体偏差是与测验共生的。
2.理论的薄弱。一定的心理测量都是以一定的理论为基础建立起来的方法体系。从心理测验发展的历史看,有两种理论较有影响。一是传统心理测验的基础理论——经典测验理论(Classical Test Theory );另一是项目反应理论(Item Response Theory)。经典测验理论又称真分数理论。这种理论由基本假设、信度、效度、标准化等概念组成。基本假设就是观测分数与其分数关系的假设。该理论认为,观测分数X是由真分数T与误差E组成的:即X=T+E;或X=T-E。
如果观测次数足够多,那么,误差E的平均值就趋近于零, 观测值X[,1]的平均值就可作为真分数的估计值。
信度(Reliability),亦称可靠性, 表明的是测验结果的一致性或稳定性。信度估计常用的方法有三种:一是再测信度(Test—rete-st reliabilety),即用同一测验对同一组被试,实施前后两次测验,通过计算两次施测结果的相对系数的方法评估信度。二是对一个测量制作两个复本,一组被试先后接受两个复本的测验,据得分算出相关系数,这就是复本信度(Alternate—form reliability)。 三是当一种测验没有复本且只能施测一次时,可将测验题目按奇偶数分成两半计分,求得两半分数之相关,可得劈半或分半信度(split—halfreliabili-ty)。
效度(Valiclity),亦称准确性, 指测验能测出它所要测量的特征和功能的程度。 效度测量的方法也有三类:(1 )内容效度(Content valiclity),就是要检查测验内容的适切性, 主要是分析测验项目是否反映出足够的典型行为样例并具有适当的比例分配。(2 )效标关联效度(Giterion—Related valiclity), 是以测验分数和效标之间的相关系数来表示测验效度的高低,可分为同时效度和预测效度。前者如教师的评定或学生成绩同测验分数的相关;后者如就业后的工作成绩同测验分数的相关。(3)构想效度, 旨在用心理学的某些观点来说明,分析测验分数的意义。
依其分数理论。要消除误差,就要做到测量次数足够多,但是在实际测量中,要做到测量次数足够多是很困难的。因此,测验的误差仍然是存在的。于是经典测验理论就创立了标准化的概念来控制或消除误差。即做到记分方法和结果的解释参照同一标准。为了提高题目的鉴别力,还提出了难度、区分度的概念。但划一的标准也带来了许多问题。使用同一题目,采用同一时限,对不同能力的被试者来说,是不能够真正测出各自的真实水平的。因此,标准化测验忽视个别差异,缺乏灵活性是显而易见的。
凡此种种,无论经典测验理论如何努力摆脱自身的不足,这种不足总是伴随其共生存。尽管它试图保持其估计指标恒定不变,但这还是难以做到的,因为这些指标都是根据总体中的某一个样本得出来的,不管你采用了什么样的取样策略。
传统心理测验理论基础的缺陷,带来了测验本身的困境,为改变这种状况,心理测量学家们试图寻找一种新的方法和理论来代替传统理论。这当中最有影响的当为项目反应理论。
项目反应就理论以能力维度、局部独立性、项目特征曲线三个基本假设和能力与测验分数的分布、信息概念等基本部分组成。
能力维度(Dimensionality),即假设被测成绩只取决于一种主导能力,其它能力忽略不计。局部独立性(Local independence),即假设被试在某个项目上答对的概率独立于在其他项目上答对的概率。当能力维度为一维时,项目特征曲线可以由单参数、双参数以及三参数来描述。项目特征曲线采用哪种特定的数学形式以及描述这些曲线所需要的参数量,是由项目反应模型决定的。一维项目反应函数分为正态卵形曲线模式(Normal—ogive model)和逻辑斯谛模型(Logistie moclel)。现在比较常用的是三参数的逻辑斯谛模型。它的数学表达式为:
式中的ai、bi、Ci分别代表项目的区分度、难度和能力较低者对项目回答正确的概率。θ为能力。P (θ)表示能力为θ的被试作对某题的概率。参数Ci是项目特征曲线低端的渐近线,它表示较低能力水平的被试对项目正确回答的概率。其中有影响被试成绩的猜测性。一般地称参数Ci为假机遇水平参数。参数bi用来调整项目难度,它处在对该项目的正确反应概率为(1+Ci)/2这一点上。当Ci=O时, 上式就为二参数模型。当Ci=O,而ai为一常数时,则上式为单参数模型。ai作为项目的区分度由项目特征曲线的斜率来表示。对于难度为bi的项目,斜率越大,则区分度越大,即越能把被试的能力区分开来。
项目反应理论的信息概念反映的是测量的准确性。测验信息是各项目信息的总和。每个项目对整个测验的信息的贡献是独立的。因此,在不知道其他项目的情况下,同样可以确定单个项目的贡献。因此项目信息也是建立题库、进行变通式测验的一个主要的指标。由于经典测验的标准化带来了项目的固定化,就可能造成被试对项目的反应使有人感到很容易,有的人不觉得太难。为了克服这种缺陷,项目反应理论使用了变通式测验,试图因人而异即建立一个拥有大量可供选择项目的题库,然后因人再去选择适当的项目进行测验。所以,专家们认为,这种理论的优点是“题目参数、能力参数的不变性,以及能对不同能力水平上的题目信息、测量误差进行估计”,“比较适合于题库的建立及变通式测验。”〔2〕但它也不是尽善尽美的。 我国心理学家陈立教授对此提出了自己的看法。他说“项目反应理论,只靠验证数学模型,而不考察理论的根据,我看是可悲的。”〔3〕同时他指出, 这种理论的一些提法本身就是不准确的。如将Lalent Trait译为“潜在特征”是容易引起误解的,而译为“潜质”较为妥当,征是表之于外,而质是隐之于内的;对于单维假说,只能说是“假说”,作为心理因素。这种单维实际上是不存在的;对于“局部独立”、“取样无关”,他批评这种假说也是“欠斟酌的”。既然作为心理测验的新的理论基础受到这样的批评,那么建立于其上的测验之厦的稳固性就可想而知了。
3.文化性偏颇。心理测验的跨文化研究,主要是对两个或两个以上文化背景中的样本的心理和行为进行比较,以考察相似和相异之处。
跨文化研究(Cross—Culture study),原主要是以不同文化背景的个体或团体为对象进行的研究,后来引申其意,进而也指对同一文化中不同次文化的人进行的研究。我们这里的跨文化研究就涵盖其两种含义。跨文化心理测验不论是针对整体的不同文化背景而言,还是以次文化背景而言,都存在着一个测量的同质性问题。不同国家间的对比研究,测验编制应由哪个国家的人员来完成呢?或由一方专家编制再经翻译、修订,然后到另一国施测,这个过程不能充分保证其同质。同时,就是同一种测量,不同的国家都有自己的常模。既然常模不同,要说明其间的相同或相异就变得毫无意义了。以不同次文化背景的人而言,也存在同样的问题。以智力测验为例,智力本身就是遗传和环境相互作用的结果。因此,要排除经验和文化的影响显然是不可能的。我们绝不可以说一个偏僻乡村没有见到过卡拉OK的孩子的智力就比城市同龄见到过卡拉OK的孩子的智力差。 所以, 不论心理测量学家的免文化影响测验(Culture—free test)也好,文化公平测验(Culture—fair test)也好,只不过是一种理想。心理测验中的文化性偏颇(Culture bias),即因文化因素导致测验结果有差异的现象,总是存在的。
二、心理测验的社会性影响
1.与政治的联姻。科学社会学家巴伯(Barber.B.)指出:“科学的自由性是相对的而不是绝对的。科学从来没有也不可能绝对不受社会中其他因素(当然,也包括政治因素)的一定控制。”〔4 〕这种控制往往不明显地表现为政治对科学提出的一些强制性要求,而常常表现为科学对政治的迎合,甚至屈从于政治,达到与政治的联姻,成为实现政治目标的工具。因此,有人悲观的认为:“如果测试本身带有政治色彩的话,要将政治和心理测试分开是很困难的,甚至是不可能的。不管怎样掩饰,测验都是设计用来实现一项政治目的。”〔5〕然而, “政治的和心理的目标无法同时完成的原因,通常归之于有偏差的测验,即对少数民族有偏见的测验。”〔6〕由此, “在政治和心理计量决定之间划清界限,将会有助于更好地认清政治目标,使得心理测验在目标未完成时不至于成为替罪羊。”〔7〕。
2.经济利益的驱策。这里有两种倾向。一种是来自心理测验的某些专业人员本身的问题。有些人为了心理测验所谓的“应用”,打着“专家咨询”牌子,对社会上的一些人进行“咨询”。他们缺乏应有的科学道德。他们的目的不在能为被测者提供真正有用的咨询,而在于金钱,把测量只看做是他们获得经济利益的手段。他们或把各种不应公开的量表随意地公诸于社会,或把测量的结果编成程序化的软件,使测量对得分相同的不同被试失去解释力,等等。另一种情况是一些纯粹的科学骗子,他们也高举“心理测验”的牌子,招摇撞骗。把心理测量与算命、卜卦联系起来,扩大了它不该有的功能。无论那种倾向,都是对心理测验声誉的破坏,使本来发展还不成熟的学科陷入困境。
三、对策模式
心理测验的内部缺陷和外部困挠与实践中对其应用的强烈的要求之间的差距,使心理测验陷入了一个尴尬的境地,这就不得不使从事心理测验的研究人员认真思考心理测验该如何走和应向何处去的问题。我们不是心理测验的万能论者,但也不是悲观主义者。我们认为,只要我们准确地找出问题,提出方略,努力工作,心理测量一定会走出目前的困境。
1.加强理论基础的研究。心理测验陷入目前的困境,在很大程度上归之于理论基础的贫乏。这种贫乏,不只是数量上的多寡问题,还表现为它对心理测验的支撑力,使心理测验具有更好的适切性和对实践的良好的说服力。因此,理论基础的研究是十分迫切的。就目前国内心理测验的研究状况而言,心理测验的专著不多,且大多介绍以经典测验理论为基础建立起来的心理测验的一些方法、技术和程序。理论基础的研究很少,只是散见于一些文章中。因此,我们首先应该从观念上打破已经形成的心理测验学科课程中原有的框架,在其中加进理论基础研究的内容。就目前的状况,我们还应首先介绍、引进国外先进的理论,进而吸收、消化,逐步走上自我发展的道路。
2.取得社会的经济支持。理论或科学的进步,从内部来看,其核心是科学研究者本身的努力,但它也同样离不开其外国的社会支持。理论发展的社会支持是多方面的,但经济支持在其中却有着不可忽视的作用。我国对科研的支持主要是通过科研立项从国家财政中获得资助,而心理测验研究方面的申请项目本不多,获得立项的就更少,这对学科的研究与发展非常不利。因此,我们应该积极争取立项,并及时注意研究成果的转化,以赢得国家的经济支持。
3.高级专业人才的培养。由于心理测验以人为对象,心理测验的研究水平还较低,决定了心理测验对高级专门人才的需求。现阶段我国心理测验人员多为非专业人员,且学历层次低,对测验过程的一些要求还吃不透。即便少部分来自大学心理学系或教育系心理学专业毕业的测验人员,其水平和能力也是有限的。因此他们心理测验的知识都来源于“心理测验”课程,而这门课程多是对以经典测验理论建立起来的一些手段、程序、方法等的介绍,对测验真正的内核还是知之不多。中国心理学会于1992年12月通过了由张厚粲教授主持制定的《心理测验管理条例》(试行),对从事测验的人员的资格进行了认定。规定测验人员必须是“心理专业的本科以上毕业生或在心理测量专家的指导下,具有两年以上测验使用经验者”,〔7〕这种要求是合适的。 我们一方面要加深本科学习阶段“心理测验”课程内容的深度,另一方面也应扩大这个学科研究生人数的培养,至少能够使某些测验在这些人员的指导下进行,这样才能有效地发挥心理测验的功能。
4.加强职业道德教育,规范行业行为。中国心理学会于1992年12月同时公布了《心理测验工作者的道德准则》,这对规范行业行为有积极的作用。但就目前来看,对它的宣传力度不够,应该把它搬进大学的“心理测验”课的课堂,使之深入每一个测验工作者的心灵,避免因滥用造成对被测人员心理上的创伤,也可防止其走向金钱至上的泥沼。
注释:
〔1〕中国心理学会:《心理测验管理条例》(试行), 《心理科学》1993年第4期。
〔2〕张厚粲、丁艺兵:《心理测验理论及其发展》, 《教育研究》1988年第3期。
〔3〕陈立:《项目反应理论初评》,《心理科学》1991年第1期。
〔4〕伯纳德·巴伯:《科学与社会秩序》,三联书店1991年版,第85页。
〔5〕〔6〕〔7〕查尔斯·L·赫林等著,华东师大教育咨询中心译:《项目反应理论——在心理测量中的应用》,湖北教育出版社1990年版,第290页。