职业选择背景下人格测验的证伪研究_人格测验论文

职业选拔情境下人格测验作假研究，本文主要内容关键词为：情境论文,测验论文,人格论文,职业论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

分类号 B841.7

心理测验主要有两大类：认知测验和人格测验。认知测验测量个体具备一定认知能力的程度，因此不考虑猜测的因素，被试只有知道正确的答案才能够得分。而人格测验却不同，被试能够随意提升分数，例如人际关系测验的一个项目，“当别人说话的时候，我会仔细地倾听。”如果被试选“同意”该项目说明其有高的人际技能。但是，人际技能低的个体，也可以回答“同意”。这是认知测验和人格测验的一个重要的区别，即在认知测验中被试不容易作假，在人格测验中却可以轻易地作假。所谓作假(faking)是指个体为了表现出一个有利的自我表征，而故意对人格测验歪曲反应的趋势。

在西方国家的职业选拔中，人格测验是最常用的测评工具之一。近年来，由于人格测验操作简单，信息丰富，也得到国内一些企业的青睐。然而，在职业选拔中使用人格测验却存在着较大的风险，因为大多数被试都希望自己能在竞聘过程中胜出，他们可能不会真实回答，而是努力地按照主考方喜欢的答案来反应。职业选拔情景下被试作假发生率调查显示，将近一半的被试承认夸大了一部分人格特征，这个比例是相当高的。因而，能否在职业选拔中使用人格测验，解决作假问题非常关键。事实上，在学术界关于作假问题的争论从未停止过，大量的测量专家就应聘者是否作假，如何作假，及作假是否损害人格测验的有效性等问题进行过深入的研究。

1 作假的研究历史

自1917年第一个人格测验开发起始，心理学家就对被试能否诚实回答测验项目产生了怀疑。Viteles是第一个关注该问题的心理学家，他在1932年指出“人格测验具有巨大的弹性或者可调节性”。Vernon(1934)对一些早期的人格量表也产生了同样的疑问，指出一些被试因受情景刺激的影响而歪曲地进行反应。Moore(1942)责备了人格测验的建构方式，指出“无论yes-no方式还是多选题，都鼓励了被试作假”。

1939年以后，一些测验专家开始尝试解决作假问题，他们提出了两种应对作假的方法。一种是试图编制无法作假的测验。比如，在NRC's Committee on Selection and Training of Aircraft Pilots的年鉴报告上，Rethlingshafer认为“编制一个迫选测验，可以排除被试辨认出‘好’答案的可能性。该测验每个题目的各个选项具有相同的表面效度”。这是研究者探讨如何控制作假反应的首次尝试，成为迫选测验的鼻祖。另一种方法就是承认人格测验能够被作假，然后编制作假量表识别作假者。

自60年代起，人格测验的结构效度和外部效度受到了置疑和猛烈抨击，以至于人格测验的研究在70年代已经不再为研究主流所接受，美国APA杂志也不再刊登相关的文章。人格测验在工业与组织中的使用也跌入了低谷。至20世纪90年代早期，由于人格结构的大五模型(the Five-Factor Model，FFM)被学界专家普遍接受，从而激起了一系列人格研究。一些研究者采用元分析，证明大五人格结构是工作绩效的中等和有用的预测指标，从此，人格研究在I/O领域重新立足，目前的绩效模型大都包含人格因素。与此同时，对人格测验的作假及其带来的负面影响的研究再次凸显出来。Arthur等人指出，工业与组织中使用人格测验存在五大问题，作假问题便是其中之一[1]。

2 作假对人格测验的负面影响

职业选拔中使用人格测验，作假比较容易发生，因为1)职业选拔的高淘汰率容易激发个体的作假动机；2)人格量表中很多项目的描述负载着价值判断，比如，“主动性的”，“勇敢的”等，使得项目的称许性很容易被应聘者识别。3)人格量表是不可验证的，并没有办法检验被试的自我描述是否属实。因此，Rosse等指出，如果大多数的应聘者不对自己的一些反应作假，反倒会让人感到奇怪[2]。

应聘者中作假的比例有多大，作假的程度又怎样呢？Rosse等认为大多数的应聘者会有中、高程度的歪曲反应。实际上，对于作假这种敏感性行为，任何直接询问的调查即使匿名进行，也都会低估作假的发生概率。Donovan等使用随机反应技术(RRT)调查了作假的发生概率，结果发现，47%的被试夸大了责任感等特征，41%的人承认把自己刻画的更加宜人，超过15%的被试则完全虚构来回答测验[3]。

如此高的作假比例，是否会给人格测验带来明显的负面影响。大量的研究者对此作了探讨，至今这方面的研究仍是作假研究领域的主流。

2.1 作假对预测效度的影响

尽管研究者普遍认可职业选拔中被试会作假，但是也有一些研究者指出，如果作假没有削弱人格测验对绩效的预测效度，那么作假就不是一个值得关注的问题[4]。上世纪90年代早期关于作假是污染变量，还是调节变量引起很多争论，研究者据此来证明作假是否影响预测效度。如果作假起到抑制作用，是人格测验的污染变量，那么使用偏相关把人格分数中的作假变异控制掉后，人格测验的效度系数就会提高。如果作假起到调节作用，人格和工作绩效的关系则依赖于作假的程度，使用层级回归（作假被操作化为连续变量）或者方差分析（作假被操作化为分类变量）可以发现，作假越严重，人格分数和绩效的相关越小。然而，大多数的研究结果表明，作假对人格测验与绩效的关系没有影响，因而作假既不是污染变量，也不是调节变量，它的负作用可以忽略[5]。

2.2 作假对录用决策的影响

Rosse等指出不考察排名的变化而仅仅关注于预测效度并没有抓住作假的本质。因为，预测效度是一种相关系数，比较稳健，大小变化并不明显。而作假却会使人格测验分数的高端排名发生变化，如果使用自上而下录用的方法，会使大量的作假者得到工作。研究结果表明，即使有少量的应聘者作假，也会改变人格测验分数的排名，影响录用决策[6-7]。

2.3 作假对结构效度的影响

大多数研究者关注的是作假对人格测验的预测效度的影响。最近10年，也有研究者从人格测验内部入手，探讨作假对结构效度的影响。这类研究主要以两种方式进行。一种是在人格测验中控制掉作假变异后，考察会聚和鉴别效度系数是否改变。另一种是采用验证性因素分析或者项目反应理论，考察作假组和诚实组是否存在项目和测验的功能差异。有大量的研究表明，作假会引入外部变异，人格测验的结构效度将被损坏。但最近的研究认为，作假并没有改变人格测验的测量属性，结构效度没有改变[8]。

3 作假的研究范式

在作假研究领域主要有三种研究范式，其使用是否得当，控制是否严密，直接影响作假研究的精度。研究者在探讨作假对人格测验的负面影响时，主要采用这些研究范式。

3.1 实验诱导作假设计

这是最常见的作假研究设计，其操作逻辑是：通过指导语，分别创建一个诚实组，一个作假组，通过两个组测验分数的对比，来了解作假的性质。指导语包括两种类型：一类是提供“装好”与“诚实”的指导语，随机分配两组被试，对一组要求“夸大反应，尽可能表现出最好的形象”，对另一组要求“尽可能诚实回答，结果是匿名的”。另一类是“假装应聘”和“诚实”的指导语，一组被试仍然被要求“尽可能诚实回答”，另一组被试则被告知“假装正在应聘某份工作，尽量作假回答而被录用”。很显然，“假装应聘”的指导语能够诱导出与职业选拔情景中的作假更接近的歪曲反应，而“装好”的指导语则受到了很多批评，因为该指导语下被试会依据社会标准而非工作标准来进行作假反应。

采用该范式的研究很多，影响很大。比如Viswesvaran和Ones的元分析揭示，作假组的人格分数平均升高0.5个标准差，直接为人格测验能够被严重作假提供了证据[9]。Douglas等发现，诚实组有好的预测效度(r=0.18～0.37)，而作假组效度接近零(r=0.09～0.15)，证明了作假的调节作用显著[10]。

3.2 已知群体：应聘组和在职组设计

近些年，大量研究者转而使用应聘组和在职组设计来了解作假性质。该方法认为应聘者为了获取职位，会努力按照主考方喜欢的答案反应；而在职者不具有评价的压力，不会对反应作假。因此，在已知群体设计中，应聘组通常被假设为作假组，在职组是诚实组，类似实验诱导设计进行组间比较的研究。比如，Bradley和Hauenstein使用这种设计发现，应聘组和在职组的人格测验结构具有等同性，作假没有改变人格测验的结构效度[11]。

3.3 作假识别量表设计

自20世纪40年代起，有些研究者就开始尝试借助外部测量识别反应偏差，在个体水平上研究作假。这种方法并不需要事先判断个体属于哪个组，而是事后识别。基本原理是：在人格量表中嵌套进作假识别量表，量表得分代表个体的作假动机。研究者通常采用该设计来检验作假对人格测验起到抑制作用，还是调节作用，探讨作假是否影响人格测验的预测效度等。

最广泛使用的作假识别量表是社会称许性量表（Social Desirability Scale，SD量表）。尽管SD量表的信效度遭到了一些研究者的置疑，但是由于它能够直接测量作假，仍受到大多数研究者和应用者们的青睐[12]。

4 作假内部性质的探讨

I/O心理学者注重即时有用的效果，更多地关注作假对人格测验预测效度的影响，他们把作假与社会称许性反应(SDR)等同，直接套用该领域的研究范式和成果。20世纪90年代以后，作假的内部性质才开始受到关注，但此问题很有挑战性。

SDR自Edwars(1964)正式提出后，迅速成为一个广受瞩目的研究概念，开拓了一个繁荣的研究领域。SDR的研究始自临床领域，指人们根据社会价值标准对人格测验进行歪曲反应。然而，当求职者试图提高被录用的机会，更可能夸大呈现对工作重要的人格特征（即工作称许性项目），向主考方传递一种“理想职员形象”。比如人格测验的一个项目“病人在痛苦呻吟时，我能够保持平静”，一般场合下被试会选择“不同意”来说明自己具有同情心。但是，如果被试处在应聘护士工作的选拔情景下，他则会倾向于回答“同意”，来说明自己具有护士的专业素质。可见，作假和SDR不能混为一谈，前者受工作称许的影响，后者则受社会称许的影响。与此相关的研究比较分散，下面将在三个水平上进行综述。

4.1 量表水平的分析

Marhar等设置四个锚点：真实的人格剖面，工作剖面（优秀员工的剖面），社会称许的剖面，理想职员剖面，考察应聘者的人格剖面朝向哪个锚点移动[13]。结果发现，该剖面和理想职员剖面最匹配（采用欧式距离①作为匹配指标），说明应聘者作假参照的是心目中的理想职员形象，而不是理想的自我形象（受社会称许的）。同时，理想职员剖面和工作剖面不同，说明应聘者假想的理想职员特征和该工作真正需要的职工特征有差异，这可能会使被试的作假反应无效。

个体对要应聘的工作并非都能充分了解，往往是参加工作后才意识到自己不适合这份工作。Stokes等发现，在200个档案框(Biodata)②项目中仅有5个项目，应聘者和在职者的反应一致[14]。表明应聘者对“理想”应聘者的知觉，与在职者的“客观”描述不同。应聘者认为具有称许性的项目，在职者却不一定认为重要。因而，作假者心中的理想职员形象可能与工作非常匹配，也可能相差甚远，从而引起不同的作假反应[2]。

这些研究说明，人们作假采取的是角色欺骗，倾向于以心目中的理想职员形象为参照标准来反应。但是，对工作的熟悉程度可能会影响个体心目中的理想职员形象的形成，从而影响到作假的有效性。

4.2 结构水平的分析

作假给人格测验引入了外部变量，该外部变量具有怎样的性质，给人格测验的结构效度带来怎样的影响呢？因采取的研究方法不同，研究者得到了不同的研究结果，除去采用SD量表作为测量工具的研究、采用“装好”指导语的实验研究两种方法之外，这里着重分析能够充分体现职业选拔中作假性质的研究。

Nathan和Lord首次提出工作应聘者可能参照“理想职员”框架来反应，这时被试很像一个演员，试图传递一个理想应聘者的形象。Schmit和Ryan首次进行了实证研究，他们在应聘者样本中发现了六个因素，其中一个是理想职员因子，主要由宜人性和责任感的项目构成[15]。Paulhus等采用实验诱导设计发现，在作假指导语下大五维度的内部相关增大[16]。Ellingson等发现，在作假条件下，人格量表的内部相关为0.83，这打破了诚实条件下是0.46的多维结构，而聚为一个因子[17]。

可见，作假引入的外部变量或者在一些项目上单独形成“理想职员”因子，或者完全消解了大五结构而聚为一个因子。但是Stark在应聘者样本中发现了更为复杂的结构，大五结构被打乱，但是并没有清晰可见的“理想职员”因子出现[18]。

4.3 项目水平的分析

人格测验的每个项目都是一个行为描述，人们通过对这些行为作符合性判断，向测验者传递一种自我形象。因而，项目承载的个体想要传达的信息越多，人们赞同该项目的几率就会越高。Zickar等发现，项目的工作称许性水平(Job Desirability，JD)越高，项目的难度系数越大，赞同率越高[19]。在高JD的项目上，作假组与诚实组有显著的差别，但是Stark的研究结果并不是这样，他们发现，并不是JD高的项目，作假组和诚实组就存在项目功能差异，也就是说，项目容易被作假，不是由项目JD引起的[18]。

在认知测验领域，使用IRT技术识别作假已经得到广泛认可，但是人格测验中的作假有独特的性质，IRT技术是否适用值得商榷。认知测验的作假人数及被作假的项目数量较少，在此基础上进行的IRT分析比较可信。但是，人格测验中的作假更容易发生，作假人数及被作假的项目更多，将使得IRT模型的估计出现大的偏差，潜在特质θ不能被确定是人格特质还是作假动机。因而，均采用IRT技术的Zickar和Stark研究，其结果的可信性较低。

人格测验是结构取向的，研究者基本上都是在量表水平上进行分析，除了上面提到的IRT研究以外，很少有研究关注项目的性质对作假的影响。其实，项目水平的分析更加细致，提供的信息更多，然而，当人格测验的项目较多时，完全采用项目水平分析，会带来信息爆炸而无从整理。因此，将来的研究如果能把项目水平与量表水平的分析结合使用，会更好地揭示作假的性质。

5 作假应对的研究

如何应对作假以提高人格测验的效度，是很多测验专家所致力研究的问题。传统上，应对作假最常见的方法，是在人格测验中嵌入社会称许性(SD)量表，直接对作假进行测量，然后再采取校正或者识别技术去除作假效应。除此之外，目前也有一些新的技术出现，它们代表着作假研究的最新进展，下面介绍其中的三种技术。

5.1 采用IRT技术识别作假者

目前，已有几种用于识别作假反应的IRT技术，大多并不成熟，最常见的是个人拟合(lz)技术，研究者将该技术识别出的有独特反应模式的个体看作是作假者[20]。但是，人格测验中的作假人数及被作假的项目很多，IRT估计出的潜在特质θ可能是人格特质也可能是作假动机，因而，与大多数人反应模式不同的个体很可能是诚实者，据此推理：使用lz技术识别作假者比较危险。

5.2 反应时识别作假

有一些研究者从信息加工的角度，探讨作假者的反应机制。他们认为作假会改变反应的潜伏期，比较作假和诚实回答者的反应时的差别，可以对二者进行区分。但是，很多研究结果相互矛盾，造成研究结果截然不同的主要原因很可能是对污染变量的控制不当。

IRT与反应时技术都需要研究者对被试的作假反应模式有清晰的假设，然而，目前研究者对作假的内部发生机制的认识还比较肤浅，直接套用认知测验中作假研究模式，往往造成研究结果的较大偏差。被试在认知测验中的作假形式比较单一，主要就是抄袭，而且作假人数较少，被作假的题目数量也较少；而被试在人格测验中的作假则要复杂得多，被试的作假动机与测验情境、个人特征等相关，作假的人数和作假的项目数量可能会很大。因此，研究者如果不能深入探讨作假的内部机制，将会制约IRT与反应时识别技术的发展。

5.3 开发迫选(forced-choice format)量表

迫选量表，即迫使被试在两个称许程度相等的句子或答案间选择，从而抑制作假反应发生。它提供了一种使得测验作假降到最小化的可能，但是它是自模式数据（ipsative，量表的总分是常数），而不能进行个体内部特质之间的比较。此外，自模式数据不能进行方差分析，因素分析等处理，因而，心理学家不推荐使用迫选量表，目前在组织中使用的人格测验仅有10%采用了该形式。最近，Christiansen等和Jackson等证明个体在迫选量表上的作假分数低于Likert式量表的分数[21,22]。Stark等试图使用GGUM模型解决自模式数据的问题，但是仍需要大量的研究进一步解决迫选量表的计分问题[23]。

6 讨论

6.1 有关作假效果的研究

探讨作假的负面影响目前仍是作假研究领域的主流，大多数的研究结果显示，作假并不影响人格测验的预测效度和结构效度，本文认为，得出这样的结论的主要原因在于：

(1)人格测验对工作绩效的预测效度本身较小，小于0.40[4]。而基于相关分析的预测效度系数又比较稳健，因而，即使作假的影响作用很大，也不能使预测效度系数产生大的变化。

(2)每个人的作假动机和程度有很大差异，作假方式复杂多样[24]，研究者通过检验作假是调节变量（是否具有交互作用），还是抑制变量（是否具有累加效应）来证明作假是否影响预测效度无法充分揭示作假和效标之间的关系。也就是说，作假对人格测验的影响不仅是累加或者简单的交互作用，作假对预测和结构效度的影响要复杂得多，采用目前的操作形式尚不能完全揭示它们之间的关系。

(3)作假多使用实验研究，目前的三种研究范式都存在一定的缺陷（详见第3部分），这直接影响了作假研究的精度。因而，作假研究有待于新的研究范式出现，就目前的研究手段而言，还不能够完全揭示作假的负面作用。

可见，关于作假对人格测验的影响作用尚不能轻易下结论，这有待新的研究范式的出现，以及新的统计方法的引进，比如曲线回归，数学建模等。

6.2 对作假研究范式的批判

由于作假研究的结果差异较大，引起了一些研究者对其研究范式的反思。本文对其进行归纳如下：

实验诱导和已知群体的两种研究范式均为组间比较设计，均没有考虑作假的个体差异。其中，实验诱导作假设计一直是最流行的方法，也常被用来检验其他研究范式的有效性，但还是受到了一些批评：首先，使用指导语诱导的作假不同于职业选拔情景中的作假；其次，该方法有一个内隐的假设，即个体会完全按照指导语发生诚实或者作假行为。此假设可能并不成立，有些被试并不按照指导语反应[11]。

对于已知群体设计，虽然有研究证明应聘组的人格分数高于在职组的分数，但是由于研究者对应聘组没有任何控制，在某些情景下很有可能大部分的应聘者会诚实反应，那么组间设计的假设不成立。如果不能确定应聘组的作假比例，在职组又都是诚实反应，对已知群体设计的研究下结论时需要特别谨慎。

量表设计通常采用SD量表来测量作假。Viswesvaran和Ones对SD量表的有效性进行了元分析[9]。结果显示，与人格量表相比，作假和诚实组在SD量表上的均值差异是最大的。也就是说，SD量表对作假更为敏感。但是，使用SD量表识别作假也存在一些问题。例如，众多的SD量表自身并没有高的相关，影响从各个不同的量表中得出结论的概括性[25]。此外，精明的被试是否可能识别出SD量表的项目，故意给出正常的回答，从而使得SD量表无效，还尚不清楚。

可见，每个研究范式都存在一些问题，都还没有得到研究者们一致的认可。

6.3 有关作假内部性质的研究

作假研究是个很老的研究课题，几乎是伴随着第一个人格测验的降生而出现的。很多优秀的测量专家都探讨过作假的问题，90年代之后一些工业与组织领域(I/O)的学者又相继活跃在该领域。然而，出于实用的目的，大多数I/O研究者更关注作假对人格测验外部效度的影响，并不关心作假的内部发生机制。而且，由于研究范式相对单一，而作假又异常复杂，目前对作假内部机制的研究，仅局限于对工作称许性的探讨，然而无论是从量表水平、结构水平、还是项目水平的研究，都没有对作假反应的认知过程有更深入的阐释。比如，除了对作假反应时识别技术的个别研究外，尚没有出现剖析作假反应的认知过程和脑机制的研究。因而除了测量专家，如果能有更多的认知心理学家加入作假的研究行列，对作假的内部机制的研究将会更加深入，也将大大推动整个作假领域的蓬勃发展。

6.4 作假的应对技术的探讨

该如何控制作假一直是测评专家们关注的问题。传统上，应对作假最常见的方法，是在人格测验中嵌入社会称许性(SD)量表，直接对作假进行测量，然后再采取校正或者识别技术去除作假效应。但是，SD量表是社会称许性反应的测量工具，在前面已提到社会称许性反应与作假并不相同，在一些特定的测验情境下，SD量表识别作假的效度较差[25]。因而，特定测验情境下被试作假的识别工具不能用SD量表来代替，应该借鉴SD量表相对成熟的开发程序，编制一些具有特定工作称许性的识别量表。

IRT与反应时技术都需要研究者对被试的作假反应模式有清晰的假设，然而目前研究者对作假的内部发生机制的认识还比较浅，往往直接套用认知测验中作假的研究模式，这将造成研究结果的较大偏差。因为，被试在认知测验中的作假形式比较单一，主要是指抄袭，而且作假人数较少，被作假的题目数量也较少；而被试在人格测验中的作假则要复杂得多，被试的作假动机与测验情境、个人特征等相关，作假的人数和作假的项目数量可能会很大。因而，研究者对作假的内部机制的探讨如果不能深入的话，将会制约IRT与反应时识别技术的发展。

尽管IRT、反应时与迫选量表的新的技术很不成熟，但是给很久没有革新性发展的作假研究领域带来了希望，也吸引了更多优秀的测量专家致力于作假研究。

7 结论

(1)作假在人格测验中普遍存在，它对人格测验预测效度和结构效度的影响力还没有得到稳定的结论。本研究认为，人格测验的作假作用明显，但就现今使用的研究范式和统计方法而言，还不能够完全揭示作假的负面作用。

(2)作假不同于社会性称许反应，在职业选拔情景下，作假是一种工作称许性反应，而不是社会称许性反应。

(3)作假应对技术，包括传统的量表技术，以及新发展的IRT技术、反应时技术以及迫选法技术都有待进一步完善和发展。

总之，由于作假的异常复杂性和相对单一的研究范式的限制，近二十多年来，作假研究并没有长足的进步。除了测量专家，如果能有更多的认知心理学家和人格心理学家加入作假的研究行列，对作假内部机制的研究将会更加深入，作假的识别技术将会有全新的发展。

收稿日期：2007-11-30

注释：

②档案框与人格测验的测验形式相同，比如Likert式，Thurston式和问答式等。二者的唯一区别在于内容取样不同，人格测验具有结构，选择生活中具有代表性的行为来反映特质，取样的范围非常广泛；而档案框的项目必须是与工作紧密相关的行为（不包括态度、兴趣、动机等），每一个项目都能显著的预测绩效。档案框项目更加透明，比人格测验更容易被作假(McFarland & Ryan,2003)。

标签：人格测验论文; 结构效度论文; 内容效度论文; 区分效度论文; 范式论文;

职业选择背景下人格测验的证伪研究_人格测验论文

猜你喜欢