结构化面试中的评分一致性问题初探*,本文主要内容关键词为:性问题论文,结构化论文,评分论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 前言
面试是最古老的和有效的人员评价技术之一,适用于人力资源管理和开发中的招聘录用、考核、晋升等方方面面(注:本文中的面试主要侧重于招聘录用中的面试)。一项研究表明,百分之八十以上的组织机构,其人员招聘与录用工作,是借助于面试这一重要技术手段完成的[2]。
所谓面试就是主试者(考官、评分员)通过与应试者面对面的交谈,或将后者置于一定情境中进行观察,从而了解、考察应试者是否满足应聘职位条件要求的一种人员招聘录用技术。借助这种技术,可以对应试者的素质状况、气质、性格特点、能力特征及求职应聘动机等方面进行评定。其特点在于:①通过对应试者的外部行为特征的观察与分析及对过去行为的考察来评价一个人的素质;②以观察和谈话为主要工具;③评分员和应试者之间具有双向沟通性。面试这种技术与选拔录用中的笔试、心理测验、评价中心技术相比,显得更为直观、灵活、深入,而且可以看出笔试、心理测验、评价中心等方法无法测出的某些属性或层面。
在中国,广义的面试包括了情境模拟类的测评手段;而狭义的面试,即面谈法的面试。面谈法的面试通常分为结构化面试和非结构化面试两种。所谓结构化面试就是在针对特定工作的所有面试中,始终如一地使用的,事先确定了答案的一系列与工作相关的问题。在西方,结构化面试又分为集体结构化面试和一对一的结构化面试。前者为一组考官对一个考生进行面试;后者指一个考官对一个考生进行面试。非结构化面试则是指在面试中事先没有固定框架结构(指没有预先确定测评要素等),也不对应试者使用有确定答案的固定问题的一种面试。相比较而言,结构化面试比非结构化面试能更加有效地考察一个应试者。
根据Schmidt(1992)等人的一项元分析研究,结构化面试的效度平均高达0.45[6];而且, 结构化面试的效度是非结构化面试的两倍(Wiesner & Cronshaw,1988)[7]。Janz(1982)的研究表明,如果从信度和效度两方面考虑,结构化面试是所有形式的面试中最好的[5]。 尽管关于面试效度的研究结果争议很大,但一般认为结构化面试的效度仅次于评价中心和认知能力测验,列各种主要人员选拔技术的第三位。
正是由于面试在测评人员中的有效性,同时面试技术具备其他测评技术不具备的灵活性,使得面试在人员录用与招聘中得到了广泛的应用。
自1994年以来,国家人事部结合我国的国情将集体结构化面试引进到公务员录用考试中。经过几年的实践,该技术已经日臻完善。1996年,人事部考试录用司又正式提出在国家公务员录用考试中全面推行结构化面试,并在其即将颁布的《国家公务员录用面试暂行办法》中规定结构化面试为录用考试的主要办法,并作出一些具体规定,从而使结构化面试在国家公务员录用考试中走上规范化、法制化的轨道。我国公务员录用考试在应试者众多、竞争激烈、考官水平参差不齐、考试干扰因素多的情况下,采用结构化面试有其特殊的意义:①更加有利于应试者的公开、平等竞争;②便于规范评分员的操作实施,维护政府行为的公正、严肃性;③利于节省费用。
由于结构化面试在国家公务员考试中的重要地位,我们有必要在技术上加以研究,提高结构化面试的科学性、系统性、规范性,从而更好地达到公开、平等、竞争、择优的目标。
在结构化面试中,面试的设计、测评要素的确定、命题、评分员的培训、面试的组织实施等都是重要的方面。本文拟从评分员对应试者的评分一致性方面入手,对目前的国家公务员录用考试面试中的评分员评分一致性问题进行一些初步的分析与探讨。
评分员评分一致性问题不仅是一个现实的问题,也是一个理论上的问题。 国外对不同评分者之间的主观评分一致性的分析主要采用Kendall和谐系数W;近年来也采用一些新的理论和模型为基础的方法[4]。目前国内做的评分一致性分析只是针对学生作文的评分,例如,张厚粲(1981)、刘远我(1994)等人的研究;尚未发现有对面试中评分员的评分一致性进行分析的[1,3]。 但结构化面试中评分员对应试者评分的一致性,与老师对学生作文的评分一致性相比,具有自身独特的特点。本文拟在这方面做一些探索性研究,以期达到抛砖引玉的目的。
2 方法
2.1 研究对象
我们从中央国家行政机关众多部委中选取了某部1996年公务员录用考试中的两组评分员和若干名应试者为研究对象。
第一组评分员七名。其中三名为用人司(局)的领导,这些评分员接受培训和练习的机会均较少,结构化面试的知识与经验水平较低,可称之为面试的新手;另四名评分员为来自于该部人事部门的人事干部,这些人所受的培训较多,面试经验也较丰富,可称之为训练有素的老手评分员。这一组评分员面试的对象是应聘同一职位的三名应试者。
第二组评分员也为七名。有四名评分员与第一组是相同的;另三名是用人司(局)的领导,属面试新手。受这一组评分员面试的对象是四名应聘同一职位的应试者。
2.2 材料
面试题采用我们自己编制的题目,这些题目完全根据国家公务员录用考试面试题目的编制原则编制。
2.3 过程
评分员严格按照我们制定的标准和要求,对每一个应试者进行面试,并在统一提供的评分表上评分。
每个应试者都由七个评分员进行评分。评分员对应试者评分是从沟通、思维、灵活敏捷、管理能力、人际关系、情绪、风度气质和动机与职位匹配八个维度(即测评要素)分别进行的。对于每一个维度我们都给出了操作定义。当然每个维度在面试总分中的权重是不一样的。
七个评分员对应试者评分完毕后,分别剔除每个维度中的最高分和最低分,再将其余五个分数相加并加以平均,这八个维度的平均分取不同权重相加之和即为应试者的总分。
3 结果
3.1 同一组评分员对应聘同一职位的一组应试者在每一个维度及总分上的评分一致性
每一组评分员都对应聘同一职位的若干名应试者在八个维度上进行评定。我们就可以算出同一组评分员对应聘同一职位的若干名应试者在每一个维度上的评分一致性;还可以求出同一组评分员对每一个应试者在八个维度分数之和(总分)上的评分一致性。 评分一致性的大小用Kendall和谐系数W表示。
对于第一组和第二组评分员,由于存在训练有素的老手评分员和新手评分员之分,我们分别进行了计算。结果见表1和表2。
从表1中可以看出,七个评分员在沟通、思维、灵活敏捷、 风度气质四个要素及总分上达到了评分者的一致性,除此之外,四个训练有素的评分员在人际关系维度上也达到了评分一致性。
表1 第一组评分员在每一个维度及总分上对三名应试者的评分一致性
七个评分人员评分的情形
W Chi-Square Sign.
沟通 0.9500 7.60000.0224*
思维 1.0000 8.00000.0183*
灵活敏捷 0.8176 6.53330.0381*
管理能力 0.4750 3.80000.1496
人际关系 0.3654 2.92310.2319
情绪 0.4000 3.20000.2019
风度气质 0.5536 4.42860.4090*
动机与职位匹配
0.2500 2.00000.3679
总分 0.7500 6.00000.4098*
四个训练有素评分员评分的情形
W
Chi-Square Sign.
沟通 0.8624 12.0741
0.0024**
思维 0.9638 13.5556
0.0011**
灵活敏捷 0.8571 12.0000
0.0025**
管理能力 0.5190
8.6667
0.5113
人际关系 0.5536
7.7500
0.0208*
情绪 0.5006
8.4000
0.5030
风度气质 0.5170
7.2381
0.0268*
动机与职位匹配
0.3988
5.5833
0.0613
总分 0.7959 11.1429
0.0038**
注:表中“*”表示0.05水平显著,“* *”表示0.01水平显著,即不同评分员在某一个维度上对三个应试者的评分具有一致性且达到统计上的显著水平。
表2 第二组评分员在每一个维度及总分上对四名应试者的评分一致性
七个评分员评分的情形
W
Chi-Square Sign.
沟通 0.6382
7.65790.0496*
思维 0.6382
7.65790.0496*
灵活敏捷 0.5577
6.69230.0824
管理能力 0.2976
3.57140.3116
人际关系 0.5929
7.11430.0683
情绪 0.2045
2.45450.4836
风度气质 0.7656
9.18750.0269*
动机与职位匹配
0.3083
3.70000.2957
总分 0.6603
7.92310.0476*
四个训练有素评分员评分的情形
W
Chi-Square Sign.
沟通 0.6212 13.04550.0045**
思维 0.7143 15.00000.0018**
灵活敏捷 0.4771 10.01890.0184*
管理能力 0.1310
2.75000.4318
人际关系 0.5000 10.50000.0148*
情绪 0.2373
4.98390.1730
风度气质 0.5689 11.94640.0076**
动机与职位匹配
0.5038 10.57890.0142*
总分 0.5652 11.86980.0078**
注:表中“*”表示0.05水平显著,“* *”表示0.01水平显著,即不同评分员在某一个维度上对三个应试者的评分具有一致性且达到统计上的显著水平。
从表2可见,七个评分员在沟通、思维、 风度气质和总分上达到了评分一致性。除此之外,四个训练有素的评分员还在灵活敏捷、人际关系、动机与职位匹配三个要素上达到了一致性。
3.2
同一组评分员对每一个应试者在八个维度上评分时的一致性
任何一个应试者,都需要经过七个评分员对其从八个维度上进行评分。评分员之间对同一名应试者在这八个维度进行评分时给的分数是否一致,我们可以用Kendall和谐系数W进行评定。其含义在于七个评分员对该名应试者在八个维度上表现好坏的排序的一致性有多大。
由于各个评分员对应试者在每个维度上打分时,是按每一个维度的权重大小直接打分的,而各个维度的权重是不一样的,这样各个维度的原始分的参照标准是不一致的。在计算Kendall和谐系数W时,我们就应该先将评分员给应试者在每个维度上打的分数(原始分数)转换为同一参照标准的分数,然后再进行计算。
我们还就同一组评分员对应聘同一职位的同一组应试者在每一个维度上的平均分也计算了Kendall和谐系数W。
另外,我们不仅计算了两组七个评分员对每一名应试者评分一致性的情形,还将第一组和第二组评分员中四个训练有素的评分员抽取出来,看看这四个评分员的评分一致性情况。结果见表3和表4。
从表3可见,七个评分员对应试者J[,1]在8个维度上的评分达到一致性;四个训练有素的评分员对应试者J[,1]和J[,2]在八个维度上的评分达到一致性。
表3 第一组评分员分别对每一个应试者在八个维度上评分时的一致性
七个评分员评分的情形
W Chi-Square Sign.
应试者J[,1] 0.5763 16.1377 0.0239*
应试者J[,2] 0.3675 10.2892 0.1728
应试者J[,3] 0.4381 12.2657 0.0922
三应试者平均分 0.4673 13.0833 0.0701
四个训练有素评分员的评分的情形
W Chi-Square
Sign.
应试者J[,1] 0.5533 27.1130 0.0003**
应试者J[,2] 0.4044 19.8172 0.0060**
应试者J[,3] 0.2815 13.7959 0.0549
三应试者平均分 0.2462 12.0648 0.0984
注:表中“*”表示0.05水平显著,“* *”表示0.01水平显著,即不同评分员分别对某一应试者在八个维度的评分排序一致性高且达到统计上的显著水平。
表4 第二组评分员分别对每一个应试者在八个维度上评分时的一致性
七个评分员评分的情形
W Chi-Square Sign.
应试者J[,4] 0.3006
8.4169 0.2973
应试者J[,5] 0.4533 12.6928 0.0800
应试者J[,6] 0.2477
6.9360 0.4356
应试者J[,7] 0.2066
5.7835 0.5652
三应试者平均分 0.2680
7.5030 0.3784
四个训练有素评分员评分的情形
W
Chi-Square Sign.
应试者J[,4] 0.3193 15.6471 0.0285*
应试者J[,5] 0.2727 13.3614 0.0683
应试者J[,6] 0.3447 16.8924 0.0181*
应试者J[,7] 0.1267
6.2087 0.5156
三应试者平均分 0.2946 14.4345 0.0440*
注:表中“*”表示0.05水平显著,“* *”表示0.01水平显著,即不同评分员分别对某一应试者在八个维度的评分排序一致性高且达到统计上的显著水平。
从表4可见, 七个评分员对四个应试者在八个维度上的评分均未达到一致性;四个训练有素的评分员对应试者J[,4]和J[,6]在8个维度上的评分达到一致性。
4 讨论
4.1 两组评分员各自对其面试的一组应试者的评分效果
从表1可以看出,第一组评分员,不论七个还是四个评分员, 对三名应试者的总分的评定在统计上没有差异,即一致性高。当然,我们从表1中可以发现评分员间在不同维度上对应试者的评分并非都是一致、 没有差异的。从表2 中也可以看到第二组评分员对第二组应试者评分的类似情况。
可见,尽管两组评分员分别对各自的一组应试者在某些维度上的评分一致性程度好坏不等,但在总分上的评定、排序是一致的,没有差异。从评分员这个角度来说,这说明,从总体上看,每组评分员的成员间在对应聘同一职位的不同应试者的评分在评分标准上是基本一致的。对于应试者来说,由于评分者对其在总分上的评分一致性而接受了公正、合理的评分。
4.2 不同的测评要素对评分员的评分一致性的影响
测评要素是结构化面试中的关键。在有的测评要素上,评分员易达到一致性;而在另一些要素上,评分员间则不容易达到一致性。先看表1,第一组七个评分员分别在沟通、思维、灵活敏捷、风度气质四个维度上对三名应试者评分一致,并达到统计上的显著水平,而在其余四个维度上对三名应试者的评分并不一致,即有差异。当剔除了三个用人司(局)的评分员后,四个训练有素的评分员进行评分时,只有在管理能力、情绪、动机与职位匹配三个维度上评分时表现出差异,没有达到一致性。
再看表2,第二组评分员分别在沟通、思维、 风度气质三个维度上对四名应试者的评分是一致的,而在其余维度上的评分则有差异。如果仅看该组评分员中的四个训练有素的四位,则只在管理能力、情绪两个维度上对四名考生的评分不一致。
尽管两组评分员在何种维度上对考生的评分达到一致,并不尽相同,但我们还是可以看出,不同的评分员在沟通、风度气质、思维等维度上易达到评分的一致性。而在管理能力、情绪等维度上不易达到评分的一致性。
在我们所进行的面试当中,沟通和风度气质两个测评要素并不是通过具体的题目来测定的,评分员对这两个要素的评分是基于在整个面试过程中对考生的观察并依据要素的操作定义进行的。面试中考生的表现,多是通过沟通体现出来的,面试的过程为评分员提供了较为充分的观察考生沟通能力的机会,并且对于沟通、风度气质这样的维度易于给出操作定义,评分员对其优劣标准也易于达到一致的意见,即使没有经过训练的人也会基于日常的经验,做出较为适宜的评价。我们发现,除了上述两个要素之外,两组评分员均在思维这个要素上达到了一致性。因为考生对问题的回答能够直接体现出其思维能力,结构化面试对思维能力是一个比较有效的度量,即我们可以测到我们所要测的东西,因而评分员在这样的维度上容易达成共识。而对于人际关系、情绪、管理能力,考生在面试中的表现可能会与实际中并不一致,评分员对考生的回答也不易把握,而且其评价也容易受到其他因素的干扰,因此,评分员的评分不易达到一致性。
另外,从表1和表2中,我们还可以看出,不论七个评分员还是四个评分员,在两组评分员对应试者的评分中,除了第二组的四个评分员对应试者在动机与职位匹配维度上评分达到一致外,都是有差异的。我们认为最大的可能是不同的评分员对职位的认识不同造成的。尤其是四个训练有素的评分员,都来自于人事部门而不是用人部门,对职位的了解有限。要求这些评分员对应试者的动机与职位匹配作出一致的评定当然有困难。
因此,结构化面试对于沟通、思维等要素的评价是有力的;相反,对人际关系、情绪、管理能力等一些维度则不那么容易测评。这就要求我们一方面提高面试命题的质量,使题目尽可能反映出我们的目标特质,同时尽可能给出较有操作性的评分标准;另一方面,在对评分员进行培训时,对于一些不容易把握的维度及其相应的题目应认真分析、讲解清楚,使每一位评分员都明了应试者如何作答才能算是好或是差,从而提高面试评分员对应试者的评分一致性。此外,在一些要素上难以达到评分一致性也向我们提出质疑:是否这个要素适合在结构化面试中评价?在公务员录用考试中是否应探索其他更有效的方式来解决对这些要素的测评?这都是需要我们深入思考的问题。
4.3 应试者在面试中的表现对评分员的评分一致性的影响
先看表3,七个评分员进行评分时, 所有评分员对应试者在八个维度上评分达到显著一致的只有应试者J[,1];如果去掉三个用人司(局)的三个评分员,仅留下四个训练有素的评分员,评分达到一致的有J[,1]和J[,2]。考察这一组评分员面试的所有三个应试者,J1的面试成绩为54.6分、J[,2]为76.4分、J[,3]为79.2分。对于J[,1],评分员给的最后评语是“面试成绩欠佳,但有工作经验……如内部有其他合适职位,可以考虑录用”,事实上被淘汰。而J[,2]面试成绩较好,只因缺乏工作经验而被淘汰。对于J[,3]的评语是“面试成绩较好,……综合素质符合职位要求,建议录用”。
再看表4, 七个评分员对应试者在八个维度上评分达到显著一致的应试者一个也没有;去掉三个用人司(局)的评分员,留下四个训练有素的评分员,则有J[,4]和J[,6]达到一致。考察这一组评分员面试的所有四个应试者中,J[,4]至J[,7]的成绩依次为81.4,72.6,67.2,71.8。考官的评语中,J[,4]和J[,5]为可以录用。J[,6]因“表现一般,各方面能力不突出,不适合录用”。J[,7]则因“谈求职动机方面时,考虑个人因素多些,不录用为宜”,但面试中表现出的能力还是不错的。可见J[,4]和J[,6]是这一组应试者中表现最好和最差的。
从上面的分析中,我们可以发现,当一个应试者在同一组应试者中表现得最好或最差时,评分员对其评分一致性就好。同时,当对一名应试者的评分一致性高时,也意味着考官对该考生的评价把握较大,评分员一致认为较好的考生,被最终录用的可能性也较大,如J[,4]。
这也可以解释,某一应试者在面试中表现非常突出(很好或很差),评分员易于做出判断,并给该应试者一个该组应试者中的最高分或最低分。这样评分员间的评分一致性也就高。需要注意的一点是应试者在某几个维度上有突出的表现(好或坏),评分员可能会倾向于在所有的维度上给高或低分,即光环效应。
这也给我们一些提示:评分员对于表现突出的应试者判断、评分较容易;但对于在面试中表现一般的应试者。评分员要认真按照标准和应试者的表现客观地评分,以提高评分员间的评分一致性。
另外,要告诉评分员注意光环效应。不要因应试者某些地方答得好或符合自己的心意,就在所有的维度上给该应试者高分;反之,也不要因某应试者在某一题上答得不好或某些地方答得不合自己的心意,就把应试者一棍子打死。要注意按维度的操作定义及各题的评分标准认真进行评分。
4.4 评分员有关面试的知识、 经验水平对评分员的评分一致性的影响
本研究中的两组评分员中有四位是相同的,均是来自于人事部门中训练有素的,经常做面试的老手。这四位评分员对于面试有丰富的经验,同时因受培训较多,对于结构化面试的知识水平也较高。而每一组评分员中的其他三位则是用人司(局)的领导,相对来说面试经验和培训机会都比较少。那么这两部分人在面试时对应试者的评分是否有区别呢?
由表1可见, 四个训练有素的评分员在评分时达到一致性并在统计上达到显著水平的项目比七个评分员(含三个用人司(局)领导)要多。从表2、表3、表4中也可以见到类似现象。可见, 训练有素的评分员在评分时更易于达到一致性。我们认为这主要是因为对评分员的培训有助于提高他们对测评要素的操作定义及题目评分标准的把握。
这给我们一些启示:这一方面说明国家人事部大力提倡在公务员录用考试中稳定面试评分员队伍、加大面试评分员培训力度、尽量用一些有丰富面试经验的评分员的做法正确,另一方面也说明,在目前的公务员录用考试中,一些用人单位的领导来参加面试,其评分的一致性还是一个弱项,如何对这部分人进行培训并进行管理,使之成为合格的考官和一支稳定的队伍,从而提高面试水平仍是一个课题。
4.5 本研究的不足之处
本研究所采用的面试题目是根据国家公务员录用考试面试的要求编制的,测评要素则是我们自己根据研究的需要而确定的;其他方面均严格按照国家公务员录用考试面试的要求进行。这种过于追求与实际工作的一致造成了本研究的不足之处:设计欠严密、控制不够;同时限于各种原因,采集的数据比较少,从而使得研究的结果不利推广。
5 结论
通过上述的讨论与分析,我们可以得到如下的结论:
1.两组评分员对各自的一组应试者尽管在有些维度上的评分是一致的,在有些维度上的评分是不一致的;但评分员间对其面试的一组应试者在总分上的评定则是一致的。也即,从总体上看,每组评分员的各个成员在对应聘同一职位的不同应试者的评分在评分标准上是基本一致的。
2.不同的评分维度(测评要素)对评分员的评分一致性有不同的影响。表现为评分员对考生容易做出有效表现、评分员容易判断的评分维度更倾向于做出一致性评分,而对考生不易做出有效表现或评分标准不易掌握的评分维度倾向于评分不一致。
3.应试者在面试时的表现是否突出(很好或很差)也会影响评分员的评分一致性。表现为应聘同一职位的同一组应试人员,在面试时表现得很差或很好两个极端时,评分员对其评分时一致性水平也就比较好;而对于在面试中表现一般的应试者,评分员在评分时会表现出不一致。
4.评分员所具有的面试知识和经验水平对评分一致性也有重要的影响。表现为受过培训的、训练有素的评分员比新手在评分时一致性要好。
* 与本文有关的信件请寄北京师范大学心理系,100875, 吴志明。