基于多元泛化理论的评价中心结构有效性分析与研究_结构效度论文

评价中心结构效度的多元概化理论分析研究，本文主要内容关键词为：分析研究论文,评价论文,理论论文,结构论文,中心论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：B841.2文献标识码：A文章编号：1003－5184（2010）05－0066－06

1 引言

评价中心通过多种模拟任务来测评高级管理人才，是现代人事测评的一种主要形式。然而，评价中心的结构效度可能不甚理想。Arthur等人曾在研究中提出了评价中心的效度悖论问题[1]，即虽然能证实评价中心具有较高的预测效度，但却很难证明其结构效度。如果评价中心有良好的结构效度，则同质异法的相关（会聚效度）应该较高，而异质同法的相关（区分效度）应该低一些。但是，大量研究却得到了相反的结论，即异质同法相关高于同质异法相关。例如，Arthur在研究中发现[2]，评价中心维度之间相关很高，平均估计的真实相关达到了0.56，显著高于测量任务之间的相关。

影响评价中心结构效度的因素众多，主要有评分者、评分过程、测量任务和测查维度等几个方面。

1.1 评分者的评分过程

评价中心的评分过程主观性较强，这在很大程度上影响着评价中心的结构效度。评价中心的评分目前存在着两个相互竞争的解释模式，即个人特征模型[3]和角色一致模型[4]。

个人特征模型认为[3]，评价中心中受测者的行为直接对应着其潜在的有因果关联的特征、知识、技能或能力。如果评价过程符合个人特征模型，那么个人特征就构成了评价中心维度评分的主要变异源，跨任务的同维度评分是相关的，而任务内的不同维度评分是不相关的。然而，这个模型的前提是受测者跨任务的表现是一致的，这点受到很多质疑[5]。

相反，角色一致模型认为[4]，评分者的评分反映的是在特定任务中，评分者认为受测者的表现与评分者对其管理角色期望之间的一致性程度。在这个模型下，评分者对什么样的表现属于“好”的行为有着自己的内隐模型。因此，评价中心很可能并没有测量到它所设计的构念，而是测量了其它构念[6]。如果评价过程符合角色一致模型，即主要变异源是受测者在不同任务中展现出来的管理者角色的水平，则同一任务中不同维度的相关会高于不同任务相同维度的相关。

1.2 测量任务与测查维度的对应关系

Howard在研究中指出[7]，每个任务测查的维度和侧重点都不尽相同，他总结到：“是任务而非维度才是评价中心的焦点”。为了使受测者能够展现出和工作相关的更广泛的行为，评价中心包括多种任务，如文件筐、群体讨论、角色扮演等，它们对受测者的心理要求是不同的，所引发的行为也是不一致的，也就是说它们不是对同一维度的平行测量。从这个角度看，如果不同任务对行为的要求相同，则会聚效度会高一些，如果不同任务对行为的要求不同，那会聚效度必然不会很高。

Tett和Guterman提出来的特质激活理论进一步解释了评价中心的会聚效度问题[8]。在该理论中，特质激活潜力（TAP）指的是特定任务激活与某种特质相关行为的潜力。能否观察到特质相关行为的差异，取决于特质的关联性和情景强度，当两个任务对某项特质的TAP均高时，会聚效度就会高。例如，无领导小组讨论和角色扮演均激活了“外倾性”这项特质，那么这两个任务用于“人际影响力”维度的测量，二者的会聚效度就会高一些。Haaland等人对晋升情境中的评价中心进行了相关研究（N＝79），结果发现[9]，相比低特质激活的任务，高特质激活任务之间的同维度相关更高（0.30）。

另外，Lievens在研究中指出[10]，在探讨任务内的区分效度时，也应考虑任务和潜在特质是如何联系起来的。他的研究证实，那些背后不是同一个特质的任务，其区分效度比背后是同一个特质的任务要高。例如，需要挑战性互动行为的任务能够引发受测者多样化、差异显著的行为。当评分者能够看到受测者之间更广泛的行为差异时，他们对维度的区分就会更加精准一些。

1.3 评价中心结构效度的分析方法

研究评价中心的结构效度，大致有三种方法，一是多质多法[11]，它适用于多种特质在多种测评方法中进行评定时对结构效度进行检验；二是探索性和验证性因素分析；三是结构方程建模技术。

近年来，多元概化理论为评价中心结构效度的研究提供了新路径，与传统方法不同的是，它将影响分数变异的各种误差来源引入到测量模型中，并分别估计出方差和协方差分量的大小，来揭示这些变异源及彼此间交互作用对分数的影响程度[1，12]。此外，它的分析结果还可以为如何提升评价中心的结构效度提供合理的建议和启示。

1.4 问题提出

评价中心技术运用广泛，但运用中也受到诸多的局限和制约，如成本、组织需求、实施背景等，评价中心的每一次具体实践都有其针对性和独特性。为了确保评价工作行之有效，研究者不能只在测评项目结束之后才去检验其信度和效度，而应该提前证明所采用的评价中心技术结构效度良好，测量信度在可接受范围内。这就需要研究者从某一次具体应用中来推断它在今后相似应用情境下的测量信度和效度，即对施测结果进行概化。概化过程可以帮助研究者清晰且全面地认识评价中心的结构以及测评过程中的误差来源，能为今后类似的评价中心测评工作提供指导。

研究收集了真实的评价中心测评数据，一方面检验其结构效度是否存在问题，继而对问题产生的原因进行分析，一方面探究不同评价中心任务与所测查维度之间的关系，最后通过概化分析优化整个测评的结构，提升整体的测量信度。

2 研究方法

2.1 研究背景

研究数据取自于某金融企业真实的后备干部选拔情景。被选拔的受测者共34人，均接受了结构化面试、案例研究和文件筐这三种任务，分别由3名、2名和2名经验丰富的专业人员进行评分，评分范围均为1～10分。选拔过程测查了系统思维、改革创新、领导与指挥、影响与沟通等四项能力维度。受测者在每个任务和维度上的最终成绩为评分者所给分数的平均值。

2.2 数据分析方法

首先，采用多质多法对三种评价中心任务所测量的四个维度之间的相关矩阵进行分析。研究假设不同任务下同维度间的相关最高，不同任务下不同维度间的相关最低，即同质异法相关＞异质同法相关＞异质异法相关。

其次，采用多元概化理论[12]，将受测者在四种能力维度上的表现作为测量目标，通过G研究，将各种变异来源对总变异所作的贡献（方差分量）估计出来，测量目标的变异对分数总变异的贡献越大，测量的信度就越高。同时，协方差分量揭示了能力维度之间的关系。因此，方差、协方差分量共同描绘了评价中心的结构。通过D研究，可以进一步计算受测者在各个能力维度上的全域分数方差、相对误差、绝对误差、概化系数和可靠性指数等，同时还可以对四种能力维度分数的合成模式及权重进行比较，估计相应的全域合成分数方差。

3 研究结果

3.1 多质多法研究结果

不同评价中心任务下各个能力维度之间的相关矩阵见表1。从表中可以发现绝大多数的相关均显著或者边缘显著。只有少数异质异法的相关系数较小，且不显著。此外，经过Fisher Z的转换，计算得出了平均相关系数，同质异法和异质同法的相关，结果见表2。

表2中的结果显示，异质同法相关最大，同质异法相关居中，异质异法相关最小，这与假设不完全相符，可以说存在一定的结构效度问题。

具体来讲，在异质同法相关上，任务内的维度相关均在0.01水平上显著，相关系数处于中等强度水平。这说明在同一个评价中心任务内，评分者可能没有较好地区分不同维度间的差异，或者评分者可能未按照“个体特征模型”进行评分，也有可能是维度间自身存在高相关，因此还需要进一步考察不同维度之间的关系。

在同质异法相关上，系统思维的相关最高（0.534），影响沟通的相关最低（0.255），四个维度的总体平均相关为0.430，但它仍然低于平均的异质同法相关（0.678），只是略高于异质异法相关（0.387）。

此外，任务间的同质异法相关程度存在较大区别。文件筐和案例研究之间的同质异法相关较低，仅系统思维的相关（0.49）在0.01水平上显著。而在文件筐与面试、案例研究和面试之间的同质异法相关多是显著的（仅在影响与沟通维度上相关不显著），且相关系数也相对较大。这表明不同任务对不同能力维度的测查重点是不同的，这些任务没有均等地激活受测者的各种能力与行为。

3.2 多元概化研究结果

根据多元概化理论的分析原理，多元指四个能力维度，测量目标为受测者在这四个能力维度上的行为表现（p），体现在评分者所评的分数上。测量侧面分别为评分者侧面（r）和测量任务侧面（t）。

3.2.1 G研究结果

G研究发现，从受测者在各个维度上的表现来看（效应p），系统思维的方差分量最大（0.458），影响沟通的最小（0.136），这说明受测者的系统思维能力起了较大作用，而影响沟通能力的作用较小。根据协方差分量的估计值可以发现，系统思维与改革创新这两个能力维度的协方差分量较大（0.419），这意味着这两个维度之间存在一定的关系，若用这两个维度分数的高低来确定受测者的顺序，会得到比较一致的结果。

从任务效应的角度看（效应t），四个维度的方差分量与其他效应相比大很多，这说明不同任务之间的差异十分明显，在相当大的程度上解释了分数的总变异。也就是说，测验任务给分数带来了很大的系统变异。

从评分者的效应来看（效应r∶t），由于评分者侧面是嵌套在任务侧面之中的，因此并没有评分者的主效应。这部分的方差分量大小相比其他效应要小很多，说明在某一任务内评分者带来的误差很小，评分者的一致性较高。评分者效应的协方差分量也很小，说明在某一任务内评分者对维度的区分很好，评分者在某一维度上的评分不受其它维度评分的影响。

两个交互作用的方差分量分别揭示了受测者在跨任务情境下（效应pt），以及在任务内接受不同评分者评分时（效应pr∶t），在各个维度上表现的差异。这一差异相对较大（从0.344到0.732），一方面说明受测者在跨任务上的表现不太稳定；另一方面说明不同任务中的评分者对不同受测者的评分宽严尺度把握不一。此外，最后一个交互作用的效应中（效应pr∶t）实际上还包括不可解释的残差部分（e）。

3.2.2 D研究结果

D研究设计与G研究设计相同，即。表4中呈现了根据G研究结果所计算出的全域分数方差等信息。由于测评目的是选拔后备干部，注重比较个体间的水平差异，测评过程中的系统差异对于所有受测者都是一样的，因此只需考虑随机变异的误差（相对误差）和相应的概化系数。

从表4中可以看出，全域分数方差就是G研究中测量目标的主效应方差。由于测量任务和评分者等效应的方差均纳入到了系统差异，即绝对误差，因此绝对误差比相对误差大很多。在概化系数方面，系统思维这一能力维度的概化系数最大（0.664），而影响沟通的最小（0.295），说明这次测评对系统思维测量的信度最高。

虽然测评工作是针对受测者四个能力维度展开的，但是在做出最终选拔决策时则要综合考虑受测者的整体情况，这就涉及到分数合成的问题，即全域合成分数。在合成时，必须先确定权系数。从前面的研究结果可以看出，各个能力维度的全域分数方差和测量信度不尽相同，因此不宜将四个能力维度等权重合成，可以结合测验目的将测量信度较高、全域分数方差较大的能力维度设成较大的权重。表5中呈现了依不同权重对四个能力维度进行合成时的各种指标情况。

通过表5可以看出，四个维度分别采用不同的权重时，全域合成分数的方差分量以及相应的合成概化系数均不同。四个能力维度各自的全域分数方差以及测量信度从大到小分别为系统思维、改革创新、领导指挥、影响沟通，因此当权重也依此顺序从大到小设置时（4∶3∶2∶1），全域合成分数的方差分量（0.332）相比其他几种设置方法最大，相应的合成概化系数也最大（0.682）。相反，若不按该顺序设置权重，而将权重顺序颠倒时（1∶2∶3∶4），全域合成分数的方差分量以及合成概化系数均最小，分别为0.247和0.603。可见，将全域分数较低以及测量信度较差的维度的权系数提升时，会削弱整体的测量信度。

4 讨论与结论

4.1 评价中心的结构

多质多法的结果指出，测评中的结构效度并不理想。那么，究竟是什么原因造成的呢？

相关矩阵的结果似乎支持角色一致模型[4]，而非个人特征模型[3]。但结合多元概化理论的结果不难发现，评分者的方差分量较小，评分者一致性程度较高，而协方差分量较小则显示受测者在评分过程中也没有因为在某一维度上的评分影响在其他维度上的评分，评分者对任务内维度的区分还是比较到位的。由于评分者是嵌套在任务之中的，同一评分者并没有跨任务进行评分，因此从评分者的角度来讲很难说研究是否支持了角色一致模型。至于个人特征模型，虽然受测者没有接受跨任务的评分，但是个体在跨任务中的表现其实并不稳定，这从多元概化理论分析中受测者与任务的交互作用方差分量大小可以看到，可见个人特征模型似乎也不能被证实。

由此看来，受测者在不同任务上的不稳定表现只能归因于任务之间的差异。多元概化理论的分析中指出任务效应的方差分量最大，不同任务之间的差异显著，说明每个任务是具有特异性的。这种特异性体现在不同任务的维度差异上，根据特质激活理论[8]，这种差异是不同任务对特质激活的差异，它不仅导致了受测者在跨任务上的表现不稳定，也造成了同质异法的相关并不高。尽管评分者能在同一任务内较好地区分不同的能力维度，但评分过程毕竟是在同一任务内展开的，而由于不同任务所激活的行为受任务特异性影响很大，因此异质同法相关最高。

4.2 评价中心与能力维度

多质多法相关矩阵显示，测评维度跨任务的相关从大到小依次是系统思维、改革创新、领导指挥和影响沟通，多元概化理论分析下全域分数方差分量的大小顺序以及各个维度概化系数的大小顺序也如此，两种分析方法的结果相一致。那么究竟各个能力维度在不同的任务上有什么差异呢？

首先，根据多元概化理论G研究的分析可以发现，在不同任务下，评分者对该任务所测查的能力维度能进行较好的区分，这可能是由于测验所测查的能力维度更偏向于行为表现，而非潜在的特质，因此这些维度比较易于被观察和区分。

其次，具体到各个能力维度上，根据多质多法的分析，影响沟通在不同测量任务之间的相关均不显著。可能的原因在于，面试能够直接观察到受测者人际方面的技能，但文件筐和案例研究更多是从认知的角度来测量这个维度。用特质激活理论的解释就是，面试在这个维度上可能具有较高的TAP，而文件筐和案例研究在影响沟通上的TAP较低。在文件筐和案例研究之间，只有系统思维的同质异法相关是显著的。可能的原因是，这两种方法均偏认知类测验，它们激活了和认知相关的行为，如系统思维能力。而其它维度虽然和认知能力有一定程度的相关，但没有系统思维与认知的关系更加直接和紧密。

此外，概化分析显示测量目标中系统思维与改革创新的协方差分量最大，而多质多法相关矩阵中也表明这两个维度在不同任务上的相关相对较大。可能的原因在于，改革创新这一能力需要受测者根据当前的情况，提出创新性的解决方案，属于问题解决的范畴。这种能力很可能基于良好的思维能力以及对问题系统把握的能力。因此与系统思维这一能力维度会有较为紧密的关系。相反，在另外两个维度中，领导指挥更多地体现了科学管理素养，而影响沟通更多地体现人际交互方面的能力，显然这两种能力相对独立，因此二者彼此之间以及它们与系统思维和改革创新维度的相关都不高。

4.3 多质多法与多元概化理论

多质多法和多元概化理论分析方法均可以揭示评价中心的结构关系。多质多法的相关矩阵是基于传统的经典测量理论，相关系数是观察分数的直接相关，从显著性和相关系数的大小，可以直观地找出维度之间的关系以及不同测量方法之间的关系，从而呈现出结构效度的信息。然而由于观察分数中混淆了来自各种误差源的误差，因此，它所揭示出的结构效度并不“真实”。

多元概化理论分析框架很好地解决了这一问题，G研究通过方差分析的手段将各种误差源的方差与协方差分量进行分离，所生成的全域分数方差更为真实地反映了真分数的大小，而在此基础上得出的测验结构效度的推断必然更为可靠。

因此，在分析测量结构时，可以先通过多质多法直观迅速地把握维度和方法间的关系，然后使用概化理论的方法，深入剖析影响结构的各种因素，更为细致地描述维度和方法上的关联与差异。

4.4 提升评价中心的测量信度

概化理论相比经典测量理论较为核心的突破和发展在于，它提出了测量情境关系的概念，它可以通过D研究将某一测量情境下的误差“概括化（推论）”到其他测量情境下，从而估计出测量情境改变后的测量信度，指导人们在运用评价中心的过程中更好地控制误差。

由于真实的测评项目下，测量情境关系一定，G研究中估计出的各种误差已无法修正。因此，为了提高测量的信度，减少误差对决策的影响，分数合成成为了一个至关重要的环节。D研究尝试了多种不同维度权系数的组合，并预估了各种权重设定下相应的概化系数，即测量的信度。这很好地指导了选拔工作的开展。

此外，根据研究结果，还可以从这次测量实践中获知误差的来源、大小以及维度之间的关系，这有助于完善今后的测评工作，可以更好地根据选拔工作的需求，选取明确合理的测评维度以及评价中心任务，从而最大限度地降低测量误差，提升测量的信度。具体来说可以从以下几方面着手：1）选取更为外显、行为化的能力维度，同时在评分标准上加以明确界定，以便于评分者准确区分各种维度；2）评分者尽量避免晕轮效应，避免根据对受测者的整体印象进行评分；3）选取的任务尽量能够激发所要测查的能力维度；4）同一能力维度在不同的任务上尽可能统一界定，避免同一维度在不同任务上代表不同的含义；5）不宜盲目对各个能力维度进行合成，而应根据对各个维度的测量精度以及维度的重要程度谨慎地进行权重设置，从而进一步确保整体的测量信度。

标签：结构效度论文; 评价中心论文; 系统思维论文; 相关性分析论文; 方差分析论文; 能力模型论文; 区分效度论文; 过程能力论文; 系统评价论文; 总体方差论文; 差异分析论文; 测量理论论文; 维度理论论文;

基于多元泛化理论的评价中心结构有效性分析与研究_结构效度论文

猜你喜欢