基于可靠性综合法的五大人格问卷(BFI-44)的信度因素分析_人格测验论文

大五人格问卷(BFI-44)信度元分析——基于信度概化方法，本文主要内容关键词为：五人论文,问卷论文,方法论文,信度概化论文,信度元论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

DOI:10.3724/SP.J.1042.2015.00755

分类号 B848

1 引言

大五人格问卷(Big Five Inventory，BFI-44)自1991年开发以来，得到了研究者们的持续关注。在其基础上，相继产生了多种不同语言的版本和修订版，并被广泛应用于教育、临床、家庭咨询、组织行为等研究领域(Blüml，Kapusta，Doering，Br

hler，Wagner，& Kersting，2013；Gerend，Aiken，& West，2004；Gonzaga，Campos，& Bradbury，2007；Koh et al.，2014；McAbee & Oswald，2013；Zaidi，Wajid，Zaidi，Zaidi，& Zaidi，2013)。

1.1 BFI的理论基础及发展

BFI是以Goldberg(1981)提出的“大五”(Big Five)人格结构为理论基础发展出来的人格测验。有研究者发现，很多人格特质只能通过形容词进行描述，大约有1715个形容词能清晰的表示出人格的原型(Prototype)(Angleitner，Ostendorf，& John，1990)。John等人通过因素分析，从这1715个表示人格原型的形容词中选出了“大五”各维度中因素载荷最高的形容词(John & Srivastava，1999)，并采用词汇学取向的“大五”人格理论构建BFI。但是，为了详尽描述人格特质，提高作答一致性，编制者在每道题目中选用了1～2个最能表现大五人格结构的人格描述形容词，并增加了对形容词描述或说明性的信息，因而每道题目被编制成一个短语而非词汇。例如，开放性维度中的特质词汇“独创的”(original)，在BFI中被编制为“具有独创性，会产生新点子”(is original，comes up with new ideas)；尽责性维度中的特质词汇“坚持不懈的”(persevering)，在BFI中被编制为“坚持到任务完成”(perseveres until the task is finished)(John，Naumann，& Soto，2008)。最初，BFI有BFI-44和BFI-54两个版本，但是BFI-54中有10道题目计分不便，现在已基本不再使用；研究者公开发表的测验为BFI-44(John，Donahue，& Kentle，1991；John et al.，2008)。

随着BFI-44研究需求的增加，也为了在国际上广泛应用且便于跨文化研究比较，各国研究者在BFI-44原版的基础上，先后修订并产生了德、法、荷、韩、意、匈、挪等7种语言的版本，并有相关的研究文献发表(Denissen，Geenen，van Aken，Gosling，& Potter，2008；Engvik & F

llesdal，2005；Farkas & Orosz，2013；Fossati，Borroni，Marchione，& Maffei，2011；Kim et al.，2010；Lang，Lüdtke，& Asendorpf，2001；Plaisant，Srivastava，Mendelsohn，Debray，& John，2005)。在伯克利人格实验室官方网站(http：//www.ocf.berkeley.edu/～johnlab/bfi.htm)，除了以上这些语言的版本，还有中、立、瑞三种语言版本。其中，BFI-44中文版测验题目可见http：//www.ocf.berkeley.edu/～johnlab/pdfs/BFI-Chinese.pdf。在BFI-44研究与使用过程中，研究者还相继修订开发出了BFI-25、BFI-S、BFI-K、BFI-10、BFI-20五个简版BFI测验(Engvik & Clausen，2011；Gerlitz & Schupp，2005；John et al.，1991；Rammstedt & John，2005；Rammstedt & John，2007)。目前，BFI多个测验版本中使用最为广泛的是BFI-44。

1.2 问题提出

不同语言版本的BFI-44在各个国家的广泛应用中，研究者发现测验的信度水平会随着施测样本的变化而变化，但只有少数研究者探究了其跨样本时的信度稳定性。例如，有研究者将28种语言的BFI-44在56个国家的18，378名被试中进行了施测，发现各维度的α系数处于0.76～0.79之间(Schmitt，Allik，McCrae，& Benet-Martínez，2007)。此外，还有研究者探究了BFI-44在55个国家不同性别的差异，其平均α系数为0.72(Schmitt，Realo，Voracek，& Allik，2008)。但大多数研究只提供了研究中单一样本的α系数，没有考虑到测验的信度水平在不同样本中具有变异性。因此，很有必要对已有文献中使用的BFI-44测验信度进行元分析，为BFI-44使用者提供一个有代表性的α系数参考值和范围。

信度是心理测量学的基本概念，指测验的可靠程度，它表现为测验结果的一贯性、一致性和稳定性。信度是反映测验结果受到随机误差影响程度的指标，是评价测验质量的最基本的指标之一(Guttman，1945；张力为，2002)。信度是效度的必要不充分条件，一个测验要有效度必须要有信度，没有信度就没有效度。如果一个测验测量的数据不准确，就不能有效地解释和说明所研究的现象。由于对一个测验进行多次施测时，信度不是测验工具固有不变的属性，它会随着施测条件而变化，在具体应用中，它指的是测验结果的可靠程度。针对信度的可变性，Vacha-Haas(1998)提出了“信度概化”(reliability generalization)的概念，并用这种概化理论思想来指导信度的元分析技术。信度概化的目的是确定某一测验工具在不同研究中α系数的变化范围，该测验工具信度的变异性，以及影响测验信度水平的变量(Vacha-Haas，1998)。有研究者指出，信度概化已经成为对测验α系数进行元分析的主要方法之一(Rodriguez & Maeda，2006)。它将已有研究中的α系数作为研究样本，通过描述统计、回归分析等方法，探究影响α系数变异的预测源，分析它们为什么会对α系数有影响以及如何影响，为研究者在今后的研究中使用BFI-44时提供参考，注意平衡自己的研究需求与α系数变异预测源之间的关系，并为后来测验的使用者提供一些建议。本研究将采用一种最新的信度概化技术(Rodriguez & Maeda，2006)对BFI-44的信度进行元分析。

2 研究方法

2.1 文献来源及筛选步骤

检索了包含Proquest系列在内的共计17个数据库中自1991年1月1日至2014年4月4日共24年来有关BFI的学术期刊文献和书籍。(1)标题查找。在数据检索的“标题”栏中输入关键词“Big Five Inventory”或简写“BFI”，查询到文献20篇。(2)摘要查找。在数据库检索“摘要”栏中输入关键词“Big Five Inventory”或“BFI”，并在“引用作者”一栏中输入“John，Donahue & Kentle”，去掉重复文献后，查到文献165篇，其中1991～2009年间共67篇，2010年至今共98篇。(3)全文查找。在数据库检索“全文”栏中输入关键词“Big Five Inventory”，删除与前两种查找方法重复的文献后，共收集到571篇文献，其中1991～2009年间共230篇，2010年至今共341篇。三种查询方法查询到1991年至今有关BFI的学术期刊文献、书籍共计756篇。

在CNKI数据库中，使用关键词“Big Five Inventory”在“标题”或“英文摘要”或“全文”或“参考文献”栏中搜索，共查找到26篇中文文献。

总共查找中、英文文献782篇。其中，有129篇报告了研究中BFI-44各维度的α系数，有85篇除报告了各维度的α系数，还报告了被试样本量、被试国籍、测验语言版本、被试平均年龄、男女比例(通过计算获得)等人口学变量信息。在这85篇文献中，部分论文包括了多个子研究，共计包括110个样本。本研究最终用于对BFI-44的α系数进行元分析以及研究α系数变异的预测源的85篇文献都是英文文献，大多数发表在“Journal of personality and social psychology(IF：5.51)，Journal of personality(IF：2.94),Personality and individual differences(IF：1.88)”，其文章引用率和期刊在专业领域的影响力都比较高。

2.2 文献编码

以往的研究一般都会对影响α系数变异最重要的样本特定因素进行编码。Vacha-Haase(1998)对《贝姆性别量表》(BSRI)的α系数元分析中，考察了样本量、测验类型、测验语言版本、国籍等变量对测验α系数的影响。有研究者利用信度概化方法对《工作倦怠量表》的α系数进行元分析时，探究了样本量、测验语言版本、被试的职业、国籍等变量对α系数的影响(Wheeler，Vassar，Worley，& Barnes，2011)。还有研究者选取样本量、中国南北区域差异、男女比例、平均年龄、健康类型等作为MMPI问卷各分量表α系数元分析的预测变量(焦璨，张洁婷，吴利，张敏强，2010)。在本研究涉及到的110个研究样本中，可选择的预测变量有种族、样本量、被试国籍、测验语言版本、被试平均年龄、交往时间、工龄、男女数量等变量。其中，样本量、被试国籍、测验语言版本、平均年龄、男女比例(通过计算获得)在110个研究样本中信息完整。因此，本研究中把这5个变量作为考察BFI-44信度水平的预测变量。

在5个变量中，被试样本量、平均年龄、男女比例为连续变量；被试国籍和测验语言版本为分类变量，对其进行虚无编码。由于BFI-44最先由美国的研究者以英语修订发表，因此本研究将被试国籍编码为美国(1)、非美国(0)两类，测验语言版本相应编码分为英语(1)、非英语(0)。

3 研究结果

3.1 BFI各维度的代表性信度水平

Rodriguez和Maeda(2006)认为，α系数会随着样本的变化而变化，但先前的信度元分析没有涉及到α系数的抽样分布(Vacha-Haase，1998；Vacha-Haase，Kogan，Tani，& Woodall，2001)。于是，他们对Vacha-Haase的信度概化方法进行了改进，运用样本量加权方法和T转换加权方法，使信度估计更准确。其中，T转换是一个假设检验的过程，提出虚无假设

是“所有样本中BFI-44各维度的α系数没有显著差异”。通常，先采用Q检验来对该假设进行验证。然后，将各个研究样本的α系数采用公式转换成

.。本研究选用了85篇文献中的110个样本α系数的算术平均数、样本量加权平均数和T转换加权平均数进行计算。转换公式及Q检验公式为：

三种算法中，BFI-44问卷E维度的α系数处于0.824～0.855间，A维度处于0.745～0.794间，C维度处于0.792～0.823间，N维度处于0.813～0.833间，O维度处于0.788～0.796间。各维度的α系数都接近或超过0.8，其中样本量加权平均数和T转换加权平均数两种算法的结果比较相似。除开放性维度外，其他维度T转换加权计算的平均数都比采用另两种算法得到的数值高。

五个分维度Q检验结果为：

(109)=3579.601，

(109)=2242.416，

(109)=2150.65，

(109)=1918.299，

(109)=1860.496，各维度的Q检验都达到显著水平(p＜0.0001)。说明样本中各维度的α系数差异显著。

3.2 BFI各维度α系数变异的预测源

以T转换量为因变量，

为权重，进行加权最小二乘回归分析，探究BFI-44信度系数变异的预测源(Rodriguez & Maeda，2006)。结果如表2所示。

表2结果显示，样本量对BFI量表中的A、C、N和O维度的α系数有影响，Δ

分别为19.2％、4％、8.5％、15％。其中，样本量对A、C起正向预测作用，对N、O起负向预测作用。国籍对E、A、C维度α系数起正向预测作用，Δ

分别为10.5％、20.5％、15.6％。男女比例对E、C、O维度α系数有影响，Δ

分别为10.3％、20％、6.4％，其中，男女比例对E、O维度的α系数起正向预测作用，对C维度起负向预测作用。测验的语言版本和被试的平均年龄对各维度的α系数影响没有达到显著水平。

4 讨论

从元分析结果可知，在各个国家的110个样本研究中，BFI-44各分量表的α系数介于0.745～0.855间。通常，人格量表的信度比智力测验要低，α系数不低于0.6即可接受(戴海琦，张峰，陈雪枫，2011)。研究表明BFI-44在国籍、语言版本、样本量、被试平均年龄、男女比例等不同情境中的应用是稳定的。在国内发表的26篇文献中，只有4篇完整地报告了各维度的信度，很多研究则犯了“信度引入”(reliability induction)的错误，在自己的研究中报告的是前人研究中测验的信度，缺少自己研究样本施测数据的信度值，把前人的研究结果作为判断测验质量的依据。国内其余的研究，甚至没有对其信度做任何描述，这在一定程度上阻碍了对国内研究中所使用的测验进行信度概化研究，影响了测验可靠性和有效性的进一步提升(焦璨等，2010)。在今后研究中，研究者应意识到“信度引入”的错误所在，并能够有意识地完整报告自己研究中使用的测验施测数据的信度系数。

在选取的5个预测源中，样本量、国籍、男女比例对不同维度的α系数均有影响，而测验语言和平均年龄对各维度的α系数均没有影响。在A、C维度中，样本量越大，α系数越高；而在N、O维度中，α系数则随着样本量增大而减小。这可能是由于样本选取方法不科学导致分数出现偏态分布。例如，用于本研究元分析的样本中，很多研究都采取方便取样，样本缺乏代表性，或者在抽样过程中没有考虑到样本的国籍、男女比例等人口学变量，而这些变量都会对BFI-44不同维度的信度水平产生显著影响。有研究选用1013名学生被试施测BFI-44，其中男生占63％，女生占37％，平均年龄21.88岁，年龄标准差为0.74，测验的信度范围处于0.54～0.74间(Furnham，Nuygards，& Chamorro-Premuzic，2013)，而Soh和Jacobs(2013)利用BFI-44对165名学生和在职人员施测时，男女比例分别为42％和53％，年龄跨度为18～59岁，测验的信度范围达到0.76～0.87。以上说明，有时简单盲目地增加样本量不仅不能提高测验的信度水平，反而会造成相反的结果，因此，应注意分层或分类抽样。

结果显示，国籍对BFI-44测验的E、A、C三维度α系数起正向预测作用。在美国实施的研究中，α系数高于其他国家研究的值，因为BFI最先由美国的研究者开发而成，在其他国家的样本中应用施测时，由于文化差异、不同地区的人所具有的某种稳定的人格特征不同，问卷言语表达等因素会造成被试理解的偏差，进而影响其信度水平。有研究者对462名美国被试进行施测，BFI-44各维度的α系数为E(0.88)、A(0.79)、C(0.82)、N(0.84)、O(0.83)，均值为0.83(John & Srivastava，1999)。John等人(2008)对829名美国和加拿大被试进行施测，BFI-44各维度的α系数为：E(0.86)、A(0.79)、C(0.82)、N(0.87)、O(0.83)，均值为0.83。在美国和加拿大样本中，BFI-44各维度的α系数介于0.75～0.90之间。而韩语版BFI-44在韩国人群中施测，各维度的α系数为E(0.52)、A(0.61)、C(0.75)、N(0.71)、O(0.75)，均值为0.67(Kim et al.，2010)。此外，德语版各维度的α系数介于0.67～0.82之间(Lang et al.，2001)，明显低于美国样本。

男女比例变量会对BFI-44不同维度的α系数起不同的作用。在E、O维度中，男性越多，α系数越高；而在C维度中，女性越多，α系数越高，表明男女在人格结构中的差异也会影响测验的α系数。有研究者利用BFI-44测验探究全世界55个国家不同性别的被试在人格得分上的差异，结果显示很多国家的女性在神经质、外倾性、宜人性和尽责性等维度上的分数都高于男性(Schmitt et al.，2008)。此外，有研究者发现，女性在神经质和宜人性两个维度中得分高于男性，但其他三个维度得分与男性没有明显差异(Costa，Terracciano，& McCrae，2001)。除神经质维度外，男女比例对其他四个维度的影响并没有形成一致的结果。

被试年龄对其BFI-44各维度的α系数没有影响，其结果与之前研究一致。Denissen等人(2008)在荷兰通过网络邀请本国6948名被试完成了BFI-44测验，年龄跨度从10岁至70岁，经过多样本分析发现，被试在各个年龄段的得分差异不大，且BFI-44结构很稳定。而本研究中语言版本对BFI-44各维度的α系数都没有影响，这一结果与前人研究不符，Caruso(2000)利用信度概化方法对NEO人格测验α系数分析中发现，英语和非英语版本的测验对E、N、O三个维度的α系数有影响。这可能是因为本研究综合了很多研究结果，整合了单一研究的差异。如有研究者利用英、德、中三种语言版本BFI测验对三个国家被试施测时，德国样本中有些维度的α系数高于美国被试(Gunkel，Schlaegel，Langella，& Peluchette，2010)。该结果还有待于今后的研究者通过收集原始数据，进行进一步验证。

比较BFI-44与其简版测验，结果表明，BFI-10与BFI-44各维度的相关虽达到0.7以上，但英语版和德语版的BFI-10对BFI-44的解释率分别为55％和62％，因此使用简版问卷会存在一些隐患(Rammstedt & John，2007)。同时，有研究对不同长度版本的五因素人格测验进行比较后发现，测验的信度水平随测验题目数量的增多而提高。使用题目数量过少的问卷，会增加测验结果犯一类错误和二类错误的概率，进而对整个问卷的结果产生影响，因此，建议在施测时采用中等长度的问卷(Credé，Harms，Niehorster，& Gaye-Valentine，2012)。

5 结论及应用建议

运用信度概化方法对85篇BFI-44英文文献进行元分析后得出以下结论：

(1)用于信度概化分析的样本间BFI-44各维度的α系数差异显著。

(2)BFI-44各维度的α系数均接近或高于0.8，其中E、N维度的α系数高于其他3个维度。

(3)被试样本量、国籍、男女比例均对BFI-44测验不同维度的α系数有影响。样本量对A、C维度的α系数起正向预测作用，对N、O维度的α系数起负向预测作用；国籍对E、A、C维度的α系数起正向预测作用；男女比例对E、O维度的α系数起着正向预测作用，对C维度则起负向预测作用。测验的语言版本和被试的平均年龄对各维度的α系数没有显著影响。

BFI-44语言版本多样，在世界范围内应用广泛，各维度α系数均接近0.8，且该测验仅由44道形容词短语题目构成，简短省时，建议在国内推广使用。使用时建议报告研究中测验工具施测数据的信度水平，并进一步考察其信效度。在使用中还应注意抽取被试的方法，注意平衡地区差异、男女比例对其信度水平的影响。

标签：人格测验论文; 维度理论论文; 信度检验论文;

基于可靠性综合法的五大人格问卷(BFI-44)的信度因素分析_人格测验论文

猜你喜欢