测试可靠性评估：从α系数到内部一致性可靠性_内部一致性信度论文

测验信度估计：从α系数到内部一致性信度，本文主要内容关键词为：系数论文,测验论文,一致性信度论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

分类号 B841

测验信度（reliability）是衡量测验质量的一个重要指标。自从Cronbach（1951）讨论了Guttman（1945）导出的α系数以后，α系数几乎成了测验信度的替身。同时，文献上对α系数的质疑和评论也持续了很长的时间，大量研究认为，α系数不能很好地估计测验信度（例如，Green & Yang,2009; Lucke,2005a; Maxwell,1968; Novick & Lewis,1967; Revelle & Zinbarg,2009; Sijtsma,2009；侯杰泰，1995；孟庆茂，刘红云，2002；关守义，2009）。因此，应用工作者会有许多迷惑不解的问题：什么情况下α系数还有参考价值？如果不能用α系数，应当用什么来估计测验信度？首先考虑的自然是与α系数关系密切的统计指标。α系数也经常被称为同质性（homogeneity）信度或者内部一致性（internal consistency）信度，它们是一回事吗？如果不是，同质性信度或者内部一致性信度可以用来衡量测验信度吗？如果可以，应当如何计算？

本文回答了上述问题，先简单介绍了α系数与测验信度的关系，以及α系数的局限；然后明确给出了同质性信度和内部一致性信度的定义，推导出测验信度与同质性信度和内部一致性信度、以及内部一致性信度与α系数的数量关系，说明内部一致性信度比α系数更接近测验信度；接着提供了估计同质性信度和内部一致性信度的具体计算程序，一般的应用工作者可以直接套用；最后总结出一个测验信度分析流程，说明什么情况下报告α系数就足够支持测验信度，什么情况下α系数不再适用，应当使用内部一致性信度。

1 测验信度与α系数

1.1 测验信度的定义

但与被试无关。显然，基本τ等价意味着，任何题目真分数的方差相等，任何两个题目真分数的协方差也相等，并且等于题目真分数的方差。这是一个非常强的条件，现实中的测验没有一个能满足。就这一点，α系数受到不少批评（如Bollen,1989; Green & Hershberger,2000; Zimmerman,Zumbo,& Lalonde,1993）。

这样，α系数是一种非常特殊的一类测验的信度。如果满足条件（i），但不满足条件（ii），α系数不等于信度。例如在误差不相关的同属（congeneric）测验中，除了基本τ等价测验外，α系数小于信度（Green & Yang,2009; Novick & Lewis,1967; Sijtsma,2009; Zinbarg,Revelle,Yovel,& Li,2005）。同属测验是这样定义的，所有题目测量了同一个潜变量（Graham,2006; Lord & Novick,1968; Raykov,1997）。刘红云（2008）通过模拟研究验证，α系数是信度估计的下界。在异质性题目中，α系数是信度的严格下界（Lucke,2005b）。

如果不满足条件（i），误差存在正相关，α系数往往会高估信度（Rozeboom,1966; Zimmerman et al.,1993），这种高估的偏差可能接近两成（Gessaroli & Folske,2002; Green & Yang,2009），但有时也可能还会低估信度（Zimmerman et al.,1993）。

总之，如果没有对测验附加条件，哪怕是常见的同属测验，α系数既可以小于信度，也可以大于信度（Green & Yang,2009; Lucke,2005a），有时候相差还比较大。各题分数的方差相差越大，试题的覆盖面越宽，则α系数越偏离信度（孟庆茂，刘红云，2002）。α系数甚至还会出现负值（Lucke,2005b；席仲恩，汪顺玉，2002），此时α系数一点信度的影子都没有了。所以，一般情况下，用α系数来估计信度，不知道误差会有多大。但后面讨论部分我们会看到，许多时候α系数还有参考价值。

2 测验信度与同质性、内部一致性

α系数有一个人们熟悉的名称——内部一致性信度，给人的感觉是它从内部一致性的角度反映了信度，就像重测信度和复本信度分别从稳定性和一致性角度反映了信度一样。许多人将“内部一致性”与“同质性”做为同义词使用（例见Sijtsma,2009），对于单维测验来说是对的，但一般情况下两者是不同的概念。

内部一致性可以定义为题目之间的相关性（Revelle & Zinbarg,2009），如果同一维度内部的题目之间相关高（可以理解为测量同一特质的题目之间相关系数的最小值高），则内部一致性高。同质性可以定义为所有题目都测量了相同的特质（Revelle & Zinbarg,2009；刘红云，2008），如果所有题目之间的相关都高（可以理解为所有题目之间相关系数的最小值高），则同质性高。在因子分析中可知，相关高的题目将共享公共因子（common factor），所以衡量内部一致性和同质性，可以从因子分析入手。

3 内部一致性信度与α系数

结合上一节，总结一下各种信度之间的关系。一般情况下，假设任何两个题目的特殊因子不相关、误差也不相关是合理的，此时，α系数和同质性信度都不超过内部一致性信度；不论误差是否相关，内部一致性信度都不超过测验信度，当特殊因子不存在时，内部一致性信度等于测验信度。所以，内部一致性信度比较接近测验信度，用来估计测验信度优于α系数。问题是，如何计算内部一致性信度呢？

4 利用因子分析计算同质性和内部一致性信度

因为α系数不能很好地估计信度，所以国内外都不断有学者试图改进估计信度的方法（例如，Bollen,1989；陈希镇，1991; McDonald,1999; Raykov,1997,2004a,2004b; Raykov,Dimitrov,& Asparouhov,2010; Raykov & Penev,2009; Revelle & Zinbarg,2009；谢小庆，1998）。其中，国内学者因为没有使用因子分析作为工具，提出的信度估计方法都只是某种程度上比α系数有改进，但难有根本的突破。国外很多学者都是在验证性因子分析（CFA）基础上，提出或研究估计信度的方法。借助因子模型及其分析软件，可以估计潜变量的方差，进而计算各种信度。上一节我们已经借鉴了这种思想，即在因子模型的基础上进行推导。下面使用一个具体的例子，介绍和展示估计信度的方法，其中的公式其实已经在上一节中推出，但这里直接利用因子分析方法。

模拟850个被试在这8个题目作答得到的协方差矩阵见附录一，其中简短LISREL程序便可计算整份测验（8个题目）的同质性信度和一致性信度。这个程序与通常的CFA程序几乎一样，不同的是增加了若干额外参数（additional parameter,AP），用于计算包括（10）－（14）中的数据。这8个题目3因子模型的拟合指数为：（11）＝1.466（P＝1.000），RMSEA＝0.000，NNFI＝1.003，CFI＝1.000，SRMR＝0.003，模型拟合相当好。根据输出结果可以直接得到（见程序行中的说明），。

5 讨论

与α系数一样，同质性信度、内部一致性信度不能解决测验是否单维的问题。但如果建立的是单维模型，同质性和内部一致性变成了相同的概念，从这个意义上说，可以将这两个概念当做同义词。单维性问题要用因子分析另行解决（Sijtsma,2009）。一个比较简单的方法是看单因子模型对所有题目的拟合是否可以接受，如果可以接受，则测验是单维的（前提是学理上说是单维的）。

本文没有限定所论的测验是单维的，但开始就假设了所论的测验分数是可以加总分的。如果测验是多维的，并且不能将各个维度的分数相加（如人格测验），则不能考虑整份测验的信度，只能考虑各个维度的信度以及相应的α系数和内部一致性信度。还有，如果测验是多维的，并且没有全局因子，此时整份测验的同质性信度为零。通常实际应用中的多维测验都没有全局因子，从这个意义上说，讨论同质性似乎意义不大，但通过同质性概念，可以加深对内部一致性的理解。而只要整份测验可以相加总分，讨论总分的内部一致性信度就有意义。

大多数实际应用都是针对子量表（单维）计算信度，此时计算内部一致性信度（即合成信度）就可以了。在特殊因子不存在时，它就是测验信度；否则，内部一致性信度低估了测验信度。这就说明，如果内部一致性信度高到可以接受，测验信度就可以接受，这时，报告内部一致性信度来评价测验的信度已经足够。单维测验的合成信度是最常用的，附录二给出了相应的LISREL程序。如果根据理论建立的模型是误差相关的，只需稍微改动一下程序即可（参见侯杰泰等，2004）。

虽然运行程序后总可以得到一个合成信度，但一定要先检验模型，只有当模型可以接受时，得到的合成信度才有意义。因为内部一致性侧重的是测量同一特质的题目的相关性，所以不难理解，合成信度与因子模型有关。同样的题目和实测数据，建立不同的模型可能会得到不同的合成信度。

虽然合成信度的计算程序可以在国外文献中找到，但相当复杂，至今应用的不多，尤其是国内，鲜有应用。因为计算α系数的操作简单，而计算合成信度的程序复杂，所以大多数应用工作者不管什么场合，都继续用α系数估计信度，而不用更好的合成信度。本文提供的LISREL计算程序比较简单易懂，与通常的CFA程序几乎相同（多了一些公式计算，已经加上了解释），应用工作者可以很容易套用。

6 总结

人们熟悉的α系数还有参考价值吗？从本文的讨论可知，当误差之间不相关时，α系数低于内部一致性信度，后者低于测验信度。通常情况下假设误差之间不相关是合理的，误差相关则是特殊的测验或实验情况才会碰到（例如，Becker,2000; Green,2003; Green & Yang,2009; Steinberg,2001; Raykov,2001）。所以，不论测验是否单维（只要合成总分有意义），如果α系数高到可以接受，报告α系数并说明测验信度不低于α系数就可以了。特别地，对于通常的单维测验，如果α系数高到可以接受，其信度就有保证，测验就可以接受。从这个角度说，α系数还有参考价值，但要说明误差之间不相关是合理的，此时测验信度不低于α系数。如果α系数过低，应当使用内部一致性信度。

本文使用“内部一致性信度”是为了叙述其统计背景及其关联概念同质性信度的需要，但考虑到历史原因，“内部一致性信度”经常会被误解为α系数，建议使用文献上比较流行的名称“合成信度”。

信度多高才可以接受，与测验种类和测验目的等有关，可以参考传统的做法，但不是本文要研究的范畴。

最后，我们总结出一个测验信度分析流程（见图1）如下：

图1 测验信度分析流程

（1）确定要做信度分析的测验。可以是整份测验（整份量表），也可以是分测验（分量表），前提是测验的总分是有意义的。

（2）判断误差是否相关。如果不相关，进行步骤（3a）；否则进行步骤（3b）。要判断误差是否相关，除了通过理论上分析误差的产生机制外，还可以通过CFA模型进行验证（侯杰泰等，2004）。

（3a）计算α系数，如果α系数高到可以接受，报告α系数并说明：因为误差不相关，所以测验信度不低于α系数；如果α系数过低，转到（3b）。

（3b）计算合成信度（即内部一致性信度，单维情形参考附录二；多维情形参考附录一，通常的量表都没有全局因子），如果合成信度高到可以接受，报告合成信度并说明：测验信度不低于合成信度；如果合成信度过低，虽然不能说测验信度也一样低，但在没有其他方法更准确地评价测验信度之前，只能认为测验的信度不能接受，停止进一步的统计分析。

附录一计算测验的同质性信度和内部一致性信度（即合成信度）的LISREL程序