验证性因素分析:问卷问题的数量及在小样本中使用的策略_因子分析论文

验证性因素分析:问卷问题的数量及在小样本中使用的策略_因子分析论文

验证性因素分析:问卷题数及小样本应用策略,本文主要内容关键词为:样本论文,问卷论文,因素论文,策略论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

验证性因素分析(Confirmatory factor analysis,CFA)在心理、教育、社会学等研究应用日广[1,2]。 本文旨在引述一些新近的研究结果[3,4,5],讨论如何在CFA研究中,决定问卷题数或变量的多寡,并指出一些尤为适用于小样本的应用策略。

1 问题的提出

1.1 验证性因素分析

很多心理社会等变项,均不能准确及直接地量度。这包括智力、性格特质等,我们只好用一些外显指标,去反映这些潜在变量。在一典型分析过程中,我们输入各指标变量的相关或协方差矩阵、指标与潜在变量的从属关系,软件包(如:LISREL[6])会估计指标与潜在、 潜在与潜在、模式未能解释部分、指标测量上的误差等指定参数,其数值能反映各关系的强弱。此外软件包亦计算研究者所提出的模型,是否与样本数据吻合(即数据是否可用模型表示)[7-11]。

举例来说,我们设计一份学童学习目标问卷,以了解三类目标(“自我进步”、“超越别人”、“对父母及社会尽责任”)的关系。假设每类目标各以四题六点量表的问题测量。每名受试者共有十二个得分,设有三百名受试者,则可根据这些人的回答,计算一个12×12的相关矩阵。本文将讨论当人数固定不变时,我们应否尽量多用一些题目;如果因种种客观条件所限,受试人数甚少时,我们又有何策略可供使用。

1.2 变量(问卷题目)的上下限

研究样本容量愈大愈好,这点学者并无争议,但对研究内变量的适当数目(如:问卷总题数),则意见分歧。就每一因子内的题数(p/f)而言,一般建议是最少三题[1],以解决识别问题(简单来说, 有足够资料去推算各参数), 但当因子互有关连时, 可减至每因子两题(p/f=2),也不致出现未可识别的困难,这下限在颇多研究也有出现。

至于每一因子题数或总变量(题数)的上限,一般忠告是不可太多,为受试人数(N)所限制,例如Nunnally[12] 所提出被人广为引用的建议是:N最少是变量的十倍。在CFA中,Tanaka[13]认为应考虑N 与自由估计参数的比例,Bollen[1]及Bentler[14]等权威亦同意N 应为自由参数的数倍(如5倍)。也就是说当N固定时,自由参数、变量或每一因子题数均不可过多。不过这些CFA权威的法则, 与传统测验理论认为题数增加可提高信度的想法,并不一致。

2 研究一:因子所含题数的上限

颇多传统法则建议我们在每一因子,不可用太多题目(变量),本部分主要是依据一些模拟数据研究结果[3],说明增加题数, 一般有益无害。当问卷题目变量多于传统守则时,一常用策略就是将数题合并成小组(parcel),以数题的加权或平均数作为模式内的指标变量。本研究亦分析这方法的合理性。

2.1 研究方法

模拟数据的总体是一个三因子的模型, 三因子间所有相关为0.3。我们改变每一因子所含题数(p/f)及被试人数(N), 以了解其影响。研究设计为5种p/f×5种N;p/f分别是2,3,4,6或12; 例如在p/f=2中,共36题,分别从属于三个因子。N=50,100,200,400或1000。所有因子负荷均为0.60(误差为0.64),即每一题目变异量为1。

模拟数据是以软件包随机数生成器,依据上述总体值而制成,包括2500个N=50的样本(即125000人),以及1000个N=100,500个N=200,250个N=400及100个N=1000的样本。在N较小时我们刻意采用较多样本,因为这情况下的解答较不稳定。

对每一模拟随机数据样本,我们均套以原本模型,并检验解答的收敛情况、各参数值及其标准误等。因用以制造模拟数据的总体及加套于模拟数据的模型完全相同,而此情况下,模型的卡方期望值等于其自由度,故(卡方/df)不应偏离1[3,15], 而卡方的p值亦不应偏离0.5。在检验收敛情况时,我们亦查看各参数是否合理及适当(例如:相关系数不可大于1)。

为了解将题目合并为小组的传统是否有益,我们将p/f=12内的题目合并为2(每小组6题)、3(4题小组)、4(3题小组)或6(2题小组)小组。例如我们将12题分为2组,求每组内6题的平均数,即模型的总变量减至六个(每因子两个指标变量)。

2.2 结果

2.2.1 叠代收敛情况 研究显示当被试人数(N)或题数(p/f )增加时,模型叠代收敛机会提升, 当每因子只有两题时(p/f=2),N=50至1000收敛率由14%增至93%(见表1)。其他题数(p/f)时其趋势一致。这支持传统看法,N是愈多愈好。

表1 模型在不同样本容量(N)及因子内题数(p/f)的收敛率、参数估计和似合优度

样本容量(N)/ 因子负荷卡方/自由度

因子内题数收敛率(%)平均标准差平均标准差

N=50

2

13.6 0.611 0.2350.7880.421

3

54.8 0.615 0.1711.0380.300

4

86.5 0.603 0.1661.1090.224

6

99.6 0.599 0.1511.1940.146

12 100.0 0.599 0.1461.4760.091

N=100

2

32.8 0.612 0.1900.8230.465

3

85.4 0.606 0.1291.0320.296

4

99.1 0.599 0.1141.0580.212

6 100.0 0.602 0.1051.0920.127

12 100.0 0.601 0.0961.1710.069

N=200

2

55.6 0.611 0.1510.9090.490

3

97.8 0.602 0.0911.0210.286

4

99.6 0.599 0.0811.0360.207

6 100.0 0.603 0.0741.0510.127

12 100.0 0.602 0.0681.0770.060

N=400

2

82.4 0.612 0.1130.9520.560

3 100.0 0.603 0.0621.0000.276

4 100.0 0.599 0.0551.0180.205

6 100.0 0.603 0.0521.0290.131

12 100.0 0.602 0.0471.0350.058

N=1000

2

93.0 0.606 0.0670.9690.581

3

99.0 0.603 0.0401.0250.325

4 100.0 0.599 0.0351.0370.217

6 100.0 0.603 0.0331.0280.115

12 100.0 0.603 0.0291.0150.054

在检查p/f的效应时,当N=1000,p/f=2有93%收敛,但p/f=4至12时,收敛均达至100%。当N较小时这差异更大, 例如:N=100,收敛率由33%(p/f=2),渐升至100%(p/f=12), N=50时对应比率为14%升至100%(见表1)。这表明当N足够大(如N=1000),虽然p/f 甚小时(如:p/f=2,3),会有部分不收敛的情况, 但问题尚不算严重。但当N逐渐减少,而每因子的题数只得两三题时, 可能有过半, 甚至八成以上解答不收敛。此时若能稍增每因子题数(p/f=4,6等),则收敛困难多可迎刃而解。

在了解每因子12题目是否应合并为小组时,我们发觉将数个题目合并成小组,对收敛并无明显好处,反之,当人数不多时(N=50或100),用小组方法反而导致更多不收敛的情况,N=50时,2,3,4,6,12 小组的收敛率分别为16%,98%,100%,及100%。从叠代收敛的角度来说,将题目合并以平均分为指标的传统做法,并无任何好处。

2.2.2 参数估计与拟合优度 除了每因子只得两题目(p/f=2)的情况外,所有不同N与p/f组合情况下的参数估计均无偏差。 例如:因子负荷在不同样本的平均是0.6,方差分析亦表明p/f及N的总效应只得0.7%;这是因为我们用以制造模拟数据的总体, 与加套于数据的模型完全相同有关。不过当N及p/f增加时, 参数的标准差显著下降(见表1)。方差分析显示N及p/f的主效应解释因子负荷(31%),题目误差(32%)及因子间相关(30%)的颇大部分方差,结果表明当N及p/f愈大时,参数估计更为准确。从这角度看每因子题数不能太少。

至于拟合优度,表1显示(卡方/df)依(p/f)增加而上升, 即拟合优度渐减(因卡方大显示不拟合)。一如上文指出在本研究中,(卡方/df)的期望值应为1,故此, 当因子内题数较少时拟合优度略增只是一个虚假现象,显示卡方的渐近值在N及p/f较小时并不适用。

题目应否合并为小组的分析结果表明,合并成小组与否对参数估计的准确性(如标准差),并无显著影响。这是因为当我们将因子内12题合并成较少的小组(例如2组)时,准确度会因每因子的指标数目(2个)减少而下降,但因每一指标是由多题合并而成(6题), 故每一指标的准确度上升,其总效应令合并成小组并无任何显著好处。

总括来说,此部分研究显示每因子内题数愈多愈好,不单叠代收敛为适当解答机会增大,参数估计更为准确,因子信度上升。尤其是在样本容量甚小时,用多些题目有益无害。虽然部分研究者建议N最少100,但本研究显示,当N=100,每因子最少应有4个指标变量。此外, 每因子只得两个指标(题目),因未能识别等问题,应尽量避免。当然每份问卷长度受其他客观条件所限,不能过长,我们建议在小样本研究中。应尽量争取用多一些题目,且不应将题目合并成小组,用数题目的平均分作指标并不恰当。

3 研究二:小样本因子负荷的处理

用验证性因子分析估计各因子负荷时,我们一般并不强制各负荷有任何特殊关系:不过在应用一些高效度的测量工具时,我们可假设同一因子内负荷均甚高且一致,若我们强制因子负荷必须相等,则可大大减低要估计的参数数目,从而改善解答的素质。

强制负荷相等的概念其实并不新鲜,一些学者早已主张用简单平均数(等重加权)去将数个题目合并,而不用由数据所得的加权因子(每题加权系数不同),以避免纯因随机因素的影响。这强制负荷相等的方法亦符合CFA强调模型必须省俭的原则, 因为强制后的模式更为省俭。以下简述一个以模拟数据了解强制负荷相等是否更有利的研究[4]。

3.1 研究方法

模拟方法与研究一大致相同。模拟数据的总体是一个三因子的模型,三因子互有相关(r=0.3)。每一因子含三指标变量(题目),我们改变样本容量(N=50,100,200,400,1000),因子负荷饱和状况(均一、低混合、高混合)及因子负荷限制条件(限制、自由),以了解其对收敛及参数估计等的影响。

在三种负荷饱和状况下,我们比较因子内题目负荷的一致性如何影响收敛及参数估计。 “均一”情况下每一因子所有指标负荷均为0.6,“低混合”则三个指标负荷分别为0.5,0.6及0.7,而高混合则是0.4,0.6及0.8。依据这些总体模型,我们用软件包制做2500个N=50, 1000个N=100,500个N=200,250个N=400及100个N=1000的样本模拟数据,再以三个互有相关的因子模型加套于数据,以估计各参数及拟合优度。在加套时我们亦比较两种负荷限制条件(限制、自由),在“限制”的情况下,我们在加套时强迫同一因子内三个负荷必须相等,在“自由”情况下则不加这一限制。

3.2 结果

研究显示在大样本容量及均一负荷的情况下,叠代收敛的机会更大,例如:当N=50,有58%(均一负荷)、53%(低混合)及39 %(高混合)收敛为适当解答,当N=100,则分别对应有89%、84%及67%收敛。

最重要的结果是当我们限制同一因子负荷必须相等时,解答的表现大大改善,尤其是当样本较少时(N=50,100)。“限制”的方法差不多可以完全消灭不适当(不收敛,负误差等)之解答。当N=50 “一致”负荷情况时,由58%(“自由”负荷)适当解答改善至99%(“限制”负荷);“低混合”时,由53%改善至98%,“高混合”时,由40%改善至98%;在N=100时,对应数字为89%,84%及67 %全改善至100%。

对于标准误(SE)的方差分析表明,样本容量(N )及加套模型时的条件(限制、自由)均有极大影响,其主效应及交互作用的eta 值对应地为0.82,0.48及0.21。SE依N的增加而递减, 当强加负荷相等的限制时,其SE亦会减少,尤其是当N较小时效果更为明显。

至于对参数估计的影响,显而易见,对于总体负荷不等的情况(低及高混合),强加负荷相等的限制,一定会导致估计偏差,例如:总体的题目误差为0.64,但在“限制”情况下,估计值为0.69。不过,这估计偏差现象对负荷及题目误差影响较大,对因子间相关影响微不足道(变异量的0.5%)。值得留意的是在颇多研究, 潜在变量间的关系才是关注重点(而非题目因子负荷),故此强加等同的限制并不会带来参数估计偏差的问题。此外,研究结果显示当同一因子题目负荷相差甚大时(高混合情况),不收敛为适当解答的问题较严重,但此时强迫同一因子负荷相等,所能产生的正面作用也最大。

在拟合优度方面,不难推断,当我们强加因子负荷相等的限制后,模型自由度增加,但拟合程度必然较差(卡方较大),不过当N=50 或100时,限制与否影响拟合度甚少。上述结果显示样本甚小时, 强制负荷相等可令叠代收敛的机会增大,参数的误差减少,但不影响我们估计潜在因子间的相关。

4 研究三:非正态数据与题目小组

研究—显示将数题目合并成小组,以其平均分作指标的传统做法,并无任何好处,尤其是当样本容量(N)不大时, 合并成小组可能导致不收敛及标准误较大。支持用小组的其中一个论据是当数据略非正态分布时,将数题目合并,应得出一些较接近正态分布的指标,故合并题目是合适做法。本部分引述一模拟数据研究[5], 以探讨这论据是否成立。

4.1 研究方法

本研究与上述两个类似。总体是两因子各含8题的模型, 因子相关为0.3,负荷是0.7(误差0.51)。模拟数据包括2000个N=50;1000 个N=100,400个N=250及100个N=1000的样本。我们比较三类小组, 包括每因子独立8题、4指标(各由2题平均所得)、及2指标(由4 题平均)。总体模型则分五种非正态情况:正态(偏斜skew,s = 0, 峰度kurtosis,k=0)、稍非正态(s=0.5,k=0.5)、中等非正态(s=1,k=1.5)、严重非正态(s=1.5,k=3.25)、平衡(s=+0.5/-0.5,k=+0.5/-0.5,+与-对称地合并)。我们用ML,ADF方法估计参数,亦计算稳健统计(robust)SE,SB(Satorra-Bentler )及YB ( Yuan-Bentler)的卡方[15,16]。

4.2 结果

在本研究的条件下,非正态并不致于引来严重不收敛的问题,唯一例外是当N=50及100时,若将题目合并只得两小组时,其收敛只得17%至21%(N=50),或31%至36%(N=100), 再一次说明合并成新指标并无好处。

在卡方的估计中,非正态状况主要影响ML的卡方,其次是SB的卡方,YB卡方表现最好。ML卡方不大受非正态影响, ADF估计参数及其SE时,略偏离其应有的期望值。但ML对参数估计不受非正态分布的影响。稳健SE在正态分布时较ML偏差较大,但当数据严重非正态时,则较ML偏差为小。

无论从收敛、参数的偏差及标准误等角度,将数题合并为小组均无任何好处,若合并至每因子两指标时,问题更大。当然日后研究需检视比本次更为非正态的数据,以了解题目小组的方法是否合适。

5 总结

验证性因素分析或包含更广的结构方程模型,以倍增趋势在心理及教育等学科中备受广泛应用。这些统计模型能更准确计算一些多变量潜在因子间的关系。本文引用三个模拟数据研究,提出一些在验证性因素分素时的策略,包括用多一些题目及强制同一因子的负荷相等。样本容量当然愈大愈好,但当资源等条件有限制时,上述两个技巧,可协助解决叠代收敛问题,并能更准确估计各重要参数。此外,一些方法如:每因子用两指标(或两题目)、在N=100或以下样本容量时用少於四指标、将题目合并为题目小组,均可能导致不收敛、高标准误、及偏差参数等问题,不值得推荐。当然限于研究是采用模拟数据,要推广至所有特殊情况及偏态数据,仍待日后更多其他研究的验证。

CFA的软件包日多,且更为易用, 本文为协助研究者决定问卷题数(或变量数目),提出数点应用策略,抛砖引玉,希望日后更多统计测量学者进一步研究,提出更多有助CFA应用的守则。

标签:;  ;  ;  ;  

验证性因素分析:问卷问题的数量及在小样本中使用的策略_因子分析论文
下载Doc文档

猜你喜欢