我国近十年来心理学研究中HLM方法的应用述评,本文主要内容关键词为:述评论文,近十论文,年来论文,我国论文,心理学研究论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
多层(嵌套)数据在心理、教育等社会科学领域中普遍存在,例如横向截面(cross-sectional)研究中,学生嵌套于班级,员工嵌套于公司;纵向追踪(longitudinal)研究中,重复测量或测量点嵌套于个体(刘红云,张雷,2005)。多层(嵌套)数据的普遍性导致多层线性模型(Hierarchical Linear Modeling,HLM)方法以及HLM方法的应用研究数量都呈现迅猛发展的趋势。但是,Schreiber等人(2004)和Dedrick等人(2009)的HLM文献分析都发现,在西方教育学和社会科学领域中,技术文献的方法建议和应用研究的分析实践之间存在较大的差异(Dedrick,Ferron,Hess,Hogarty,Kromrey,& Lang et al.,2009;Schreiber & Griffin,2004)。那么,国内HLM应用研究的现状如何呢?本研究的目的就是了解国内心理学研究中该方法的应用情况。首先,简要介绍多层线性模型及其使用的前提条件;然后,对我国近十年来心理学刊物上发表的HLM应用文章进行文献分析;第三,在明确HLM应用中应该注意的问题后,提出合理化建议,供研究者参考。
2 多层线性模型
多层线性模型(HLM)又名多水平模型(Multilevel Modeling,MLM),它是为了解决传统回归分析在处理多层(嵌套)数据时的局限而产生的。多层(嵌套)数据的嵌套关系使得个体间随机误差独立性假设难以满足,传统的回归分析方法无法使用。多层线性模型(见公式(1)-(3))将不同层次的变量分层计算,以学生嵌套于学校为例,先以层1的变量(下标i
3 研究方法
3.1 分析样本的选择
分析样本来自发表在国内10本心理学刊物上的文章(见表1)。本研究以中国期刊网全文数据库为数据源,出版年限设为2002-2011年,以“多层线性模型”以及它的同义词“HLM”、“分层线性模型”、“多水平模型”为篇名、主题、关键词、摘要进行检索,经检索得到的文章均列为初始样本。对初始样本根据以下筛选标准进行进一步筛选:1)文献综述和理论的HLM文章不计,只入选HLM方法的应用文章;2)因变量不是连续变量的文章不计;3)多水平IRT、纵向Rasch模型和元分析文章不计。最终获得分析样本50例(其中包括15例纵向追踪研究),具体分布如表1所示。
3.2 编码
本研究以Dedrick等人(2009)的HLM文献编码项目单为基础,对这50例HLM应用文章进行了编码。编码过程分为三个部分,首先,进行导航研究。在导航研究中,研究团队的每个成员都使用Dedrick的编码项目单对8例HLM应用文章(从50例HLM应用文章中随机抽取而成,其中包括3例纵向追踪研究)进行独立编码,然后团队成员们聚在一起讨论编码的一致性,以统一编码的标准和要求,并根据导航研究的实际情况对Dedrick的编码项目单进行了修订,最终确定了本研究的编码项目单(见表2-表4)。第二,将团队成员分成两个小组,对42例HLM应用文章进行了编码(各自独立编码21例)。编码过程中,如果对某一问题的编码不确定,则通过相互讨论解决;无法达成共识时,请教心理统计学专家以保证编码的准确性。第三,从两个小组各自独立编码的21例HLM应用文章中,随机抽取10例进行交叉式复查。以编码项目单中的每一个项目为单位,对两个小组的编码结果进行一致性分析,所有项目的编码一致性都达到90%以上。
4 结果
4.1 样本描述
50例HLM应用研究都建立在问卷调查的基础上,都属于非实验设计。其中46例是两层嵌套结构,4例是三层嵌套结构且都为多因变量的纵向追踪研究,被称为多元多层分析模型,即模型中的第一层通过虚拟变量的设置来定义多个因变量,第二层是测量点,第三层是个体(刘红云,张雷,2005)。
35例横向截面研究中,其中9例考察企业中的多层(嵌套)关系,26例考察学校内的多层(嵌套)关系,其中包括3例考察教师嵌套于学校的关系,23例考查学生嵌套于班级(同伴团体)或学生嵌套于学校的关系。就两层次的横向截面分析的样本量而言,Kreft(1996)建议样本量采用30/30原则,即层2不少于30组,每组不少于30人。但是如果研究者偏重于跨层次交互作用时,可以调整为50/20;如果重视随机效应,甚至可以调整为100/10(温福星,邱皓政,2011)。文献分析发现,35例横向截面研究的总样本量的变化范围是231-8007(中数为1385),其中总样本量小于500的研究9例(其中包括企业研究7例,以下简写为“企业x例”),500 ~1000的研究6例(企业2例,分别为509和801),1000以上的研究21例(企业0例);层2样本量的变化范围是16-295(中数为62),其中层2样本量小于30的研究6例(企业2例),30~50之间的研究9例(企业2例),50~100之间的研究7例(企业4例),100以上的研究13例(企业1例);层1平均样本量的变化范围是3-222(中数为23),其中层1平均样本量小于10的研究8例(企业6例),10~20的研究8例(企业2例),20~30的研究4例(企业1例),30以上的研究15例(企业0例)。企业HLM应用研究的样本量明显小于学校HLM应用研究,这可能与企业取样相比学生而言更为困难有关,也正因为此,企业HLM应用研究结论的可推广性和外延效度往往也难以确保。就发文量而言,发文最多的是北京师范大学刘红云团队(4例)。
15例纵向追踪研究中,追踪对象分别为儿童(5例)、高中生(3例)、大学生(2例)、高校教师(2例)、老年人(2例)、县市家庭收入和生活满意度(1例)。测量点的数目分别为3个(5例)、4个和6个(各3例)、5和7个(各1例)、10和14个(各1例,都为日记式追踪研究)。测量点之间的时间间隔分别为1年(4例)、3月和2年(各3例)、2月和1天(各2例)和1月(1例)。追踪调查的总时间跨度为14天~10年。个体层样本量的变化范围是21-2251(中数为572),其中样本量在20~30的研究3例(2例为日记式追踪研究,1例为县市家庭收入与生活满意度追踪研究),113~333的研究4例,527~659的研究5例,1417以上的研究3例。由于纵向追踪研究涉及在多个时间点重复观测同一群体,因此不可避免的存在追踪对象的流失现象,所以个体层样本量大都难以达到1000以上,目前追踪对象的流失已经成为纵向追踪研究成败的最大威胁之一(梁玉成,2011)。就发文量而言,发文最多的是中南大学姚树桥团队(6例)。
4.2 模型发展与规范
HLM应用的优势之一是同一个研究中可以使用多个HLM模型。对每个研究中用到的模型数进行文献分析发现,除了5例研究无法根据文中信息确定准确的模型数目,其余45例研究的模型数目的变化范围是1~20(中数为5,众数为4),其中模型数目为1~2的研究有4例(1例模型数为1),3~5的研究23例,6~10的研究15例,10以上的研究6例。24例(占24/50=.48)研究进行了零模型检验,其中21例报告了ICC(1)值(见表2),由于一个研究可以包含多个因变量,而每个因变量的零模型检验都能得到一个ICC(1)值,所以共报告56个ICC(1)值,ICC(1)值的变化范围是.07-.84(mean=.31,SD=.21,中数为.23),根据Cohen(1988)的划分标准,13个ICC(1)值在.059~.138之间,属于中等程度组内相关;43个ICC(1)值大于.138,属于高度的组内相关。从不包含任何自变量的零模型开始,逐渐增加自变量,HLM模型逐渐变得复杂。文献分析发现,HLM模型的发展一般基于两个原因:一是源于理论;二是源于回归系数的显著性和残差的检验的显著性,如果回归系数显著,则将自变量保留了在模型中,如果残差的检验显著,说明还需要加入其他自变量来解释残差的变化。
同一研究可以使用多个HLM模型,由此产生一个问题,多个HLM模型的优劣如何判断?如果两个模型是嵌套模型,可以通过离异数(-2LogLikelihood,-2LL)来判断,由于-2LL值近似服从分布,如果两个模型的-2LL值之差的检验显著,表明改进的模型更优。如果两个模型不是嵌套模型时,则必须使用其他的模型拟合指标进行判断,例如贝叶斯信息标准(Bayesian Information Criterion,BIC)、艾凯克信息标准(Akaike Information Criterion,AIC),AIC和BIC值越小的模型越优(王济川,谢海义,姜宝法,2008;温福星,邱皓政,2011)。文献分析发现(见表2),只有3例研究使用了-2LL指标,5例使用了AIC和BIC指标。
HLM应用的另一优势是方便进行多种调节效应的检验(温福星,邱皓政,2011;廖卉,庄瑷嘉,2012)。文献分析发现(见表2),26例研究进行了调节效应检验,包括8例只检验了层2调节效应,14例只检验了跨层次调节效应,4例同时检验了层2和跨层次的调节效应。另外,4例研究考察了中介模型,3例中介研究的自变量、中介变量和因变量都在层1,1例都在层2,没有跨层次的中介研究。
中心化(centering)是HLM建模中的关键议题之一。中心化有两个作用,一是改变截距的意义以便于解释,二是减小HLM模型中多个自变量之间的多重共线性问题。常用的中心化方法包括不中心化,组均值中心化和总均值中心化(温福星,2009;温福星,邱皓政,2011;廖卉,庄瑷嘉,2012)。文献分析发现(见表2),只有4例研究对层1自变量进行了中心化,且都采用组均值中心化的方法,1例对层1自变量进行了标准化处理;有3例纵向追踪研究提到了将层2自变量进行中心化,但并没有说明具体采用哪种中心化方法。
4.3 数据准备
缺失数据(missing data)是HLM应用中经常遇到的问题。缺失的机制包括完全随机缺失、随机缺失和非随机缺失(刘红云,张雷,2005;沐守宽,周伟,2011)。数据的缺失机制、处理方法将直接影响到处理结果的精确性、统计功效和研究结果效度。文献分析发现(见表3),仅有5例研究明确承认数据存在缺失值,其中有4例明确说明将含有缺失数据的被试删除后,用剩余被试的数据进行HLM分析。
HLM假设各层的残差满足正态性,层1残差满足同质性,这些前提假设的验证有利于读者对研究的结果效度进行合理的判断。文献分析发现(见表3),仅有1例研究提到了各层残差满足正态性,但并没有对残差正态性假设做出检验。所有研究都忽略了层1残差的同质性。
HLM应用中,某些组织层次变量难以通过直接测量得到,需要通过将个体层次变量的观测数据聚合(即求组均值)而产生具有相同测量内容的组织层次变量,这样的组织层次变量被称为情境变量或脉络变量(contextual variable)。情境变量用个体数据的组均值作为其指标,因此在产生情境变量之前,需要确定个体数据整合至组织层次的适当性,也就是检验组内一致性和组间异质性的存在。组内一致性常用指标来衡量,组间异质性用ICC(2)指标来衡量,如果ICC(2)和平均值都大于.7,就表示用个体数据的组均值作为情境变量的指标是合适的(温福星,2009;温福星,邱皓政,2011;廖卉,庄瑷嘉,2012)。文献分析发现(见表3),8例研究使用了情境变量,全部都是横向截面研究,只有4例完整报告了和ICC(2)指标,1例只报告了指标,1例只报告了ICC(2)指标,1例只报告了F值,1例没有报告任何指标。5例报告的研究中,平均值的变化范围是.75-.92(mean=.85,SD=.06,中数为.87);5例报告ICC(2)的研究中,ICC(2)值的变化范围是.71-.93(mean=.83,SD=.08,中数为.83)。
HLM应用的瓶颈之一就是需要大样本量,这意味着研究成本的提高。如何在确保足够大的统计功效的前提下,尽可能地取合适的样本量,避免不必要的浪费,这是研究者一直渴望解决的问题。先验统计功效分析(prior power analysis)为解决这一问题提供了可能。先验统计功效分析是指在研究开始之前,先预计效果量(effect size)大小,并设定第Ⅰ类错误率α与第Ⅱ类错误率β值,从而计算出合理的样本容量。实际操作中,已有免费的统计软件可以进行HLM的先验统计功效分析(吴艳,温忠麟,2011;Scherbaum & Ferreter,2009)。文献分析发现(见表3),没有1例研究进行了先验统计功效分析。
4.4 估计方法与假设检验
HLM模型的估计方法包括极大似然(Maximum Likelihood,ML)估计,限制性极大似然(Restricted Maximum Likelihood,REML)估计和贝叶斯估计。ML和REML主要适用于样本量大(层2组数多)且数据平衡(各组内被试数相等)的样本中。当样本量大(层2组数多)时,ML和REML结果差异很小,但一般建议更倾向使用REML估计法,HLM和SPSS mixed模块都将REML预设为默认的估计方法。当样本量不足(层2组数少)或数据不平衡时,贝叶斯估计为研究者提供了更优的选择。其他的估计方法还有MLwiN软件提供的Bootstrap估计法(王济川,谢海义,姜宝法,2008;温福星,邱皓政,2011)。文献分析发现(见表4),仅有6例报告了估计方法,其中5例采用了ML估计方法,1例采用了REML估计方法。不同的软件及版本会采用不同的估计方法。文献分析发现(见表4),46例研究报告了使用的软件类型(其中有8例没有报告软件版本),报告最多的软件是HLM(34例),其次是SAS Proc Mixed模块(9例),第三是MLwiN(3例)。
HLM研究的结果报告中,研究者着重报告了固定效应(回归系数)的检验(见表4),50例研究都报告了固定效应的点估计值和显著性检验的p值,42例报告了同定效应点估计的标准误,34例报告了固定效应显著性检验的t值,但仅有9例报告了t值的自由度。研究者对随机效应(方差成分)检验结果的报告相对固定效应而言,显得很不充分(见表4),仅有12例研究报告了模型每个水平的残差方差的检验结果,38例报告了残差方差的点估计值和显著性检验的p值,9例报告了残差方差点估计的标准误,19例报告了残差方差显著性检验的值。
方差解释比例(proportion of explained variance)相当于多元回归中的效果量的作用,它表示原模型引入自变量或更改不同模型后,所估计的各层残差方差改善程度的百分比,方差解释比例越大,表示引入的自变量可以解释的残差越多,自变量的作用越显著,引入自变量的新模型优于原模型,因此方差解释比例还可以显示模型的适配度(王济川,谢海义,姜宝法,2008;温福星,2009;温福星,邱皓政,2011)。文献分析发现(见表4),28例(28/50=.56)研究报告了方差解释比例。
5 讨论与建议
本文从样本描述、模型发展与规范、数据准备、估计方法与假设检验4个角度对国内近十年心理学研究中HLM方法的使用现状进行了评估。文献分析的结果表明,HLM方法在我国的心理学研究中得到了较为广泛的应用,但尚有较多值得改进的方面。
就样本描述而言,研究者一致认为组织层次样本量相比个体层次样本量更重要,组织层次样本量越大越好。组织层次样本量越大,HLM分析结果越准确,统计功效越高。文献分析表明,在横向截面研究中,层2样本量确实大于层1样本量(参见4.1内容);在纵向追踪研究中,由于层1观测的时间点(3-6个点已占12/15=.8)较少,因此需要更多的层2个体数(中数为572个)来确保参数估计的准确性和足够的统计功效。另外,纵向追踪研究中,观测点之间的时间间隔安排还需以理论为基础,例如研究者根据理论推测在某个时间段内可能出现明显的变化趋势,那么在这个时间段内可以安排多个时间点来捕捉这个明显的变化趋势,而不必总是采用等时间间隔进行观测(Jackson,2010)。
就模型发展与规范而言,部分研究者没有使用HLM方程(见公式(1)-(4))或其他清晰的文字或图表来描述HLM模型,导致读者难以准确判断使用了怎样的模型、模型中有哪些自变量。其次,不到一半(48%)的研究报告了零模型检验,显示研究者对多层分析必要性的描述不足。第三,中心化是模型描述中的重要内容,但是大多数研究者都没有报告层1和层2自变量是否采用了中心化策略、采用了何种中心化方法,在模型描述上仍然缺乏规范。Dedrick等人(2009)对13本教育和社会科学英文杂志上(1999-2003年)刊载的99篇HLM应用文章(其中包括38篇纵向追踪研究)的文献分析也发现,有5篇文章难以准确判断有多少模型被估计,并且有多少模型被估计是研究团队在编码过程中讨论最多的问题之一;仅有48篇(48/99=.48)报告了零模型检验;有61篇(61/99=.62)对层1变量进行了中心化,42篇(42/99=.42)对层2变量进行了中心化,这比国内HLM应用研究的中心化策略使用率(8/50=.16,见表2)要高得多。
就数据准备而言,很少有研究者提到HLM的前提条件(如残差正态性、层1残差的同质性),即使提到也不检验。虽然方法学文献一致强调统计方法的前提检验的重要性,但是HLM的应用却很少报告前提检验。焦璨等人(2010)对《心理学报》和《心理科学》十年(1998-2008)刊载文章的文献分析也发现,仅有3%的研究对统计方法的前提条件进行了检验(焦璨,黄泽娟,张敏强,吴利,王宣承,2010)。研究者可参阅温福星和邱皓政(2011)书中相关内容进行HLM前提检验。Dedrick等人(2009)的文献分析发现,有10篇(10/99 =.1)提到了层1残差的正态性假设(2篇检验了层1残差的正态性),比国内HLM应用研究的报告率(仅1篇)要高;8篇文章提到了层1残差的同质性,9篇提到了层2残差的正态性(2篇检验了层2残差的正态性),国内HLM应用研究的报告率为0。另外,也很少有研究者说明缺失数据的缺失机制和处理方法,这和赵必华和顾海根(2010)对结构方程模型应用的文献分析结果一致。Dedrick等人(2009)的文献分析发现,有80篇(70/99=.81)明确指明是否存在缺失值,对于层1缺失值,33篇采用了删除法,5篇采用借补法(imputation);对于层2缺失值,27篇采用了删除法,7篇采用借补法,7篇采用其他方法,比国内HLM应用研究的缺失值报告率(仅1篇)要高得多。第三,没有研究者进行先验统计功效分析。第四,只有一半(4例)的研究在情境变量的产生过程之前,正确地检验了个体数据的组内一致性和组间异质性。
就估计方法和假设检验而言,只有较少(4例)的研究报告了参数估计的方法,Dedrick等人(2009)的文献分析发现有15篇文章(15/99=.15)明确报告了参数估计方法,建议研究者报告选择了哪种参数估计方法以及这样选择的原因,而不是直接使用软件预设的参数估计方法。大部分研究都采用表格法来呈现HLM分析结果,但仍然存在t检验的自由度报告少(仅9例),残差方差的报告存在较大信息缺失(标准误、值等),效果量指标报告不足(仅56%)等现象。Dedrick等人(2009)的文献分析也发现,仅有59篇文章(59/99=.60)报告了固定效应点估计的标准误,3篇报告了t检验的自由度,49篇(49/99=.50)提供了残差方差的点估计,31篇(31/99=.31)报告了各层的残差方差估计,39篇(39/99=.39)明确报告了效果量指标。范津砚等人(2003)也发现在探索性因素分析中,存在对分析过程中的重要信息和结果报告不完整的现象(范津砚,叶斌,章震宇,刘宝霞,2003)。
综合以上讨论和APA手册(第六版)的相关要求,笔者提出如下建议:
1、用HLM方程提供有关模型的详细信息。明确说明模型中的自变量的中心化策略。
2、对数据进行HLM的前提假设检验(零模型、残差正态性、层1残差同质性),并报告检验结果。如果产生了情境变量,需同时提供和ICC(2)指标。
3、明确说明数据是否完整。如果不完整,描述缺失情况、缺失数据的处理方法。
4、提供参数估计方法和所有参数的完整列表,特别是参数估计值的标准误和t或值。