心理研究中统计方法应用的元分析——以《心理学报》《心理科学》(1998~2008)统计方法应用为例,本文主要内容关键词为:心理论文,方法论文,为例论文,学报论文,科学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 前言
统计方法在心理研究中发挥着重要作用,其理论与方法应用的发展大致经历了描述统计、推断统计和多元统计等多个阶段。由于中国的文化及历史原因,20世纪中叶中国心理学的发展有异于西方国家,统计方法的理论研究和应用也相对滞后。近20多年中国心理学得到飞速发展,心理统计方法作为研究工具和手段也得到广泛的应用。对于中国心理研究统计方法的调查有其实际指导意义:可以了解中国心理学界中统计方法应用的现状,发现和查找目前心理研究中统计方法应用存在的问题,据此分析这些问题存在的原因,并提出正确应用统计方法的步骤和要求。
2 研究方法
2.1 样本来源及标准
本研究样本源于心理学入选CSSCI的最有代表性的两种杂志:《心理学报》和《心理科学》(1998-2008)共11年中使用了统计分析方法的文章。其基本情况如表1所示:
2.2 编码归类
依据张敏强主编的《教育与心理统计学》的统计方法体系[1],并结合近年来发展的一些新方法,可将心理统计方法分为描述及推断统计方法、多元统计方法两大类。同时,本调查还考虑了The APA Task Force on Statistical Inference(TFSI)建议应用统计方法的五个必要参数[2]:前提检验、信度、置信区间、图表和效果量。
由3名心理统计与测量专业方向的博士、硕士研究生对入选的每一篇文章所应用的心理统计方法进行严格的筛选、分类及评定。若对某一方法的归类不确定,则通过相互讨论解决;无法达成共识时,请教心理统计学专家以保证编码的准确性。其后,按年份从每位评定者调查的文章中随机抽取10%,进行交叉式复查以确定编码的准确性。3名评定者对各类统计方法的编码一致性达到91%。由于同一篇文章可能应用多种统计方法,因此,在统计分析中,每年使用统计方法的总数大于该年入选的文章总数。
3 结果与分析
3.1 心理统计方法应用全貌
图1、图2、图3分别是《心理学报》、《心理科学》(1998—2008)统计分析方法总的应用情况、描述及推断统计方法和多元统计方法的应用情况。表2、表3则具体呈现了11年间各种统计分析方法在两种杂志所发表论文中的应用情况。
从图1可以明显看出,两种杂志发表的论文使用描述及推断统计方法和多元统计方法的频数都很接近。两种杂志的研究者更多地使用简单的描述及推断统计方法,各年份均占总方法数的80%及以上,而较为复杂的多元统计方法的使用比例相对较少。对两类方法的使用情况进行二项分布检验,结果表明:11年来两种杂志的研究中使用描述及推断统计方法的比率远远高于多元统计方法(p<0.001)。
从图2可以看出,描述及推断统计方法中应用最多的是方差分析,约占35%;其次是t检验,占24%以上;再次是相关分析,接近20%;应用最少的是协方差分析和非参数检验方法,仅5%以下。从表2和表3亦可知:11年中方差分析应用趋热相对稳定,比例均为最高,且标准差较小,《心理学报》和《心理科学》均为0.05。t检验的标准差分别为0.10和0.06;相关分析方法的标准差分别为0.07和0.08,表明这两种方法的应用也较稳定。
从图3可知,多元统计方法中应用最广泛的是因素分析,其次是多元方差分析,最少是判别分析。具体表现为:《心理科学》应用因素分析的文章中近90%是使用探索性因素分析,《心理学报》应用因素分析的文章2005年以前绝大部分进行探索性因素分析,2005年以后几乎是同时进行探索性因素分析和验证性因素分析;多元方差分析的应用频率逐年减少;文献中很少对使用目的和结果解释很不相同的预测性判别分析和描述性判别分析加以具体区分,亦没有一篇文献对预测性判别分析的击中率和描述性判别分析的标准化系数进行解释。
表2、表3也表明:一些新的统计分析方法,比如多维标度法、多层线性模型、优势分析等在《心理学报》、《心理科学》(1998-2008)所发表的论文中也有所应用。
综上所述,心理统计方法及应用的全貌如下:相比多元统计分析方法,描述、推断统计方法的应用更为广泛;多元统计分析方法的应用不尽如人意;一些新近发展的统计方法也得到应用。
传统的描述及推断统计方法受到研究者的青睐,反映出研究者简化分析的偏好,诚然,这种偏好是合适的。如TFSI所强调的:尽管复杂设计与方法有时可以有效解决研究问题,而简单的传统方法常能提供简洁且有说服力的答案。Cohen也认为“越简单越好”[3]。由此可以得知:统计方法不是越复杂越好,只要合适,简单的方法也可以达到研究目的。
多元统计分析方法的使用更接近于现实,如因素分析可以有效地简化收集的数据,用最简化的因素结构来优化所研究的心理现象;多元方差分析考虑到了不同因变量之间可能存在的相互作用对结果的影响。尽管如此,多元统计分析的应用不够理想。其原因主要有:一是多元统计方法在前提条件、计算、各变量之间的交互作用方面显得较为复杂,心理研究者不容易完全掌握;二是设计问题,统计方法的应用要与心理实验设计相匹配,多变量的心理实验在设计上不容易控制与掌握,这也会影响多元统计方法的正确、广泛应用。以多元方差分析为例,该方法需要的前提条件比一元方差分析复杂,比如需要因变量间有一定程度的相关[4],而实际中很难达到。且由于入选文献中使用了多元方差分析的研究结果几乎得不到显著性的交互作用,都会在多元方差分析之后随即转为一元方差分析。
虽然涉及新方法的文章很少,但这些方法的出现及使用充分说明了计算机的发展使计算简化,一些复杂的统计方法可以付诸实践。更多统计方法的开发与应用,有助于挖掘更深层次心理现象的内容,促使心理学研究的研究成果更为丰富,对现象的解释亦更为科学、可靠。
3.2 心理统计方法及应用的发展
APA、TFSI提出了假设检验的主要不足:假设检验不能提供结果的可重复性、可推广性。并在此基础上,建议研究报告的统计方法及结果部分应包含各类统计方法使用的五种参数:前提检验、信度分析、置信区间、图表和效果量。理由如下:
(1)统计分析模型不是万能的,只适合于一定统计假设的情形。不同的统计方法有不同的假设前提条件,当所应用的统计方法前提条件没有得到适当的满足时,统计分析的结果可能会严重扭曲。因此,TFSI建议“对给定的数据进行分析时,应努力确保所用方法的前提假设条件得到满足”[2]。
(2)Vacha- Haase等人[5,6]提出的信度概化理论认为:信度不是测验的属性,而是测验结果或者测验分数的属性。经典测验理论中信度依赖于样本,反映了测验的一致性、可靠性。使用一个测验针对不同的被试进行多次施测,由于研究样本的变化,其信度系数会发生变化。如果将以往研究或者测验手册中的信度系数代表当前研究的信度,则会导致“信度引入”(reliability induction)错误,即把特定场合的结论引用到一个更宽广范围的错误[7]。因此研究者在解释结果的时候应报告实际研究中的信度系数。TFSI提出“即使研究不足以心理测量学为核心,分析数据时也要提供所分析数据的信度系数”[2]。这就要求研究者必须计算和报告所分析数据的信度系数,并且全面描述样本的研究特征。这不仅为当前研究结果的可靠性提供证据,而且也利于以后的信度概化研究。
(3)区间估计包含了假设检验的所有信息,并能直接用于推断统计显著性水平,因此,报告置信区间是最好的策略。比较当前研究与先前研究的置信区间有助于了解研究的稳定性,并且通过收集对同一心理现象不同角度的研究的置信区间,可以为全域参数构造多个可能的区域,最终可以通过这些区域发现真正的全域参数。TFSI指出,报告置信区间,比如参数估计的置信区间、参数函数(如均值差异)或效果量的置信区间,是呈现结果特别有效的方法[2],涉及重要结果的任何效果量都需给出区间估计,甚至可以用图表呈现。同时TFSI也建议在同一研究中只用一种区间估计量,如95%或99%的置信区间。
(4)TFSI强调图表的效用,认为图表是探索和概括数据的最直观的方法,图表的使用有利于改进对研究假设的评估和结果呈现。图表设计合理,可以给读者提供结果的整体模式,也可以最清楚地显示研究者所关注的信息。对数据和分布的图表呈现有很多方式,现代统计包中有很多程序均可实现。从交互作用图可以直观地知道自变量是否相互影响及其大小;借助碎石图的陡缓程度可以判断因素分析的公因子个数;茎叶图和箱型图对数据的描述较全面,包含的信息量较多。
(5)效果量不依赖于样本大小,是研究结果可重复的指标,是自变量与因变量之间关系大小的度量。正如Cohen指出,在心理学文献中,很多研究只呈现结果是否差异显著,似乎只要在0.05水平上显著就是对心理学理论的发展做出了贡献[3]。实际上,统计的显著性是效果量和样本容量共同作用的结果。得到差异显著的结论,效果量不一定大,可能是大样本作用的结果;同样,得到差异不显著的结论,效果量不一定小,可能只是样本不足而引起的,只要增大样本,就会反映出自变量的真正效用。效果量的使用,为评价心理学研究的价值提供了一个比较客观的标准,改变了有些研究者“只要具有统计的显著性就是成功的研究”、“没有统计上的显著性研究就没有意义”等偏见。尽管效果量的使用没有统计显著性检验那样普遍,但它的重要性日益被心理学界所接受。因此,研究者不仅应该注意统计上有无显著性,也应该注意效果量的大小。TFSI、APA都强调研究在报告P值的同时也要报告效果量的估计值,并将是否报告和解释效果量的大小作为判断研究质量优劣的标准之一。
《心理学报》、《心理科学》(1998-2008)使用这五种参数的具体情况如下所述:
(1)前提检验。表4呈现了《心理学报》、《心理科学》(1998-2008)发表论文的各类统计分析方法的前提检验结果。可以看出,总体上,两种杂志中的文章对统计方法的前提条件进行检验的不多,约3%,其几乎没有研究者对因素分析、结构方程模型等方法的前提假设做过检验。然而可喜的是,随着时间的推移,还是有研究者意识到了这个问题,并做了一些工作。
(2)信度。由表2、3可知,《心理学报》和《心理科学》(1998-2008)两种杂志报告信度的文章共有1265篇,其中引用以往的研究或者测验手册中的信度系数的文章比例约占26.25%,未提及信度系数的文章比例约占31.54%,报告当前的实际研究中的信度系数或信度系数范围的文章比例约占59.53%,其总趋势为不断递增。(注解:一篇文章报告信度系数的次数并不一定为1。)
(3)置信区间。由表2、3可知,《心理学报》和《心理科学》(1998-2008)两种杂志报告置信区间仅有13篇,仅占入选文章的0.4%。这一点和Kieffer等人[8]对AERJ和JCP两种杂志的调查结果相似:所调查的文章中几乎没有研究者报告置信区间。
(4)图表。由表2、3可知,《心理学报》和《心理科学》(1998-2008)呈现图表的文章共有276篇,仅占入选文章的8.8%:绝大部分是呈现交互作用图(82%),其次是碎石图(14%),散点图(3%)、茎叶图极少呈现(0.7%),箱型图从未呈现。但是从总体上看,随着时间的推移,越来越多的研究者注重呈现图表。
(5)效果量。《心理学报》和《心理科学》两种杂志上报告效果量的文章分别有30篇和21篇,均仅占入选文章的1.6%。这显示中国心理学界对效果量的重视程度远远不够,需要中国心理学会、各专业分会、心理统计学者、教材编写者、杂志编辑参与到效果量的推广教育中来,以促使广大的心理学研究者、心理学系的学生普遍接受这一观点。
4 心理统计方法及应用的展望
从《心理学报》、《心理科学》(1998~2008)的统计分析方法的应用情况可知,中国心理学研究中统计方法应用的脉络大致如下:
(1)总体上,传统的描述及推断统计方法的应用多于多元统计方法;
(2)描述及推断统计方法的应用有下降的趋势,其中常用的方法依次是方差分析,t检验和相关分析;
(3)多元统计方法的应用有上升的趋势,最常用的是因素分析和多元方差分析;
(4)The APA Task Force on Statistical Inference(TFSI)建议发表报告或论文必须包含的五项内容,即统计方法的前提检验、信度、置信区间、图表和效果量,应用比例都很低。这也是目前心理学研究成果众多,但被社会接受、推广不多的原因之一。
由于长期以来的惯性使用,目前中国心理学发表的研究论文,绝大部分文章都没有向读者提供有关假设检验中的重要信息(如效果量、信度系数、结构系数等)。因此,在这些常用的统计分析方法应用还有很大的改进空间,中国心理协会、心理统计学者等需要适时审查统计方法的发展与使用状况,以不断改进目前这种状况。
我们强烈建议,可以从学术杂志、统计教材、统计软件、研究者自我意识几个方面着手:
(1)将效果量作为论文接受、发表的重要标准;
(2)在学术论文送审之前增加数据、统计方法应用的审查;
(3)及时更新统计教材和统计软件,强调教材上的统计方法由于其理想化而不能照搬套用到不同的实际研究情境中,强调统计软件的使用不能凌驾于统计理论基础之上,强调研究者应强化统计应用的科学思想。
各种力量的综合影响将促使心理研究中统计方法的应用更为科学、准确,进一步改善中国心理学研究现状,推动中国心理学研究不断进步和科学化。
标签:心理学论文; 置信区间论文; 方差分析论文; 描述统计论文; 科学论文; 总体方差论文; 统计学论文; 因素分析论文;