心理学研究中应用统计方法应注意的几个问题,本文主要内容关键词为:应注意论文,几个问题论文,心理学研究论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 B841.2
1 引言
统计方法是一种有效的收集、整理和分析数据,并做出预测或推断,直至为决策提供数量依据的科学方法,广泛应用于医学、人口学、经济学和心理学等学科领域。随着现代心理学的发展,心理统计作为一种认识心理学现象数量特征的重要工具受到了广大心理学工作者的重视,统计分析已成为心理学科研报告中不可或缺的一个重要部分。
统计方法的正确应用能保证科研工作的顺利进行,使研究结果更具有说服力;有助于认清事物的真相,发现事物变化的数量界限,揭示事物发展的内在规律。相反,统计方法如果有意无意的使用不当或错误使用,会直接影响研究结果的质量,导致错误的结论,甚至造成事实的扭曲,文章的可靠性和科学性将大大降低。
目前,在各领域的研究中仍有一些研究者对各种统计方法的概念、使用方法及其适用范围等缺乏准确的理解和把握,因而在论文中出现了一些统计方法的误用或错用。更有甚者,其误用是有意为之,这已引起人们的注意。但是,目前国内心理学界对统计误用的讨论尚不深入,可见的相关文献[1] 亦不多见。
避免统计方法在心理学研究中的误用和错误使用,正确的使用各种统计方法,对于心理学的发展具有重要意义。本文沿着心理学研究过程的逻辑思路,从数据产生、数据描述、推断统计等几个方面探讨、分析心理学研究中应用统计方法可能遇到的误用与应该注意的问题,并针对这些问题提出克服误用的方法与建议,目的有二:一是使研究者从事研究时避免陷入统计学的陷阱,二是在阅读他人研究报告时可以甄别“谎言”与事实。
2 心理研究中应用统计应注意的问题
2.1 数据产生
数据质量是统计的生命,统计研究中最重要的事情之一就是数据的来源。提高心理研究的数据质量,是对心理现象进行描述和推断的前提。心理研究的数据主要来源于观察、抽样调查、普查、实验等,其中抽样调查和实验应用甚广。接下来主要探讨调查与实验中收集数据容易犯的错误,并根据数据伦理提出建议。
2.1.1 抽样调查中有偏样本和小样本的使用
穷尽研究总体全面调查以研究某一心理现象既无必要也不具可操作性。实际上,只要运用抽样理论,抽取有充分代表性的样本,即可取得反映总体特征的可靠资料与数据[2]。抽样设计中最基本的原则是随机化,它要求样本“彼此独立”且“机会均等”。实际研究中,研究者会有意无意的在这个问题上打折扣,造成取样偏差,主要有:(1)有偏样本的使用;(2)小样本的使用。
取样时,如果样本的选择使得结果总是往某个方向偏,则称之为有偏的。造成样本有偏的原因主要有两类,一是由主试造成的方便取样(convenience sampling),即抽样时主试选取那些容易取得的样本,这可能是无意的,也可能是有意为之。另一类是由被试决定要不要回应造成的自发性回应(voluntary response),如网络版心理调查、电话回应及写信回应意见调查等。比如,在线网络调查的数据有两个方面经不起推敲:一是有上网条件能接触到这个调查的人不一定能代表总体,因为并不是每一个人都有机会上网,即使能也不能保证上网者获取到这份问卷的机会均等;另一个是接触到问卷的被试是否做出回应是由他本人自发的,这常常是有偏的。
不同类型的设计和统计方法对样本数有大致的要求,样本数太小,会使得统计分析的误差变大,分析结果不够稳健,研究的外部效度也得不到保证。比如在相关研究中,抽样误差造成的变异S[,e[,i]]=(1-ρ[2])[2]/N[,i]-1,如果ρ=0.3,样本数N=100,则相关系数估计的标准误为0.09,相关系数的置信区间为[0.12,0.48]。显然,在其他条件不变的情况下,随着样本数目的增加,估计的标准误随之减少。一般地说,为保证研究质量,在使用探索性因子分析开发问卷或量表的研究中,样本的总数建议不少于100人,量表题目数和被试数的比例不小于1∶5。在结构方程建模中,样本容量最好大于200[3]。
利用样本统计量对总体参数进行估计时的误差主要是偏差(bias)和变异(variability)。可以采用以下手段以减少这些误差:(1)尽量使用随机样本。说来非常简单,但在现实世界中,简单随机样本一点也不简单。(2)样本要足够大。因为样本统计量的变异由样本大小决定,而不由总体大小决定,假如从收获的花生中抽取种子,用一个勺子作为容器,把它塞进花生粒当中,勺子并不知道它是从一小袋还是从一卡车花生中抽取,只要花生混合得均匀(这样能保证抽取的花生是随机的),所得结果的变异只与勺子大小有关,而与总体无关。
抽样调查的取样缺陷是任何统计方法也无法事后弥补的,所以,在面对调查结果及相信它之前应该思考以下几个问题:(1)谁做的调查?(2)调查的总体是什么?(3)样本是怎样选取的?(4)样本有多大?(5)用什么方式联络被试获得的数据?(6)调查的回应率是多少?
2.1.2 实验研究中潜在变量的缺失
调查研究是被动的数据收集方式,研究者只是记录或度量,但不给予干预。而实验研究却是研究者主动施加处理给被试而主动产生数据的过程,实验设计的逻辑核心是控制、比较和随机化。
实验研究中经常不为研究者重视的情况是忽视了潜在变量的存在及其作用。潜在变量是指对研究中的自变量和因变量的关系有重要影响,但却未被研究者纳入研究以解释变异的变量。比如,研究教学方法(自变量)对考试成绩(因变量)的影响,学生的学习程度或动机水平就是一个潜在变量。潜在变量经常和自变量掺杂在一起,此时很难说因变量的变异就是由自变量引起的。潜在变量既可以是能促进自变量与因变量关系的第三种变量,如上文提到的动机水平可能会促进教学方法与学生成绩的相关性;也可以是削弱自变量与因变量关系的变量,即压抑变量(suppressor)。
忽视自变量与因变量间潜在变量的影响,可能会扭曲自变量和因变量的关系。考虑一个学会感判断(judgment of learning,JOL)的准确性和学习成绩关系的例子。一般认为元认知监控对学习者的学习具有重要作用,然而很多研究却发现,JOL的准确性与学习成绩间的关系并不是想象的那么直接明朗,甚至得出了相反的结论,为什么会如此?Thiede在对以往研究[4] 进行分析与梳理的基础上,通过实证研究解答了这一疑问:以往研究之所以不能确切描述JOL准确性和学业成绩关系的原因是因为以往研究没有检视学习者的自我调控学习行为在JOL准确性和学习效果间的作用,也即忽视了一个重要的潜在变量。
对潜在变量的辨识不仅是一个重要的方法论课题,更是一个与研究问题有关的理论问题,实际研究中,忽略潜在变量主要是由于研究者对所研究问题了解的不深入造成的。辨识或者检讨以往同类课题研究中是否存在潜在变量缺失现象的一个可行方法是对之进行元分析(meta-analysis)。总之,研究者应该在研究进行之前充分研究已有文献,厘清所要研究的问题,尽量不要忽视重要的潜在变量,或者采用协方差分析进行事后补救。
2.1.3 数据伦理与研究道德
数字看起来“总是”可靠的,但是数据是人“制作”出来的,因而会反映出人的欲望、偏见和弱点。所以,一方面要讲研究者自身的数据伦理和研究道德,如诚信原则,另一方面要有“怀疑精神”。
比如,要看数字之间是否相符。《实验医学杂志》曾经通过一篇以老鼠为被试的实验论文,文中有一个统计表,里面有一个很明显的错误,稍加留意,连聪明的小学生也可以看出来。表里有6组动物,每组各为20只,并包含每组成功的百分比,显然20的任何百分比都应是5的倍数,而作者Summerlin所记录的百分比却分别是53%、58%、63%、46%、48%以及67%。这显然是一组数字间存在矛盾、不相符的数据[5]。
再如,要看数字是否过于精确或太有规律。数字前后出现矛盾,让人怀疑数据是假的,而数字过于精确或者太有规律,也一样叫人起疑。已经过世的英国心理学家Burt以研究分隔两地成长的同卵双生子的智商而著称。在Burt的研究中,分隔两地的同卵双生子IQ的高相关系数显示IQ主要是受遗传影响。Burt对他的研究结果写了多次研究报告,纳入研究的双生子的对数也逐渐增加,表1是他发表结果时报告的相关系数,其结果显得过于精确而有规律。事后证实这个数据有作假的嫌疑[6,7]。
表1 Burt关于IQ研究的相关数据
发表日期分隔两地成长的双生子一起成长的双生子
1955年 0.771(21对)
0.994(83对)
1966年 0.771(53对)
0.994(94对)
2.2 数据描述
用图表和统计量数来呈现所搜集的数据,可进一步了解并发现数据的特征。人们既可以用统计图表对数据进行初步整理,也可以用集中量数与离中量数对单变量进行描述,还可以用相关对双变量与多变量做描述统计。这一部分主要探讨用统计图表呈现数据和用相关分析描述数据关系时可能犯的错误。
2.2.1 “良好的”与“欺骗眼睛的”统计图表
想知道收集的数据说明了什么,就要在了解了数据是类别还是连续变量后画个图或列个表,对数据进行初步的整理。大量的数据代表着大量的事实,用简明扼要的图表加以呈现是一个加工的过程,此时最容易扭曲事实,其中有些是无心的,有些却是故意的。
统计图种类众多且分别有不同的用途。比如用来呈现数据的有条形图、饼图、象形图和箱形图等;线形图、直方图、茎叶图、密度曲线(正态分布曲线是其特例)等可以用来描述数字的分布;而散点图则可以描述数据的相关程度。其中,推荐箱形图和茎叶图,因为它们承载的信息量相对较大。箱形图综合了五种量数:极小值、第一四分位数、中位数、第三四分位数、极大值,可以反映集中趋势和离中趋势。茎叶图尤其适合于数据不是很多的时候,相对于直方图它的优点是呈现了实际的观测值,当然数据很庞大时就不适用,因为每个茎的叶子会太多。
数据本身不会说谎,但是呈现数据的方式却会给人误导或者给出不同的结论。用统计图表呈现数据时,经常犯的错误或者用它来“说谎”的手段是改变刻度。同样的一组序列数据,坐标轴单位取值不同的情况下,所得到时序图的上升、下降的幅度和范围就不一样。如,某社区从2001年到2004年来因抢劫案件而受伤的人数由3人逐年增加到6、9、12人,认为需要加强社区治安者绘制了图1,而对社区治安持乐观态度者则绘制了图2,前者显示该社区治安案件受伤人数的上升幅度很大,而后者使这一趋势看起来无多大上升。两者都是正确的,但是因为目的不同,各自服务的观点亦不同。时序图如此,较复杂的如象形图、三维图等用于比较时更是如此,容易欺骗人们的眼睛,给人以误导。
那么,如何把图画好?以下两点是需要注意的:(1)一定要把标识和说明表示清楚,包括变量名称、变量单位等。(2)让数据更醒目,让信息更清楚。统计图呈现的主体是数据本身,而不是标识或背景等,研究报告中要小心地选择合适的刻度,尽量避免象形图和三维图。
2.2.2 相关的滥用与量表信度的再思考
相关分析的应用相当广泛,不考虑理论限制的情况下,随意的两列或多列变量均可以求得相关系数,也确有人会这样做。考虑到理论构想,也会出现相关分析的误用、滥用。不是很谨慎的利用相关系数做出解释的表现很多,如忽视中介变量而导致的研究问题简单化、小样本的应用而导致的全距限制等。相关研究中忽视中介变量的情况和前文关于潜在变量的分析类似,不再展开。举一个小样本使用的极端例子:身高和个人品德有关吗?如果抽取的样本不是很大,仅仅局限在少数样本上,就可能得出身高越高品德越好(差)的结论,这个结论显然是靠不住的,而研究者一般也不会犯如此的低级错误。值得警惕的是,人们经常把小样本、同质样本或有偏样本获得到的结论无限制的推广到总体的情况。
当一个相关系数呈现在面前的时候,以下几点需要事先牢记:(1)两列变量之间的高相关不一定就说明它们有着很高的相关关系,因为两个变量之间的相关性常常受到潜在变量的影响。(2)相关系数只是两个变量直线相关的强度,它不能描述变量的曲线相关,不管这种相关关系有多强。(3)相关系数不理会解释变量和反应变量之间的区别,也就是说把变量和变量的名称对调,相关系数还是一样,这说明利用相关系数做出因果推论是非常危险的。
信度是心理测量学上的一个基本概念,信度系数可以看作相关系数的特例。很多报告中经常会出现“这个量表的信度”是多少,“这个测验量表有很好的信度系数,是可信的”等类似的说法,这些说法是不准确的,或者说是错误的。一个量表在开发过程中,须达到一定的信度水平,那是一个测验的质量水平,量表手册上看到的绝大多数量表编制者所报告的信度指标就是这个。其他使用者在研究中直接引用这一指标作为量表测验“可信”证据的做法并不妥当,因为对于某一次测量而言具体施测时的样本和施测条件与量表开发时是不一样的,这就导致了其“信度”会随之改变,这种改变可大可小,其大小取决于施测的控制,也就是说使用同一种测量工具并不一定意味着每次测量都有相同的信度,恰恰相反,每次测量的信度指标应该均不相同。从这个意义上说,信度是测量结果或者测量得分的可信程度,但不是测验工具的可信程度。
根据经典测量理论的假定,信度规定为真分数的方差在总体方差中所占的比例,即R[,xx]=S[,T][2]/S[,X][2],因为真分数不可知,所以信度的定义不具有可操作性,因此报告的不是信度本身,而是其估计值。可以推论当对某团体重复施行两个平行测验实得分数的相关系数R[,xx]=S[,T][2]/S[,X][2],这个平行测验实际上就是复本,它满足两个条件:一是对每一被试两次测验具有相同的真分数,二是两次测量有相同的误差方差。这个R[,xx]就是信度的最初估计值——复本信度(alternative-form reliability),它是“最原始”的一个可以操作的信度定义,其他的信度系数是以之为基础做出的推论:(1)因为实际的复本难以做到真正的平行,所以,对某团体重复施测同一测验,可以看作是两个平行测验,其相关等于R[,xx],这就是重测信度;(2)对某团体施测一测验,可以把此测验分为两半看作两个平行测量,其相关系数等于,这就是分半信度;(3)对某团体施测一测验,把每一个题目看作是一个测验,可有K个平行测验,Cronbach α系数就是这些平行测验两两相关的平均,它也等于R[,xx]。正是在这个意义上,一般广泛的使用α系数为“最佳”的信度估计值。
α系数是内部一致性的指标,这要求该测验内的题目应该是同质的,否则容易造成误用。当一个包含多个分量表的测验所合成的总分有实际意义时,才有探讨其统计意义与α系数的必要;当总分无意义时,探讨其统计特征则是不妥当的。如某量表有5个分量表,测量内外向、独立性等性格特征。对于分量表,人们明白其高低分的实际意义,但是,由这5个因子得分合成所得的总量表得分的意义是什么呢?代表“性格”嘛?显然不能这么说。当分量表的“方向”并非一致时,更是如此。此种情况下,只需分别报告各分量表的α系数,而无需报告总量表的α系数。α系数本身也有很大的局限,它受到量表项目数的影响,大量不同质的项目堆积在一块亦能产生高的α系数,即α系数高并不代表量表是单维的[8],所以应结合探索性因子分析或验证性因子分析考察量表的信效度,尤其是在量表题目很多的情况下。
综上所述,调查研究中,所报告的工具的信度应该是该工具在是次研究中所求得的信度指标;传统上,这些指标的使用以α系数为代表,报告α系数时应该注意其适用条件并能了解其缺点;最好能结合因子分析的结果一起考察测量工具的测量特性。
2.2.3 统计关系与实际中的因果关系
因果关系是事物之间的本质联系。结合科学哲学对因果性问题的诸多讨论,学者[9,10] 认为建立因果关系有以下几种判断标准:一、原因变量在时间上必须先于结果变量。二、两个变量之间有充分的联结。三、无关变量的影响必须排除。四、原因变量与结果变量之间的因果假设必须具备相当的理论基础。
统计关系并不等同于实际中的因果关系。统计关系只是观测数据所反映的事物的数量关系,统计关系并不是因果关系的必要条件,比如相关关系只满足以上条件的部分条件,只是因果关系的一个必要条件,却不是充分条件。
纵使复杂如结构方程建模、多水平分析等统计方法,也无法证明实际的关系,它只是一种工具,是进行假设检验的一种手段,其检验的本质是证伪,而不是证实。建立因果关系最好的证据来自随机化比较实验或者纵向设计。
2.3 统计推论
统计显著性检验的基石是反证法和带有概率性的推论。它从虚无假设出发,视其被拒绝的机会,若虚无假设错,则其对立假设为真。这一决断的根据是,看在一次随机抽样中几乎是不可能出现的小概率事件是否出现。统计推论有其精妙之处,推论过程本身所犯错误的可能也较小,下文主要对统计显著性检验的思考兼谈事后解释的谬误。
2.3.1 对统计显著性检验的考量
很多研究的目的是想要显示某种断言或假设是正确的,如教改实验将新的教学方法和常规教学方法比较,希望新教法对学生成绩提高的作用较大,显著性检验的目的就是要评估数据是否提供了足够证据,可以支持这类断言。显著性检验通过回答一个问题来解决,实质上它也只回答这一个问题:虚无假设不正确的证据有多强?p值就是来做这一工作的。对此,有三个问题值得思考:(1)显著性检验的焦点放在不利于原假设的证据强度上是否妥切?(2)孤零零的显著性指标是否能告诉我们实际效应存在?(3)这个p值要多小才能令人信服?
首先,来看显著性检验的焦点。显著性检验通常是考察总体中存在着某种效应(也就是研究者要证实的假设)的证据,如果这个效应足够大,就会在大部分样本中显示出来;反之,小的效应则通常会被样本的机遇变异掩盖,从而,大的效应比较容易被侦测出来。检验的主要“弱点”是它只考察原假设的证据强度,并没有告诉读者我们正在寻求的效应有多大或多重要,这点是应用检验时许多困扰的来源。
其次,统计显著性指标能告诉人们多少信息?显著性检验的结果与样本的大小有关,较大的样本会让显著性检验比较敏感。所以,当审视一项显著性检验结果时要特别留意样本大小,样本非常大时,即使结果的p值很小,也不见得有实际意义。比如,掷硬币1000000次检验硬币正面朝上的概率是否为0.503,结果p值往往很小,这一结果虽有统计显著性,却无实际意义。反之,样本很小时显著性检验的敏感度又常常不够,总体重要的真实情况可能达不到统计显著性的标准。比如只掷10次硬币检验硬币正面朝上的概率是否为0.5时,p值常常较大。没有达到统计显著性并不代表效应不存在,只是说人们没有找到合理的证据来支持它。同样,调查研究中,样本一般较大,研究者在探讨变量的相关时,所报告的相关系数值很小(如0.1)并能达到显著水平,这类结果的外部效度值得商榷:实践上看,这种显著的推论未必有实质意义,理论层面看,这一检验如此敏感可能是样本太大所致。此种情况下,本文建议:一方面要强调理论假设或推论的理论基础,另一方面应该把相关系数的显著性检验结果与其绝对数值的大小结合起来一起考察。
抛开具体情况,不管假设是什么,有一点是肯定的:观测值越多,p就越敏感。因为显著性受到样本大小的强烈影响,所以,统计显著性并不一定能告诉我们一项效应有多大或者实际上有多重要。
第三,“5%的显著性水平”是否置之四海而皆准?显著性检验用p值来描述样本是否提供了足够证据推翻虚无假设,但是要证明虚无假设不正确,p值要多大才能令人信服?应用者常会强调10%、5%、1%和0.1%等几个显著性水平,其中5%尤其常用,似乎成了一条约定俗成的铁律。正如Rosenthal所言:很多人所受的训练就是不要太仔细看数据。你建立一项假设,决定用何种统计检验,然后执行该检验,如果你的结果达到5%的统计显著性水平,你的假设就得到支持。否则就往抽屉一塞,再也不看这些数据[5]。确实如此,5%似乎成了一个魔术指标,尤其是论文想发表,就必须有5%的显著性水平,这似乎已经成了惯例,很多学者,如Cohen[11] 对之提出了置疑和批评,学术界也展开了心理学专业期刊是否应该封杀显著性检验的讨论,美国心理学会的回应是针对统计推论成立了一个专门的调查委员会,并发表了《心理学期刊中的统计方法——指导方针与解释》[12] 一文,该报告实际上是如何执行优质的统计工作的大纲。实际上,在“显著”和“不显著”之间并没有清楚的界限,事实上即使有也无法准确找到这一界限,因为0.049和0.051这两个p值,并没有多少实质的差别。只是在p值愈来愈小时,就有越强的证据否定原假设。
那么,该如何妥切的做出统计推论?以下建议可以参考:(1)了解统计显著性意义。(2)把p值和样本大小一起报告。(3)报告推论的置信区间。只有统计显著性不能得出让人信服的统计推论,因此有必要呈现置信区间,因为置信区间提供的信息较检验多,置信区间的宽度可以帮助我们把统计显著性的值定位的更准确,而且置信区间比较容易解释。此外,适当增加样本数目对置信区间也有很直接的影响,在同样的置信水平之下区间会更短。
2.3.2 事后解释的谬误
事后解释是典型的方法论谬误,是指在进行统计分析之前研究者并没有理论假设,而是根据统计结果生成“理论假设”,将它作为要检验的假设。事后解释混淆了建立假设与假设检验的区别,抹杀了数据的探索分析与正式的统计推论的界限。
在假设检验中刻意寻找显著性是一种典型的事后解释谬误。举例来讲,参加干部选拔考试,有些人最后成功应聘、身居要职,有些人却无功而返,是什么决定了这两类人不同的命运?可以找到这些应试者的资料,如他们的个性、目标、大学的表现、家庭背景、嗜好、习惯等。利用统计软件,可以轻而易举的对这些变量执行多个显著性检验,看哪些变量能够预测未来的成功。结果会发现,与被淘汰的人比起来,成功应聘者具有某些良好的背景或心理特征。在这个例子里,先把“好的”挑出来,然后又去对它做检验,好像并没有事先把他们挑出来一样,这样做混淆了数据的探索分析与正式的统计推论二者的区别。
在利用因子分析做研究时亦会犯同样的错误。利用同一样本先做探索性因子分析,根据其结果再做验证性因子分析验证之,就是一种典型的事后解释。因为利用同一数据进行假设检验根本不存在可证伪性,也就是说这种检验永远不会拒绝该假设。当研究者有意识的加以掩饰后这个问题很难从论文中发现。
事后解释的谬误不利于真理的发现。要解决这一问题,不仅要提高研究者的方法论素质,更需要提高研究者的科研道德水平。
3 小结
由于心理现象的复杂性,心理学研究中新的发现、结论和观点通常需要统计学的支持,随着现代心理学的发展,心理统计作为一种认识心理现象数量特征的重要工具受到了广大心理学工作者的重视。随着统计方法、技术的发展和电脑科技的进步,越来越多的复杂的统计方法如结构方程建模(structural equation modeling)、多水平分析(multilevel analysis)等广泛应用于心理研究中,推动了心理学理论的发展。
然而,统计方法是一把双刃剑,心理学研究中对统计方法有意无意的误用、滥用或多或少的存在着,造成了“垃圾进,垃圾出”的局面。如何摆脱这一困局,是心理学研究者应加以思考的。作为一种工具,无论多么高深的统计方法,都不能代替理论在研究中的地位,也不能弥补理论和研究设计上的漏洞,更不能成为掩盖理论缺陷的遮羞布,它始终要服务于、服从于理论的建构和发展这一中心。
标签:相关系数论文; 显著性论文; 心理学论文; 显著性检验论文; 显著性水平论文; 样本容量论文; 假设检验论文; 描述统计论文; 解释变量论文; 测量理论论文; 信度检验论文; 统计调查论文; t检验论文;