反复误用与不赞成的心理统计_样本容量论文

屡遭误用和错批的心理统计,本文主要内容关键词为:心理论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:B841 文献标识码:A 文章编号:1000-5455(2010)01-0047-08

半个多世纪以来,某些统计方法及其应用在心理学界备受质疑和争论,特别是零假设显著性检验(null hypothesis significance testing,NHST)。质疑文章中,影响最大的要数1994年Cohen在《American Psychologist》上发表的文章[1]。有意思的是,从Balluerka等人的综述可以看出,尽管质疑NHST的文章很多,但为NHST辩护的文章也不少[2]。在心理学界,类似的质疑文章可以分为两类:一类是纠错,指出应用工作者对统计的误用和误解(例见[3,4])。另一类是在纠错的基础上,进而质疑统计本身,对统计的逻辑、方法和作用提出挑战和批评。第一类质疑是有益的,可以帮助应用工作者提高统计知识,少犯低级错误;第二类质疑既有正确的一面(指出误用),也有认识不足的地方(导致错批)。辛自强先生的《有关心理统计的三个疑问》一文[5],可以说属于第二类。本文旨在提供多一些相关的论点,让读者参考。

一、从概率和条件概率谈起

统计的基础是概率,例如,有关对NHST的讨论就会牵涉到条件概率。如果缺乏概率知识,则很难对统计有深刻的理解。概率统计有一套独特的概念和思想方法,需要经过系统训练才能掌握。下面先看一个非常简单的涉及概率和条件概率的例子。

考虑生有两个孩子的家庭,两个都是男孩的概率多大?直观来说,有三种可能的结果:两个都是男孩,两个都是女孩,一男一女。有人就会以为,两个都是男孩的概率是1/3。稍有概率知识的人都知道,“一男一女”不是基本事件,而是(男孩,女孩)和(女孩,男孩)的复合事件。这样,样本空间包含下面4个等可能的基本事件:(男孩,男孩)、(男孩,女孩)、(女孩,男孩)和(女孩,女孩),所以两个都是男孩的概率是1/4。

前面这个问题还是比较容易理解的,接下来的这个问题可就难倒很多人了:如果知道其中有一个是男孩(即两个孩子中至少有一个男孩),两个都是男孩的概率多大?这是很简单的条件概率问题。很多人会这样想:已经知道一个是男孩,另一个不是男孩就是女孩,各有一半的可能。因此,两个都是男孩的概率是1/2。错啦!因为知道其中有一个是男孩,所以(女孩,女孩)的可能被排除,这时的样本空间包含下面3个等可能的基本事件:(男孩,男孩)、(男孩,女孩)、(女孩,男孩),所以两个都是男孩的概率是1/3。这个问题是有名的“两个孩子问题”[6,7]。

现在修改上面的问题如下:如果知道其中有一个是男孩,名字叫建国①,两个都是男孩的概率多大?面对此问题,大多数人都会迷惑:这个问题和上一个问题好像没有什么区别,两个都是男孩的概率应当还是1/3。又错啦!因为此时的样本空间包含的基本事件为:(建国,男孩)、(建国,女孩)、(男孩,建国)、(女孩,建国),理论上说都是等可能的,所以两个都是男孩的概率是1/2。

如果说上面的例子还只是难倒普通人的话,下面的例子可是难倒了许多数学家,包括有名的数学家。

假设你在参加一个游戏节目,可以在三个门中选择一个。其中一个门后面是一辆汽车,另外两个门后面各是一头山羊。主持人知道每个门后面是什么。你的目标是选中汽车。你选择了一个门之后(例如1号门,但暂时不打开),主持人会打开所剩的两个门中的一个(例如3号门),并且让你看到门后面是一头山羊。然后他对你说,“你要不要改变选择,换成2号门?”

改变选择是否更加有利?这个问题看似非常简单,3号门被主持人打开了,剩下两个门,不论是坚持选1号门,还是换成选2号门,赢输的机会不都是一半一半?本文第一作者在英国Manchester大学进修的时候,第一堂课老师就提出了这个问题,作为数理统计专业出身的人,很容易给出正确答案,但没有想到其他听课的人(全是大学数学系教师)都认为改变选择与否都一样。

这个问题称为蒙提霍尔问题(The Monty Hall problem)②,最早出现在蒙提霍尔主持的美国电视游戏节目“来做个交易吧”(Let's Make a Deal),但让这个问题出名的是《游行》(Parade)杂志“请问玛丽莲”(Ask Marilyn)专栏③。1990年9月9日玛丽莲在其专栏中回答这个问题:改变选择的胜算机会比较大。她随后收到了上万封信,指出她错了。其中有上千封信是博士写的,不少还是数学教授,他们特别生气[6,8]。不相信玛丽莲答案的人中还包括二十世纪数学奇才、史上最多产的数学家埃尔德什(Paul Erds)④,即使有人给了他一个数学证明,他还是不相信。直到有一位同事给他看电脑模拟结果,他才承认自己错了[9]。

其实,解答蒙提霍尔问题的道理很简单:如果你一开始就选对了汽车所在的门,那么你改变选择就输了;如果你一开始选错了,那么你改变选择就赢了。而一开始就选对的概率是1/3,选错的概率是2/3。所以改变选择能赢的概率是2/3。当然,还可以通过直观图示或者通过条件概率、全概率公式计算。

知名电视频道Discovery通过动画的方式,非常形象地演示了游戏过程。为了让观众容易明白,将3个门换成了100个盒子(排成10行10列)。把问题换成,100个有盖的盒子,其中一个放有巧克力。让你先选择一个盒子,然后主持人在剩下的99个盒子中打开98个盖子,里面都是空的,这时还剩下两个盒子。主持人问你:“改变选择吗?”这时,改变选择能赢的概率是99/100。

实际应用中的许多概率统计问题远远不止这么简单,但从上述两个简单的例子应当可以向读者传递以下信息。

1.一些概率统计问题看似简单,但其实很容易出错。我们的大脑生来就不是解决概率问题的料[9]。任何人,如果想正确、适当地应用概率统计,系统的学习和训练都是不可缺少的。

2.条件概率问题,问题的条件很重要。问题的背景、看问题的角度、设问的时间点、事件发生的过程等等,都可能是条件的一部分,影响结果。那些对NHST的检验结果存在错误解释的人,很大程度上是不理解条件概率所致。

3.概率统计是数学的一个分支,但作为研究随机现象的概率统计,与数学的其他分支有很不相同的思想方法。数学中还没有其他哪个领域,比概率问题更容易令专家出错[10]。

4.无论概率还是统计,都有一套系统的、别的学科无法取代的思想方法,一个人不通过系统深入的学习和训练,是很难深刻理解的。

下一节我们会看到,像Cohen那样著名的心理统计专家,对NHST的推理逻辑都还理解得不到位。

二、被误解和错批的零假设显著性检验

从数理统计的角度看,NHST好好的,没有什么问题。但因为其中的“显著性”(significance)这个专业术语被许多应用工作者误解了,当作日常的术语去理解和诠释,使得NHST担当了不该担当的角色,被“重用”过头了。另一方面,反对NHST的人则误解了它的作用和推理逻辑,把它贬得一文不值。我们有必要还它以本来的面目。

1.零假设显著性检验方法简介

以两组均值差异检验为例。在一个实验中,将被试随机分为两组(即两个样本),甲组为实验组(进行实验处理),乙组为对照组(不做实验处理)。对两组实验结果分别计算平均值。平均值的差异代表了两组的整体差异,最基本的问题是,绝对差异(实验组-对照组)有多大?相对差异[(实验组-对照组)/对照组]有多大?这是小学算术就可以解决的问题。然而,样本是总体中随机抽取的,只要样本不等于总体,每次抽取的样本可以说是不会一样的。即使实验处理没有任何效应,两组均值也不会刚好相等(除非巧合),即两组均值总是有差异的。因此我们希望知道:两组均值差异不会仅仅是抽样引起的波动吧?专业一点的表述是,两个样本来自同一个总体吗?如果答案是否定的,就可以说明差异是由实验效应引起的。

NHST就是用来解决这个问题的一种统计方法。零假设通常是无差假设,根据研究问题的背景确定一个备择假设(常见的是单侧区间或双侧区间)。在为真的条件下,推出一个检验统计量。两组均值差异检验是t统计量,在指定显著性水平α(通常是0.05)后,目前统计教科书介绍的检验方式主要有下面三种[11]117-119,很容易证明,三种方式做出的检验结果完全一致。

方式1:根据显著性水平查出相应的t统计量临界值(临界值与也有关,单侧区间时,临界值的单侧概率为α),如果由样本计算的t值超出临界值,拒绝,否则不拒绝。这是查统计表做检验的年代最常用的方式。

方式2:由样本算出t值及其显著性概率P(也称为相伴概率,是单侧区间时,使用单侧相伴概率),如果P<α,拒绝,否则不拒绝。这是使用计算机统计软件后,最方便的做法。

方式3:根据t分布算出两总体均值差异的置信度为1-α(通常是95%)的置信区间(confidence interval),如果置信区间包含0,不拒绝

,否则拒绝。报告置信区间可以了解差异大小和范围,又可以做检验,提供的信息比较多,是当今国际期刊鼓励甚至要求的报告方式[12]。不过,当是单侧区间时,报告置信区间使用的置信度为1-α,检验时使用的置信度则为1-2α(单侧概率为α),不熟悉的人容易出错。

如果拒绝,通常的说法是均值差异显著;如果不拒绝,通常的说法是均值差异不显著。差异显著的意思是,根据所得的样本数据可以在统计上分辨出差异,这时应当将差异报告出来;差异不显著未必没有差异,而是根据所得的样本数据在统计上不能分辨出差异。

假设检验和参数估计都属于统计推断,它们可以通过判决函数统一起来[13]。统计推断与常规的推断不一样,是一种带有风险的推断。无论做出什么结论(差异显著或不显著),都有可能犯错误。NHST的错误分为两类:第一类是H0为真却被拒绝了(拒真),第一类错误率就是显著性水平α;第二类是不真却没有被拒绝(受伪),第二类错误率记为β。错误会带来损失,平均损失就是风险[13]53。虽然根据现有样本数据做出推断有风险,但与什么都不做所面临的风险相比,风险会降低,这就是统计推断的生命力所在。

2.应用工作者对零假设显著性检验的误解

几乎所有统计教科书都会说明,显著性水平α是“为真的条件下,拒绝的概率”,即第一类错误率。这是一个条件概率,记为P(|),其中是显著性水平α对应的拒绝域。

从本文第一节关于条件概率的简单例子中我们已经看到,对条件表述的任何改变,都可能导致很不同的结果。许多应用工作者没有注意这一点,导致各种各样的低级错误。Nickerson根据过往心理学和其他社科文献,归纳出10多项关于NHST的误解[14]。例如,以为显著性概率P值是为真的概率,1-P值是为真的概率;以为显著性意味着理论上或者实际应用中的重要性;以为α是在已经拒绝的条件下犯第一类错误的概率,等等。

特别是对于“差异显著”,很容易被误解为“差异重要”、“差异大”。为了避免这种错误,有的统计著作已经将“显著”改为“有统计学意义”了,例如将“差异显著”改为“差异具有统计学意义”[15]。这样的改动,对数理统计专业的人来说,意义可能不大,但对于一般的应用工作者,应当可以减少误解的发生。

本来,根据不同的显著性水平将检验结果说成“显著”(0.05)、“非常显著”(0.01)是一个很好的主意,告诉检验结果的同时告知所用的显著性水平,言简意赅。但因为“差异非常显著”容易被误解成“差异非常重要”,所以有人对这类做法也反感。

类似的一个术语是“接受零假设”。通常的数理统计著述上面会明说“接受零假设”,因为行内人都知道“接受”背后的含义。例如,中科院院士陈希孺教授所著的、国内非常权威的《数理统计引论》就有这样的说法:“接受还是拒绝所提的假设”,这里所提的假设是指零假设[13]238。Balluerka等人也使用“接受零假设”的说法:第二类错误是“当为真时接受”[2]。但多数心理统计教科书都尽量避免使用“接受零假设”的说法,可能是担心一般的应用工作者望文生义,误解了“接受”的意思。如果只是将“接受零假设”作为检验结论,没有在解释结果时随意引申,就不应当说是错误的。

如果用统计的人都能看懂陈希孺的统计专著,那么用什么术语都不要紧,因为他们知道术语的背后发生了什么事情。

3.对零假设显著性检验质疑的反驳

2005年Balluerka等人归纳了文献上对NHST的质疑和反驳[2]。下面就Cohen(1994)提到的并且后来常被引用的三个质疑[1],谈谈我们的观点。

质疑1:NHST不能提供研究者想要获得的信息。

前面说过,NHST的目的是根据样本推断差异是不是仅仅由抽样引起。如果拒绝了零假设,就可以推断差异是由实验效应引起的。当然,不要忘记了统计推断是带有风险的。从这个角度看,NHST已经提供了我们想要获得的信息。

如果研究者希望知道干预实验后差异是否足够大[5],例如设定差异为10算是足够大,这时将设为两者均值之差等于10,NHST可以给出推断。不过,如果研究者想要别的信息,NHST或许真的无能为力。例如,已经知道某人HIV检验结果为阳性,他得艾滋病的可能性多大?这个问题不能用NHST解决,但那不是NHST的错。比方说吧,一个人想补充淀粉,而牛奶不能提供,难道就说牛奶有问题,让大家都不要喝牛奶吗?

其实,NHST让我们知道很多信息,下面仅列出三个。

设想“上帝”手上有一个没有任何作用的治疗方案(相当于为真),“发包”给很多人分别做实验,NHST告诉我们,只有5%左右的实验会得到显著效应。这就是犯第一类错误的含义。

NHST也告诉我们,如果所有实验都取α=0.05,则全人类的实验研究犯第一类错误的概率小于0.05。这是因为,有些实验对应的为真,有些实验对应的为真,只有为真并且被拒绝的那种实验,才出现了第一类错误,所以P(全人类的实验研究犯第一类错误)=P)=P()·P(|)<P(|)=0.05[16]。

NHST还告诉我们,当检验结果是拒绝时,可以降低对成立的信心(即提高对成立的信心);当检验结果不拒绝时,则可以提高对成立的信心。Hagen(1997)举了这样的例子[17],当α=0.05,β=0.6时(即检验力为0.4),如果一开始研究者对成立的信心都是50%,那么当出现时(即拒绝时),成立的概率为:

如果第一次拒绝后,同样的实验再次拒绝H0,和上面同样的方法可以算得P(|)=0.015,因而对成立的信心超过0.98了。上面一段的计算其实已经解释了前面说过的那段话:虽然根据现有样本数据做出推断有风险,但与什么都不做所面临的风险相比,风险会降低。在什么都没做之前,如果成立的可能性是一半一半,那么经过一次检验,不论结果如何,事情都朝着比较确定的方向走,因而降低了风险。

最后,用Cortina和Dunlap的观点来结束对质疑1的反驳,质疑1说的并不反映NHST本身的缺点,问题在于它提供的信息如何解释[18]。

质疑2:零假设总是错的。

Cohen(1990)认为,零假设总是错的[19]。他(1994)还引用Tukey(1991)的话:“去问‘A和B的效应有不同吗’是愚蠢的,它们总是不同的——在小数点后某个数位上。”[1,20]

有几个理由让不少人觉得零假设总是错的:(1)两个样本的均值总是不同的;(2)哪怕两个样本的均值只有细小的差异(比如0.2、0.02、0.0002),只要样本容量N足够大,检验结果就是差异显著,总能拒绝;(3)不断实验迟早会被拒绝。

对以上理由可以反驳如下。(1)零假设是对总体参数而言,样本均值有差异,还是可能来自同一个总体,即为真。文献上就有不少不能拒绝的实验报告,况且还有更多这样的实验因为没有效应而没有发表,怎么能说零假设总是错的呢?(2)如果确实是真的,即两个总体均值完全相同,抽样分布理论告诉我们,不论N有多大,拒绝的概率还是0.05。不错,如果两个总体均值有微小的差异,只要N足够大,总能拒绝。不过,如果N很大,两个样本均值的波动会很小,计算到的均值就很精确,这时不用检验,看看两者的绝对差异和相对差异,就已经可以下结论了:差异微不足道!这种情况,不用NHST就可以解决问题了,难道也算是NHST的错吗?(3)根据小概率的一个性质,一个为真的实验重复进行,迟早会被拒绝,但这与总是错是两码事。

总结一下,当你得到两个样本,发现它们的均值有差异,问问它们的差异是不是由于抽样引起的,这样做怎么就“愚蠢”了呢?当然,如果一眼就可以判定差异微不足道,确实没有必要再问差异是不是由于抽样引起的,当作没有差异就成了。

质疑3:NHST本身存在逻辑上的漏洞。

Cohen(1994)描述了NHST的逻辑(简称逻辑A)[1]:

如果零假设是正确的,那么这样的结果是很不可能的(比如0.05);

这样的结果已经出现了,

因此零假设很不可能是正确的。

这是一种带有概率性质的推理。Pollard和Richardson、还有Cohen都举了例子,说明有时候这样的推理结果完全是错误的:结果出现了,但零假设却100%正确[1,16]。

看过Cohen(1994)文章的读者大概都会以为NHST的逻辑就是那样,连反驳他的人,都只是试图为这种逻辑辩护。例如,Hagen认为逻辑形式正确的论证并不总是合适的;即便一个论证没有逻辑上的正确性,也可能是合理的[17]。

争论的双方都没有能挣脱形式逻辑的桎梏。其实,NHST的逻辑(简称逻辑B)是这样的:

如果零假设是正确的,那么这样的结果是很不可能的(0.05);

一次试验中这样的结果不会出现(小概率原理);

这样的结果已经出现了,就推断零假设不正确;

上述推断可能出错(小概率原理出错),出错率是0.05。

两个逻辑有什么不同?关键在于逻辑B是带有风险的推理,明说推理可能出错,出错率是多少。但逻辑A不带风险,没有说推理可能出错,一个符合前提条件但零假设100%正确的例子就成了足以推翻整个推理逻辑的反例。按照逻辑B,一个那样的反例是无能为力的。有兴趣的读者不妨比较并推敲一下,Pollard等人[16]和Cohen[1]的例子可以反驳逻辑A,但不能反驳逻辑B。要反驳逻辑B,需要有一个这样的例子:零假设是正确的,重复实验多次,结果“零假设不正确”出现的比例“显著”高出0.05(可见显著性检验多重要,否则连这个反例都不知道如何去描述)。在满足NHST全部条件的情况下,概率理论告诉我们,不存在这样的反例。所以,NHST并不存在所谓的逻辑漏洞。

正如Hagen指出的,Cohen(1994)的那个例子的假设和统计上的假设不是一回事[17]。在Cohen例子中,:被试是正常人,:被试是精神病人。首先,在NHST中,不可能对每一个被试,判断是真还是真,因为假设是对总体而言的。但Cohen的例子,可以对每一个被试,判断是真还是真。其次,NHST中的被试,不论是来自哪一个样本(即不论是实验组还是对照组),都生活在同一个世界,中有一个为真,两者不会同时为真。但Cohen的例子中,正常人来自为真的世界,精神病人来自为真的世界,两组被试来自不同的世界。第三,在NHST中,在零假设为真的前提下,可以得到检验统计量的抽样分布。但在Cohen的例子中,在零假设为真的前提下(即被试是正常人),不能得到任何抽样分布的信息。

Pollard和Richardson的那个“国会议员很不可能是美国人”的例子[16]也有完全一样的问题。用这些与NHST风马牛不相及的例子指证NHST的逻辑有漏洞,不知蒙蔽了多少读者。时至今日,全世界都还有人引用Cohen(1994)的文章来对NHST说事,可见其谬论影响之深。

4.根据研究目的适当地报告统计结果

只要问题合适,NHST是有用的。上世纪末心理学界“禁止报告假设检验”的声音可谓甚嚣尘上,但美国心理协会(APA)的专责委员会Task Force on Statistical Inference(TFSI)没有同意[12],这自有它的道理。Howard举了物理学、宇宙学、心理学、地球物理学等学科的6个例子,说明NHST可以有实质性的科学贡献[21]。至少可以这样说,虽然NHST不是什么事情都能解决,但在合适的场合,是有作用的。没有哪种方法是万能的,但NHST被广泛应用的事实告诉我们,NHST真是一个方法上的重要发明!

以差异检验为例,一种报告NHST的方式是在报告差异的基础上,报告置信度和置信区间,并做出是否拒绝的检验结论。另一种其实是更加流行的方式,在报告差异的基础上,报告统计量的值和显著性概率,并做出是否拒绝的检验结论。如果后面一种方式能加上差异估计的标准误,提供的信息已经和前面一种方式的相当。

当然,仅仅报告检验结果显然是不够的,应当根据研究目的报告更多有用的信息,例如报告效果量(effect size)。但无论是报告效果量,还是报告置信区间,都不能取代报告检验结果。与各种被定义出来的效果量相比,最易理解并为大家熟知的还是绝对差异和相对差异。就是说,无论哪种方式报告结果,都应当认真检视绝对差异和相对差异,以判断是否有实质性差异(substantial difference)出现。以男女职员收入差异为例,在平均月收入只有50元的年代,男女均值相差5元已经是实质性差异。但在平均月收入有1 000元的年代,男女均值相差10元也没有实质性差异。只有当差异既有显著性又有实质性的时候,才能得出男女收入有差异的结论。事情就这么简单,只要做做算术,也就不会将“差异显著”理解为“差异重要”、“差异大”之类的了。不过,因为心理学研究中的许多变量缺少有实际意义的单位,所以报告效果量比较合适。效果量同时反映了差异和取样波动,可以更好地衡量实验效应。

或许有人会问,多大的差异才算有实质性差异?相似的问题还有,效果量多大才算有效应?如果要回答这样的问题,又得兜回NHST的逻辑和做法:确定临界值,根据样本结果对总体做出推断。报告效果量也好,报告置信区间也好,是可以增加信息(所以值得提倡),但如果想取代NHST,还是逃不脱NHST的逻辑。

三、统计是测量的基础

1.心理统计关键在于应用适当

“心理量能不能做统计”[5],这个问题意义不大,因为答案是肯定的,全世界不知有多少人在从事这项工作。能不能是一回事,好不好是另一回事。有意义的问题应当是:“不同的心理量如何统计才是适当的?”

是的,统计经常被滥用和误用,主要原因还是应用工作者的统计知识不足。如果真正理解统计,教科书上说的有些不能的事情却是可以进行的。例如,“性别”是类别变量,属于最低级别了,不能计算平均值。但如果将“男”编码为1,“女”编码为0,对性别计算平均值,正好就是男被试所占的比例。当然,如果此时仍然将平均值按通常的变量均值理解,是错误的。又如,要计算数学成绩与性别的相关系数,许多教科书上说要按点二列相关公式计算,其实直接求数学成绩与性别(按上面的方法编码)的皮尔逊相关系数,结果和按点二列相关公式计算的相同。实际上,只有两个取值的类别变量,在0-1编码后,就可以作为等距变量进行运算了。这种变量的取值只有一个距离,自然是等距的。

对5点或以上的心理量表(或类似量表)得到的变量当作等距变量处理,是国际上包括心理学在内的社科研究的通行做法。针对这种情况,温忠麟的统计书特别指出,“在心理与教育统计中,习惯上经常将量表题目测量的数据当作尺度测量数据来分析,特别是间隔均匀的五点以上量表。”[11]12过往的实践表明,这种做法行之有效,根据统计结果发现了(或者验证了)许多集体性规律,并且在实践中得到检验。例如,1980年代中期著名教育心理学家马什(Herbert W.Marsh)在自我概念研究中得到的内外参照模型(internal/external frame of reference model)[22]、大鱼小塘效应(big-fish-little-pond effect)[23,24]等,就是将量表数据当作等距数据进行分析得到验证的,得到国际上普遍认同。

这样理解吧,一方面,像温度那样的等距变量,也不是一开始有温度测量就是等距的,而是有一个发展过程;另一方面,当人们面对“完全不同意—完全同意”那样的5级记分量表时,很多人的心目中会习惯地将其中的“1、2、3、4、5”当作是等距的分数来回应问卷(利用项目反应理论可以知道被试心目中是不是这样)。但如果面对的答案是“优、良、中、差”,人们心目中可能就难有等距的意识了,可见如何设计量表很重要。

按神经语言程序学(NLP)的一个信念来说就是,有效用(比只是强调道理)更重要[25]。所以,我们一方面要反对滥用统计;另一方面,一些行之有效、在国际上流行的做法,还是可以照跟的吧。

2.测量学的突破有赖统计学和其他学科的进步

大家知道,研究物质世界和研究精神世界是很不同的,研究自然科学和研究社会科学也很不同。所以,要求心理测量和物理测量一样精确是不现实的。没错,对心理的测量是间接的、推测式的。但绝大多数的物理测量不也是间接的吗?就说温度吧,使用水银温度计测量,测量到的是水银柱的高度,不是温度本身。从十六世纪最早的温度计出现以来,有煤油温度计、酒精温度计、水银温度计、气体温度计、电阻温度计、温差电偶温度计、辐射温度计和光测温度计等等。从中我们可以总结出:(1)测量通常不是直接的,而是根据一定的法则(如热胀冷缩原理),对事物的特征进行间接度量。(2)测量工具不是一下子就很完美,而是有赖于其他学科的发展(如电子学、光学)带来测量方法的改进。

心理测量也有相似之处。心理测量的每一次重大进展,都离不开统计的发展和其他学科(如计算机)的进步。

100年前,因子分析的发明是心理测量的重要里程碑。斯皮尔曼(Charles Spearman)率先使用的因子分析,可以说是心理学家对统计学的最大贡献。时至今日,因子分析对心理测量的影响有增无减。后来发展的验证性因子分析(更一般的是结构方程分析),对量表的设计、修订和评价有非常重要的作用,包括:(1)验证题目与因子的从属关系;(2)验证量表的维度;(3)验证量表的结构;(4)评估测验的构想效度;(5)评估测验的信度;(6)同属、等价和平行测验的检验[26,27]。可以这样说,一个人如果不会使用因子分析,很难做出一套好的心理量表。

项目反应理论(IRT)的出现,是心理测量的又一个里程碑,通过数学模型,可以将被试的潜在特质估计出来。IRT在能力测验和人才选拔等方面有重要作用。然而,如果没有概率和统计学的进步(如EM算法等的出现)和计算机的发展,IRT只能是纸上谈兵。

磁共振和脑成像技术,很可能带来心理测量的一场革命。有脑部的图像了,够“直接”吧,但那不过是脑部生理现象的反映,要想从中读出“心理”,还需要发现各种“生理—心理法则”和相关模型。更重要的是,随之而来的是巨量的数据,有待出现更强大有力的数据分析工具,以获取数据堆中的心理信息。说不定,许多心理特质就在图像里、数据堆里,等着新的方法去发掘呢。随着脑成像技术的进步和统计技术的发展,心理测量有可能变得相对直接起来。

综上所述,心理测量的发展离不开心理统计和其他学科的发展。如果说,能够带来根本意义上的心理学研究范式革命的是测量学[5],那么,能带来测量学范式革命的是测量以外的学科,包括统计学和光、电、磁技术。

无可否认,心理学工作者的根本任务是研究心理,包括解决心理测量问题。为了解决心理测量问题,心理学工作者应当具备良好的统计基础。这就好比一个木匠,他的任务是做家具,但他必须熟练掌握要用到的工具。

四、权当结语

统计学对科学的作用和贡献,应当不是心理学界讨论的事情。用社会学家一个所谓的“科学环”模型(见文献[5]),既不能说明统计对科学研究有多重要,也不能说明统计对科学研究并非必要。将统计方法和科学方法论中的方法相提并论,没有什么意义,那是不同层次的概念。那个“科学环”模型不能说明微分方程、代数学对科学研究是否必要,自然也说明不了统计对科学研究是否必要。

统计学远远不止心理学工作者理解的那一些。统计学在科学研究中诞生成长,已经成为自然科学和社会科学研究不可缺少、不可替代的一种方法。统计学在热力学、量子力学、人口学、流行病学等科学领域的作用,大概许多人都听说过吧。所以,任何否定统计在科学研究中作用的论点是站不住脚的。

数理统计工作者和心理学工作者的关系,可以比拟为铁匠和木匠的关系。铁匠制造了各种各样的工具,如斧头、锯子和刨子等,但铁匠的关注点不是在具体场合如何使用这些工具。木匠如果要做一张漂亮的桌子,不仅需要知道桌子式样和尺寸,而且要能娴熟地使用工具。木匠可以不制造工具,但使用工具那是木匠的事情。同理,心理学工作者可以不用发展统计方法(不过有不少统计方法是因为心理计量的需要而产生的),但使用心理统计那是心理学工作者的事情。好端端的NHST为什么有那么多的误解和误用,主要原因是部分心理学工作者的统计知识不够。一个心理学工作者,需要使用统计却不好好学习统计,等到要用的时候找数学系的人帮忙,就像木匠要做家具用到锯子的时候却不会用,找铁匠帮忙,行不通吧?

确实,有些心理学家不懂统计,照样可以成为一流的心理学家。但如果心理学工作者需要使用统计的话,系统的学习和训练是必要的。不少心理学工作者,只学了一些基本的统计知识,就开始应用了,出现误用的情况,正说明还应当加强统计的训练。即使是对统计很在行的人,如果要批评统计方法本身,也应当小心,以免造成类似于错批NHST的那种情况。如果说统计学有“错”,那就“错”在经常让人错了还不知道。

注释:

①据2009年9月30日《法制晚报》网站报道,全国有97万多男性叫建国。http://www.fawan.com/Article/Print.asp?ArticleID=242858

②http://en.wikipedia.org/wiki/Monty_Hall_problem

③http://www.parade.com/askmarilyn/

④希望了解埃尔德什的读者,可参阅[美]霍夫曼著、米绪军等译的《数字情种——埃尔德什传》(上海科技教育出版社,2000年版)。

标签:;  ;  ;  ;  

反复误用与不赞成的心理统计_样本容量论文
下载Doc文档

猜你喜欢