论心理学研究中统计方法的使用与解释原则,本文主要内容关键词为:原则论文,心理学研究论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]B841.2
[文献标识码]A
[文章编号]1001-9162(2004)02-0109-05
鉴于心理学期刊中一直以来对“显著性检验”应用问题的争论[1],美国心理联合会科学事务委员会(BSA of APA)设立了“统计推论特别工作组”(TFSI)来解决相关问题。其主要的工作议题包括:显著性检验及其选择、备择基础模型(alternative underlying models)与数据转换、计算机技术可能提供的新方法等。
根据美国心理学联合会出版手册(APA,1994)[2]中的统计规范及针对目前我国心理学界在统计方法方面存在的主要问题,本文旨在对统计方法的应用进行总体评价。这里需要特别指出的是,心理学是一门非常宽泛的科学,在某一范围内适用的方法不一定适用于其他范围[3]。因此,本文的讨论仅仅局限在统计方法的一般使用与解释原则方面,而不涉及具体的研究过程。
一、方法
(一)研究设计
研究者从一开始就应明确所从事的是哪种类型的研究。不要试图掩藏自己的研究本质,尤其是不要将相关研究混同于因果研究。对有多项目标的研究,切记要依照它们的先后次序予以解释。
心理学中实证研究的形式非常繁多,如:个案报告法、实验室实验法、准实验法、统计模拟法、调查法、观察法、统计分析法等等。在这中间,一些方法关乎假设的生成,即通过收集数据或加强总体假设来评估后期假设(future hypotheses);另一些关乎假设的验证,即通过对总体的随机抽样来评估一项特定的先验假设(a prior hypotheses);还有一些属于元分析(meta-analytic)研究,即通过对相关研究结果或过程的合并来评估某项特定的先验假设。
(二)总体
心理学专业的学生也许认为一个总体意味着“一个人种”或至少是“整个大学二年级学生”,他们很难分清“一类客体”与“一个统计总体”之间到底有多大差别,因为心理学研究中承载统计方法的“总体”与经验中“客体的全部”的含义并不相同。前者的获得一般有两种方式:通过统计方法来推论总体(population),或是通过逻辑的、非统计的方法来推论某—个组群(class)。每一项研究结果的解释都要依赖于可供分析的总体的特征。研究目的不同,总体的特征也会不同,它可以是一组可观察的人或是一些形容词,也可以是研究论文的集合。研究中要对总体(包括被试、刺激、其他调查对象)以及实验设计中的控制组或对照组做出明确的界定,这项工作将影响到文章中所有结论的得出。
(三)样本
一项研究应当尽力说明取样的程序及所有包含或排除(个体)的标准。如果采用了分层抽样,则需要完整的描述使用的方法和理论基础,并且还要记录每一个亚群体样本的大小。
对整群随机抽样样本和分层随机抽样样本的区间估计方法应与简单随机抽样样本的区间估计方法有所不同。目前已有相应的统计软件可以帮助我们完成这些计算。如果所采用的是一个方便样本(convenience sample)(即未进行随机抽取的样本),则需要确保取样程序一目了然。实际上,使用方便样本并不会导致研究难以发表,但研究者必需对此如实说明,否则会损害研究的客观性。一般地,通过对一系列变量的特定总体与样本特征进行比较,就可以增强方便样本的代表性。
(四)分配
1.随机分配
由于研究中通常会涉及到因果推论(casual inference),所以需要严格地确定分配单元(arrangement of unit)中原因变量(casual variable,即自变量)的水平。随机分配的设计是消除由无关假设引发的随意推论的最好办法。如果研究设计中包括随机分配,则必需充分说明随机分配的实施过程。
在心理学的许多领域一直都有利用随机分配从事研究的传统。即使是那些钟爱准实验设计的研究者们,也反复强调随机分配作为控制误差和潜伏变量的一种方法时所具有的优势。相对而言,一种比较稳妥的方法是从性能良好的计算机或是已发表的随机数字表中得到假性随机结果(pseudorandom sequence),这样做的好处在于可以从中选择—个随机数字或—个起始数字。
2.非随机分配
对于某些问题,随机分配并不可行。此时,我们需要将潜伏变量与研究结果之间的关联效应控制到最小程度(通常将这类变量称为协变量或混合变量)。研究者应努力确定并测量相关的协变量,并且在实验设计或者结果分析的过程中调整它们对实验所产生的影响。如果选择在分析过程中来调整协变量效应的话,必须阐述、测量并证明所提出的假设,同时说明减少误差源的方法,包括对被试流失、被试不合作以及缺失数据的处理等。
研究者还经常用“控制组”这样一个术语来描述以下各种情况:(a)比较组;(b)与一个或多个干扰变量(nuisance variables)相对应的配对组;(c)没有经过特殊实验处理的小组;(d)用一个或多个协变量的事后回溯检验(post hoc test)所评价的统计样本;(c)实验者承认存在误差的小组,或是期待读者能给予适当调整意见的小组。但是,以上任何一项都不足以作为控制组的充分例证。
在既不能应用随机化程序,又无法对影响实验效应的变量给予控制的情况下,我们应该以谨慎的态度对待“控制组”这个概念。较好的办法是用术语“对照组”来代替“控制组”。总之,我们应该明确说明哪些混合变量已被控制、哪些混合变量可能引发不正确推论,并检查各个不可测假设的敏感性。
二、测量
(一)变量
首先应当明确界定将要研究的变量,说明变量与研究目标之间的关系,并解释测量变量的方法与程序。变量的确定实质上是从一系列可能的结果中分配观测值的方法。例如,“性别”这个变量可以意味着将每50个观测对象分配到“男性”或“女性”水平上。定义一个变量时,我们应该呈现那些有效的观测值。如果所界定的某一特定变量的有效范围是利克特量表(Likert Scale)中的1到7,那么“9”(异常极端值)则是一种无效变量水平;当所界定的变量范围是正实数而观测范围是实测过程中被试对电击的反应时间(以毫秒计算)时,“3000”就不是—个非法值了。
对变量的命名与测量变量同等重要。变量的命名要能反映它的测量过程。在这方面,用“智力测验分数”体现智力水平、用“儿童性虐待的自我内省报告”体现儿童的性虐待就是很好的例证。缺乏对变量的准确解释,以及在此基础上建构的理论,只能是“蹩脚”地抵制经验扭曲的做法;精确并不是要求我们变成“操作主义者”,而是要求我们尽量避免过度概括化。而且,每一位研究人员都应避免在论文中不断更换变量的名称或解释、无法澄清反面证据或使用未经学术界承认的测量手段,并谨防在一个体系中以两种或更多的方式向同一种变量赋予特定的观测值。
(二)工具
如果在研究中是通过量表搜集数据,则需要描述量表运用于总体的特殊方式在心理测量上的特征。“心理测量特征”包括测量的效度、信度及其他许多影响研究推论的指标。如果研究中还使用了仪器,则应为其他研究者重复相同研究过程提供足够的信息(如仪器商标、型号、设计说明等等)。
测量是否可靠,对于一项研究来说至关重要。“信度是测验指向于特定被试人群的一种特性”[5]。因此,即便是在研究本身与心理测量的情况下,研究者也应为数据分析提供必要的信度系数。除了表明测量工具的可靠程度之外,还需说明它与其他的工具之间不存在高相关,即它能测到它应该测到的东西,而对不应该测到的东西则无能为力。
(三)程序
程序中要说明被试缺失的一切原因,包括他们不配合、中途退出、死亡或其他原因等;同时要解释被试缺失将会如何影响研究结果的概括性;还应详细描述使用测量手段的条件(如测验的形式、时间、地点、数据收集人员的情况等),说明处理“实验者偏见”的方法,尤其是在实验者本人亲自收集数据的情况下所作的特殊处理等。
(四)统计功效(power)与样本量
研究者需要提供与样本的大小及选取这一样本数量有关的信息,并说明效应区间(effect size)、取样、测量假设及在统计功效计算中所使用的分析程序。
通过长期努力[6],心理学家开始意识到统计功效重要性。实践理性要求研究者对自己所从事的领域内已有的研究和理论进行认真回顾与整合,此举将使研究者在置疑既定研究的挑战中、在义不容辞的冒险中受益匪浅。如果不将自己的探索掩盖在假设演绎的华丽语言下的话,研究工作将会产生建设性的影响。
已有可靠的计算机程序来计算各种实验设计与分布的效应区间,研究者可用它处理某一全矩范围内的α值或是统计效力的效应区间。这样做的目的有两个:其一,了解统计效力在这一范围内是如何变化的;其二,防止将某种单一的效力评估看作是绝对的、决定性的标准。
三、结果
在报告研究结果之前,应对收集数据过程中出现的新问题、原始记录的破坏及其他未曾预料的事件予以说明,包括缺失值、被试的消耗等情况,并介绍拟以改善这些问题的分析技术;通过对实验中缺失数据和污染情况的记录模式及分布来描述其在统计上的非典型性(nonrepresentativeness),并解释新问题出现前后所使用的分析方法有什么不同;分析技术的运用应确保所报告的结果不是来自于异常数据(如天花板效应、非随机化缺失值、遴选偏见、消耗问题等),而应是研究中分析过程的一项规范性操作。
在统计分析之前,要仔细观察所收集的数据。筛选数据并不是为了迎合假设而放弃或改换某些数据。其中,图解检验(graphical inspection)是检测数据完善性的好帮手,因为它是图表的宽泛性与统计方法集中性的完美结合。实际上,那些为了及时避免卷入‘欺骗性’图式的大型研究都是运用实时图表(real-time graphic)来呈现统计结果及其推论基线。从以下的例子中即可说明这样做的原因:
图1是根据对3000名咨询来访者的调查数据做出的散点图矩阵(SPLOM),对角线部分是每个变量的点图(由点组成的直方图)和它所使用的尺度。问卷包括三个变量:
被试的年龄(AGE)、性别(SEX)和维护目前关系的时间(TOGETHER)。该图并不是用来描述研究的最终结果,而是完成在统计分析之前处理错误数据或异常数据的工作。
在这个图表中有几处不规范的地方。其一,在AGE变量的直方图中可以看到右端有一个高峰,它是与数据中的“99”相对应的。这个值很可能是错误的,因为3000名被试中很少有人会是99岁或者更年长;其二,SEX变量的直方图中,对“男”、“女”的两个赋值不明显;其三,TOGETHER变量的直方图呈极端偏态,其中低谷可以说明“没有关系”。最值得注意的是由AGE与TOGETHER组成的“三角联合分布”(triangular joint distribution),TJD通常所代表的某种含义或关系,而不是误差的线性函数。在本例中,它存在的意义是说明“维护关系的时间跨度不应超过一个人的年龄”,但封闭式测验的结果表明这里出现了漏洞。研究人员发现,一些被试(TOGETHER与AGE的三角区左上方的那一部分调查对象)的回答表明:他们之间维护某种关系的时间比他们活的时间还要长!如果没有检查原始数据就开始套用某种格式进行统计分析,就无法发现这些记录上的错误。
图1 散点图矩阵
M=男性;F=女性
然而,图表也不是万能的,数据缺失会导致某些特殊问题。目前,研究者们经常采用基础统计软件包中的方法处理缺失数据。
四、分析
(一)选择最恰当的分析方法
不计其数的现代定量方法留给研究者们的重要工作是将研究的问题与具体的分析及实验设计方式相匹配。尽管有时复杂的实验设计和流行的方法是有效描述研究问题所必要的,但那些简单的、基本的方法通常也能很好的回答某些重要的问题。如果某种简单方法的假设对于所研究的问题和数据是合情合理的,那么我们就应该选择它。简化律(Occam's razor)既适用于理论,也适用于方法。
我们应该接受Fisher(1935)[7]的建议:“实验者应该记住:就处理的材料类型而言,你们和你们的助手总要比没有实际经验的著书者们更清楚一些。越是复杂、越不容易理解的实验,无论如何也不会好于足以证明研究价值即可的实验。”
运用目前流行的方法并没有错,只要研究者与读者明白这些方法如何应用以及起什么作用就可以了;另一方面,不要拘泥于传统方法而拒绝使用新方法。就像Fisher所说:观点在先,方法居后。
(二)计算机程序
目前已有很多优秀的计算机程序可用来分析数据。然而,比选择某种统计包更为重要的是要证明研究的结果,明白它们意味着什么、知道它们是怎样计算出来的。不要记录不能理解其计算过程或含义的结果,也不要记录超出数据所支持的准确性的结果。计算机可以帮助我们控制实验设计和分析方法,但更要紧的是要选择其中恰当的一种,千万不要让计算机支配你的思想。
在单凭经验无法判断计算结果是否有用时,应重新检查所使用的方法是否真的合适。在某种程度上,图表和理论可以帮助研究者做出决定,但这决不是说,某种受人欢迎的程序就可以免除判断“结果合理性”的责任。还有一点要注意:在最后证实所用的统计方法时应参阅统计学的文献,而在证实所用的程序时应参阅计算机操作指南。
(三)假设
研究者应为研究的基本假设提供合理的数据分析。需要注意的是,在判断模型的适合性方面,统计检验存在几个缺点。首先,简单统计(如变异的同质性检验)基础上的显著性检验的敏感性常常不真实,一般容易得出“差异显著”这样的统计检验结果。其次,峰态、偏态等统计指数无法检测残差中分布的不规则性。再次,统计检验容易受到样本容量的影响,随着样本量的增大,检验结果往往会拒绝原本接受了的假设。所以,没有什么可以替代对假设的详细分析。
现代统计软件包能帮助研究者了解到数据与模型的吻合程度。大家都非常熟悉线性回归模型的残差图,但很少有人注意到Tukey的范式方程(paradigmatic equation):数据=适合性+残差,它可以应用于各种模式类型且对假设分析具有广泛的含义。树形图(stem-and-leaf Plots)、盒图(box plots)、直方图(histograms)、点图(dot plots)、水平图(spread/level plots)、概率图(probability plots)、光谱图(spectral plots)、自相关与跨相关图表(autocorrelation and cross-correlation plots)及格子图等在残差分析过程中的不同阶段发挥着各自的作用,并可运用于方差分析、非线性模型分析、因素分析、潜变量分析、多向量表法、层次线性模型等统计方法中[8]。
在许多情况下,研究者需要对多重结果做出特殊的处理,即“多重性”问题。此时,可以用很多方法为多重性提供合理的推理,如p值的Bonferroni矫正、多重统计检验、经验的贝叶斯方法等。研究者的任务则是要解释并证明这些方法的运用过程。
在心理学的许多研究领域中,如果无法解决“多重性”问题,研究也就无从继续。心理学家解决“多重性问题”的常用办法是,在方差分析的基础上再进行多重比较检验。实际上,这样做是不正确的,原因有以下几个方面:第一,配对(pairwise)法(如Tukey的显著性差异检验)是用来控制基于样本量和比较次数之上的熟悉误差率(familywise error rate),而在此之前的F检验却破坏了原有的测验程序而不能给予正确的讨论;第二,研究者没有必要在比较所有的方法之后才对研究结果做出解释或评价;第三,所有配对组成的格子图是“—件囚衣”,它将研究者引诱到那些并不重要甚至并不存在的假设,从而束缚他们对潜在效应的觉察。抵制这种“诱惑”的办法之一,就是要求研究者避免使用高级概念,而尽可能地以一级概念的联合作为构建理论的基础。
在矩阵中变量的相关值旁边要附上p值和“*”号。方法论学家一再呼吁要用Bonferroni或其他方式矫正p值。研究者应注意对以下情况做出解释:
(1)所有的结果都显著。出现这种情况时,请以专门的脚注予以说明。
(2)没有任何结果显著时,也需用脚注说明。应该记住,这样的情况不会减少某种组合或相关子集“显著”的可能性,对整个测验中零假设的解释应排除其他被拒绝的潜在零假设。
(3)相关子集显著时,附加“*”号标明这一子集。显著性检验是一项便于模型识别的最重要的技术。如果在描述结果时进行了显著性检验,那么就可以直接构建和评价模型。但同时,研究者需为此提供合理的解释。
“全可能配对”(all possible pairs)有时也称为“全可能组合”(all possible combinations)。这样的术语常出现在包含所有主效应和交互作用的高阶因素方差分析中。然而,无论如何也不能越过多重性问题就简单的在五因素元方差分析的显著性效应上方加上“*”号,因为对于一个适用于随机数据组成的大样本的五因素设计来说,有80%的可能至少有一个显著效应处于F检验的临界水平。
同时,研究者们需要谨慎对待非随机化设计中因果关系的推论,解释设计中协变量背后的逻辑规则及支持研究结果的合理假设是一项很重要的任务。即使是在随机化实验中,也应配合附加实验对某种处理条件下的因果效应予以说明。
人们普遍接受的是社会科学、生物医学科学领域运用“潜在结果”(potential outcomes:即指一种处理条件下有一种结果)对因果效应评估所做的阐述。尽管这种观点始于传统的统计思想,但包括Fisher和Neyman在完全随机化实验中利用随机化推理分析数据在内,都被称作是具有代表性的RCM(Rubins因果模型)[9]。目前,这种方法因其“工具性变量”(instrumental variables)和“多段模型(同时性方程)”(multistage model or simultaneous equations)等特性而成为衡量研究质量的相对标准。
有人认为,可以将因果关系推理问题看作是一种缺失数据。Rubin(1976)[10]对此曾作出这样的解释:“这一缺失数据可以是未处理条件下潜在结果的值,也可以是接受处理条件下包括潜在结果值在内的观测数据。”在单一水平上,因果效应可被解释为:“两种不同处理下潜在结果的比较,而只有其中—个可以观测到。”RCM的本质就在于以特有的方式阐述因果关系问题,并运用严格的统计方法做出因果推论。
因果关系的临界假设(critical assumption)因其包含有“缺失数据”而往往被排除在对第一手资料的检验之外。因此,对非随机化数据做出因果推论时,应依据其客观特性(如何进行不同的实验处理)而不是“非相关误差项”等技术上的特性,对原假设所支持的任何因果关系应给予谨慎且明晰的说明。
(四)表格和图表
表格常用来描述具体的值,而好的图表更能体现数据的精确性。为了满足每个读者对研究过程中不同阶段的不同要求,研究者需要提供表和图,而且最好是两者同时呈现。但应注意图表要尽可能的简单,并对置信区间附有图解说明。
Bailar和Mosteller(1988)[11]就发表文章时如何做好表格提出了很好的建议,如:用边界的均数来划分行和列、在显著值上标上记号、尽量避免小数等等。心理学论文中存在—个普遍的问题:对主要信息缺乏图解说明(主要信息一般指数据的形态或分布),这往往会妨碍对研究的科学性评估。Clebeland(1995)[12]提出了专门的方法来解决这类问题。下例表中所呈现的就是常用的两种图解格式:
图2 回归图
GRE=毕业成绩;GPA=年级平均分数点;PhD and No PhD=获得与未获得博士学位;Y=是,N=否
图3 组间图
GRE=毕业成绩,GPA=年级平均分数点
图2中的数据来自于1969至1978年间对Midwestern大学心理系的80名研究生所做的调查。变量分别为:被试在GRE考试中高级心理学测验上的得分(GRE)、大学时的学习成绩(GPA)、是否获得博士学位(phD)。图2(a)是心理学期刊的文章中常用的一种格式:共有两条回归线,其中一条来自于学生各个群体。从这个图中我们可以得到四个数字:两条回归线的斜率及截距。图2(b)是关于每一个phD群体的散点图(Cleveland,Devlin,1988)。位于图形上方的较为光滑的曲线回归(curvilinear regression,又称为LOESS)是现代统计软件中一种值得信赖的计算结果。除此之外,还可以看到各种关系之间的曲率,但在计算含有线性及二次项模型的GPA时,图2(a)无法呈现phD和非phD之间的交互作用。相比之下,我们可以从图2(b)中得到很多的信息:(1)GPA低于4.0而GRE得分为800的学生人数;(2)GPA低于4.0而GRE得分而GRE得分同样很低的学生人数(上两者都未获得博士学位);(3)GRE得分最低但得到博士学位的学生人数,等等。我们也可以用图2(a)中的形式来描述这些数据集,但图2(b)中这些数据集的位置和分布可以告诉我们更多的信息。
图3(a)中的是另一种图表格式。研究者常用这种格式来呈现t检验或方差分析的结果。对于因素的方差分析来说,这样的格式可以帮助作者使用标有不同记号的线来说明交互作用。在许多实验室取向的心理学期刊上(如动物行为研究、神经科学等),作者还经常在图表的均数旁边加上误差栏一项内容。
图3(b)在线图的基础上增加了点图用来描述总体及两组在95%的均数置信区间(t分布),PhD群组的GRE得分成正偏态(left skewness)。尽管这一正偏态不足以影响统计结论,但还是值得把它记录下来,因为它可能是由于“天花板效应”或其他因素所致。
除此之外,还有其他描述数据的图表格式可供选用,如盒图,树形图以及核心密度评估等等。
五、讨论
解释研究结果时应考虑到其“可信性”、“概括能力”和“力度”,即:(1)对于先前特定的理论和研究来说,当前的研究结果是否可靠?(2)研究设计及分析的特征,如样本性质、本研究设计与先前设计的相似性、本研究结果与先前研究结果的相似性等是否具有“概括能力”?(3)本研究所采用的设计和分析方法是否足以支持研究的结论?
值得注意的是,“过分概括化”和“过分具体化”都会引导研究者犯错误。如果有充分的理由支撑研究结果的实用性,就应当大胆地将它推广到更为普遍的群体当中去,并在讨论部分陈述理由。这将有助于研究者们找到未来研究的方向。
六、结论
思辨,对于论文来说是必需的,但注意不要滥用。在研究的末尾,应当诚恳地指出研究的不足或缺陷。应该承认,任何研究对其要解决的问题来说都会有一定的局限,以及需要在后期研究中予以避免的缺陷。应在仔细查阅过去研究结果的基础上提出未来要努力的方向。不要轻易就说出“本研究填补了相关研究领域的空白”之类的话,因为我们都知道,任何一项研究对于科学的贡献都是不可缺少的,但它能起到的最大作用是为某一领域的研究文献增砖添瓦,仅此而已。
标签:心理学论文; 相关性分析论文; 描述统计论文; 样本容量论文; 控制变量论文; 过程控制论文; 图表工具论文; 解释变量论文;