方差分析效果大小报告的新指标 *
刘铁川 王闪闪 桂雅立
(赣南师范大学教育科学学院,赣州 341000)
摘 要: 心理学期刊论文中可重复性不高的现象,原因之一是研究结果的效果普遍较小。并且在报告效果大小的文章中,效果大小指标使用不当。在方差分析中最经常报告的是η 2和但是在不同的研究设计中,这些效果大小是无法直接进行比较的。广义eta方是近年来新出现的一种新的效果大小指标,可克服的η 2和不足,灵活处理重复测量等多种研究设计下个体差异的计算问题,实现跨研究设计效果大小的可比性。论文结合实例介绍了的原理和计算方法,并对其优缺点、使用和报告等问题进行了讨论。研究人员在报告效果大小时要考虑到不同的研究设计和研究假设,并选择恰当的指标防止过高估计效果大小。
关键词: 效果大小;广义eta方;方差分析
1 引言
近年来,可重复性(replicability)或重现性(reproducibility)在心理学相关领域引起了广泛重视(Francis,2013)。研究的可重复性指不同的研究机构能够客观独立的重复实验,得到与原始结论相同或相似结论的研究。近年来心理学界此类学术不端的行为引发了相关研究者对可重复性问题的重视。如2010年心理学领域的Marc Hauser被指控伪造数据,2011年Daryl Bem被指控选择性筛选数据以及Diederik Stapel的学术造假事件等(Levelt,Noort,& Drenth,2012)。2015年,开放科学协作组(Open Science Collaboration)从2008年发表在Psychological Science、Journal of Personality and Social Psychology和Journal of Experimental Psychology:Learning,Memory,and Cognition三个杂志的448篇文章中选取了符合条件且能够在项目期间完成的158篇,对其中的111篇(70%)进行113项重复研究(其中有2篇各包括两个研究),最后完成了100(88%)项重复研究,使用p值、效果大小以及元分析进行评估,原始研究中97%的结果是显著的(p <0.05),但重复研究中只有36%的结果是显著的,主观评定为重复了原始结果的研究仅为39%(Open Science Collaboration,2015)。
因此,在心理学期刊领域已发表的文章中部分文章结果的可重复性仍存在质疑。Baker(2016)调查了1576位研究人员,其中超过70%的研究人员尝试但未能重复另一位科学家的实验,还有超过半数的人未能重现他们本人做过的实验。同时为使论文更易发表,有的研究者甚至选择性地报告研究结果,这也是研究可重复性不高的重要因素。一项研究结果发现,大约40%的研究未能完整报告所有实验条件,约70%的研究选择性地报告问卷中的结果变量,报告出来的效果大小是未报告效果大小的两倍,具有统计学显著性的结果是不具有显著性结果的约3倍,即相比于报告的效果大小,未报告出来的效果大小较小,结果可能不具有统计学意义(Franco,Malhotra,& Simonovits,2015)。
对统计推断的误用或误解是导致可重复性低的另一原因。当检验数据与研究假设是否一致时,误差难以避免,但应尽量避免对零假设的错误拒绝,即假阳性。Simmons,Nelson和Simonsohn(2011)揭示了心理学研究假阳性过高的现象,其提出的解决方案是加强对作者和对审稿人的要求。John,Loewenstein和Prelec(2012)认为可疑操作(Questionable Research Practices,QRPs)是导致心理学研究结果假阳性过高的原因,例如根据显著性检验结果选择性地终止数据采集、选择性报告显著性结果、四舍五入p 值以达到统计显著、查看结果后决定是否剔除数据、伪造数据达到统计显著等。为了避免某些情况下将p 值表示的统计显著性代替研究实际显著的混淆状况,国外一些学者起先提出了报告效果大小(effect size)(Kirk,1996)来弥补p值对统计结果解释的不足;也有学者提出使用置信区间来表示心理学实验的可重复性,区间宽度越小,实验的可重复性越好(Cumming & Fidler,2009;Miller,2010);国内也有学者对此进行了分析和解读,聂丹丹等(2016)提出了报告统计结果时尽可能地报告效果大小和置信区间来提高结果的可重复性。
方差分析是心理学研究中常用的统计方法。本文的主要目的是对方差分析中最常用的效果大小指标的可比性问题进行讨论,结合实例介绍近年来新提出的一种新的效果大小指标——广义eta方,并对其优缺点、使用报告等问题进行了分析讨论。
2 国内外广义eta方的研究现状
从1994年开始,美国心理协会(American Psychological Association,APA)建议在主要结果部分报告效果大小(APA,1994);此后,APA多次重申并规范对效果大小的报告;另外,杂志编辑和学术协会也提出应报告效果大小。美国教育研究协会(AERA)指出当报告统计结果时,应包括“变量之间的量化关系的指标(即效果大小)”和“该效果指标的不确定性的说明”,例如置信区间(Green,Hedges,& Levine,2006)。美国国家教育统计中心(NCES)统计标准规定,当统计结果具有统计学意义时,应考虑对效果大小的实质性解释,观察到的差异可以转化为效果大小,以便解释差异大小(NCES,2003)。随着美国心理协会(APA)对效果大小的报告要求力度日益增加(APA,2001,2010),心理学及相关学科学术期刊也明确要求报告效果大小。例如,Educational and Psychological Measurement杂志要求“对具有统计意义的结果需要报告和解释效果大小”(Thompson,1994);Journal of Applied Psychology杂志指出,如果作者没有报告效果大小以及显著性检验的结果,(编辑)将要求作者提供不报告效果大小的具体理由(Murphy & Kevin,1997)。同样,Journal of Consulting and Clinical Psychology杂志指出,“报告统计学意义、效果大小以及临床意义时,增强了对心理治疗效果的评价”(Kendall,1997)。从2014年1月起,Psychological Science杂志建议使用“新统计量”(效果大小,置信区间和元分析)以克服虚无假设检验的局限(Cumming,2014)。
μ j 是因素的第j 水平的均值,μ 是总均值是由于测量因素(如性别)、测量因素与其他因素的交互作用以及协变量引起的方差分量之和。需要指出的是,如果是测量因素的主效应,或者是测量因素与其他因素的交互作用的一个方差分量时,已经包含在中,设置δ =0只是为了避免将其计算分母内两次。另一方面,如果是操作因素的主效应,或者仅仅是操作因素之间的交互作用的一个方差分量时,则没有包含在中,设置δ =1将其加入分母内计算,因为操作因素增加了数据的方差。
近年来,国内一些学者也逐渐认识到了效果大小的重要性。权朝鲁(2003)较早介绍了效果大小的意义和几个常见效果大小指标的测定方法。胡竹菁和戴海琦(2011)对单因素方差分析和多因素方差分析中不同效果大小指标做了进一步的比较和分析。郑昊敏、温忠麟和吴艳(2011)分析了在不同研究设计或不同数据条件下效果大小的选用和计算。效果大小在量化方面弥补了虚无假设检验的不足,因此,国内几个主流心理学期刊也开始要求投稿论文报告效果大小。
2.1 方差分析效果大小的常见指标
张全文话不多,心却很亮。凡是涉及到原则性的问题,他就会变得很严肃。张伦小学时,羡慕大人们抽烟时的潇洒,会和朋友凑钱买两毛五一包的小春城抽。“我那次被抓是和一个堂哥一起抽。我们一起找了些烟,躲到包谷地里面抽,结果还是被我隔壁家的一个哥哥发现了。”张全文知道后,叫来了家里的至亲。“我们两个被抓去堂屋里,全家人——我大爹、二大爹、三大爹、四大爹,一个个就开始和我讲道理,公审一样。”
研究人员通过报告效果大小和统计显著性检验以更好地呈现研究结果。效果大小是一个标准化的指标和估计参数,量化总体之间的差异大小以及自变量和因变量之间的关系强度,且其值不依赖样本量。
效果大小种类很多,一般将其分为平均差异和关系强度两类指标。基于标准化平均差异,常见的指标有Cohen的d ,Hedges的g 以及 Glass的Δ ;当有两个以上水平的自变量或者是连续变量时,效果大小通常描述的是每个变量所占的方差比例,包括和和以及相关回归分析中常用的指标,比如r 2,R 2和除此之外还有一些不太常见的指标,比如ε 2、f 2、φ 和Crame的V 等,限于篇幅,这里不作展开介绍(D.J.Cohen,1988;Glass,1976;Hedges,1981)。
实验室环境下,无线传感器节点连接轴端速度传感器与加速度传感器,采集整车振动试验台在40 km/h运行状态下的速度信号和车体加速度信号。加速度传感器量程为+2 gn~-2 gn,灵敏度为967.5 mV/gn。硬件连接与网络参数设置完成后,运行上位机软件,设置数据保存路径,点击网络连接与开始采集按钮,系统工作界面如图8所示,成功实现速度信号与加速度信号的采集与显示,网口数据传输速率达到2 Mbit/s,远超传统RS232串口传输速率,并且采集过程中工作稳定可靠,数据干扰小,与试验台有线传输仪器的测试结果基本一致,误差较小,证明了系统的可行性。
在方差分析结果中报告最多的是η 2和在单因素方差分析中他们的值是相同的。如,在一个被试间设计中,
上式中,SS Effect 是待分析因素的平方和,SS Total 是总平方和。由于不同研究设计下的总方差也存在差异,所以η 2并不适合跨研究结果的比较。在更复杂的设计中,有不止一个因素,这时,可以识别每一个因素的效果大小,
板式换热器是一种将压制有波纹的薄金属换热板片叠装而成的换热设备,具有传热系数高、结构紧凑、污垢系数低、便于维护和清洁等优点。板式换热器是通过板片间所形成小流通断面流道实现冷热流体间的热量交换。工业生产过程评价板式换热器优良的一个重要指标是板式换热器的换热性能。
上式中,SS Error 是待分析因素对应的误差平方和。
避免了η 2不同研究设计下总方差不同的问题。对于被试内设计,计算时的分母中的误差项中去除了个体差异,提高了统计功效,这是研究设计的优点之一。然而在计算时,同一自变量在被试内和被试间不同研究设计下,对应的误差项不同,使其在跨被试间和被试内设计中不能直接比较作为η 2和的替代方案,适用于至少有一个分类独立变量的设计,使得效果大小在不同的设计间可以比较,用于调查来自同一个总体,但是使用不同的分组因素、协变量或附加因素的一个因素或因素间的交互作用。
2.2 广义eta方的提出和使用
的计算数据的变异来源于研究中的操作因素和个体差异(Individual differences)。个体差异是由于被试稳定、暂时的特性以及实验设置中的不可控特性造成的。例如体重训练方案对力量增长的有效性研究中,性别、身体类型和先前活动水平的个体差异,动机水平和个人暂时健康状况的暂时性特征,以及设备质量或仪器校准等实验设置的差异,都是同一体重训练计划中个人得分差异的来源。要得到一个在各种研究设计中可比较的效果大小指标,效果大小参数要能够识别和调整操作因素的数量和类型,以及个体差异来源或控制程度上的差异。Olejnik和Algina(2003)提出的广义eta方是一个一般化形式的效果大小指标,可实现上述目的,克服η 2和的不足,用于包含一个或多个测量因素(即个体差异,可归因于被试稳定或短暂特征,例如个体的性别或动机状态。)或操作因素(由研究者创建)的设计。定义式如下:
如果待分析因素只包含操作因素,那么,δ =1;如果待分析因素包含一个或多个测量因素及其交互作用,如性别、性别×测量因素,那么δ =0。参数定义为待分析因素的方差。比如J 水平的单因素被试间设计,
肺炎球菌分很多种亚型,7价就是指7个亚型,各地区各季节流行的菌种不同,疫苗选中的亚型能覆盖60~90%的肺炎球菌,对于未选中的亚型是没有预防能力的。
在施工过程中,通常会使用多种不同类型的临时施工构件,并需要通过Revit软件模拟施工,根据钢梁的实际分段情况将其分为不同的组别,支架使用长度和宽度均为1.0m的钻孔桩为基础,承重的立柱选择直径为600mm的钢管,2个横向钢管之间的分配梁均使用I56工字钢。安装拱柱时,应提前在钢箱拱的上端布置相应的支架,并在桥梁地面处设置长宽高分别为5m、6.5m、0.7m的支架。
与的计算不同,对于包含重复测量的设计,计算时,不只被试方差,所有的被试 重复测量因素的交互作用(或误差均方)也包括在分母中。被试间因素A的公式如下:
其中,分母是总方差。
但是这个例子并不意味着分母总是包含总方差。现在假设被试根据性别进行分组,分组后是两因素被试间设计,效果大小变为
这里,为单元内误差或残差,不包括所有由个体差异引起的误差因为性别效应以及性别与因素D 交互作用反映了个体差异的变化。可以看出,除了一项,上面两个公式的分母是相同的。所以,尽管两个例子中两个设计是不同的,但定义的效果大小是可比的。
2.2.1 广义eta方的计算和使用条件
在不同设计间可比较的效果大小的公式如下:
上式中,SS Effect 是待分析因素的均方;SS Measured 为测量因素的均方(比如分组因素或者分组×操作因素的交互作用,不包括被试),是这一类效果的总和。SS κ 为所有被试或者协变量的均方,是这种变异来源的总和。
与之间的不同体现在分母上,η 2分母中包含所有的方差,和分母中包含了其中的一部分方差。通常,分母中包含的方差比更多。如重复测量设计中,因为包括被试或被试与测量因素的交互作用,所以的分母更大,其值一般小于
重复测量方差分析是心理学研究中常用的统计方法。由于重复测量的变量几乎都是操作因素,所以单因素重复测量设计下的计算比较简单。设计重复测量因素为P,此时与的主要区别是的计算将个体差异平方和SS s 纳入了分母(见表1)。
在多因素完全随机设计中,操作因素的就等于如,一个两因素设计,A 是操作因素,b 是测量因素(使用小写字母代表测量因素,比如性别)。如果待分析因素是A ,那么SS Effect =SS A ,δ =1。
如果感兴趣的是测量因素b ,SS Effect =SS b ,δ =0。
类似地,重复测量因素P的公式如下:
a 和b 交互作用的就能通过SS ab /SS T 计算。
阮列敏补充道,“目前,我们已经派遣了两位医生前往英国进修,还有两位全科医生前往交流;他们也派遣了四五位医生到宁波调研,将来会合作完成一份中国全科医生培训模式的报告”。
2.2.2 重复测量方差分析中的广义eta方
在完全随机设计(Completely Randomized Design)中,所有的因素都是操作因素,对于所有的效应,δ =1,并且,
在混合设计中,被试间变量可能是操作因素或测量因素中任一种。例如,在两因素混合设计中,一个重复测量因素(P),一个被试间因素(A),被试嵌套在因素A水平之内(s/A),如果被试间因素是操作因素,那么,SS Effect =SS A ,δ =1,
以下用实例来阐述效果大小参数起作用的方式,及在不同研究设计中估计参数意义。假设在单因素被试间设计中考察四种记忆方法(因素D)对回忆成绩的影响。效果大小即,
印象里我早下课机会多些,饥肠辘辘一溜小跑凑到摊子前选好串儿,付好钱,看着老板娘用双长长的竹筷熟练地在油锅里给串儿翻面,然后捞出来扯一段纸巾包裹着竹扦下半段以防手上蹭了油,浸好调料,递到我手中。我两手翘着兰花指各捏着一份冒着热气的炸串儿笑着和老板娘说谢谢,再饿也忍住不吃,非要跑去和朋友约好的老地方等两人碰了头一起开动。
当两个因素a和b都是测量因素时,
表1给出了AP设计下交互作用及其他设计下部分效应的公式。随着纳入研究变量数量的增加,计算公式也变得更加复杂,Bakeman(2005)以及Olejnik和Algina(2003)提供了其他效应以及更复杂的三因素设计下的计算方法。尽管这些公式在形式上比较复杂,但根据SPSS等统计软件的方差分析结果都可以计算得到也可使用R语言中的ez包(Lawrence,2011),完成方差分析的同时直接计算得到
表 1 A 、 P 、 AP 、 aP 和 PQ 设计下的
注:“A ”和“a ”分别代表被试间操作因素和测量因素;“P ”和“Q ”代表被试内因素,其与被试分组的个体差异因素无关,故不会出现小写字母。在被试内设计中,被试因素的交互作用作为误差项,不是操作因素,故使用小写字母“s ”代表被试因素。
3重复测量方差分析中广义 eta方应用的一个实例
当研究包括重复测量因素时,由于的分母包含了被试方差以及所有被试与重复测量因素的交互作用,所以得出的比更小。比如,两因素重复测量设计中(PQ设计),P效应的的分母是的分母是SS P +SS s +SSPs +SS Qs +SS PQs (即SS T -SS Q -SS PQ )。正如Olejnik 和Algina(2003)指出,忽视了个体差异的其他来源,使它在被试间设计和被试内设计的研究中不可以直接比较相同变量的效果大小。
下面使用一个实例具体说明的计算(舒华,1994,p93)。研究目的是检验生字密度(重复测量因素,记作P )、主题熟悉性(被试间因素,记作a )对阅读的影响,为aP 设计。经SPSS输出结果整理为如下方差分析表(表2)。
表 2计算实例方差分析表
SPSS计算的被试间的a 和a /s 的平方和分别是80.667和30.500;被试内P 、Pa 和Ps /a 的平方和分别是81.083、56.583和3。所以,主题熟悉性(a )的生字密度(P )的交互作用的正如我们预期的,小于生字密度和交互作用的几乎是的三倍。
从计算过程中,能够看出,在主题熟悉性(a )中,没有考虑到重复测量因素即生字密度(P )及其与主题熟悉性(a )的交互作用SS Pa +SS Ps/a ,所以得到的值大于在重复测量因素生字密度(P )中,没有考虑到主题熟悉性(a )、其被试因素及其与生字密度(P )的交互作用SS a +SS s/a +SS Pa ,所以得到的值大于和差异的大小取决于测量因素以及测量因素和操作因素的交互作用的方差使分母增加的程度。
近年来,虽然高等教育投入在逐年增长,但有些高校仍旧持续面临办学经费紧缺的窘境,诸多教学问题难以得到显著优化,其中实践教学问题尤为突出。部分高校虽然开始逐步优化实践教学,尝试应用“理实一体化”教学模式,但是应用经验不足,难以在短时间内显著提升实践教学质量[1]。因此,基于多元智能理论探究高校实践教学困境与出路,是加快优化高校实践教学、提升综合型人才培养质量的重要选择。
4 讨论和总结
在报告方差分析的效果大小中,的应用率并不高,在国内则更少。方差分析报告最多的效果大小是可能与心理学研究中使用SPSS 较多有关的优势在于提供了跨研究比较的可能性,对于心理学研究结果的累积是有价值的。此外本文还有一些关于的使用条件需要完善。首先,还没有文章提出针对的解释标准。Cohen(1988)提出的针对η 2的标准,即定义η 2(与Cohen的f 2)0.02为小效应,0.13为中等效应,0.26为大效应。尽管Cohen没有考虑重复测量设计,这一标准对似乎也是合适的。事实上,理想的标准应来自研究的问题,根据变量的实际影响或作用来判断其效果的大小,而不是参考固定的某种标准。
2.3 US-G FNAC与术后病理结果比较 US-G FNAC诊断阳性50例(恶性结节30例+可疑恶性20例),阴性126例(良性108例+涂片不满意18例),准确度、灵敏度、特异度、假阳性率和假阴性率依次为93.2%(164/176)、89.6%(43/48)、94.5%(121/128)、5.5%(7/128)和10.4%(5/48),见表2、3。
周岱翰强调,饮食要均衡。一年到头,他雷打不动要吃的“宝贝”,是最平常不过的苹果,每天1~2个。有人问他:“苹果就那么好吃吗,吃多了不厌烦吗?”“苹果如果不好吃,就当药吃嘛!”他说。
其次,的使用也是有局限性的,并不能解决所有的可比性问题。无法控制实验设置特性的变化或者抽样于不同的总体都会影响到的设计。例如,在前例记忆方法的研究中,第一种情况下,A组实验在早上进行,B组被试自行选择在早上、中午或者晚上,在B组中时间是没法记录的,如果存在一天的时间效应,那么尽管在两个研究中,是一样的,但是效果大小是不一样的。第二种情况下,假如C组被试年龄在60岁~75岁之间,D组被试年龄范围不受控制。虽然两组中是一样的,但是C组中更小了。正如Olejnik和Algina(2003)所说,当样本来自不同的总体时,效果大小是不可比的无法解决此类可比性问题。
连续配筋混凝土刚性基层沥青面层复合式路面结构的设计与施工………………………………………………………… 王莉(6-103)
第三,的置信区间难以得到。报告统计结果时,除了点估计外,应可能提供置信区间作为一个较新的效果大小指标,常见的统计软件并不提供,虽然通过方差分析表容易计算其值,但其置信区间却不易得到,使得研究者难以评价估计结果的可靠性。
对于一些简单的设计,和η 2没有差别。对于单因素被试间方差分析,不管是操作因素还是测量因素(A 或a ),都和的值是一样的。对于操作因素的被试间设计(AB 、ABC 等),和是相同的,但是如果包含被试间测量因素,那么小于同样,对于单因素(P )的重复测量方差分析,和η 2是相同的,但是对于其他被试内设计或者混合设计,小于
总之,研究者在报告一个或多个重复测量方差分析的结果时,建议报告由于其易于计算,且不管是被试间设计还是被试内设计,的值是可比较的。
参考文献
胡竹菁,戴海琦.(2011).方差分析的统计检验力和效果大小的常用方法比较.心理学探新 ,31 (3),254-259.
聂丹丹,王浩,罗蓉.(2016).可重复性:心理学研究不可忽视的实践.中国临床心理学杂志 ,24 (4),618-622.
权朝鲁.(2003).效果量的意义及测定方法.心理学探新 ,23 (2),39-44.
舒华.(1994).心理与教育研究中的多因素实验设计 .北京:北京师范大学出版社.
郑昊敏,温忠麟,吴艳.(2011).心理学常用效应量的选用与分析.心理科学进展 ,19 (12),1868-1878.
American Psychological Association.(1994).Publication manual of the American Psychological Association (4th ed.).Washington,DC:American Psychological Association.
American Psychological Association.(2001).Publication manual of the American Psychological Association (5th ed.).Washington,DC:American Psychological Association.
American Psychological Association.(2010).Publication manual of the American Psychological Association (6th ed.).Washington,DC:American Psychological Association.
Bakeman,R.(2005).Recommended effect size statistics for repeated measures designs.Behavior Research Methods ,37 (3),379-384.
Baker,M.(2016).1,500 scientists lift the lid on reproducibility.Nature ,533 (7604),452-454.
Cohen,J.(1988).Statistical power analysis for the behavioral sciences .Hillsdale,N.J:L.Erlbaum Associates.
Cumming,G.,& Fidler,F.(2009).Confidence intervals:Better answers to better questions.Zeitschrift F ür Psychologie ,217 (217),15-26.
Cumming,G.(2014).The new statistics:Why and how.Psychological Science ,25 (1),7-29.
Francis,G.(2013).Replication,statistical consistency,and publication bias.Journal of Mathematical Psychology ,57 (57),153-169.
Franco,A.,Malhotra,N.,& Simonovits,G.(2015).Underreporting in psychology experiments:Evidence from a study registry.Social Psychological &Personality Science ,7 (1),1-5.
Glass,G.V.(1976).Primary,secondary,and meta-analysis of research.Educational Researcher ,5 (10),3-8.
Green,J.L.,Hedges,L.V.,& Levine,F.J.(2006).Standards for Reporting on Empirical Social Science Research in AERA Publications:American Educational Research Association.Educational Researcher ,35 (6),33-40.
Hedges,L.V.(1981).Distribution theory for Glass’s estimator of effect size and related estimators.Journal of Educational Statistics ,6 (2),107-128.
John,L.K.,Loewenstein,G.,& Prelec,D.(2012).Measuring the prevalence of questionable research practices with incentives for truth telling.Psychological Science ,23 (5),524-532.
Kendall,P.C.(1997).Editorial.Journal of Consulting and Clinical Psychology ,65 (1),3-5.
Keppel,G.(1991).Design and analysis :A researcher ’s handbook .Upper Saddle River(NJ):Prentice-Hall.
Kirk,R.E.(1996).Practical significance:A concept whose time has come.Educational and Psychological Measurement ,56 (5),746-759.
Lawrence,M.A.(2011).ez :Easy analysis and visualization of factorial experiments .R package version 3.0-0.http://CRAN.R-project.org/package=ez
Levelt,P.,Noort,E.,& Drenth,P.(2012).Flawed science :The fraudulent research practices of social psychologist Diederik Stapel .Retrieved from http://www.tilburguniversity.edu/upload/3ff904d7-547b-40ae-85fe-bea38e05a34a_Final%20report%20Flawed%20Science.pdf
Miller,G.(2010).Cognition research.Investigation leaves field in the dark about a colleague’s work.Science ,329 (5994),890-891.
Murphy,& Kevin,R.(1997).Editorial.Journal of Applied Psychology ,82 (1),3-5.
National Center for Education Statistics.(2002).NCES statistical standards .Washington,DC:Department of Education.
Olejnik,S.,& Algina,J.(2003).Generalized eta and omega squared statistics:Measures of effect size for some common research designs.Psychological Methods ,8 (4),434-447.
Open Science Collaboration.(2015).Estimating the reproducibility of psychological science.Science ,349 (6251),aac4716.
Simmons,J.P.,Nelson,L.D.,& Simonsohn,U.(2011).False-Positive Psychology Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant.Psychological Science ,22 (11),1359-1366.
Thompson.(1994).Guidelines for authors.Educational and Psychological Measurement ,54 ,837-847.
A New Effect Size Indicator of Analysis of Variance
Liu Tiechuan Wang Shanshan Gui Yali
(School of Education Science,Gannan Normal University,Ganzhou 341000)
Abstract :One of the reasons for the low repeatability in psychological research is that the effect size are generally small.And in the article reporting the effect size,the effect size indicator is not used properly.The most frequently reported indicators for ANOVA are eta squared and partial eta squared.But these two indicators are not comparable across different research designs.Generalized eta squared that has emerged in recent years can overcome traditional indicators’ shortcomings,and achieve comparability by considering individual differences in many kinds of research designs.The present paper introduces what is generalized eta squared and how to calculate it with examples.Advantages,disadvantages and reporting of it are also discussed.Researchers should consider different research designs and research hypotheses and choose appropriate size measures to prevent overestimation.
Key words :effect size;generalized eta squared;ANOVA
*基金项目: 江西省教育科学“十三五”规划课题(17YB173)。
通讯作者: 刘铁川,E-mail:liutiechuan@gmail.com。
中图分类号: B841.2
文献标识码: A
文章编号: 1003-5184( 2019) 03-0238-06
标签:效果大小论文; 广义eta方论文; 方差分析论文; 赣南师范大学教育科学学院论文;