教育研究中的P值使用：问题及对策──兼谈效应量的使用

沈光辉¹^，2，范涌峰²^，3，陈婷²^，3

（1．西南大学数学与统计学院，重庆 400715；2．中国基础教育质量监测协同创新中心西南大学分中心，重庆 400715；3．西南大学教育学部，重庆 400715）

摘要：P值是教育研究中十分重要的推断依据，但在使用过程中存在诸多问题．通过对241篇属于教育领域的CSSCI期刊（2017—2018）中有关P值使用情况的统计发现，这些问题主要包括：P值错误表达，根据P值选择显著性水平，忽视样本对P值的影响，对P值及其相关指标的报告不够全面等．为此，P值的使用应该理解P值及相关概念，在计算P值之前给出 width=10,height=10 ，进行重复性试验并且引入效用量，尽可能全面地报道实验结果．此外，效应量作为一种度量效应大小的重要指标，常为教育研究者所忽视．为此，在教育研究中可以引入5类效应量，通过P值来做定性判断，通过效应量做定量判断，提高统计推断的准确性和教育研究的科学性．

关键词：P值；问题；假设检验；效应量

1 问题提出

P值在统计推断中起着重要的作用，被广泛地应用于各个学科领域．然而，近年来P值似乎卷入了一场危机风波，连续被多个权威期刊禁用，如2015年2月Basic and Applied Social Psychology杂志宣布禁止使用P值，并且不再使用置信区间，该杂志认为需要充足的描述性统计，其中包括效应量^[1]．2018年1月22日美国顶级政治学术期刊Political Analysis宣布从2018年第26期起禁用P值．这说明，人们越来越认识到P值使用中存在的问题．

P值问题的产生跟虚无假设检验模式有关，现在使用的虚无假设检验模式是Fisher显著性检验模式与Neyman-Pearson假设检验模式的结合^[2]．在Fisher的理论框架中，显著性和P值是非常重要的概念，反对预先选择显著性水平．Neyman和Pearson并不认可Fisher的方法，而采用了另一种数据分析框架，该框架中包括显著性水平、统计效力、假阳性、假阴性等概念，直接忽略P值这个指标．由于这两种观点争论不断，其他研究者失去了耐心，他们开始给进行研究的科学家们编写统计学指南，因此就将两种模式组合成现在的虚无假设检验模式．在该模式下，通过P值与预先给定的显著性水平 width=10,height=10 比较来做出决策，通常情况下会考虑当P≤时，拒绝零假设；当P＞时，不拒绝零假设，显著性水平常取0.05、0.01和0.1．这样的结合使得研究者更多地关注第一类错误而忽视了第二类错误，弱化了统计功效．除此之外，研究者普遍认为P值是原假设为真或为假的概率^[3–4]．这是错误的认识，P值是当原假设为真时所得到的样本观测结果或更极端结果出现的概率^[5]．

P值问题争论已久，引起了统计、心理、体育、教育等领域专家的关注．美国统计学会申明了正确使用P值的6条原则来规范P值的使用^[6]．Cohen指出，在经历了四十多年的批评后，研究者普遍还是错误地理解P值，对P值的使用再次进行了批判^[4]．美国心理协会考虑了P值的使用问题，并从1994年开始正式鼓励作者报告效应大小^[7]．焦璨对《心理学报》《心理科学》两种杂志在1998—2007年使用虚无假设检验的情况进行统计，发现两种杂志10年间发表了论文4 115篇，其中使用虚无假设检验方法佐证研究结论的有2 752篇，占67%，心理学报的使用率高达84.8%．而且“唯有显著性结论的论文才能得到发表”已成为心理学科的行业标准^[2]，其中P值起到决定性作用．然而，令人讽刺的是Fisher引入P值并不是想把它作为一个解释结果的决定性指标，而是当作判断时的一个非正式的参考指标来判断结果是否值得继续研究^[8]．朱为模指出，在运动科学领域，很多顶级期刊根据P值小于0.05（有时小于0.01）直接下结论，然而大样本会导致几乎所有的比较都是显著的，这使得“显著”这个词本身毫无意义．结合Cohen的观点总结了7点建议，包括不能仅根据P值下结论，报告效应值大小，结合临床或者实际意义进一步解释效应大小等．并强烈建议Journal of Sport and Health Science杂志的作者、审稿人和编辑遵循这些建议^[9]．Coe建议使用效应量，但是教育研究中很少使用效应量^[10]，Coe认为研究者很少使用效应量的原因是计算效应大小的公式并没有出现在大多数统计教科书中（元分析除外），也没有出现在许多统计计算机软件包中，而且在标准的研究方法课程中也很少教授．Coe解释了什么是效应量，如何计算效应量，以及如何解释效应量等^[7]．王光明等对国内教育领域4种CSSCI来源期刊进行统计，发现部分研究者对P值的理解与认识存在一定偏差，并进一步对P值问题进行了思考^[11]．

在进行同步电机零功率因数试验时，静止变频电源由于存在输出滤波器，因此，一般情况下只能够进行简单的电压/频率控制。矢量计算能力减弱，其有功分量和无功分量在纯正弦波输出模式下很难单独调节。因此，实现等效负载下同步电机零功率因数有一定困难，强行实现，需要对电源及其输出变压器特殊设计，并大幅度增加逆变器以及输出铁磁元件输出功率，使静止逆变器(方案)失去原有相当的成本优势。

然而，当前中国教育研究中定量研究十分不足，占比仅14.34%^[12]，P值在国内教育领域更是没有引起足够的重视，通过对国内37种教育类的（CSSCI）来源期刊的241篇文章进行分析，发现P值在教育研究中存在诸多滥用、误用的现象，进行差异分析时很少计算效应量．在进行教育研究时常常需要找出差异的大小，而P值却并不能阐释差异的大小，效应量正好可以弥补P值使用的这一缺陷，通过P值用来做定性分析，效应量用来做定量分析，将定性与定量分析结合，才能使研究结果更具说服力．因此，厘清P值使用中常见问题，在教育研究的统计推断中引入效应量，对于提高教育研究的科学性具有重要意义．

2 教育研究中P值使用存在的主要问题

在中国知网中以“P值”为主题词检索，共检索出P值出现3次及以上属于《中国社会科学引文索引（CSSCI）来源和收录集刊（2017—2018）目录》的教育类（37种期刊）的文章246篇．把文章中含有“P值”但并非假设检验中的P值的文章删去5篇，最终可用文献241篇，文章的时间跨度为1998年11月—2017年3月．

对这241篇文献进行全文阅读分析，可以得出文献中使用假设检验方法的具体情况（见表1）．94篇文章使用了均值t检验（包括单样本t检验、独立样本t检验、配对样本t检验），占文章总数的39%；66篇文章使用了回归分析，占比27.39%；53篇文章使用了方差分析（F检验），占比21.99%；48篇文章使用了相关系数检验，占比19.92%；30篇文章使用了卡方检验，占比12.45%；68篇文章使用了其它检验方法，占比28.22%．发现国内教育领域在做统计推断时常用的假设检验方法是均值t检验、回归分析、方差分析（F检验）、相关系数检验、卡方检验等．其中使用均值t检验的文章最多，超过了文章总数的三分之一．对这些文献中的P值使用情况进行分析，发现其存在的主要问题及不规范现象可以分为以下几类：P值的错误表达，根据P值选择显著性水平，忽视“大样本”对P值的影响，P值在给定显著性水平附近没有做解释说明，只报道P值或者均值（见表2）．

表1 文献中假设检验方法的使用情况

表2 文献中P值使用存在的问题及不规范现象

2.1P值错误表达

文章中每种错误只计一次，关于P值的错误表达的文章总数有118篇，占文章总数的48.96%，由于有些文章不止一种错误表达方式，分类统计之后的错误总数为138，P值错误表达方式的详细统计见表3．从统计的情况来看，错误的表达方式有很多，归纳为4类问题．第一，把定性表达成定量，如：在对A、B两个样本做均值t检验时，当P＜ width=10,height=10 时，表达为A显著强于B或者B显著强于A，然而P＜只能判断两个变量之间在统计学意义上存在差异，并不能表达成显著强于，“显著”是用来修饰“强”这个字的，是对强的程度的说明，“显著”有“非常明显”的意思，“显著强于”换句话说就是“明显大于”，不能用P值大小衡量差异的大小，所以这种表达方式并不合理，容易造成读者的误解．第二，混淆概念，把P值表达成是显著性水平、置信水平、假设检验的统计量、显著性系数、相关系数等．第三，混淆检验方法，把t检验的P值表达成卡方检验的P值，把单样本检验表达成独立样本t检验，等等．第四，表述错误，将P值通过显著性检验表述为P值达到显著性水平；当P＞ width=10,height=10 时，检验结果表述成接受原假设；正文中直接把P值表述成P=0、P=0.00、P=0.000或者P=***．P值的表达虽然很多时候对研究结果没有直接影响，但是P值的错误表达说明研究者本身对P值的理解不够透彻，降低了文章的严谨性，大量的错误表达也会对读者造成严重的误导．

表3P值错误表达方式情况

2.2 根据P值选择显著性水平

文中“根据P值选择显著性水平”是指研究者在同一个研究中采用不同的显著性水平，不可否认每个人对显著性水平接受的大小会不同，对待不同的问题也会选择不同的显著性水平，但是在一个研究中所采用的 width=10,height=10 大小发生变化是不易被接受的，尤其是针对同一问题的不同指标采用不同的更让人难以接受．由表2可以看出，根据P值选择显著性水平的文章有83篇，占比超过1/3，说明这个问题很容易被忽视．不同研究领域对显著性水平 width=10,height=10 的要求不同，教育领域常用0.05或者0.01．在有些领域，如制药工程，对显著性水平的要求会更加苛刻，这其实就是为了降低犯第一类错误的概率．也就是说可以给定不同的显著性水平，但是这并不意味着可以根据P值来选择显著性水平，因为这样会导致为了通过检验而去选择“适当”的 width=10,height=10 值，这是一个逻辑错误．

2.3 忽视样本对P值的影响

2.3.1 忽视“大样本”对P值的影响

教育研究中的样本数据通常是大样本数据，即样本量大于等于30或者大于等于50．这里说的“大样本”不是一般的大样本，而是具有相当大体量的样本．例如，有两篇文章的样本量超过11 000，但是仍然用0.05做假设检验的显著性水平，并且通过了检验，这个结果是值得怀疑的．当样本量增大时，P值会减小；当样本量减小时，P值会增大．这也会导致大样本研究的小效应同小样本研究的大效应产生相同的P值^[13]．所以样本量很大时，只根据P值作推断就容易导致错误的结论．通常样本量在抽样方法合理的情况下，越大越好，因为增大样本量会同时降低犯第一类错误和第二类错误的概率，但是样本量受时间、人力、经费等因素的限制，也不会过于庞大，样本量不受限制也就失去了抽样的意义^[5]．

2.3.2 忽视了“小样本”对P值的影响

式③中 width=13.95,height=13.95 和是总体A和总体B的均值， width=10,height=10 是总体A和总体B的标准差．

2.4 对P值及其相关指标的报告不够全面

东川的绿色之变是云南绿色发展的一个小小缩影。从理念到行动，在云岭大地上绿色发展日益成为与传统工业化增长模式相竞争并获胜的另一种发展模式，成为消费升级的新动能、创新驱动的新动能和经济增长的新动能。

3 教育研究中P值使用的对策

3.1 理解P值及相关概念

如前所述，国内教育领域在做统计推断时常用的假设检验方法是均值t检验、回归系数检验、方差分析（F检验）、相关系数检验、卡方检验等，为此，在教育研究中至少可以引入以下5类常用的效应量．

本法所称集体商标，是指以团体、协会或者其他组织名义注册，供该组织成员在商事活动中使用，以表明使用者在该组织中的成员资格的标志。

学校把改善办学条件作为教育落实的关键点。一是不断改善班级、功能室的设施设备，配齐配足各项仪器。目前，学校拥有科学实验室、微机室、图书馆、电子阅览室、音乐室、美术室、舞蹈室、综合实践活动室、书法室、心健室、医务室、塑胶跑道、篮（足）球场等。实现信息技术班班通，学生上机“一人一机”，教师办公人手一机，并对校园计算机网络进行全面更新升级。学校成立了网络信息管理中心和教学资源库，建立校园网、校园广播系统、FTP传输系统和办公系统，极大地提高了教育教学质量。

3.2 在计算P值之前给出a

不应该得到样本数据之后再确定显著性水平^[18]，从虚无假设检验模式的步骤2可以看出应该先指定显著性水平 width=10,height=10 ，然后从测量数据中计算P值，最后两者作比较，否则就会出现为了通过检验而改变显著性水平的情况．基于不同学科背景下产生的问题的显著性水平不同，因此，显著性水平没有统一的标准，通常取0.05、0.1和0.01，但并不意味着只能取这3个小数， width=10,height=10 可以是任意一个在区间[0, 1]内接近0的小数，所以P值在与显著性水平做比较时，要根据研究的内容先选择合适的显著性水平．

对景(Corresponding Views)作为景观组织的一种手法，将山体、海湾、建筑、雕塑等景观引入民众视野[1]，丰富了城市空间环境，塑造出城市特色.

3.3 进行重复性试验并且引入效用量

当P值在给定的显著性水平附近时，进行重复性试验可以让结论更加稳定．由于进行多次实验时，每一次实验数据都不同，可能会因为样本不同而存在检验显著与检验不显著的情况．所以，可以通过进行重复性试验或者进一步扩大样本来确保结论的稳定性．进行多次实验确保结果的稳定性是值得提倡的，但是绝不能为了寻找小P值而做多次实验．当然，也可以通过学科背景知识进行一定的取舍．同时，效应量不受样本的影响，可以很好地解决因样本量带来的麻烦，如大样本数据得出小P值的情况，效应量就能更好地反应差异或者相关的大小．

有56篇文章在表格中没有呈现具体的P值，而是通过带有“ width=6.95,height=8 ”或者“*”等符号表示，用符号代替P值使得报告信息不完整，无法定位到P值邻近的显著性水平，比如P值为0.049用“*”表示，因为“*”的范围通常是0.01~0.05，并不知道“*”是靠近0.01还是靠近0.05，在a 附近做决策时是要慎重考虑的．表2中只报道P值或者均值的文章有6篇，占比2.49%，缺少与P值对应的统计量、置信区间、效应量和其它描述性统计结果的报道．同时，也要避免P值的选择性报道，所谓P值的选择性报道就是只报道通过检验的结果，其它没通过的不报道．

3.4 尽可能全面地报道实验结果

方差分析中常用的效应量有单因素方差分析中的效应量和双因素方差分析中的效应量，其中双因素方差分析的效应量包括主效应和交互效应对应的效应量．这里只分析单因素方差分析，这些方法同样适用于双因素方差分析．

西班牙科尔多瓦农业可持续发展研究所的研究人员针对蓬勃发展的无麸小麦市场需求推出了低筋小麦品种；宾夕法尼亚州立大学开发出不会变褐色的蘑菇；冷泉港实验室则开发出适合生长季较短的西红柿品种。与此同时，全美国的大学都在轰轰烈烈地开展能够抵御干旱、疾病和气候变化的农作物研究。

4 效应量的引入及其对P值的补充

效应量（effect size），一种度量效应大小的指标．效应量具有与测量单位无关、单调性、不受样本容量的影响等基本性质^[20]．效应量可以解决P值无法刻画相关程度大小和差异大小的问题^[11]，也可以避免“P值操控”现象^[21]．如温忠麟等人认为零假设显著性检验（NHST）仍然是大多数统计分析不可或缺的重要环节，建议用效应量来弥补P值无法刻画差异大小的问题^[20]．由此看来，在P值使用中引入效应量已逐渐为人们所认同．然而，当前效应量在教育领域并没有引起足够的重视，在教育研究中进行差异分析时很少使用效应量．在上述统计的241篇教育研究文献中，只有3篇文章在做差异分析时使用了效应量．因此极有必要对效应量的概念、教育研究中常用的效应量公式及效应大小的参考标准予以阐释．

对P值的概念以及对推断统计中相关概念的理解错误是导致P值不规范表达的重要原因，下面给出4条关于规范P值表达的建议．第一，弄清楚P值的概念，P值不是原假设为真的概率，也不是备择假设为假的概率．P值就是当原假设为真时所得到的样本观测结果或更极端结果出现的概率．在科学推断中，是希望得到在样本已知的情况下原假设为真的概率，记做P(H₀/D)，然而虚无假设检验是原假设为真时所得到的样本观测结果或更极端结果出现的概率，记做P(D/H₀)^[14]．这就产生了P值为0.01时，得到假阳性结果的概率至少为11%；P值为0.05时，得到假阳性结果的概率至少为29%^[8]．统计显著性检验并没有告诉研究者想要的结果，研究者却依然相信它确实如此^[4]．除此之外，还需要弄清楚与P值紧密联系的一些概念，如显著性水平和置信水平等．第二，P值不能推断相关程度大小和差异大小，应该表达为A和B的相关性或者差异具有统计学意义，可以引入效应量来解决大小问题，常用的效应量有皮尔逊相关系数 width=8,height=9 、 width=12,height=13.95 、 width=13,height=13 、 width=10,height=12 、 width=13,height=13.95 等，第三章会对效应量的计算方式和指标大小作一个详细说明．第三，假设检验方法众多，P值要与使用的假设检验方法一一匹配．第四，关于P值的表述：不能说P值达到显著性水平，“达到”这个词用在这里不恰当，会造成歧义，让人误以为P值大于显著性水平；当P≤ width=10,height=10 时，可以说拒绝原假设，当P>时，没有充足的证据去拒绝原假设，不能说成接受原假设，应该说不能拒绝原假设，因为无法证明原假设是真的,“接受零假设”就应该负责任地提供接受零假设时可能犯第二类错误的概率^[15]；P值写作0是不科学的表达方式^[16]，P值并不等于0，也不等于***，如做均值差异检验时，只有当样本量趋于无穷大时，P值才能为0，然而样本量不可能是无穷大，所以P值也就不可能为零，很多时候是P值很小，在一些统计软件中呈现的直观结果只是保留了一定的小数位后的值，如：0.000，关于小P值的报道，Garcia-Berthou和Alcaraz建议给出具体值^[17]，然而用P小于 width=10,height=10 的形式表示似乎更受青睐．

4.1 相关类效应量

这里说的相关类效应量指的是与相关系数相对应的效应量，通常是常用的相关系数或者是关于相关系数的变换，相关类效应量越大说明相关的程度越大．这里给出两个常用的相关类效应量：皮尔逊相关系数 width=8,height=9 和点二列相关系数的平方 width=13,height=16 ．需要注意这两个效应量对应的数据类型是有区别的：要求两个变量都是服从正态分布的连续变量；要求其中一个变量是服从正态分布的连续变量，另一个变量为二分变量．下面给出这两个效应量对应的公式．

（1）皮尔逊相关系数 width=8,height=9

width=106,height=29 ①

式①中 width=42,height=13.95 是 width=12,height=11 和 width=10,height=11 的协方差， width=33,height=13 为的方差， width=31,height=13 为的方差．

“乾隆皇帝按照现在的西历来说，是从1 7 1 1年活到了1 7 9 9年，这些‘乾隆通宝’到现在，少说也有2 0 0年以上的历史了。”

式⑤中 width=13.95,height=13 表示实验组的均值，表示控制组的均值， width=12,height=13 表示控制组的样本标准差．Glass认为均值差相同时，如果使用混合方差来标准化均值差异，标准化的值会随着不同的实验组结果的标准差不同而不断变化，所以采用控制组的样本方差来标准化均值差异．

（2）点二列相关系数的平方 width=13,height=16

width=68,height=27.45 或 width=67.25,height=27.95 ②

式②中 width=10,height=11 表示二分变量中某一类别的频率， width=9,height=11 表示二分变量中另一类别的频率； width=13,height=15 表示点二列相关系数， width=15,height=18 是二分变量中类别样本的平均数，表示二分变量中类别样本的平均数； width=10,height=13.95 表示连续变量的样本标准差．

项目组对调查河段（图1）进行了4次采样，分别为2014年10月（秋季）、2015年1月（冬季）、2015年5月（春季）和2015年7月（夏季）。具体采样站位信息如表1所示。

4.2 均值差异类效应量

教育研究实验中常常会通过设计对照实验来探索新教学方法或者某些条件是否会影响学生的学习情况，实验研究中常用到“均值t检验”去检验变量间是否存在差异．为此，这里给出Cohen的 width=11,height=13.95 、Glass的 width=12,height=13 和Hedges、Olkin的 width=10,height=11 和 width=9,height=12 四种差异类效应量．小样本下常用Hedges的；大样本下最常用的是Cohen的；在有明显控制组存在且控制组的样本容量比较大，以及实验组与控制组的条件差异比较大时才会用 width=12,height=13 ^[22-23]．综上，在教育实验研究中常用的是Cohen的 width=11,height=13.95 ．

（1）Cohen的 width=11,height=13.95

总体参数的效应量 width=9,height=12 ^[24-25]

width=47.55,height=22.85 （单尾检验）， width=47.15,height=24.35 （双尾检验） ③

由表2可以看出，有36篇文献的P值在给定的显著性水平附近没有做进一步探讨，P值在给定显著性水平附近时，决策要慎重，不应该轻易拒绝或者不拒绝原假设．这种情况很有可能是“小样本”造成的，这里提到的“小样本”不是教科书中明确的小于30或者50，而是指选取的样本量在教育研究中并不大，只有几十个或者一百多个．这个时候轻易下判断很有可能得到错误的结论．

关于样本的效应量 width=11,height=13.95 ^[24]

width=50.8,height=25.25 ， width=142.7,height=33.65 ④

式④中 width=16,height=17 和是两样本的均值， width=8,height=10 是两样本混合方差， width=12,height=13.95 和分别表示样本A和样本B的数量．

（2）Glass的 width=12,height=13 ^[22]

width=52,height=27 ⑤

冬天，感冒几乎是宝宝们最常得的疾病了。感冒的症状一般有流涕、咳嗽、发烧、喉咙疼等，爸爸妈妈对症做好家庭护理很重要。另外，如果病情较重，需要就医用药，爸爸妈妈也需要知道一些用药误区，以减轻对宝宝的伤害。

（3）Hedges和Olkin的 width=10,height=11 和 width=9,height=12

如果建筑墙体的高度小于60cm，那么该建筑空间的合理性就会在无形之中受到影响。此外，若建筑设施的墙体高度上调至200cm以上，那么该建筑空间就会呈现出一种较为强烈的围合感，另外其还带有很强的空间划分效用，L型墙体垂直面的围合感比较弱，但是平行的墙体吹面的方向感以及导向性会比较强。可以合理的利用相应类型的墙体垂直面设计形式，提升该建筑空间的方位感，遵循建筑空间的设计原理，并依据原理设计各类的建筑空间形式，尽可能的满足人们对于功能性建筑空间的各类需求。

总体参数的效应量 width=9,height=12 ^[22]

width=49.95,height=26 ⑥

对Glass的 width=12,height=13 修正后的估计量

width=62,height=15 ， width=120,height=31 ⑦

width=9,height=12 的最大似然估计值为 width=9,height=15

width=52,height=29 ， width=46,height=13 ⑧

由于 width=10,height=11 是有偏估计，所以对于小样本，使用Hedges和Olkin的 width=9,height=12 ．

“‘会搞事情’的老字号CEO”，这是五芳斋实业股份有限公司总经理吴大星在新浪微博上的个人描述。老字号管理者隐含在网络化的表达背后，是百年老字号不断求新求变的“极客”式生存。“老字号之所以能成为‘常青树’，一个重要原因就在于其与生俱来的求新、求变基因。”吴大星表示，五芳斋正在推进“轻、快、互联网化”变革，未来将会变得更年轻、更好玩，更有气质。

Hedges无偏估计效应量 width=9,height=12 ^[22]

width=185,height=55 ⑨

这里要注意的是Hedges的 width=9,height=12 值不同于Cohen的值．式⑨中N是总的样本量， width=46,height=13 ， width=10,height=11 就是Hedges的值．当自由度 width=42.95,height=13 为2时，效应量的最大误差为0.007；当自由度大于等于10时，最大误差为0.000 33；当自由度大于50时，误差不会超过0.000 015^[26]．

4.3 方差分析中效应量的计算

P值、统计量、置信区间、效应量和描述性统计结果是常用的信息，全面的报道总是更有说服力，也可以给读者传递更多信息，让读者更容易自己去做判断．美国心理学会的出版手册（Publication Manual of the American Psychological Association）第六版在结果部分强调：零假设检验结果只是报告的起始部分，还需要报道效应量、置信区间和更多的描述性统计结果来更全面地阐释结果的含义；发表的最低要求是在测试假设的完整报告里要有适当的效应量和置信区间；要提到所有相关的结果，包括与期望背道而驰的结果；当理论预测效应大（或者具有统计学意义时），实际结果是小的效应量（或统计学上不显著的结果）时，一定要报道该结果，不要隐藏那些看起来让人不满意的结果^[19]．当表格中的数据很多时用显著符号替代P值可以理解，但是建议将在给定显著性水平附近的P值具体化；当表格中数据量较小时建议还是将具体值呈现出来．

（1） width=12,height=13.95

统计学软件采用SPSS19.0版,组间计量数据采用(±s)表示,计量资料行t检验,计数资料行X2检验,P<0.05为差异有统计学意义。

width=12,height=13.95 是方差解释的有偏估计，随着样本增大，偏差会变小，但是这里面计算的是样本方差，不是总体方差，所以会高估效应大小．

width=53.6,height=25.65 width=11.2,height=11.55

式 width=11.2,height=11.55 中 width=34.8,height=13.9 是组间平方和， width=23.2,height=13.55 是总平方和．当不知道组间平方和及总平方和，而知道其对应的F值、组间平方和的自由度 width=36.2,height=15.2 、组内平方和的自由度 width=26,height=15.15 时同样可以算出 width=12,height=13.95 值，如式 width=10.85,height=11.3 ．

width=77.75,height=37.65 width=10.85,height=11.3

（2） width=13,height=13

width=13,height=13 是一个不那么有偏的方差估计量

width=118.4,height=25.85 width=11.6,height=12.05

式 width=11.6,height=12.05 中 width=36.8,height=14.95 是组间平方和， width=36.8,height=15.35 是组间平方和的自由度， width=25.6,height=14.9 是总平方和， width=28.4,height=13.9 是误差项的均方．

语言主要分为声调和语调两类[7]。声调是贯通于整个音节的高低升降的调子，是指读每个音节时声音的变化，主要由音高决定[8]。其特点是通过不同长短、高低的声调来表达不同含义。语调指的是抑扬顿挫的腔调。语调语言的特点是，语言声调在不同样长短和高低时，只表示语气，而不影响语意。汉英分别属于声调和语调语言。所以，如果把普通话的声调语言特点用到具有语调语言特点的英语上就有问题。

4.4 卡方检验

单因子方差分析中，因子为两水平（这里的水平指不同的方案），对应的效应量可以用 width=9,height=13 统计量．

width=33.2,height=27 width=11.95,height=12.3

式 width=11.95,height=12.3 中 width=13,height=13.95 是统计量，N是样本总量．

当变量值超过两个水平时，用Cramér的V^[27]

width=56.1,height=28.05 width=12,height=12.4

式 width=12,height=12.35 中q是行数和列数的最小值，即 width=36,height=13.95 ．N是样本总量．

4.5 回归的效应量

在一元回归分析中用判定系数R²作效应量^[20]，多元回归分析中采用Cohen的 width=13,height=13.95 [27-28]．

width=45.6,height=24.3 width=10.95,height=11.3

式 width=10.85,height=11.2 中R²是判定系数．

对上述5类效应量的大小给出参考指标，详见表4．

表4 效应量大小参考指标

注：评价标准来自Cohen（1977）^[24]、Cohen（1988）^[27]、Cohen（1992）^[29]、权朝鲁（2003）^[30]．其中Glass的 width=7.95,height=10 、Hedges的g、Hedges的d参考的是Cohen的d_s的标准， width=8.9,height=11.2 参考 width=13.6,height=12.35 标准．

上文按照假设检验方法类别，将教育领域中常用的效应量分为5类．效应量按统计意义可以分成如下3类：差异类（difference-type），相关类（correlation-type），组重叠（group-overlap）^[28]．那么，教育领域常用的5类效应量按其统计意义可以划分成相关类和差异类效应量．其中，相关类效应量包含5类中的4类：相关类、方差分析、卡方检验、回归方程所对应的效应量；差异类效应量就是均值差异所对应的效应量．将5类效应量分成相关类和差异类是为了便于与P值结合做统计推断．

P值和效应量综合判断方法有两类：（1）相关类：统计学意义显著，效应量很小时，决策时要慎重，教育研究中很多变量都存在一定的相关性，通常把非常微弱的相关性就当成不相关；统计学意义显著，效应量较大时，认为具有较大的相关性；统计学意义不显著，效应量很小时，可以认为没有相关性；统计学意义不显著，效应量很大时，考虑样本量取得太少，需要增加样本量来进一步检验统计学意义上的显著性，然而在教育研究实验中一般都会取大样本，所以这类情况很少发生．（2）差异类：统计学意义显著，效应量很小时，决策时要慎重，要考虑细小的差异在教育研究中是否具有实际意义，教育中对实际效应的要求往往是较高的，甚至是要能通过学生的表现体现出来，所以这种情况在教育研究中通常是不具备实际意义的；统计学意义显著，效应量较大时，认为具有较大的差异；统计学意义不显著，效应量很小时，可以认为没有差异；统计学意义不显著，效应量很大时，考虑怀疑样本量是否取得全面，需要增加样本量来进一步检验统计学意义上的显著性，这类情况在研究中很少发生．

5 结语

实际上P值本身并没有问题，由于P值的不规范使用，导致部分研究者对P值产生误解，认为根据P值做出的决策结果时常出现错误，进而对P值产生怀疑．任何一种方法都有它的使用前提和使用范围，使用者必须科学地运用研究方法．不应该把P值当做金标准去做决策，应该综合考虑多种决策方法．引入效应量是为了刻画效应大小，量化研究问题，但是在使用效应量时不能走P值的老路，不能死死盯住指标．效应量的引入使得决策时多了一种手段，但是并不是所有问题都得给出效应量，效应量在有些领域行不通，如，行为科学，Cohen也申明了使用效应量大小存在一定的风险．Hagen认为Cohen的一些关于P值的批评^[4]是没有根据的，因为Cohen认为虚无假设检验存在一些逻辑和信息问题，这可能导致粗心的读者认为统计显著性检验比不用更糟糕，应该被抛弃．虽然Cohen没有这么说，但他的读者可能会这么理解^[31]．总之，将P值和效应量结合使用会让决策结果更加稳定．

同样要考虑实际需求．比如，在研究教育对经济的影响模型时，如果某一变量没有通过检验，但是保留它可以让教育更大地促进经济增长，那么仍然会选择保留这一变量，这时就要以实际需求来衡量该模型是不是最佳．实践中更看重需求，做预测就得看实际预测效果，做控制就得降低风险，不同的需求会有不同的标准，统计指标需要与现实需求相结合．

统计可能是危险的并可能被滥用^[32]，统计指标只是一个研究工具，用统计指标分析出来的结果虽然对研究决策起着重要的参考作用，但是绝不能把这个结果当作唯一标准．在医学领域中假阳性结果时常出现，医生在做判断时就不能只看统计指标了，需要用数据说话，但是不唯数据论．教育学中指标体系的建立经常采用专家打分法，也有学者用因子分析法去确定指标^[33]，这两种方法都有着各自的优缺点，专家打分能更好地结合专业背景去确定指标，但是主观性太强；因子分析法具有客观性，但是往往会舍弃一些影响很大、非常重要的变量．所以，应该把统计指标当作一种参考．这样看来，P值和效应量的结合，再融入学科背景知识等，多角度分析问题的方法就显得非常重要．

［参考文献］

[1] TRAFIMOW D, MARKS M. Editorial [J]. Basic Appl, Soc, Psych, 2015 (37): 1–2.

[2] 焦璨．心理学研究中假设检验理论方法探析[M]．北京：中国社会科学出版社，2014：14–15，2．

[3] NICKERSON R S. Null hypothesis significance testing: A review of an old and continuing controversy [J]. Psychological Methods, 2000, 5 (2): 241–301.

[4] COHEN J.The earth is round (P<0.05) [J]. American Psychologist, 1994, 49 (12): 997.

[5] 贾俊平，何晓群，金勇进．统计学[M]．4版．北京：中国人民大学出版社，2009：211，214．

[6] WASSERSTEIN R L, LAZAR N A. The ASA’s statement on P-values: Context, process, and purpose [J]. The American Statistician, 2016, 70 (2): 129–133.

[7] COE R. It’s the effect size, stupid: What effect size is and why it is important [C]. Paper presented at the Annual Conference of the British Educational Research Association. London: the British Educational Research Association, 2002: 1–18.

[8] NUZZOR. Scientificmethod: Statistical errors [J]. Nature, 2014, 506 (7 487): 150–152.

[9] ZHUW. Sadly, the earth is still round (P<0.05) [J]. Journal of Sport and Health Science, 2012, 1 (1): 9–11.

[10] KESELMAN H J, HUBERTY C J, LIX L M, et al. Statistical practices of educational researchers: An analysis of their ANOVA, MANOVA, and ANCOVA analyses [J]. Review of educational research, 1998, 68 (3): 350–386.

[11] 王光明，李健，张京顺．教育实证研究中的P值使用：问题、思考与建议[J]．教育科学研究，2018（2）：59–65．

[12] 范涌峰，宋乃庆．教育研究科学化：限度与突破[J]．教育研究，2016（1）：94–101．

[13] SIMON R. Confidenceintervals for reporting results of clinicaltrials [J]. Annals of Internal Medicine, 1986, 105 (3): 429–435.

[14] KIRT R E. Practicalsignificance: Aconcept whose time has come [J]. Education and Psychological Measurement, 1996, 56 (5): 746–759.

[15] 吴喜之．统计学：从数据到结论[M]．北京：中国统计出版社，2006：97．

[16] 陈章颖．生物医学期刊中常见的P值使用错误[J]．编辑学报，2014，26（2）：137–139．

[17] GARCIA-BERTHOU E, ALCARAZC. Incongruence between test statistics and P Values in medical papers [J]. BMC Med Res Methodol, 2004, 28 (4): 13.

[18] KUFFNER T A, WALKER S G. Why are P-values controversial [J/OL]. American Statistician, 2018: 1–3. (2018–01–26) [2019–01–02]. DOI: https://doi.org/10.1080/00031305.2016.1277161.

[19] AMERICAN PSYCHOLOGICAL ASSOCIATION. Publication manual [M]. Washington, DC: American Psychological Association, 2010: 33.

[20] 温忠麟，范息涛，叶宝娟，等．从效应量应有的性质看中介效应量的合理性[J]．心理学报，2016，48（4）：435–443．

[21] 周彦池，裴昌根．数学教育研究与实践的热点及趋势——第二届华人数学教育大会暨数学教育博士生论坛综述[J]．数学教育学报，2016，25（6）：93–95．

[22] LARRY V, HEDGES L V, OLKINI. Statisticalmethods for meta-analysis [M]. Orlando: Academic Press, 1985: 76–81.

[23] BORENSTEIN M, HEDGES L V, HIGGINS J P T, et al. Introduction to meta-analysis [M]. John Wiley & Sons, 2011: 27.

[24] Cohen J. Statisticalpower analysis for the behavioral sciences [M]. New York: Academic Press, 1977: 20，66–67，82，224–225.

[25] MCGRATH R E, MEYER G J. Wheneffect sizes disagree: The case of r and d [J]. Psychological Methods, 2006, 11 (4): 386–401.

[26] HEDGES L V. Distributiontheory for glass’s estimator of effect size and related estimators [J]. Journal of Educational Statistics, 1981, 6 (2): 107–128.

[27] COHENJ.Statistical power analysis for the behavioral sciences [M]. 2nd ed. Hillsdale, NJ: Erlbaum, 1988: 79–80，223–225，283–287，413–414.

[28] 郑昊敏，温忠麟，吴艳．心理学常用效应量的选用与分析[J]．心理科学进展，2011，19 (12)：1 868–1 878．

[29] COHENJ. Statistical power analysis [J]. Current Directions in Psychological Science, 1992, 1 (3): 98–101.

[30] 权朝鲁．效果量的意义及测定方法[J]．心理学探新，2003（2）：39–44．

[31] HAGEN R L. In praise of the null hypothesis statistical test [J]. American Psychologist, 1997, 52 (1): 15–24.

[32] 季理真，章勤琼．统计支配世界——漫谈何为统计与统计何为[J]．数学教育学报，2015，24（2）：10–11．

[33] 张和平，裴昌根，宋乃庆．小学生几何直观能力测评模型的构建探究[J]．数学教育学报，2017，26（5）：49–53．

UsingP Value in Educational Research: Problems and Countermeasures——Concurrently Discussing about the Use of Effect Quantity

SHEN Guang-hui^{1, 2}, FAN Yong-feng^{2, 3}, CHEN Ting^{2, 3}

(1. School of Mathematics and Statistics, Southwest University, Chongqing 400715, China;2. Southwest University Branch Center of National Innovation Center for Assessment of Basic Education Quality, Chongqing 400715, China;3. Faculty of Education, Southwest University, Chongqing 400715, China)

Abstract:P-value was an important tool for statistical inference in educational research, but there were many problems in its application. Based on statistical analysis of the use of P-value in the 241 articles belonging to the CSSCI journals in the field of education (2017—2018), it was found that these problems in the use of P-value, including P-value error expression, selecting the significance level by the P-value, ignoring the effect of samples to P-value, incompletely reporting the information of P-value and related indicators, etc. Therefore, it was necessary to understand P-values and related concept before using P-values, give alpha before calculating P-value, repeatability test and introduce the effect size, provide full reports as much as possible. Besides, as an important index to measure the effect size, the effect size was often ignored by educational researchers. Therefore, in order to improve the accuracy of statistical inference and the scientificity of educational research，five types of effect size could be introduced to educational research, both qualitative judgment and quantitative judgment should be considered, by using P-value and effect size.

Key words:P-value; problem; hypothesis testing; effect size

收稿日期：2019–03–22

基金项目：中国基础教育质量监测协同创新中心重大成果培育性项目——高中监测制度建设及监测方式研究（2019-06-021-BZPK01）；中国博士后基金面上项目——学校特色发展水平常模构建研究（2017M622934）；中国基础教育质量监测协同创新中心重点培育项目——西藏小学生数学学业质量监测（2018-06-020-BZPK01）；中央高校专项资金项目——西藏初中生数学学业质量监测研究（SWU1709664）

作者简介：沈光辉（1993—），男，湖北襄阳人，硕士，主要从事教育统计研究．

中图分类号：G449.7

文献标识码：A

文章编号：1004–9894（2019）04–0092–07

引用格式：沈光辉，范涌峰，陈婷．教育研究中的P值使用：问题及对策——兼谈效应量的使用[J]．数学教育学报，2019，28（4）：92- 98．

[责任编校：周学智、陈汉君]

标签：P值论文; 问题论文; 假设检验论文; 效应量论文; 西南大学数学与统计学院论文; 中国基础教育质量监测协同创新中心西南大学分中心论文; 西南大学教育学部论文;

教育研究中的P值使用：问题及对策──兼谈效应量的使用论文