统计变异分析的方法论研究,本文主要内容关键词为:方法论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
内容提要:统计变异分析理论和方法历来被认为是比较完备和成熟的,但在实际运用中却存在不少令人费解的困惑和矛盾。本文试就变异分析中的三个问题:数据分组条件下的总方差构成、两种变异指标的运用场合及离散系数算式改造等进行了进一步探讨。
关键词:统计变异分析 方法论
无论是描述统计、推断统计,还是其它经济计量、经济分析科学的统计运用,变量变异的测定及分析都是一个不可或缺的内容。人们一般认为,无论从测度指标还是从评价方法上,标志变异分析是比较成熟的、定型的。比如说,比较普遍的观点有:可以利用方差加法定理来说明实际资料的组距数列方差与总方差的关系;评价平均指标的代表性大小,用标准差比平均差指标要好;用标准差系数(离散系数)的算式来反映经济现象的标志变异相对程度,等等。尽管统计学发展到今天,已有数百年的历史,但继续从实践和数理两个方面加以研究便可发现,变量(也称为标志)变异指标及分析本身仍需完善、补充,上述观点似可商榷、争鸣。
一、方差加法定理所给定的数量关系与实际方差分解存在差异
传统的统计理论习惯于用方差加法定理来解释组距数列方差和总方差的关系。也就是说,在资料分组的条件下,按方差加法定理,单项数列方差为组间方差,它等于总方差,组距数列方差为组间方差。换言之,总方差与组距数列方差存在一种确定性关系,后者是前者的一部分,从数值上说,组距数列方差必定小于总方差。可是统计实践却提出了上述结论难以解释的问题:为什么在实际资料方差计算中,组距数列方差大于总方差的现象会时有出现?
组距数列方差与总方差的关系实际上是一个总方差的构成问题。以往对两者关系的研究有一个误区:那就是从方差加法定理出发,去讨论组距数列方差的大小问题,而忽略了加法定理使用的是组平均数计算这一基本前提。正确的研究应该是从方差定义出发,使我们的分析能贴近于组距数列方差计算的资料为各组组中值这一客观事实,以便在数理上弄清楚组距数列方差与总方差的关系。
很显然,由于实际工作中的资料限制(即按组中值计算),总方差的构成远比按组平均数计算推出的方差加法定理所表达的关系式要复杂得多。这里的I[,3]就是所谓的按组中值计算的组距数列方差,亦即实际中以组中值计算的方差,它的确是总方差分解后的构成部分。但从式(1)看,σ[2]和I[,3]之间不存在一种确定性的关系,它们之间的关系还取决于其他几个构成部分在数量上的组合情况。从取值上看,I[,1]、I[,3]的取值总是非负;I[,4]的取值为正,只在按组中值计算的总平均数与实际总平均数相等时才会为零;I[,2]则是一个可能为正、为零或为负的实数。
根据上面的分析,当I[,2]取值为负,且绝对值很大时,组距数列的方差就会大于总方差,而当I[,2]取值为正,且I[,1]、I[,2]和I[,4]之和的绝对值很大时,组距数列方差就会远小于总方差。深入分析下去,就可以使两者的关系清晰起来。
(一)两种特殊情形下的组距数列与总方差的关系
于是得证。
(二)其他情况下的组距数列方差与总方差的关系
除上述两种特殊情形之外,我们通过对总方差构成情况分析,可以得到如下结论:
上述分析澄清了传统理论中的一个似是而非的方法问题,从一个侧面也说明了对某些似已成形的东西,完全有补充完善的必要。
二、标准差与平均差指标孰优孰劣
标志变异分析主要依靠一族变异指标,象全距、平均差、标准差和标准差系数等。在这些指标的比较中,几乎所有的教科书都推崇标准差,称其为“最常用、最重要的”标志变异指标。而得出这个结论的根据主要有三条:(1)有与平均差相同的优点,即反映了各单位的标志变异情况;(2)离差平均和为最小;(3)灵敏度高和方便计算。相比之下,后面两条平均差均不具备。但这里有一个问题,是不是在任何场合下用这三条衡量标准差和平均差的优劣都合适?答案是否定的。我们可以来分析一下。
(一)评价标志变异指标的一个客观标准是看它是否反映了离差的
真实情况
我们先来看一个例子(见表二):显然,用平均差和标准差来评价两组资料的平均指标代表性,竟然会得到完全相反的结论。
表二
在例中,哪个结论更有说服力呢?我想,首先要建立一个评价的客观标准,这个客观标准只能是看哪一个标志变异指标能否客观反映离差的真实情况。从数学角度看,平均差可以从绝对值上反映离差的实际情况。而标准差由于平方、开方运算,与平均差相比,具有放大或缩小离差的效应。之所以会出现例中的矛盾结论,其原因就在于,标准差的计算过程增强了极端值对测度离差的影响,这种人为增强效应无疑使数列的离差情况失真,而失真的结果就会产生对标志变异判断的偏误。因此,就例子来说,用平均差指标来判断标志变异情况更有说服力。其实,这两种变异指标的计算结果是否一致还同数列分布的类型有关,比较两个分属于不同类型的次数分布的变异程度,若用标准差指标,则会由于离差的增强效应和次数的加权影响,使得离差的“失真”程度更甚,此时还是使用平均差指标为好。若两个数列同属钟形分布,用平均差和标准差来评价变异程度的结论应该是相同的。一般来说,在数值上有标准差大于平均差的关系存在。在这种情况下,用哪一种指标来评价离散程度都可以,不存在孰优孰劣的问题。这正如使用海里为长度计量单位和使用公里来计量长度一样,无从区分这两种计量单位的好坏。
(二)“离差平均和最小”的数学性质与两种指标衡量标志变异的优劣问题并无直接关系
方差是随机变量X的二阶中心矩函数,它当然满足“离差平均和最小”的数学要求,标准差又是方差开方后的算术根。而平均差是X的一阶绝对中心矩函数,它只满足各变量值与其中位数的“绝对离差和为最小”的数学要求。有的文章以二者数学要求不配套为由来作为舍弃平均差的理由,似乎也缺少深入一步的分析。就此而论,是不是又能说明Σ丨X-Me丨/N就一定
(三)平均差真正的“短处”在哪里
一些学者认为,平均差“不适合代数运算”、“不适宜进一步进行数学处理”。对这一点应作具体分析,如果单纯从计算过程看,平均差要比标准差简单。但为什么人们会舍简就繁呢?这主要是在推断统计中,标准差在反映变异程度时有平均差无法替代的作用。推断统计中,随机变量及分布与标准差(或方差)、数学期望等特征数密切相关,人们对这些特征数的研究与运用已到了相当的程度,有了比较成熟的理论可依可用。而平均差的绝对值运算,对推断统计中一些问题的分析不利,在这一点上,它的确逊于标准差。正是由于这个道理,为我们科学对待和合理运用这两个变异指标提供了依据。归纳起来,描述统计中,应该注意运用平均差;而在推断统计中,应该注意运用标准差。
三、使用离散系数的改造公式评价平均指标的代表性
对于两个性质不同或标志值自身水平不同的总体,要比较、评价其研究变量的平均水平的代表性高低,一般使用标准差系数(即离散系数),即取标准差与其算术平均数对比的比值来衡量平均指标的代表性。一般情况下这样运用是可以的,但在某些场合,离散系数在比较的过程中却存在着问题。
先来看一个例子。某县五个乡的农机站和育种站的利润完成资料如下(见表三):
表三 单位:十万元
根据变异指标与平均指标代表性的关系,用上述计算结果比较,显然会出现矛盾情形:若用标准差比较,会得出育种站平均利润额指标的代表性高于农机站的结论,因为σ[,1]<σ[,2];若用离散系数比较,则会得出与上述判断完全相反的结论,因为Vσ[,1]<Vσ[,2]。为什么会出现上述矛盾情况呢?
我们知道,标准差只是方差开方后的正根,只能从绝对值的意义上说明平均的离差有多大。而算术平均数列则是根据各个变量值计算的,无论取值结果为正为负还是为零,它都代表总体在某一标志下的一般水平。而统计所研究的社会经济现象都有其特定的含义和内容。很显然,当运用由标准差和算术平均数派生出来的离散系数指标来衡量平均指标的代表性时,就无法避免出现象上例那样的矛盾情形。我们甚至还可以将上述计算结果另加设定而举出一个更加绝对的例子。
看来,矛盾的实质在于标准差系数计算公式的两个对比指标值的符号取向问题。算术平均数(母项)表示一个有特定经济内容的数量特征,取值有正有负;而标准差(子项)则旨在反映总体各单位标志值的离中趋势,反映的是平均离差,它并不表现这个平均离差到底是正离差还是负离差,即不强调离差是正还是负的问题。事实上,当对比指标值的符号取向一致时,就不会出现上述矛盾现象。而当符号取向为异向时,就存在着出现上述矛盾的可能性。这就给了我们一个启示:能否将离散系数公式加以改造,以符合评估具有特定内容和含义的平均指标代表性的要求呢?我认为,这种改造是必要的、简便的和可行的。具体说来,可以有两种方法:
(一)考虑算术平均数和标准差的特点,结合现象的具体内容来运用离散系数公式
当用以进行比较的总体的平均指标(即算术平均数)为正值的时候,可以直接利用原来的离散系数公式进行计算和作出判断,因为这时对比指标符号取向是一致的;当用以进行比较的现象的平均指标出现负值的时候,就需要进行一些变通处理以调整对比指标数值的符号取向。在这里,存在两种选择:一种是删去平均指标值的符号,然后进行对比;另一种是对标准差的取值不按定义取算术根,而是取其与平均指标同符号的根,然后对比计算。这两种选择办法计算得到的离散系数,由于对比指标值符号取向一致,所以都不会出现矛盾情形,可以客观地反映平均指标的代表性。
(二)对原离散系数公式进行改造
这种改造是将其由标准差和算术平均数对比,改造成为由标准差与算术平均数的绝对值进行对比。
这个结论与实际情况是吻合的,同时与用标准差衡量平均指标的代表性也不会发生冲突和矛盾。这种方法较之第一种方法更简便易懂。当然,两种方法的目的是同一的,即为了使对比指标值的符号取向一致。
而在表述上,我们不妨将离散系数表述为是标准差与算术平均数的绝对值对比的比值,它是一个标志变异的相对指标,可以用百分比数、系数或倍数等来表示。这个表述概括了离散系数改造公式的内涵,使之更符合衡量标志变异大小的要求。
标签:离散系数论文; 总体标准差论文; 标准差系数论文; 方差分析论文; 总体方差论文; 数学论文; 方差公式论文; 方差计算公式论文; 统计学论文;