回归分析应用中的误区_相关性分析论文

回归分析应用中的误区,本文主要内容关键词为:误区论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

回归分析是统计方法中最易接受和广泛应用的方法。正因为如此,它也最容易被误用。从国内一些杂志、书刊、论文中看到的应用回归分析解决的问题,有的确实很好,但也不得不说有些是不行的,甚至分析结果已显示回归方程是有问题的,而文章还在作种种推论。因此我想在这里就发现的一些问题,结合国内外已有的一些研究工作和有意思的观点,谈谈自己的认识。我所针对的是问题,而不是某本书、某篇论文,因此不涉及具体的例子,而只是就理论和方法来加以说明,希望对以后应用回归分析的人能有一点帮助,从而减少误用的现象,提高应用水平。

回归分析在社会经济中的应用有两个方面是常见的:一个是探讨变量之间是否相关;一个是用来作预测和控制。现在分别来讨论有关的问题。

1、相关性和相关系数 在回归分析中经常用相关系数来描述两个变量之间的相关程度,相关系数小是不是反映了两个变量之间是不相关的,甚至是独立的呢?其实并不是这样简单。

相关系数比较完整的说法应该是线性相关系数,它反映两个变量之间线性相关的程度,不能反映两个变量之间非线性的相关程度,更不能反映在通常意义下两个变量是否有关,所以它的功能是有限的,不能予以夸大。

例如x是正态N(0,1)的变量,y=x[2]它是一个自由度的x[2]变量,Ey=1。这时Ex=0,Ex[3]=0,因此就有:Cov(x,y)=Exy-(Ex)(Ey)=Ex[3]-(Ex)(Ex[2])=0,它的相关系数是0,而x与y是确定性的函数关系,知道了x,立即可得y=x[2],x与y不可能独立。因此简单地从相关系数的绝对值的大小来判断变量之间在通常意义下的是否有关是不会得出正确的结论的。

如果想了解x与y之间是否有n次的函数关系,即是否有y=cx[a]这类关系,则对等式两边取对数(注意这时y、x及c都是正数,而在经济资料中,这常常是满足的)就有

logy=logc+alogx

把logy与logx分别看作变量u和v,注意到logc是一个常数,因此上述关系也就是

u=b+av

即u与v(logy与logx)是线性相关的。反过来说,若logy与logx线性相关程度较高,就反映了y与x之间有幂函数的联系。

从这一段的论述就可看出,如果认为y与x之间有某一种确定函数关系能反映它们之间的联系,将这个函数明确表示出来写成

y=f(x,θ)

的形式,应将f(x,θ)看作一个变量z,而讨论y与f(x,θ)线性相关的程度,也即y与z的相关系数。因此多元相关系数在多元线性回归中起的作用也是这样,即上述的f(x,θ)是x为向量,θ为向量,函数是线性的,

一般地说,y与x的非线性相关的程度是无法用一个量来描述的,一旦知道了y与已知的函数f(x)之间有关,y与f(x)的线性相关系数就能反映y通过f(x)对x的依赖程度。

了解这些以后,就可以知道,如果y与x[,1],…,x[,k]的多元线回归方程呈现的多元相关系数不大,这不一定是x[,i]与y不相关,还有一个可能是x[,i]与y不是线性地相关,需要寻找一个反映它们之间关系的适当的函数。

那么秩相关系数可以起什么样的作用呢?如果x与y的秩相关系数较大,则x与y可以有线性关系,也可以有非线性的关系。为什么这样说呢?所谓秩相关系数是按变量数值的相对大小排的名次(简称为秩)来计算名次之间的相关程度。我们看一个简单的例子就可以知道计算一下秩相关系数是有意义的。为了方便,我们将x的值自小到大排列

2、相关性与因果性 在应用中,往往容易把相关性与因果性相混淆。两者是相关的不一定有因果关系。而且有的相关性是一种假象,并不反映它们内在的联系,因此必需在回归分析中弄清楚下述两个问题:

(ⅰ)所考察的变量之间是否真的有相关(是在普通含义下的相关)?

(ⅱ)在回答(ⅰ)是肯定的前提下,再问是否有因果关系?

从回归分析技术开始被应用时,已经注意到了问题(ⅰ),因而才有各种检验的方法产生。回归分析中的一些检验方法,在某种意义下,正是想回答问题(ⅰ)而逐步发展起来的。

F检验这一名称容易混淆了不同目的的检验,而只强调了统计量的分布,在回归分析中许多不同的检验,它的统计量都是F分布,均被简称为F检验,下面分别来予以说明:

(a)方程是否有意义的F检验。回归分析中平方和分解公式导出因变量y的总变差可以分解为两部分:

(b)单个变量在方程中出现是否有意义的t检验或F检验。若已求得了回归方程

自然要问,这些x[,1],…,x[,k]中是否每个都是真正起作用的?这显然应在方程是否有意义的F检验,即(a)中的F检验通过后,才能问这个问题。若方程本身没有意义,那不必去问每个变量如何,而已断定这些变量相应的这个关系式是不行的。在方程已断定有意义之后,就要考虑每个在方程中出现的变量是否真的起作用。

这里的起作用是从方程的整体来看,有这个变量与没有这个变量有无显著的差异。这里用x[,k]来作例子。不用x[,k]的信息(有关y的)和用x[,k]的信息有无显著差别,它就是通常筛选自变量时用的F检验。逐个考虑方程中所含的变量,剔除不起作用的(这个不起作用是相对而言,这个变量没有提供关于y的有用的信息),使方程用起来更适用。

(c)拟合不足的F检验。这必需要有真正的重复观察值才能进行。在同一组条件下的重复观察值提供了试验真实误差的较好的估计。通常没有重复时,误差估计是用剩余平方和(残差平方和)来估计的,剩余平方和可能会包含着未认识到的重要因素引起的y的变异,因此将剩余平方和与重复试验所得的误差估计去比较,就可判断是否还缺少重要因素的检验,统计量也是F分布,称为拟合不足(即因素考虑不够多)的检验。

很明显,这三个检验的作用是不同的。(a)与(c)对方程是否适用是重要的,如果(a)与(c)的检验结果认为方程不行,就不能用方程来作预测或控制。但是一定要注意,不能由此断言所考虑的自变量x[,1],…,x[,k]与y没关系,只是说限于我们所设想的这种关系——线性函数是不行的。

现在来考虑问题(ⅱ)。如果方程适用,是否表明自变量与因变量之间有因果关系?要判断因果关系,必须由具体问题涉及的专业知识去判断,不能由方程的联系形式来判断。它们之间有联系,可能有因果性,也可能有一个共同的原因支配着两者有联系。例如鸡叫与天亮是有联系的,鸡叫了,天就快亮了,但鸡叫决不是天亮的原因。原因是鸡的生物钟与地球的自转规律有关,但我们可以利用这一关系来作天是否快亮的判断(农村很多人过去是以鸡叫来判断的)。弄清楚这一点对下一问题的讨论有很好的作用。

3、相关的量能否用于预测或用于控制 在社会经济的实证分析中,利用相关的量来控制、调节或预测似乎是常常见到的,这会有什么问题呢?八十年代以来,经济计量学家对这一点有了一些更为深入的看法。由于信息、数据积累的手段有了进步,时间序列的分析变得很实用,因此用一个变量的历史记录来预测将来的值是完全可行的。于是要判断一个变量x对另一个变量y是否能提供预测的信息,就可以比较两种不同的预测:

(a)用y自己的历史作预测:

(b)用y,x的历史来作y的预测。

如果(b)预测的y的方差比(a)预测的小,这就证明了x确有预测y的信息,应该加以利用。如果(b)的预测值的方差并不比(a)的小,这就反映了使用x后预测的变异会更大,x不应用于y的预测。这一观点在理论上是合理的,在实际使用上就需要对时间序列分析比较熟悉。国内经济统计已逐渐更多地注意到时间序列分析的方法,有关的书也出了一些,现在可以用这一观点来重新考虑一下。

经济、社会的资料时间性很明显,而且都有随时间增长的趋势,这就很容易导致假回归的出现。Granger和Newbold(1974)给了一个如下的例子。设

这就告诉我们,对于随时间变化的数列,随随便便用回归是会走入误区的。所以八十年代以来,时间序列分析在经济计量学中发展很快,一些新的模型和方法,如ARCH、GARCH模型、GMM(广义矩估计法)法,条件检验(CT检验)等等,这些内容应设法尽快引入教材,特别是大专院校的教材。现在的统计教科书中,回归分析占了不少篇幅,在许多课程中重复提到,但都不深入,是否可以减少重复,留出篇幅来介绍一些新的内容呢?这是应该好好考虑的。

标签:;  ;  

回归分析应用中的误区_相关性分析论文
下载Doc文档

猜你喜欢