空间自回归模型及其估计_参数估计论文

空间自回归模型及其估计,本文主要内容关键词为:模型论文,空间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、概述

在经济问题研究中,处理的数据分为时间序列数据、截面数据以及截面时间序列数据(panel data)。应用回归模型研究变量之间的关系时,假设模型满足Gauss-Markov条件,当研究的数据是时间序列时,通常会存在序列相关,针对这类数据的问题可以结合时间序列分析的方法加以处理;如果研究的数据为截面数据时,若数据是取自某一时点(或时期)的不同区域(或点,以下统称区域),如不同的省份、市、县等,数据中通常包含区域所处位置的特性,因此,各区域之间的数据也会存在相关,这种相关性与时间序列的相关对应,称为空间相关。

处理空间相关问题与时间序列相关相比,其特殊之处在于序列相关只有时间维一个方向,而空间相关的方向是多维的。研究空间相关时,基本想法是相邻的区域比较“相似”,较远的区域不太“相似”,即假定相邻的区域有较强的相关,距离远的区域相关性较弱,因此,在研究过程中,涉及空间相邻、空间加权矩阵等概念,张尧庭(1996)对这些问题进行了讨论。与处理序列相关问题时类似,处理空间相关问题的一种方法是空间自回归模型,Cliff和Ord(1981)对其一般模型、参数估计和检验技术进行了开拓性的工作,本文将着重介绍空间自回归模型及其估计问题,并给出一个案例。

二、模型及参数的极大似然估计

(一)模型

针对截面数据的空间自回归模型的一般形式为:

其中y是所研究区域的被解释变量,X是解释变量,u是空间模型的残差。

一般形式的空间自回归模型可以派生出其他几种的模型。

当ρ=λ=0时,为传统的回归模型,它意味着模型中,没有空间特性的影响。

当ρ≠0,β=λ=0时,为一阶空间自回归模型。这个模型类似时间序列分析中的一阶自回归模型,反映了变量在空间上的相关特征,即所研究区域的被解释变量如何受到相邻区域被解释变量的影响。

当ρ≠0,β≠0,λ=0时,为混合回归与空间自回归模型。在这个模型中,所研究区域的被解释变量不仅与本区域的解释变量有关,还与相邻区域的被解释变量有关。

当ρ=0,β≠0,λ≠0,为残差空间自回归模型。注意到这个模型可以改写为:

也即所研究区域的被解释变量(Y)不仅与本区域解释变量(X)有关,还与相邻区域的被解释变量(表现为WY)以及解释变量(表现为WX)有关。

(二)参数估计

各种空间自回归模型中的空间相关性从形式上看与时间序列问题中时间方向上的相关非常类似,因此人们希望将用于滞后相关和序列相关的最小二乘估计(OLSE)的性质直接用于空间的情形。然而,空间相关具有多方向的特性,因此时间序列分析方法中一些有效的方法不能直接用于空间模型。下面分别考察空间自回归模型的最小二乘估计、极大似然估计,以及在极大似然估计时的统计检验问题。

1.最小二乘估计

(1)空间自回归的最小二乘估计

经典经济计量学中,既使模型中存在滞后因变量,只要残差项不存在序列相关,OLSE仍是一致估计,因此,尽管估计量的小样本性质受到影响(不再是无偏估计),但估计量是一致的,仍可用于渐近推断。

对于空间自回归模型,这个结论不成立。考虑一阶空间自回归模型:

y=ρWy+∈ (2)

式中y已经中心化,∈是iid的残差,尽管这个模型相当简单,没有多少实用性,但却包含了存在空间滞后相关变量时对OLSE的所有影响,因此以它为例不失一般性。

ρ的OLSE为:

与在时间序列情形时一样,第二项的期望不等于0,因此OLSE是有偏的。OLSE的一致性依赖于下面的两个条件:

Q是有限非奇异阵。

对于第一个条件,只要对W的结构加以适当限制就可以满足。第二个条件在空间情形时不满足。这时:

表式中W的存在,导致除非ρ=0,Plim≠0。

因此,对于空间自回归模型,OLSE是有偏的,而且不论残差的性质如何,都不一致。

(2)残差空间自回归的最小二乘估计

残差空间自回归对OLSE的影响与时间序列的结果一样,参数估计仍是无偏的,但不有效,因为这时扰动项协差阵不是对角阵。那么能否利用广义最小二乘估计法(GLS)进行参数的估计,如普遍用于残差具有序列相关和异方差性的各种两步GLS方法。

基于前述一阶空间自回归模型OLSE有偏,而且不论残差的性质如何,都不一致的结论,对于回归残差存在空间自回归结构,OLSE不能得到空间自回归参数的一致估计,因此GLS不适合于空间情形,在经典经济计量学中常用的Cochrane-Orcutt迭代法也不适合于空间情形。

2.极大似然估计

(1)似然函数

Cliff和Ord(1998)研究了针对空间AR模型的ML方法。Anselin(1988)给出了一般空间模型的MLE及其性质。

(2)极大似然估计的渐近协差阵

在通常的正则条件下,MLE是渐近有效的,这意味着它们达到C-R下界,以信息阵的逆的形式给出:

信息阵的元通过对参数θ的二阶偏导得到。将MLE的结果代入,并对信息阵求逆,得到渐近协差阵。因为这个方阵的维数是3+p,没有解析解。Anselin(1988)给出了信息阵对应于各参数的子矩阵的结果:

由这个结果,可以求得信息阵中的各元素,从而得到极大似然估计的渐近协差阵,它可用于参数的假设检验。

3.基于极大似然估计的假设检验

空间自回归模型中基于MLE的渐近检验方法仍是常用的Wald(W)、似然比(LR)和拉格朗日乘子(LM)检验。在一般空间自回归模型中,最关注的问题在于是否存在空间自相关()、回归参数β是否显著。

对模型参数的检验为:

这里g是q维向量,在对应于感兴趣参数的位置元为1,其余全为0。例如,考虑模型中空间自回归参数p的显著性检验,对应的约束表为:

Wald检验,要对全模型进行估计;LM检验只需要估计较简单的约束模型;对于LR检验,需要同时估计约束和无约束模型。

Wald、LR和LM检验渐近等价,在零假设下成立的条件下均渐近服从,q对应于约束的个数。在有限样本时,它们得出不同的值,检验统计量的值符合下述不等式:

W≥LR≥LM

这意味着在有限样本时,Wald检验比LM更易于否定。除了利用Wald,LR,LM统计量对回归模型残差是否具有空间自回归结构进行检验外,还可以利用Moran I统计量进行检验。Moran I统计量类似于经济计量学模型中的Durbin-Watson检验统计量。Moran I统计量为:

若W是标准化的:

Cliff和Ord(1981)给出了基于最小二乘方法时,当残差服从正态,I统计量服从正态分布,如果W是标准化的,则I统计量的期望和方差:

k为回归模型参数的个数。

三、案例

长江三角洲地区作为我国经济最具活力的地区之一,经济发展水平与居民收入水平的关系如何,是人们密切关注的问题。为此,我们以人均GDP(单位:元)代表经济发展水平,以居民人均可支配收入(单位:元)代表居民收入水平,选择长三角15个城市(上海、杭州、嘉兴、湖州、宁波、绍兴、舟山、南京、苏州、无锡、常州、镇江、南通、扬州、泰州)2001年的数据(数据来源:上海市、浙江省、江苏省2002年统计年鉴):

X:人均GDP;Y居民人均可支配收入。

为研究城市经济发展水平与居民生活的关系,我们使用的传统回归模型为:

在这个模型中,我们再引入空间滞后项,以考察本问题是否存在空间特性,在一般空间自回归模型中,我们采用的空间加权矩阵为

首先构造空间加权矩阵。我们利用各城市所处的位置,根据相邻与否构造出它们的相邻结构,从而得到空间加权矩阵,在空间加权矩阵中,相邻的城市对应的元素为1,否则为0。具体构造城市之间的相邻关系时,除了考虑有共同边界的城市有相邻关系,如上海与苏州、嘉兴等,还综合考虑了城市的交通联系,如上海与南通、舟山与宁波的联系。

对这个矩阵进行标准化,分别使每一行的和为1,得到标准空间加权矩阵W。

利用一阶空间自回归模型分别研究两个变量是否具有空间相关,结果为表1(表略,见原文,下同)中的模型(1)、(2),然后估计两个变量之间普通的回归模型,结果为表1中的模型(3),最后估计空间自回归模型,结果为表1中的模型(4)~(6)。

由表2(表略)的估计结果,我们可以得到如下结论:

(1)模型(1)、(2)估计的结果表明,长江三角洲15个城市居民人均可支配收入有显著的空间相关,反映出邻近城市之间居民收入具有相似性,相关程度较高。但模型(2)中参数ρ的估计值不显著,说明人均GDP没有显著的空间相关。

(2)从模型(3)~(6)的估计结果看。参数均在1%水平下显著,说明地区经济发展水平对居民收入有显著的影响,且参数满足

(3)对于线性回归模型(3),我们利用Moran I统计量对其残差是否具有空间特性进行检验,结果为:I=0.5760。

p值为0.0015,表明残差存在空间相关结构。因此只用普通线性回归模型(3)描述是不充分的,必须引入空间变量。

(4)用模型(4)拟合得到的有明显改进,说明居民收入存在“空间特性”,这与Moran I统计量检验结果一致。我们注意到,在模型(4)的估计结果中,空间自回归参数ρ显著,但残差滞后项参数λ不显著。

(5)将模型(4)的λ剔除,得到只考虑一阶空间滞后影响的模型(5);将模型(4)的ρ剔除,得到只考虑一阶空间残差滞后影响的模型(6)。在模型(5)和(6)中空间参数ρ和λ都分别是显著的,两个模型的都比模型(3)有明显改进。在模型(5)和(6)中,参数的估计值与模型(3)的结果相比都略有降低,但p值都更小,这意味着模型(5)和(6)的估计精度比模型(3)更高。

(6)我们对模型(5)和(6)作进一步比较。模型(5)和(6)中空间参数ρ和λ都分别呈现显著,这意味着本问题中,分别利用模型(5)或模型(6)描述是否存在空间特性时,都显示存在显著的一阶空间滞后特征。但模型(4)中同时包括空间滞后(体现为参数ρ)和残差空间滞后项(体现为参数λ)时,空间特性主要由模型中的空间滞后项描述,而残差空间滞后项的作用就不显著了。这表明在影响居民收入的空间变量中,邻近地区居民收入的影响起主要作用。

综合模型的拟合优度以及模型参数均为统计显著的要求,我们认为模型(5)的效果最好,即长三角15个城市居民收入水平除了受到当地经济发展水平的影响,还受到周边城市居民收入水平的影响,且这种影响是正向的,城市人均GDP增加1元,当地居民收入增加约0.11元,而非普通回归模型估计的约0.13元。

四、讨论

空间自回归模型使用过程中,受到空间相邻关系设计的影响,本文案例中采用的是有相邻边界为主的方法,在某些时候,区域的相关不一定是根据地理上相邻来定义的,不同的相邻关系定义,模型会得到不同的估计结论。

由于空间自回归模型的统计推断是基于渐近性质的,而且极大似然估计基于正态分布的假设与实际情况可能并不相符,所以必须有足够的样本量才能使估计及推断的结果可靠。在本文的案例中,如能加大样本量预期会有更好的效果。为了加大样本量,一种做法是扩大研究区域的范围,即除了这15个城市以外,加入其他邻近的城市,另一种做法是将数据汇总的区域细分,即对15个城市按县级汇总数据,则样本量将大大增加。

人类活动是在时空范围进行的,因此对于时间序列数据中普遍存在的序列相关问题,在取自区域的截面数据中也会存在。随着我国统计工作的不断深入,以时间和区域汇总的数据将大量出现,而且研究人员将很容易得到这些数据;其次,随着我国统计手段的提高,例如将遥感技术纳入到统计工作中来,利用空间相关进行空间估值的问题将越来越多。因此,研究经济问题中存在空间相关性问题的空间自回归模型乃至空间经济计量学模型将逐步受到人们的重视,成为研究工作中的一种重要工具。

标签:;  ;  ;  ;  ;  ;  ;  

空间自回归模型及其估计_参数估计论文
下载Doc文档

猜你喜欢