空间误差模型的多重异常值得检验_临界值论文

空间误差模型的多个异常值得分检验,本文主要内容关键词为:多个论文,误差论文,模型论文,异常论文,空间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      0 引言

      异常值的检验问题一直是统计学里的一个重要研究领域。一元样本(包括不同的分布形式)以及多元正态样本中的异常值检验问题早已获得深入研究(Barnett和Lewis,1994)[1]。近年来学者们又不断研究了很多更为复杂的统计模型的异常值检验问题,并取得了丰富的研究成果。例如Fox(1972)[2],Tsay(1986)[3],Ljung(1993)[4],Giordani(2007)[5]讨论了时间序列模型的异常值识别问题。石磊等(1997,1999,2006,2007)[6~9]研究了均值扰动下随机效应模型的异常值检验问题。尹天水等(2006)[10]研究了非平衡单向分类随机效应模型中的多个异常值检验问题。石磊和陈歌迈(2008)[11]研究了均值漂移模型下多水平模型多个异常值的检验统计量的具体形式及其近似分布。田玉柱等(2010)[12]基于极值理论研究了EXPAR时序模型的异常值诊断问题。李丹玲等(2011)[13]基于线性v-支持向量回归机提出一种回归数据中的异常值检测方法。然而传统的统计理论是建立在独立观测值假定基础上的理论。对于空间数据而言,不同地区之间是存在空间相关性的,此时需要利用基于空间数据的空间计量模型加以描述及分析。由为此,金立斌等(2014)[14]和金立斌等(2015)[15]分别研究了广义空间模型和混合空间自回归模型中单个异常值的检验问题。本文研究了另一种常用的空间计量模型——空间误差模型(SEM)中的异常值检验问题,并基于均值漂移模型和方差加权模型这两种异常值模型给出得分检验统计量的具体形式及其渐近分布。

      文章安排如下:第1节介绍了空间误差模型(SEM)。第2节介绍了得分检验并导出了空间误差模型和和方差加权模型这两种异常值模型下得分检验统计量的具体形式及其渐近分布。第3节基于本文提出的检验统计量对哥伦比亚市社区犯罪数据(Anselin,1988)[16]进行了实例分析,最后给出了修正模型的具体方法。

      1 空间误差模型

      本文考虑空间误差模型(SEM)如下:

      

      其中,因变量y是n×1维向量,X是n×p的设计矩阵,W是n×n的空间权重矩阵,参数λ是空间相关误差的系数。β反映解释变量对因变量的影响。

      

      进而,原模型(1.1)下的对数似然函数为

      

      用l分别对参数λ,

,β求导并令其为0,可得似然方程如下:

      

      显然,该模型的参数估计无显式解,只能通过迭代求解。关于该模型下的相关估计理论可参阅文献[17](LeSage,1999)。

      2 异常值识别

      2.1 得分检验

      

      2.2 均值漂移模型

      下面我们分别基于均值漂移模型和方差加权模型这两种异常值模型来识别空间误差模型中的异常值。

      均值漂移模型表达了数据的一种异常情况,即某些观测值

(i=1,…,n)的均值严重偏离其假设。我们令I表示观测值的一个指标集。为研究指标集I中的观测值是否为异常值,我们构造均值漂移模型形式如下:

      

      在均值漂移模型(2.1)下,我们很容易得出

      

      进而易得其对数似然函数为

      

      于是我们可导出均值漂移模型(2.1)下参数的Fisher信息阵即为如下引理:

      引理2.1 在均值漂移模型(2.1)的假设下,当γ=0时,信息阵I(θ)为

      

      利用第2.1节中得分检验的结果可以证明如下定理:

      定理2.2 假设问题

:γ≠0的得分检验统计量为

      

      

      假如指标集I中的元素个数为1,那么我们所研究的问题则退化为单个异常值的检验问题。此时均值漂移模型(2.1)形式变化为:

      

      这里γ为标量,代表均值漂移参数,

为第i个元素为1其余元素全为0的n×1向量。其余矩阵、向量的定义同均值漂移模型(2.1)。从而易得单个异常值检验的得分统计量,即为如下推论:

      推论2.3 假设问题

:γ≠0的得分检验统计量为

      

      2.3 方差加权模型

      而方差加权模型则表达了另一种异常情况,即某些

(j=1,…,n)的方差严重偏离其假设。我们令J表示观测值的一个指标集。为研究指标集J中的观测值是否为异常值,我们构造方差加权模型形式如下:

      y=Xβ+ξ

      

      

      于是我们不难得到该模型下的对数似然函数为

      

      因此我们可以导出方差加权模型(2.8)下的Fisher信息阵即为如下引理:

      引理2.4 在方差加权模型(2.8)的假设下,当ω=1s时,信息阵J(θ)为

      

      利用第2.1节中得分检验的结果可以证明如下定理:

      定理2.5 假设问题

:ω≠1s的得分检验统计量为

      

      若指标集J中元素个数为1,那么我们所研究的问题则退化为单个异常值的检验问题。此时方差加权模型(2.8)形式变化为:

      

      

      3 数值实例

      3.1 实例数据的异常值识别

      本节利用哥伦比亚市社区犯罪数据(Anselin,1988)[16]来说明本文检验方法的应用。记y为哥伦比亚市49个社区的犯罪率构成的49×1维列向量,由文献[16](Anselin,1988)知,它满足空间误差模型

      

      对上述数据,我们采用本文中所介绍的得分检验方法来检验该数据中的异常值。因为我们预先不知道哪个(组)数据为异常值,因此在检验过程中均采用无标识的异常值检验方法。

      下面我们分别利用均值漂移模型(2.1)以及方差加权模型(2.8)进行数据分析,并对这两种不同扰动方式下的异常值模型的检验结果作出对比。

      

      3.1.1 均值漂移模型

      通过原模型的残差图(如图1所示),我们可以初步判断出数据中存在异常值,且第4个个体的异常情况较为明显。这里考虑均值扰动下的情况。我们利用均值漂移模型(2.1)进行数据分析。先考虑单个异常值的识别。

      取置信水平α=0.05,则对于无标识的异常值检验,其临界值为

。我们分别计算各个个体的score值。这里表1的前2列给出了单个异常值检验下的score统计量,此处score统计量的数值按从大到小排列,我们仅给出前6个最大的数值,并将其与临界值10.79加以对比,可以识别出第4个个体为异常值。

      我们继续考虑两个异常值(m=2)的检验问题,取置信水平α=0.05,则对于无标识的异常值检验,其临界值为

。我们分别计算每组数据的score值。这里表1的3,4两列给出了m=2的情形下的score统计量,此处score统计量的数值按从大到小排列,我们仅给出前6个最大的数值,并将其与临界值20.13加以对比,发现有两组数据的score值超过临界值20.13,分别是数据组(2,4)和(4,34),且数据组(4,34)的score值最大,因此我们认定第2,4,34个个体为数据中的异常值。

      3.1.2 方差加权模型

      下面我们考虑方差扰动下的情况。我们利用方差加权模型(2.8)作数据分析。首先考虑单个异常值的识别。

      取置信水平α=0.05,则对于无标识的异常值检验,其临界值为

。我们分别计算各个个体的score值。这里表1的5,6两列给出了单个异常值检验下的score统计量,此处score统计量的数值按从大到小排列,我们仅给出前6个最大的数值,将其与临界值10.79加以对比,发现有2个个体的score值超过临界值10.79,分别是第4个个体和第34个个体,因此我们识别出第4个个体和第34个个体为异常值。

      再考虑两个异常值(s=2)的检验问题,取置信水平α=0.05,则对于无标识的异常值检验,其临界值为

。我们分别计算每组数据的score值,这里表1的最后两列给出了s=2时的score统计量,此处score统计量的数值按从大到小排列,我们仅给出前6个最大的数值,将所有score值与临界值20.13加以对比,我们发现所有的SC(4,*)≥20.13,这里*=1,2,3,5,…,49,这是因为第4个个体是强影响点,其score值为69.26,因而导致了所有数据组(4,*)的score值都大幅提升,于是在s=2的情形下我们无法对数据的异常情况作出判断。因此,在方差加权模型(2.8)里,我们仅考虑单个异常值的检验问题,认定第4,34个个体为异常值。

      3.2 模型比较

      下面我们根据检验出的异常值情况提出修正模型,并根据修正后的模型的性质优劣来验证异常值检验结果的正确性。这一方法已被一些作者采用,可参见文献[19](Zhang和King,2005)。这里我们只分析无标识的异常值检验。

      对于空间误差模型的均值漂移模型(2.1),我们识别出了第2,4,34个个体存在异常。因此,我们提出修正模型形式如下:

      

      

      

      而对于空间误差模型的方差加权模型(2.8),我们识别出了第4,34个个体存在异常。从而我们考虑修正模型形式如下:

      

      基于残差的峰度偏度及正态概率图,我们可以比较原模型(3.1),修正模型(3.2)和(3.3)的优劣,并分析这两个修正模型较原模型(3.1)是否有改进。若有改进,则说明了我们的异常值检验方法是正确有效的,且根据检测出的异常值结果而提出的修正模型性质上也优于原模型;如若没有改进,则说明我们的异常值检验方法并不成功。

      

      图2给出了原模型(3.1),修正模型(3.2)和(3.3)的残差正态概率图。由图2(a)可以看出,在原模型(3.1)下,大部分概率点都在拟合直线附近,但是有部分概率点明显偏离拟合直线,说明利用原模型(3.1)拟合数据的效果不佳。而对于修正模型(3.2)和(3.3),其残差正态概率图分别如图2(b)和图2(c)所示,我们发现,修正模型(3.2)和(3.3)都明显改善了原模型(3.1)的离群点情况,且所有概率点都紧密围绕在拟合直线周围,说明了我们的样本数据应用在这两个修正模型中不拒绝正态性分布假设。

      因此我们判定不论是修正模型(3.2)还是修正模型(3.3),其性质都要优于原模型(3.1)。我们所提出的异常值检验统计量能够有效地识别出数据中存在的异常值,且修正模型(3.2)和(3.3)是处理异常值的一个有效的办法。

标签:;  ;  ;  ;  

空间误差模型的多重异常值得检验_临界值论文
下载Doc文档

猜你喜欢