基于鲁棒MM估计的统计数据质量评价方法_生产函数论文

基于稳健MM估计的统计数据质量评估方法,本文主要内容关键词为:统计数据论文,稳健论文,质量论文,方法论文,MM论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、问题的提出

近年来,中国官方公布的统计数据的可靠性如何,一直是国内外众多研究机构和学者争议的热点问题。当前,已有众多国内外学者运用不同的方法对中国统计数据的可靠性进行了诊断。基于相关性的逻辑评估和基于异常值的评估是使用最多的方法。其中,基于相关性的逻辑性评估方法就是在与统计数据相关性较高的指标中,从已知正确的指标来对统计数据的可靠性作出评估意见。例如,Klein和Ozmucur(2002)选取了来源独立且尽可能多的与经济增长相关的15个有代表性的指标,使用了主成分回归方法,表明15个指标的变动与中国官方估计的GDP增长的相关关系完全符合经济规律,从而认为中国经济增长数据是可靠的[1]。基于异常值的评估方法是运用统计方法识别出统计数据的异常值,并结合异常值产生的背景判断其是否产生于统计数据质量问题。例如,刘洪和黄燕(2009)运用经典的最小二乘方法(OLS)估计得到生产函数,并通过学生化残差、Cook的D统计量、DIFFITS统计量等经典的诊断统计量,对我国某地区历年地区生产总值数据中存在的异常点进行了诊断[2]。

上述研究所用的评估方法都是以传统的均值、协方差和相关系数矩阵以及普通最小二乘法(OLS)为基础的。然而,这些传统的统计方法都是不稳健的,很容易受到数据集中少数异常值的影响。当数据集中包含有异常值时,使用上述方法会出现两种后果:一是多变量估计得不到正确的结果;二是根据拟合得到模型残差不能检测出所有的异常值。第二种后果却很少被人注意。一般认为,通过传统的拟合方法如OLS对数据进行拟合,可以依据一些经典的诊断统计量检测出数据中的异常值。然而,这些基于传统的OLS估计的诊断统计量主要是针对单个异常点而言的,如存在多个异常点,选用这些诊断方法可能会导致两种不良后果:一种为掩盖(masking)现象,即未能识别出某些真正的异常点;另一种为淹没(swamping)现象,即将正常点误判为异常点,并且,掩盖现象的影响尤为严重。

稳健统计方法不仅可以产生较少受到异常值影响的估计结果,而且拟合的残差可以更少偏倚、更突出地给出关于异常值的信息,能更好地识别异常值。本文介绍了基于MM估计的稳健回归的方法及异常值诊断的原理,并首次将该方法应用于对改革以来我国GDP数据的可靠性评估。

本文结构安排如下:第二部分介绍基于稳健MM估计的异常值诊断方法,第三部分介绍模型和数据,第四部分异常值诊断结果及分析,第五部分是结论及启示。

二、异常值诊断方法

(一)异常值及其影响

在既定的数据集中,或假设既定模型是正确的前提下,异常值的产生有多种原因,可能是由于数据来自不同分布的总体,也可能是由于总体条件的突然变化或者未知的某个因素的出现,还可能是由于数据本身存在测量误差。而由测量误差产生的异常值是有质量问题的数据。

在回归分析中,有三种类型的异常值会影响OLS的估计结果。Rousseeuw和Leroy(1987)将它们定义为纵向异常值(vertical outliers),好的杠杆点(good leverage)和坏的杠杆点(bad leverage)[3]。纵向异常值是指那些远离因变量空间(y空间)、但没有远离自变量空间(x空间)的观测值,纵向异常值主要影响回归模型的截距项,而对回归系数的影响比较小。如果观察值只是远离x空间,这样的异常值称为杠杆点。好的杠杆点是那些远离x空间,但是靠近真实回归线的观察值,好的杠杆点不影响最小二乘估计结果,这些点甚至会通过降低回归系数的标准误而提高统计推断的准确性。最后,坏的杠杆点是那些同时远离自变量空间以及真实回归线的观察值,坏的杠杆点的存在会同时影响最小二乘回归的截距项和斜率。

(二)基于稳健MM估计的回归方法

稳健回归方法的目的是使求出的回归估计不受异常值的强烈影响,并且,通过稳健回归能更好地识别异常点。回归方法的稳健性特征可以用破坏点(Breakdown point)来评价。破坏点指的是强烈影响估计偏离其“实际”情况的异常值数与估计所包含的点数的比值。某方法的破坏点越高,其稳健性越好,可容忍的异常点数目越多,并且对于稳健性回归而言,应同时不受X与Y两方面异常的影响。OLS估计的破坏点是1/n,即只要n个观测值中有一个异常点,它就可以破坏最小二乘估计。

稳健回归的另一个重要概念是效率。对于一组数据,假定不存在异常点且OLS的高斯—马尔可夫假设成立,如果对这些数据进行稳健回归,所得结果应该和OLS估计看上去是一样的。稳健回归估计的效率指的是稳健方法的误差均方根除以OLS估计的误差均方根,此比值越接近于1,稳健回归方法的效率越高。

早期的稳健回归方法是由Huber(1973)提出的M估计[4],该方法能有效地克服Y空间异常点的影响,但对X空间的异常点(杠杆点)却不稳健。事实上,当X空间存在异常点时(特别是存在坏的杠杆点时),M估计甚至不如OLS估计稳健。为克服M估计的缺点,20世纪80年代,先后有几种不同的具有高破坏点的稳健估计方法被提了出来,如Rousseeuw(1984)提出了最小中位数平方(LMS)方法和最小截尾平方(LTS)方法[5],Rousseeuw和Yohai(1984)提出了S估计[6]等,这些方法具有高达50%的破坏点,但其效率却不高。由Yaohai(1987)提出的稳健MM估计组合了高效率但不稳健的M估计以及高破坏点而低效率的S估计[7],同时具有高破坏点(50%)和高的效率(在高斯—马尔可夫假设成立的条件下,相当于普通最小二乘估计95%的效率),成为当今最受欢迎的稳健估计方法之一。

本文将使用稳健的MM估计作为异常值诊断的方法对统计数据的可靠性进行评估。稳健MM估计的基本原理是,首先基于迭代的S估计方法得出稳健的初始估计,然后再由M估计导出回归系数。假设一个因变量y可由p个独立的自变量x的线性组合解释,则对于所有的观测值可由如下多元线性回归模型表示:

式(4)中,ρ(·)为S估计的损失函数,b是常数,且有b=E[ρ(Z)],Z服从标准正态分布。S估计也可以由Salibian-Barrera和Yohai(2006)提出的算法求解。

损失函数ρ(·)的选取对于取得高的稳健性特征和高效率至关重要。通常,初步的S估计以及最终的MM估计都选择TurLey的双权型ρ(·)函数,该函数定义如下:

对于S估计,常数k设置为1.547可以保证50%的破坏点。而对于第二步的MM估计,常数k设置为4.685可保证最终估计具有95%的效率。

(三)异常值的诊断方法

三、模型和数据

(一)模型选取

本文的目的在于运用基于稳健MM估计的异常值诊断方法对我国国内生产总值(GDP)数据的可靠性进行评估。异常值的诊断是以假定模型为基础的,选取适当的模型对于得出正确结论非常重要。由于总量生产函数可以把关于经济增长过程中的复杂信息归结到一个简单而又统一的框架中,因此,无论是理论研究和实证分析,经济学家们都广泛借助生产函数模型来研究经济增长和技术进步问题。与刘洪和黄燕(2009)的做法相同,本文也以应用最为普遍的C-D生产函数作为估计模型:分别是t时期现实产出、资本存量和劳动投入,t=1,2,3…;为初始的技术水平;r为平均的技术进步率;α、β分别为劳动和资本的投入产出弹性;为随机误差项。对C-D生产函数两边同时取对数有:

通常假设规模报酬不变,即有α+β=1,则上式可变换为:

只要取得现实产出、资本存量和劳动投入等数据,就可以采用稳健的MM方法估计上述模型,并对可能存在的各种类型的异常值进行诊断,并以此作为评估我国GDP数据可靠性的依据。

(二)数据说明

由于改革开放前后我国的实际生产函数可能发生较大变化,本文以1978-2008年时间序列数据为样本。总量生产函数中最重要的三个指标是总产出、资本投入和劳动投入。其中,总产出数据通常使用不变价的GDP数据衡量,也是本文评估的目标。由于统计资料的限制,资本存量和劳动力投入本身也存在数据质量问题。数据集不同,得出的评估结论可能也不尽相同,尽可能地取得科学合理的资本存量和劳动投入数据对于得出正确的评估结论非常重要,本文的数据处理说明如下。

1.实际产出Y(亿元)。总产出用国内生产总值GDP来衡量,为了消除价格因素,本文用1952年的国内生产总值和以1952年为基期的国内生产总值指数计算1978-2008年各年的实际国内生产总值。1952-1977年的基础数据来自《新中国五十五年统计资料汇编》,1978-2008年的基础数据取自《2009年中国统计年鉴》。

2.资本存量K(亿元)。资本本身是一个宽泛的概念,广义的资本可以包括物质资本、人力资本和土地。大部分研究在估计资本存量时,仅指严格意义上的物质资本。我国现行的统计中,没有物质资本存量指标,因此需要对其估算。估算可比价格计算的物质资本存量最通用的是1951年Goldsmith提出的永续盘存法,其基本估计公式为:。在这个公式中主要确定以下四个变量:(1)基期资本存量K;(2)每年投资额I;(3)投资品价格指数;(4)折旧率δ。

很多学者对我国历年的资本存量进行了研究,张军等(2004)、孙琳琳、任若恩(2005)对研究中国资本存量的相关文献作了回顾和比较[11-12]。单豪杰(2008)在比较现有资本存量文献的基础上,对资本存量估算中的四个核心指标进行了细致的推算,并根据国家统计局基于经济普查和年度修正的最新数据资料,重新估算了以1952年不变价计算的1952-2006年全国的资本存量[13]。

本文采用单豪杰(2008)按每年折旧率估算的1978-2006年全国资本存量数据,并利用他的方法估算了2007-2008年的资本存量。其中,2007-2008年的固定资本形成总额、固定资产投资价格指数由《2009年中国统计年鉴》直接取得,这两年折旧率假定与2006年相同,可估算得到资本存量数据。

3.劳动投入L(万人)。劳动投入数据是指生产活动中实际投入的劳动量,应该用标准劳动强度的劳动时间来衡量。由于我国没有各类型劳动者工作时间的准确统计数据,因此,大多数研究者直接采用《中国统计年鉴》公布的年底全社会就业人员数来近似代替劳动投入。

然而,在就业人员数据方面,国家统计局在第五次人口普查之后,对1990-2000年的就业人员数据进行了调整,而1990年之前的数据没有调整。1990年由于调查口径发生变化,当年全社会就业人数有两套数据,按旧口径为56740万人,按新口径则为64749万人。为了使数据口径前后一致,施发启建议对1990年以前的各年底的全社会就业数据进行调整[14],调整的方法是用1990年新旧口径的就业人数计算出的调整系数乘以各年原就业人员数。

本文分别使用未做调整的年平均就业人数和调整过的年平均就业人数估计生产函数。年平均就业人数的计算方法是各年年初和年末就业人员数的算术平均数,各年年初就业人数为上年年末就业人数。调整后的年平均就业人数与调整前的区别仅在于1978-1990年数据的不同,而1991-2008年的数据完全相同。本文的目的是引进一种新的统计数据质量评估方法,尽管本文认为调整过后的年底就业人数相对更加可靠,但两套不同数据的存在,为检验本文所使用的稳健MM估计方法的有效性和应用条件、得出具有启示意义的结论提供了机会。

四、诊断结果及分析

(一)基于OLS估计的诊断结果

1.基于OLS的估计结果及分析。

根据前文提供的我国1978-2008年的国内生产总值Y、资本存量K以及劳动投入L数据,本文首先使用OLS方法对式(8)进行估计。由于劳动投入有两套数据,从而,据以估计模型的数据集也有两套。基于不同数据集得到的模型估计结果见表1中的模型1和模型2,其中,模型1中的劳动投入是未作调整的数据,模型2中的劳动投入为调整后的数据

表1 生产函数的OLS估计

由表1可见,根据不同的数据集估计得到的回归方程都是显著的,回归系数也都显著。由比较可以发现,由于劳动投入数据不同,模型系数估计结果差异较大。模型1估计的资本产出弹性系数为0.521,而模型2估计的只有0.428;模型1估计的平均技术进步率为0.28,而模型2中达0.39;模型1中的截距项为-1.537,而模型2中则为-1.827。

2.基于OLS的异常值诊断结果及分析。

为识别出观察值中的异常点,本文计算了四种基于OLS的诊断统计量:学生化残差r、帽子矩阵对角元素l、Cook的D距离d、以及DIFFITS指标df。其中,学生化残差有助于识别残差中的异常值,即一些特别偏离回归模型的观测值,其对应着t统计量,临界值为;帽子矩阵对角元素衡量了杠杆作用,表明影响回归系数的潜力,其临界值为2(p+1)/n=0.193,当X的取值(或取值的组合)异常时,观测值会有高的杠杆作用;Cook的D距离和DFFITS指标都概要描述了观测值i对整体回归模型产生了多大影响,前者的临界值为4/n=0.129,后者的临界值为。如果某观测值统计量的绝对值大于上述临界值,可以认为该观测值应该引起注意。

表2列出了基于模型1和模型2计算的各种诊断统计量中,至少有一个显示为异常的年份及相应的诊断统计量值,而各种统计量均无异常的年份没有列出,诊断出有异常的统计量用1表示,没有异常的用0表示。

表2 基于OLS的异常值诊断结果

由表2可见,根据模型1,当模型中劳动投入数据为未调整的就业人数时,只有1991年和2008年的有关统计量被诊断为异常;而根据模型2,当模型中的劳动投入数据为调整后的就业人数时,1978、1979、1990、1991以及2008年都有相应的统计量被诊断为异常。结合杠杆作用对残差平方的标绘图(图略)比较分析可以发现:(1)两个模型诊断结果中,1978、2008等年的数据都具有最大的杠杆作用,但是生产函数模型对它们拟得很好,残差很小,这些数据可以认为是好的杠杆点;(2)两个模型中,1991年的数据不但拟合得很差,而且对模型具有较强的潜在影响,可以认为是坏的杠杆点,但模型2中1991年数据所拟合的残差以及对模型的影响都远小于模型1;(3)在模型2中,1990年的数据拟合的较差,但其杠杆作用并不强,因此,可以看作一个纵向异常值,而模型1中1990年数据可看作是正常观测值。

(二)基于稳健MM估计的诊断结果及分析

1.基于稳健MM估计的结果及分析。

本文进一步使用稳健的MM估计方法对生产函数进行估计和诊断,并将诊断结果与基于OLS估计的诊断结果进行对比。使用稳健的MM估计方法对两套数据集分别进行估计①,估计结果见表3中的模型3和模型4。其中,初始的S估计中的常数k设置为1.547以保证50%的破坏点,第二步的MM估计中的常数k设置为4.685以保证最终估计具有95%的效率。

表3 生产函数的稳健MM估计

比较模型3和模型1可见,当劳动投入数据为未调整的就业人数时,由稳健的MM估计得到的变量系数与由OLS估计得到系数相比变化较大,其中,由OLS得到的资本产出弹性为0.521,而由稳健MM估计得到的结果降低为0.476。比较模型4和模型2可见,当劳动投入数据为调整后的就业人数时,由稳健的MM估计得到的变量系数与由OLS估计得到的系数变化不大,其中,由OLS估计得到的资本产出弹性系数为0.428,而由稳健MM估计得到的结果为0.416。比较模型3和模型4的结果可见,由稳健估计得到的两个模型的系数差异进一步缩小,这也反映了稳健MM估计对异常值具有较强的耐抗性。

2.基于稳健MM估计的异常值诊断及结果分析。

为识别出各种类型的异常点,可计算基于稳健MM估计的异常值诊断统计量:稳健的标准化残差和稳健的MCD距离。表4列出了至少有一个诊断统计量显示有异常的年份及相应的诊断统计量,而各种统计量均无异常的年份没有列出。其中,稳健的标准化残差的临界值为,稳健的MCD距离的临界值为,在表4中,超出这些临界值的点可看作异常点,用1表示,未超出临界值的用0表示。

根据表4,可对由稳健MM估计得到的异常值诊断结果分析如下。

表4 基于稳健MM估计的异常值诊断结果

第一,对模型3的异常值诊断结果进行分析。由表4可见,当模型中的劳动投入数据为未调整的就业人数时,1981-1983年、1990-1992年以及2007-2008年的稳健的标准化残差被诊断为异常,而1978-1990年的稳健MCD距离被诊断为异常。结合MCD距离图(图略)分析,可得如下结论:(1)模型3的诊断结果中,1978-1980年、1983-1989年数据的稳健MCD距离都很大,但其对模型拟合的结果很好、残差很小,因此这些年份的数据可看作是好的杠杆点;(2)1981、1982年和1990年数据的稳健MCD距离都较大,稳健的标准化残差也稍大,因此可看作是坏的杠杆点;(3)1991-1992年以及2007-2008年的数据对模型拟合的残差较大,可看作是纵向异常点。可见,与由OLS估计的模型1的诊断结论相比,由稳健MM估计得到的模型3诊断出了更多的异常值,可有效解决基于OLS方法的诊断统计量容易出现的多个异常点的掩盖现象。

第二,对模型4的异常值诊断结果进行分析。由表4可见,当模型中的劳动投入数据为未调整的就业人数时,1981-1982年和1990年的稳健的标准化残差被诊断为异常;而1978-1989年的稳健MCD距离被诊断为异常。结合MCD距离图(图略)分析,可得如下结论:(1)1978-1980年、1983-1989年的数据可被诊断为好的杠杆点;(2)1981和1982年的数据可看作是坏的杠杆点;(3)1990年的数据可看作是纵向异常值。与由OLS估计的模型2相比,由稳健MM估计得到的模型4也有效地解决了多个异常点的掩盖问题。

第三,对模型3和模型4的诊断结论进行对比。根据上述分析结果可见,当模型中的劳动投入数据不同时,两模型诊断出的异常值结论并不完全相同。例如,由模型3诊断出1991年的观察值是纵向异常点,而模型4则诊断得到该观测值为正常点,因而,对改革开放以来我国GDP数据可靠性的判断也不尽相同。由于调整过的劳动投入数据相对可靠,因此,应该以模型4的异常值诊断结果对我国GDP数据可靠性进行判断。

第四,结合异常值的背景分析对我国GDP数据可靠性进行判断。根据模型4的异常值诊断结果,1978-1989年自变量数据的稳健MCD距离被诊断为异常,对这些年份的资本存量K和调整过的就业人数分析可发现,出现异常的原因主要在于:这些年份就业人数的增长都在2%以上,而1990年之后各年就业人数的增长普遍都在2%以下甚至更低。尽管如此,这些年份的数据对模型拟合得很好(1981和1982年的稳健准化残差比临界值稍大),因此,可以认为这些年份的GDP数据是可靠的。1990年的数据被诊断为纵向异常值,这与该年经济调整使得经济增长速度下降到改革开放以来的最低点3.8%的背景是相符合的,并且,1990年的稳健标准化残差(-2.577)与临界值(-2.24)相差并不大。因此,综合上述分析结果,可以认为改革开放以来我国GDP数据是相对可靠的。

五、结论及启示

本文在生产函数模型的框架下,分别使用两种不同的劳动投入数据,运用基于稳健MM估计的异常值诊断方法,对改革开放以来我国GDP数据进行了评估,并与基于OLS的异常值诊断结果进行了比较,研究得到的结论及启示如下:

1.异常值的诊断都是建立在既定的数据集或者假定的模型基础上。在本文中,当模型中的劳动投入数据不同时,运用同一方法诊断出的异常值结论也不尽相同。因此,尽可能的选取相对可靠的相关指标,对于得出正确的诊断结论具有重要意义。

2.稳健MM估计方法可使所拟合方程与大多数点的趋势一致而不受多个异常点的干扰。这为有效地解决多个异常点的掩盖现象提供了依据,本文基于两种估计方法诊断结果的对比证实了这点。因此,基于稳健MM估计的异常值诊断结果更加可信。

3.诊断出的异常值是否表明统计数据的可靠性有问题,还要结合具体的专业背景进行分析。在本文中,当模型中的劳动投入数据为调整后的相对可靠的就业人数时,根据使用稳健MM估计的异常值诊断结果,并结合具体的异常值产生的背景分析,结果认为,改革开放以来我国的GDP数据是相对可靠的。

注释:

①本文使用Stata 10.0软件的MMregress程序进行估计,该程序可从网上下载,有关MMregress的具体说明和用法可参见Verardi and Croux(2009).

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于鲁棒MM估计的统计数据质量评价方法_生产函数论文
下载Doc文档

猜你喜欢