基于稳健主成分回归的统计数据可靠性评价方法_主成分分析论文

基于稳健主成分回归的统计数据可靠性评估方法,本文主要内容关键词为:统计数据论文,稳健论文,可靠性论文,成分论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

准确可靠的统计数据是把握经济运行情况、进行科学决策的基础。近年来,社会公众对中国官方公布的统计数据的关注度越来越高,其中不乏诸多质疑。一些学者从指标的相关性角度来检验政府统计数据的可靠性,如Klein和Ozmucur(2002)选取了中国1981-2000年15个有代表性的相关指标,使用经典的主成分回归方法,对中国经济增长数据的可靠性进行了评估[1]。阙里、钟笑寒(2005)进一步将Klein和Ozmucur(2002)的评估方法运用到了地区面板数据[2]。但这些研究存在如下不足:①这些研究没有考虑相关指标数据的可靠性。如果这些相关指标本身存在异常值或者可靠性问题,那么经典的主成分回归方法得到的估计结果将是不可靠的;②这些研究主要从总体上考察了经济增长与各相关指标的相关关系是否匹配,但没有对主成分回归拟合得到的异常值进行诊断。而经典的主成分回归方法并不能有效地诊断出数据集中的异常值;③经济增长率与各相关指标间的关系在经济发展的不同阶段可能是不稳定的,因此基于时间序列数据或面板数据的主成分回归对统计数据可靠性做出推断可能会出现偏差。

文献中用经典的拟合方法(如主成分分析、最小二乘回归估计)得到的诊断工具去检测异常值。但经典的方法可能受到异常值的影响,以致模型拟合结果并不能检测出真正的异常值,这就是所谓的掩盖(masking)现象;并且经典的拟合方法还会使得一些正常的数据点表现为异常值,这就是所谓的淹没(swamping)现象。为避免这些现象,可以使用稳健统计方法。稳健统计的目的就是试图找到类似于当数据中没有异常值时的拟合结果,进而,从稳健拟合得到的大的残差中识别出异常值。本文将首次使用Hubert和Verboven(2003)提出的稳健主成分回归及相应的异常值诊断方法[3],对我国地区经济增长横截面数据的可靠性进行评估。稳健主成分分析可以克服相关指标中的异常值对主成分的影响;稳健回归试图使求出的估计结果不受异常值的强烈影响,拟合的残差可以更好地识别出异常值。

二、异常值诊断方法

关于主成分回归的稳健估计和异常点诊断,国外已有学者进行了研究。Hubert和Verboven(2003)提出了一种新的稳健主成分回归方法RPCR[3],并提供了相应的Matlab程序,该程序包含于稳健分析工具库LIBRA中①。RPCR方法的第一阶段是将稳健主成分分析方法ROBPCA应用于自变量x,并得到稳健主成分得分t;第二阶段是以稳健主成分得分t作为自变量,将因变量y对其进行回归,使用的回归方法是稳健的LTS(Least trimmed squred)估计。使用RPCR方法,还可以根据有关的诊断图有效地识别出正常观察测值、主成分的异常值和回归异常值。本文主要使用RPCR方法对我国地区经济增长统计数据进行诊断,该方法简要介绍如下。

(一)稳健主成分分析

RPCR的第一阶段是进行稳健主成分分析,使得到的主成分不受异常值的影响。RPCR使用的稳健主成分方法是Hubert et al.(2005)提出的ROBPCA方法[4],该方法组合了两种稳健主成分分析方法的思想,一种是基于MCD估计的稳健的协方差矩阵方法,另一种是基于投影寻踪(Projection pursuit,下称PP)技术的方法。在ROBPCA中,PP部分被用于初始数据空间的降维,而基于MCD估计的一些思想则被用于这一低维数据空间。模拟结果表明,这一组合方法可以产生比投影寻踪方法更为精确的结果。

ROBPCA方法的一个重要参数是允许数据集中未被污染的观测值的最高比例α,该方法默认α取值75%,即当数据集中至多包含25%的异常值时,该方法也能给出正确的分析结果。当怀疑数据集中所包含的异常值比例更高时,α最低可取50%。

(二)稳健回归

为估计式(2)的参数,一般使用重复加权的LTS估计方法[5],该方法非常稳健,具有高达50%的破坏点(Breakdown point)。模型参数的LTS估计定义如下:

(三)RPCR中主成分数目的选择

RPCR的另一个重要问题是主成分数目的选择,最受欢迎的一种准则是交叉验证的最小化误差均方根,公式如下:

式(5)中,是将第i个观察值作为验证样本,先从数据集中删除第i个观察值,使用k个主成分得分进行主成分回归,再对其进行预测得到的预测值。具有最小的所对应的k就是最优的主成分的数目。然而,统计量并不适合于被污染的数据集,因为这个统计量也包含了对异常值的预测。为此,Hubert和Verboven(2003)建议使用稳健的RMSECV统计量(R-RMSECV)进行主成分数目的选择[3]。

R-RMSECV是一种关于模型对新观测值预测能力的稳健度量。如果想察看模型对给定观测值的拟合情况,可以定义另一种类似的拟合程度准则——均方根误(RMSE)。RMSE准则是将式(5)中的替换为使用包括第i个观测值在内的所有观测值得到的拟合值。同样的,为避免异常值的影响,可计算不包括异常值在内的稳健的RMSE(RRMSE)。据此,Engelen和Hubert(2005)定义了另一种稳健的主成分选择统计量(RCS)如下[7]:

式(6)中,γ∈[0,1]为调节参数。如果更看重拟合能力,则选择较小的γ(接近于0);如果更看重预测的质量,则选择较大的γ(接近于1)。绘制对k的曲线图,可以轻易地选择最合适的k。

(四)异常值的诊断方法

1.主成分异常值的诊断

在第一阶段的ROBPCA分析过程中,可以使用正交距离OD对得分距离SD诊断图识别出主成分得分空间(x空间)的异常值。该图的横轴绘制了每个p维观察值x的稳健得分距离SD,该图的纵轴是各个观察测值到其映射到k维主成分子空间的正交距离OD。

为对主成分子空间的观测值进行分类,可画出SD和OD两条临界线。横轴的得分距离SD的临界值为,超过这一临界值的观测值可看作是主成分子空间的异常值。由于正交距离OD的精确分布未知,其临界值较难确定,Hubert等(2005)提供了该统计量的近似分布及临界值[4]。

根据稳健主成分诊断图,可将x空间的观测值划分为四种类型:正常观测值(SD和OD均小)、好的主成分杠杆点(SD大,OD小)、正交异常值(SD小,OD大)以及坏的主成分杠杆点(SD大,OD大),后两种观测值是对经典的主成分分析结果有很大危害的异常值。

2.回归异常值的诊断

根据回归模型以及残差诊断图,可画出SD和RD的两条临界线,将观测值分为四类:正常观测值(SD小,RD绝对值小)、好的杠杆点(SD大,RD绝对值小)、纵向异常值(SD小,RD绝对值大)以及坏的杠杆点(SD大,RD绝对值大),纵向异常点和坏的杠杆点是对经典的OLS估计危害最大的异常值,因为它们扭曲了变量间的线性关系。

三、指标选择和数据处理

(一)指标选择

在上述所选指标中,固定资产投资、消费品零售总额、出口额等3个指标是与支出法GDP各组成部分直接相关的;货运量是体现工业增长的良好指标;邮电业务量反映了作为服务业重要方面的信息化产业的发展状况;财政支出作为政府分配的重要组成部分,对经济增长有着不可低估的作用;税收收入是建立在增加值的活动基础上的,应该是个能较好地反映经济增长状况的指标;中国的经济增长严重依赖于信贷扩张,经济增长情况很有可能从这一指标中显现出来;就业和收入增长是经济增长的必然结果,其与经济增长应该有紧密的联系,因此,本研究还选取了农民人均纯收入、城镇居民可支配收入和城镇从业人员等指标;最后,能源消费特别是电力消费是经济发展的同步指标,应该能直接反映经济运行状况。这些指标与Klein和Ozmucur(2002)研究中相同的有等4个指标,与阙里和钟笑寒(2005)的研究中相同的有等5个指标,与上述研究均不相同的有等5个指标。

(二)数据处理

本文以2008年我国地区横截面数据为例,说明稳健主成分回归方法在数据可靠性评估方面的应用。为此,本文搜集了2007年和2008年各地区的经济增长以及前文所述的12个指标的数据,除银行信贷数据来源于相应年份的《中国金融年鉴》外,其他的数据都来源于《中国统计年鉴》。由于西藏缺失电力消费数据,未列入本文的分析,因此,实际列入本文分析的有30个地区,各地区及其相应的编号见下页表1。

对于搜集到的数据,还需要将其转化为增长率的形式。对于2008年各地区的环比地区生产总值指数,本文直接将其减100,即得到各地区的经济增长率数据;对于其他表现为绝对数的总量指标,本文用2008年的数据除以2007年的数据减去1再乘以100的方法②。由于按现价计算的价值指标所求得的增长率都是名义增长率,因此,有必要对其调整,消除数据中通货膨胀的影响。本文用美国的消费价格指数(CPI)对各地区出口额的名义增长率进行调整,用各地区的生产者价格指数(PPI)对银行信贷名义增长率进行调整,用各地区的CPI指数对其他价值指标的名义增长率进行了调整。最终整理出各地区各指标相对应的增长率数据(单位:%),各地区经济增长率(y)以及相关指标增长率()。

四、诊断结果及分析

根据前文所选的2008年30个地区的横截面数据集,本文以地区经济增长(y)为因变量,以12个相关指标的增长率()为自变量,运用基于稳健主成分回归(RPCR)的异常值诊断方法对地区经济增长数据的可靠性进行评估,并与经典的主成分回归分析(CPCR)诊断结果进行比较。在分析的过程中,由于事先并不知道数据集中异常数据的可能比例,本研究直接将可能包含的异常值的比例设为允许的最高限50%。利用Matlab软件稳健分析工具箱LIBRA,进行稳健主成分回归及诊断的步骤如下。

(一)稳健主成分分析及主成分空间异常值诊断结果

1.稳健主成分分析及主成分数目的选择

稳健主成分回归分析的第一步是进行稳健主成分分析(ROBPCA),并选择最优数目的主成分。

如果研究的目的只是进行主成分分析,可以直接根据主成分的方差贡献率和碎石图来选择主成分的数目。然而,本文的目的是进行稳健主成分回归,还要考虑所选主成分对因变量的预测能力和拟合能力。因此,本文根据前文介绍的稳健主成分选择统计量(下称RCS)选择最优主成分数目。根据前文提供的各相关指标增长率的数据集,使用Matlab软件的RPCR函数可直接绘制当γ=0,0.5和1时的RCS曲线图,见图1。

由图1可见,当k=6时,RCS曲线变得较为平缓,并且当k=6时与k=10时的预测误差差异很小。为了避免维度诅咒问题,一般建议n>5k[8],因此,在ROBPCA中本文选择保留6个稳健主成分,这6个稳健主成分的方差贡献达97.57%。同时,为便于对比,在CPCA中也选择保留了6个主成分。

2.主成分空间异常值的诊断

在ROBPCA以及CPCA分析过程中,可以使用正交距离OD对得分距离SD诊断图识别出主成分空间的异常值,两种方法得分距离SD的临界值都为=3.80;但正交距离OD的临界值不同,ROBPCA分析中正交距离OD的临界值为8.63,CPCA分析中正交距离的临界值为11.21。超过这些临界值的点可被诊断为主成分异常点。ROBPCA以及CPCA诊断图见图2(a)、(b)。

由图2(a)ROBPCA诊断图可见,四川(23)、青海(28)等省份的相关指标增长率数据被诊断为坏的主成分杠杆点,这些观测值对CPCA有很大的破坏作用;宁夏(29)的相关指标数据被诊断为正交异常值,这一数据点距主成分子空间的正交距离很大,但对CPCA没有影响;而北京(1)、天津(2)、山西(4)、海南(21)、甘肃(27)和新疆(30)等省份的数据被诊断为好的主成分杠杆点,这些观测值虽然远离正常观测值,但其距主成分子空间的距离很近;除此之外,其他省份的数据都是正常观察测值。与之相比,由于受异常值本身的影响,CPCA诊断图仅识别出四川(23)的数据为好的主成分杠杆点(见图2(b)),而其他省份相关指标的数据都为正常观测值。可见,ROBPCA方法能更好地诊断出主成分空间的异常值。

(二)稳健主成分回归及异常值诊断结果

1.稳健主成分回归结果及分析

稳健主成分回归分析(RPCR方法)的第二步是在由ROBPCA提取的稳健主成分的基础上,进一步运用稳健的LTS估计方法,将因变量对主成分得分进行回归,以克服异常值对估计结果的影响。根据上文所选的6个稳健主成分,可计算稳健主成分得分变量,并进一步运用稳健的LTS估计方法,将经济增长率(y)与这些主成分得分变量()进行回归分析,并得到稳健回归结果,见表2③。作为比较,表2同时给出了由CPCA保留6个主成分时,进一步使用OLS估计方法得到的CPCR估计结果。

由表2可见,由LTS估计得到的稳健达0.9666,稳健LTS回归模型拟合效果很好,说明这些主成分得分对经济增长率有很强的解释能力。相比之下,受可能存在的异常值的影响,由OLS估计得到的只有0.6688④。

为了验证经济增长率与各相关指标是否匹配,根据稳健主成分特征向量及上述回归系数,将这些系数还原为各相关指标增长率的系数(即经济增长率对各相关指标的偏导数,也是地区生产总值对各相关指标的弹性),具体见表3。作为比较,表3也列出了使用CPCR方法且保留6个主成分时,最后还原得到的各相关指标增长率的系数。

由RPCR分析结果可见,除等指标外,其余各指标增长率的系数均为正,符合经济学的规律。出口增长率的系数为负,反映了2008年我国受国际金融危机影响,外部需求显著减少、出口明显下滑,经济增长主要靠内需拉动的现实;邮电业务增长率的系数为负,可能是由于该指标存在测量误差,近年来,随着现代信息技术的快速发展,邮电业务的形式发生了很大改变,而邮电业务的统计口径却仍保持不变;财政支出增长率的系数为负,可能原因是2008年重大自然灾害频繁发生,为应对灾害,受灾地区财政支出增长较快,而灾害对地区经济增长也具有一定负面影响;电力消费增长率的系数为负,说明2008年我国地区电力消费增长与经济增长率出现不同步现象,这也是包括华尔街日报、国际能源署在内的一些境内外媒体和国际组织对中国经济数据可信度质疑的原因之一,国家能源局(2009)从产业结构变化、高载能产品“去库存化”、产业能耗下降等方面对此现象做了解释说明[9]。总之,基本可以认为地区经济增长数据与相关指标数据是匹配的。

CPCR的分析结果中,除电力消费增长率之外,其余各指标增长率系数的符号都与RPCR的分析结果相同。然而,这些系数的大小不尽相同,有些差异还比较大,如等。相比之下,由于RPCR考虑了数据中可能存在的异常值的影响,其分析结果相对更加可靠。

2.稳健主成分回归中异常值诊断结果及分析

由图3(a)RPCR残差诊断图可得如下结论:北京(1)、天津(2)、山西(4)、海南(21)、四川(23)、甘肃(27)等地区的得分距离都超出了临界值,但其标准化残差绝对值很小,这些地区的数据被诊断为好的杠杆点;内蒙古(5)、青海(28)、新疆(30)等地区的得分距离和标准化残差绝对值都很大,因此可看作是坏的杠杆点;吉林(7)、黑龙江(8)、安徽(12)、江西(14)、宁夏(29)等地区的得分距离虽然很小,但其标准化残差绝对值都很大,因此可看作是纵向异常点;其余地区的数据可看作是正常观测值。相比之下,由图3(b)CPCR诊断图可见,只有四川(23)被诊断为好的杠杆点,内蒙古(5)被诊断为纵向异常点。可见,由稳健的RPCR方法克服了异常值的影响,诊断出了更多的异常值,可以有效地解决基于经典的CPCR的诊断方法容易出现的多个异常点的掩盖现象。

结合异常值产生的背景,对2008年各地区经济增长数据的可靠性进行判断。根据稳健的RPCR的诊断结果,北京(1)、天津(2)、山西(4)、海南(21)、四川(23)、甘肃(27)等地区的稳健得分距离虽然被诊断为异常点,但这些地区的数据对模型拟合得很好,因此,可以认为这些地区的经济增长数据是可靠的;内蒙古(5)、青海(28)、新疆(30)等地区的数据被诊断为坏的杠杆点,这些地区的得分距离和标准化残差都表现为异常,这一方面可能是这些地区的经济增长及相关指标数据的可靠性存在问题。另一方面有可能与这些地区的特殊发展背景有关,如自2002年以来内蒙古经济增速蝉联我国第一,“内蒙古现象”全国瞩目。2008年内蒙古经济增速达17.2%,与其能牢牢抓住产业转移机遇,把自然资源禀赋比较优势化为竞争优势等多方面的因素有关;吉林(7)、黑龙江(8)、安徽(12)、江西(14)、宁夏(29)等地区的数据被诊断为纵向异常点,说明在现有的数据集中,这些地区经济增长数据的可靠性可能存在问题。其中,吉林(7)、黑龙江(8)等地区的经济增长数据可能被高估,而安徽(12)、江西(14)、宁夏(29)等地区的经济增长速度数据反而有被低估的可能。

五、结论

总结全文,本文首先介绍了Hubert和Verboven(2003)提出的稳健主成分回归(RPCR)及相应的异常值诊断方法,然后选取了理论上与经济增长相关的12个指标,运用RPCR方法对2008年我国地区经济增长横截面数据的可靠性进行了评估,并将评估结果与经典的主成分回归(CPCR)方法的结果进行了比较。研究结果表明:①稳健的RPCR方法能更好地克服异常值的影响,估计结果相对更加可靠,并诊断出了更多的异常值,有效地解决了基于经典的CPCR的诊断方法容易出现的多个异常点的掩盖现象;②根据RPCR的估计结果以及异常值诊断结果,并结合2008年的具体背景,基本可以认为2008年地区经济增长数据与相关指标数据是匹配的,但是部分地区的经济增长数据可能存在可靠性问题。经济增长数据的可靠性评估是一个非常复杂的问题,本文所做的研究为相关部门及时掌握有关信息提供了可供选择的工具。

注释:

①LIBRA是包含了包括RPCR等诸多稳健统计方法在内的Matlab程序工具库,由比利时鲁汶大学数学系和安特卫普大学数学和计算机科学系的稳健统计研究组开发。LIBRA可从以下网址下载:http://wis.kuleuven.be/stat/robust/.

②本文没有采用对数差分求近似增长率的做法,因为对于很小的变化,变量的增长率相当于对变量做对数差分处理,而对于有较大变化的变量,对数差分求得的增长率误差较大。

③虽然可以由加权的LTS估计得到如系数的t统计量等推断结果,但其对应的P值只是近似的,通常并不知道该P值是否是真实。因此,这里仅输出了LTS回归的系数,没有给出各系数对应的t统计量。

④由ROBPCA估计得到的主成分得分和由CPCA估计得到的主成分得分是不一样的,因此,直接比较LTS和OLS两种方法估计得到的主成分得分变量的系数并没多大意义。

标签:;  ;  ;  ;  ;  ;  

基于稳健主成分回归的统计数据可靠性评价方法_主成分分析论文
下载Doc文档

猜你喜欢