面板数据的分数回归方法及模拟研究_面板数据论文

面板数据的分位回归方法及其模拟研究,本文主要内容关键词为:面板论文,方法论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

面板数据也称时间序列截面数据或混合数据,是一种同时在时间和截面空间上取得的二维数据,具有传统截面数据和时间序列方法所不具备的优势。

面板数据虽有诸多好处,也被广泛应用于各个领域,但是存在着一定的局限性,一是传统的面板数据分析方法主要是基于服从正态分布的数据而做出的,然而一旦数据分布类型发生改变,这种传统的方法所作出的统计结论将不再可靠,而且我们目前也没有建立起一个衡量这种改变究竟会对最终结论带来多大风险的度量方法;二是传统的面板数据分析方法是一种条件均值模型,其主要目的只针对于估计和检验均值效应,然而数据的信息是全方位的,这种只对均值模型做估计和检验的方法虽然能够让研究者迅速掌握变量均值间可能存在的相互关系,但却忽略了数据其他方面的信息,没有能对数据的各个层次做一个全方位的刻画,遗漏了一些可能存在的重要信息,而这些信息往往是很多研究者在均值回归中难以发现的。

为了改进传统面板数据分析方法的限制,本文考虑尝试将Koenker和Bassett(1978)提出的分位回归思想引入面板数据的分析之中。分位回归方法与传统均值回归方法不同,它是针对响应变量的条件分位函数进行统计推断的。首先这一方法的目标函数是加权的绝对偏差和,所以被估计的系数向量对响应变量的离群点并不敏感,当误差项服从非正态的时候,这种方法得到的估计量要比传统最小二乘估计量更可靠。其次这一方法在给定一组预测变量之后,能在任意分位点全面刻画响应变量的条件分布,给出数据各个层次间可能存在的重要信息,是对传统均值回归方法的一种有益改进和补充。

Koenker(2004)考虑了纵向数据(Longitudinal Data)的分位回归方法,考虑将固定效应作为惩罚项的分位检验函数最小化估计方法,虽然蒙特卡洛模拟结果显示此方法在非正态分布情形下要优于传统的均值回归方法,但在每个个体层样本量较小的情况下该方法是很难得到有效的估计,且文献没有给出如何确定惩罚参数A取值的有效方法;Tian,Maozai and Chen,Gemai(2006)在正态假定下对分层线性模型提出了分层分位回归的思想,给出了一种新的迭代算法:EQ算法,考虑了EQ算法的渐近性质;Galvao(2008)提出了动态面板数据的分位回归方法,通过引入了工具变量减少遗漏变量带来的偏差,蒙特卡洛研究证实该方法在处理数据非正态和厚尾时比传统方法更具有优势;Galvao and Montes-Rojas(2009)同样引入工具变量讨论了含有测量误差的动态面板数据分位回归方法;Harding and Lamarche(2009)则利用工具变量解决了内生变量和个体效应与响应变量间相关时的面板数据分位回归方法;Powell(2009)讨论了含有外生或内生变量的面板数据的无条件分位回归方法,该方法的一个好处是能够有效估计固定效应参数并且其统计含义和横截面数据分位回归方法相同。纵观以上文献,目前关于面板数据的分位回归方法还处于一个起步阶段,有很多理论问题及方法需要探讨,也急需将这些已有研究成果应用于实际问题。本文正是在这方面做了一些有益探讨,文中给出了3种基于面板数据的分位回归方法,即一阶差分分位回归法、固定效应变换分位回归法和引进虚拟变量的惩罚分位回归法,并在不同误差分布情形下给出了3种方法同均值回归方法的蒙特卡洛模拟比较结果。最后利用分位回归的方法对我国各地区城镇居民人均收入与消费支出面板数据进行了建模分析,并根据分析结果提出了相应政策建议。

二、模型及方法

为检验函数,也称为损失函数,当τ=0.5时称为中位回归,也称为最小绝对偏差回归。然而,在实际问题中,我们面临的问题是往往N比较大但了却比较小,即对于每个个体而言,其观测值并不多,要想利用这少量的个体观测值去估计每个个体效应并非易事,而且即使能够估计,其估计值也并非有效。考虑到大多数的研究中,参数值β才是人们的兴趣所在,所以我们的重点将放在对β的估计上。然而,如果在估计"的过程中完全忽略个体效应,又会对最终的估计结果产生不利的影响,所以我们不能将所有看成是同一个数。那么如何消除的影响同时又能够得到β的有效估计呢,下面我们给出了3种方法。

(一)一阶差分分位回归法

可以获得β的τ分位点估计,称此估计为一阶差分分位回归估计FDQR(First-Differenced Quantile Regression Estimator)。

(二)固定效应变换分位回归法

下面我们考虑另外一种消除固定效应的方法。对每个i有,

则求解此问题要涉及对高维设计阵的相关计算,不过好在此矩阵虽然维数很大,但很多元素为0,是个稀疏矩阵,这为我们的计算节省了不少时间。此方法能够同时给出回归系数β和固定效应参数的τ分位点估计,不过我们主要关注的是β的估计,称之为惩罚分位回归估计PQR(Penalized Quantile Regression Estimator)。

与Koenker(2004)不同的是,我们没有采用多个分位点加权的目标函数,而且这里也假定是随分位点,的变化而变化的,而Koenker(2004)则将视为只与个体有关而与T无关的量。当然此方法面临的一个问题是当T较小时很难对每个在其各分位点处作出有效估计,幸好此处我们重点关心的是回归系数β的估计值,所以方法仍然可以实施。在模拟研究中,由于我们知道未知参数的真实值,所以可以选取使得偏差最小的λ作为惩罚参数值,但在实际问题中,由于未知参数并不知道,所以可以有多种方法和准则来确定λ的值,此处我们提出采用使得模型残差平方和最小的λ作为惩罚参数值的选取准则。

需要特别指出的是,在上述3种方法中,只有PQR是同时给出了和β的估计,FOQR和FEQR虽然不能给出的估计,但我们并没有忽略它可能对估计β造成的影响,因为进行一阶差分和固定效应变换都是在每个横截面单位内进行的,这实际上就是考虑到各个不同的横截面单位的值是有所不同的,只有在同一个横截面单位内它们才是相同的。我们的条件分位函数都是建立在变换之后的模型式(4)和式(10)上的,所以如果要讨论β估计的大样本性质则还需要求变换后的模型中满足一定的条件,考虑到分位回归对误差项分布要求比较弱,所以在此我们并不对其作过多条件限制。不过在实际应用中另外一个值得注意的问题是此处要求解释变量应该随着时期t的不同而不同,否则可能会导致模型中参数β无法估计。

三、蒙特卡洛模拟

由于我们主要关心的参数为β,所以在本节的模拟中我们只给出"估计的结果。根据含固定效应面板数据结构设定产生模拟数据的模型为

①完全忽略个体固定效应,直接使用混合数据的普通最小二乘估计,记为LS估计;

②考虑个体固定效应的最小二乘估计,记为FE估计;

③完全忽略个体固定效应,直接使用混合数据的中位回归估计,记为QR估计;

④考虑个体固定效应的一阶差分中位回归估计,记为FDQR估计;

⑤考虑个体固定效应的固定效应变换中位回归估计,记为FEQR;

⑥考虑个体固定效应的带惩罚项的中位回归估计,记为PQR。

其中①、②是传统的条件均值回归方法,③、④、⑤、⑥是条件分位回归方法。我们研究的目的是:

1.分位回归方法对于面板数据是否有效?

2.分位回归方法在估计的精度和稳定性上是否优于均值回归方法?

3.当模型中含有个体效应但却没有考虑时会产生何种影响。

4.当无法观测到的特异误差来自不同分布类型时哪种方法能有较好的表现。

从表1的结果来看,表现比较好的3种估计是PK、FDQR、FEQR,其中在估计偏差上FEQR法较小,但在估计的RMSE上,FE法是最小的,比较稳定。另外很明显的可以看出,完全忽略了个体效应的IS法和QR法其Bias和RMSE都很大,这也说明,即使是在误差正态的条件之下,不考虑面板数据中可能存在的个体效应而做出的估计会有很大的偏差和风险。另外PQR法虽然考虑了个体效应,但在时期数T太小时其偏差会比较大。

表1 标准正态误差下6种估计的Bias和RMSE

从表2的结果来看,当误差具有厚尾分布时,显然分位回归方法FDQR和FEQR要优于传统的均值回归法,特别是FEQR法,不仅偏差很小,而且RMSE在所有情况下都是最小的,表现最为稳定。另外还可以看到,不考虑个体效应的QR法虽然表现很差,但在这种厚尾分布之下,比起同样不考虑个体效应的LS法,其Bias和RMSE均要小些。所以总的来看,当误差是对称厚尾分布时,分位回归方法较之均值回归方法在估计的精度和稳定性上都要占优。

表3的结果同表2差不多,其中表现最好的是FEQR法,特别是其Bias,在所有情况下绝对值均是最小的。其次是FE法和FDQR法,两方法的Bias和RMSE值都比较接近。另外在这种偏态的误差分布下,QR法较LS法更为有效些。

当误差是序列相关时,仅在T=2时FE法优于FDQR法,而在其他情况下,FDQR法都是最优的,这说明对数据在相邻期上进行一阶差分可以在一定程度上消除这种误差相关性对参数估计所带来的不利影响。

综合以上所有模拟结果显示:

1.在模型判断正确的情况下,分位回归方法是处理面板数据的一种有效手段,能够对回归参数做出精确稳定的估计。

2.当模型满足误差正态条件假设时,分位回归方法与传统均值回归方法相当,只在稳定性上略差一点,但当模型不是正态误差时,则分位回归方法比均值回归方法在估计精度和稳定性上都好,特别是厚尾和偏态误差时,其优良性较为明显。

3.不管是均值回归法还是分位回归法,如果对面板数据中存在的个体效应完全忽略,都会给估计值带来较大的偏差,而且估计也会变得不够稳定。

表2 t分布误差下6种估计的Bias和RMSE

表3 分布误差下6种估计的Bias和RMSE

表4 序列相关误差下6种估计的Bias和RMSE

所以对于一个实际面板数据而言,判断是否存在固定效应将是一个非常重要的工作,好在这一点可以借助于一些已有的检验方法来实现,如固定效应的似然比检验法等。

4.当误差为正态分布时,FE法有较好的表现,当误差呈现厚尾或偏态分布时,FEQR法有较好的表现,当误差具有序列相关性时,FDQR法有较为良好的表现。

上述模拟中我们只考虑了当模型的误差分布发生变化时各种方法的估计效果比较,然而实际上模型的其他参数值以及截距a也可能会影响到β的估计,所以下面我们就考虑对这几种估计方法在不同的模型参数初始值设定时进行模拟比较研究。为了使结果具有可比性,我们依次改变其中的一个参数值而保持其他参数值不变。为节省篇幅,下面只给出当误差服从标准正态分布且N=30,T=5时的模拟结果。

对表5的结果进行比较不难发现截距a的改变对各种估计方法几乎没有什么影响,虽然影响大些,但主要是对LS法、QR法和PQR法影响较大,对本文新提出的FDQR法和FEQR法影响并不明显,更重要的是这两种方法在所有不同参数初始值设定情况下都有着比较小的Bias和RMSE,这就意味着我们提出FDQR法和FEQR法对不同的固定效应模型都能适用。

表5 不同初始值时6种估计的Bias和RMSE

四、真实数据分析

我们以2004-2008年我国各地区城镇居民人均可支配收入x(元)和消费支出y(元)的面板数据为例,利用上述提出的分位回归方法对近5年来我国城镇居民收入消费模式进行建模分析,探讨居民人均可支配收入x对其消费支出y的影响,数据来源于《中国统计年鉴(2005-2009)》。

通过对总体数据作散点图容易看到y与x之间有比较明显的线性关系,所以可以考虑采用线性模型来刻画。而通过横向散点图可以看到各地区y与x的斜率变化不大,但截距却有明显的不同,即各地区平均边际消费倾向差异不大,但自发消费存在着明显差异;从纵向散点图可以看到各年度y与x的关系基本相同,无论是斜率还是截距都没有发生太大变化,所以可以认为不存在时期效应。首先考虑直接利用混合数据建立简单线性模型:

LS估计的结果如表6。

表6 LS估计值及显著性检验

虽然从表6的结果来看,模型和参数都通过了显著性检验,可决系数也比较高,但残差分析图显示方差并不相等,而且残差值波动比较大,拟合效果并不好,这有可能是由于LS估计没有照顾到各地区可能存在的个体差异而引起的。另外91号数据(广东省2008年)、92号数据(广东省2007年)和129号数据(西藏2005年)残差表现异常,这也使得上述β的LS估计在这些异常点的强影响下可能错估了平均边际消费水平。

考虑带个体固定效应的模型:

从第三节的蒙特卡洛模拟结果来看,当模型判断正确时,FE估计是能够极大地改进LS估计的,对参数β的估计也具有较高的精度和稳定性,所以我们首先用FE估计法对参数进行估计,结果如下:

表7 FE估计值及显著性检验

从表7结果来看,F值显著增加,模型的拟合优度也提高了很多(当然这也有部分原因是由于我们加入了新的解释变量而引起的)β的估计值也高度显著,残差分析图显示残差方差异常的情况消失了,而且残差呈现正态分布。诊断发现129号数据(西藏2005年)和130号数据(西藏2004年)异常,从实际数据来看,这与西藏这两年收入与支出太接近有关系,其2005年和2004年两者之间分别只相差814.07元和767.86,这都只有当年全国各地区平均相差值2422.6元和2126.38元的1/3,属于比较特殊的值。从上面综合来看,个体固定效应模型能更好地反映我们数据的内在关系,且FE估计值比LS估计值更为精确,从其对β的估计值来看,显然LS估计是高估了城镇居民的平均边际消费水平。

虽然从上述的各方面来看,我们有理由相信FE法给出了β较为合理的估计,但我们至少还必须注意到两点:一是西藏地区在2005年和2004年的数据出现异常,这仍将会对β的FE估计值造成一定影响,且由于我们并不清楚这两个异常值是由于数据的错误造成的还是其本身就是反映了真实情况,所以不能对其进行武断的删除并认为删除后的估计会更好;二是从收入与支出的散点图显示当收入增大时,样本点有发散的趋势,由于处于收入小于15000元的点过多过集中,使得我们的LS估计和FE估计在使残差平方和最小的准则下并没有完全照顾到收入较高的居民的真实消费意愿,所以有必要对数据做进一步的分析和考证。由于分位回归法对异常值并不敏感,而且它能利用分位点的变化给出各个层次消费支出与收入的变化情况,所以正好能够弥补上述LS估计和FE估计在这方面存在的不足。由于我们认为个体固定效应比较显著,所以接下来我们不考虑直接利用混合数据的普通分位回归方法,而直接给出本文提出的另外3种分位回归方法在τ=0.5时对居民平均边际消费倾向β的估计值:

可以看到3种估计的结果比较接近,而且都比大但比小。第三节蒙特卡洛模拟的结果比显示FEQR法在固定效应模型中对参数的估计精度和稳定性都是表现较好的,所以下面我们以FEQR法来分析不同消费水平居民的收入支出模式是否有所不同。

图1给出了边际消费倾向β随分位点τ变化而变化的函数图,我们发现,β值随着τ的变化呈现较大波动,当τ从0.02→0.10时,β值快速增加,而在T从0.10→0.77时,β值则缓慢平稳增加,直至达到最大值0.659,而之后则渐趋平稳并在τ≈0.90后快速下降,到τ=0.98时β值已降至为0.603。从图1中不难看到,边际消费倾向最高的是消费水平在0.6至0.9分位点之间的居民,即中高消费群体;

图1 FEQR估计随分位点变化函数图

FEQR估计随分位点变化函数图最低的是0.2分位点以下的居民,即低消费群体,不过虽然他们的平均边际消费水平是最低的,但当他们收入增加时,其平均边际消费倾向增加的意愿却是最强烈的。另外对于0.9分位点以上的高消费居民,虽然他们的边际消费倾向不是最低的,但其收入的再增加并不会增加他们的边际消费倾向,反而是有明显的降低边际消费倾向的意愿。以上发现都是传统均值回归方法无法捕捉到的信息,但这些信息却为我们当前制定刺激消费的宏观经济政策提供了有利参考:即有效的刺激消费政策应该努力提高中低消费居民的收入水平。

标签:;  ;  ;  ;  ;  ;  ;  ;  

面板数据的分数回归方法及模拟研究_面板数据论文
下载Doc文档

猜你喜欢