面板数据计量模型适应性的比较研究,本文主要内容关键词为:适应性论文,面板论文,模型论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 引言
众所周知,当经典计量经济模型的4个基本假设满足时,估计参数贝塔的标准差是无偏且一致有效的,但是,当不同时期的观测值与残差之间存在相关关系时,直接应用OLS回归有可能对贝塔的标准差产生有偏的估计,同时,检验贝塔参数的置信度需要构造t统计量,在贝塔标准差估计有偏的情况下,会相应地减小或增大对应的t值,从而增加估计结果出错的概率。此外,自变量和残差之间存在显著的相关关系,表明模型中还有重要的信息没有被充分挖掘,有时贝塔标准差估计甚至会产生较大偏差,甚至无法确定所建立的方程究竟是否有效。面板数据(panel data),由于具有时间和横截面两个维度,能够很好地研究不同公司(地区)在不同时期的特征,因此近几年在实证研究中获得了广泛的应用。例如,统计了《经济研究》、《管理世界》、《金融研究》、《世界经济》等主要学术期刊中运用面板数据的论文数量,结果发现,从2002年到2008年,主要经济管理类学术刊物中运用面板数据的论文呈现出明显的上升趋势(参见图1)。
图1 近年主要学术期刊发表基于面板数据的论文数量
越来越多的论文采用面板数据,充分说明了用面板数据研究经济问题的优点。然而,正因为此,面板数据比一般一维时间序列或横截面数据更为复杂,直接应用OLS回归,同一时期不同公司间的残差之间可能存在相关关系,同一公司不同时期的残差之间也可能存在相关关系。然而,许多论文在应用面板数据进行实证研究时,往往不考虑对贝塔标准差的调整,或者只进行了部分调整。具体来说,许多文章采用了面板数据中的固定效应模型进行研究,但是只考虑了个体效应,即只针对同一时期不同公司的残差相关关系进行了调整,很少文章考虑时间效应,这样的结果往往是不能令人信服的。本文将显示,如果没有考虑数据中存在时间效应,即使采用了固定效应模型,其估计结果也是有较大偏误的。
下面,做一个简单的回归来说明直接应用OLS回归可能产生的错误。
针对上市公司成长性与规模的关系研究,本文选择销售收入增长率代表公司的成长性,选择公司总资产的对数值作为公司规模的衡量指标。并选择了商业百货上市公司(来自证监会行业分类的零售业)1997至2006年共10年的数据,为了消除异常数值的影响,又去除了带有*ST①,ST以及部分数据不全的上市公司数据,共45家公司。所有数据均来源于wind咨询。下文以asset代表资产规模,以xxsrzzl代表销售收入增长率,各变量的统计性描述见表1。
表1 各变量的描述性统计
设立如下模型来分析上市公司成长性与规模的关系
其中,下标i和t分别表示上市公司和时间;g表示公司成长性,数据为各公司每年的销售收入增长率;size表示公司规模,数据为各公司的总资产。以上是基准模型,根据研究目的的不同,在具体的研究中会采用不同的形式。
当直接采用OLS对上式进行回归时,β的估计值为10.325,标准差5.7101,t值为1.8083,在10%的置信水平下显著。然而,如果考虑了固定个体效应,情况就大不相同。采用固定个体效应模型估计,得到β的估计值为7.8475,标准差为9.2633,其值约为OLS估计的1.6倍,t值只有0.84716。采用固定时间效应模型估计,得到β的标准差为6.0857,与OLS估计结果差别并不大。因此,如果没有考虑固定个体效应而直接估计,那么很有可能得出的是完全相反的结果。面板数据模型扰动项可能存在异方差性、序列相关与截面相关,许多学者提出了不同的方法应用于面板数据的估计。针对固定效应模型,Kiefer[1]提出了Kiefer标准差,针对面板数据估计中残差存在序列相关的情况,该估计方法在面板数据不存在异方差的时候是稳健的。White[2]提出了针对计量模型中存在异方差的一般估计方法。在两者的基础上,Arellano[3]提出了Arellano标准差,该估计系数在存在异方差和序列相关时都是稳健的。尽管如此,Arellano系数在提出后并没有被广泛采用,可能的原因在于该估计系数在小样本情况下的有效性问题。然而,Kezdi[4]通过模拟证明了在只存在固定个体效应的情况下,只要个体数日大于50,Arellano标准差依然能够得到比较稳健的结果。
Fama和MacBeth[5]提出了Fama-MaeBeth回归方法,该方法能够很好地处理资产价格的时间效应,因此该回归方法在资产定价的学术论文中得到了广泛应用。由于资产价格的时间序列数据也可以看作特殊的面板数据,在下文的模拟和实证分析中,也包括了文献中常用的Fama-MacBeth方法。此外,Newey和West[6]提出了Newey-West方法,并在后来被改进用于面板数据的回归分析,Driscoll和Kraay[7]提出厂Driscoll-Kraay标准差以调整面板数据中存在个体效应和时间效应时的β标准差。但是这些方法并没有得到广泛应用。
尽管面板数据的处理在理论上有了较大的发展,但在应用上仍受到一定限制。主要原因在于理论推导是基于大样本进行的,而实际研究中人们可以得到的面板数据样本量却很小,因此,许多理论上完美的方法在实际应用中就会大打折扣,在小样本情况下,不同方法对同一面板数据的应用结果可能差别很大。但是,差别究竟有多大?各种方法分别适用何种结构的数据?这就需要采用模拟方法来回答了。本文试图通过对实证中常用的面板数据研究方法进行比较研究,通过模拟指出采用不同方法进行估计的偏误,尤其是针对运用面板数据研究中样本过小的问题,较为深入地比较在只存在个体效应,只存在时间效应和同时存在个体效应和时间效应时,各种方法在小样本情况下的估计结果。结果表明:在数据中存在不同的效应时,运用不同的方法会产生较大差异的结果。然而,这也提醒人们,在产生较大差异时,需要注意数据中可能存在着某一类型的效应。
1 3种不同情形下面板数据处理方
法在有限样本下的比较分析
在实际的面板数据中,常常有3种类型的因素影响残差的相关性。Hsiaoa[8]把它们称为个体时期恒量(individual time-invariant),时期个体恒量(period individual-invariant)和个体时期变量(individual time-varying)。在存在个体时期恒量(individual time-invariant)的情况下,某个公司在不同时期的残差可能是相关的,伍德里奇把它称为不可观测个体效应(unobserved firm effect);在存在时期个体恒量(period individual-irwariant)的情况下,某个时期不同公司之间的残差可能是相关的,伍德里奇把它称为不可观测时间效应(unobserved time effect);另外,不同公司在不同时期的残差可能存在相关关系,这叫做不可观测个体时间效应(unobserved firm-time effect)。
正因为面板数据受到多种因素的影响,针对不同的影响因素,计量经济学家提出了不同的方法对贝塔的标准差进行调整。最常用的有Arellano[3]在Kiefer[1]、White[2]等人的基础上引入聚类回归分析(cluster analysis),称为聚类回归标准差估计系数(cluster standard error estimator),调整固定效应模型的贝塔标准差。再有,学术上在资产定价中常用Fama-MacBeth方法进行回归,该方法能够消除数据的时间效应。
为了便于对聚类回归标准差估计系数和OLS方法进行比较②,首先简要回顾基于面板数据的OLS回归模型。一般地,面板数据的OLS回归模型可以写为
上述OLS回归方程是建立在假设残差独立同分布的基础上的,残差独立的假设用于从第1行推出第2行,残差同分布的假设(即同方差)用于从第2行推出第3行④。OLS回归可以得到无偏的贝塔标准差。然而,正如前文所述,在面板数据中关于残差独立的假设常常被违背,下面分别考虑以下几种情形。
1.1 只存在固定公司(个体)效应
为了放宽残差独立这一假设,本文首先假设只存在固定的个体效应,不存在时间效应,因此残差就可以写为
上述都是具有零期望、有限方差的变量,并且相互独立。这样,就能保证下文模拟中对模型的系数估计结果是有效的。因为自变量和残差在同一个体中都是相关的,但是在不同个体之间是相互独立的,即
通过上式可以看出,由于的存在,OLS回归对贝塔的标准差估计是有偏的。一般来说,OLS低估了真实的贝塔标准差,并且随T的增加而增加[10]。
1.1.1 固定效应模型的估计系数
在只存在公司固定效应时,可以用下面的固定效应模型进行回归,即
而Kiefer[1]提出了下面的β标准差的估计量,该估计量在满足不存在异方差情况时是有效的。
继而,Arellano[3]提出了更广义的β标准差的估计量,即
该估计量在存在异方差或者残差存在序列相关时都是有效的。
虽然理论上在大样本的情况下(N→∞)完全可以采用Arellano估计量来代替Kiefer估计量,但是并不能确保在小样本的情况下也可以这样做,因为小样本下两种估计量的精确度是不同的。为了对其进行比较,本文通过固定T,针对不同数目的N进行了模拟研究。
在不考虑序列相关的情况下,本文模拟了一组面板数据,并且估计了β和β的方差。通过模拟多次,就可以得到一系列其估计值,这样一来就可以计算出真实的β方差和β方差估计的平均值。在这里,首先加入了固定个体效应。在不同的模拟中,固定T=10,改变个体的数目,从10增加到250。模拟5000次的结果如表2。(以下模拟实验均是来自5000次蒙特卡洛模拟的结果,均采用MATLAB完成。模拟中设定数据真实的斜率β=1,由于无论在存在个体效应或者时间效应时OLS方法的β估计量都是无偏的,通过5 000次模拟可以得到5000个β值,并可以计算出β的方差,这是该估计值的真实的方差。)
表2 不同个体数情况下各种方法的估计结果(不存在序列相关)
注:T=10.
表2中,truevarheta表示真实的β方差,Avar表示基于Arellano估计量计算的β方差的平均值,Kvar表示基于Kiefer估计量计算的β方差平均值,Wvar表示基于White⑤估计量计算的β方差平均值,Ovar表示基于OLS估计量计算的β方差平均值.可以看出,直接用OLS估计明显低估了β的真实方差,在N=10的情况下,OLS估计的β方差仅仅是真实值的47.19%(0.021 8/0.046 2),随着N的增加,OLS估计量与真实值的比值分别为46.37%、45.05%和44.27%,偏差有所增加,但增加幅度并不大.同时,在样本较小的情况下(N=10),Arellano估计量与真实方差还是有较大差异的,偏差为12.77%((0.0462-0.040 3)/0.0462),而Kiefer估计量的偏差仅为3.46%((0.046 2-0.044 6)/0.046 2),White估计量的偏差为4.98%((0.0462-0.043 9)/0.0462),这表明在不存在序列相关和小样本的情况下,Kiefer估计量和White估计量的计算结果都比Arellano估计量的精确度高.然而,随着样本规模的逐渐增大,Arellano估计量与真实值之间的偏差逐渐缩小,在本文的模拟实验中,只要N足够大(N≥250),这几种估计量之间的差异就可以忽略不计。
由于许多论文在实证过程中往往更关注异方差的情况,而忽略了序列相关这一问题,因此,按照上面的数据结构,本文加上序列相关,重复进行了模拟实验,以期能够得到上述几种估计方法在不同情况下的比较结果,模拟结果见表3.
表3 不同个体数情况下各种方法的估计结果(存在序列相关)
P表示的自相关系数。当P=0.3时,表示的一阶自相关系数为0.3,的一阶自相关系数亦为0.3.表格中第1行数据表示真实的β方差,第2行数据表示基于Arellano方法估计的β方差,第3行数据表示基于Kiefer方法估计的β方差,第4行数据表示基于White方法估计的β方差,第5行数据表示OLS估计的β方差。
模拟结果表明,加入序列相关后的模拟结果与没有序列相关的情况有着很大的不同。对比N=10的情况可以看出,当序列自相关系数分别为0.3、0.5和0.8时,Arellano估计量、Kiefer估计量和White估计量的偏差分别为9.86%、1%、14.14%;25.70%、9.98%、48.60%;15.30%、5.22%、55.22%.显然,在存在序列相关的小样本情况下,Kiefer估计量要显著优于Arellano估计量和White估计量.White估计量严重偏离了真实值,无论在小样本还是大样本下均如此。在N=250时,Arellano估计量和Kiefer估计量与真实值的偏差分别为0、0(P=0.3);2.66%、1.90%(P=0.5);9.09%、0(P=0.8)。这表明在大样本下,Arellano估计量与Kiefer估计量的差异已经很小,这与上面不存在序列相关的模拟结果是一致的。
为了更形象表示上述结果,进一步给出了上述结果的图表形式,以便能够一目了然小样本情况下各种估计方法的精确情况。
图2 不同个体数情况下各种指数的估计结果(不存在序列相关)
图3 不同个体数情况下各种指数的估计结果(序列相关系数0.3)
图4 不同个体数情况下各种指数的估计结果(序列相关系数0.5)
图5 不同个体数情况下各种指数的估计结果(序列相关系数0.8)
1.1.2 Fama-MacBeth误差估计
现有文献中常见的另外一种估计回归系数和标准误差的方法是Fama-MacBeth方法。该方法的具体运用可表述为研究者首先对面板数据的每一时期的数据进行回归,一共回归了次得到T个β(T代表时期),最后得到Fama-MacBeth的β估计值
而该估计值的方差则用下式进行计算
用上文的数据结构,模拟检验了Fama-Macbeth方法的结果,如表4。
表4 只存在固定个体效应的Fama-MacBeth方差估计
从上面模拟结果可以看出,当只存在固定个体效应时,Fama-Macbeth方法估计的β方差与真实值之间存在着较大差异,差异甚至大于OLS估计方法(见表1)。在N=10的情况下,OLS的偏差为52.81%,而Fama-Macbeth方法的偏差达到了83.48%,这表明Fama-Macbeth方法并不适合只存在固定个体效应的估计。
1.2 只存在固定时间效应
与只存在个体效应类似,可假设
1.2.1 固定时间效应模型的估计系数
在只存在时间效应情况下,β系数及其方差的估计与只存在固定个体效应情况下的估计方法类似,在公式的推导过程中,只需将相应的下标i替换为t。为了考察小样本情况下的适用性,本文同样做了模拟。结果显示,当只有10年的数据时,FE模型估计系数产生了一定的偏差。这与本文之前在只存在固定个体效应中的小样本情况下的估计结果是一致的。但是,如果固定N,增加T,随着样本数的增加,FE模型估计将会逐渐产生无偏的结果(与只存在个体效应类似,限于篇幅结果未列出)。从而有理由相信,随着样本数的增加,估计β标准差能够依概率收敛于真实。本文的模拟结果显示,250个样本就足够产生无偏的β标准差估计,而10个样本则显得太少。
1.2.2 Fama-MacBeth误差估计
与上面只存在固定个体效应的模拟结果不同,当只存在时间效应时,Fama-MacBeth方法显示出非常好的效果。固定T=250,不断改变N的模拟结果如表5⑥:
表5 只存在时间效应的Fama-MacBeth方差估计(固定T=250)
既然小样本情况下Fama-MacBeth方法都能产生较好的结果,那么在大样本下情况如何呢?通过固定N=10,不断增加样本数T进行模拟实验,也得到了较好的结果,见表6。
表6 只存在时间效应的Fama-MacBeth方差估计(固定N=10)
注:N=10。
模拟结果表明,无论样本数大小(T),在只存在时间效应的情况下,Fama-MacBeth方法都能产生较好的估计结果。
1.3 同时存在个体效应和时间效应
1.3.1 固定效应模型的估计系数
以上模拟主要考虑了小样本的情况,因为实际中有些面板数据样本很小,比如公司数目只有几十个,或者更少。根据上面的模拟,可以发现一些有趣的现象,尽管聚类回归方法调整贝塔标准差是有偏的,但是偏离的程度很小,事实上,在聚类数目为50时,偏离的程度只有4.40%(见表2,Arellano估计量。(0.087-0.091)/0.091=-0.043 96)。这表明在小样本情况下,依然有足够的理由使用聚类回归方法进行调整。另一方面,由于Fama-MacBeth方法在只存在固定时间效应时是无偏的,在确定面板数据中只存在时间效应时,可以用该方法进行调整。
此外,很多作者在进行回归模拟时,引入了虚拟变量,这说明作者考虑了数据中可能存在的个体效应。但是却很少有考虑时间效应的。如果数据中不存在个体效应,只存在时间效应,这样做往往不能得到正确的结果。如果同时存在个体效应和时间效应,使用仅仅能够吸收个体效应,并不能吸收时间效应。
在上面的模拟中,由于事先设定了数据结构这便能够采用正确的方法处理数据。然而,实际中并不了解真实的数据结构。如果数据中只存在时间效应,却认为存在个体效应而采用了吸收个体效应的方法,或者同时存在两种效应,但是却只考虑了个体效应,又会出现什么情况呢?为了进一步分析方法使用错误而造成的偏误,基于上述模型,同时考虑了个体效应和时间效应
表7是T为10年,N为250的模拟结果。可以看出,在存在时间效应时,即使很小(占比25%),使用消去个体效应的固定效应模型估计也会产生较大的偏差,而随着时间效应的增加,产生的偏误越来越大。尽管在模拟实验中显示,时间效应从25%增加到100%,Arellano估计量的偏误仅仅从95.52%增加到98.96%,增量似乎并不大,但是,25%的时间效应就足以产生95.52%的偏误,这就不得不重视实际数据中可能存在的时间效应。
表7 同时存在个体效应和时间效应情况下各种指数模拟结果(大样本)
注:时间T=10,个体N=250。
表8是T为10年,N为50的模拟结果。与大样本情况类似,在存在时间效应时,使用消去个体效应的固定效应模型估计也会产生较大的偏差,并且偏误也随着时间效应的增加而增大。
表8 同时存在个体效应和时间效应情况下各种指数模拟结果(小样本)
注:间间T=10,个体N=50。
1.3.2 Fama-MacBeth误差估计
同样对Fama-MacBeth方法的估计结果进行了比较,从表9可以看出,随着时间效应的增加,Fama-MacBeth方法估计的偏差迅速减小,当时间效应占总效应的一半时,Fama-MacBeth方法估计的误差只有4.17%。然而,如果时间效应较小而个体效应较大,估计仍有较大的偏误,本文认为这是个体效应造成的原因。上文已经说过,Fama-MacBeth方法不适合估计只存在个体效应的数据结构。
表9 同时存在个体效应和时间效应情况下Fama-MacBeth方法模拟结果
注:时间T=10,个体N=250。
1.3.3 同时存在个体效应和时间效应的处理
当同时存在个体效应和时间效应时,对回归系数的估计会复杂得多。在实际数据中,由于横向的公司数目N通常比纵向的时间数T大,实证研究常常在每一时期使用虚拟变量吸收时间效应,然后按照公司聚类进行回归。如果时间效应是固定的,那么使用时间虚拟变量可以完全吸收时间效应,在公司数日较大的情况下,可以得到较好的结果。
Hsiao介绍了对同时存在个体效应和时间效应的面板数据估计方法。令
最近,针对同时存在固定个体效应和固定时间效应的情况,Thompson[11]和Cameron等[12]提出了下面的估计方法
2 结束语
众所周知,当面板数据中存在固定个体效应或者固定时间效应时,直接使用OLS估计的β标准差是有偏的。然而,部分实证论文并没有考虑数据中可能存在的固定个体效应或者固定时间效应,部分论文虽然考虑了固定效应,但在固定个体效应和固定时间效应的辨别上,往往是比较主观的,换言之,论文中并没有提供可信的证据来表明存在何种效应。本文通过模拟面板数据进行回归分析,证明了在数据中存在不同效应时,采用不合适的估计方法依然会产生较大的偏误。具体来说,本文比较了POOL OLS,固定效应模型和Fama-Macbeth方法在不同的数据结构中的处理结果,并且通过模拟可以看到,对某种数据结构,如果采用了不正确的方法,回归结果的偏差将会非常大
尽管实证研究中选择正确的模型非常重要,但是,针对实际中面板数据的复杂性,研究中并没有针对模型选择的统一标准。特别是对于数据是否存在时间效应这一问题,实证中往往过于主观。通过本文的模拟,实际上为判断实际数据中存在何种效应提供了一种准则:即以OLS估计为基准,通过使用不同的模型进行估计,当固定个体效应模型估计与OLS估计结果有较大的偏差时,(见上文模拟结果和实证数据结果)有理由相信面板数据中存在个体效应;如果固定时间效应模型估计与OLS估计结果差别较大时,可以认为面板数据中存在时间效应;如果两种估计模型与OLS估计结果均有较大差别时,可以认为面板数据中同时存在个体效应和时间效应。这样,通过进一步了解实际中面板数据的结构,采用正确的估计方法,减少犯错的概率。
在数据中只存在时间效应时,Fama-Macbeth方法能够产生无偏的β标准差。通过使用固定时间效应模型也能够产生无偏的结果,但是必须在时间数比较多的情况下才成立,如果时间数较少,用固定时间效应模型仍然会产生较大的偏误。但是,由于实际中往往存在样本过小的问题,特别是许多面板数据的时间维度往往过小。因此,如何在小样本下提供较为精确的判断准则,是本文今后将要关注和研究的问题。
注释:
①ST是英文special treatment的缩写,意即“特别处理”。该政策自1998年4月22日起实行,针对的对象是出现财务状况或其他状况异常的上市公司。
②实证研究小POOL OLS亦较为常用,本文对OLS方法也进行了理论和模拟分析,以便对OLS方法和其他方法进行比较。
③面板数据估计模型分为变截距模型,变系数模型和联合回归模型3种。这里采用的是无截距的POOL OLS模型设定,一方面是因为本文的重点在于斜率标准差的估计问题,在固定效应模型中,截距并不是重要的估计量;另一方面,采用无截距的POOL OLS模型设定,可以使下文的推导更为简洁,并且不失一般性。
④panel data极限行为仅仅依赖于单位数N和时间长度T趋于无穷的方式。例如一种是固定N,让T趋于∞,接着N趋于∞,它们用(N,T趋于∞)表示:另一种是T=T(N),表示T的大小受N控制,N趋于∞,T(N)趋于∞,记为(T(N),N趋于∞):第3种是T、N分别趋于∞,没有相互约束,记为(N,T趋于∞)。这3种方式极限分别称为序贯、对角和联合极限。Phillips和Moon[9]主要对序贯极限理论和联合极限理论进行了研究,认为序贯极限在寻求极限行为快速渐近性上是有益的。即使在更强一些的条件下,联合极限理论也是很难得到并加以应用,但幸运的是,在所面临的T很大、N适中的情况下,联合极限理论研究和应用并没有多大困难。
标签:面板数据论文; 固定效应模型论文; 回归模型论文; 样本方差论文; 方差公式论文; 残差分析论文; 模型公司论文; 方差论文;