中国社会的代际收入流动性趋势:2000-2009,本文主要内容关键词为:流动性论文,中国社会论文,趋势论文,收入论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
JEL分类号:D31,E24 文献标识码:A 文章编号:1002-7246(2013)02-0019-14
一、引言
代际收入流动性是指父代与子代之间收入的相关程度。与此相对应的代际收入弹性系数是指父代的收入对子代收入的影响程度①。该系数越高,说明父代的收入对子代的收入影响越大,代际的收入流动性越低。高的代际收入弹性表明父辈的财富和身份等因素能很大程度地决定和影响着子女的财富和身份,例如当今社会形成的所谓“富二代”现象。同时也说明低收入家庭的子女难以通过自身努力提升其收入和地位,导致收入差距呈代际“继承”性、“遗传”性特征。因而,代际收入流动性或代际收入弹性系数的变化,在一定程度上反映出机会均等是否在变化。
改革开放以来,随市场机制在资源配置中的作用的加强,中国的就业体制、收入分配体制等发生了重大变革,那么,中国社会的代际收入弹性是否相应地发生了变化?发生了多大程度的变化?这是值得研究的重要课题,这也是检验改革成效的一个重要方面。
本文在对现有研究方法进行优化的基础上,使用中国健康与营养调查(CHNS)1989-2009年的入户调查数据,估计中国社会父辈收入与子辈收入相关性的代际收入弹性,以此揭示家庭状况对子辈在就业、收入、社会地位等方面的影响程度是否在发生变化。
本文基于CHNS数据以及中国社会发展的阶段,我们估计了2000年之后中国社会的代际收入弹性。通过优化估计方法和严格的数据处理,尽可能地消除了因估计偏误导致的估计系数不可比性,得到了2000、2004、2006年和2009年的代际收入弹性分别为0.66、0.49、0.35、0.46。该结果表明,中国社会自2000年以来代际收入流动性总体上是在上升(即代际收入弹性系数处于下降趋势)。但与有关国家的代际弹性相比,中国仍处于一个流动性偏低的阶段(代际收入弹性仍在0.40以上)。使用转移矩阵的分析表明,与2000年的代际收入流动性相比,2009年流动性的降低在一定程度是由于高收入阶层向下的流动性增加有关,而整体的流动性较低则与底层收入阶层向上流动较低有关。为此,中国还需继续推进体制改革,促进机会均等,特别是促进底层收入家庭子辈向上流动。
本文内容安排如下:第二部分是文献综述和对中国社会已有估计的评述,第三部分是估计方法和数据的描述,第四部分是计量估计和结果解释,最后是总结。
二、相关研究文献评述
代际收入流动性是经济学研究的重要课题之一。Becker(1986)对代际收入流动性进行了详细的理论分析,通过估计,认为美国社会的代际收入弹性约为0.2,是一个流动性极大的社会。但是,上述代际收入弹性的估计是基于一年的数据得到的。由于代际收入弹性的估计必须使用持久收入,因而单年的实际收入会导致很大估计偏误。Solon(1992)通过在实际收入的分解中引入年龄的二次函数项,并使用父辈对数收入的多年平均,得出了美国的代际弹性系数在0.4以上的结论,这显然大于之前0.2的估计,进而得出美国是个流动性很低的社会。随后大量的文献讨论了如何估计代际流动性,其中Solon(1999)对此前的文献作了详细综述。但是如何用可观测的收入数据去逼近持久收入始终还是在代际流动性估计中不断讨论的课题。Haider和Solon(2006)通过美国的社会保障数据,发现个人一生的收入轨迹使用传统方法难以描述,因而估计出了每个年龄段的生命周期偏误,发现使用30岁早期或者40岁早期的实际收入导致误差最小。这对于后续研究如何选择年龄提供了依据。随后由于数据可获得性的改善,最新的估计和国别估计及对比分析不断涌现。Mazumder(2005)估计的美国代际收入弹性在0.5和0.6之间,Nicoletti和Ermisch(2007)对英国的估计是0.3,北欧国家的瑞典(Hirvonen,2007)、挪威(Nilsen et al.,2011)、芬兰(Pekkarinen et al.,2009)等小于0.3,这与Jantti et al.(2006)在可比数据样本下对各个国家估计基本一致。
近年来,代际流动性的研究由静态转向动态的时间趋势。在Becker和Tomes(1979)模型的基础上,Solon(2004)在一个效用最大化模型下从理论上讨论了是哪些因素导致了社会流动性的国别差异和随时间的变化。Lee和Solon(2009)使用了样本逐步累加的方式估计了美国1977-2000年的代际收入弹性变化,发现美国在这段时间没有明显的变化趋势。Nicoletti和Ermisch(2007)估计得出了英国的代际流动性在20世纪50年代后期至70年代之间是下降的。挪威(Bratberg et al.,2005)和芬兰(Pekkala和Lucas,2007)的社会流动性则在不断增加。Ichino et al.(2009)通过十国的数据对比发现公共教育支出与代际收入弹性负相关的证据。
然而,有关中国社会代际流动性问题的经济学研究很欠缺。王海港(2005)利用中国社会科学院城乡居民收入分配调查资料,估计了城市1988年和1995年的代际收入弹性为0.384和0.424,认为中国社会的流动性在这些年下降了。韩军辉(2010)使用CHNS数据估计了农村居民的代际流动性问题,得到的弹性系数为0.448。王美今和李仲达(2012)同样使用CHNS数据估计了中国社会的代际流动性处在0.615至1.280之间,大致为0.830,即中国的“二代”现象还非常明显。
上述研究是仅有的估计中国社会代际收入流动性的经济学文献,但是他们要么讨论城市,要么只讨论农村,而城市和农村结合起来之后,并没有去考察中国社会流动性随时间变动的趋势。更重要的是上述有关中国社会代际收入流动性的研究,没有讨论中国数据的样本特点以及父辈和子辈的样本选择对代际收入流动性估计的影响,也没有考虑因估计偏误带来的趋势估计的可比较性问题。
本文弥补了中国代际收入弹性及其趋势估计的缺陷,通过对已有方法的详细分析,归纳出误差相对较小的方法,同时考虑到了中国数据中父母与成年子女居住的特点,分析及估计结果更具有可靠性。
三、方法与数据处理
(一)估计方法讨论
代际收入弹性的基本估计方程为:
Haider和Solon(2006)使用美国数据估计了各个年龄的系数值,发现个人在其30岁的早期和40岁早期的收入,最接近一生的平均收入。即是图1的k1和k2所示的年龄。因此,在估计代际弹性时,子辈的收入可以取30岁左右时的收入,父辈则用40岁左右,所导致的误差最小。从(4)式可以看出,如果不是使用等于持久收入的年龄收入,那么即使是父辈的收入准确度量了,子辈的收入也会导致估计系数的有偏,而且偏误的方向不定③。这是现有中国研究普遍存在的问题。
基于单峰型的一生实际收入轨迹近似二次函数轨迹的特点,可以把实际收入分解为持久收入加上一个年龄二次函数的确定趋势,并加上由随机因素决定的不规则部分,即:
上式是现有研究普遍使用的实际收入与持久收入假设关系,因为它可以解决子辈收入度量导致的偏误,同时也可以减少(2)式中暂时性收入方差过大导致的大的向下偏误④。但(5)式的假设是同一估计方程的子辈或父辈具有各自相同的二次函数趋势。事实上,每个人的实际收入轨迹或许类似二次函数,但是各自有各自的系数值,因此如果使用相同的二次函数趋势,还需要类似于(3)式中在持久收入前加入系数调整来精确拟合。
为此,我们通过控制年龄的范围来使用(5)假设的收入模式,确保持久收入对实际收入的影响系数尽可能接近1,这样就可以避免因子辈的收入度量带来的偏误。同时由于把传统的随机项拆出了一个固定项,因而极大地减小了暂时性收入的方差,降低了偏误。因此,本文的估计基于数据的特点,综合考虑用于降低前述三种收入模式假设产生的偏误的方法:控制子辈和父辈年龄的范围、使用父辈变量多年的平均以及控制年龄及其二次项,以最大限度地降低估计偏误,得到相对精确和可比较的估计。这是与现有的研究中国代际收入流动性的方法相比最大的改进之处。
(二)数据处理
本文使用的数据是中国健康与营养调查(CHNS)1989-2009年的家庭非平衡面板数据。该数据考虑到中国各地的发展程度,选取了黑龙江、辽宁、河南、湖北、湖南、贵州、广西、山东和江苏9个省作为样本,涵盖农村和城市家庭的人口特征、收入水平、教育、健康状况、医疗保险、农业生产、个体经营、时间分配、家族关系等方面数据。由于对同一家庭的多次调研,我们能够观测到父母和子女随时间变化的收入情况,因而可用于估计代际收入弹性。CHNS数据与国外数据所不同的是,父母和子女数据要能够被观测到,需要生活在同一个家庭内,这会导致估计的系数比实际的偏高(Becker和Tomes,1986)。为了避免考虑婚姻的正向匹配和家庭劳动供给带来的误差问题,我们只考虑父亲和儿子的代际收入联系,因而只保留了男性样本。同样为了避免多个儿子带来的估计问题,我们只考虑在家中年龄最大的儿子与父亲的收入联系。另外,我们也把父亲或是儿子在校学习的样本剔除。由于样本包含了农村和城市样本,所有的收入变量都使用家庭净收入,并用2009年的对应地区的物价指数折算成实际收入。
基于前文对估计误差最小化的讨论,首先把儿子的年龄,尽量控制在30岁左右,父亲的年龄控制在40岁左右。为此,我们对数据做了如下清理。去掉低于25岁子辈的样本,同时也去掉了55岁以上的父亲辈观测。由于CHNS的调研只有8次,为了能够让父辈的年龄跟子辈年龄限定在我们讨论的范围内,我们只考虑父辈收入的最初三次调研,即1989、1991年和1993年的观测;而子辈的收入观测在2000、2004、2006年和2009年。中间的1997年数据不予考虑,这样既可以增加父亲和儿子的年龄间隔,也能够避免1997年中途退出调研导致的样本减少问题。
一般来说,为了估计代际收入弹性的时间变化趋势,大都使用同一年或者临近几年出生子代作为某年代际收入弹性估计的子辈群体。在此,我们考虑每年中25~34岁的子辈作为一代。如表1所示,经过上述处理,2000年有133个配对家庭,2004年有114对,2006年有92对,2009年有104对。在2000年中子辈样本的平均年龄是28岁,出生的年份是1966年到1975年,恰好是文革十年出生的人群。这一人群的工作很大程度上受到了计划体制的影响。随后接下来的是1970年后人群,这里面有大部分人是顶替父母工作而就业,即“接班”,还有相当部分是自由就业,因为这一人群最年轻的一代是1979年出生的。如果他们20岁就业,即1999年,正好赶上了大学生不包分配的年代。2006年的25~34岁人群是在1972年至1981年出生的,2009年25~34岁人口是在1975-1984年出生的。为了避免2009年中与2000年的有同一年出生的情况,我们考虑了2009年处于24~33岁人群。这样不同时间的子辈平均年龄是28、28、29、30岁和30岁,接近他们人生中达到平均收入的年龄段。
在父辈平均年龄的描述统计中,1989年这一行对应的平均年龄分别是2000年子辈年龄在25~34岁的父亲在1989年时的平均年龄,其他各年解释相同。我们可以看到2000年的子辈对应的父辈在1989年时的平均年龄是44岁,1991年是46岁,1993年是48岁。由于每一个待估年份配对的子样本中样本量相同,因此父辈的平均年龄1991年比1989年大两岁,1993年比1991年大两岁。因此父辈年龄的两年或者三年的平均很容易算出来,就是对应年份平均年龄的再平均。因此,我们也只要知道1989年的平均年龄就可以推断各年以及几年平均的年龄。2004年子辈的父亲在1989年的平均年龄是41岁,2006年的是40岁,2009年的是39岁。父辈在1989、1991年和1993年内三次调研的平均年龄正好就是1991年的平均年龄,分别是46、43、42、41岁。因此,三年来看,2006年和2009年样本父辈和子辈的收入都更接近他们各自的一生平均收入。由于2000年跟1989年间隔时间太近,因此可以看到2000年配对的父子中,子辈的平均年龄偏小,父辈的平均年龄偏大。这会导致2000年估计向下偏误最大。其他各年的子辈和父辈年龄差异很小,因而2004、2006年和2009年之间估计因收入在不同年龄段度量导致的低估差异较小。
由于同住家庭样本有高估社会总体的代际收入弹性趋势,考虑到中国父母与成年子女居住的比例随时间越来越小,因而CHNS样本会随着时间往后推移高估越大。基于对年龄的控制可知,各年的代际收入弹性估计中因年龄的差异导致的估计偏误变小且方向明了,而各年因子代与父代同住导致高估的时间趋势也很明了,因而有利于我们判断真实的代际收入弹性趋势。关于各年度子代和父代的收入描述统计见附录表1-4。
四、代际收入流动性的估计与解释
根据上一节估计方法的讨论,我们把式(5)代入式(1)得到如下估计方程:
首先,我们在上一节描述的样本内,只考虑父亲一年的实际收入作为解释变量,随后我们考虑父亲收入的两年平均以及年龄的两年平均,然后是父亲变量的三年平均作为解释变量,分别估计出2000、2004、2006年和2009年四个年份的代际收入弹性。
表2是我们对中国代际流动性的时间趋势估计。简化起见,我们没有给出其他系数,只列出了代际弹性系数及其相应的估计标准误。第2~4行,是对每个t,c分别取1989、1991年和1993年时的代际弹性。我们可以看到,即使控制了年龄的趋势,使用单个年份的父辈数据,而且是严格控制父亲年龄范围使其尽可能地保持在接近其一生平均收入的年龄附近,也还是会有很大的偏误。如2006年的弹性估计,使用1989年的父辈收入,出现了较大的负值估计系数(-0.15),使用1991年和1993年的父辈收入却得出了相对较大的正弹性系数(0.39和0.45)。这可能与单个年份的收入数据受经济暂时波动,特别是一些未预料到的大的经济冲击影响,以及收入数据的报告误差有关。
第5行是以1989年和1991年两年平均的父辈收入作为父亲的一生平均收入代理变量的估计。此时,我们发现2006年的代际弹性数值变为正了(0.14)。除了2006年的系数估计值没有表现出单调递增的趋势外,其他年代的代际弹性估计在1989年和1991年两年平均的基础上大于单年估计值。这在一定程度上说明了,在控制住年龄趋势的影响后,两年平均能够消除一年数据的波动误差。第6行的1991年和1993年的平均的系数估计要远高于使用1989年和1991年平均的估计。这说明使用的1989年数据有较大的偏误。
使用1989、1991年和1993年三年的父亲收入平均作为父亲的持久收入度量,发现2006年和2009年系数处于上述两个系数的中间,而2000年和2004年却比两年平均估计要大,没有表现出在标准的误差模式中越多年平均估计越大的结果。显然更多年份的平均,使得使用父辈单年收入估计的较大波动得到了平滑。由于2009年子辈中最老的一群人与2000年子辈中最年轻的人出生于同一年,为了说明十年之后是完全不同的一代人,我们也估计了把2009年中最老的一代去掉,同时把最年轻的推后一代,这样正好也是十年的组群。表2最后一列就是上述处理后估计的结果。我们发现该估计的系数值与使用1975年至1984年出生群组的估计,无论是单年还是多年的父辈变量平均估计,几乎没有差异。这也说明2009年估计的代际流动性是很稳健的。
三年平均估计得到2000、2004、2006年和2009年的代际收入弹性为0.80、0.54、0.46和0.46,其趋势是从2000年以来,中国社会的收入流动性在不断地改善。
同时,我们合并四年的回归,并使得每年中子辈的收入年龄趋势一样,父辈的年龄趋势也相同,只不过是各年的配对组有自己的截距。即我们估计如下方程:
(7)式合并方程得到的2000年后四年的代际收入弹性分别是0.77、0.54、0.48、0.46,与方程(6)分别估计的结果没有太大的差别。我们用这一方程来检验4个代际弹性系数是否相等的F检验,发现并不能拒绝它们相等的原假设。虽然我们严格地控制了年龄范围以及年龄趋势,但还是存在估计偏误,需要对估计偏误进行严格的讨论才能确定真实的趋势。
从表2的结果可知,父辈单年收入的使用使得估计的波动很大。我们通过考察附表1~4的收入描述统计可知,或者是出于误差或是由于研究者或是调查员不可观测的冲击导致,其中的一些收入是异常的。不管是子辈还是父辈,很难想象年收入只有44,因而收入可能存在异常值的影响。为了剔除这些异常值的影响,我们把父辈的实际年收入低于120元的家庭去除。同时,我们认为2000年和2004年子辈的实际年收入至少不低于600元,2006年的实际年收入不低于1000元,2009年的实际年收入不低于1200元。经过上述处理之后,我们得到了2000、2004、2006年及2009年的配对家庭数分别为121、108、86和98。表3是去掉异常收入值后与表2对应的(1)-(4)列代际收入弹性的估计。
在表3中可以看到,去掉异常值后,以1989年父辈的实际收入作为其持久收入代理变量的估计,与1991年和1993年的差异变小了,而2006年代际收入弹性由原来的较大负数变为了接近于0的数。同样,1989年和1991年的两年平均与1991年和1993年的两年平均之间差异也变小。上述的这些变化在一定程度上又降低了3年平均估计误差。以父辈变量的3年平均样本为例,去掉异常值后2000、2004、2006年和2009年的代际收入弹性估计为0.66、0.49、0.35、0.46。除了2000年和2006年的估计收到较大影响外,其他系数的估计变化不大,但是总体的趋势还是较2000年以来有所下降。我们也给出了该样本下的估计方程(7)的回归结果,其表现的2000年以来的代际收入弹性估计与分开回归的结果没有太大差异。四个系数是否相等检验的F值为0.65,没有拒绝它们相等的原假设。
Becker和Tomes(1986)以及Solon(2004)在一个利他主义框架下,建立了父母基于自己的消费和小孩投资考虑最大化自身效用模型,从理论上推断了父母的基因和家庭文化的影响即继承系数会提高代际收入弹性。继承系数又与子女与父母待的时间成正比。因此,我们如果使用父母与子女居住在一起的样本估计,则会高估整个社会的收入代际弹性,且整个社会中成年子女与父母同住一起的比例越低,则导致高估越严重。我们从2000年、2005年1%的抽样和2010年的人口普查数据,可以基本判断出成年子女与父母居住的趋势。图2是三代以上同堂居住的比例。该图说明从2000年以来,中国社会的核心家庭越来越多,父母与成年子女居住一起的比例越来越低。
图2 三代以及三代以上同堂的家户比例
因此,即使我们的回归结果得出并没有估计系数真值不同的检验,但是考虑到这里CHNS样本的特征,即只有父母与成年子女居住在一个家庭才能够观测到收入数据。这一因素会导致越是早期的数据,高估社会收入代际弹性的部分越小,而越是后期的数据高估越大。由于我们严格地控制了子辈和父辈年龄的范围,使得每年的代际收入弹性估计因年龄导致的偏误变小。因此,考虑父代和子代同住导致高估的因素,即使是各年的样本估计值相等,我们仍然有理由判定2009年整个社会的实际弹性系数低于2000年。在考虑到前面年份因父辈和子辈年龄导致向下偏误,因而更有理由确定真实的代际收入弹性,在前面年份较高的论断。因而,我们以表8的三年平均的父辈收入估计出的代际弹性为例,来讨论中国收入代际弹性系数的趋势。
图3是代际弹性趋势图,可以看出2000-2009年间中国的收入代际弹性总体趋势是下降,具体为经历了一个先下降,然后再上升的过程。在2000年时高达0.66,随后下降到2004年的0.49,接着达到最低点2006年0.35,最后又开始上升到0.46。
图3 2000-2009年的代际收入弹性趋势图
对比2000年和2009年的代际弹性可知,中国十年之内父辈的收入对子辈的收入影响有所下降,说明改革开放所推动的就业和收入分配体制改革在一定程度上有利于加大社会流动性。为了更好地说明2000年以来的十年内代际流动性的增大,是由于哪部分的收入阶层的流动性所致,我们构造了2000年和2009年的流动矩阵(mobility matrix)。矩阵P1和P2是我们根据父辈和子辈的收入从小到大的排列,分别分成五个等分的5×5矩阵,它们分别代表2000年和2009年的流动性矩阵。行是父辈的收入等分,列是子辈的收入等分。P1中第一行第一列的数字0.333,表示父辈处在最低的20%分位收入组,其子辈有33.3%的概率仍然处在子辈的最底层的五分位。因而P1中第一行第二列的数字0.167,表示父辈处在20%分位最低收入组,其子辈有16.7%的概率跃升至子辈的20%~40%的分位收入层级上。其他以此类推。
从P1和P2中可以看到,在2000年和2009年,出生于底层收入家庭的子辈仍然处在收入底层的概率比较大。最大的不同是,2000年时,处于最顶层的家庭的子代有54.2%的概率仍然处在收入的最顶层;到2009年时,该概率只有15.8%。这表明2009年中国社会从上层往下的流动性增强了,但是从底层往上的流动性甚至有些许的下降。这说明这十年来流动性的些许下降,来自顶层收入阶层的向下流动性增强了,但是穷人的后代仍然是穷人的概率并没有下降。因此,为了增加社会流动性的努力应更多地倾向于有利于增加穷人子辈收入的政策,如对农村的支持(许崇正和高希武,2005)。
五、结论
代际流动性反映了一个社会的机会均等的状况。本文使用1989-2009年的CHNS家庭跟踪调查数据,估计了2000年到2009年中国社会代际流动性的趋势。在方法和样本处理上,通过尽力避免在代际收入弹性估计中子辈和父辈一生收入度量带来的偏误问题,严格控制父辈和子辈的年龄,引入年龄的二次函数来解决由于单峰型的一生收入轨迹带来的实际收入与一生收入的偏差,并通过对父辈收入的多年平均来降低因暂时性收入冲击导致的向下偏误问题。
估计结果表明,若使用父辈一年的收入,即使控制了年龄趋势效应,也会由于暂时性因素过大而导致代际弹性的严重偏误估计。因此,多年的平均有助于消除单个年份过度波动而导致的偏误。无论是两年平均,还是三年平均,都说明从2000年以来,中国社会的代际收入弹性在下降,也就是社会的流动性在上升,子辈的收入受父辈的收入影响程度在下降。说明随着市场化改革的推进,子辈间受父辈间差距的影响程度呈下降趋势,机会不均等的状况在逐步改善。
但是应该注意的是,2009年的代际弹性仍处于0.46左右,与有关国家的收入流动性弹性相比(见前文相关文献的综述部分),中国的代际收入流动性弹性仍然偏高。从各个阶层的流动性比较看,中国社会的低流动性主要体现在低收入群体组别。为此,中国还需要进一步推动市场化改革,打破行业间以及城乡之间的劳动力流动壁垒,进一步深化就业和收入分配体制改革,加大对低收入人群的公共教育投入等,促进社会流动性的提高。
附表:
注释:
①如果代际收入弹性为β,代际收入流动性则为1-β。因此,在描述的时候代际收入弹性和代际收入流动性可互换使用,只不过两者相反。
③显然使用子辈一生早期或者晚期的实际收入做被解释变量,会导致系数估计下偏,而使用收入的高峰期左右的收入则会导致系数估计上偏。对父辈而言,则是父辈实际收入越接近持久收入,误差越小。
④现有研究并没有指出为什么要采用(5)式的持久收入处理方式,因此,王美今和李仲达(2012)对这一处理方式提出了质疑。本文在此提供了部分原因,并指出该方法存在的不足。