基于多重计量偏误的农村代际收入流动分位回归研究,本文主要内容关键词为:收入论文,农村论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
目前中国收入差距过大的事实引起了社会各界的关注,而已有研究关于收入差距的成因解释主要集中在现行分配制度的宏观分析上,较少关注和分析代际收入流动问题。事实上,当前中国居民社会经济地位的差异不仅仅体现在“当代人”的生活水平层面,而且随着社会各阶层间的利益分化还出现了较为明显的代际传递和转移。
代际收入流动反映了父辈持久收入对子代持久收入的影响程度。已有文献一般将持久收入看做不随时间变化的恒量,用父辈持久收入对子代持久收入的回归系数(即代际收入弹性)来表示这种效应。在早期的实证研究中,多数学者主要利用某单一年份的收入作为持久收入的替代变量(Soltow,1965;Sewell等,1975)。Solon(1992)明确指出这种方法会产生向下的偏误,这一点在Mazumder(2001)的研究中也得到证实。纠正计量偏误的另一思路是使用工具变量。但每个与父辈收入高度相关的变量几乎均与子代的收入相关。因此Solon(1992)认为,不理想的工具变量将会导致估计结果产生向上的偏误。如何较为精准地估算持久收入是相关研究中不可回避的关键问题。
考察代际收入流动性需要注意的另一个问题是应该选取父辈和子代哪一年的收入。Haider等(2006)认为,当前收入与持久收入在整个生命周期的不同阶段会呈现不同的关系。Grawe(2003)通过实证分析发现,在年老时测量父亲的收入会导致估计结果被压低,同时他们也找到了一些非常有限的依据来支撑代际收入弹性系数与被测年龄成正比这一假设。少数研究考虑了由于样本选择而引起的偏误。具体包括同住选择偏误和工作选择偏误。研究大多运用赫克曼两步法,而事实上,该方法主要是针对不可观测变量选择的矫正,并没有考虑可观测变量的情况。同住选择主要是由于使用了短面板数据造成的。同样,运用赫克曼两步法对“过分节俭”的代际收入流动方程矫正同住偏误也不适合。
随着计量方法的不断改进,学者对代际收入弹性的估算越来越准确。然而,上述文献仅是在“过分”强调某单一计量偏误的条件下对代际收入弹性的均值进行估算,无法度量在收入分布中不同分位数上的收入弹性。事实上,个体特征(如能力、努力等)存在一定差异。利用均值回归得出的代际收入弹性系数不能全面刻画两代人收入之间的传递景象,因此有必要利用分位回归对其进行分析。国内运用该方法的相关研究比较少。王海港(2005)、何晓琦等(2006)、姚先国等(2007)利用相关数据运用最小二乘法对中国居民的代际收入弹性系数进行了估计。魏颖(2009)利用分位回归研究发现,在控制子代受教育年限变量之前,农村代际收入弹性随着分位数的上升呈现出先增后减的“倒U形”变化趋势。该研究虽然在方法上进行了拓展,但只单纯考虑分位回归,而没有将各种样本选择问题纳入分析的框架,更没有考虑暂时性收入偏误和生命周期偏误。
基于上述分析,本文借鉴Cheti Nicoletti(2008)研究代际职业流动的思路,同时考虑暂时性收入偏误、生命周期偏误、工作选择偏误及同住偏误,利用中国健康和营养调查(CHNS)数据中的农村家庭数据对中国农村居民代际收入弹性进行估算。
二、数据说明
(一)变量说明
本文所用数据来自中国健康和营养调查(CHNS),选取的变量主要涉及广西、贵州、黑龙江、河南、湖北、湖南、江苏、辽宁和山东共9省份的农村家庭户主与子代的收入、职业、教育、年龄、性别和身体健康状况等。收入变量包括调查问卷中的户主和子代各自的工资收入、奖金、补贴(包括副食补贴、保健补贴、洗理费、书报费、房屋补贴和其他补贴)、务农收入、家庭园艺收入、畜牧收入、渔业收入等项目。教育变量为受教育年限。职业变量按照Goldthorpe职业分类表进行等级分类。身体健康状况变量采用国际通用的身体质量指数。该指数用体重(kg)与身高(cm)平方的比值表示。年龄变量进行中心化处理。性别变量用0表示女性,1表示男性。
(二)主要变量描述性统计
为了检验并纠正各种计量偏误,本文将所有农村家庭样本分为全样本和子样本。全样本是将中国健康与营养调查中的个体教育、个体收入、个体职业及个体健康等数据文件按照wave=1989、1991、1993、1997、2000、2004、2006进行处理得到相应年份的数据;并将上述年份个体教育、个体收入、个体职业及个体健康等数据文件中的户主(父亲或母亲)与子代信息进行分离;最后将同属一个家庭的父辈与子代的数据合并得到父辈与其子代历年的综合数据信息。本文使用的是一组非平衡面板数据。1997年数据中不仅增加了新成立的家庭,同时还增加了一些家庭代替不再参加调查的家庭。为了保持调查对象的一致性,本文将该年新增家庭部分删除,导致该年调查样本量较小。另外,本文假设全样本存在计量偏误,因此,全样本中历年各变量存在一定的缺失值(见表1)。
由表1可知,在每一轮调查中子代受教育的年限均高于父辈,而且呈现出一定的代际传递性。“高素质的子代”几乎与“高素质的户主”相对应。本文所涉及的职业变量按照Goldthorpe职业分类表进行等级分类。该职业分类表中取值为2的职业为农民、渔民或猎人,取值为3的职业为非技术工人或熟练工人(如普通工人、伐木工等)。表1中所列出的职业类型变量表明农村家庭的户主和子代基本从事传统农业或充当普通工人。由工资理论可知,个体收入主要取决于人力资本(通常用教育变量表示),同时与个体的职业类型密切相关。因此,上述事实间接说明农村家庭中两代人之间可能存在收入上的继承或传递性。但如果直接用收入变量来描述这种继承或传递性,则存在一定的问题。因为相关研究文献中所用收入变量为持久收入,而表1中所涉及的收入变量实际上为可观测收入。按照经济学的理论,可观测收入等于持久收入与暂时性收入之和。因此,若要详细考察代际收入流动性,必须解决暂时性收入偏误问题并对持久收入进行合理估算。
从理论上讲,父辈与子代的收入都应该在当期收入最接近其持久收入的时点年份进行测量。由表1可以看出,户主平均年龄在1989年约为34岁,随后逐渐增加。到2006年,户主平均年龄增加到约54岁。在相应的7轮调查中,子代平均年龄分别为14岁、19岁、20岁、32岁、20岁、24岁和26岁。因此,在估计代际收入弹性时,到底应该选取户主和子代哪一年的收入是一个值得考虑的问题。图1和图2分别给出了户主和子代的可观测收入—年龄曲线。从可观测收入—年龄曲线来看,户主和子代的收入—年龄曲线均呈现倒U形,而且在每—年龄时点对应不同的收入。若不考虑生命周期偏误而“随意”选取某一年龄时点的可观测收入进行估计将会得出多种估计结果。
图1 子代可观测收入—年龄曲线
图2 户主可观测收入—年龄曲线
1989年调查数据中有93%的户主为男性,这一比例的最低值出现在1997年的调查数据中,但仍然高达88%。从表1可知,在1989年和2000年调查数据中,儿子所占比例分别约为78%和70%,女儿所占比例较小。而在另外5轮调查中,女儿所占比例有所增加。如1991年女儿与儿子几乎各占50%。从人口学的角度来看,本文样本的选取具有一定的合理性,但这一事实暗示可能存在工作选择偏误。另外,由于所用数据为短面板数据并且多为成年人,所以户主和子代的身体健康状况(用身体质量指数表示)变化幅度不大。
在全样本基础上,文章选取在7轮调查中至少出现3次且共同居住在同一家庭的户主和子代构成子样本。这样做是为了把同住效应“强加”给子样本,并保持家庭的代表性在一个较长时间内保持不变。子样本的选取主要依据中国健康与营养调查中相关问题的回答。如2000年住户调查中的“家庭成员基本情况登记表”有“现在还住在家里吗”?“现在他还是该家庭的成员吗?”等问题,根据对此类问题的回答,我们可以对子代与户主的同住状况做出判断,为选取子样本提供依据。限于篇幅未列出子样本主要变量情况。
三、基于多重计量偏误的分位回归模型设定
相关文献中一般将父辈收入对子代收入的均值回归系数作为代际收入弹性。该方法不能度量在收入分布中不同分位数上的收入弹性。实际上,个体特征(如能力、努力等)存在一定差异。在其他条件相同的情况下,具有较强能力或者付出较高的努力后,子女往往会获得较高的收入。这可能导致父辈对“有出息”的子女给予更多的关爱。或者说,父辈收入对子代收入的影响程度可能会因为子代能力或努力程度的差异而表现出不同的“传递场景”。如果这一假设正确的话,那么利用均值回归得出的代际收入弹性系数将不能全面刻画两代人收入之间的传递景象。另外,本研究中可能存在暂时性收入偏误、生命周期偏误、工作选择偏误和同住偏误。为此,有必要在考虑上述计量偏误的基础上进行分位回归。
(一)暂时性收入偏误与生命周期偏误分析
从表4可以看出,无论是单方程均值回归还是分位回归,在全样本不考虑工作选择偏误的情况下得出的代际收入弹性与表5子样本忽略选择偏误时得出的代际收入弹性相比,子样本中的同住选择存在较大偏误。这说明在实证研究中不能忽视同住选择造成的偏误。表5此部分中的均值回归及各分位点的系数估计值均大于表4此部分的均值回归和分位回归的估计结果。这一结果说明在本研究中由于忽略同住选择而造成了向上的计量偏误。表5给出了在忽略工作选择的情况下,利用控制函数两步法、倾向得分加权回归和回归调整估计等方法对同住选择进行矫正的结果。其中,倾向得分加权回归对同住选择进行纠偏的效果较好,其次是控制函数两步法,而回归调整估计的效果最差。在对工作选择与同住选择偏误同时进行矫正时,倾向得分加权回归的估计结果与忽略各种样本选择时所得结果差异不大,这说明该方法对子样本中的工作选择与同住选择偏误没有起到很好的纠偏作用。而控制函数两步法则与忽略样本选择时所得结果表现出明显差异。这一结果说明在本研究中考虑4种计量偏误的必要性。
另外,运用控制函数两步法进行均值回归得到的代际弹性系数为0.294,且在1%水平上显著;而采用分位回归得到的各分位点的代际收入弹性变化较大。这说明父辈收入对处在不同收入水平上的子代表现出不同的影响程度。在低分位点和高分位点,代际收入弹性较小;而在50和60分位点上,代际收入弹性最大,分别为0.775和0.773。从总体上看,农村代际收入弹性随着分位数的上升呈现出先增后减的倒U形变化趋势。这一结果与魏颖(2009)的研究类似。在收入分布的两端,由于个体特征的差异导致农村家庭呈现出较强的代际收入流动性;而在中位数附近则呈现出较低的流动性。研究结果说明个体间的特征存在一定差异,并对个体收入有重要影响。
在上述模型中,子代属性变量(如受教育年限、职业、身体健康状况等)虽然在不同分位的收入水平中表现出不同的效应,但这种效应在各个模型之间不存在明显差异。职业变量对于处于高分位收入的子代影响比较大,在10分位上回归系数大约为0.18(p<0.05);而后随着分位数的提高,职业对子代收入的影响逐渐增大。受教育年限的贡献率大约从40分位开始随着子代收入的增加而提高。这说明在较高分位数上,随着受教育年限的提高,子代收入将不断提高。而身体健康状况则在各模型中几乎没有通过显著性检验。需要指出的是农村居民(特别是富裕家庭、乡村干部)的收入在一定程度上很难准确计量,这可能对估计结果产生一定的影响。
五、结语
本文将中国健康与营养调查数据分为全样本和子样本,在综合考虑了暂时性收入偏误、生命周期偏误、同住选择和工作选择偏误后对农村家庭的代际收入弹性进行估计。通过比较多种方法的估计结果,发现倾向得分加权估计法对于纠正同住选择引起的偏误具有较好的效果;而对于综合偏误的矫正,控制函数两步法则优于其他方法。从总体上看,农村代际收入弹性随着子代收入分位数的上升呈现出先增后减的“倒U形”变化趋势。这说明在较低分位数部分,父辈收入的变动对子代收入的边际效应较小;在中位数附近,父辈收入对子代收入的边际效应达到最大;随着分位数的提高,这种收入传递效应开始减小。
对于处在低分位数上的农村子女而言,其收入与父辈收入“基本无关”。一般来说,农村家庭对教育型人力资本的需求本来就比较弱,尤其是对那些读书无望的子女,家庭投资就更加消极。在中位数附近,呈现出较高的代际收入弹性,父辈收入对子代收入的影响达到最大,表现出强烈的代际收入传递性。
注释:
①这一假设与Anders等(2006)的研究有较大差别。