中国农村收入不平等:运用农户数据的回归分解,本文主要内容关键词为:农户论文,分解论文,不平等论文,中国农村论文,收入论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
围绕中国农村收入分配问题,在国内外已有很多研究(Wan,2001)。他们指出,自20世纪70年代末以来,中国农村收入分配不平等有不断恶化的趋势,这种趋势将对中国经济和社会发展产生严重后果,并且如果这种收入分配不平等持续恶化,将影响社会和政治的稳定。2003年,全国人大和政协两次重大会议体现了对农村收入和收入不平等问题的前所未有的关注,中国政府也将收入分配问题排在政府工作的首要位置。
在中国城乡收入不平等趋势不断扩大问题上,人们已普遍达成共识。但是,这里不讨论有关这些扩大的原因。一般来说,影响收入的变量也将决定收入的不平等。因此,经济理论和常识可以用来识别这些变量。换句话说,人们可以很容易地写出一系列可能解释收入差距的因素,例如不同的资源禀赋和政策偏好。然而,为了排列出政策的优先次序,有必要从变量对整个不平等影响程度的角度将变量排序并解析这一不平等。收入不平等的分解方法一般都遵循Shorrocks(1980、1982、1984)和Bourguignon(1979)的理论。在这些理论构架下,人们可以通过按人口分组或按要素分组来分解收入不平等,前者产生了所谓的“组内因素”和“组间因素”,它用来调查例如城乡收入差距、男女收入差距等问题(参照Shorrocks & Wan,2005)。例如,Kanbur & Zhang(1999)发现,中国地区间收入不平等的70%~78%是由组间因素(城镇和乡村)决定的,其余部分由组内因素决定。这种分解并没有告诉人们哪些是这两组因素中导致收入不平等的最基本的因素。而且,这一分析可能产生虚假结果。例如,分析性别造成的收入不平等可能夸大了性别的作用。妇女如果在进入劳动力市场前接受较少的教育就不易找到工作,这可能与工作场所的性别歧视关系不大,这一现象在很多发达国家普遍存在。同样,如果其他个人属性例如教育、年龄、职业等其他假定都一样,大量种族间成分与肤色的关系就不大。显然,必须限定其它因素来识别、衡量某一特定变量的作用。
分解影响收入不平等的因素要求知道所有收入来源的完备信息,要求用要素收入的总和来表示全体收入。除了难以得到所需的数据外,这种处理方法也不能起到用来量化收入不平等的基本决定因素的作用。例如,众所周知,收入由教育、经历和其他个人或家庭的属性来决定。这些基本决定因素影响全部的收入来源,包括工资、投资利润和转移收入。把全部收入不平等分解成与每个基本决定因素相关的组成部分,这将是有意义且有用的。然而,这种方法会导致把整个收入不平等仅仅归结于收入来源而非基本决定因素。
在描述中国农村收入不平等方面,目前的研究应用了很多不同的方法,但这些研究只是系统性分析中国农村收入不平等的基本决定因素的初步尝试。回归分解方法之所以新颖,是由于它允许根据任一种不平等度量标准来排列这些决定因素。而且,本文使用了家庭水平数据,以补充基于总量数据文献的不足。
在第二部分,本文就中国农村收入不平等和数据来源做一个简短的讨论;第三部分描述回归分解技术和收入函数;随后的第四部分对分解结果和政策含义进行解释;第五部分为结束语。
二、中国农村收入不平等和数据来源
收入不平等可以从不同的总体水平来考察。从全国来看,省或地区(有时候为有代表性的县)经常被看作分析的对象。这是很多关于中国农村收入不等的研究基础。从总体看,人们发现收入差距很大。例如2002年,上海农村人均纯收入为6224元,与此同时,贵州农村仅为1490元。如表1所示,相对发达的东部农村收入普遍较高,中部省份的农村人均收入大多位于全国平均水平附近,而人均收入低于2000元的省份都位于中国西部。
表1 中国农村居民人均纯收入(2002年)
地区收入(元)地区收入(元)
全国 2476河南 2216
北京 5398湖北 2444
天津 4279湖南 2398
河北 2685广东 3912
山西 2150广西 2013
内蒙古2086海南 2423
辽宁 2751重庆 2098
吉林 2301四川 2108
黑龙江2405贵州 1490
上海 6224云南 1609
江苏 3980西藏 1462
浙扛 4940陕西 1596
安徽 2118甘肃 1590
福建 3539青海 1669
江西 2306宁夏 1917
山东 2948新疆 1863
数据来源:国家统计局:《中国统计年鉴》,2003年。
多年来,中国地区间收入差距在扩大。1985年,最高的农村人均纯收入是最低的3.2倍。2002年,这一比率扩大到4.3倍。当用人均收入水平指标从高到低来排列省份时,多年来排序很少有变化,它表明,从全国和各个地区来看,中国经济持续增长,但收入水平并没有同步增长。
收入不平等不仅存在于省际之间,而且存在于同一省份的不同村庄之间和同一个村庄内的不同家庭之间。表2记录了2002年9个村庄之间的农户人均收入的分配情况。表2的最后一行反映了云南省村庄1的人均纯收入水平是同省村庄2的12倍。在湖北,村庄3中的65%的家庭人均纯收入低于2000元,而村庄2仅有17%。广东的村庄也明显存在收入差距。后面的分析表明,村庄间的收入差距大约占总体不平等的40%。在农户水平上,差异甚至更大。在云南,2002年,村庄2占55%的农户的人均纯收入低于500元,而广东村庄1中超过80%的农户的人均纯收入超过10000元,如此大的农户间收入差异表明中国农村收入不平等的惊人程度。
表2 中国农村人均纯收入分配(2002年)单位:%
湖北 广东 云南
全部
人均收入(元)村庄1
村庄2 村庄3 村庄1
村庄2 村庄3 村庄1
村庄2
村庄3 村庄
<500 — — 10— 1 ——
55 — 8
500~1000 8
— 20— 11 9 —
33 12 10
1000~2000 20 17 35— 32 36111 45 22
2000~3000 28 46 221
27 3381 27 20
3000~4000 8
22 2 3
14 1612
— 9 9
4000~6000 23 13 101
7 6 34
— 6 11
6000~8000 3
— 1 4
422
— 1 4
8000~100005
2 —4
2 — 5
— — 2
>100005
— —87 2 —18
— — 14
家庭数量
60 60 60
1000 9710099
100100776
村级平均收入
41242875
1880 22519
2801
2255 7076 5782101 5477
数据来源:农业部农村经济研究中心。
中国迅速扩大的收入不平等现象已经引起相当多人的关注。其中,大多数文献只提供了简单的描述但没有时间序列,他们中很多人使用代表变量,例如农业产出(例如Howes & Hussain,1994)、地区收入(例如Tsui,1991),甚至粮食产量(例如Lyons,1991),而不是个人收入。这些代表变量在中国可能不能充分代表生活水平(魏后凯等,1997)。Tsui(1991),Knight & Song(1993),Chen & Fleisher(1996)认识到了这些不足,明确呼吁使用人均收入数据来分析中国的收入不平等问题。
本文将使用家庭水平调查数据计算各种收入不平等指标并分解收入不平等。数据来源于中国农业部农村经济研究中心(简称“农研中心”)收集的数据。农研中心的调查始于1986年,调查覆盖的所有家庭都要记录收入、费用和其他信息。农研中心观察点收集、审查、处理和报告信息。这些年,农研中心的调查方法在不断改进,1986~1990年调查的口径是相同的(有312个变量),而1993年调查则扩大了(有394个变量),并且在1995年更进一步扩大(有439个变量)。为确保变量在时间上的一致性,本项研究使用1995~2002年的数据。
本文使用广东、湖北、云南3个省的数据。广东位于中国东南部,是中国最富裕的省份之一;湖北位于中国中部,处于平均水平;云南作为中国西部的典型,是个贫穷的省份。从每个省选出3个村庄代表不同的发展状况(参阅表2)。虽然不能说这组数据能够代表全国,但它们的确能够涵盖不同的地理—经济状况,而且比只依靠一个省份数据的研究更有代表性。
三、回归解析方法和收入函数
回归解析方法是Oxaca(1973)20世纪70年代初提出的,但并没引起人们足够的重视,直到最近情况才有所改变(Juhn et al.,1993),Wan(2002)曾提出了关于这种技术的具体描述。有关这种技术的具体应用可参阅Fields & Yoo(2000),Morduch & Sicular(2002),Heltberg & Rasmus(2003),Zhang & Zhang(2003),Wan(2004)的有关论文。
得到一个收入函数是进行回归解析的第一步。在确定中国农村的收入函数时,有关人力资本理论及生产理论必须被考虑进去。不像工资收入者,农民除了依靠出卖劳动获得收入外,土地和实物资本是他们必须依靠的。因此,农业生产都应当有土地、劳动力和资本投入。按照人力资本理论,这里也应包括技能变量例如教育、训练程度及经验(常由年龄代表)。为了和在发展问题文献中被普遍接受的做法相一致,这里采用农户的受教育水平及年龄。
即使生产投入及人力资本是相同的,考虑那些可能改变收入的其它因素也是必要的。一个因素是农户所从事的商业活动的类型。农研中心依据这些商业活动将农户分成10种不同的类型,包括种植业、林业、畜牧业、渔业、工业、建筑业、交通运输业、零售业、食品业及其他服务业,最后还有不从事任何商业活动的。这些显示了农户取得收入的主要部门。显然,要表达来自不同商业活动的收入水平的差别,设定一系列虚拟变量是很必要的。这些虚拟变量合在一起将被当作一个“行业指标”。在中国,政府经常从行政管理的角度强调粮食生产,是因为种植粮食的收益较低甚至收益为负。结果,仅仅因为一个农户种粮,另一个农户种植蔬菜或其他经济作物,两个农户的收入就会不同,因此,种植结构显得至关重要,它通常被定义为粮食面积与总的种植面积之比。最后,考虑两个具有相同数量资源的农户,其收入来源也可能不同,本研究把农户分为两类:一类领取工资,另一类未领取工资。工资收入者的数量反映了城镇化程度,将它包括在模型中能使人清楚城镇化对中国农村地区收入不平等的影响。在理想状态下,城镇化应被定义在乡镇或县级水平上,然而,在仅仅获取了农户层面数据的情况下,这样做是不可能的。
地理位置是决定收入的一个很重要的因素,因为它与诸如距离市场远近、基础设施、地域文化等一些非流动资源密切相关。数据的不可获得性使得地理变量不能直接进入方程,然而,在实物和人力资本投入及其他要素既定的条件下,应用村庄虚拟变量能够反映地理和所在地的信息。应当指出,虽然模型中使用了村庄虚拟变量,但这里也没必要使用固定效果模型(fixed-effects model),因为家庭层次上的数据将被用来估计收入函数。最后,考虑到技术进步及改革的影响,年份虚拟变量也应被考虑到函数中。
这样,收入函数所包含的变量有:因变量是指收入(个人年纯收入)和自变量。自变量如下(虚拟变量未列):①资本:人均资本存量;②土地:人均可耕地面积;③劳动力:每户劳动力数量;④工资收入者:家庭劳动力中工资收入者所占比例;⑤教育:户主的受教育年限以及受教育年限的平方;⑥培训:家庭成员中接受过职业教育的人的比例;⑦年龄:户主的年龄以及户主年龄的平方;⑧粮食:粮食播种面积占总播种面积的比例。
标准Mincer模型规定了如何选择参数,收入函数的公式为:
Ln(收入)=f(土地,劳动力,资本,……虚拟变量)
(1)
(1)式中,f代表线性函数关系。由于收入变量是符合正态分布的,本文使用了半对数模型(Shorrocks and Wan,2004)。
很多技术可以用来模拟使用面板数据的模型,尽管如此,笔者发现Kmenta(1986)的迭代GLS方法可以用来很好地处理本研究所使用的数据,这种方法不仅可以得到不同家庭的异离中趋势,也可以得到自相关数据。模型结果如表3所示。
表3 预测的收入函数(虚拟变量未包括在内)
变量 参数估计T值 显著性水平
资本 0.0958 15.59 0.000
土地 0.0192 2.59
0.009
劳动力
0.5999 17.18 0.000
工资收入者
0.0224 3.43
0.001
受教育年限
0.1365 3.72
0.000
受教育年限的平方 -0.0107-1.51 0.130
培训 0.1318 2.74
0.006
年龄 0.1450 4.88
0.000
年龄的平方
-0.0255-5.33 0.000
粮食 -0.3164-11.72 0.000
常数项
7.0841 84.61 0.000
对数似然值=-4648.32,样本数=6121。
除了虚拟变量之外,所有的系数的正负号与预期的相同,而且绝大多数变量都在1%或5%的水平上显著。特别是对变量年龄的平方和受教育年限的平方这两个变量的负的符号的含义的理解是与标准的人力资本理论相吻合的。如所预测的粮食即,表示种植结构的变量的符号为负,且是显著的。
就收入函数而言,其他方法也可以用来解析总体收入不平等(Wan,2002)。需要注意的是,就原始收入变量而言,半对数模型显示了一个非线性的收入函数,因此,Shorrocks(1999)的夏普里值分解(Shapley value framework of Shorrocks)方法就可以被接受。一旦原始收入代入半对数模型,常数项就变成了一个常数。一旦使用了相对不平等度量,就可以忽视不平等度量或其分解。这也适合于对年度虚拟变量的处理。可以用来分析年度虚拟变量,区分不同年度的收入产生函数的变量,只是在常数项上有所不同。夏普里值包含有相当多的计算,具体可参见Shorrocks(1999)。
怎么处理残差?不得不承认,很难分析残值的影响。但是,如果模型只解释了30%~40%的收入不平等总量,剩下的由残值去解释,那么,政策制定者将会被建议不要依靠分解的结果。在本研究中,对残值的处理是根据Wan(2002,2004)的方法。在半对数收入函数中,残值的影响程度可以很容易地由收入不平等总量与其它解释变量影响程度之和的差得到。
四、分解结果与讨论
表4显示了用不同的指标所测算的收入不平等总量。变异系数(CV[2])在1999年出现了一个小幅度的下降,而在2001年下降极为明显。其它指数也在1998年和2001年出现了小幅度下降。但是,从总体上来讲,所有指数都呈上升的趋势。因为这些不平等值都是通过使用家庭数据得到的,其结果肯定比采用合计数据所得的结果大,采用省级或国家级的数据只能对省级或国家级的因素进行检测,而表4所包含的都是组内因素(省内、国内、村内)。
表4 总量收入不平等
年份基尼系数
阿特金森指数
泰尔指数-L
泰尔指数-T 变异系数
1995 0.467
0.322 0.388 0.403 1.282
1996 0.505
0.370 0.462 0.482 1.667
1997 0.509
0.371 0.464 0.548 3.006
1998 0.500
0.358 0.443 0.541 3.259
1999 0.520
0.399 0.509 0.567 3.122
2000 0.553
0.433 0.567 0.684 4.547
2001 0.537
0.419 0.543 0.592 2.664
2002 0.638
0.539 0.774 0.907 5.761
表5列举了四个不同年份的分解结果,收入不平等是由两个指数计算的。正如本文所预料的那样,不同的方法导致了不同的分解结果,这是因为不同的方法强调不同的社会福利功能并且对洛仑兹曲线的不同部分敏感程度不同。尽管如此,还是可以在表5中得到较一致的结果,事实上,当得出不一致的结果时必须选择其中一个方法去计量。由于其应用的广泛性,基尼系数将用于本文下面的讨论之中。
表5 分解结果
1996年 1998年
基尼比重 泰尔 比重 基尼 比重 泰尔 比重
系数
(%)
指数-L
(%)系数(%)
指数-L
(%)
资本
0.01132.240.00851.840.01823.640.01503.39
土地
-0.0018
-0.36
-0.0053
-1.15
-0.0021 -0.42-0.0055
-1.24
劳动力 0.02595.130.00861.860.02334.660.00591.33
工资收入者 0.01022.020.00761.640.01072.140.00821.85
教育
0.01703.370.01102.380.01733.460.01162.62
培训
0.00390.770.00220.480.00360.720.00210.47
年龄
0.00511.010.00170.370.00511.020.00190.43
粮食
0.04078.060.02876.210.04529.030.03367.59
部门虚拟变量
0.03847.610.02274.910.03486.960.02164.88
村庄虚拟变量
0.254550.42
0.210545.55
0.260051.97
0.216148.81
所有X 0.405280.27
0.296364.12
0.416283.19
0.310470.12
2000年 2002年
基尼 比重 泰尔 比重 基尼 比重 泰尔 比重
系数(%)
指数-L(%)
系数(%)
指数-L
(%)
资本
0.088516.00
0.111219.61
0.151723.76
0.210627.20
土地
-0.0022
-0.40
-0.0060
-1.06
-0.0026
-0.41
-0.0066
-0.85
劳动力 0.02714.900.01051.850.02393.740.00861.11
工资收入者 0.01061.920.00891.570.01001.570.00851.10
教育
0.01542.780.00961.690.01322.070.00710.92
培训
0.00240.430.00130.230.00570.890.00841.08
年龄
0.00450.810.00120.210.00450.700.00100.13
粮食
0.058610.59
0.04197.390.04947.740.04766.15
部门虚拟变量
0.04518.150.04027.090.05518.630.05897.61
村庄虚拟变量
0.259146.85
0.236641.71
0.254439.85
0.254732.89
所有X 0.499090.22
0.455280.25
0.565388.55
0.598877.32
总量
0.5531100 0.5672100 0.6384100 0.7744100
从表5可以看出,代表村庄虚拟变量的地理因素收入不平等总量中占有相当的比重,这一发现表明,从短期或中期来看,地理因素并不能轻易改变。由于收入不平等总量随着时间而增加,地理因素的影响显示了下降的趋势。即使如此,2002年,地理因素解释了几乎40%的收入不平等总量,比1995年降低了15个百分点。地理因素除了决定市场进入外,与自然要素对收入不平等的影响也有很大关系,例如,水和天气状况。自然资源对农业生产活动至关重要,它们既不可交易,也无法消除。基础设施建设可以提高贫困地区市场进入的能力,但也可以使富裕地区受益。因此,基础设施建设的发展从总体而言对收入不平等的影响是很小的。毫无疑问,地理因素在导致农村收入不平等中仍会扮演重要角色。这一发现可以被应用于检验地区发展政策,例如西部大开发。顺便说一下,过去所实行的收入再分配政策并没有产生收入平等化效应,收入转移反而会导致收入不平等增加(Wan,2004)。
与地理因素的下降相比,资本投入越来越多地导致收入不平等。20世纪90年代,它所占的比重为2%~4%,可以忽略。但到了2000年,该比重增加到了16%~24%。事实上,最近几年来,收入不平等的增加是由于资本投入的增加,这与中国农村的现代化进程是一致的。由于农业部门变得越来越资本密集型,以及资本分配越来越不平均,它在收入不平等总量中的增加是不可避免的。根据这一发现,政府应优先考虑农村地区的信贷服务,更多地关注贫困人口。这类服务的提供对收入的增长和不平等的减少都有很重要的作用。有趣的是,把中国城市和农村作为一个整体来看,资本投入在整个收入不平等中起着决定性的作用。
代表种植结构的变量粮食,在收入不平等中也起较大作用,1999~2002年,由这一因素导致的收入不平等基本占了收入不平等总量的10%。其所占比例大于劳动力投入、人力资本投入或城市化(从表3和表5的工资收入者变量得到)。从理论上来讲,采取鼓励粮食种植的政策将会有利于缩小收入差距。但从收入函数来看,本意是支持粮食种植者的政策可能会导致恰恰相反的结果。如果粮食成为一个收入均等化因素而不是收入不平等扩大化因素,这一符号的改变带来的贫困的减少会非常显著。例如,如果粮食导致的收入不平等量保持不变,只是其符号由正变为负,基尼系数就会下降0.1,这一下降的作用是十分巨大的。
另一个显著的因素就是劳动力投入。因为人均劳动力投入影响了因变量,不难推测,贫困家庭都有一个较高的赡养率(或较低的人均劳动力投入),因此,收入水平较低。由这一因素所导致的收入不平等是暂时的,因为家庭大小和赡养率具有趋同的趋势。因此,未来劳动力投入这一因素的作用将会降低。
土地是减少收入不平等的唯一因素。这是可以理解的,因为土地在欠发达国家被认为是更丰裕的,但大多数穷人都与种植业有关。不幸的是,其收入平等化的影响是可以忽略的。为了加强这种影响,政策制定者需要增加土地的收益,鼓励土地在贫穷农民之间流转,从长远来看,经济学家已经在讨论是否建立一个土地市场,以促进土地流转。而事实上土地是集体所有的,不能随意流转,这是建立一个合适的土地市场的一大障碍。很多家庭也不愿意放弃土地,因为一旦出现经济或政治危机,土地就可以起到保障作用。将来就减轻收入不平等而言,增加土地的收益将会比加强土地的流转更为有效。
从事不同行业的家庭存在着巨大的收入差距。部门虚拟变量导致的收入不平等占有很大比重,在农业经济的不同行业,存在进入障碍以及资源配置障碍,这些障碍包括机构障碍(例如,缺乏保证商业经营透明度的法律框架)和经济障碍(例如,建立公司需要筹集资金)。
加上教育、年龄和培训,人力资本因素所导致的收入不平等占收入不平等总量的4%~5%,这一比例显示了人力资本因素在收入产生中作用不明显,以及人力资本在中国农村的配置并不像预料中的那么不平衡。但是,随着技术进步,人力资本在农村经济发展中将会发挥越来越重要的作用。另外,在经济改革中,由国家支持的教育体系受到了一定冲击,穷人与富人之间受教育的差别越来越大。因此,中国政府必须快速行动起来让所有人都有机会接受教育,否则,在不远的将来,教育将会成为导致收入不平等的一个主要动因。
从表5可以看到,根据对基尼系数分解的结果,实证模型解释了超过80%的收入不平等,但是,如果用其他不平等指数来分解,所有变量对收入不平等总量的解释程度虽然小一些,但仍超过了60%。
五、小结
本文结合最新的Shorrocks(1999)的夏普里值方法和回归解析技术去分析中国农村的收入不平等问题。使用家庭水平数据是对现有研究的补充,时间序列数据允许人们去检测总的以及各个部分的收入不平等。通过研究发现,地理因素是导致收入不平等的最主要因素,而且将来也是如此。资本投入已成为影响中国农村收入不平等的最重要因素。唯一的减少不平等的因素是土地,但它的影响是最小的。在导致总的收入不平等的各种因素中,种植结构比劳动力及人力资本投入都更为关键。因此,中国政府应努力改善农村信贷服务,并且增加粮食种植收入,以减少收入不平等。教育对收入不平等的影响很小,但预计它的作用会有所增加。现存劳动力享受着相对平等的受教育机会。由于近15年来不同地区教育的差距越来越大,农村经济发展需要更多拥有技能的劳动力,教育对收入增加以及不平等减少的作用将会增加。