中国城乡收入分布动态演进及经验检验,本文主要内容关键词为:中国论文,城乡论文,收入论文,经验论文,动态论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:C812 文献标识码:A 文章编号:1002-4565(2009)12-0032-09
一、引言
改革开放30年,中国人均GDP的年均增长率达到9%以上,创造了世界经济增长的奇迹。但是中国同时也是世界上收入差距增长最快的国家之一。伴随着我国经济快速增长,收入分配不平等问题日益突出,根据世界银行公布的数据显示,我国基尼系数由改革开放前的0.16上升到目前的约0.47,不仅超过了国际上0.4的警戒线,也高于所有发达国家和大多数发展中国家的水平。当前完善收入分配制度、缩小收入差距已经成为人们关注的热点问题。
当政府制定工资政策或者是增进社会福利的宏观政策时,往往需要知道居民收入的分布情况。我国城乡居民具有什么样的收入分布?不同时期的收入分布是如何动态演化的?城乡收入分布的区别是什么?进一步地,不同学者对经验分布函数的偏好不同,采用不同的经验函数来表示我国收入分布,这些经验函数是否可靠?基尼系数是目前国际上通行的考察收入整体差距的重要指标,利用经验函数估计的基尼系数是否准确?这是许多经济学者和政府管理部门共同感兴趣的重要问题。
Aziz等(2001)指出,在收入分布演进的框架内,经济增长表现为收入分布不断向右平移;收入差距的缩小或扩大则表现为收入分布的形状变化,如陡峭,平坦,甚至双峰分布等。因此,在收入分布演进框架内可以同时研究经济增长及其差距的变化。Quah(1993)最早开始尝试估计全球的收入分布,考察收入分布的演进,揭示收入不平等的动态演进特征。此后,Quah(1996,1997),Jones(1997),Kumar等(2002),Bourguignon等(2002),Beaudry等(2002),Roberto等(2006),Sala-i-Martin(2006),Manfred等(2008)分别基于分布动态理论研究全球或者各个国家的收入分布及收入分布变迁。
目前,从动态演进角度研究中国收入分布的文献刚刚兴起。Aziz等(2001)以人均GDP为考察指标,采用核密度方法估计了1978-1997年中国省区收入分布的概率密度,认为在改革初期,收入差异有所下降,其后呈现出向双峰分布发展的趋势。徐现祥等(2004)以可比价格的劳均GDP为考察指标,采用核密度估计方法考察了1978-1998年中国30个省级区域的收入分布演进,发现收入分布逐渐从“单峰状”演进为“双峰状”。周卫峰(2005)、王争等(2006)、何江等(2006)、许冰(2006)、李国平、陈晓玲(2007)等以省份为分析单元,基于劳均GDP采用核密度函数估计我国1978以来的收入分布。顾严、冯银虎(2008)采用核密度函数估计中国行业间人均实际工痪的分布形态。
但是,Sala-i-Martin(2006)指出,对于估计全球收入分布而言,适宜的分析单元是个人而不是国家。因为,不同国家的人口规模不同,而且一国内部经济活动主体的收入水平不同。同样的道理,对于估计全国收入分布而言,适宜的分析单元是个人而不是省份。因为,不同省份的人口规模不同,而且不同省份内部经济活动主体的收入水平不同。因此,以省份为分析单元,将每个省份看为一个观察值,忽视了省份的人数差异以及省份内部的收入差异。
徐现祥、王海港(2008)注意到了分析单元过大存在的弊端,以人为分析单元重新考察我国收入分布演进的特征,为我们正确认识全国的收入分布及变迁提供了重要参考。但是他们使用的不是个体数据,而是利用分省分产业居民的实际要素所得的总量数据来近似表示个人收入水平,该方法相对于Sala-i-Martin(2006)的5个观察值的逐年估计有了较大改善,但是其估计结果仍然不够精细。
本文利用“中国营养和健康调查”1989-2004年家庭平均收入的大规模调查数据,将每个家庭看成一个个体,采用核密度估计、累积分布函数、洛伦茨曲线等方法刻画我国城乡居民收入分布的动态演进,并基于非参数假设检验和相对偏差考察经验分布函数的适用性以及基尼系数计算结果的精确度,从而为正确认识我国城乡居民收入分布及其动态演化提供了新的视角,为合理选择经验分布函数提供了实证证据和建议。下文结构安排如下:第二部分是数据说明;第三部分利用核密度估计、累积分布函数、洛伦茨曲线等方法刻画我国城乡居民收入分布的动态演进;第四部分基于非参数假设检验考察经验分布函数的适用性;第五部分比较基尼系数计算结果的精确度;最后是结论性评述。
二、数据说明与统计描述
本文利用“中国营养和健康调查”(China Nutrition and Health Survey①,以下简称CHNS)1989-2004年期间的家庭收入模块数据。CNHS调查由美国北卡罗来那大学和中国预防医学科学院联合执行。这是一个追踪调查,时间分别是1989年、1991年、1993年、1997年、2000年和2004年。调查依据地理位置、经济发展程度、公共资源的丰裕程度和健康指数来进行,样本由覆盖中国东部、中部和西部8个省份随机抽取的家庭户组成②,这些省份无论是在地理位置上还是在经济发展水平上都具有多样性,因此可以作为一个比较有代表性的样本来研究当代中国(朱农等,2008)。除了选取每个省的省城和较低收入的城市外,在每个省依据收入分层(高、中、低)和一定的权重随机抽取4个县,每个县抽取县城和镇,按收入分层抽取3个村落,每个村20户。Shi Xinzheng等(2002)把1997年8个省的样本与国家统计局的统计数据进行了对比,发现CNHS样本中农村和城镇居民家庭的收入稍低于国家统计局的调查,但差别不是很大。魏众(2004)、王海港(2005),Li等(2006),Zhang等(2006),朱农等(2008)等认为样本具有较好的代表性,并使用该调查的部分数据来分析中国的收入不平等。
为了使数据保持合理的时间跨度,本文选取1989年、1993年、1997年、2000年和2004年的城乡家庭收入数据资料,其中农村家庭的收入包括自家消费的农副产品。为了使收入水平具有可比性,城乡家庭平均收入分别利用以1989年为基期的城乡CPI指数进行平减。表1给出了样本数据的统计描述。其中,n为观察值个数,Mean为平均值,Min和Max分别为最小值和最大值,Std为标准差,S和K分别为偏度和峰度。
由表1可知,1989-2004年,我国城乡居民收入分布的偏度大于0、峰度大于3,为尖峰、右偏拖尾的分布形态;城乡居民对数收入分布的偏度小于0、峰度大于3,为尖峰、左偏拖尾的分布形态。考虑到对数收入数据缩小了不同收入水平的实际差距,改变了收入分布的峰度和偏度,本文的实证研究利用的是实际收入数据。
三、中国城乡收入分布动态演进
当政府制定工资政策或增进社会福利的宏观政策时,往往需要知道居民收入的分布情况。所以收入变量的密度函数的估计就显得很重要,但是收入变量密度函数具体具有什么形式往往是不知道的。虽然直方图可以显示收入变量的分布状况,但是直方图容易受到组距大小的影响;而且在组数较多情况下,利用直方图比较不同时期的分布变化显得比较杂乱,难以明晰每个直方图的变化态势,从而难以揭示我国收入分布演进的一般趋势。在没有收入变量密度函数足够信息的情况下,核密度估计提供了一个较好的解决途径。
在收入不平等的研究中,洛伦茨曲线被广泛采用。洛伦茨曲线是累积分布函数在描述社会收入分配状况时的一种特殊应用,它由累积的一定人口(家庭)数占总人口(家庭)数中的百分比P(x)与这部分人口(家庭)所获得的收入占总收入中的百分比F(x)状况来表示。
下面,我们分别给出了1989年,1993年,1997年,2000年和2004年我国城市和农村居民家庭平均收入的核密度函数曲线(图1)、累积分布函数曲线(图2)和洛伦茨曲线(图3),以直观地刻画我国收入分布的动态演进情况。
从图1和图2可以看出:①城乡核密度曲线表现为右偏尖峰分布,即低收入段的核密度函数值较大,高收入段的核密度函数值较小;对应的城乡累积分布函数曲线,低收入段累积分布函数上升迅速,低收入段累积分布函数上升缓慢。这说明了城乡中低收入水平家庭的比重较大,高收入家庭比重较小,中低收入家庭仍然是我国的主体。②城乡居民家庭平均收入的核密度函数曲线不断向右平移,对应的累积分布函数曲线几乎是一阶随机占优的③。这说明了城乡居民收入水平都有了一定程度的提高,大部分城乡居民都分享了经济快速增长的成果。③1989-2004年,城乡居民低收入段的核密度函数曲线只是略微向右平移,高收入段的核密度函数曲线大幅度地向右平移;对应的累积分布函数曲线,低收入段缓慢向右平移,高收入段大幅度向右平移。这说明不同收入段的城乡居民家庭平均收入的增长速度是不一样的,低收入段居民增长较慢,而高收入段居民的增长迅速。一个直接的结果是,城乡居民家庭平均收入的内部差距不断扩大,至2004年,城市核密度函数曲线和农村核密度函数曲线都呈现较为轻微的双峰分布,初步呈现贫富差距两级分化的局面。④城市核密度函数曲线向右平移的幅度大于农村,对应的城市累积分布向右平移的幅度也大于农村。这证明了城市居民收入增长速度快于农村的现实,也直观地解释了城乡收入差距不断扩大的原因。
图1 中国城乡居民家庭平均收入的核密度动态演进
从图3可以看出:①1989-2004年,城乡洛伦茨曲线向下弯曲程度越来越大,这说明城乡居民收入分配不平等程度越来越严重。其中城市洛伦茨曲线在1989-1993年和2000-2004年向下弯曲幅度较大,说明在这些时间段,城市居民收入分配不平等程度加剧;农村洛伦茨曲线在2000-2004年向下弯曲幅度较大,说明在这些时间段,农村居民收入分配不平等程度加剧。②农村洛伦茨曲线向下弯曲程度大于城市,但是城市洛伦茨曲线向下弯曲的速度快于农村;这说明农村收入分配不平等程度大于城市,而城市居民收入分配不平等的发展速度快于农村。
图2 中国城乡居民家庭平均收入的累积分布动态演进
总的来说,1989-2004年,我国绝大多数家庭都分享了我国经济快速增长所带来的经济成果。但是,并不是所有的家庭都平等地分享了经济增长的成果。相对而言,高收入阶层比低收入阶层更多地分享了经济成果,城市居民比农村居民更多地分享了经济成果。导致的结果是,城乡内部和城乡之间的收入分配不平等程度越来越严重,至2004年,城市核密度函数曲线和农村核密度函数曲线都呈现较为轻微的双峰分布,初步呈现贫富差距两级分化的局面。因此,如何使经济增长与发展过程更加公平,使增长成果能够更广泛地分享,这是构建和谐社会、实现经济可持续发展的重要问题,也是我国政府制定发展战略所关注的重点。
值得注意的是,Aziz等(2001)、徐现祥等(2004)、徐现祥、王海港(2008)的研究发现,在1998年前我国就已经出现了较为明显的双峰分布。与已有研究结果不同,本文的研究发现2004年左右才出现较为轻微的双峰分布。出现这种差异,既有数据方面的原因,也有方法方面的原因。数据方面的原因包括:第一,本文使用的是原始收入数据;而已有的研究使用的是对数收入数据,对数收入可能改变了原始数据的峰度、偏度等统计特征,从而影响估计结果。第二,本文使用的是个体的家庭平均收入数据;而已有的研究使用的是省份平均收入数据或者利用总量数据来近似替代个人收入水平,这在一定程度上掩盖了个体数据的特征,从而影响估计结果。方法方面的原因主要是:本文根据交错鉴定方法确定窗框,不同时期的窗框大小不同;而已有的研究假定了窗宽的时间不变性。窗宽是控制核密度估计精度的重要参数,最佳的窗框应当既不过大也不过小。由于收入水平的不断提高,理论上的最优窗宽也会不断增大。已有的研究根据初期收入水平确定不变窗框,在一定程度上使得后期收入分布的窗框选择偏小,从而容易出现多峰分布或者加深多峰分布的形态。此外,本文估计的是城市和农村的收入分布,而已有的研究估计的是全国收入分布,这可能也是导致估计结果不一致的原因。
图3 中国城乡居民家庭平均收入的洛伦茨曲线动态演进
四、拟合优度检验
上节较为详细地刻画了1989-2004年我国城乡居民家庭平均收入分布的动态演进情况。一个自然的想法是,我国城乡收入分布是否服从某一经验分布函数?不同学者对经验分布函数的偏好不同,采用不同的分布函数来表示我国的收入分布,这些经验分布是否可靠?本节我们将深入考察经验分布函数的拟合效果,并进行非参数拟合优度检验。
根据中心极限定理,正态分布广泛地存在于客观世界,因此,当研究一个国家或者地区居民收入总体分布时,人们往往先考察它是否服从正态分布,或者对数正态分布。此外,常用的经验分布函数还有指数分布函数、广义指数分布函数、Pareto分布函数、logistic分布函数和广义logistic分布函数等。对经验分布来说,分布函数和密度函数是一一对应的,因此分布函数的参数估计结果与密度函数的参数估计结果是一致的。为了计算的方便,本文使用极大似然方法估计得到(对数)正态分布密度函数参数值,使用OLS(NLS)估计得到其余经验分布的分布函数参数值④。
在实证研究中,一般利用拟合优度检验方法来检验总体分布是否服从某一特定分布函数。Kolmogorov-Smirnov检验(K-S检验)可以检验单一样本是否来自某一特定分布,它的检验方法是以样本数据的累积频数分布与特定经验分布比较,若两者的差距很小,则推论样本取自该特定经验分布。以表示一组样本的累积频率分布,以表示特定的经验分布,则假设检验问题可以写成:
从表2和图4可知:①Pareto分布函数拟合效果最差,没有通过假设检验,一个合理的解释是由于Pareto分布主要用于表示高收入阶层的分布形态,而不适合于表示整体收入分布。②正态分布、对数正态分布、指数分布函数、logistic分布函数和广义指数分布函数拟合效果也不是很理想,都没有通过假设检验。考虑到在检验总体分布的正态性时,基于偏度、峰度的Jarque-Bera(JB)检验更为有效。JB检验结果表明,JB统计值在100以上,对应概率值在0.01以下,这说明我国城乡居民都不严格地服从正态分布或者对数正态分布。对此,一个可能的解释是,由于实际城乡居民家庭平均收入分布是有偏、尖峰分布,而正态分布或者对数正态分布是无偏的,也不存在尖峰形状,这在一定程度上改变了原有分布形态,导致(对数)正态累积分布偏离实际累积分布,因而没有通过假设检验。③广义指数分布和广义Logistic分布具有较好的拟合效果,但是广义指数分布没有通过假设检验,广义Logistic分布在5%水平下通过假设检验,这说明广义Logistic分布可以近似代表我国城乡居民收入分布。
基于以上研究结果,我们认为程永宏(2006,2007)采用的广义Logistic分布函数拟合我国城乡居民收入是可行的。但是需要注意的是,广义Logistic分布是单峰分布,从2004年起我国城乡收入分布已经呈现较为轻微的双峰分布。因此,合理选择和构造双峰甚至多峰分布函数,以更有效地刻画我国城乡收入分布是今后值得研究的一个方向。
五、基尼系数估计精确度比较
基尼系数是目前国际上通行的考察收入整体差距的重要指标,利用经验函数估计的基尼系数是否准确?测算基尼系数时可以运用的公式很多,许宽(2003)归纳出常见的基尼系数计算公式。如果不考虑结果的精确度,通过各种公式计算的基尼系数值都是相等的(洪兴建,2006)。为了研究的需要,本文将离散公式:
计算得到的基尼系数作为基准基尼系数,并用于比较经验分布函数的基尼系数计算结果的精确度。考虑到使用的样本量较大,这种基准基尼系数的设立是可行的。
每个分布函数对应着一条洛伦茨曲线,但每条洛伦茨曲线可以对应多个分布函数,因此分布函数具有比洛伦茨曲线更多确定的信息。但是当我们的目的仅在于考察收入不平等时,就可以考虑利用经验洛伦茨曲线估算基尼系数。满足洛伦茨曲线的函数
本文分别根据经验分布函数、经验洛伦茨曲线函数和简易公式计算了1989年,1993年,1997年, 2000年和2004年的城乡基尼系数⑤(表3)。为了说明的需要,本文根据经验函数的基尼系数计算结果与基准基尼系数的相对偏差来确定精确度:相对偏差在[-1%,1%]范围内,说明精确度很高;相对偏差在[-5%,5%]范围内,说明精确度较高;相对偏差超过[-5%,5%]范围,说明精确度不够高。
图4 经验分布函数拟合效果
表3表明,N.C.Kakwani的3参数函数和简易公式的精确度很高,相对偏差在[-1%,1%]范围内;广义指数分布、广义Logistic分布和三次多项式函数的精确度较高,相对偏差基本在[-5%,5%]范围;其余分布的精确度不够高,相对偏差超过[-5%,5%]。
因此,当研究目的仅在于估计基尼系数时,N.C.Kakwani的3参数函数和简易公式是很好的选择;当研究目的在于估计城乡居民的收入分布时,广义Logistic分布函数通过非参数假设检验,且基尼系数估计精确度较高,是可行的选择。
六、小结
本文利用“中国营养和健康调查”1989-2004年家庭平均收入的模块数据,采用核密度估计、累积分布函数、洛伦茨曲线等方法刻画我国城乡居民收入分布的动态演进。结果表明,在1989-2004年间,我国绝大多数家庭都分享了我国经济快速增长所带来的经济成果。但是,并不是所有的家庭都平等地分享了经济增长的成果。相对而言,高收入阶层比低收入阶层更多地分享了经济成果,城市居民比农村居民更多地分享了经济成果。导致的结果是,城乡内部和城乡之间的收入分配不平等程度越来越严重,至2004年,城市核密度函数曲线和农村核密度函数曲线都呈现较为轻微的双峰分布,初步呈现贫富差距两级分化的局面。如何使经济增长与发展过程更加公平,使增长成果能够更广泛地分享,既是构建和谐社会、实现经济可持续发展的需要,也是我国政府制定发展战略要优先考虑的目标之一。
进一步地,非参数假设检验和相对偏差估计结果表明,当研究目的仅在于估计基尼系数时,N.C.Kakwani的3参数函数和简易公式是很好的选择;当研究目的在于估计城乡居民的收入分布时,广义Logistic分布函数通过了非参数假设检验,且基尼系数估计精确度较高,是可行的选择。
需要指出的是,包括广义Logistic分布在内的大多数经验分布大都是单峰分布,然而从2004年起,我国城乡收入分布已经呈现较为轻微的双峰分布,因此,合理选择和构造双峰分布甚至多峰分布函数,以更有效地刻画我国城乡收入分布是今后值得关注的一个研究方向。此外,本文实证研究表明,广义Logistic分布函数往往可能低估基尼系数,这也是在实际应用时需要注意的问题。另外,由于经验函数在不同收入阶层的分布形状是不一样的,已有学者开始尝试针对不同阶层寻找不同的合意经验分布,这方面的研究是非常有意义的。
注释:
①http://www.cpc.unc.edu/china
②这8个省份分别是辽宁、江苏、山东、河南、湖北、湖南、广西和贵州,其中辽宁省在1997年的调查中曾被黑龙江省取代,2000年又重新回到样本中。
③其中1997-2000年由于受东南亚金融危机影响,城乡居民收入分布略微向左平移。
④本文仅考察常见的连续型分布,由于篇幅限制,本文没有给出参数估计结果,如果读者需要,可以和作者联系。
⑤需要指出的是,本文的主要目的不在于探讨城乡基尼系数的大小,而在于通过具有代表性和稳健性的大规模调查数据,来比较基尼系数计算结果的精确度。