中国基尼系数的估算研究,本文主要内容关键词为:系数论文,中国论文,基尼论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中国的收入不平等程度受到了国内外的广泛关注,出现了各种各样的基尼系数估计值。我国每年在《中国统计年鉴》中都发布收入分配数据,但一般认为利用该数据难以估算基尼系数(王学力,2000),一是因为这种数据是分组形式的,城镇收入分配数据中只列出了从低到高若干个收入组的平均收入与人口份额,农村收入分配中只给出了各个收入区间及各个区间内的家庭百分数,二是城乡数据分列。实际上,寻求收入分配的统计分布是现代收入分配分析活跃的研究领域,洛伦兹曲线正是从收入分配的密度函数出发而定义的,又按定义,基尼系数是洛伦兹曲线与平等收入线之间面积的2倍,可见基尼系数的估算应建立在收入分配统计分布或洛伦兹曲线的准确测算的基础上。实际工作中,在只有分组数据可用的条件下,可以先估计收入分配的密度函数,从而得到相应的洛伦兹曲线,或直接估算洛伦兹曲线,最后再估计基尼系数。国外经济理论文献中基尼系数的估算一般遵循两种途径,一是利用分户数据直接估计收入分配的密度函数从而估算基尼系数,二是利用分组数据估计洛伦兹曲线,然后再估算基尼系数。我国统计部门的城乡收入分配调查的分户数据不对外公开,因此本文考虑使用统计年鉴中的分组数据。实际上,使用统计年鉴中的数据时,城镇基尼系数的估算可以使用第二种方法,而对于农村收入分配数据,由于缺少各个收入区间内的平均收入信息使得不能利用第二种方法。王祖祥(2006)提出了根据我国收入分配分组数据构造收入分配密度函数的方法,估算了我国中部六省的基尼系数。使用这种方法,只要相关部门提供信息量不高的分组数据,就可以计算我国任何部门、任何地域的基尼系数与其他大多数收入不平等指数,还可以利用现代收入分配分析方法对我国的收入分配进行进一步的分析。①
本文利用王祖祥(2006)提出的方法(同时改进了其中城镇密度函数的构造方法),估算了我国最近10年的基尼系数,实际计算表明,我国目前城镇与农村两部门内部的基尼系数都不大,都没有超过0.34,但从2003年开始,我国的加总基尼系数已经超过了0.44,远远越过了警戒水平0.4。实际上,基尼系数的分解公式说明,影响我国目前收入不平等的决定因素是农村与城镇之间的收入差距。从最后得到的全国洛伦兹曲线可见,2004年中占人口份额50%的低收入群体所拥有的收入份额只有20%左右,人口份额为10%的高收入端拥有近32%的总收入,这部分人口拥有的总收入是最低收入端10%群体的近20倍。因此,我国的收入不平等问题的动向值得关注。
一、城乡加总基尼系数的计算公式
我国城乡两部门收入分配数据分列,如何加总两部门的收入分配进而形成全国的加总收入分配一直是困扰我国经济理论界的一个问题。实际上,一旦收入分配密度函数的估算问题得到解决,这一问题将迎刃而解。这里先讨论基尼系数的一种分解公式,再说明收入分配统计分布的加总方法。
收入分配的洛伦兹曲线L(p)在收入分配分析中具有重要地位,L(p)表示人口份额等于p的低收入端拥有的总收入份额,因此L(p)是定义于[0,1]区间上的函数。按经济意义,它应满足如下条件:
(1)L(p)是p的增函数,即有L′(p)≥0。因为所考虑的低收入端人口份额p越大,该群体拥有的总收入份额应越大。
(2)L(p)是凸函数,即满足L″(p)≥0。因为p增加到p+Δp时,人口份额Δp所代表的是收入更高的群体,因此p增加时,L(p)应以更大比例增加。
(3)L(p)≥0,因为收入份额不能是负数。
(4)L(0)=0,L(1)=1。
如果对于任何p∈[0,1]都有L(p)=p,则此洛伦兹曲线是所谓平等收入线。对于任何洛伦兹曲线L(p),基尼系数定义为L(p)与平等收入线之间面积的2倍。
由此即可计算我国城乡合一的基尼系数。Dagum称为两部门的扩展基尼系数,它反映了两部门的组间不平等程度。
(3)式是离散条件下精确的基尼系数公式,由于只能得到分组形式的收入分配数据,因此不能用它进行实际计算。如果已知农村与城镇收入分配的洛伦兹曲线,分别记为,或已知两个收入分配的密度函数,例如记为
与绝大部分国外学者一样,笔者用连续分布来逼近离散的收入分配,这样,估计我国基尼系数的关键是构造收入分配的近似密度函数,只要这一问题解决了,将(4)式与(5)式代入(3)式即得到我国的基尼系数,同时还得到了反映两部门之间不平等的指标。
其中,μ是全国平均收入。因此,如果得到了两部门的密度函数,一是可以利用(5)式估计两部门之间的收入不平等,二是可以通过定理1得到基尼系数的下界估计,三是可以通过(4)式与(3)式或上述积分计算两部门或全国的基尼系数。同时,利用这些密度函数还可以进行收入分配的其他分析。可见,获得收入分配密度函数的方法本身具有重要意义。
二、城镇密度函数的构造方法
一般各国统计部门都是通过抽样调查对收入分配进行估计,又由于保密等原因,一般将抽样数据化成分组形式予以发布,理论界只能在这种数据的基础上对收入分配进行分析。根据可能得到的数据形式,可以直接估算收入分配的密度函数,第三部分构造农村收入分配的密度函数时将采用这一方法。也可以从估计洛伦兹曲线入手获得密度函数,这里采将用这一方法获得城镇收入分配的密度函数,将按经济意义与数学性质选择适当的函数作为洛伦兹曲线的经验公式,再利用分组数据估计其中的参数,从而得到近似洛伦兹曲线,最后利用洛伦兹曲线与密度函数的关系而得到后者。
设收入分配的密度函数为r(x),相应分布函数记为R(x),记p=R(x),则由于洛伦兹曲线定义为:
(6)
其中μ是相应的平均收入,则可见有:
(7)
因此对于任何x,从(6)式解出p,即得到x处的分布函数值p=R(x)。又对于任何p=R(x),计算二阶导数值L″(p),由(7)式即得x处的密度函数值r(x)。
确定τ,其中目标函数的最优值是所谓残差平方和。显然,该残差平方和越小,相应经验公式L(p,τ)越好。对于给定的函数形式L(p,τ),上式是一个非线性规划问题,可以使用一般非线性规划方法求解,笔者使用Levenberg-Marquardt算法(何光渝,1993)编程求解上述问题,该算法是一种可靠的非线性最小二乘参数估计方法。下面讨论中为简化记号而约去参数向量τ。
寻找合适的经验公式L(p,τ)的研究工作是活跃的研究领域,有关参考文献很多,例如Chotikapanich(1993),Kakwani等(1973,1976),Rasche(1980),Ortega(1991),Schader(1994),Ogwang(1996)等。比较著名的是Kakwani(1986)给出的如下经验公式:
其中约去了参数向量τ=(a,α,β),可见此公式中含有三个参数,它们应满足a>0,α>0,β>0。用(8)式对很多国家收入分配的洛伦兹曲线进行拟合时,残差平方和往往很小。但此式的缺点是p→0+时,L′(p)→-∞,这导致L(p)在p=0的ε-邻域内有一负的极小值。Ortega(1991)提出了只含两个参数的著名改进公式以克服这一问题:
并证明当β∈(0,1]时,对于任何α>0,L(p)满足洛伦兹曲线的条件。我们进一步提出如下三个参数的改进公式:
后面的计算结果显示,对我国的城镇数据,用(10)式能够得到比(9)式更理想的拟合结果。计算结果中,城镇收入分配都使用(10)式进行拟合。由此得到:
定理2 当β∈(0,1]、ω∈(0,1)、α≥1时,(10)式定义的L(p)满足洛伦兹曲线的条件。若ω=1,则对于任何β∈(0,1]及任何α>0,(10)式中L(p)满足洛伦兹曲线的条件(证明见附录1)。
定理3 当使用洛伦兹曲线经验公式(9)或(10)时,r(x)满足密度函数的条件,即有r(x)≥0,且(证明见附录2)。
三、农村收入分配密度函数的构造
四、基尼系数的估算结果
国家统计局每年城乡调查规模甚大,例如2003年两部门调查总户数达到了116 218户,这不能算是小样本调查,因此计算结果应该具有一定的可信度。观察《中国统计年鉴》中的数据可以发现,农村收入分配与城镇收入分配呈现较大的收入差距,例如2003年农村人均纯收入2 500元以下者占总调查户的55.12%,这些人的收入属于城镇困难户的水平,也就是说,城乡两个收入分布的重叠部分相对较小,因此两个收入分配合并形成的收入分配的基尼系数不会很小。
笔者利用1995-2004年的数据,考虑农村纯收入的分配与城镇可支配收入分配时,得到如表1的计算结果。③
表1 中国农村、城镇及加总收入分配的基尼系数
数据来源:农村取纯收入的收入分配,城镇取可支配收入的收入分配。收入分配数据见《中国统计年鉴》(1995-2005)。
可见我国城镇人口内部的基尼系数从比农村基尼系数低9个百分点左右,上升到高于农村基尼系数2个百分点的水平,10年间增加了近12个百分点,同时也说明1995-2004年城镇人口之间的收入分配格局发生了巨大变化。与此相反,过去10年中我国农村人口内部的基尼系数却变化不大,几乎始终在0.30左右徘徊。一般经济快速发展过程中,收入分配格局往往随之发生变化,改革开放二十多年来,相对于农村地区,我国的经济增长主要发生于城镇部门,可见两部门内部的基尼系数的变化恰好反映了这一点。我国城镇部分的基尼系数虽然增长速度可观,但目前仍处于可以接受的范围内,都没有超过0.35。观察表1中最后一列,可见两部门加总基尼系数由0.35左右逐渐变化到0.44左右,10年中增加了近9个百分点,这一增速非常快。目前我国加总基尼系数的值远远超过了警戒水平0.4。值得注意的是扩展基尼系数的变化,10年间它增加了10个百分点,且目前达到了0.54这一比较高的水平,这反映了城镇与农村两部门的收入不平等快速增加,因为扩展基尼系数最大不会超过1。由(3)式可见,由于我国目前两部门的基尼系数都不算大,但加总基尼系数却增加甚速,原因之一是城镇内部的基尼系数快速增加,原因之二是城乡两部门之间收入差距的迅速扩大。但由于我国农村人口比重远大于城镇,由(3)式可见后一原因对基尼系数快速增加的贡献更大。表1还说明,目前我国的加总基尼系数不会低于0.43,城镇农村两部门之间的收入不平等不会低于0.52。
这样2003年的基尼系数应在0.47以上。由上式可见,正是巨大的城乡收入差距决定了我国的基尼系数必然很大,因为即使在上式中把农村与城镇的基尼系数都换为0.3,由于城乡收入差距的作用,2003年我国的整体基尼系数也会达到0.42左右。
表2中给出了利用(9)式与(10)式对城镇数据进行拟合时计算得到的参数,感兴趣的读者可以用《中国统计年鉴》上的数据对表1中城镇基尼系数进行验证,更重要的是可以将这些参数代入(9)式或(10)式而得到我国城镇收入分配的洛伦兹曲线,从而可能对城镇收入分配展开进一步的分析。
首先注意到,表中公式(9)的参数α、β都属于区间(0,1),因此代入(9)式后产生的曲线都满足洛伦兹曲线的条件。由定理2可见,表中公式(10)的参数使该式也满足洛伦兹曲线的条件。为节约空间,表中残差平方和使用了所谓科学计数法表示,例如1.4897E-5表示。可见用(10)式进行拟合时,残差平方和大约是(9)式的1/10,(10)式残差的数量级达到了,这种误差基本上可以忽略。因此,文中基尼系数的准确程度是比较高的。
表2 用公式(9)与(10)拟合中国城镇可支配收入分配数据时的参数
注:中国城镇可支配收入分配数据见《中国统计年鉴》(1995-2005)。
五、结语
为说明我国目前的收入不平等程度及变化,当农村收入分配取为纯收入分配、城镇收入分配取为可支配收入分配时,计算全国加总洛伦兹曲线上各个十分位点处的值,得到表3。例如表3中第2列是各年中人口份额占10%的低收入群体所拥有的总收入的份额,其他各列类推。可见人口份额5%的高收入层所拥有的总收入的份额由1995年的14.52%上升到2004年的20.37%,人口份额为10%的高收入层所拥有的总收入的份额由1995年的24.78%上升到2004年的32.12%。在2004年,人口份额为20%的高收入阶层拥有近50%的总收入。而这些年中低收入阶层所拥有的收入份额则持续下降,人口份额10%的低收入层所拥有的收入份额由1995年的2.34%下降到2004年的1.68%,人口份额为20%的低收入层所拥有的收入份额由1995年的6.13%下降到2004年的4.66%,2004年中人口份额为50%的低收入阶层只拥有大约20%的总收入。而且,除1996年外的任何年份中,人口份额为50%的低收入层所拥有的收入都没有超过25%。在1995年,高收入端10%的人口所拥有的收入是低收入端10%群体的10.59倍,到2004年时,这一数字差不多翻了一番,达到了19.12倍。2004年与2003年比较时情况有微小改变,2004年低收入端的收入分配要优于2003年,这可能与2004年农村税收政策的调整有关,因为据2005年《中国农村住户年鉴》介绍,2004年农村税收调整使农民收入得到了一定的提高。
表3 2004年中国农村城镇加总收入分配的洛伦兹曲线值
可见,我国2004年的基尼系数已经达到了0.44左右,且从1997年开始,基尼系数以很快的速度增长。④目前我国正致力于建立和谐社会,而收入不平等的扩大显然与这一目标背道而驰。可见为解决这一问题,控制城乡两部门内的收入不平等固然重要,但更重要的是提高农民的收入,缩小城乡差距。我国正大力开展新农村建设,这将使城乡收入差距得到根本改善,笔者希望十一五规划结束时,重新计算的基尼系数会大大减少。
附录1:定理2的证明
附录2:定理3的证明
证明:显然r(x)≥0成立。在积分中作变量替换x=μL′(p),由r(x)的定义即有:
注释:
①国内很多学者考虑了我国基尼系数的估算问题,例如李实等(1998)、李强等(1995)、胡祖光(2004)、董静和李子奈(2004)等。使用我国统计年鉴中的分组数据,Chotikapanich等(2007)也考虑了我国的基尼系数,该文利用一种经验分布来逼近我国农村分组数据,计算得到的农村基尼系数与本文结果相差不大。
②王祖祥(2006)使用了这种加总公式,Chotikapanich等(2007)也是使用这种加总分布计算我国基尼系数的。
③最近Chotikapanich等(2007)给出了利用《中国统计年鉴》上的数据估计我国基尼系数的方法,本文农村与城镇的估算结果与该文差别不大,但本文两部分加总的结果稍大于他们的结果,由公式(3)可见这种差异应该是人口或平均收入信息的原因,另外,我们这里没有考虑价格指数对收入分配的影响。
④但这里需要指出,基尼系数的估算结果与所基于的数据有关,若对于同一个群体进行两次收入分配抽样调查,可能得到相差很远的数据,因而得到完全不同的收入不平等估算结果,因此,过分关注某一种数据来源的估算结果是不必要的。
标签:洛伦兹曲线论文; 收入分配论文; 中国统计年鉴论文; 基尼系数论文; 农村人口论文; 城镇人口论文; 城乡差异论文;