中国城乡综合基尼系数测算的一种新改进——基于间接洛伦茨曲线加总的视角,本文主要内容关键词为:系数论文,中国论文,城乡论文,视角论文,曲线论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、问题的提出
测算中国城乡综合基尼系数(或称城乡合一基尼系数、全国基尼系数)所采用的样本数据可以归结为两种:一种是微观个体数据,即包括城镇居民和农村居民在内的家庭收入调查的原始数据;一种是城乡分离的分组收入数据,即城镇和农村各自按照收入高低分成若干组,只给出组内平均收入或组内收入的上下限,而不再给出每组组内各个居民的收入。对于前一种数据,倘若对城镇居民和农村居民的调查方法统一、选取的样本具有足够代表性,那就可以直接从样本的基尼系数推断总体的基尼系数即城乡综合基尼系数。但现实是,即便暂且撇开国家统计局对城镇住户和农村住户分开调查过程中所采取的统计调查方法不一致问题不谈,国家统计局对住户调查微观数据的保密性也使广大普通研究者对微观个体收入数据“望而兴叹”,只能从《中国统计年鉴》等公开发表的资料上获取城镇居民、农村居民各自的分组收入数据,而且在不同的统计年鉴中分组数据还有等分组数据和不等分组数据之差别。例如,2007年农民居民最低收入组的户比重不到1%,而最高收入组的户比重却超过了30%(参见《中国农村住户调查年鉴》)。如此不均等的分组数据更容易干扰对隐含信息的挖掘。当然,也有其他诸如中国家庭收入项目(CHIPs)这样的微观数据,但该微观数据并非逐年调查,而是间断性地隔几年调查一次,无法测算逐年连续的城乡综合基尼系数,且城镇和农村的住户调查方法上也不一致。概而言之,城乡综合基尼系数测算是在中国现有统计方式和数据可获得条件下所产生的一个特殊问题。
现有的关于城乡综合基尼系数的估算方法大致上可以划分为两大类:子群分解法和函数加总法。子群分解法是运用子群分解“逆运算”的思想,将分组数据的各个组看作一个“子群”,或者将城镇和农村看作两个不同“子群”,进而估算城乡综合基尼系数的方法。在这种视角下,城乡综合基尼系数的测算与基尼系数的子群分解式有着不解之缘。分层加权法(陈宗胜,1991)和城乡加权法(向书坚,1998;陈宗胜,2000、2002)等都可归类于子群分解法;不过,它们大多无法解决因城乡收入重叠而造成的对城乡综合基尼系数估算的偏误。鉴于此,一些学者尝试运用“函数加总”的思想,通过城镇和农村收入分布函数或密度函数加总得到全国的收入分布函数或密度函数,在解决因城乡收入重叠所引发问题的基础上估算了城乡综合基尼系数(程永宏,2006;王祖祥,2006),这类方法本文称之为函数加总法。可惜的是,既有的函数加总方法却又带来了对全国最高收入和各分组组内最高收入依赖的新问题,对全国最高收入的估计误差以及由组内平均收入代替组内最高收入产生的分布函数的估计误差,都会影响对城乡综合基尼系数的测算。
本文拟采取城乡间接洛伦茨曲线加总的形式测算城乡综合基尼系数。间接洛伦茨加总法按其基本思路虽也归入函数加总法,但因能够规避对两种最高收入的依赖,故仍可以说是对城乡综合基尼系数测算的一种新改进。在实证方面,笔者利用CHIPs2007的城镇住户调查数据和农村住户调查数据,分别计算基于微观数据法、城乡加权法、分层加权法和间接洛伦茨曲线加总法的城乡综合基尼系数,以验证本文提出的新测算方法的有效性和稳健性。此外,文章还在新改进方法的框架下进一步表达了对基尼系数城乡子群分解式的新理解。
二、从子群分解到函数加总的视角拓展
中国城乡综合基尼系数的早期计算大多循着子群分解“逆运算”思想采用子群分解法,诸如典型的分层加权法和城乡加权法等均可归于此类。分层加权法是陈宗胜(1991)从1982年世界银行关于中国问题的报告中概括出来的计算全国基尼系数即城乡综合基尼系数的一种方法。这种方法归根到底仍然是离散分组数据的基尼系数计算公式,只不过在这之前需要做两项工作:一是将城镇居民和农村居民的分组收入数据按照各个组的平均收入重新排序,得到“全国”各收入层的数据;二是将各组的收入份额和人口份额按城、乡的人口比重换算成全国各收入层的收入份额和人口份额。陈宗胜由此计算了1981-1988年全国的基尼系数,可以说这是国内学者较早计算全国基尼系数的尝试①。不难看出,这里的“分层”实际上就是“分组”的意思;若将每个“组”看作一个“子群”的话,则分层加权法便是一种子群分解法。
向书坚(1998)认为分层加权法计算比较复杂,提出采取Sundrum (1990)使用过的基尼系数两子群分解公式来计算全国基尼系数②,并称这种方法为“分组加权法”。此时的“组”是将全国居民分为城乡两个组。或许是这种称法容易引起误解,因为城镇和农村各自还包含不同的组(城镇和农村的收入通常能够得到的是分组数据),故陈宗胜(2000、2002)又将其改名为“城乡加权法”。显然,倘若把向书坚所说的城镇和农村居民两个“组”看作是两个“子群”,则城乡加权法也是一种子群分解法。
然而,无论是分层加权法还是城乡加权法,要准确测算城乡综合基尼系数,各子群之间的收入就不能重叠(Overlap),否则,在基尼系数分解公式中会出现交互作用项或者说剩余项(Cowell,2000)。数据重叠越严重,剩余项越大。但是,陈宗胜(1991)在运用分层加权法计算全国基尼系数时却忽视了各层(组或子群)之间的城乡交叉重叠,陈昌兵(2007)采用分层加权法计算1995-2004年全国21个省份的城乡综合基尼系数时同样忽略了不同收入组之间个体数据的重叠问题;向书坚(1998)在运用城乡加权法计算中国的基尼系数时也忽视了城、乡两个子群的收入数据的重叠问题,从而低估了全国基尼系数。如果把城乡不同收入组之间的数据重叠即因将组内平均数作为排序依据所引起的分组交叉重叠称为第Ⅰ类数据重叠;那么,城、乡两个子群之间的收入数据重叠即因城镇最低收入低于农村最高收入引起的重叠则可称为第Ⅱ类数据重叠。显然,分层加权法中出现的是第Ⅰ类数据重叠问题,而城乡加权法则出现第Ⅱ类数据重叠问题。
陈宗胜(2002)在与李实(2000、2002)的学术争鸣中曾力挺城乡加权法能够进行准确度较高的估算③。对此,周文兴(2003)曾用例子和方法机理阐明并非一定如此,强调千万不要轻易忽视“重叠”项,一定要慎用“城乡加权法”。笔者也赞成慎用城乡加权法,原因有二:一是中国目前的城镇和农村居民的收入重叠程度较大,不能忽视或低估其对城乡综合基尼系数测算的影响④。例如,根据《中国统计年鉴2011》相关数据计算可知,2010年城镇居民和农村居民收入发生重叠的人口比重约为30%,因这么高比重的收入重叠而造成的基尼系数测算偏误是不能忽视的。二是面对城乡各自的分组数据计算城乡综合基尼系数时,可以证明城乡加权法劣于分层加权法。事实上,陈宗胜和周云波(2002)也已发现,当采用相同来源的数据,并且处理过程相同时,用城乡加权法计算的城乡综合基尼系数都小于用分层加权法计算的结果⑤。究其原因,是由于城乡加权法用城乡平均收入的差异来代替城乡间差异所致。
针对城乡居民收入数据的重叠问题,学术界在两个方向上展开探索:一个方向是处理因数据重叠而产生的剩余项;另一个方向则是在解析数据如何重叠的基础上将重叠因素纳入城乡综合基尼系数的估算之中。在前一个方向上,洪兴建(2008)曾通过引入“相对剥夺”概念重新定义群间不平等,进而在基尼系数子群分解公式中消弭了剩余项。不过,笔者认为,洪兴建的群间不平等定义值得进一步推敲,原因在于,若按此定义,当城乡收入分布完全无差异时群间不平等并不为零。而且,他在实证计算中由于运用的是分组数据,所以在解决第Ⅱ类数据重叠问题的同时又产生了第Ⅰ类数据重叠问题。值得一提的是,面对分组数据时,可以证明该方法等价于分层加权法。其实,洪兴建所提出的基于相对剥夺视角的方法应当采用微观数据,但若拥有了微观数据,则直接利用微观数据的离散公式计算城乡综合基尼系数反而更加简便和准确。可见,洪兴建(2008)依然没有彻底解决收入重叠的问题对基尼系数计算的影响。此外,董静和李子奈(2004)通过引入收入分布将收入重叠的因素纳入城乡综合基尼系数的计算中。他们在假定城镇居民、农村居民的收入均服从正态分布的基础上估计了城乡加权法中剩余项的具体形式,在一定程度上矫正了城乡加权法的低估问题。但众所周知,收入分布通常呈现出厚尾的特征,而且是一种非对称分布,因此,对称的正态分布这一假定本身的合理性需要进一步商榷。
另一个方向上的探索开启了从子群分解到函数加总的视角拓展。程永宏(2006)、王祖祥(2006)分别从分布函数加总和密度函数加总的角度,合乎逻辑地处理了城乡收入的重叠问题,只要利用城、乡各自的分组数据就能计算出全国基尼系数。不过,程永宏(2006)在利用分布函数加总方法计算全国基尼系数过程中⑥,仍有以下待商榷、推敲或改进之处:一是对最高收入的估计很可能出现较大误差。程永宏在推导前的假设中将最高收入者设为一人,这个假设并不一定符合实际,因为统计局调查样本中出现一个以上的最高收入者是完全有可能的。而且在最高收入的计算公式中⑦,由于出现了20次方,收入分布函数F的微小变动会引起最高收入T的很大变化。故程永宏对最高收入的估计很可能存在相当大的误差。二是城镇收入分布函数的估计依赖于组内的最高收入,而在近年来统计局公布的分组数据中,并没有城镇组内最高收入值。程永宏用组内平均收入代替组内最高收入,由此得到的分布函数就会产生误差,进而影响对全国基尼系数的估算。三是“最低收入为零,且只有一个人,以及每个人的收入都不同的假定”很难符合现实。在中国,由于城镇有最低生活保障,农村也有“五保”等政策,最低收入者收入一般并不为零,而且往往也不止一人。不同人之间出现收入相等的情况也是完全有可能的。四是程永宏采用变形后的Logistic函数来拟合收入分布,但这样的变换取决于误差项能够支持线性化的变换,而在许多情况下,误差项并不能支撑这样的变换。五是王春雷和黄素心(2007)通过检验发现程永宏计算的农村基尼系数均显著地小于样本基尼系数下界(相对于标准差而言),因而采用Logit函数的一种变形来拟合农村家庭人均纯收入分布并不恰当。
王祖祥(2006)采用城镇居民收入的密度函数和农村居民收入的密度函数加总得到城乡综合的密度函数,并利用加总后的密度函数计算了中部六省份的城乡综合基尼系数。这种方法可以推广到计算全国基尼系数,而且也可以很好地规避了城、乡收入的重叠问题,但王祖祥对一些问题的陈述却语焉不详:第一,关于农村密度函数的估计问题。王祖祥用二次样条逼近法来逼近农村密度函数,但是,由于他所采用的插值节点只有19个,导致最大节点距无法达到足够小,因此逼近存在着相当的误差。同时,王祖祥对农村密度函数估计精度的论证是建立在收入分布为指数分布的前提下。因此,他的论证只在指数分布这一特例下有效,不具普遍意义。再者,在农村低收入和高收入这两端引入帕累托分布的依据也未充分说明。第二,关于城镇收入密度函数的估计问题。王祖祥在文中只提到要利用数据对一个来自于国外文献的洛伦茨曲线经验公式作线性或非线性最小二乘法回归,但并未对回归结果给出任何统计描述。对于城镇密度函数逼近方法的有效性,也未给出详细的验证。笔者认为,单凭一篇外文文献就说一种方法的有效性已在实践中得到验证尚不具备足够说服力,因为任何统计模型的成立必须依赖于数据的支持,而数据是否支持则要根据统计量作出判断。第三,王祖祥的基尼系数计算公式(即)中收入y的积分限存在问题。收入的区间应该为,而王祖祥(2006)取成了[0,+∞)。事实上,在利用该式计算全国基尼系数前还需要估计最高收入,而王祖祥却忽略了这个问题。第四,基尼系数的计算依赖于组内最高收入。在实际调查中,城镇组内最高收入的缺失非常严重,特别是近年来更是如此,由此估计密度函数就会存在一定的偏差。
总之,中国城乡综合基尼系数的测算方法经历了从子群分解到函数加总的视角拓展,见图1。在现有的函数加总方法中,无论是程永宏(2006)的分布函数加总,还是王祖祥(2006)的密度函数加总,都离不开全国最高收入的估算以及城镇组内最高收入的支撑,而且他们的估算都存在一定的可商榷之处。鉴于此,本文拟在延续函数加总思想的基础上,提出一种既能解决城乡收入的重叠问题,又能规避对两种最高收入(全国最高收入和组内最高收入)依赖问题的改进方法——基于间接洛伦茨曲线加总的城乡综合基尼系数计算新方法。
图1 城乡综合基尼系数计算方法的演化
三、间接洛伦茨曲线加总法测算基尼系数及其城乡分解
1.间接洛伦茨曲线加总法推导基尼系数
式(1)和式(2)分别表达了城乡收入分布函数加总和密度函数加总的思想。程永宏(2006)、王祖祥(2006)分别运用函数加总思想计算城乡综合基尼系数。但是,在具体计算过程中,程永宏(2006)、王祖祥(006)计算都不可避免地依赖于全国最高收入以及城、乡各分组组内最高收入数据的支撑⑧,而在现有的统计年鉴中,并不提供全国最高收入这一数据,城镇各分组组内最高收入在很多年份中也是缺失的,这就很有可能在计算全国基尼系数时产生相当的估计误差。
规避对全国最高收入依赖的一种基本思路是,直接采用基于洛伦茨曲线的全国基尼系数计算公式:
其中,L(p)为全国洛伦茨曲线,p为全国人口累计比重或份额。由于式(3)中积分限被控制在[0,1]内,从而,在L(p)和p已知的情况下,就可以规避对全国最高收入的依赖而计算基尼系数。但问题恰恰在于,只有城乡分离的分组收入数据(而没有微观数据)的条件下,我们无法得到全国的累计人口比重及累计收入比重数据,也就无法直接拟合全国洛伦茨曲线L(p)。而且,以累计人口比重p为自变量的全国洛伦茨曲线L(p)是无法用城镇、农村的洛伦茨曲线加总得到的。
本文的新意在于,在城镇和农村各自的洛伦茨曲线无法直接加总成全国的洛伦茨曲线的情况下,巧妙地采用间接洛伦茨曲线的形式予以加总。众所周知,洛伦茨曲线是Lorenz(1905)提出的用来度量财富分配状况的曲线,它表示一个国家或地区内累计人口比重(人口累计份额或者说人口累计百分比)与累计收入比重的对应关系。由于全国人口累计比重p可以进一步表达成收入分布函数即p=F(x),从而,以p为自变量的全国洛伦茨曲线L(p)就可转化成以收入x为自变量的洛伦茨曲线ζ(x)=L(F(x)),本文称之为间接洛伦茨曲线。
间接洛伦茨曲线的计算公式如下:
利用函数加总的思想,即将式(2)代入间接洛伦茨曲线的计算公式,那么全国间接洛伦茨曲线就可以表示成城镇间接洛伦茨曲线和农村间接洛伦茨曲线加总的形式:
式(5)体现了本文所强调的间接洛伦茨曲线加总的核心思想,即全国的ζ(x)就可以通过城镇、农村各自的加总得到。再结合全国的收入分布函数F(x),就可以利用式(3)算出城乡综合基尼系数。
图2 间接洛伦茨曲线加总法思路
2.基尼系数城乡子群分解式的新理解
如果说测算城乡综合基尼系数(全国基尼系数)可以了解全国收入分配的不平等状况及其变化趋势,那么,对城乡综合基尼系数的城乡分解则可以考察城乡各自内部、城乡间的不平等以及它们对总体不平等的贡献度。
对基尼系数城乡子群分解的一个基本要求是,能够“分解净尽”,即不存在剩余项。同时,合理的测度城乡间不平等指标还需满足:第一,当城镇、农村的收入分布完全一致时,城乡间收入不平等测度指标应为零。也就是说城乡间收入分配完全相同时,就不存在收入分配的城乡间不平等。第二,城乡间收入不平等测度指标还能够较好地解释极端值。第三,城乡间收入不平等测度指标应当既能反映城乡在收入总量上的平衡性,即均值的差异;又能反映城乡间收入分配均等程度的差异,即洛伦茨曲线、密度函数等的差异。例如,假设城乡在收入总量上是平衡的,城乡间人均收入相等,但是农村的收入分配不平等程度远大于城镇,人们仍然能感受到城乡间收入的不平等。这是因为许多的农村居民由于收入分配的严重不平等,其个人收入大大低于农村平均收入。换言之,此时,他们的收入是“被平均”了,平均收入不再能代表大多数农民的个人收入。因此,需要纳入能够表现城乡间收入分配均等程度差异的因素。
从统一度量城乡间不平等的视角出发,本文在间接洛伦茨曲线加总的框架下推导出如下的基尼系数分解式(11):
在以往的基尼系数城乡子群分解中,第一,城乡加权法虽然也是将全国基尼系数分解成城镇、农村内部基尼系数、城乡间差异这三项,但在城乡收入存在重叠时,子群分解不能净尽。而且它的群间不平等指标只度量了城乡间人均收入的差异,或者说只度量了居民收入“被平均”后的差异,而未考虑城乡间收入分配均等程度不同引起的城乡不平等,因此城乡加权法对城乡不平等的测度存在比较大的问题。事实上,早期关于基尼系数子群分解的研究大都关注可加可分解性(Bhattacharya和Mahalanobi,1967;Shorrocks,1980;Mookherjee和Shorrocks,1982),其中群间差异就采用各子群人均收入的函数来表征。但此后,一些学者对采用各子群人均收入的函数来表征群间差异提出了质疑(Blackorby等,1982;Dagum,1980;Yitzhaki,1994;Fossett和South,1983;Vinod,1985;Gastwirth,1985;Ebert,1984)。第二,洪兴建(2008)分解式采用的群间不平等指标(13),在城镇、农村两个子群的收入分布完全相同的情况下仍然不为0,此时群间不平等正好等于群内不平等的值(14),所以洪兴建的分解式可以进一步商讨。第三,程永宏(2006)的分解式与本文的分解式(6)看起来很相似(15),但其实两者还是有很大的差别。首先,在形式上,本文的G3指标比其采用的城乡间不平等指标D在公式表达上更直观地反映了城乡人均收入的差异以及城乡收入分配均等程度的差异。其次,本文的分解式比程永宏的分解式有更强的包容性。正如本文第二部分指出,程永宏的计算公式与分解式的推导建立在若干严格的假定下,适用范围受限。而间接洛伦茨曲线加总法的假设前提却宽泛得多,只要收入分布函数可以被看做连续即可,因而适用范围更广。再次,程永宏采用的城乡间不平等度量指标是一个绝对指标(16),绝对指标的劣势在于对总量变化的敏感性。在较早的年份中,人均收入较低,城乡之间收入的绝对差距较小,而当人们收入普遍得到提升时,收入的绝对差距就会变大,但这种原因引起的收入绝对差距的变大并不代表收入不平等的上升。而本文采用的城乡间不平等指标是一个相对指标(17),相对指标的优势在于能够剔除总量变化的影响,从而更敏感地表征城乡间的收入不平等。最后,程永宏计算城乡基尼系数和城乡间不平等指标D都需要最高收入和组内最高收入数据。最高收入数据的缺失不仅影响了全国基尼系数的正确估计,也给基尼系数的城乡分解带来麻烦。总之,上述基尼系数城乡子群分解公式及其相应的城乡间不平等测度指标仍值得进一步推敲。
四、实证分析:间接洛伦茨曲线加总法的有效性和稳健性
利用中国社会科学院经济研究所中国城乡居民收入分配课题组2007年的抽样调查数据(CHIPs2007),本文采用4种方法计算基尼系数并进行比较。这4种方法分别是:微观数据法、城乡加权法、分层加权法和间接洛伦茨曲线加总法。由于程永宏(2006)和王祖祥(2006)文献提供的信息有限,笔者无法采用他们的分布函数加总法或密度函数加总法来计算基尼系数,也就无法与前面4种方法的结果进行比较。对于微观数据,笔者采用协方差公式直接计算基尼系数(18)。对于分层加权法,本文采用的是陈宗胜(1991)的万分法,从分组数据计算而得。
城镇居民收入和农村居民收入均采用的是CHIPs2007中城镇和农村各自的家庭总收入,由于缺少每个家庭的人口数,所以无法将家庭总收入换算为家庭人均收入。不过,本节主旨是验证在只有分组数据的情况下用间接洛伦茨曲线加总法测算城乡综合基尼系数的有效性和稳健性,而非实际评估当前的收入不平等到底有多大。所以只要在比较的时候采用相同的收入数据,相同的收入口径,那么用不同方法计算所得的基尼系数就是具有比较意义的。
本文采用的分组数据是模拟国家统计局历年城镇、农村居民收入分组数据的结构,将CHIPs2007的城镇收入数据分成7组,将CHIPs2007的农村收入数据分成20组。在本文采用的城镇7分组收入数据中,最低收入组、低收入组、最高收入组、高收入组的户比重均为10%,中等偏下收入组、中等收入组、中等偏上收入组的户比重均为20%。由于《中国统计年鉴》中农村居民的收入数据是等分的,而《中国农村住户调查年鉴》中农村居民的收入数据是不等分的,因此本文同时采用等分和不等分两套农村分组收入数据来验证本方法的稳健性。在等分组数据中,每个收入组的户比重均为5%;在不等分组数据中,每个收入组的户比重与《中国农村住户调查年鉴2008》中2007年农村纯收入各组的户比重保持一致。
1.间接洛伦茨曲线加总法的基尼系数估计
根据间接洛伦茨曲线加总法的思路,我们主要分4个步骤来计算城乡综合基尼系数:运用分组数据拟合城镇、农村的洛伦茨曲线;推导城镇、农村的分布函数;计算全国的间接洛伦茨曲线和分布函数;利用全国的洛伦茨曲线和分布函数计算城乡综合基尼系数。
第一步,利用分组数据拟合城镇和农村洛伦茨曲线。本文采用Sarabia等(1999)提出的帕累托族洛伦茨曲线模型来拟合城镇和农村的洛伦茨曲线,该模型曾被用于巴西、瑞典、美国基尼系数的计算,而这些国家正是代表了不同的收入分配状况,巴西代表了收入高度不平等的国家,瑞典是典型的福利主义国家,收入不平等较小,而美国的收入不平等处于中等水平。但在这些不同国家、不同平等状况的收入数据中该模型都体现出非常高的灵活性和稳定性,故笔者认为用该模型来拟合中国的洛伦茨曲线也是可行的。帕累托族洛伦茨曲线是从与经典帕累托分布联系的原始洛伦茨曲线衍生而来的(19),而以往文献中所出现的一些洛伦茨曲线模型多是它的某一种特例。具体而言,本文选用的帕累托族洛伦茨曲线Ⅰ类模型如下:
p为人口累计份额,p=F(x),a和k是参数。用SAS软件对城镇和农村的洛伦茨曲线进行非线性OLS回归拟合,极小化方法用的是高斯—牛顿迭代法。
受限于模型的非线性以及分组数据组别的有限性(城镇为7分组,农村为20分组),t统计量只能作为近似参考。为了判断模型拟合的好坏,本文采用既往相关文献采用过的MSE(Mean Squared Error,均方误差)、MAE(Mean Absolute Error,平均绝对误差)、MAXABS(Maximum of Absolute Value,最大绝对值)和基尼系数作为判断模型拟合好坏的指标(20),具体结果如表1。
从表1可以看到,城镇、农村的洛伦茨曲线拟合优度较高,误差较小;通过拟合城镇、农村洛伦茨曲线得到的基尼系数与真实的基尼系数(微观数据计算得到)差异非常小,只差了0.001左右。在图3中,可以更加直观地看到城镇、农村洛伦茨曲线的拟合效果(21)。
图3中星号表示从微观数据计算得到的真实的人口累计份额和收入累计份额的点。左图是拟合的城镇洛伦茨曲线,可以看到拟合的曲线非常贴近真实的数据点。右图中用农村等分组和不等分组收入数据分别拟合的两条洛伦茨曲线几乎重合,表明了估计的稳定性。而且两者都很贴近真实的数据点。
以下将对城镇和农村洛伦茨曲线拟合的收敛性进行分析,一般情况下,普通的OLS不报告拟合的收敛性,但在非线性拟合中,由于采用了迭代法所以需要报告拟合的收敛性,如表2所示。
从表2可以看到用帕累托族洛伦茨曲线Ⅰ类模型来拟合城镇、农村的洛伦茨曲线可以达到很好的收敛效果。
其中a、k就是前面估计的洛伦茨曲线中的参数,μ是收入均值。从式(8)可以看到,要获得城镇和农村的收入分布函数,就需要城镇和农村的收入均值。既可以用样本的收入均值,也可以分别估计出城镇和农村的收入均值,但两种方法对于拟合分布函数、全国洛伦茨曲线的效果非常接近,故正文中采用城镇和农村的样本收入均值。
第四步,由全国洛伦茨曲线和分布函数计算城乡综合基尼系数。通过23个收入点对应的L、p(即F)值,运用Matlab先三次样条拟合再求积分。由于p的定义域只为[0,1],而且洛伦茨曲线本身具有优良的特性,所以能保证样条拟合的精度。得到了后,就可以用式(3)计算城乡综合基尼系数,结果见表3。
图4是利用等分组数据和不等分组数据分别拟合的全国洛伦茨曲线。
从图4可以看到,采用等分组数据和不等分组数据时,拟合的城乡综合洛伦茨曲线都很靠近原始的数据点,可见本文的拟合具有非常高的有效性和稳健性。
2.与其他估算方法的比较
用其他不同方法估算的城乡综合基尼系数的结果见表3。
从表3可以看到微观数据计算的城镇、农村和城乡综合基尼系数分别为0.3734、0.3504和0.4255,这三个值可以作为比较的基准,或称“真实的基尼系数”。
用城乡加权法计算的城乡综合基尼系数可以看到,无论等分组还是不等分组该方法得到的城乡综合基尼系数与真实的基尼系数相差较大,绝对误差为0.05和0.06,相对误差率约为12%和14%。这对于本身取值为[0,1]的基尼系数而言,是一个不小的误差。
用分层加权法计算的城乡综合基尼系数,在等分组情况下得到的城乡综合基尼系数与真实的基尼系数相差较小,差了0.005。这可能是由于城乡不同收入组之间的数据重叠对全国基尼系数估计的影响是综合性的,部分组的重叠会产生正偏的误差,部分组的重叠又会产生负偏的误差。在当前这套数据下,正负误差大多相抵了,分层加权法的计算结果就会与真实的基尼系数相差较小,但这并不代表在其他数据情形下分层加权法不会存在误差较大的风险,因为数据重叠问题始终存在。特别是在不等分组情况下,误差增大到0.03,可见该方法存在不稳定性。当收入数据为等分组时,数据本身的规律已经被大致掌握,但当数据呈现不等分组时,数据本身的规律有很大一部分都被忽略了。如前所述,《中国农村住户调查年鉴2008》中2007年农村居民纯收入的分组数据中最高组占了31%(户数),而收入最低的10组一共只占7.5%(户数)。因此,在不等分组的情况下,数据重叠更严重,分层加权法产生的误差会更大。
用间接洛伦茨曲线加总法计算的城乡综合基尼系数,在等分组情况下为0.4265,与真实基尼系数非常接近,只相差了0.001;在不等分组情况下,间接洛伦茨曲线加总法计算的城乡综合基尼系数为0.4256,表现出非常强的稳定性。由于间接洛伦茨曲线加总法既解决了数据的重叠问题,又规避了对两种最高收入的依赖,从而在等分组数据和不等分组数据情况下都能保持估计的有效性,所以它是一种稳健的城乡综合基尼系数估计法。
五、分析性结论
测算全国城乡综合基尼系数,最理想的方法固然是微观数据法,但在微观个体数据不可得的情况下,可以考虑使用本文提出的间接洛伦茨曲线加总法。间接洛伦茨曲线加总法具有以下优点:一是有效解决了城乡收入交叉重叠问题。二是规避了对(全国)最高收入的估计。间接洛伦茨曲线加总法通过引入间接洛伦茨曲线,将城乡综合基尼系数计算的积分限控制在[0,1]内,巧妙地规避了对最高收入的估算,从而避免了因最高收入估计偏差所带来的一系列问题。三是可以不依赖城镇各分组组内最高收入。间接洛伦茨曲线加总法从拟合城乡洛伦茨曲线出发估计全国基尼系数,整个过程可以不依赖城镇各分组组内最高收入。
此外,在中国,若要使用统计部门提供的数据更准确地计算城乡综合基尼系数,提高统计部门调查数据的真实性、增强数据的透明性以及统一城乡调查体系的抽样方法和统计口径,可以说也是重要的基础设施建设。
①据笔者查阅的文献,刘晓东和卢青(1991)曾利用卡克威尼内推法估算过1983-1988年中国城镇居民、农村居民和全国居民收入的基尼系数,但如何从城镇、农村各自的7分组数据得到洛伦茨曲线上的20个点,从而计算出全国的洛伦茨曲线和基尼系数,则语焉不详。卡克威尼内推法(Kakwani,1976)的基本思想是通过在每个收入组内使用一个分段、连续的可微函数,从而用曲线来代替直线,以降低分组数据计算基尼系数的被低估程度。这种方法也常被称为插值法。
③陈宗胜(2002)认为,虽然由于城乡收入数据的重叠使得城乡加权法产生低估问题,但“在社会科学领域里,在任何时候或场合都严格符合定义的资料条件几乎是不可能存在的,许多时候只需要一个基本的估计、判断。特别是在做趋势比较时,只要保持资料口径的前后一致,就不会影响结论的准确性”。不过,在笔者看来,就中国城乡综合基尼系数测算而言,即便只是做趋势分析,城乡收入数据的重叠问题也不能忽略,因为不同年份中城乡收入的重叠程度是不一样的,从而采用城乡加权法计算的城乡综合基尼系数所产生的低估问题也就不稳定,难以在趋势分析中系统性地剔除低估造成的影响。
④胡祖光(2004)曾提出过一个简易计算公式来近似地计算城乡合一的基尼系数。但是,该近似公式前置着两个相当强的假定:一是收入五分组中每组人口的收入份额是等差数列;二是收入最高组全部是城镇居民,收入最低组全部是农村居民。实际上,仅假定二本身就已表明胡祖光忽略了城乡收入的重叠问题。洪兴建(2010)对胡祖光(2004)的简易计算公式进行了误差分析,发现该公式忽略了一项正的群内差异和一项负的调整项,如此一来,正负误差正好部分抵消,使得简易计算公式的结果与真实的基尼系数的差异较小。但该公式还是存在误差较大的风险,洪兴建(2010)列举了一些利用简易计算公式产生会较大误差的例子,最大可达到0.15。见洪兴建:《居民收入分配失衡的测度方法研究》,经济科学出版社,2010。
⑤陈宗胜、周云波:《再论改革与发展中的收入分配》,经济科学出版社,2002。
⑥程永宏本来可以直接利用由城镇居民收入分布函数和农村居民收入分布函数加总得到的全国居民收入分布函数计算全国的基尼系数,但由于他的文章的主题是基尼系数的计算与分解,所以他利用分布函数加总推导出一个新的全国基尼系数城乡子群分解式,以此来计算全国基尼系数。
王海港和周国开(2006)根据Cowell(1995)、Aitchison和Brown(1969)提出:在实际中判断一项理论收入分布与经验收入分布的拟合程度可以依据估计基尼系数与真实基尼系数的接近程度。Sarabia(1999、2005)在比较模型拟合度时选用过的评判指标有MSE、SSE、MAE和MAXABS。Ogwang和Rao(2000)采用的指标有SSE、MAVE(即MAE)。
(21)农村等分组模型存在异方差和自相关。农村不等分组模型不存在异方差,但有自相关。对于城镇模型,由于样本点过少,不考虑异方差和自相关问题。异方差和自相关存在时,参数估计仍然无偏和一致,但有效性则受到影响。如果本文的研究目的在于预测和结构性分析,则需要进行异方差和自相关的处理。但本文的目的是拟合出洛伦茨曲线,并对其积分,从而计算出基尼系数。因此,笔者希望拟合的曲线能尽量靠近样本点。有时,异方差会使拟合曲线靠近个别误差项方差异常大的样本点,其他的样本点则可能出现整体的正偏和负偏。这种情况下,需要处理异方差。所幸的是,在本研究中未出现这样的情形。自相关的处理虽可使拟合曲线靠近真实回归线,但有时反而会较大地偏离样本点,从而与本文的初衷相悖。因此,笔者仍然接受存在异方差和自相关的农村等分组模型和存在自相关的农村不等分组模型。
(22)只有分组数据时,建议考虑加入分组点。