收入不平等的阶级计量_聚类论文

收入不平等的阶层测度,本文主要内容关键词为:不平等论文,阶层论文,收入论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

改革开放以来,中国在收获经济高速增长的同时,收入差距也不断扩大并愈演愈烈。作为一个发展中大国,警惕收入分化的巨大负面影响,已然成为政府、学者、民众共同关注的问题。因此合理有效地测度收入差距,尤其是测度收入不平等的阶层分化,可以为更好地调节收入差距提供有力的技术支撑。

一、研究背景

分析国内外文献,在收入差距的实际测度中,大体分为两类路径,一是收入总体不平等的测度,另一类是收入分布的极化测度。在收入总体不平等的实际测度过程中,最常用的有变异系数、基尼系数和广义熵指数(一般熵指数)三种指标。变异系数,又称离散系数,是统计学上用来度量总体分布的变异状况或离散程度的相对指标,它是一组数据的标准差与均值之比。基尼系数是研究社会和经济不平等领域中使用最为广泛的指标,它为收入不平等度量提供了较为易懂的两种解释:一是与基尼平均差一致,表征的收入不平等由个体两两之间的收入差距度量得到,符合人们度量收入不平等的直觉;二是与洛伦茨曲线紧密联系,借助于洛伦兹曲线,基尼系数能够通过图形得到直观的理解。广义熵指数是一般化的平均信息量族,而泰尔指数只是其特殊的形式(Guo,2011)。

我们由一个简单的模拟分布开始,用y[,i]来指定一种随机分配(例如收入),包括6个数据(i=1,…,6)。假设有如下的初始分布:

分布1:[1000,1000,1000,4000,4000,4000]

这些数值只是简单的收入分布。这列分布的基尼系数为0.3000,广义熵为0.205,泰尔熵为0.193,变异系数为0.657。同时,只要自然的不平等仍然保持不变,系数的值将不受样本大小的影响。即,重复很多次1000和4000会得到一个相同的基尼系数、广义熵、泰尔熵等,也就是0.30000、0.205、0.193。

分布2:[1000,2500,4000,5500,7000,8500]

基尼系数为0.30702,广义熵为0.180,泰尔熵为0.162,变异系数为0.591。在分布2中,每个观察值相比前一个都增加了1500,没有显示出清晰的阶层形成模式而仅仅是规模上的一个平均分布。这个分布可以被视为所有的值归为一个阶层或者归属于六个独立的阶层。

分布3:[1000,1000,3000,3000,5000,5000]

基尼系数为0.29630,广义熵为0.176,泰尔熵为0.162,变异系数为0.596。在分布3中,所有数值可以形成三个不同的阶层。

可见,虽然上述三个分布有着几乎相同的基尼系数,分布2和分布3有着相同的泰尔熵等,不过,这三个分布中不平等的形式却有着很大的不同。也就是说,传统的收入总体不平等测度方法研究的是样本中单个数据之间两两差距,所以真正影响的是总的个体平均差,而不是这些个体是否会合成一个阶层或是集群。因此这类方法并不能把数据集群的本质还原出来,而数据的集群对于研究社会分层是非常重要的一点。

两极分化也是收入不平等的一种表现形式。如果说上述收入总体不平等指标,其本质上测度的是一群人收入分布的离散程度,它强调的是所有个体与总体均值的平均偏离程度,那么极化测量指标就是描述个体在局部的聚集程度。上世纪七八十年代,以美国为代表的西方国家的居民收入分配出现了“中产阶级萎缩”现象,学者开始将这一现象与两极分化联系起来,并积极探寻两极分化的测度方法。现有的收入两极分化测度方法,基本可以分为两大类,一类方法由Wolfson(1994)提出,以后Wang和Tsui(2000)、Chakravarty和Majumde(2001)以及Rodriguez和Salas(2003)等进行了拓展,这一类型的测度指数统称为W型指数。该类指数是以中位数为界限将所有成员分为高收入和低收入两组,分别测算两组中各成员的收入对中位数收入的偏差,最后将所有偏差加总。W型指数虽然专门用来测度两极分化,但以中位数为界限分为两组并不总是最恰当的。以分布2为例,W型指数把前三个值归为一组,后三个值归为一组;在分布3中,由于中位数为3000,因此就将前四个值归为一组,后两个值归为一组。可见,这类极化测度方法从研究阶层分化的角度来说,也并不合理。

另一类方法由Esteban和Ray(1994)提出,称为ER型指数,是在定义认同感(identification)和疏远感(alienation)的基础上给出了一个测度方法。认同感是组内人数的增函数,对任何组来说,同组的人数越多,他们的认同感就越强烈;而疏远感表示由于不同组之间收入不同产生的对抗,一个组与其他组的收入差距越大,疏远感就越强烈。ER型指数后经Esteban、Gradin和Ray(1999)及Duclos、Esteban和Ray(2003)等改进。该类方法首先按照一定标准对所有成员进行分组,然后测定组与组之间的差异程度以及各个组内成员的相似程度,最后采用一定的形式构造测算指数(洪,2007)。所以,如果说W型指数是专门测度两极分化的,ER型指数还可以用来测度多极化,看似有点阶层分化的意味在里面。

但是ER型指数能准确测度两极/多级分化的前提是正确的分组,它要求我们对所研究现象进行认真细致地分析,选择最相关的分组标志以更好地体现组间的差异性和组内的同质性,或是通过某些外生变量进行分组,比如性别、户籍、民族、不同地区等。洪兴建等(2007)用ER指数、EGR指数等对中国1990~2005年城乡收入两极分化、城镇及农村内部的收入两极分化、沿海与内陆的收入两极分化以及行业收入两极分化作了测度,结果表明两极分化程度大多呈现上升趋势。罗楚亮(2010)根据DER指数提出中国居民收入分布具有比较严重的两极分化,城乡合并样本下的极化主要由于城镇内部基尼系数和城乡收入差距所解释。可见,目前的方法依旧只能给出总体判断,没能对收入阶层的具体形式作出描述。

综上所述,目前收入差距的测量方法,都对阶层不平等与阶层划分的描述缺乏敏感性。因此,本文提出了基于模型的潜在分层聚类方法去突破传统测量方法的局限。通过贝叶斯后验模型选择,依据组内差距最小,组间差距最大的原则,将收入进行聚类分组。并使用中国2005年1%人口抽样调查数据中北京、上海、重庆、广州四个特大城市的收入数据进行实证分析。根据模型聚类的结果考察四大城市收入的阶层分布模式、每个阶层的占比。再借用基尼系数分解为层内和层间的成分,形成一个相对分层指数,用该指数描述收入的阶层不平等占整个收入不平等总量的比重。最后提出基于分层聚类模型的收入不平等的阶层测度方法是对目前收入差距测量方法的一个很好的补充,并对研究社会分层有着更深远的意义。

二、基于模型的阶层聚类分析

聚类分析可以被看作将相似个体群聚起来的一种方式,但是组的数量和形式都是未知的(Kaufman and Rousseuw,1990)。这一观点传达了分析社会不平等的要点,即研究者想寻找了解分组或社会阶层划分的方式,通过类似收入的属性数据,将个体进行分组,使其组内个体尽可能相似,组间差异尽可能大。而不是事先人为地确定组的数量和组的划分形式。

基于模型的聚类分析方就具有以下优势(Vermunt and Magidson,2002):①聚类标准的选择使群内差别最小化,并且使群间的差别最大化,这点相比传统的聚类分析更加客观;②以模型为基础的聚类是灵活可变的,它允许观测变量以多种简单和复杂的形式分布到聚类中,而不是传统的简单机械分类;③在基于模型的聚类分析中,观测变量没有必要做缩放,而在传统的聚类分析中缩放是必不可少的。

基于模型的聚类分析同样允许观测变量是连续的或者是分类变量,因为群可以被看作潜在的阶层,因此这个方法可以被视为潜在阶层的分析。本文的着眼点是收入,所以在模型中只考虑连续观测变量,基本的模型聚类分析的公式为:

三、我国部分特大城市的收入阶层不平等分析

在传统聚类分析中,数据分析者必须选择集群方法并且确定群的数量。在基于模型的聚类分析中,这两个问题被归为对于模型的选择。在Fraley和Raftery(2002)的研究中,采用了贝叶斯后验模型选择。在R软件平台MCLUST软件包的实际操作过程中,通过贝叶斯信息准则(BIC)来计算(Fraley and Raftery,1999,2002)。

估计群的数量以及群中个体的数量是基于模型的聚类分析方法最为主要的目的。同时,还能得到密度估计。Roeder和Wasserman(1997)用正态混合模型进行单变量密度估计,用贝叶斯信息准则(BIC)确定分层数。Fraley和Raftery(1999,2002)的方法可以被看作是多元扩展,通过最优模型的参数估计描述了数据的多元混合密度。

Fraley和Raftery(1999)用EM算法编写了运用模型聚类方法的MCLUST软件包。这个软件同时计算了不确定性。不确定性是通过一个数值来表征,这个数值的计算是由1减去每个观测值最有可能属于某个组或集群的概率。不确定性的计算可以很好地说明观测值分组的好坏程度。

本文运用Fraley和Raftery的模型聚类方法,利用2005年全国1%人口抽样调查数据,对北京、上海、重庆、广州四大城市常住人口收入的阶层不平等进行测量。

首先,利用基尼系数来分析收入总体不平等。四个城市的基尼系数按不平等从高到低排列依次为:重庆(0.456)、广州(0.424)、北京(0.423)、上海(0.391)。仅从基尼系数来看,各大城市之间的基尼系数非常接近,差异并不大。然而,这样的分析完全忽略了分层这一问题。

用MCLUST软件包进行进一步阶层测量,以北京为例,该模型假设变方差比等方差更加适合大部分可能的群,并且计算出分为三个潜在集群的模型最适合(图1),不确定性图清晰地表明三个不确定的区域。北京三个收入阶层的人数比例分别为55.87%、36.76%和7.37%。对于上海来说,三个集群的变方差模型最为适合(图2)。三个阶层的占比分别为48.64%、45.07%和6.29%。对于重庆来说,三个集群的变方差模型同样最为适合(见图3),通过观察不确定图和密度图,可以看出有三个阶层,其容量占比分别为66.79%、28.61%和4.60%。对比发现,北京、上海、重庆虽然都划分为三个收入阶层,但在各个阶层的容量比例上仍存在一定的差异,重庆低收入者的占比更高。对于广州来说,四个集群的变方差模型最为适合(见图4),四个阶层的占比分别为27.41%、39.41%、27.38%和5.81%。因此,基于模型的聚类分析为不同城市分层模式上的差异提供了更多的细节。这些细节正是被传统的基尼系数或是其他总体测度或是极化测度方法所忽略的,因为传统方法更着重于“个体不平等”。

四、阶层不平等解释了多少总体不平等?

不平等可以描述为两类,“个体不平等”和“阶层不平等”。前者通过个体间的两两差异来衡量,后者则被设想成样本中存在着阶层或者个体的集群,并且个体之间的绝对差值只能部分地反映阶层之间的差异。那么,阶层不平等到底对总体不平等有多少的解释力度呢?这里我们遵循Dagum(1997)和Mussard,Alperin,Seyte和Terraza(2005)分解方法:当阶层有序时,通过基尼系数将数据组进一步分解为层间基尼系数和层内基尼系数,测算分层度,并以此作为衡量收入阶层不平等测量方法是否有效的办法。整个基尼系数计算方法如式(4)所示,层内不平等和层间不平等的计算方法如式(5)、式(6)所示:

基于本数列是有序阶层,没有必要考虑转移变量或者重叠分解。一旦不平等的总量被分配到个人(层内)和组(层间)的成分中,一个相对分层指数可以被简单地计算为:

当所有的不平等都是个体不平等,没有分层,该值为0;当所有不平等都为阶层不平等,而各层内数值无差异,则该值为1。这个度量法是相对的,它把阶层不平等表示为占基尼系数不平等总量的比例。

表2中呈现了四列数据,分别是基尼系数,层内基尼系数和层间基尼系数,以及相对分层的指数。我们发现,这四个城市的相对分层指数都在0.8以上,也就是说基尼系数大部分被层间的成分所解释,即阶层不平等在整个不平等总量中占到了很大的比例。再以城市间的比较来看,北京和广州通过基尼系数测量有近乎相同的不平等总量,但是广州有更高的层间不平等量,层间基尼系数为0.389,北京则为0.361,因此从阶层分化的角度来看,广州的收入分化高于北京,而不是总体基尼系数中所表现出的几乎相同。重庆也是如此,重庆的基尼系数位居四城市之首,但重庆的层间基尼系数为0.381,低于广州的0.389,因此从阶层的角度来说,广州的收入分化仍旧更为严重些。

所以,基于分层聚类模型的收入阶层测量方法,有助于我们了解收入的阶层集群分布模式,且这种集群模式并不是事先选择集群分类的原则或是确定群的数量,它不受人为的主观判断而干扰了数据集群的准确度,能把最准确的分层信息刻画出来。从这点来说,它更优于传统总体不平等测量方法和极化测量的方法。

五、总结

第一,我国在计划经济向市场经济转型的过程中,收入分配模式受到了巨大的影响。居民的收入分布已不再是计划经济时代所呈现的个人差异为主要特征,而是出现了阶层分化的特征。以往的收入差距的测度方法,包括收入总体不平等测度中的变异系数、基尼系数和广义熵指数(一般熵指数)、泰尔指数等都仅对测量个体间的不平等比较敏感,对阶层不平等的描述有所欠缺。而以往收入分布极化测度的W型指数、ER型指数等则在分组方法上有所欠缺。因此本文提出基于分层聚类模型的收入阶层测量方法,是对已有收入差距测量方法的很好的补充,且分层研究更适应当前社会不平等研究领域中的主流发展趋势。

第二,从2005年小普查对四大城市收入阶层的研究表明,基于分层聚类模型的收入阶层测量方法是有意义的,目前中国主要城市的收入不平等主要是被阶层不平等所解释。因此阶层研究比收入差距的总量研究更能说明社会不平等的真实现状。若在收入测量中,只考虑了总的不平等量,对真实了解社会分层是存在一定的误导性的。

第三,基于聚类模型的阶层测量方法能为后续的不平等研究提供了一个不损失信息的、不带人为主观判断的分层基础。从目前收入差距分析的相关文献来看,一般都是在组群划分的基础上进行不平等的测量分析,例如根据个体特征划分的组群(诸如性别、种族、民族、教育或技能水平、户籍等)、根据空间划分的组群(诸如地区、城乡等)以及与收入情况有关的其他特征划分的组群(诸如行业、部门、所有制等)。尽管这类文献得出类似城乡收入两极分化、城镇及农村内部的收入两极分化、沿海与内陆分化等重要结论,但从逻辑分析的角度上看,他们已经对收入进行了先期分组的划分,这种划分必定会损失数据的真实性。而基于模型的阶层测量方法,可以计算出每个收入分布所处的阶层,在此基础上,有利于进一步考察影响各阶层形成的主要的个人或是社会因素。

最后,从不平等的测量方法上来说,基尼系数由于其通俗易懂、直观等优势,依旧在社会不平等的研究中占据着很重要的位置。当基尼系数结合了基于模型的聚类分析进行分解、延伸与扩展时,不仅能够测量基于个人的不平等也可以测量基于阶层的不平等。基尼系数也因此有了更大的潜在能量,并且在研究社会分层方面有了更大的说服力。

标签:;  ;  ;  ;  

收入不平等的阶级计量_聚类论文
下载Doc文档

猜你喜欢