中国的收入差距有多大？修正样品结构偏差的尝试_收入差距论文

中国收入差距究竟有多大？——对修正样本结构偏差的尝试，本文主要内容关键词为：有多大论文,偏差论文,样本论文,中国论文,收入差距论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

人们普遍认为，中国居民收入差距在经济转型与经济发展过程中总体上表现出了不断扩大的倾向。然而，中国收入差距究竟有多大？这个问题并没有在国内外学术界取得一致的意见。人们对收入概念、收入调查方式以及收入差距指数等有不同认知和理解，对中国收入差距的状况有不同的感知、判断乃至猜测，这也引发了不少争论。虽然一些经验研究成果对近期的中国收入差距作了一些估计，①但是这些估计结果不断受到来自各方的种种质疑。有的学者认为中国收入差距被低估了，认为中国的实际收入差距要大于估计出来的差距；有的学者则认为存在高估的问题，认为中国的实际收入差距没有那么大，有夸大化的成分。相应地也有一些研究文献试图纠正收入差距估计中的高估或低估倾向，如江小涓和李辉(2005)、北京大学中国经济研究中心宏观组(2006)通过对地区之间货币购买力的调整认为地区之间的实际差距要小于名义差距。不过，大多数的研究者通常只强调了某一种方向或某个来源的偏差，几乎没有研究者同时剔除各种可能的偏差后给出更为准确的估计结果。本文从收入定义、抽样偏差以及不同地区货币购买力差异调整等方面对收入差距估计中可能存在的偏误出发，讨论综合考虑相关因素后中国居民收入差距的状况，试图给出更为准确的收入差距(基尼系数)估计结果。

一、偏差的来源

中国收入差距究竟有多大，这是一个实证性的经验研究的问题，也就是说回答这个问题只是需要对中国居民的收入差距加以准确地测量。然而，如何才能达到“准确地测量”并不是一个简单的问题。从中国的住户调查和收入统计实践来看，收入差距的准确估计主要受到两个方面的影响，②一是收入的定义，二是获得住户调查数据的抽样过程。

就居民收入的定义而言，中国也许是收入构成最复杂的国家之一。③作为一个发展中国家和转型国家，中国居民的收入构成带有发展的特点和转型的特点。从发展的角度来看，中国城乡居民之间的收入构成存在着巨大的差异。比如，城镇居民的收入主要是货币收入，而农村居民收入中的很大一部分仍是自产自用的实物性收入。就转型的特点而言，居民收入来源多元化，收入形成机制缺乏充分的透明度；计划经济时期遗留下来的各种补贴，有明补也有暗补，在城镇居民收入中仍占有相当高的比重。即使是国家公务员，实际收入也有多种来源，有国家规定的工资和补贴部分，有地区补贴部分，有单位发放的或明或暗的收入，有实物性收入和表现为暗补的公共福利项目，如公有住房、住房公积金、公费医疗、养老保障、失业保险等，而这些补贴或福利项目却是其他许多居民所不能获得的，其市场价值通常也难以有效地估算，甚至在收入统计中被严重忽略。中国居民收入构成的这些特点使得人们在全面理解收入的定义上存在一定的困难，因而也就产生一些分歧。例如有些人只是认为现金收入才是收入，往往忽视实物性收入和补贴。这种对收入定义认识上的片面性也同样存在于学术界，当前一个普遍的现象是，在没有明确界定收入定义的情况下，不加甄别地对城乡之间收入差距进行比较，对全国收入差距加以估计，这难免不出现各种各样的估计偏差。

从现有研究文献上看，在估计收入差距时所使用的收入定义大致有这样三种：一是国家统计局住户调查中的城镇可支配收入或农村纯收入，也可称为官方收入定义。二是卡恩(Khan)的收入定义，④简单来说，该收入定义是在国家统计局收入定义基础上增加了三项收入，其一是公有住房的实物性租金补贴，其二是私有住房的归算租金(imputed rent)，其三是各种实物收入(如单位发放的食品、日用品等实物和有价证券)的市场价值。中国收入分配课题组(CHIP)从上世纪80年代末开始估计中国收入差距，大部分论文都使用了卡恩的收入定义，相关研究成果可见赵人伟等(1994)、赵人伟等(1999)、李实等(2008)。三是福祉含义的收入定义，它是在卡恩的住户收入定义上增加了给城乡居民带来实际福祉的社会保障和社会福利的市场价值。⑤如果考虑到居民收入所具有的实际福祉，那么收入不仅要包含所有能够反映个人福祉差异的收入项目以保证其内涵在不同人群中的一致性，而且要求通常的货币收入应当具有相同的实物支配能力，这通常表现为城乡之间和地区之间要具有可比性，也就是说不同人群所获得的单位收入(如一元钱)应该具有相同的购买力。

对收入差距的估计通常都是建立在抽样调查的样本数据基础上的，因此抽样过程中所存有的偏差也会导致收入差距估计结果的偏误。但现有的收入分配研究对抽样偏差的关注程度远远低于对收入定义的关注。利用抽样调查的住户收入数据来估计社会总体收入差距，首先应当保证所抽取的样本对总体具有充分的代表性，包括对不同人群间的代表性，如城乡之间、地区之间，以及不同收入组间的代表性，即应当覆盖具有不同收入水平的人群。一般说来，城乡和地区代表性可以通过合理的抽样方法或重新加权的办法保证，而不同收入人群的代表性难以通过类似方式保证。许多研究都发现，高收入人群通常会存在更为严重的收入低报、样本遗漏等问题(Mistiaen & Ravallion，2003；Banerjee & Piketty，2003)。即使国家统计局的大样本住户调查，也不可避免地会在抽样过程中丢失一部分高收入人群(王有捐，2010)。在城乡和地区的样本户比例与实际住户比例不一致时，通过对样本加权的办法以达到二者之间的一致性，是在估计全国收入差距之前所必须进行的工作，而现有的许多研究都忽视了这项工作。

中国正处在经济转型时期，人口和劳动力流动性急剧增强。这对于传统的城乡“二分法”的住户分类观念和制度提出了挑战。由于户籍制度的限制，绝大多数农村流动人口居住在城市，工作在城市，却没有取得城镇户籍，他们应该划分为城镇人口还是农村人口，在学术研究上和官方统计实践上并没有取得一致的意见。在住户调查实践中，国家统计局现行住户调查系统中的城镇住户样本所包含的外来农村户籍人口的样本比重非常低，而农村住户样本中仍包含了很高比重的进城打工的劳动力。⑥而举家外迁到城镇居住的农村户籍人口，往往被官方住户调查系统所遗漏。随着这部分人群不断增加，这种遗漏对于估计城乡之间收入差距乃至全国收入差距都会产生越来越大的影响。⑦

概括来讲，我国收入差距估计中所碰到的问题可以用表1说明。依照我们对现有研究文献的了解，多数研究还是利用住户调查数据(或官方或民间)，不加任何处理，依据国家统计局的收入定义来估计我国收入差距。从以上讨论中可以看到，这种简单化的处理方式将会导致收入差距估计结果的偏差，其中某些忽略会导致高估收入差距(如不进行区域货币购买力调整)，某些忽略会导致低估收入差距(如未能修正高收入群体抽样不足的问题)，也有一些因素的影响是不确定的。

二、解决思路

针对上述问题，我们提出以下解决问题的思路和相关方法，以获得更为准确的收入差距估计结果。

第一，分别采用两种收入定义。一是国家统计局的常规收入定义，它由四部分组成，即工薪收入、经营性收入、财产性收入和转移性收入。二是中国居民收入分配课题组长期使用的卡恩(Khan)收入定义。对于表1中的第三种收入定义，由于估计各种社会福利和社会保障的市场价值存在相当的困难，本文没有做相关估计，只能作为下一步研究的内容。

第二，利用地区生活费用指数对城乡居民的名义收入加以折算，以计算出以购买力平价为基础的城乡之间和地区之间的实际收入差距。使用的地区生活费用指数来自Brandt & Holz(2006)的估算。他们估算了1984-2002年的城乡及各省份的生活费用指数，在此基础上我们根据2002年以来各省份城乡居民的消费价格指数计算出2007年的相关生活费用指数。根据我们的估算，2007年城乡实际货币购买力平价为1.3︰1⑧(即购买力上城镇的1.3元等同于农村的1元)。

第三，令全国样本中包含城镇中的农村流动人口。他们被分为两类，一是长期、稳定的城镇外来人口，包括举家外迁的农村流动人口，和单身流动但未婚且在城市居住超过一年的农村流动人口；二是暂时性城镇外来人口，主要指单身流动，其家庭成员仍在农村的流动劳动力。根据国家统计局住户调查的抽样方案，居住在农村的农村户籍人口样本实际上包含了一部分外出打工劳动力及单身外出劳动力。本文将长期、稳定的城镇外来人口作为一种单独的住户类型，代表城镇中的农村流动人口。

第四，对调查样本按照省份进行加权处理。权重构成包括三个层次，第一层次是按照城乡实际人口比例对样本进行加权，其中城镇里长期、稳定的(农村户籍)迁移户划分为城镇人口并且计算出他们在城镇人口中的比重。第二层次是在城乡人口分类基础上按照直辖市、东部、中部、西部地区⑨实际人口比例对样本进行区域加权。第三层次是在城乡人口分类和区域分类基础上按照样本省的实际人口比例对样本加权。样本权重依照2005年1％全国人口抽样调查的人口分布构造，我们按照相同的方式定义了抽样数据和2005年1％全国人口抽样调查中城镇、农村和流动人口⑩三个部分，以全国人口抽样调查中的人口权重对住户抽样调查数据进行重新加权处理，这里假定2005年至2007年期间三类人口的比例没有发生变化。(11)

第五，对于高收入人群样本代表性不足问题，我们采取了相应的修正办法。在样本具有充分代表性的情况下，样本分布如图1所示，不同收入人群样本既包括了A样本，也包括了B样本和C样本。后两类样本对应高收入人群，实际调查通常不能有效覆盖。当然，两者不能有效覆盖的原因是不同的。C样本对应人口由于在全部人口中所占比重非常低，因此在抽样中对应小概率事件；B样本对应人口尽管在全部人口中占有一定的比重，在理论上具有较高的抽样概率，然而在住户调查实践中，可能会由于这部分样本更加不愿意接受调查或在调查过程中具有更强的低报收入的倾向，从而实际的样本对这部分人群缺乏代表性。在国家统计局的住户调查中，也存在高收入人群样本比重偏低的问题(王有捐，2010)。一些学者认为这种偏差会导致居民收入水平和收入差距的低估(王小鲁，2010)。由于我们的调查样本来自国家统计局的大样本，这种抽样偏差问题也是存在的。不言而喻，B样本和C样本存在比重偏低的问题，会同时造成居民收入水平、居民收入差距的低估；如果这种偏差主要出现在城镇样本中，它还会造成城乡之间收入差距的低估，乃至全国收入差距的低估。因此，这是一个不可忽视的问题，而且实际抽样分布中对高收入人群缺乏有效的覆盖在许多国家的住户调查中都显得越来越严重。

从图1可以看出，B样本与C样本的差异是，后者代表极高收入人群，也是受到社会普遍关注的人群，其中许多人的收入和财富方面的信息被聚集在媒体和公众的视线内；而前者虽然也存在样本比重偏低的问题，但是他们的收入和财富方面的信息是很难获得的。在这种情况下，我们采取了以下几个步骤来处理高收入人群样本偏差的问题。首先，我们收集了2007年各种福布斯和胡润富人榜上中国最富人群的财富信息。其次，根据他们的财富估算其收入水平，估算的方式是假定财富获得5％的平均收益率。当然这个假定会忽略他们之间收益率差异所带来的收入差异，但是它对居民平均收入的估计值的影响不会太大，对收入差距估计值的影响也不应该太大。再次，我们将上市公司高管薪酬的数据与富人榜富人的收入数据合并。最后，我们假定这些高收入人群，即图1中B样本和C样本所代表的人群的收入服从于帕累托分布(Pareto distribution)。利用该分布的性质，可以估计出在各收入水平上的人口的比重。

三、数据与方法

图1 高收入人群样本遗漏示意

本文所使用的数据包括两个主要来源：一是根据通常的住户调查数据得到图1所示的A部分人群；二是利用福布斯和胡润财富排行榜以及高管薪酬数据(12)来描述图1所示的B部分和C部分人群的收入分布特征。

1.住户调查数据

本文采用的住户调查数据来自“中国居民收入分配课题组”(CHIP)和“中国城乡劳动力流动课题组”(RUMIC)于2007年的抽样调查。调查样本大体上可分为三种类型：传统意义上的城镇(户籍)居民户、农村居民户以及进入城镇的农村(户籍)流动户，其中进入城镇的农村(户籍)流动户只包含城镇里长期、稳定的农村外来人口。前两类样本来自国家统计局的常规住户调查的大样本，收入和支出指标也来自常规住户调查的记账数据。城镇中的农村流动人口样本由课题组委托一调查公司获得，而抽样方法和调查问卷由课题组设计。(13)城镇流动人口调查中，没有住户记账数据，因此收入信息是根据被调查人对分项收入的回忆得到的。各类住户所覆盖的省份见表2。

由于此次调查的目的之一是了解中国居民的收入增长和收入分配问题，因而数据中包含了非常详细的住户和个人收入方面的信息。在个人收入方面，数据包括个人的各种就业收入，既有货币收入，也有实物收入。在住户收入方面，除了住户成员的个人收入外，还包括了家庭的经营性收入、财产性收入、转移性收入。更为重要的是，为了使得住户收入具有国际可比性，我们利用数据中有关住房方面的信息，村调查户的公有住房的补贴和自有住房的归算租金进行了估计，然后将其加到住户的可支配收入上。因此估算的住户水平均值和人均收入均高于国家统计局公布的数字。

表2给出了三类住户样本的基本特征，(14)包括住户和个人数量、家庭规模、人均收入等信息。不难理解，农村居民户中家庭平均人口规模最高，而城镇流动户中家庭规模最小；从人口结构来看，城镇流动户中16-59岁劳动年龄人口所占比重更高，大约为87％，而城镇与农村住户中则只有73％左右。即便是长期稳定的农村外出人口中，也仍以劳动年龄人口为主。这种人口构成也将影响到三类住户之间的收入构成特征。从人均可支配收入来看，城镇住户和城镇流动人口中人均收入水平要高于农村住户，但城镇住户的人均可支配收入略低于城镇流动人口。这是因为城镇流动户中劳动年龄人口所占比重高于城镇住户，并且流动户样本更为集中在经济相对发达的大城市中。(15)而城镇住户人均(Kahn)收入则要高于城镇流动人口。图2给出了利用住户调查数据得到的对数收入分布，样本范围包括城镇和农村居民户以及从农村进入城镇的流动人口，所采用的收入概念是常用的城镇人均可支配收入和农村人均纯收入，没有对样本结构进行加权调整。从图2中也可以看到，住户调查的收入分布数据截断于并不太高的收入水平。

图2 住户调查(对数)收入分布核密度估计

2.高收入人群收入数据

本文所使用的高收入人群的数据来自于财富榜和高管薪酬两部分。2007年福布斯榜和胡润榜分别涵盖了799名和400名富豪的财富信息。在两个榜单中，部分人名是重复的，但推算的财产数量有差异，这种情形下我们取两个榜单中的财富的均值。由于这两个财富榜给出的是财富排名，没有关于收入的排名，因此本文以财富数量乘以0.05来替代相应的收入值。(17)从两个富豪榜中一共得到868人的信息，收入均值为19643万元。从《中国上市公司高管薪酬指数数据库(2007-2008)》中，一共获得年薪酬在12万元以上的2021人的信息，收入均值为429174元。由于薪酬指数中只包含了上市公司的薪酬最高的前三位高管，为此我们将每个高管薪酬数据按照全国第二次经济普查法人单位数的1/3(18)进行加权。两种来源的高收入人群所对应的收入的核密度估计见图3。将这两种来源的高收入数据与住户调查数据合并，并进行相应权重调整则可得到全部人口的收入分布的核密度估计图，如图4所示。显然，为数不多的富豪使得收入分布具有非常明显的拖尾现象，左偏更为明显。比较图2和图4也可以看到，增加高收入人群样本后，收入分布的不均等程度增强。

一些研究认为，高收入人群的收入分布特征可以利用帕累托分布来拟合。(19)帕累托分布的基本形式为：

lnN=lnK-αlnx

其中N为收入在x及以上的人口值，K和α为两个参数，对应的基尼系数为1/(2α-1)。利用所得到的高收入人群收入数据，表3给出了帕累托分布的相关参数的估计值。其中最为关键的参数是α，它描述了这一人群收入分布的不均等程度。从调整中可以看出，拟合程度非常高。

为了检验针对高收入人群拟合的收入分布与住户数据的关系，表3还给出了高收入人群和城镇住户调查中人均收入6万元以上的个人样本(20)合并后所得到的帕累托分布拟合结果。从表3的结果中可以看出，加入城镇住户样本中的较高收入人群，对估计参数的影响非常小。两个样本所推断的估计参数-α无显著差异。从表3中两列估计参数的变化中，我们可以推定，利用高收入样本所拟合得到的收入分布与住户调查数据的收入分布应该较好地实现了“对接”。

四、收入不均等程度的估计结果及其解释

根据帕累托分布的估计参数，表4进一步推算了年收入在12万元以上的人数以及这一人群的平均收入水平与基尼系数。对于高收入人群的平均收入，通常可以根据帕累托分布的分布函数的估计结果来推断，其均值为α/(α-1)。在本文中，我们假定所估计的帕累托分布对于住户调查样本最高收入以上的人群都是适用的，这里的直接以12万元代替。

从表4可以看出，2007年这些高收入人群的人均收入接近51万元。收入水平超过12万元以上的人数大约为280万。与此可以比较的是，国家税务总局公布的2007年全国个人收入12万元以上纳税申报的人数为212万。(21)考虑到纳税申报遗漏问题，以及一部分灰色收入和非法收入获得者回避申报问题，我们估计出的高收入人数具有一定的可靠性。然而，在高收入人群中，收入分配差距也相当明显，我们估计的基尼系数大约为0.62，远大于年收入12万元以下的人群。

我们可以将根据帕累托分布推算的结果作为理论值。作为比较，表4还列出了根据富豪榜和高管薪酬及相应权重直接计算得到的相应指标。直接计算所得到的平均收入略低于根据帕累托分布推算的值，而基尼系数的低估幅度较高，比推算的理论值要低8个百分点。根据加权方式得到的高收入人数也略低于理论推算值。

在上述估算的基础上，我们可以将全部样本划分为两类：一类是来自我们住户调查的样本，它们只对住户调查样本中最高收入(或年收入12万元)以下的人群有代表性；另一类是住户抽样调查中没有包括的样本，其分布特征由估计的相关参数确定。我们可以认为这两个样本的收入分布是不重叠的，即假定现有的抽样调查数据中缺乏对高收入人群的反映。在这种情形下，对总体基尼系数的推算可以采用如下公式：

图4 合并后的收入分布的核密度估计

根据我们的估计，如果仅仅使用住户调查数据，不加任何数据处理和修正，估计出来的城镇收入差距存在较大幅度的低估问题。而这种低估主要来自抽样调查中对高收入人群的抽样偏差及对其收入水平的低估。如表5所示，在对高收入人群样本偏差修正之前，不管是按照国家统计局的收入定义，还是卡恩的收入定义，城镇内部个人收入差距的基尼系数大约为0.34；在对样本偏差修正以后，即将高收入人群的样本加入后，基尼系数上升到0.42，上升了9个百分点。这意味着高收入人群样本偏差导致了城镇内部收入差距的严重低估。需要注意的是，对样本进行加权处理以及对不同地区收入根据购买力指数加以调整对城镇内部收入差距的估计结果影响不大。

对于全国收入差距的估计，我们假定了农村住户抽样调查样本不存在高收入人群抽样偏差问题，同时我们将城镇里长期、稳定的农村流动人口划入城镇人口并做了相应的加权处理。如表5所示，在对城镇高收入人群样本偏差修正之前，按照卡恩的收入定义，(22)在不包含流动人口的情况下，2007年全国的基尼系数为0.49；包括流动人口后的基尼系数略有下降，其原因在于大部分流动人口的收入处于城镇收入分布的中间偏下位置，这带来城乡之间收入差距的略微缩小。在对样本偏差修正以后，全国的基尼系数(包含流动人口)上升到0.53，上升了4个百分点。可以说，高收入人群样本偏差也带来了全国收入差距的较为严重的低估。(23)然而，与城镇的估计结果不同的是，根据城乡和地区购买力平价指数对个人收入进行调整后，对全国收入差距的估计结果影响较为明显。由此估计出的全国的基尼系数为0.485，下降了约4.5个百分点。这个数值是根据现有信息对收入差距估计中可能存在的偏差进行较为全面的修正后所得到的结果，基本上反映了当前中国个人收入差距的基本状况。

对城镇高收入人群样本偏差加以修正，还会对城镇内部和全国收入差距的其他指标的估计结果产生影响，也会对城乡之间收入差距的估计结果产生影响。对于城镇收入差距来说，它主要影响高收入组平均收入以及最高收入组/最低收入组的收入比率。正如表6所显示的，样本偏差修正后，2007年城镇收入最高的10％人群的平均收入由40209元上升到64281元，增加了60％，它在城镇居民总收入中所占的比重从26％上升到35.9％，上升近10个百分点。相应地，最高收入组/最低收入组的收入比率由9.1倍上升到14.5倍。对于全国收入差距来说，2007年收入最高的10％人群的平均收入由30731元上升到41091元，增加了34％，在全国居民总收入中所占的比重从33.7％，上升到40.3％，近7个百分点。与此同时，最高收入组/最低收入组的收入比率由24.5倍上升到32.8倍。经过进一步估算，2007年城乡之间居民收入差距由样本调整前的3.3倍提高到样本调整后的3.87倍。

五、结论

中国收入差距估计中的偏差问题引起了国内外学术界的普遍关注。造成偏差的原因是多种多样的，既有调查数据中高收入人群样本代表性不足和收入低报的问题，也有估计方法不规范的问题。为了对当前中国收入分配的不平等程度给予更加理性的判断，本文利用最新的住户调查数据，在对各种影响到估计偏差的因素加以综合考虑的基础上，特别是修正了城镇住户调查数据中所存在的高收入人群代表性不足的问题后，对真实的收入差距进行了估计。我们的估计结果显示，高收入人群样本偏差导致了城镇内部收入差距的严重低估，也导致了城乡之间收入差距和全国收入差距的较大程度的低估。而不考虑城乡之间和地区之间生活费用的差异，虽然对城镇内部和农村内部收入差距的估计结果影响不大，但是会对城乡之间收入差距和全国收入差距带来一定程度的高估。估计中加入农村外来人口样本，对城镇内部收入差距、城乡之间收入差距和全国收入差距的估计结果影响不大，这是因为被计入到城镇样本中的大多数长期的、稳定的农村流动人口的收入水平处于城镇收入分布的中间位置。

最后需要说明的是，我们现在对中国收入差距的估计还有进一步改进的余地。如我们的分析框架所表明的，在估计城乡之间收入差距以至于全国收入差距时，不应忽视不同人群享有不同的社会福利和社会保障项目的事实，因为它们会给不同人群，特别是城乡居民带来不同的“暗收入”。由于受到数据的限制，本文没有对这部分“暗收入”做相应的估算。由于它们在很大程度上具有扩大城乡之间收入差距和全国收入差距的效应，(25)所以我们现在估计出来的全国的基尼系数存在一定程度的低估。从这种意义上说，本文也只讨论中国居民收入估算中所实际存在的诸多问题中的某个或某些方面。值得说明的是，如何解决本文所提到的这些问题，仍然需要在理论和实践上的深入探索，本文所采用的这些方案也只是一家之言，希望能抛砖引玉，引发更为完善的解决方案。

尽管估计结果仍可能存在某些改进的可能，我们的估计结果仍然表明，中国收入差距已经达到了一个令人担忧的水平，而且它仍处在继续上升的阶段。这一趋势性特征应当也是与大多数人的经验直觉一致的。因此采取更大力度、更加有效的收入分配和再分配政策措施是刻不容缓的。

本文的结果曾在“中国金融40人论坛·青年论坛”中报告过，感谢与会人员所提出的宝贵意见。本文写作过程中得到了高明华教授所提供的高管薪酬数据支持，在此谨致谢意。作者感谢匿名审稿人的意见。

注释：

①国家统计局利用城镇和农村住户调查数据发布了历年分城乡的城镇和农村数据。一些研究者也估计过居民收入差距的长期变动趋势，如Ravallion & Chen(2004)、Meng et al.(2010)等，通常都发现收入差距具有不断上升的趋势。中国居民收入分配课题组也根据住户调查数据计算了1988年、1995年和2002年的收入差距指标，可见赵人伟等(1994)、赵人伟等(1999)、李实等(2008)。

②在某些情形中还受到计算方法的影响，不过基于微观住户层面的收入数据，现有的统计软件都能较为方便地给出各种收入差距指标，从而降低了人们对于计算过程的误解所导致的收入差距指标估计偏误。

③李实(2003)对中国收入统计实践中的收入定义进行了详细的讨论。

④关于该收入定义的详细说明，见Khan et al.(1992)。

⑤因为不同人群获取相关社会保障和社会福利项目的机会是不均等的，关于利用该收入定义估计我国城乡之间收入差距的有关尝试见李实和罗楚亮(2007)。

⑥按照国家统计局农村住户调查方案，外出务工劳动力属于单身外出，或其收入为农村家庭的主要经济来源，仍被看作该住户的家庭成员，其外出务工收入视为家庭收入。

⑦如蔡昉和王美艳(2009)认为，现行住户调查制度没有覆盖“常住流动人口”，从而不能揭示劳动力流动缩小了城乡之间居民收入差距。

⑧这里取的是城乡各省份生活费用指数的平均值。

⑨但重庆被计入西部地区而非直辖市。

⑩流动人口是根据其调查时所在地而非来源地确定其权重结构。

(11)有关加权方法和权数计算的细致说明请参见Song et al.(2010)。

(12)高管薪酬数据来自于高明华：《中国上市公司高管薪酬指数数据库(2007-2008)》，在此表示感谢。

(13)城镇流动人口调查问卷及抽样方法请参阅http://rumici.anu.edu.au/joomla/index.php?option=com_content&task=view&id=49&Itemid=52。

(14)未对样本进行加权处理。相关收入指标也没有进行货币购买力平价调整。

(15)城镇流动人口只涉及15个城市：广州、东莞、深圳、郑州、洛阳、合肥、蚌埠、重庆、上海、南京、无锡、杭州、宁波、武汉、成都。

(16)只包括举家外迁的农村流动人口和单身流动但未婚，并且在城市居住超过一年的农村流动人口。

(17)虽然这一参数的假设确实带有一定的主观性，但考虑到各种富人榜上的人群都是民营企业主为主，假定5％财产回报率与他们的经营资产利润率相差不大，因为根据2007年全国工商联公布的《2005年度全国工商联上规模民营企业调研报告》，规模以上民营企业2005年的平均利润率为5％(见2007年2月2日的《经济参考报》)。土地的财产价值包括在其财产总价值中，因此土地的回报也被估算到其收入中。人力资本的回报和其他收入没有考虑，主要是因为这方面的信息非常有限，而这部分收入相对于其资本回报来说是微不足道的。

(18)假定上市公司代表全部法人企业的1/3，每个上市公司的权重为495.9*10000/3/1502=1100.533，其中第二次经济普查法人单位数量为495.9万家，上市公司数量为1502家。这样，我们假定高管薪酬数据库中，每个观测代表1100.533个个人。应当说明的是，这里的权重选择带有一定的随意性。但我们也试验了其它权重所能得到的结果，并将推算的结果与“中国个税年所得12万元以上自行纳税申报人数超212万”一文(见http://news.xinhuanet.com/newscenter/2008-04/18/content_8003753.htm)进行比较，最终选择了1/3的权重。

(19)已有大量文献对帕累托分布进行检验，Creedy(1985)、马丁·布朗分布伦纳(2009)提供了一些研究文献及部分国家的估计参数；王海港和周开国(2006)介绍了帕累托分布的基本特征，并根据中国居民收入分配课题组1988年和1995年数据检验了收入分布高端人群的分布特征。

(20)城镇住户调查样本进行了加权处理，权重为593790000*(1-0.00472)/29262=20196.409，其中593790000为2007年城镇人口数；0.00472为表4中推算的高收入人群比重；29262为2007年城镇住户调查的样本量。

(21)见“中国个税年所得12万以上自行纳税申报人数超212万”一文，http://news.xinhuanet.com/newscenter/2008-04/18/content 8003753.htm。

(22)如表4所示，如果使用国家统计局的收入定义，估计出来的全国的基尼系数都相应地要低1个百分点左右，其主要原因在于卡恩定义中城镇住户自有住房估算的租金水平要明显高于农村住户，从而拉大了城乡之间收入差距。

(23)从前面的推算过程可知，高收入人群数量在较大程度上会受到高管薪酬数据中所赋权重的影响。如果对高管薪酬样本点赋予更高的权重，尽管会增加高收入人群的数量从而进一步拉高基尼系数，但也将导致高收入人群组内平均收入水平和基尼系数的下降，从而对整体基尼系数具有缩小的效应。我们尝试以全部法人单位数量的一半为高管薪酬数据的权重，结果发现推算得到的12万元以上人群的数量达到442万，但高收入人群的平均收入下降到44.3万元，高收入人群内部的基尼系数也下降至0.574。按照这一加权方式所得到的相关参数，可推算得到城镇内部的基尼系数从0.4199上升至0.445；不含流动人口的全国基尼系数从0.5297上升到0.5472；含流动人口的全国基尼系数从0.524上升到0.5409。由此可见，本文的估算方式和估算结果对于高收入人群数量的变化也具有一定的稳定性。

(24)高收入人群样本的收入构成中没有直接估计自有住房估算租金的可能。我们根据住户调查数据得到人均收入在12万元以上人群的自有住房估算租金相当于可支配收入的比重为11.8％，然后以此比重来推算高管薪酬数据对应的自有住房估算租金。在富豪榜数据中，没有再对自有住房估算租金进行调整。

(25)李实、罗楚亮(2007)对2002年中国收入差距的估计结果显示，城乡居民享有的社会保障和社会福利的市场价值会使得城乡之间收入差距扩大近40％，使得全国收入差距的基尼系数上升大约5个百分点。

标签：收入差距论文; 流动人口论文; 国家统计局论文; 抽样分布论文; 农村人口论文; 城镇人口论文; 城乡差异论文; 人口问题论文; 居民收入论文; 统计学论文; 抽样调查论文; 城乡差距论文; 中国人口论文;

中国的收入差距有多大？修正样品结构偏差的尝试_收入差距论文

猜你喜欢