中国的基尼系数真的下降了吗?基于微观数据的基尼系数区间估计_国家统计局论文

中国基尼系数是否真地下降了?——基于微观数据的基尼系数区间估计,本文主要内容关键词为:系数论文,基尼论文,微观论文,区间论文,中国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      

      近年来,随着我国经济的快速增长,居民收入差距不断扩大。作为衡量收入分配差距的重要指标之一,基尼系数的估计和发布日益成为学界和政策制定者关注的焦点。2013年1月,国家统计局发布了2003~2012年全国居民收入基尼系数。按照新的统计口径,全国居民收入基尼系数从2003~2008年依次为0.479、0.473、0.485、0.487、0.484和0.491。然后开始逐步回落,2009年为0.490,2010年为0.481,2011年为0.477,2012年为0.474。2014年1月,国家统计发布的2013年全国居民收入基尼系数为0.473,比2012年又有所下降。图1显示了国家统计局公布的近11年来反映我国居民收入分配差距的基尼系数。

      这些结果的公布引起了社会各界的广泛关注,其中争议最大的一个问题就是基尼系数是否真的连续5年下降,因为这种连续的下降趋势可能意味着我国居民收入分配差距已经越过了库兹涅茨倒U型曲线的拐点,进入了下行通道,这对于我国宏观经济政策的制定和实施将具有重要的指导意义。国家统计局局长马建堂将2008年以来基尼系数的下降解释为金融危机以后中国各级政府采取惠及民生的若干有力措施的结果。北京师范大学李实教授则认为,国家统计局基尼系数所表现出来的下降趋势是否符合事实,现在很难判断,很难得出结论,我国居民收入基尼系数可能在2008年以来处在相对稳定的状态。以上争论的出现主要是因为学界质疑国家统计局的样本对高收入住户的代表性不足,以及数据的收集和估计方法可能存在偏差。例如岳希明和李实等人就认为,数据收集工作的进一步完善和估计方法的不断改善都有可能使现在公布的基尼系数出现上下2到3个百分点的波动。

      以上学者的质疑引发了一个新的问题,如果国家统计局的数据收集和估计方法不存在上述学者指出的偏差,是否就可以认定我国居民收入基尼系数连续5年出现下降?答案仍然是不确定的,因为基尼系数的获得是在抽样样本的基础上计算得来的,是通过样本对总体的基尼系数进行的点估计。抽样变异性的存在会使总体基尼系数的估计产生抽样误差,同样的全国居民收入分布情况经过两次结构完全相同的抽样调查,所得到的基尼系数可能会有所不同,这就使得传统的对总体基尼系数的点估计具有很大的局限性。我们往往难以判断不同机构对同一时点的总体“真实”基尼系数点估计值的差异是来源于抽样偏差、收入指标的测量差异,还是仅仅来源于不可避免的抽样误差;也难于判断同一机构公布的不同时点的基尼系数的差异是来源于总体收入分布的变化,还是仅仅因为两次随机抽样得到不同的样本。如果构建一个基尼系数的置信区间,那么就可以首先分析排除基尼系数点估计差异来源于抽样误差的可能性,然后进一步考虑抽样方法偏差和收入指标测量差异等实质性问题。基于这一考虑,本文尝试构建国家统计局基尼系数的置信区间,并对近年基尼系数差异的显著性进行推断。由于国家统计局家户调查数据没有完全对外公布,我们利用国家统计局提供的子样本,即CHIPS(2007)城市10000户和农村13000户的样本资料,对国家统计局基尼系数点估计的标准误差进行推断,从而构建相应的置信区间。

      二、相关理论和解决方法

      对于如何利用微观数据(micro-data)和分组数据(grouped data)对总体基尼系数进行点估计,国内外已有大量的研究。在实践中,基尼系数的点估计有两种方法:第一种是非参数方法,不涉及对总体收入分布或洛伦兹曲线的假定,直接计算样本基尼系数并作为总体基尼系数的估计值;第二种是参数法,首先假定总体收入分布或总体洛伦兹曲线的形式,然后估计总体基尼系数。对于微观数据来说,因为掌握的信息量比较充分,一般采用非参数的点估计方法。

      根据基尼的最初定义(Gini,1912),基尼系数等于基尼相对平均差的1/2,因此,样本基尼系数可通过如下公式计算:

      

      

      

      

      其中,μ是总体收入的均值f(x)是总体收入X的概率密度函数,而X,Y是独立同分布的随机变量。从而,G可以表示为:

      

      

      这些证明和公式的给出,为基尼系数的区间估计提供了基础。但是,这些计算公式非常复杂,对于大型的微观家户数据,想要得到基尼系数点估计的方差估计

,所需要的计算量非常惊人,即使利用现代的大型计算机也很难实现。现有文献中尚未发现使用上述公式利用我国大型微观家户数据计算基尼系数的置信区间,就现阶段而言,上述公式的理论意义可能更为重要。

      为了寻找一种可行的方法估计基尼系数点估计的方差,本文考虑从原始样本中重抽样,构造原始样本的子样本,并通过对子样本性质的研究来得到相应统计量的性质。在重抽样方面最有影响力的当属Quenouille(1949)提出的刀切法(jackknife)和Efron(1979)提出的自助法(bootstrap)。重抽样的基本思想是:子样本之于样本,可以类比为样本之于总体。将样本类比为总体,就相当于知道了“真实”的参数,将子样本类比为样本,也就可以求得诸如偏差、方差的估价值。刀切法与自助法在计算方法上类似,但其抽样方式不同。刀切法通常采用的方式是:在一批样本中,每次删除一个(或者几个)样本,用剩下的样本和同样的估计量公式去重新计算估计值,经过逐个删除并计算之后,便可以得到一系列估计值。而自助法是对原始样本采取有放回的重复抽样,假定有n个原始观测值,自助样本可按如下步骤获得:①将每一观测值写在纸签上;②将所有纸签放在一个盒子里;③摇匀,抽取一个纸签,记下其上的观测值;④放回盒子里,摇匀,重新抽取;⑤重复步骤③和④n次,便可得到一个自助样本。重复上述抽样过程B次,便可得到B个自助样本。自助法由Efron(1979)最早提出,随着Efron(1990,1992)等一系列论文的发表,该方法逐渐得到了越来越广泛的运用。并且Efron(1979)指出将自助法估计用泰勒公式展开,可以看出刀切法是自助法的一阶近似;对于线性统计量的方差估计来说,刀切法和自助法会得到同样的结果。但在非线性统计量的方差估计问题上,刀切法严重依赖于统计量线性拟合程度,所以远不如自助法有效。有鉴于此,本文将使用自助法,对基尼系数点估计的方差进行估计,并构造相应的置信区间。

      

      自助法(非参数型)无需对模型做任何假设,也不需要标准误差的理论计算公式,因此不用关心估计的数学形式有多复杂。随着计算机技术的发展,现在已经可以方便地处理大样本和多重复次数的计算需要,并在多个学科有着广泛应用。Osberg & Xu(2000)使用1970年至1990年卢森堡收入研究(Luxembourg Income Study)的数据,利用自助法构造了贫穷程度(poverty intensity)的置信期间,进行18个国家贫穷程度的跨国比较。Xu(2000)使用自助法,利用美国收入动态跟踪调查(PSID)1969年,1979年和1988年的数据,构造了收入基尼系数的置信区间,结果发现相对于1969年来说,1979年的基尼系数虽有所上升,但在统计上是不显著的,而1988年的基尼系数相对于1979年来说,却有了统计上显著的上升。这一统计推断的结果,印证了Levy & Murnane(1992)得出的美国居民收入分配不平等程度在上世纪70年代几乎不变,而在上世纪80年代有了明显加大的结论。

      三、微观数据和调整方案

      在国家统计局发布2003~2012年我国居民收入基尼系数后不久,国家统计局住户调查办公室主任王萍萍撰文①指出:因2012年12月前城乡居民收入统计指标不一致、农民工归类不明确,无法简单加总得到全体居民收入。这是最近几年没有计算、发布全国基尼系数的主要原因;为了解决上述问题,满足城乡统筹发展、调整居民收入分配格局对居民收支统计数据、特别是收入差距数据的新需要,国家统计局对城乡住户调查进行了一体化改革,至2012年底,制定了新的一体化住户调查制度;对往年的城乡居民收入历史数据进行了回溯调整,在此基础上测算并公布了全国居民可支配收入基尼系数。该文也给出了对历史数据进行调整的方法和步骤以及国家统计局使用的基尼系数计算公式。国家统计局住户调查的微观数据未完全对外公布,本文尝试使用国家统计局提供的子样本,即CHIPS(2007)的数据来复原王萍萍(2013)文中提到的几项对数据的调整工作,并按其给出的公式计算我国居民收入的基尼系数。

      1.本文采用的微观数据介绍

      本文采用了“中国家庭收入项目调查”(CHIPS)2007年的微观家户调查数据。为了追踪中国居民收入分配的动态情况,中国家庭收入项目调查(CHIPS)已经相继在1988年、1995年、2002年和2007年进行了四次入户调查。这几次调查由中外研究者共同组织,并在国家统计局的协助下完成。其中2007年城镇调查从我国16个省份302个城市中选取了10000个住户、29553个个体;农村调查从16个省份287个城市中选取了13000个住户、51847个个体;城镇和农村住户调查样本来自国家统计局常规住户调查的大样本,样本的选取是对国家统计局的大样本按居民收入的高低排序后,采取等距抽样的方法得到。②收入和支出指标的数据也来自国家统计局所采用的常规住户调查的记账数据,该部分数据来源于国家统计局的家庭调查,也会被国家统计局用来估计全国的收入基尼系数。CHIPS(2007)微观家户调查数据是可以较好地代表国家统计局的大样本数据,将CHIPS(2007)城镇和农村住户人均收入与国家统计局公布的当年住户人均收入进行比较,可以部分说明这一点。下页表1给出了CHIPS(2007)住户样本的基本特征。

      需要指出的是2012年12月前,国家统计局使用的收入定义对于城镇居民指的是人均可支配收入,对于农村居民指的是人均纯收入。在国家统计局提供给“中国家庭收入项目调查”(CHIPS)的数据中有明确、具体的数据项与之对应。因为CHIPS(2007)住户调查样本是国家统计局常规住户调查样本的子样本,且CHIPS(2007)城镇住户和农村住户调查中按国家统计局定义的收入数据由国家统计局提供,因此其按国家统计局定义的收入均值与国家统计局公布的平均收入之间没有显著差异。③

      

      2.CHIPS(2007)数据的调整

      根据王萍萍(2013)文中提到的对城乡居民收入历史数据进行回溯调整的方法和步骤,我们对CHIPS(2007)的样本数据进行相应调整。

      第一步,按新的指标口径调整历史数据。国家统计局按照新的可支配收入指标口径,利用已有的城乡居民收入分户调查资料,调整形成了2003~2012年我国城乡居民同口径的可支配收入分户数据(以下简称新国家统计局收入定义)。具体地就是将农村居民人均纯收入指标调整为人均可支配收入指标,主要是从纯收入指标中扣除了农村居民社保支出、利息支出和赠送城镇居民支出,增加了农民工在外花费的收入。同时,规范完善城镇居民人均可支配收入口径范围,主要是进一步扣除了缴纳社保费用和所得税以外的全部转移支出,以及以房贷利息为主的全部财产性支出,增加了自有住房折算净租金收入和实物折算收入。这一步调整实际上是将国家统计局的原收入定义调整为新的收入定义。

      第二步,校准城镇高收入户调查收入偏差。国家统计局采用了多种国际上常用的校准方法进行试算,比较各种方法的利弊,同时对国内相关的校准方法进行了研究。④经过比较,最终采用了以个人所得税资料为依据,测算确定高收入户样本结构权重和人均收入水平的调整系数和调整模式,对高收入户群体进行了平滑校准。⑤

      第三步,按照全国城乡人口比例,调整合并城乡住户调查数据。先调整农民工归类,形成包括农民工在内的城镇人口总体。将年内外出务工半年以上的农民工,从现行的农村人口调整为城镇常住人口,保持与人口统计分类的一致性。再按历年城乡人口比重对城乡住户调查分户数据进行加权合并。本文按上述方法将CHIPS(2007)样本中外出务工半年以上的农民工调整为城镇常住人口,并按2005年1%全国人口抽样调查的人口分布,构造样本权重。⑥因为2007年没有进行1%全国人口抽样调查,我们假定2007年全国城乡人口比例与2005年一致。

      我们按照王萍萍(2013)介绍的对2003~2012年城乡居民收入历史数据进行回溯调整的方法和步骤,对CHIPS(2007)微观家户调查数据进行了调整。表2列出了调整后的城镇和农村居民以及加总的全国居民人均收入情况。

      

      经第一步调整后,对于城镇居民来说虽然扣除了缴纳社保费用和所得税以外的全部转移支出,以及以房贷利息为主的全部财产性支出,但是增加了自有住房折算净租金收入和实物折算收入,人均可支配收入由原来的14626元提高到了16120元,增加了10.21%。农村居民在增加了农民工在外花费的收入和进行一些扣除之后,人均可支配收入与原来的人均纯收入相比变化不大,只增长了3.16%。样本数据经第二步调整后,城镇居民和全国居民的平均收入分别比原来提高了7.07%和5.22%,城乡之间的收入差距扩大了。其原因在于GHIPS(2007)原始29553个城镇居民样本中只有15个经第一步调整后的收入超过了12万元,⑦占原始样本的0.064%,这与2007年我国年所得12万元以上,自行纳税申报的人数超过212万存在很大的偏差。⑧对样本数据做第三步调整后,城镇居民和农村居民的人均收入分别由第二步调整后的17259元和4381元下降到16623元和4349元,这是因为农村样本中有1653名年内外出务工半年以上的农民工,从农村人口调整为城镇常住人口,他们未经加权的平均收入为6084元,低于调整前城镇常住人口样本未经加权的16819元的平均收入,高于农村居民未经加权的4619元的平均收入。全国加总后的平均收入也比第二步调整后的平均收入要低一些,这是因为一方面,城镇样本平均来说比农村样本具有更高的权重,原农村人口(农民工)在调整为城镇常住人口后,被赋予了更高的权重,而他们的平均收入比原城镇常住人口的平均收入低;另一方面,城镇样本量的增加也相对减少了原城镇常住人口样本在总样本中的权重,而原城镇常住人口样本的平均收入是高于农村样本的。

      四、基尼系数的估计结果

      1.基尼系数的点估计

      在对CHIPS(2007)微观家户调查数据进行调整后,我们使用王萍萍(2013)介绍的国家统计局基尼系数的计算公式,对我国城镇、农村和全国居民收入的基尼系数进行了点估计。其公式如下:

      

      结果显示对CHIPS(2007)样本经第一步调整后,全国居民收入基尼系数的点估计值从0.4738提高到0.4872,增加了2.83%,这是因为在第一步调整后,城乡收入的差距进一步拉大。样本数据经第二步调整后,基尼系数的点估计值由0.4872提高到0.5115,增加了4.99%。这和CHIPS(2007)样本对高收入人群抽样不足是直接相关的。第三步调整时,从农村居民51847个样本中,将年内外出务工半年以上的农民工1653人从现行的农村人口调整为城镇常住人口,实际上是对样本数据的重新赋权过程,全国居民的基尼系数略有降低,从0.5115下降到0.5110,减小了0.098%。

      

      经三步调整后,具有全国代表性的我国居民2007年收入基尼系数的点估计为0.5110,比国家统计局公布的2007年0.484的基尼系数高出5.58%。仔细研究经这些调整步骤后的全国居民收入基尼系数,我们发现:经第一步调整后,全国居民收入基尼系数为0.4872与国家统计局公布的0.484的数据非常接近;一旦经过第二步对样本偏差进行调整,基尼系数就会大幅提升。这里我们不能妄断国家统计局所公布的基尼系数是否经过了第二步调整,但我们确实发现,利用有代表性的子样本CHIPS(2007)数据,经第二步调整后的基尼系数与其公布的基尼系数有着不小的差异。CHIPS(2007)样本是从国家统计局大样本中按收入排序后,采取等距抽样得到的,所以国家统计局的大样本也存在同样的抽样偏差问题。这就使得国家统计局的样本若进行了第二步调整,城镇和全国居民平均收入也会出现较大幅度的上升,并出城乡之间收入差距的扩大。所以这里我们同时报告对CHIPS(2007)数据不经第二步调整,⑨得出的基尼系数结果。我们发现CHIPS(2007)样本仅做第一及第三步调整,全国居民基尼系数的点估计值为0.4871,比仅做第一步调整后的0.4872下降了0.0001。因为相对农村居民来说长期外出务工的农民工在第三步调整后被赋予了更高的权重,而这部分农民工的平均收入位于城镇居民和农村居民之间,其权重的增加起到了降低基尼系数的作用。接着我们进行基尼系数的区间估计,看看不经第二步调整,所得基尼系数的置信区间是否可以覆盖国家统计局公布的2007年我国居民收入基尼系数0.484的结果。

      2.基尼系数的区间估计

      

      

      我们发现,CHIPS(2007)数据不做第二步调整,得出的全国基尼系数的区间估计为0.4843-0.4897,该区间已经可以覆盖国家统计局公布的2007年我国居民收入基尼系数0.484。这说明CHIPS(2007)样本经第一及第三步调整后得到的全国居民收入基尼系数0.4871与国家统计局公布的2007年我国居民基尼系数0.484在统计上无显著差异。但是如果国家统计局确实做了第二步调整,那么我们使用类似方法调整后得到的全国居民收入基尼系数区间估计的下限0.5085就会比国家统计局的基尼系数0.484高出5.06%,这是个比较大的差异。图2的洛伦兹曲线反映了这些调整过程中基尼系数的变化情况。

      3.国家统计局基尼系数标准误差的推断

      因为国家统计局的家户调查数据没有完全对外公布,我们只能利用国家统计局提供的子样本,即CHIPS(2007)城市10000户和农村13000户的样本资料,对国家统计局基尼系数点估计的标准误差进行推断。2012年12月前,国家统计局全国城乡住户收支调查共有14万户调查样本。其中,城镇住户调查样本6.6万户,农村住户调查样本7.4万户。(11)城镇住户样本是CHIPS(2007)城镇样本的6.6倍,农村住户样本是CHIPS(2007)农村样本的5.7倍。因为CHIPS(2007)样本是从统计局大样本中,按照收入大小排序后等距抽取的,所以本文尝试将CHIPS(2007)的样本简单复制为原来的数倍,以达到和国家统计局样本大小相当的水平。这里我们考虑先将CHIPS(2007)城镇样本扩大为原来的7倍,农村样本扩大为原来的6倍,分别达到7万户和7.8万户,总计14.8万户。(12)然后对扩大后的样本采用自助法得到基尼系数的标准误差,该标准误差作为我们对国家统计局基尼系数标准误差的一个保守估计,因为一方面,随着样本量的增加,标准误差是递减的;(13)另一方面,将样本复制扩大的方法减少了样本之间原有的离差,使所得标准误差比国家统计局大样本应有的标准误差小。抽样误差的大小除了和样本量大小有关外,还和总体收入的分布情况有着密切的关系。一般来说,总体收入的变异越大,基尼系数点估计的标准误差也就越大。下页表5给出了将样本扩大后,城镇、农村和全国居民收入基尼系数的相应估计值。

      

      

      从表5中我们可以看出国家统计局全国居民收入基尼系数的标准误差,随着基尼系数的提高而增大,这印证了总体收入的变异越大,基尼系数估计的标准差也就越大的一般结论。在经所有调整步骤得到的标准误差中,全国居民收入基尼系数点估计的标准误差最小为0.0005,所以我们取0.0005为标准误差的保守估计。这一保守估计并不受样本调整步骤的影响,以此得到国家统计局公布基尼系数的95%置信区间的宽幅大约为0.002。

      4.国家统计局基尼系数标准误差估计值的稳健性检验

      由于国家统计局调查样本并未全部对外公开,我们对其子样本,即CHIPS(2007)样本进行简单复制扩大,采用自助法,对国家统计局公布的2007年全国居民收入基尼系数的标准误差进行了保守估计。2007年以后基尼系数标准误差的变化趋势如何,决定了我们是否可以利用2007年的标准误差估计值构造以后年份的基尼系数置信区间,并对相邻两年基尼系数差异的显著性进行推断。为此,我们分别考虑以下几种情形,对2008年至2013年国家统计局公布的基尼系数标准误差进行模拟。第一种情形:对扩大后的样本,按相同的年均收入增长率构造以后各年份的样本收入;第二种情形:对扩大后的样本,按国家统计局公布的各城镇和农村收入等级、年收入增长率计算以后各年份的样本收入。(14)然后分别使用自助法对基尼系数的标准误差进行估计。在第一种情形下,我们以2007年样本收入为基础,按8%的年均增长率计算2008年至2013年各年样本收入。表6给出了经第一及第三步调整后,(15)各年全国居民收入基尼系数的相应估计值。

      

      对于第二种情形,在2007年样本收入的基础上,按国家统计局公布的各城镇和农村收入等级及其年收入增长率计算2008年至2013年各年的样本收入,然后使用自助法对各年全国居民收入基尼系数的标准误差进行估计。表7给出了经第一及第三步调整后,各年全国居民收入基尼系数的相应估计值。

      

      从表5和表6可以看出,模拟所得2008年至2013年基尼系数的标准误差估计值与2007年相比变化非常微小,且所得标准误差的估计值都未低于0.0005,基尼系数的95%置信区间大致为点估计值±0.001,这说明近似使用2007年的标准误差估计值对以后数年国家统计局公布的相邻两年基尼系数差异的显著性进行推断,具有一定的可靠性。根据这一结果,我们可以简单地构造2007年以后各年居民收入基尼系数的95%置信区间。根据国家统计局公布的我国居民收入基尼系数,2008~2013年基尼系数的95%置信区间依次近似为,2008年[0.490,0.492],2009年[0.489,0.491],2010年[0.480,0.482],2011年[0.476,0.478],2012年[0.473,0.475],2013年[0.472,0.474]。我们可以发现,2008年与2009年,以及2012年与2013年全国居民收入基尼系数的95%置信区间出现相互重叠。也就是说,这些相邻年份基尼系数的差异无法确定其统计显著性,点估计所表现出来的0.001左右的差异,可能只是抽样误差所致。从这个意义上说,我国居民收入基尼系数自2008年起连续5年持续下降的论断值得商榷。

      五、结论性评述

      本文使用国家统计局公布的对历史数据进行回溯调整的方法,对CHIPS(2007)微观家户调查数据进行了调整,得到了调整后居民收入基尼系数的点估计,并使用自助法构造了基尼系数的置信区间。结果显示,根据国家统计局发表的调整数据的方法和计算公式得到的基尼系数点估计为0.511,与国家统计局公布的2007年我国居民收入基尼系数0.484存在显著的统计差异。如果将这些调整步骤中使基尼系数上升最大的第二步去除,则得到全国居民收入基尼系数的点估计值为0.487,与国家统计局公布的基尼系数比较接近,且其95%置信区间可以覆盖国家统计局公布的基尼系数值。

      利用CHIPS(2007)这一国家统计局家户抽样调查的子样本,我们尝试估算了国家统计局基尼系数点估计的标准误差。结果显示标准误差的保守估计为0.0005,这使得国家统计局基尼系数95%置信区间的宽幅约为0.002。国家统计局公布的基尼系数,2008年为0.491,然后逐步回落,2009年0.490,2010年0.481,2011年0.477,2012年0.474,2013年0.473。我们发现,即使使用标准误差的保守估计,在这首尾6年连续5次的基尼系数下降中,只有3次是统计显著的,分别为2009年到2010年下降了0.009,2010到2011年下降了0.004和2011年到2012年下降了0.003。其他年份之间的居民收入分布状况完全有可能并未改变甚或出现收入差距小幅扩大,公布的基尼系数0.001的下降可能只是因为抽样误差造成的。现在断定我国居民收入分配基尼系数已经进入下行通道还为时过早,至少连续5年基尼系数出现下降的结论值得商榷。

      感谢匿名审稿人的宝贵意见,文责自负。

      ①王萍萍:《关于我国居民收入基尼系数测算的几个问题》,《中国信息报》2013年2月5日,第1版。

      ②国家统计局所进行的大样本常规住户调查的目的不仅是为反映我国居民的收入差距,还有其他方面的考虑,但为研究我国居民的收入差距,从该大样本中选取恰当的子样本是完全可以满足需要的。

      ③李实等(2013),第1章,第25页。

      ④国家统计局几个备选方案的详细情况,请参见王萍萍(2013)。

      ⑤这与李实和罗楚亮(2011)中使用的对CHIPS(2007)样本偏差进行校准的方法比较类似,本文沿用李实和罗楚亮(2011)中使用的从《中国上市公司高管薪酬指数数据库(2007~2008)》中,获得年薪酬在12万元以上的高管信息,然后加权来调整样本偏差。

      ⑥这里我们采用在城乡人口分类基础上按照直辖市、东部、中部、西部地区实际人口比例对样本进行区域加权。

      ⑦如果不经第一步调整,收入超过12万元的样本只有10个。

      ⑧中国个税年所得12万元以上自行纳税申报人数超212万。http://news.xinhuanet.com/newscenter/2008-04/18/content_8003753.htm。以212万计算,2007年个税所得超12万元的居民在城镇居民中的占比已达0.357%。

      ⑨不经第二步调整即指仅经第一及第三步调整,后文的表述也一样。

      ⑩关于自助重复B的选择,请参见Efron(1987)。

      (11)对于国家统计局样本的详细介绍请参见王萍萍(2013)。

      (12)在将扩大后的城镇和农村样本进行加总时,我们将城市样本的权重乘以6/7,以保证基尼系数的点估计和样本未扩大时的相等,且不会影响最终的结果。

      (13)经复制扩大后的样本量为14.8万户,已经超过了国家统计局全国城乡住户收支调查14万户的样本规模。

      (14)国家统计局将城镇居民人均可支配收入,接收入高低分为7组,分别是最低10%收入户、较低10%收入户、中等偏下20%收入户、中等收入20%收入户、中等偏上20%收入户、较高10%收入户和最高10%收入户,将农村居民家庭人均纯收入,按收入高低分为5个等分组。详细情况见参见国家统计局网站。

      (15)因篇幅原因表5和表6只报告了样本仅经第一及第三步调整的结果。我们也对经其他调整步骤后的全国居民基尼系数标准误差使用自助法进行了估计,结果同样显示标准误差与2007年相比变化微小。有兴趣的读者可以向作者索取。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

中国的基尼系数真的下降了吗?基于微观数据的基尼系数区间估计_国家统计局论文
下载Doc文档

猜你喜欢