人口流动对我国居民收入差距影响的回归分解研究_收入差距论文

人口流动对我国居民收入差距影响的回归分解研究，本文主要内容关键词为：分解论文,收入差距论文,人口论文,居民论文,我国论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：F127 文献标识码：A 文章编号：1001-5124(2014)03-0068-07

一、导言

扩大内需从而促成我国经济由投资占主导向消费占主导的转变，最终实现我国经济持续增长是学术界的一大共识。而在探讨内需不足的原因时，居民收入差距扩大往往被当成是重要的影响因子。[1-3]居民收入差距影响消费是凯恩斯边际消费倾向递减规律的推论之一。按照凯恩斯的观点，随着收入的增加，用于增加消费的部分将越来越少。换句话说，穷人和富人有着不同的边际消费倾向，穷人的边际消费倾向较大，富人的边际消费倾向较小。因此，分配方式必然影响居民消费，收入差距扩大将导致内需不足。[4-6]探讨我国居民收入差距的主要影响因素，并据此提出缩小居民收入差距的解决途径，将有利于拉动有效需求，保持我国经济长期持续增长，具有重大的理论和现实意义。

影响居民收入差距的因素有很多，如个体的年龄、性别、受教育程度、城乡差异、行业差异以及地区差异都会影响到居民的最终收入。其中，城乡差异是影响居民收入差距的主要因素之一，并且其重要程度逐年递增。[7-8]但学界在研究城乡差异因素时，普遍存在的缺陷是漏掉了“人口流动”这一重要的控制变量。

到目前为止，我国仍然是一个典型的二元经济体，每年有数量巨大的流动人口往返于城乡和各个地区。据《中国流动人口发展报告2013》，2012年我国流动人口数量达2.36亿人，社会经济因素是人口流动的主要原因，近8成流动人口流动的原因是“务工经商、工作调动和分配录用”。流动人口中的绝大多数是为生存和发展的理性选择，而他们的行为也必将对我国的经济和社会发展产生广泛而深刻的影响。人口流动与城乡收入差距关系的经典论述较早地见于刘易斯的二元经济理论、[9]拉尼斯—费景汉结构转换理论、[10]乔根森新古典二元经济理论和托达罗的城乡人口迁移理论。[11-12]此后涌现了大量的应用调查数据和数学模型验证这些理论的学术论文，但研究人口流动与城乡收入差距的文章非常少，而且基本上局限于分析“到底是人口流动影响城乡收入差距，还是城乡收入差距导致人口流动”这样的问题上。国内的情况基本上类似，一些学者试图建立起城乡收入差距与人口流动的理论模型，但没有实证分析；[13]另一些学者对两者的关系进行了比较细致的分析，但实证部分也比较欠缺。[14]1-10

我们认为，由于农村人口跨城乡、跨地域大量流动，建立在分城、乡住户随机抽样调查基础上的中国居民收入数据收集过程中存在着制度设计缺陷，并最终影响到收入数据的质量和使用。这主要表现在以下三个方面：[14](1-10)一是举家迁入城镇的农村家庭，基本没有被纳入城镇住户调查；二是农村家庭外出从业成员的收入，可能存在漏记或少记的情况；三是那些在经济上与其农村家庭已没有紧密联系的进城农民工，在脱离农村住户调查后，却没有被纳入城镇住户调查。这些情况的存在，将给城乡居民收入统计带来偏差，进而影响城乡收入差距的测算。

基于以上原因，本文将通过回归分解技术探讨了在控制年龄、性别、地区、受教育程度、行业等变量的前提下，重点关注劳动力人口流动对我国居民收入差距的影响。

二、数据说明及方法介绍

(一)数据说明

本文使用“2005年全国1％人口抽样调查数据”作为分析的基础数据库。与以往的调查相比，2005年全国1％人口抽样调查增加了一个关于收入的问题，“R25收入情况。上个月(或按年收入折算)的月收入是______元”，这在全国人口调查中是首次涉及的项目。虽然这里所说的收入仅仅是劳动收入，不包括利息收入、房租等非劳动收入，未能反映我国居民的分项收入来源情况，但由于调查的范围广(覆盖全国31个省份，共调查登记常住人口1699万人，占全国总人口的1.325％)，详细而准确地反映了我国居民“劳动收入”在城乡、地区和行业等人口属性下的特征，所以仍然具有极高的研究价值。

中国住户收支调查数据(Chinese Household Income Project Survey，以下简称“CHIPs”)。这是国内目前唯一一套比较权威的全国性居民收支专项调查数据，由福特基金会提供资金支持，具体调查工作由中国社会科学院经济研究所赵人伟(1988年和1995年)和李实(2002年以后)主持。目前共进行了1988年、1995年、2002年和2007年四次调查。其中2007年之前的调查没有涉及流动人口的选项，但在2007年的调查中增加了流动人口这一群体。本文采用1994年国企改革正式开始之后的后三次调查数据。

还需要说明两点：第一，本文讨论的居民收入属于“实际收入”，均按照我国各地不同的物价水平进行了调整，调整系数来源于Loren Brandt & Carsten A.Holz(2005)的工作论文“Spatial Price Differences in China：Estimates and Implications”；[15]第二，按照“2005年全国1％人口抽样调查数据”汇总的光盘版数据说明，国家统计局“2005年全国1％人口抽样调查数据”原始资料共有16570406个样本。本文使用的数据来源于中国人民大学人口研究所，是国家统计局原始数据的再抽样数据，共有2585481个样本，换算后实际抽样比为0.1977％。在具体计算中，本文仅选取了15周岁到64周岁的劳动人口，最后实际得到1336398个有效样本。

(二)方法简介

基于回归方程对收入差距做分解分析是国外收入分配领域方法研究的最新进展。[16]这个分解技术也可称之为按解释变量分解，即对不平等指标按影响收入的不同变量进行分解，计算出这些变量对不平等的贡献率。基于回归方程收入差距分解技术的其本思想是这样的：“对收入函数中的某个解释量X求均值，然后将X的平均值和其他解释变量的实际值一起代入收入方程，推测出收入数据，并且计算对应于这个收入的不平等指数。”此时，该指数已经不包含X的影响。该指数与根据真实数据计算出的收入差距之差衡量了X对于收入差距的贡献。[8]一般来说，影响收入大小的因素也会影响收入差距，所以回归分解技术的第一步就是要建立收入方程，①估计各自变量的系数，然后将待分析的收入差距指标代入方程两端，最后得出各自变量对收入不平等的贡献率。相对于前面两种分解技术，回归分解技术可以处理连续变量类型的影响因素，弥补了按人群分组的收入分解技术仅能处理分类变量的局限。更为关键的是，基于回归的分解技术可以在控制其他变量的前提下，考察某一因素对不平等的影响，②从而控制了不平等的内生性问题(如也许正因为存在收入差距，所以才产生了那样特征的收入人群分组方法)，所以更贴近现实和具有一般意义，近年来在收入分配领域越来越受到重视。

具体来说，我们将采用“夏普里法”对基尼系数、阿肯森指数、广义熵指数和变异系数(Coefficient of variation index)等多种指标进行分解分析。③而且为了回避常数项

对收入差距是否具有贡献的学术争议，也为了防止常数项的存在影响到估算结果的准确性，我们把回归方程设定为半对数线性回归(Semi-Log Linear)方程：

此时收入可以视为一个倍乘系数Exp(

)的乘积，即相当于所有人的收入同时增加或减少Exp(

)倍(收入的整体倍加倍减对收入差距指标的计算不产生影响)，实际上已经人为消除了原方程中常数项

对收入差距的影响，[7]就算我们在估算过程中直接去掉Exp(

)项，也就相当于去掉了原方程的常数项，也不会对后面的分解结果造成任何影响。而残差项

可以用来表示方程中不能解释的收入差距部分。

三、变量说明及一般线性回归

按照前文的介绍，建立收入决定方程是进行基于回归方程收入差距分解的必须步骤。如前所述，我们使用“2005年全国1％人口抽样调查数据”，建立半对数形式的收入决定方程：

方程解释变量的选取尽可能地参考了同类研究文献。[17-18]如上所示，方程左边的被解释变量log(y)为收入的对数形式，方程的解释变量

分别为：性别(SEX)、户口性质(PEASANT)、年龄(AGE)、年龄的平方(

)、地区(REGION)、受教育程度(EDU)、行业(INDUSTRY)和离开户口登记地时间(FLOATER)。

是待估计的方程系数，

是残差项。表1是采用逐步增加变量的方式得到的四个收入方程，各变量估计系数都是显著的，各方程的回归拟合系数也比较高。

我们对方程进行了方差肿胀因子检验，各解释变量中“年龄(AGE)”的VIF最大，达41.67。所有变量的平均VIF等于4.68。根据“最大VIF大于10，平均VIF大于1”的原则，我们判定收入方程不存在多重共线性。

然后对方程的异方差进行了检验，经过Breusch-Pagan拉格朗日乘数异方差检验，检验结果显著，拒绝原假设，所以方程存在异方差。为了减少异方差的不利影响，表1给出的都是加上了估计稳健标准误robust选项的回归结果。综合考虑，我们最后采用模型四的估计结果。因为构造收入决定方程只是基于回归方程的收入差距分解的一个中间步骤，所以我们并不是很关心回归的具体结果，比如系数有多大，等等。一般只需要看回归估计系数是否显著，方程的可决系数是否较大即可着手下一步的工作。

四、回归分解结果及解释

本文基于回归方程的收入差距分解技术所使用的软件是联合国发展研究院(UNU-WIDER)万广华教授提供的JAVA程序。根据万广华，以及复旦大学陈钊和陆铭的经验，[8]本文合并了所有虚拟变量，并把年龄与年龄的平方合并为一个变量(年龄的平方影响几乎可以忽略不计，对这两者合并的象征意义大于实际意义)。合并变量以表1中“模型四”为蓝本。比如合并年龄和年龄的平方，就是生成了一个新的年龄变量C，使得：

而如果把变量C和除“年龄”及“年龄的平方”之外的其他变量再重复一次模型四的估计，变量C就能得到等于1的回归系数，而其他所有变量的回归系数都与模型四原来的估计不变，模型的总体拟合指标也不会受到任何影响。

再以受教育程度所有的虚拟变量合并为例，我们可以以同样的方法生成新的受教育程度变量E，使得：

按照这种方法，我们继续把“地区”“行业”“离开户口登记地时间”等对应的虚拟变量分别合并为变量D、F、G，然后把“性别”和“户口性质”对应的虚拟变量改名为变量A和B。这样原“模型四”的回归结果就转换为以下的回归式：

因为我们采用的是半对数模型，如果在分解回归中直接使用上式的这种形式就会造成对实际收入分布曲线的扭曲，所以在回归分解的实际应用中，可以把上式做如下变换：

上面这个式子及其所对应的数据库就是我们进行回归分解的基础。其中Exp(4.311794)是倍乘系数的常数项。把这个式子和数据库调入程序后即可得到表2第二栏至第五栏的结果。采用同样的方法，建立不包含“人口流动”因素的回归方程，然后进行基于回归方程的收入差距分解，可得到表2第六栏至第九栏的结果。

从表2结果可以看出，采用Sharply Value方法基于回归方程的收入差距分解技术，则可以把收入差距的各影响因子置入同一方程中。这样就可以在控制其他因素的情况下，考察某一因素对收入差距的“纯”影响，并最终可以得到各影响因素对收入差距的贡献率。表2分析结果显示，在不考虑“人口流动”变量时，各影响因素对收入差距(以基尼系数为例说明)的贡献率分别为：性别(9.74％)、户口性质(21.57％)、年龄(6.76％)、地区(17.67％)、受教育程度(22.55％)和行业(21.70％)。“户口性质”对收入差距的贡献率排在第三位，但与前两位“受教育程度”和“行业差异”比例非常接近，都占到了总贡献率的五分之一左右。而在控制了“人口流动”变量时，“户口性质”对总收入差距的贡献率变为11.42％，下降了10个百分点，排序也下降了一位，排在了“受教育程度”、“行业差异”和“地区”因素之后。另外，模型估计的Gini系数为0.3923，大约解释了原始数据计算的Gini系数0.4735的82.85％，这就相当于回归分解模型的解释度。

前文使用“2005年全国1％人口抽样调查数据”仅得到2005年一年的分析结果。我们在1995年、2002年和2007年的CHIPs数据的基础上，采用同样的方法，可以对收入差距影响因子贡献率排序进行历史的纵向比较。利用这一结果可以对我国居民收入差距影响因子贡献率的动态变化有一个更为全面的认识。

对于这三年的CHIPs数据我们同样以Loren Brandt & Carsten A.Holz物价调整系数对应的各省调整系数进行价格调整。[15]为了使得三年的数据更为统一，增加可比性，我们去掉了2002年的四川和重庆，以及1995年的四川数据。这样1995年、2002年数据的省份都和2007年一样，都仅包含了北京、山西、辽宁、江苏、安徽、河南、湖北、广东、云南及甘肃等10个省份。为了与前文“2005年全国1％人口抽样调查数据”估算结果进行比较，1995年和2002年数据仅筛选了“性别”“年龄”“受教育程度”“户口性质”“行业”和“地区”等六个变量。2007年数据增加“人口流动”变量。结果如表3所示。

五、结论及补充说明

本文的分析结果显示除了传统的城乡分割、地区分割因素之外，垄断部门的存在(行业因素)对收入差距也产生着越来越重要的影响，此外受教育程度对居民收入差距的贡献率排序的攀升也值得引起我们的注意。与一般的研究结论“加快城市化是缩小我国居民收入差距的根本措施”不同的是，[19-20]本文认为在考虑“人口流动”时，“户口性质(城乡差异)”对居民收入差距的贡献率均低于地区差异和行业差异，并且随着时代的发展，其贡献率还被受教育程度超越。如果研究中忽略劳动力人口流动因素，将高估城镇居民收入水平和低估农村居民收入水平，从而夸大我国城乡居民收入差距，更可能造成“推动城镇化就可以显著缩小居民收入差距”的政策误判。分析表明，要缩小我国居民收入差距，我们更应该把眼光放在如何缩小受教育度差异、地区差异和行业差异等相关措施上。

由于收入数据的敏感性，收入专项调查以及大型调查中的收入调查项目常常会遇到瞒报现象，其统计的准确性往往受到质疑。一般有三个因素导致收入瞒报：一是经济因素，少报收入可以少交税；二是社会传统因素，中国历来就有“财不外露”的传统，尤其真实的“个人收入”是忌讳透露给别人的；三是法律因素，来路不正的“灰色收入”和违法违纪“黑色收入”见不得光。

一般来说，收入瞒报现象往往是高收入者多于中低收入者，城市居民多于农村居民，发达地区的居民多于落后地区居民。

由于高收入者总是希望拿高一档的收入，交低一档的税，所以他们更为担心个税的征收。而由于社会“仇富”心理的泛滥，高收入者是极为害怕把自己的真实收入情况透露出来的。最后，对比中低收入者，高收入者的“灰色收入”和“黑色收入”肯定是最多的，所以他们也更有动力去瞒报真实收入情况。

拿“2005年全国1％人口抽样调查数据”来说，由于高收入者的瞒报现象，由此数据估算出来的城乡差距、行业差距和地区差距可能会低于实际情况。但由于这些收入瞒报造成的统计误差不是实验误差，往往带有系统误差的性质，不会影响我们的估计方向。更由于本文更关心的是收入差距影响因子贡献率排序的相对变化情况，不太关心收入差距本身水平的高低。所以这些收入的瞒报不会影响本文的判断。另外，“2005年全国1％人口抽样调查数据”中的R25项所说的收入是指劳动收入，并未包括利息收入、房租等非劳动收入。④而瞒报收入大多指的是非劳动收入，从理性经济人角度看，合法的较低的劳动收入基本不存在瞒报的动因。所以从这一角度来看，如果说“2005年全国1％人口抽样调查数据”由于收入瞒报而导致对收入者的统计失真，这并非数据采集质量问题，而是该调查本身仅设计了对“劳动收入”的统计。所以当我们以“劳动收入”的统计分析结果来反映“全部收入”的真实情况难免有所偏误，但如果我们在问题讨论时就已经界定为“劳动收入”则就不存在这个问题了。

而为了弥补“2005年全国1％人口抽样调查数据”仅包含了“劳动收入”的缺陷，本文还使用了CHIPs三年调查数据对我们收入差距的历史变化情况进行了回顾，CHIPs调查数据是来源于收入的专项调查，收入选项不仅包含了“劳动收入”，也包含了“非劳动收入”，数据的可靠性要好一些。通过对使用CHIPs数据的分析结果与使用“2005年全国1％人口抽样调查数据”的分析结果的比较，我们得出了比较接近的结论。这就从侧面说明了仅包含“劳动收入”收入内容的“2005年全国1％人口抽样调查数据”对应的分析结果不会影响本文的判断。

注释：

①回归分解的因变量并不是基尼系数等收入不平等指标，而是收入(或收入的对数)。不平等指标在回归分解过程中另行计算。

②比如，如果分析中没有控制人口迁移因素就可导致城乡收入差距影响的高估。

③使用“夏普里法”还可以使用两种方式对缺失的收入值进行预处理，其一是使用收入的平均值对缺失项进行替换，其二是把缺失项都作为零值处理。

④见“2005年1％人口抽样调查调查人员入户指南”关于“人记录项目的询问”的说明。

标签：收入差距论文; 贡献率论文; 回归模型论文; 城乡差异论文; 居民收入论文; 抽样调查论文; 城乡差距论文;

人口流动对我国居民收入差距影响的回归分解研究_收入差距论文

猜你喜欢