中国沿海地区与大陆贫困差异分析&基于回归的分解方法_回归方程论文

中国沿海与内地贫困差异之解析:基于回归的分解方法,本文主要内容关键词为:中国论文,分解论文,沿海论文,贫困论文,差异论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引言

贫困分布通常呈现出地区差异。这种差异不仅存在于国与国之间,也出现在同一国家的不同地域之间,乃至同一地域的不同地方之间。例如,在中国,贫困的广度与深度在沿海与内地之间、城市与农村之间就有很大的不同。如果贫困的地区差异长期存在,尤其是当它与民族或宗教的区域分布相重合时,会对社会、政治稳定和经济发展产生威胁。因此,找出贫困地区差异产生的原因,对制定反贫政策和优先配置扶贫资源极为重要。

目前文献中常用的贫困分解法是由Datt和Ravallion(1992)提出的。Zhang和Wan(2006)对该方法进行了改进,使之能适用于微观家计调查数据。简要来说,Datt-Ravallion分解法将贫困的跨空间或时间差异的成因划分成两部分,即收入增长和分配差异变化。然而,这两个方面恰恰又是政策实施的结果。虽然Datt-Ravallion的分解结果能够表明收入增长和分配差异两者中哪一个对贫困的影响更大,但却不能对具体应如何分配扶贫资源给出建议。本质上讲,这是由于Datt-Ravallion的分解框架是基于贫困指数、人均收入、收入分配三者间的数学关系,因而无法揭示贫困与受教育程度、地理位置、地方开放程度等收入决定因素之间的经济关系。为了克服Datt-Ravallion分解法的缺陷,本文提出一个基于贫困及其决定因素之间结构关系的分解框架,用于度量上述变量对贫困的影响。本文的另一个贡献是引入了Shorrocks和Wan(2008)提出的数据生成法,将分组收入数据转化成微观个体数据。因为中国目前公布的居民收入数据几乎全部为分组数据。无论是直接使用分组数据,还是对它们进行简单的内推处理后再使用,所计算出的贫困指数都很可能会大幅度偏离真实值。而实证检验表明,用Shorrocks和Wan的方法生成的个人收入数据能较好地拟合真实收入分布。

本文的结构如下:在第一部分给出贫困的分解方法,用于量化各因素对贫困差异的绝对贡献和相对贡献。第二部分讨论数据生成法及相关问题。中国沿海和内地城市贫困差异的经验分解将在第三部分给出。文章最后将总结主要发现并给出减贫的政策建议。

一、贫困的分解框架

如果用向量X表示决定贫困水平的各种因素,用下标i和j代表两个地区(例如中国的西部和东部),用P代表贫困指数(例如贫困率),那么

上式中,β是待估计的回归参数向量,表示X中各因素对P的边际影响,e是误差项。如果用△P(注:△P也可以表示为。我们更倾向于使用方程式(2),因为它不含可能会给人带来麻烦的干扰项。Oaxaca(1973)和Blinder(1973)在推导其著名的工资差异分解模型时使用的就是类似的方程式。)表示两个地区间的贫困差异,那么

方程式(3)和(4)都可以用来分解△P。两者的共同之处在于,它们都将贫困差异分解成了三个部分:第一部分是由于各因素在两个地区的边际影响不同而造成的,第二部分由于两个地区所拥有的因素的数量不同而造成的,第三部分△β△X是一个交叉项。两者的不同之处是,方程式(3)中的分解是以i地区为参照点的,所以第一和第二部分分别为;方程式(4)中的分解则是以j地区为参照点的,所以第一和第二部分分别由给出。一般来说,如果参照点不同,分解结果就会有所不同。

参照点选择的不确定性是指数构造和分解理论中的常见问题。当存在两个或两个以上的参照点时,通常的解决方法是由研究者任意选择。这种随意性在实践中可能会造成一定程度的混乱。要克服这一问题,一个可行的办法是将方程式(3)和(4)相加,然后对所得的新方程式的两端取平均值,即

显然,依据方程式(5)所得的分解结果不会因参照点的不同而不同。此外,方程式(5)也不含方程式(3)和(4)中经济意义不明的交叉项△β△X。Shorrocks(1999)和Shapley(1953)证明,如果运用合作博奕理论,将对△p的分解设定为一个最优化问题,那么该问题有且仅有一个解——方程(5)。

本文将根据方程式(5),将中国内地与沿海地区之间的贫困差异分解成两项:第一项等于,我们称之为禀赋差异项;第二项等于,可以称之为边际影响差异项。如果两个地区的资源禀赋相同(即△X=0),那么第一项为零,贫困的地区差异全部由资源在不同地区作用大小不同所致。同理,如果X对P的边际影响不存在地区差异(即△β=0),第二项为零,贫困差异就仅仅是各地资源禀赋不同的结果。如果将这两项都除以△P,就可以得出它们对总贫困差异的百分比贡献率。使用这种相对贡献率的好处在于,其结果不受度量单位的影响,从而有利于跟同类研究进行比较。这两项可以进一步分解为各单项资源的禀赋差异和边际影响差异。将细分后的与资源k相关的禀赋差异和边际影响差异相加,就可以得出资源k对贫困差异的总贡献。

方程(5)不仅可以用来分解贫困的地区差异,也可以用来分解贫困水平在不同时期或不同人群之间的差异。这里的“不同人群之间”可以是男性(或以男性为户主的家庭)与女性(以女性为户主的家庭)之间,流动人口与非流动人口之间,少数民族与非少数民族之间,国有企业职工与私营企业雇员之间等等。进一步地,根据方程(5)把不同人群之间的贫困差异分解为由于教育、健康、居住地等经济社会因素对收入的影响不同造成的差异,可以在一定程度上回答某些具有政策性意义的问题,例如:特定弱势群体的高贫困究竟是因为资源贫乏(由分解结果中禀赋差异项代表),还是因为资源效率较低(由分解结果中边际影响差异项代表)?如果是因为资源不足,那么瓶颈资源是哪些?这些瓶颈资源对提高收入的相对重要性又是如何?

需要强调的是,本文提出的分解法在实际运用中具有很大的灵活性。首先,该分解法适用于任何贫困指数。虽然选用不同的贫困指数所得出的结果不会完全一致,但是这种差别是由不同贫困指数的特性决定的,与分解法本身无关。其次,回归方程(1a)和(1b)中贫困指数P和其决定因素X之间的函数关系不必一定是线性可加的。因变量P可以像常见的Oaxaca-Blinder工资差异分解中的工资变量那样,以自然对数的形式出现。对自变量X也可以根据需要进行适当的变换。例如,如果有理由认为某种资源x对贫困指数的影响是非线性的,就可以考虑在回归方程中同时放入x的一、二次项。这样,x对贫困差异的贡献就不仅与x的平均值相关,而且与x平方的平均值相关了。

二、数据生成:从分组数据到微观数据

本文的实证研究是以省级行政区划为基本单位,比较分析中国沿海与内地省份之间的贫困差异及其成因。从减小误差的角度来说,估算贫困指数最好使用个人或家庭的微观调查数据。中国目前以家庭为观察点的官方数据主要有两个来源:一个是由国家统计局每年对城市和农村居民分别进行的抽样调查;另一个是由国家农业部主持的对农村居民的抽样调查。这两项调查的详细数据不对外公布,即使支付可观的费用,所得到的微观数据也往往限于局部省份或有限年份。

既然无法得到具有一定时间跨度和覆盖范围的微观数据,我们只能退而求其次,使用分组数据。这方面的首选是国家统计局公布的分组家计调查数据。这套数据不仅有较长的时间序列(可一直追溯到上世纪80年代末),样本覆盖率高(包括了全国90%以上的省份),而且数据质量也受到广泛认可。这套数据的分组格式在城市与农村之间、省与省之间、甚至同一个省的不同年份之间都在不同程度上有所不同。其中,城市数据基本上是人口分位数格式,农村数据大多采用按收入段分组的格式。从总体上说,城市数据在连贯性、完整性上要优于农村数据。这也是我们决定在本文中只研究城市贫困的原因之一。我们关注城市贫困另一个原因则是出于研究全球化对贫困的影响的考虑,因为中国城市居民收入受全球化的冲击要远远大于农村居民收入受到的影响。以各省统计年鉴为主要数据来源,我们收集到的城市居民收入数据在空间跨度上覆盖29个省级行政区划,在时间跨度上包括了1988~2001年之间多数年份。

分位点分组收入数据一般不能直接用来计算贫困指数。而用内推法来处理数据虽然简单可行,却会产生较大误差,因为内推法的隐含假设是相邻两个分位点之间的收入分配完全平等。收入分配研究中将分组数据转化成微观数据的方法很多,大体可分为参数法、半参数法和非参数法,其中,参数法更为常见。Chotikapanich et al(2007)是使用该方法的最近的例子之一。半参数法虽然在实际运用中具有一定的随意性和不确定性,但是因为它不要求事先设定函数形式,所以比参数法有更大的灵活性。Sala-i-Martin(2002a,2002b)、Zhang和Wan(2005)使用的核密度估计法就是一种常见的非参数法。

Shorrocks和Wan(2008)对传统的参数法进行了改进,在其基础之上引入一个非参数的调整步骤,因此可以看作是一种半参数法。和参数法一样,该方法的第一步是设定一个收入分布函数,比如说对数正态分布函数。然后用分组数据估算分布函数的参数值(Aitchison and Brown,1957)。有了参数估计值后,就可以用分布函数生成任意大小的收入样本。在这一过程中,选择恰当的分布函数至关重要,错误的函数形式会给产生的数据带来系统误差。当然,这种误差对分析结果的影响随研究目的不同而可大可小。

Shorrocks和Wan(2008)为了找到最佳函数形式,以美国“当前人口状况调查”数据库中的120000个微观收入数据值为总体样本,用仿真法(simulations)研究了原始分组数据格式和分布函数形式的不同对所产生的人工样本的影响。由于篇幅所限,对于文中所作的对比分析在此不一一赘述,仅指出其与以往研究不同的两个方面:一是对传统参数法中常用的一系列函数进行了考察;二是在考察中没有像以往研究那样,仅仅以生成样本和真实样本的基尼系数是否相近为判断标准,而是将更多的注意力放在了两个样本在各人口分位点上的收入份额是否接近上。基尼系数的高低取决于洛伦兹曲线(Lorenz curve)下面积的大小。因此,以基尼系数或其他收入不平等指数为标准,实质上是在考察生成样本是否在总体上(或者说综合平均而言)反映了真实样本的特征。但是,贫困研究的对象不是收入分布整体,而只是其低收入的一端。所以,如果研究目标是提高贫困指数估计值的精确度,那么选择分布函数形式时就不应该以基尼系数估计值的误差大小为标准。

在Shorrocks和Wan(2008)考察的一系列函数形式中,对数正态分布函数表现最优:生成样本不仅个体数据与真实样本高度吻合,基尼系数估计值的误差也非常小,绝对误差仅为0.2%。也就是说,如果中国基尼系数的真实值是0.4,那么用对数正态分布函数加上Shorrocks和Wan(2008)的非参数调整法,估算出的基尼系数将在(0.4008,0.3992)这一区间内。Datt和Ravallion(1992)所使用的Beta和广义二次(General Quadratic)洛伦兹函数,虽然能够较准确地估计不平等指数,但是具体到单个数据,生成样本和真实样本的拟合度却远不及对数正态分布函数。Singh-Maddala及广义Beta(Generalized Beta)这类具有三个参数的分布函数,因为其形式复杂,在参数估计时必须借助于非线性方法,参数估计值的精确度打了折扣,所以生成样本与真实样本的拟合度反而不及相对较为简单的对数正态分布函数。

回归方程(1a)和(1b)除收入变量外还涉及影响地区收入水平的其他变量,包括贸易(用对外贸易额与国内生产总值(GDP)之比表示)、外国直接投资(用FDI与GDP之比表示)、教育(用平均受教育年限表示,其计算方法参见Wan et al(2007))、抚养率(用(非农业人口数—城市从业人员数)/从业人员总数表示)、资本(用人均资本存量表示)、城市化(用总人口中非农业人口所占比例表示)、私有化(用工业总产值中国有企业产值所占比例表示)。这些变量的数据来自《新中国50年统计资料汇编》和《中国统计年鉴》2000、2001和2002年卷。

三、实证分析:贫困的分解

贫困测度中使用最为广泛的是FGT系列指数(Foster et al,1984)。常用的FGT指数包括贫困发生率、贫困深度指数和贫困强度指数三种。由于前两种FGT指数不满足或不完全满足贫困测度公理,例如转移性和单调性,本文只选用贫困强度指数SPG。其定义为:

其中,N是人口数,z代表贫困线。

关于贫困线的选择,由于中国尚未公布官方的城市贫困线,可行的办法之一是将世界银行每天1美元和每天2美元的标准按购买力平价转换成人民币标准。Wan(2005)认为世行的两个标准不适用于中国,对测量城市贫困而言显得过低,而在测量农村贫困时每天2美元的标准又太高。我们把这两个标准用Brandt和Holz(2004)提供的各地物价指数进行了调整,然后作为贫困线用来度量贫困,结果显示多数省份在样本期的城市贫困率为零。这明显与现实不符,说明贫困线确实走得太低了,相应的研究结果也没有太大的价值。所以,本文使用的是Hussain(2003)为全国31个省级行政区估算的城市贫困线。这套贫困线的构造遵循了国际标准做法,以家庭收支的微观数据为依据,考虑了不同地区间物价水平和消费习惯的区别。由于这套贫困线是按照1998年的价格计算的,我们用Brandt和Holz(2004)的物价指数对样本中的名义收入进行了相应调整。

表1列出了根据Hussain(2003)的贫困线计算的贫困强度指数。受篇幅所限,我们仅列出了各省(市、区)在1988~1992年和1993~2001年两个时期贫困强度指数的平均值。结果表明,从上世纪80年代后期到本世纪初,城市贫困在全国范围内普遍有较大幅度的下降。西部地区各省的贫困程度高于东部地区,这种地区差异并没有随时间而发生很大变化。这一点与Fang et al.(2002)的结果一致。此外,东北地区的黑龙江、吉林、内蒙古等地的贫困相对较高,反映了该地区作为老工业基地在国有企业改制过程中受到的冲击较大的事实。

表1也列出了各省(市、区)同期的基尼系数估计值。这两列基尼系数有三个特点值得注意。首先,大量研究表明,上世纪80年代后期以来中国收入分配不平等程度上升,贫富差距不断拉大。表1中的基尼系数体现了这一趋势。各省在1993~2001年期间的平均基尼系数无一例外地高于它们在1988~1992年时期的水平,个别省份的增幅高达60%。其次,中国改革前的收入分配体制存在高度平均化倾向,在城镇地区尤其如此,并且至今仍然存在。表1中的基尼系数反映了这一体制特点,表现之一是各省收入分配不均的绝对程度不高,即使是在1993~2001年期间绝大多数省份的基尼系数也在25%以下。表现之二是同一时期不同省(市、区)的基尼系数差别不大。第三,一般认为中国的基尼系数在上世纪90年代末就已经突破了40%,而表1中最大的基尼系数也仅仅略高于28%。这两个数据并不矛盾。Sicular et al.(2007)的研究表明,中国的收入不平等有一半以上可以归咎于城乡差距。Wan(2005)发现中国不同省份之间农村居民收入的差距总是大于城市居民收入的差距。因此,城市居民收入总的基尼系数应该低于40%。又因为表1中各省(市、区)的基尼系数只是构成总的城市基尼系数的一部分,所以表中所列出的估计值完全在其可能的取值范围之内。

在本文的第二部分提到,Shorrocks和Wan(2008)用仿真法验证了他们所提出的数据转化法的可靠性。因为他们使用的是美国的数据,也许有人怀疑他们的验证结果能否推而广之到中国的收入数据。但是,表1中的结果应该在一定程度上帮助消除这种疑问。表中的贫困强度指数和基尼系数是用由分组数据转化而来的微观数据计算的。如上所述,它们所反映的中国城市贫困和收入差异的特点和变化趋势与其他有关研究基本相吻合。需要进一步指出的是,本文实证研究的重点在于贫困差异,而不是贫困水平本身。因此,即使退一步来说,假如表1中的贫困指数估计值存在误差,只要这种误差是由于使用Shorrocks和Wan(2008)的转化法而产生的,那么它对贫困差异的研究就不会有实质性影响。这是因为这种系统误差往往具有方向上的一致性,会使贫困指数总是高估或低估;而当我们将两个贫困指数估计值相减时,它们各自所含的误差就会相互抵消。

表1 中国各省(市、区)不同时期贫困及收入不平等情况比较

数据来源:本文作者计算结果。

在得到了贫困强度指数的估计值后,就可以估算贫困回归方程了。我们将表1中的29个省(市、区)按地理位置分为两组,其中沿海组包括北京、天津、河北、辽宁、江苏、浙江、福建、广东、海南、山东和上海,内地组包括甘肃、青海、山西、内蒙古、吉林、黑龙江、安徽、江西、湖北、湖南、河南、广西、四川、贵州、云南、陕西、宁夏和新疆。同时,我们还以1992年为界考虑两个时段。之所以选择1992年是因为邓小平1992年的南巡讲话被普遍认为是此后中国一系列深化改革举措出台的契机。贫困回归方程的具体形式如下:

Ln(贫困强度指数)=f(基尼系数,贸易,FDI,教育,抚养率,资本,

城市化,私有化,时间趋势变量,省虚拟变量)

上式中的因变量为贫困强度指数的自然对数,这是因为贫困强度指数不可能为负,所以假设它服从对数正态分布比假设它服从正态分布更合理。回归方程右端各自变量的定义在第三部分的最后已经给出。其中,抚养率、资本、教育、城市化和私有化分别对应于生产函数中的劳动力投入、物质资本存量、人力资本存量和影响生产率的制度因素,贸易和FDI反映的是地方经济的全球化程度,时间趋势变量是技术进步的代理变量,引入空间虚拟变量的目的是为了控制地理位置以及与之相关的环境、气候、人文等因素对收入水平的影响。以上变量主要影响一个省(市、区)的人均收入。而一个省(市、区)的贫困程度不仅取决于人均收入,还受收入分配的影响,因此,我们在回归方程中右端加入了基尼系数。必须承认,这些自变量当中有些可能不是完全外生的。例如,一方面,人力资本存量越大贫困程度就越低;另一方面,高贫困也会对人力资本的积累产生不利影响。然而,这种从因变量到自变量的逆因果关系即使存在,其作用也不会在当期显现。尽管如此,为谨慎起见,我们在实际拟合回归方程时仍然使用了平均受教育年限的滞后一期值。

表2列出了分地区、分时期拟合的回归方程。由于虚拟变量的数目较多,表2没有给出它们的回归系数的估计值。和回归方程中的常数项一样,对于虚拟变量来说也不存在将其对贫困差异的贡献分解为禀赋差异和边际影响差异的问题。下文在讨论贫困差异的分解结果时,将它们和常数项放在一起定义为“其他因素”。

表2 贫困回归方程拟合结果对比

注:(1)回归方程的因变量是贫困强度指数的自然对数。

(2)自变量“教育”是平均受教育年限的滞后一期的值。

(3)r是因变量与它的回归拟合值之间的相关系数。

数据来源:本文作者计算结果。

从表2中结果的整体来看,大多数回归系数显著不为零(p-值很小),而且正负符号与理论预期相符,拟合优度系数(注:回归估计是在STATA中用“xtgls”指令进行的。“xtgls”是STATA中对固定效应面板数据模型(fixed-effects panel model)用可行的广义二乘法(feasible GLS)进行估计的程式。由于不能用,我们报告了观测值与因变量的预测值的相关系数,在表2中用r表示。)的值也在可接受的范围内。这些说明拟合结果是令人满意的。从单个变量来看,基尼系数的回归系数大于零,说明在同等条件下收入分配不平等程度较高的省贫困程度也较高;“教育”的回归系数为负值,说明人力资本的积累有利于减少贫困。“资本”变量在沿海地区的回归方程中高度显著,在内地的方程中却高度不显著。与此相对照的是,“贸易”和FDI等反映经济全球化程度的变量不仅在不同地区,甚至在同一地区的不同时期对贫困影响的大小和方向都不一样。从减少贫困的角度来说,全球化是一把双刃剑:对外贸易和外资的进入一方面会提高经济增长率,另一方面它们也会带来国际市场的风险,冲击原来政府保护之下的国内企业。表2中的结果进一步说明经济全球化与减少贫困之间的关系不仅在理论上不明确,在实践中也因时因地而不同。“城市化”变量的系数在四个回归结果中都是正值,这在一定程度上说明当农民弃农进城务工后,他们最先进入的多数是低收入行业。

基于表2的结果,我们将沿海与内地间的贫困差异按等式(5)进行分解。表3列出了1988~1992年和1993~2001年两个时期的分解结果。表3的最后一行给出的是沿海各省的平均(对数)贫困强度指数与内地各省相应的平均值之差。这一项在两个时期均为负值,并且在后一个时期的绝对值更大,说明内地不仅贫困绝对程度比沿海高,在减贫方面取得的进展也比沿海小。如前所述,表3倒数第二行的“其他因素”给出的是回归模型常数项和虚拟变量对贫困地区差异的总贡献。这一项在两个时期均为正值,说明如果消除与地理位置相关因素的影响,那么内地与沿海之间的贫困差异就会进一步拉大。这种结果显然与扶贫减贫政策的目标背道而驰。因此,我们在下面的讨论中将不再考虑“其他因素”对贫困差异的贡献。

表3的倒数第三行的结果表明,无论在哪个时期,内地与沿海的贫困差异都主要是由两个地区资源边际影响的差异造成的。具体来说,资源禀赋差异在1988~1992年和1993~2001年两个时期对贫困地区差异的绝对贡献分别为-0.029和-0.317,远远低于资源边际影响差异的-3.352和-2.118。这说明相对于沿海地区,中国内地的高贫困,主要源于资源没有得到有效的利用,不是因为内地资源贫乏。这一判断在与人均资本存量有关的分解结果中得到进一步验证。如表3所示,“资本”对于贫困差异的总贡献(边际影响差异+禀赋差异)是所有因素中最大的。而“资本”的边际影响差异的贡献是其禀赋差异贡献的10倍以上。对贫困差异的影响仅次于资本存量的是基尼系数,即收入分配的不平等程度。基尼系数的边际影响和禀赋差异项都是负值,说明内地收入分配的不平等程度较沿海高,收入分配不均对贫困的边际影响也比沿海大。

经济全球化对贫困地区差异的贡献又如何呢?表3中的结果显示,贸易和FDI在1988~1992年期间的总贡献大于零,说明在此期间它们帮助减小了内地与沿海的贫困差异。在1993~2001年期间,FDI的总贡献仍然为正,而贸易却成为增大贫困差异的因素之一。造成贸易角色转化的原因可以在表2中找到。对于沿海省份来说,对外贸易在1988~1992年期间与贫困程度相关度较小,且为正相关;而在1993~2001年期间却与贫困程度呈现出明显的负相关。对于内地省份来说,对外贸易始终与贫困程度正相关。表3中剩下的几个变量对贫困差异影响很小,在此不一一赘述。

四、结论

虽然贫困的地区差异在任何时代、任何国家都存在,但是如果任其长期下去,就会腐蚀社会凝聚力,最终形成社会不安定的因素。而要消除或减小贫困的地区差异,就首先要了解造成差异的原因。本文提出的分解框架可以将贫困的决定因素对贫困差异的贡献加以量化,从而使决策者能够比较各项因素的重要性,以实现对有限的扶贫资源的优化配置。该框架同样也可用于分析贫困在不同时期或不同人群之间的差异。

收入差异和贫困研究中一个常见的问题,是由于高额的使用费、保密协议等等原因,研究者常常无法获得以个人或家庭为单位的微观数据。针对这一问题,我们在本文中引入了Shorrocks和Wan(2008)提出的数据生成法,将分位点分组数据转化成微观个体收入数据。这种数据生成法经实证检验不仅与真实样本的拟合度高,而且操作简单,很容易用统计或计量经济软件实现。

表3 中国沿海与内地贫困差异分解结果

数据来源:本文作者计算结果。

运用上述分解框架和数据生成法,本文解析了中国内地与沿海地区之间城市贫困差异的成因。结果表明,相对于沿海而言,内地的高贫困主要是资源利用效率低下的结果。因此,要缩小与沿海的差距,仅靠增加对内地的资源投入量是远远不够的。收入分配的不平等程度较高是造成内地高贫困的另一个主要原因,所以地方政府在努力提高经济增长率的同时,应该高度重视收入差距的扩大。最后,我们的分解结果还显示,经济全球化与贫困的关系不是一成不变的,而是因时因地而不同。

标签:;  ;  ;  ;  ;  

中国沿海地区与大陆贫困差异分析&基于回归的分解方法_回归方程论文
下载Doc文档

猜你喜欢