人力资本与我国农村地区收入差距:研究方法和实证分析,本文主要内容关键词为:实证论文,人力资本论文,收入差距论文,农村论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
有关我国区域差距的文献相当丰富,早期的研究侧重该差距的度量以及其趋势,发现全国或分城乡的地区间差距从20世纪80年代中期以来不断上升。近年来,不少学者开始探讨我国地区收入差距的构成和上升的原因,如王小鲁,樊纲(2004),董先安(2004),万广华等(2005)。也有一些研究试图分析人力资本对我国地区收入差距的影响,如刘纯阳、高启杰(2004),白菊红(2005),张克俊(2005),王姮、汪三贵(2006)等。他们分别从不同的角度丰富和完善了我国的地区收入差距理论。但从这些研究的方法来看似乎存在不少可商榷的地方,归纳起来主要存在3个方面的问题 (有些技术性的小问题暂且不谈)。我们将在下面讨论这些不足之处,同时还将提出新的研究思路,并用初步实证结果演示这些不足之处可能带来的偏差。必须强调的是,本文的中心议题是评论现有的相关文献,而非探讨人力资本对我国农村地区收入差距的贡献。
二、有关研究存在的不足之处
现有的相关研究基本上是通过估算收入模型来分析人力资本对我国区域差距的影响的。因为区域差距的度量通常是逐年计算的,我们可以不考虑收入在年度间的变化。用下标i、j代表不同地区,用Y代表收入,用H代表人力资本,用X代表除人力资本外所有其他影响收入的一组变量,这时我们有:
在(1)式中,f代表收入函数形式,μ[,i]为残差项。顺便提一下,在(1)式中加入时间下标,或用多个指标表示人力资本并不改变我们下面的叙述和结论。
1.有关研究存在的第一个不足之处是设定f为线性函数形式,即:
并用最小二乘法FGLS估算该函数(其中β[,2]为一系数向量)。从根本上讲,这样的做法实际上假定了收入Y服从正态分布。我们知道,正态分布的域是从负无穷大到正无穷大,而且它的分布在Y的期望值两边是对称的。因为各省份的人均年收入一般地说不会为负(虽然个人或单个家庭的年收入可能小于0),所以设定f为线性并采用最小二乘法估算(2)显然是不可取的。事实上,国外有大量文献讨论收入这个变量的统计分布问题,有兴趣的读者可参考万广华Wan and Shorrocks (2006)。简单地说,我们不能设定Y为正态分布,至少应该用对数正态分布来描述收入Y,更为复杂的分布包括广义Beta分布和Singh-Maddala分布等。
2.有关研究的第二个不足之处在于用β[,1]的估算值来说明人力资本对区域差距的影响。其实,用不同教育程度的劳动力比重代表人力资本的做法也值得商榷,但对此我们不作详细讨论。国内外通常的做法是用人均受教育年限代表人力资本的存量。我们知道,在(2)式中,β[,1]代表人力资本对收入的边际影响,即使(2)式的左边为LnY,β[,1]也只代表教育回报率,不能说明人力资本与收入差距的关系。我们知道,任何一个合理的分析方法都必须考虑人力资本的分布状况,并与人力资本的边际影响或回报率结合在一起,以便分析人力资本对收入差距的影响。从这个角度出发,有关研究及类似研究所得到的结论是不可靠的。
我们可以很简单地通过举例来说明为什么β[,1]的符号或大小不能反映人力资本对收入差距的影响。为了方便起见(但不失一般性),我们只考虑两个人或两个地区之间的收入差距;同时保留有关研究中收入函数为线性的假设(在非线性的情况下,我们的论点同样成立)。这时:
也许有人会问,如果不只是考虑两个地区,同时收入差距是用其他不均等指标度量(如基尼系数),上述结论能否成立呢?为了回答这个问题,我们将(2)式中的下标去除,并用Y、H和X分别代表一组跨多个地区的观察值,这样(2)式变为:
在(5)式中,我们定义了。对(5)式两边分别求基尼系数(用G代表),我们有:
对于(6)式的推导,读者可参见万广华Wan(2004)。其中E表示期望值,C表示集中系数。有关基尼系数和集中系数的定义和计算,可参阅万广华(1998)。
根据(6)式,人力资本对地区间基尼系数的贡献为。因为E(H)代表人力资本的期望值,β[,1]代表人力资本的边际效应,而代表由人力资本H和其他要素X所产生的收入的期望值,所以三者一般均为正。这样一来,人力资本对地区差距的贡献有可能为负(如果 C(H)<0),也有可能为正(如果C(H)>0),甚至可能为0(如果C(H)=0)。显然人力资本对地区差距的贡献不完全取决于β[,1]的符号或大小。特别需要强调的是,在使用变距系数或对数收入方差作为不均等指标时,这里的推断仍然成立。
事实上,仅仅凭直觉和常识我们也可以获得上面的结论。在人力资本的边际收入为正的情况下,如果它的分布与收入分布呈正相关,那么它对收入差距的贡献就是正的。相反,如果是贫困地区,人力资本反而较高(即它与收入分布呈负相关),那么它对收入不均等的贡献就是负的(有助于缩小收入差距)。当然,如果人力资本的分布是完全均衡的,那么无论它的边际效应为正还是为负,也不管有多大或多小,它与区域差距应该没有任何关系。
3.有关研究的第三个不足之处在于数据处理和模型估算方面。有些文章只是简单地交待了数据来源,没有交待变量的度量衡单位。另外,读者不知道以价值形式表示的变量有没有去胀。更为重要的是,尽管这些文章的中心是区域差距,但很少有人考虑地区间价格水平的不同。万广华 (2001)的研究表明,不考虑地区间通货膨胀和价格水平的不同会使区域差距被错误地高估,高估程度甚至达到30%。在模型估算方面,虽然不少人所用的是面板数据,但并未考虑面板数据的性质,而是将数据当作时间序列处理的。
三、人力资本与区域差距:分解方法介绍
如何分解人力资本对区域差距的贡献呢?我们用一个简单的例子加以说明。如前所述,设想收入Y是由人力资本H和其他一组变量X决定的,这时我们有(为了方便解释,我们暂时省略残差项):
如果进一步假设人力资本H也在不同地区平均分配,就有:
显然由(11)式给出的所有地区或个人的收入完全等同。换句话说,与(11)式对应的收入不均等为0。同时,与(10)式对应的收入不均等完全是由人力资本的不均等引起的,因为在这里由X代表的所有其他要素在不同地区是没有差距的。这样一来,我们就可以将与(10)式对应的收入不均等归结于人力资本的贡献。同样地,我们可以假设人力资本在不同地区是平均分配的,而X(代表物质资本和其他所有投入要素)取实际的观察值,这时不同地区的收入由下式给定:
由(12)式给出的收入在不同区域间也是不相等的。而这个不相等完全是由X引起的,与人力资本无关。所以说,与(12)式对应的收入不均等可以定义为X的贡献。
另外,我们还可以计算由(9)和(10)式得到的收入,并获得对应的不均等指数(如基尼系数、泰尔指数等)。这两个不均等指标值的差也应归结为X的贡献。与此相同,通过(9)和(12)式,我们能够得到另一个人力资本对区域差距的贡献。
上述的步骤使我们得到X或人力资本对区域差距贡献的不同的估算值,通常的做法是将这些不同的估算值求平均。Shonrocks(1999)证明,上述的不均等分解方法符合合作博弈论原理,而且这些平均值的加总正好等于收入的不均等,无论不均等是用哪个指标来度量。
四、人力资本与我国农村区域差距:实证分析举例
首先需要说明,我们的实证分析结果是初步的,也是不完善的。在这里提供这些结果仅仅是为了演示本文第三部分所描述的分解方法,同时说明有关研究的不足之处所带来的偏差。
根据人力资本理论,收入主要取决于教育程度和经历。因为省级加总的数据没有年龄方面的信息,而且我国农村平均劳动力的年龄在省际间变化应该不是很大。故我们只采用了人均教育年限作为人力资本指标。当然在我国农村影响收入的变量还有固定资产存量(我们用人均固定资产原值(元/人)来表示,因为该变量可能是年初统计值,所以我们没有考虑它的内生性),土地资源用人均耕地亩数来表示,劳动力资源用每个劳动力负担人口或负担率来表示。同时把家庭常住人口放进模型,以控制家庭类型。一般地说,人口越多的家庭往往老弱病残较多。另外,因为农村劳动力总体来说是过剩的,故大家庭的人均收入往往比小家庭的要低。应该说,工资收入占总纯收入的比例是一个重要的变量,它反映工业化程度或农村收入结构,但我们发现该变量在不少年份缺失。最后,为了控制技术变化和宏观经济环境,我们加进了时间趋势及其平方。需要说明的是人均纯收入和固定资产都用各地区的价格指数和Holtz构造的地区价格水平指数去胀了。
建模的第一步是选择函数形式,为此我们估算了6个模型,结果见表1。因为表1中的似然函数的对数值是可比的,我们可以简单地使用X[2]检验在这几个模型中作选择,其统计检验值为相应模型似然函数对数值之差的两倍,自由度为1。检验结果是双对数模型最优,我们注意到,双对数模型的R[2]也相对较高。这些结果证明,我国农村的收入方程不是线性的,而是双对数形式的。
建模的第二步是考虑面板数据的性质。表1中估算的模型均是把面板数据当作时间序列来对待的。面板数据模型有3种处理方法。固定效应技术、随机效应技术以及Kmenta技术。有关Kmenta技术的详细说明,可参见万广华(2005)。随机效应技术要求残差与地区特征不相关的假设,这在很大程度上是不能接受的。固定效应技术的一个严重缺陷是它带来较大的自由度的丧失,并常常引入多重共线性。所以我们在本文中采用Kmenta技术,并结合了固定效应技术。我们在双对数模型中引入了部分地区虚变量,用以代表地理区位对收入的影响,并采用Kmenta技术对该模型重新进行了估算。由于家庭人口变量不显著,我们在最后的模型中舍弃了这个不重要的变量。
表1 不同收入函数模型的估算结果(未报告区位虚变量项)
注:破折号前后的函数名称分别代表对因变量和自变量的转换。灵活代表Box转换。T**为时间趋势变量
表2 收入模型的估算结果:Kmenta估算法
注:破折号前后的函数名称分别代表对因变量和自变量的转换;T**为时间趋势变量;未报告区位虚变量项
表2报告了由Kmenta技术处理的收入函数。仅仅是为了比较,我们在表2中列出了线性函数的估算结果。针对双对数模型,所有系数符号与预期相符合。劳动力负担程度不很显著反映了劳动力过剩这个事实,所以是可以理解的。耕地面积的系数为负,与种植业回报率低有关,这个结果也与Wan and Cheng (2001)相一致。显然,由时间趋势(一次项和二次项)代表的宏观经济环境与收入呈U型的关系,这与20世纪90年代中期实行的米袋子省长负责制和农业生产资料价格大幅度上涨的事实相一致。另外,固定资产的收入弹性较低,而教育的收入弹性较高。最后,在土地、资产及教育程度等投入给定的前提下,负担率的增加导致人均收入的下降。
现在,我们使用双对数模型来分解我国农村区域间的收入差距。为了度量收入Y的差距,而不是对数收入LnY的差距,我们首先通过双对数模型求解Y得到:
因为我们所要使用的不均等指标都是相对指标,故(13)式中的常数项及时间趋势项皆可不予考虑,也就是说,最终用来进行地区差距分解的等式为:
借用联合国世界发展经济学研究院(UNU-WIDER)的分解软件,我们可以得到1985-2002各年的不均等分解结果(见表3上半部分)。我们同时用线性函数对农村区域差距作了分解,结果见表3下半部分。因为本文的中心是评论有关研究,而非探讨农村区域差距的构成,故我们不对表3做详细解释。但比较表3的上下两部分可以看出,模型设定的错误将给研究结果带来相当大的偏差。特别是用线性模型会大大高估教育和资本对我国农村区域差距的贡献,同时低估耕地的贡献。
表3 对我国农村区域差距的分解结果
五、小结
本文探讨了对收入差距的有关研究中存在的3个方面的不足(即设定的收入模型为线性函数形式;用人力资本对收入的边际效应来说明它对区域差距的影响;忽略面板数据的性质),并用实例验证了这些不足之处。最后我们还提出了一个思路,以用于分解地区差距的影响。初步分解结果说明有关研究的线性函数将带来多方面的偏差。