城市居民教育收益率的区域差异及其解释_样本方差论文

城镇居民教育收益率的地区差异及其解释,本文主要内容关键词为:收益率论文,城镇居民论文,差异论文,地区论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、前言

自1958年美国经济学家Mincer发表他的著名论文,提供了将个人收入与教育程度和工作经验联系起来的明瑟收入函数以来,很多研究者开始尝试用这一方法估算世界各地的教育投资收益率。世界银行经济学家George Psacharopoulos于1973年发表了一篇被广泛引用的文献《教育回报:一种国际比较》。国内外学者也多次利用不同数据估算中国居民的教育收益率,结果不一。其中,我国学者李实与李文彬(1994)、赖德胜(2000)、李实与丁赛(2004)分别利用了中国社科院经济研究所收入分配课题组1988年、1995年和1999年的全国统计资料估计了我国居民教育的明瑟收益率,这些研究在同类研究中较为全面和具体,也被引用得最多。刘泽云(2004)总结了20世纪80至90年代有关中国教育明瑟收益率的研究,发现大多数研究的结果在2%—6%之间,低于世界平均水平(约为10%)。在此之前,赖德胜(2000)和孙志军(2005)也分别做了很好的综述。

在城市经济改革前,中国城镇劳动力资源的配置受计划控制,存在城乡壁垒和部门分割;职工的工资和福利完全由国家决定,而且被长期冻结。在这种状况下,职工的收入与其受教育的程度关系不大,至1988年中国的教育收益率仍大大低于世界的平均水平。随着中国经济改革,尤其是伴随着企业改革,居民的教育收益率开始呈现逐年提高的趋势(李实与丁赛,2004)。在这种背景下,现有文献还关注了教育收益率在地区和各种人群中的差别问题,并做出了一些有益的探索。研究者们大多把教育收益率的提高和地区差异归因于我国劳动力市场的开放和开放的地区差异。李实与丁赛(2004)分析了教育收益率与劳动力市场分割的关系,得出了个人就业单位的所有制性质对教育收益率的影响变得越来越明显的结论。赖德胜(2000)尝试了用11个省的表征劳动力市场分割程度的合同制职工占全部职工的比重和国有工业总产值占全部工业总产值的比重,对1995年各省的教育收益率做OLS回归分析。系数的符号(正负)正如作者所预期的那样,显示各省合同制比重越高,教育收益率越高;国有工业总产值的比重越高,教育收益率越低。这些研究虽然试图解释教育收益率的差异,但是受到研究方法的限制,并且在回归分析中缺少足够的观测数,得出的结果不具有稳健性。

现有的研究大多采用OLS法,估计明瑟收入函数进而得到居民个人多受一年教育或受高一级教育的收益率。不难想象,每个地区的经济和社会变量,如劳动力市场的发育程度也会对当地居民的教育收益率产生影响,但一般而言OLS模型无法估计这种影响(详见本文第三部分)。其实处理这种既有个人变量,又有个人以上层次变量的回归问题,一般用分层线性模型(hierarchical linear model,简称HLM)。现有有关中国教育收益率的研究中仅刘泽云与萧今(2004)采用了分层线性模型方法。不过该文研究的重点是学校教育、成人教育和企业培训对职工工资及其增长的作用,而不是个人的教育收益率。另外,该文数据为1998年中国6省12市县400多家企业职工的调查样本。刘泽云与萧今(2004)分析了该样本数据存在的缺陷,如企业样本的代表性不足、因有些年份职工的工资为回忆而导致的误差、无法区分企业的行业因素和没有考虑职工的福利收入等。因此,地区的经济和社会变量,如一个地区劳动力市场的开放程度对个人教育收益率究竟有何影响,有多大的边际影响,在多大程度上可以解释教育收益率在各个地区的差异还值得进一步的探索。

在李实与李文彬(1994)、赖德胜(2000)、李实与丁赛(2004)等的基础上,本文利用分层线性模型重新估计了1995年和2002年我国城镇居民的教育收益率。本文的贡献有两点:(1)发现无论是1995年还是2002年我国城镇居民的教育收益率地区差异很大,差异主要来源于各省内部的城市之间,而以往研究所强调的省间差异并不显著;(2)第一次计算了省内城市的劳动力市场化程度对当地居民教育收益率的边际影响,得出了劳动力市场的发育确实有利于提高教育收益率的结论,而且用劳动力市场化程度的差异解释了各地教育收益率的差异。

二、数据来源和变量说明

本文数据来源于中国社会科学院经济研究所“中国城乡居民收入分配”课题组1995年和2002年两次住户抽样调查数据,其中1995年的数据与赖德胜(2000)利用的数据相同。该调查样本在国家统计局大样本内进行了二次抽样,城市样本涵盖了我国东、中、西三大地域12个省份60多个城市(包括县级市)的上万个家庭的调查数据(参见表1)。调查的主要内容是我国城市居民的收入、消费和财产分布,还记录了就业人员所属的产业部门、所有制性质和职位。个人、家庭、各地、市和各省均有编号。可以说,该调查是目前可以获得的研究中国居民收入分配最全面、最可信的微观分户资料。①

为了使个人收益率的估计更为准确,本文个人样本的选取和个人年收入的定义同李实与丁赛(2004)一致,即个人样本仅包括当年全年在职的职工,当年有过失业或下岗经历的家庭成员不包括在内。此外,个体经营者和私营企业主也不包括在内,因为他们的收入受到物形资本的影响。个人收入包括了个人从各种途径获得的货币与实物收入。

如何度量劳动力市场的发育或市场化程度对于研究教育收益率变化的问题具有关键意义。度量指标要确实能反映市场化的程度,同时取决于可获得性。在实际研究中,研究者通常用国有企业职工或合同制职工占总职工比重、国有工业占全部工业总产值的比重等指标来度量一个地区劳动力市场的开放和发育程度。这些指标基本上是宏观数据,是否能反映研究者所利用的微观数据中个体样本参与劳动力市场的程度尚大有疑问。在同类研究中,我们首次使用来源于个体样本的变量作为劳动力市场发育程度的指标。两年的样本中,有当时正就业的家庭成员如何获得现有工作的记录。1995年调查问卷中,关于如何获得现有工作的记录项有“政府安排”、“顶替”、“职业介绍所介绍”、“自己找到”和“其他”等五项,我们称除了前两项以外的方式为“通过劳动力市场谋职”,将它所占的比例定义为“通过劳动力市场谋职的比例”,并将它作为劳动力市场发育的指标之一。2002年的关于如何获得现有工作的记录更加详细,② 我们用同样的方式定义了通过劳动力市场谋职的比例。③ 同时,我们也从样本中计算国有部门职工占总职工的比重作为劳动力市场化的另一个指标。为了检验宏观数据“国有工业占全部工业总产值的比重”是否影响各地的教育收益率,我们也将1995年样本中共69个城市的这一变量作为度量指标之一。

劳动力市场化变量的描述性统计见表2。从表2我们可以发现我国城市间劳动力市场发育存在很大的地区差异。自1995年至2002年,各城市的劳动力市场化程度有很大进步,平均水平提高了约16个百分点,但市场化程度最低的城市却进步不大,1995年最低的为2.6%,2002年最低的只达到8.2%;国有部门职工的比重平均下降了50个百分点,但比重最高的仅下降了30个百分点。这显示了在这7年间各地劳动力市场的发育很不平衡,有些地方较其他地方缓慢。

三、模型和方法

在社会科学的一些研究领域,数据结构常常是分层的,有一些变量描述了个人特征,同时由于个人组成了某些层次或组织,又有一些变量描述层次或组织。一个被广泛引用的例子是在教育领域,一个个学生组成了班级,一个个班级组成了学校。每个学生的成绩是他个人努力程度和(他父母)所处的经济社会地位的函数,与此同时全班同学平均的经济社会地位和教师变量也影响他的成绩。除了班级以外,学校乃至社区变量(如学校的公立或私立性质、社区的财政收入状况)也可能影响学生的成绩。如果把相同的组织数据加到同一组的每个个体身上做OLS回归就会违反经典统计技术的一个基本的假定——观测的独立性假定(independence of observations),因为首先在分层的数据结构中,尽管不同班的学生之间是相互独立的,但在同一班内,根据一个学生的组织变量就可以获知其他学生的组织变量,因此同一班内的观测并不完全是独立的。其次,同一班的学生之间由于拥有相同的组织变量而更为相似和接近,在回归中由于有些变量不可观察而进入误差项,从而使得误差项有相关性。此外,直接对每一组的数据进行OLS回归将丢失大量的信息,且可能遇到观测值太少使得估计值不显著的问题(Raudenbush and Bryk,2002)。④

解决这个问题的方法是先在简单回归模型中假定每一个组织有各自不同的截距和斜率,因为组织也是抽样的,因此可以再视这些截距和斜率是从所有组织的截距和斜率中抽样的,是所有组织的截距和斜率的一个随机样本。这样就定义了一个随机参数模型,也就是所谓的分层模型(Hierarchical model),或多水平模型(multi-level model)。如果变量之间的关系是线性的,就称分层线性模型(HLM)。在社会科学领域,早在1983年就有学者研究一个国家的经济发展水平和妇女的受教育水平对于妇女生育率的影响。在这里妇女的受教育水平是个体变量,一国的经济发展水平是组织变量,同一个国家的妇女有相同的组织变量(Mason et al,1993)。自20世纪90年代以来,社会科学家出版了大量论文讨论分层模型的应用及其估计方法,并开发了可方便用于估计分层模型的各种程序和软件。在估计方法上,一般采用收缩估计(shrinkage estimation)和广义最小二乘法(GLS)估计模型的系数,用受限的最大似然法(MLR)或贝叶斯方法(Bayesian methods)估计方差成分和协方差成分。⑤ 在各种软件中,HLM各版本功能集中,效率较高,为研究者所常用。本文的数据是通过STATA整理得到的,模型的估计则通过软件HIM6.0完成。⑥

我国幅员辽阔,东、中、西地域差别大,加上正处于经济改革和经济转型期间,各地居民的收入水平有较大差别,改革的进展不同步,劳动力市场的发育程度也不一。差异不仅存在于各省之间,而且存在于省内各城市之间,一些省的城市之间的发展水平的差异有扩大趋势。就居民的教育收益率而言,是否存在同一城市居民的收益率有更大的相似性而与省内其他城市有显著差异、同一省的收益率有更大的相似性而与其他省有显著差异这种状况呢?由于我们1995年和2002年的数据样本既包含了个人信息,又有关于市、省级的信息,这样可以尝试把数据结构进行分层,将(各省各城市内部的)个人信息看做是第一层次,省内各城市为第二层次,各省为第三层次。以下,我们建立两个分层线性模型分别来分析收益率在省内城市间和省间的差异,然后引入城市一级劳动力的市场化程度这个变量来解释收益率的差异。

1.教育收益率和方差分析

在下面的随机参数模型(random-coefficient model)中,一个城市的平均收入(截距)和教育收益率(斜率)被看作是从一个省内抽取的一个随机样本,截距和斜率因城市不同而不同;一个省的平均收入(截距)和教育收益率(斜率)被看作是从所有省中抽取的一个随机样本,截距和斜率因省的不同而不同。我们把这个模型记为模型1。

那么居民教育收益率可以表示为:

2.劳动力市场化程度对教育收益率的影响

为了解释各地教育收益率的不同,我们在分层2中引入了劳动力市场化程度作为各城市教育收益率的解释变量。在我们的分析中,“通过劳动力市场谋职比例”和“国有部门就业职工比重”用作劳动力市场化程度或开放程度的代理变量。下面是模型2。

在分层2加上劳动力市场后,教育收益率公式变成:

四、估计结果和分析

下面我们列出估计的结果并进行分析。模型1参数和方差成分的估计见表3。

从计量结果看,无论是1995年还是2002年,收益率省间方差的估计值都不显著,但省内方差的估计值都显著大于零,ρ几乎为1。这表示教育收益率的差异并不是源于各省间,而是源于各省内部的城市之间。以往的研究也虽然得到了收益率在各省的差异,但没有对收益率的总变差进行方差分解,因而不能探究差异的来源。

误差项服从正态性的假设直接关系到置信区间的估计。图1以1995年为例,刻画了基于最终拟合模型分层2中的正态概率或Rankit图。这个图虽然近似地而不是精确地为一条直线,但显示样本服从正态分布的假设基本成立。(11) 残差经Shapiro-Wilk W检验,在相当高的显著性上不能拒绝服从正态分布(参见表4)。因此,通过简单的计算可得,(12) 在1995年和2002年置信度为95%的置信区间分别是(0.0179,0.0669)和(0.0488,0.120)。用OLS方法得到的95%的置信区间,1995年为(0.040,0.047),2002年为(0.086,0.095),于没有考虑地区间的差异因而大大缩小了收益率的变化范围。前文提到过20世纪80至90年代使用不同样本计算的中国城镇明瑟收益率的研究结果在2%~6%之间,正好落在我们估计的区间内。因此,用分层线性模型得出的收益率的变化范围解释了为什么众多研究者在计算中国的教育收益率时得出了大不相同的结论。

从收益率各地差异的比较看,(13) 1995年收益率最高的城市是最低的近4倍,2002年是近2.5倍,是什么造成了如此巨大的差距?作为中国经济转型一部分的劳动力资源配置的市场化过程对城镇居民的教育收益率究竟有何影响?如果回答是肯定的,那么它有多大的边际影响?在多大程度上可以解释教育收益率在各个地区的差异?模型2估计的结果回答了这些问题。模型2参数和方差成分估计见表5。

表5中,是一个城市劳动力市场化的边际教育收益率。1995年一个城市中“通过劳动力市场谋职比例”的边际教育收益率为0.0388%,也即如果一个城市通过劳动力市场谋职的比例高于全国平均水平的10%,那么该地的教育收益率将高于全国水平0.38个百分点。1995年,通过市场谋职比例最高的广东省顺德市高于全国平均水平40个百分点,因此当地的教育收益率高出全国平均水平1.52个百分点。1995年国有经济职工比例对教育收益率有负影响。城市这一比例比全国水平低1%,那么教育收益率上升0.0526%。当年比例最低的还是顺德市,比全国水平低40%,由此该地的教育收益率提高约两个百分点。此两项使顺德市教育收益率高出全国水平3.5个百分点。在我们的样本中,劳动力市场化程度占前列的大部分是广东省和江苏省的一些城市,宽松的劳动力市场导致了较高的教育收益率吸引了当时大批高学历人群去华南和东南沿海地区寻求工作,有所谓的“孔雀东南飞”一说。反观当时劳动力市场化程度较低的地方,除了处于边陲的云南省和西北的甘肃省的一些城市外,还有一些内地省会城市和资源型城市,改革的滞后导致了这些城市较低的教育收益率。

我们尝试了在模型2的分层2加入宏观数据“国有工业比重”变量来检验它对教育收益率的影响。无论是单独引入这个变量,或是与劳动力市场化的其他变量一起引入,国有工业比重的系数估计值虽是负的,但在统计上都不显著。

2002年“通过劳动力市场谋职比例”对城市居民教育收益率的边际影响上升至0.0419%。这一年比例最高的是广东省佛山市,高于全国水平40%,这使当地的教育收益率高于全国1.67个百分点。值得注意的是在这一年,昔日劳动力市场化的另一个重要变量“国有经济职工的比重”系数略微大于零,但统计上很不显著。这显示国有经济经过7年的改革,尤其是通过破产、重组和建立现代企业制度,国有部门不仅就业比重大为下降,(14) 用工制度的市场化程度也有提高,职工的教育收益率与其他所有制经济已无显著区别。依所有制来区别居民教育收益率已经不再有显著意义,这也许从一个方面显示了世纪之交中国国有企业一系列重大改革举措所取得的成绩。(15)

另外值得一提的是,2002年仅就企业部门就业者而言,劳动力市场化程度对教育收益率的影响在省间呈现差异。在全样本中,劳动力市场化程度对教育收益率的边际影响

经过简单的计算得到,在控制了劳动力市场化程度变量后,1995年方差减少比例为44%,也即各城市教育收益率差异的44%是由劳动力的市场化程度引起的;2002年,方差减少比例为12%,即城市教育收益率的差异中只有12%可以归于劳动力的市场化程度,这意味着各地教育收益率的差异更多地应由我们模型中没有包含的其他因素来解释。在中国城镇劳动力市场更加开放的2002年,劳动力市场化程度的差异对各地教育收益率差异的贡献减少是完全可以理解的。在我们的样本中,城镇居民中通过市场谋职的比例从1995年的18.1%增加到2002年的34.6%,即超过1/3的居民是通过劳动力市场获得现有工作的。随着我国城镇普遍建立比较完善的市场经济体系,可以预见劳动力市场化程度对教育收益率差异的解释将越来越小。因此,从国有部门从业人员比重对教育收益率的影响不再显著,劳动力的市场化程度对教育收益率差异的解释力的减低可以看到1995—2002年这7年中我国市场经济的进步。

五、结束语

至此,我们以分层线性模型重新估计了1995年和2002年我国城镇居民的教育收益率,获得了置信度为95%时的教育收益率落入的区间。即使在1995年在这一区间的高值尾部,教育收益率并不像OLS方法估计的那样低下。这或许解释了上世纪80年代、90年代中国城镇家庭旺盛的教育需求和投资教育的热情。2002年我国的教育收益率已处于世界平均水平。同时,我们看到教育收益率的地区差异主要源于省内城市之间的差异,而非省间差异。各地劳动力市场化程度对各地的教育收益率有正面影响。劳动力市场化程度越高,教育收益率也越高。各地教育收益率的差异,部分地可以归结为劳动力市场化程度的不同。由更加开放的劳动力市场导致的教育收益率的提高,还为世纪之初中国居民高涨的投资教育和高等教育的热情提供了很好的注解。

附录:企业部门教育收益率的计算公式和参数、方差的估计

参数和方差的估计至少满足5%的显著性水平。读者可据此计算企业部门从业人员教育收益率95%的置信区间。

作者感谢国家社会科学基金项目(06CJY012)和广东省自然科学基金项目(06300504)的资助,感谢在北京大学和在北京师范大学参加讨论会的老师和同学的帮助,感谢匿名审稿人的建设性意见。文责自负。

注释:

① 参见:Riskin,Zhao Renwei and Li shi,Chinese Household Income Project,1995,2002.ICPSR Version.MA:University of Massachusetts,Political Economy Research Institute(Producer),2000。1995年样本数据的描述性统计可参见赵人伟(1994)、赖德胜(2000)和李实与佐藤宏(2004)。对CHIPS 2002数据的详细说明,参见Li shi,Luo Chuliang,wei Zhong and Yue Ximing,2007,Appendix:The 1995 and 2002 Household Surveys:Sampling Methods and Data Description,to be published in Inequality and Public Policy in China,eds.Bjorn Custafsson,Li Shi and Terry Sicular,Cambridge University Press.

② 除了与1995年问卷相同的五项外,还有“公开考试”、“就业部门介绍”、“保证招聘”、“私人介绍”、“自己寻找”、“其他”等。

③ 由于被调查者并不一定在调查当年获得工作,因此准确地说这里“通过劳动力市场谋职的比例”应该是累积至1995年的比例和累积至2002年的比例。

④ 如果对本文利用的数据对各个城市分别做OLS回归,那么1995年在69个城市中有8个城市、2002年在77个城中有7个城市的教育收益率在统计上不显著,而且有些城市回归方程调整的R[2]-Square很小,不到1%。

⑤ 关于系数估计更详细的探讨,以及方差、协方差的估计,请参考Raudenbush and Bryk(2002)第3、13和14章。

⑥ 见Raudenbush and Bryk(2002)、Singer(1998)。Stara和SAS也可估计分层模型,但耗时较长,尤其是观测值过多时;同时,报告的结论不如HLM详尽。

⑦ 如果不作中心化,那么截距表示既没有上过学,又没有任何工作经验的人的收入。我们的样本不包括这样的个体。我们知道作这样的中性化影响截距,但不影响斜率的估计。对解释变量作中心化是分层模型常用的方法。

⑧ 为书写方便,在不引起混乱的前提下,省略估计值头上的符号,如。下同。

⑨ 事实上,工作经验的斜率在省内各城市间有差异,统计上也显著,但方差极小。由于它不是我们研究的主题,作这样的假定不影响我们的结果。

⑩ 事实上,我们曾经用我们的样本估计过误差项的方差,但估计很不显著,在省间没有差异的零假设不能被拒绝。

(11) 详见weisberg(1985)第6章;软件SPSS关于Q—Q图形的解释。

(12) 根据公式),1995年分层2的自由度为68,2002年为76。

(13) 限于篇幅,没有列出各省及省内各市教育收益率比较的结果,有兴趣的读者可向作者索取。

(14) 从表2可以看到,调查样本中国有经济部门就业的比重从1995年的83.6%下降到2002年的33.1%。

(15)在2002年的全样本中,如果将“国有经济职工的比重”替换成“企业部门就业的比重”,那么后者对教育收益率有显著影响。边际影响为0.0363,一个城市在企业部门就业的比例越高,收益率也越高。原因正在于企业部门劳动力资源的配置比事业单位和政府部门更多地依赖于市场。

(16) 企业部门教育收益率的计算公式和参数、方差的估计在附录,供有兴趣的读者参考。

标签:;  ;  ;  

城市居民教育收益率的区域差异及其解释_样本方差论文
下载Doc文档

猜你喜欢