中国教育收益率的生命周期误差与元分析_相关性分析论文

生命周期偏误与中国教育收益率元分析,本文主要内容关键词为:收益率论文,中国教育论文,生命周期论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

教育收益率对于认识教育投资规模的适宜性、收入分配公平性等问题都具有重要的意义,自从Schultz(1961)、Becker(1962)、Mincer(1974)以来,教育收益率一直是研究领域关注的热点问题。明瑟方程是研究教育收益率使用最广泛的模型,由于明瑟方程OLS回归存在一些内生性问题,可能会造成估计结果有偏,很多研究致力于克服这种内生性问题,以得到更准确的估计结果。为了克服遗漏变量、测量误差、样本自选择等造成的内生性问题,研究领域采用的估计方法有固定效应法(双胞胎数据)、工具变量法(以学费、义务教育法定年限等变化作为工具变量)、两阶段最小二乘法,代理变量法(如以智商水平代理潜在能力)、Heckman选择模型、断点回归法、得分倾向匹配法等。①由于劳动者整个生命周期的收入数据难以获得,终身收入就难以计算,以较易获得的当期收入代替终身收入,是研究领域的普遍做法。研究中国教育收益率的文献有很多②,但大多是以当期收入来进行的。然而,以当期收入代替终身收入的合理性依赖于一些很严格的假设(Heckman,et al.,2006,2008),而在现实中这些假设是很难满足的。有研究表明这种替代会造成生命周期偏误,Bhuller,et al.(2011)使用挪威几乎能够涵盖劳动者整个生命周期数据进行的研究指出,在估计教育收益率的过程中,生命周期偏误可能是比内生性偏误更严重的问题。截至目前,关于生命周期偏误的研究基本是使用发达国家的数据来进行,中国作为一个处于转型时期的发展中大国,其规律是否具有相似性,还是一个难以确定的问题。本研究将对以当期收入估计的中国教育收益率进行元分析,对其中可能存在的生命周期偏误进行评估,为相关研究领域增添来自中国的证据。此外,很多研究表明中国教育收益率存在增长趋势,而与此同时中国正面临人口老龄化趋势,本研究将对我国样本年龄情况与教育收益率估计结果的关系进行分析,对中国教育收益率的长期变动趋势进行再认识。估计结果表明,现有研究得到的我国教育收益率的变化情况,有接近30%的变化要归因于样本平均年龄的变化,也就是说,现有研究可能高估了我国教育收益率的增长幅度,大约有30%的教育收益率增长幅度可能要归因于人口年龄结构的变化。在我国人口老龄化的趋势下,样本年龄结构在不断变化,在分析我国教育收益率及教育收益率增长趋势时,生命周期偏误不可忽视。

二、文献回顾

Bjrklund(1993)使用瑞士1951-1989年的长期面板数据对当期收入和终身收入的关系进行了分析,指出在计量分析中以当期收入替代终身收入存在潜在的问题。Haider & Solon(2006)使用扩展的变量误差模型在理论上证明,如果当期收入与终身收入的关系在整个生命周期内存在变动,使用当期收入代替终身收入进行估计就会产生生命周期偏误,并使用美国1951-1991年的长期面板数据证实了这种生命周期偏误的存在。使用不同国家的长期面板数据对扩展的变量误差模型进行了拓展的研究有:Bhlmark & Lindquist(2006)使用瑞典数据;Brenner(2010)使用德国数据;Nilsen,et al.(2010)使用挪威数据等。

Bhuller,et al.(2011)使用挪威1967-2008年数据的研究指出,在计算教育收益率的过程中,生命周期偏误可能是比内生性偏误更严重的问题。该研究对使用当期收入和终身收入估计的教育收益率进行对比分析,除了使用OLS估计方法外,还使用了另外三种估计方法以克服内生性的影响,③估计结果都验证了生命周期偏误的存在,也就是说使用现有的多种估计方法,都难以避免生命周期偏误的产生。Brunello,et al.(2012)应用欧洲9个国家长期面板数据进行的研究,对于收入水平的衡量,既使用了终身收入,也使用了首次就业收入和当前收入(对于退休者是退休时的收入),如果不存在生命周期偏误,以不同收入衡量方式估计教育收益率,估计结果应该是相近的,但是结果显示估计系数值有较大差异,说明生命周期偏误是存在的。该研究还在普通明瑟方程的OLS估计中加入了教育年限与工作经验年限的交叉项,如果不存在生命周期偏误,交叉项的估计系数应该是不显著的,但是估计结果显示交叉项显著为负。说明使用当期收入估计教育收益率在人生的不同时期结果会有差异,而以终身收入计算的教育收益率应该是稳定的,两者的差异反映了生命周期偏误的存在。

由于人口的年龄结构是在不断变化的,导致样本的年龄结构也会发生变化,在这种情况下,教育收益率的变动趋势分析可能会受到生命周期偏误的挑战。Bhuller,et al.(2011)的研究中,当使用16—64岁的样本进行回归时,教育收益率在20世纪80年代到90年代呈现出明显的上升趋势,当使用与终身收入估计结果最接近的32—33岁样本进行估计时,这种上升趋势消失了,该研究指出很多使用发达国家数据所获得的教育收益率增长趋势,可能只是生命周期偏误所造成的假象。使用当期数据所估计的中国教育收益率在20世纪80年代以后同样表现出了明显上升趋势,这些研究无一例外都是使用当期收入代替终身收入,且大多得到了教育收益率具有上升趋势的结论。④根据现有研究得到的规律,样本平均年龄越高,教育收益率的估计结果可能越高。而随着我国人口的老龄化趋势,人口和劳动者的平均年龄在持续上升。在这种情况下,教育收益率上升的趋势至少有一部分可能是由人口平均年龄的上升造成的,也就是说现有研究可能高估了中国教育收益率上升的速度。高估的程度如何是需要研究领域进一步探索的问题,本研究将使用元分析方法尝试对这一问题进行分析。

研究领域有若干关于教育收益率的元分析文献。Ashenfelter,et al.(1999)使用9个国家的27篇文献对教育收益率估计结果进行了元分析,分析了不同地区、不同时期、不同方法所估计的教育收益率的差异情况。在控制了发表偏误以后,不同估计方法所获得的估计结果差异很小。工具变量法和双胞胎数据固定影响法的发表偏误显著,而OLS估计的发表偏误不显著。基于OLS估计相对于其他估计方法在发表偏误方面的优势,本研究的元分析将以OLS回归的估计结果为主来进行。Liu&Zhang(2012)对中国教育收益率相关研究进行了元分析,旨在确定不同研究关于教育收益率估计结果的差异,在多大程度上可以归结为估计方法、样本总体、数据收集方式、变量控制情况、劳动力市场情况等方面的差异。这些关于教育收益率元分析的文献,都没有分析教育收益率估计结果与样本年龄结构的关系。Bhuller,et al.(2011)对教育收益率估计结果和样本平均年龄的关系进行了简单元分析,得出了教育收益率与样本平均年龄正相关的结论,但是该研究存在以下问题:一是只进行了简单的一元线性回归分析,没有对其他可能的影响因素进行控制,没有对发表偏误等进行分析,更没有对样本年龄结构变化情况下教育收益率的时间变化趋势进行深入分析;二是该元分析在数据采集方面不是严格按照元分析标准来进行,样本搜集范围仅局限于4篇教育收益率相关文献综述提及到的文章,元分析仅使用了来自17篇文献的17个样本,文献使用的数据主要来自欧美国家,在样本量及样本的代表性方面,都难以为认识中国的情况提供有力参考。综上所述,对以当期收入估计的中国教育收益率进行元分析,既可以为认识中国的相关情况提供依据,也可以通过详细的计量分析为相关研究领域增添新的认识。

目前,对生命周期偏误的相关研究,主要使用美国和欧洲若干国家的几乎能够涵盖劳动者整个生命周期的数据进行,得到的一些规律对我国虽然有参考价值,但是适用性有待考察。据我们所知,我国当前还缺乏能够计算终身收入的长期面板数据。在短期内获得终身收入的一个方法是使用回顾数据,但是使用回顾数据可能受到两方面的挑战:一是让被调查者回顾整个生命周期的收入可能会受到测量误差的挑战;二是在社会经济与收入水平剧烈变化的情况下,得到的终身收入可能难以反映社会的现实情况。因此,探索在终身收入数据难以获得的情况下,如何评估生命周期偏误并尽力克服数据局限减缓生命周期偏误将是非常重要的。本文使用的元分析方法,一方面可以帮助我们评估现有研究中可能存在的生命周期偏误情况,另一方面也可以为相关研究领域评估生命周期偏误提供方法上的参考。

三、数据介绍与模型设定

(一)数据介绍

本文元分析所使用的中国教育收益率相关文献包括中文文献和英文文献两部分。中文文献搜索的数据库主要有中国期刊网(CNKI)、万方数据检索系统、中国科技期刊数据库(维普数据库)及互联网等。英文文献搜索的数据库包括ECONLIT、Elsevier Science Direct、JSTOR、PROQUST、SpringerLink、EBSCO等,此外,也使用GOOGLE搜索引擎进行了搜索。中文文献搜集分别以“教育收益率”和“教育回报率”为关键词在期刊全文中进行搜索。英文文献搜集分别以"return to education in China"和"return to schooling in China"为关键词进行搜索。文献搜索的时间跨度是1993年1月到2013年1月,文献的进一步筛选按照以下规则进行:(1)以微观数据进行的中国教育收益率实证研究;(2)估计模型以明瑟方程为基础;(3)以受教育年限度量教育水平,样本包含各级各类教育水平,专门研究高等教育、职业教育等特定教育水平或类型的文献被排除在外;(4)汇报了相应估计样本的平均年龄,或者能够计算出样本平均年龄。⑤分析中国教育收益率的实证研究很多,但是很多没有汇报样本平均年龄,在汇报了样本平均年龄的部分文献中,也只汇报了部分回归的样本平均年龄。比如只汇报了总体样本的平均年龄,虽然进行了划分性别、地区等的教育收益率估计,但是没有汇报划分性别、地区等的样本平均年龄,这限制了本文元分析的样本数量。

元分析的文献情况和样本情况如表l所示,最终获得满足本研究元分析要求的文献有9篇,其中中文文献1篇,英文文献8篇;已发表论文7篇,工作论文2篇;使用多省份数据进行研究的文献8篇,使用单个省份数据进行研究的文献1篇;满足元分析要求的最早研究出现在1999年。9篇文献共提供了54个可供元分析的样本。⑥在某些文献中,对同一个样本使用了多种方法进行回归或控制了不同变量进行回归,为了保证样本总体的一致性和分析结果的有效性,本研究将对相同样本只取一个估计结果。⑦由于OLS回归在两方面的优势,本研究选取了OLS回归结果:一是虽然各文献使用的估计方法有所差异,但是基本都使用了OLS估计方法;⑧二是根据现有研究的分析结果,教育收益率OLS回归的发表偏误不显著,而工具变量法和双胞胎数据固定影响法的发表偏误是显著的(Ashenfelter,et al,1999)。在某篇文献的OLS回归中,如果对于同一个样本控制了不同变量进行了多个回归,本研究则只取其中一个计量模型的估计结果进入元分析,并保证从同一篇文献中所取得的元分析数据是控制了相同变量的估计结果。如果文献中按照不同的标准划分子样本进行了分别回归,本研究将选取其作为一个独立样本,比如性别划分、背景划分等。文献的时间跨度从1999年到2012年,文献使用样本的时间跨度从1988年到2010年。9篇文献共使用了6种不同来源和19个独立年份的数据,不同来源不同年份的数据其样本的平均年龄情况会有所差异,这为本研究识别教育收益率与样本平均年龄的关系提供了更大的机会。

元分析数据样本的统计描述情况如表2所示。教育收益率的均值为6.61%,最小值为1.41%,最大值为13.20%。教育收益率估计系数的均值为0.06,最小值为0.014,最大值为0.124,估计系数的标准差在0.001到0.009之间,平均值为0.004。有96.3%的教育收益率估计系数是以1%的显著性水平显著的。样本平均年龄的均值为37.50岁,最低值为29.68岁,最高值为45.29岁,最高年龄与最低年龄之间相差15.61岁,可见不同样本的样本平均年龄差距较大。样本数据的最早年份为1988年,最晚年份为2010年,时间跨度为23年。各回归的平均样本量在1万以上,最小样本量也在1千以上,最大样本量达到了30万以上。有68.5%的元分析样本为已经发表的估计结果。

样本平均年龄、时间趋势和教育收益率三者的关系如图1所示,上方的象限展示了样本平均年龄与样本年份的关系,随着时间的推移样本的平均年龄存在上升趋势;下方的左侧象限展示了教育收益率与样本年份的关系,随着时间的推移教育收益率存在上升趋势;下方的右侧象限展示了教育收益率与样本平均年龄的关系,样本的平均年龄越高,教育收益率的估计结果越高。也就是说教育收益率和样本年份两者同时与样本平均年龄存在正向关系,如果在分析教育收益率与样本年份的关系时,遗漏了样本平均年龄变量,可能会导致结果高估。

图1 样本平均年龄、时间趋势与教育收益率

(二)样本选择性问题分析

研究中国教育收益率的文献非常多,但是只有少数文献汇报了样本平均年龄情况,文献是否汇报了样本平均年龄成为本研究元分析样本选择的关键因素。根据统计学原理,内生性的样本选择会导致估计结果有偏,而外生性的样本选择不会影响估计结果的一致性(Wooldridge,2002;于洪霞和陈玉宇,2010)。我们认为教育收益率的相关研究是否汇报样本平均年龄是具有外生性的:一方面是否汇报样本平均年龄不会影响教育收益率的估计结果,另一方面也没有理由认为教育收益率的估计结果会影响作者是否汇报样本平均年龄。

(三)模型设定

本研究进行元分析的样本均为OLS回归的估计结果,从同一篇文献中抽取的元分析样本所控制的变量是相同的。但是,各来源文献在估计教育收益率时所控制的变量情况有很大差异,不同文献控制的变量包含性别、产业、职业、单位性质、省份、党员身份、民族、城乡位置、婚姻状况、低龄子女数量等。此外,不同文献在样本的处理、变量的处理等方面也会存在差异,为了对这些差异进行控制,本研究将控制文献来源的虚拟变量。本文的基本计量模型设定如下:⑨

其中下标i代表数据的来源文献,n代表该文献中的第n个样本,returns代表教育收益率,year代表样本年份,age代表样本平均年龄,literature代表来源文献,ε为残差项,β为待估系数。为截距项;为教育收益率的年变化幅度;表示样本平均年龄对教育收益率的影响,该系数是否显著是生命周期偏误是否存在的充分非必要条件,如果该系数显著说明生命周期偏误一定存在,教育收益率的估计结果会受到样本年龄结构的影响,如果该系数不显著,则无法判断生命周期偏误是否存在,即使生命周期偏误存在该系数也可能不显著。在估计过程中,本文也会考察样本年份与样本平均年龄的交叉影响,其估计系数反映了样本平均年龄对教育收益率估计结果的影响如何随时间变动,如果该估计系数显著,说明不同时代人口的收入生命周期变动轨迹可能会有差异。

四、估计结果

(一)样本平均年龄与教育收益率关系分析

如表3所示,第(1)列仅控制了样本年份和文献来源虚拟变量,年份的估计系数显示为正,每过一年教育收益率约上升0.429个百分点;第(2)列仅控制了样本平均年龄和文献来源虚拟变量,样本平均年龄的估计系数显示为正,样本平均年龄每上升一岁,教育收益率约上升0.593个百分点;第(3)列同时控制了样本年份、样本平均年龄和文献来源虚拟变量,样本年份和样本平均年龄的估计系数都是显著为正的,样本年份的估计系数为0.365,相对于第(1)列下降了0.064个百分点,说明第(1)列中教育收益率随时间的上升趋势有一部分是由样本平均年龄增长造成的。Liu & Zhang(2012)关于中国教育收益率的元分析研究显示,在1975年至2009年之间中国教育收益率的年平均增长率约为0.211%,低于本文对1988年至2010年间的估计结果。这种差异,一方面可能是由样本情况或估计方法等差异造成的;另一方面应该来源于样本时期的差异,随着时间的推移教育收益率可能存在加速上升趋势。Liu&Zhang(2012)的研究确实对不同时期教育收益率年增长率差异进行了一定分析,总体来说后期的年增长率高于前期。Ashenfelter,et al.(1999)关于教育收益率的元分析结果显示教育收益率平均每年增长约0.2%,该研究主要使用欧美国家的数据进行,在样本期间上与本研究也有较大差异,可比性不大。第(4)列在第(3)列的基础上控制了样本年份与样本平均年龄的交叉项,交叉项的估计系数显著为正,说明样本平均年龄对教育收益率估计结果的作用强度随着时间的推移会有所上升,表明不同年代人口的收入生命周期变动轨迹可能是有变化的,这会导致不同时期相同年龄段样本的回归结果不具有可比性。

不同时期可能存在的宏观经济波动等因素可能会影响收入水平,进而影响教育收益率的估计结果,为了对这种不同时期的外部冲击进行控制,本研究将采取控制年份虚拟变量的方法。第(5)列在第(3)列的基础上,把年份变量由连续变量的处理方式变成离散变量的处理方式,控制了年份虚拟变量,可以看到样本平均年龄的估计系数有所上升,且还是显著为正的。第(6)列在第(5)列的基础上增加控制了样本年份与样本平均年龄的交叉项,交叉项仍是显著为正的。

注:***、**、*分别代表在1%、5%和10%的水平上显著;年份变量为样本实际年份减去1988;Breusch-Pagan/Cook-Weisberg异方差检验p=0.8873,不能拒绝同方差的原假设;为了检验来自相同文献的样本是否有自相关性,本研究控制相同变量进行了文献来源的随机影响估计,结果显示文献来源层面的方差为0,也就是说没有存在自相关的迹象;方括号中为稳健的方差,考虑了潜在的异方差与自相关,能够保证假设检验的有效性;本研究的样本具有嵌套特征,一些样本来自于相同的文献,这种情况比较适合使用多层线性分析模型,但是由于本文的来源文献只有9篇文章,难以满足多层次分析的样本数量要求,所以本研究仅进行了OLS估计。

(二)稳健性检验

在前面的估计中,本研究控制了不同变量,且采用不同的变量度量方式进行了多次回归,样本平均年龄的估计系数都是显著为正的,在一定程度上反映了本研究估计结果的稳健性。元分析所使用的数据来自于不同的文献,那么原始文献的质量与特征可以对元分析的结果有很大影响,使用或者排除一定特征的元分析数据样本进行回归,也可以对估计结果的稳健性进行检验。

大部分数据来源文献都使用了多个省份的数据,有一篇原始文献仅使用了湖南省的数据,排除这篇文献的估计结果如表4的第(1)列与第(2)列所示。不同来源的数据在样本结构等方面可能会存在差异,如果原始文献使用了多个来源的数据,仅控制文献来源虚拟变量仍无法控制这种数据差异对估计结果的影响。排除一篇使用了多个来源数据的文献,估计结果如表4的第(3)列与第(4)列所示。某些元分析数据虽然来自于不同的文献,但是使用了相同来源相同年份的数据,如果相同来源相同年份数据的估计结果中仅保留其中一个作为样本,估计结果如表4的第(5)列与第(6)列所示。可以看到全部样本与不同类型子样本的估计结果中,各变量的估计系数及其显著性具有相似性,说明本文的估计结果是稳健的。

(三)发表偏误分析

由于具有显著性估计结果的实证研究更可能发表,可能导致我们在元分析中所使用的数据是不随机的,这种样本选择性可能会导致发表偏误的存在。Ashenfelter,et al.(1999)在分析教育收益率相关研究的发表偏误时,使用了估计系数值与估计系数标准差之间的关系来判断发表偏误的情况。如果已发表的相关文献不存在发表偏误,那么估计系数值对估计系数标准差的回归系数应该不显著。本研究采用同样的方法,对本研究所使用的元分析数据进行了发表偏误分析,如图2所示,估计系数值与标准差值之间不具有显著相关性(t=0.23)。这一结论与Ashenfelter,et al.(1999)的结论是相似的,在该研究中当元分析数据来自于OLS回归时,教育收益率估计系数值对其标准差的估计系数也是不显著的。此外,该研究还使用Hedgs(1992)的分析方法对发表偏误的存在性进行了进一步分析,也得到了在OLS回归中不存在发表偏误的结论。⑩基于此,我们认为本研究元分析数据样本所面临的发表偏误并不严峻。发表偏误在显著性水平较低的研究中更可能发生,本研究所使用的54个数据样本中,教育收益率估计系数的p值在0.01以下的达到52个,在0.01到0.05之间的有2个,也就是说估计系数的显著性水平都比较高,为满足必要的显著性水平而产生发表偏误的可能性比较小。(11)

图2 教育收益率估计系数值与其标准差的关系分析

(四)生命周期偏误与教育收益率长期变动趋势分析

由以上分析可知,样本的年龄结构对教育收益率的估计结果有重要影响。随着时间推移人口年龄结构可能会变化。这可能会导致样本的年龄结构也发生变化,在分析教育收益率的变化趋势时,如果不考虑这种年龄结构的变化,可能会导致得出不准确甚至错误的结论。如图3所示,横轴为年份,纵轴为教育收益率,当样本年龄分布相似时,使用不同时期数据所得到的估计系数能够反映教育收益率的变动趋势,如图3中的两条线所示。但是,如果样本的年龄结构发生变化,不调整这种年龄结构变化,可能会导致估计系数的高估,如图3中的所示:当时间从变化到时,如果样本的年龄结构不变,估计的教育收益率将从变化到;但是如果样本的年龄结构发生了变化,比如从变化到,且中高收入的年龄比例较高,那么以传统方法观测到的教育收益率将会是,使得教育收益率随时间的增长幅度被高估。

标准化的估计系数能够在一定程度上反映自变量对因变量的解释力度。为了分析样本年龄结构变化对教育收益率变化情况的解释力度,本研究估计了标准化系数,如表5所示。从结果来看,教育收益率的变化有65%—84%可以由时间趋势变化解释,有26%—32%可以由样本平均年龄的变化解释。也就是说,在使用当期收入估计教育收益率的研究中,我们所观察到的教育收益率随时间增长的幅度,可能有70%左右是真实的增长,而有30%左右可能是样本年龄结构变化所造成的假象。

图3 教育收益率与生命周期偏误

根据前面的估计结果,本研究对元分析数据来源文献的教育收益率长期变动趋势进行了调整,如表6所示,除了一篇文献的教育收益率有所上升以外,其他8篇文献的教育收益率都有所下降,未调整的年平均增长率在0.174%—0.673%之间,调整的年平均增长率在0.130%—0.591%之间,年平均增长率的均值下降了约0.059个百分点。调整幅度最大的文献年平均增长率下降了约0.33个百分点。可见,如果不控制样本的年龄情况,在某些情况下所导致的教育收益率估计结果偏差是很大的。当样本平均年龄呈现上升趋势时,会造成估计结果的高估。

劳动者在整个生命周期中收入水平是不断变化的,所以当期收入与终身收入往往是不平行的,在实证分析中如果以当期收入替代终身收入可能会造成生命周期偏误。本研究使用来自于9篇文献的54个中国教育收益率OLS估计结果进行元分析,结果显示教育收益率估计系数值与样本平均年龄之间存在正向关系,由此可知在分析教育收益率及其变化趋势的过程中,如果不考虑样本的年龄结构因素,估计结果可能是有偏的。在样本年龄结构随时间推移发生较大变化的情况下,这种偏差尤其严重。当前我国人口正面临老龄化趋势,可能会造成教育收益率的高估,本文的研究结果表明我国现有研究得到的教育收益率增长幅度中,约有30%左右可能要归因于样本年龄结构的变化。调整了样本平均年龄差异后,本文元分析所使用样本的教育收益率平均年增长率约下降了0.06%。本文的研究结果还表明,收入的生命周期变动轨迹在不同年代人口之间可能也存在差异,这进一步增加了分析教育收益率变化趋势的难度。

本研究对可能存在的两方面样本选择性问题进行了讨论:一是发表偏误,教育收益率估计系数与其标准差之间不具相关性,未表现出存在发表偏误的迹象,此外,根据现有研究的估计结果教育收益率OLS估计的发表偏误不显著;二是由文献是否汇报了样本平均年龄而带来的样本选择问题,本研究认为文献是否汇报样本平均年龄是外生于教育收益率估计结果的,不会对本文的估计结果造成严重影响。为了避免文献质量和文献特征可能对结果造成的影响,本研究还应用或者排除某些文献的样本,进行了稳健性检验,结果显示本研究的估计结果是稳健的。此外,本文在估计过程中,控制了不同变量,且采用了不同的变量度量方式,样本平均年龄的估计系数都是以1%的水平显著为正的,也在一定程度上反映了估计结果的稳健性。由于数据的限制,本研究仅使用样本平均年龄度量了样本年龄结构变化,后续研究应该使用更丰富的度量方法,来分析样本年龄结构和收入的生命周期特征对教育收益率估计结果的影响。

(一)生命周期偏误对教育收益率相关研究的影响

除了教育收益率的长期变动趋势,教育收益率在不同群体间的差异分析,也是研究领域关注的重点。关于教育收益率的差异分析至少受到两方面的挑战:一是在不同的人群中,收入的生命周期分布可能是有差异的;二是不同群体的年龄结构可能是有差异的。Brunello,et al.(2012)的研究考察了在不同的年龄处,教育水平在中位数以上的样本和中位数以下的样本的教育收益率之差,结果显示从21岁到50岁差值在逐渐减小,到50岁以后又有所上升,说明不同学历水平劳动者的收入生命周期变动轨迹是有差异的。现有使用终身收入计算教育收益率的研究,都是使用教育年限作为教育水平的度量。如果各教育层级收入变动的相对轨迹是有差异的,可以进一步证明使用学历水平虚拟变量度量教育情况,估计不同教育水平的相对收益率时,也会存在生命周期偏误问题。Bhlmark & Lindquist(2006)的研究发现,收入的生命周期变化轨迹存在显著的性别差异和时代差异。Brenner(2010)的研究结果显示不同性别、不同教育类型、不同种族、不同时代的人口其收入的生命周期分布都可能是有差异的。Carroll & Summers(1989)的研究指出从事不同职业的劳动者,其收入的生命周期变动轨迹也是有差异的。那么,使用当期收入进行的对教育收益率的性别差异分析、部门差异分析等都可能受到生命周期偏误的挑战。不同人群的平均年龄情况也会对教育收益率差异分析造成影响,由于现有研究显示,平均年龄越高,教育收益率的估计结果可能越高,那么,平均年龄相对较高的群体可能会显示出高于其实际情况的相对收益率,而平均年龄相对较低的群体可能显示出低于其实际情况的相对收益率。因此,在进行教育收益率的群体差异分析时,考虑生命周期偏误也是必要的。

(二)缓解教育收益率生命周期偏误的方法

获得整个生命周期的收入数据是非常困难的,根据已有长期面板数据总结出的规律,考虑如何在横截面数据或者有限期面板数据中尽量克服生命周期偏误是必要的。根据现有的研究结果,样本年龄结构的适当选择与调整,能够在一定程度上缓解生命周期偏误。Bhuller,et al.(2011)使用挪威数据的研究结果表明,当样本年龄范围在30—35岁时,使用当期收入估计教育收益率的生命周期偏误最小;当样本年龄范围小于30岁时,可能极大地低估教育收益率;当年样本年龄范围大于40岁时,可能极大地高估教育收益率。但是,该研究同时指出这一规律可能只适用于特定地区和特定时期,其可推广性还有待检验。Brunello,et al.(2012)使用欧洲9个国家数据对最能准确代表终身收入的当期收入进行了分析,结果显示在35岁左右代表性最好。Bhlmark & Lindquist(2006)使用相似时期的瑞士数据和美国数据进行比较分析,发现收入的生命周期分布具有相似性。Brenner(2010)通过对德国、瑞典、美国数据的对比分析,指出收入在整个生命周期的分布情况在不同国家之间是具有相似性的。还有很多研究都得到了在30—35岁之间当期收入能够较好地代表终身收入的结论(Haider & Solon,2006;Bjrklund,1993;Bhlmark & Lindquist,2006)。尽管由于经济发展水平、社会文化等多方面的差异,中国的情况可能与美国、欧洲等地区有所差异,但是分年龄段进行估计仍对我们有重要的借鉴意义。然而,Belzil & Hansen(2012)的研究指出,如果整个生命周期都存在技能积累,在使用工具变量法估计教育收益率时,可能并没有一个特定的年龄或年龄段能够较好地反映终身收入。因此,在使用工具变量法估计教育收益率时,该选取哪个年龄段的样本要谨慎决定。本文的研究结果表明不同年代人口收入的生命周期变动轨迹可能是有变化的,这会导致不同时期相同年龄段样本的回归结果也不具有可比性,因此,在分析教育收益率变化趋势时可能需要更复杂更详细的讨论。此外,不同群体之间收入生命周期轨迹的差异性,也可能降低使用特定年龄段样本缓解生命周期偏误的有效性。

如果为了获得更大的样本量,使用不同年龄段的数据进行估计时,至少应该调整人口的年龄结构,根据人口的年龄分布情况进行反向加权是可行的方法之一。

在短期面板数据中,使用收入均值也可能是缓解生命周期偏误的方法,但是其合理性取决于均值收入对终身收入的代表性,如果有一些年份的收入具有低估的可能性,而另一些年份的收入具有高估的可能性,以均值收入代替当期收入可能会获得更理想的估计结果。如果所有年份的收入都具有高估的可能,比如,样本的年龄都在40岁到50岁之间,选择高估可能性最小的低年龄当期收入可能是比平均收入更好的方法。如果所有年份的收入都具有低估的可能,比如,样本的年龄都在30岁以下,选择低估可能性最小的高年龄当期收入可能是比平均收入更好的方法。也就是说,以平均收入代替当期收入是否合理,要具体情况具体分析。(12)

在应用明瑟方程和当期收入估计教育收益率时,包含了工作年限和工作年限平方项,这实际上在一定程度上控制了收入的生命周期变动对教育收益率估计结果的影响。对工作年限和工作年限平方项的简单控制隐含了一些假设,比如不同职业、不同教育水平、不同背景的个体,其收入随工作经验变化的趋势都是相同的,但是这些假设在现实中是很难满足的。隐含假设的难以满足性,决定了其对收入周期变动的调整是不完善的。根据本文的分析,年龄情况也是影响工资水平的重要因素,虽然年龄与工作年限之间具有一定的线性关系,但是两者之间并不是可以相互替代的。因此,本文建议在应用当期收入和明瑟方程估计教育收益率时,应该控制个体年龄和年龄的平方项,以进一步缓解生命周期偏误。现有研究为这样做的可行性提供了一定参考,在Iversen,et al.(2010)估计教育收益率的研究中,同时控制了年龄、年龄平方项、工作年限、工作年限平方项,估计结果显示这些控制变量都是显著的,说明在估计教育收益率时,年龄与工作年限之间具有不可忽略的异质性。在应用明瑟方程估计教育收益率的过程中,控制年龄及其平方项,会发挥不同于控制工作年限及其平方项的作用,可以进一步缓解生命周期偏误。

①相关文献综述参见Card(2001)、刘泽云(2009)。

②关于中国教育收益率的文献述评参见孙志军(2004)。

③这三种方法为:一是使用双胞胎样本进行固定影响估计,消除潜在能力和家庭背景因素等可能对结果造成的有偏性;二是使用IQ数据作为潜在能力的代理变量,克服遗漏变量对估计结果的可能影响;三是利用义务教育政策的变迁构建工具变量,以工具变量法进行估计。

④关于中国教育收益率变化趋势的研究有:李实、丁赛(2003),Yang(2005),丁小浩、于洪霞等(2012),丁小浩、余秋梅等(2012),Zhang,et al.(2005),陈晓宇等(2003),孙静波(2011),钟甫宁、刘华(2007),Qiu & Hudson(2010),Gao & Smyth(2012),等等。

⑤计算平均年龄的方法是根据文献的变量构建方式计算而得。如有些文献的工作年限计算方法为年龄减去教育水平再减去6,相应地,样本平均年龄的计算方法为所汇报的平均教育水平加上平均工作年限再加上6。

⑥Ashenfelter,et al.(1999)关于教育收益率的元分析使用的OLS回归样本数为50个,与本研究的样本数相当。

⑦同一个样本的平均年龄是相同的,而不同估计方法或控制不同的变量所估计的教育收益率会有所差异。如果取同一个样本的多个估计结果,在样本平均年龄没有发生变化的情况下教育收益率发生了变化,可能会影响对样本平均年龄与教育收益率关系的认识。因此,本研究元分析数据的选取,实际上是以原始回归的样本为基础进行的,对每一个原始样本选取一个估计结果。

⑧应用不同的估计方法对不同样本的估计结果是满足本文分析要求的,可以通过添加估计方法虚拟变量的方式来一起回归,但是数据收集的结果显示,所有样本都进行了OLS回归,没有样本仅单独使用了其他估计方法,所以本文元分析数据都是OLS估计的结果。

⑨本研究的主要目的在于分析生命周期偏误对教育收益率估计结果的影响,这里的模型设定能够满足本研究的需要。关于各控制变量如何影响教育收益率的估计结果,参见Liu & Zhang(2012)有关中国教育收益率的元分析。对于本文来说,控制文献来源虚拟变量所获得的自由度,要高于控制原始回归中控制变量情况等差异所获得的自由度。

⑩工具变量法的发表偏误是存在的。

(11)Ashenfelter,et al(1999)的研究中,存在p值在0.05至0.10之间的估计系数,这种情况下,存在发表偏误的可能性较大,但是检验的结果仍然显示OLS估计的发表偏误是不存在的。

(12)在教育收益率分析中,收入是作为因变量,而当收入作为自变量时,同样存在生命周期偏误的问题。Brenner(2010)的研究中,比较了当收入水平作为自变量时,1年期收入,5年、10年、15年的平均收入度量个体收入水平的误差情况,结果发现计算平均收入的时期越多,收入度量的误差越小,当期限达到15年时,偏差明显减小。而Mazumder(2005)、Haider & Solon(2006)的研究都指出,5年期收入的平均是不够的。

标签:;  ;  ;  ;  ;  ;  ;  ;  

中国教育收益率的生命周期误差与元分析_相关性分析论文
下载Doc文档

猜你喜欢