上大学是有价值的投资吗——中国高等教育回报率的长期变动(1988-2007),本文主要内容关键词为:是有论文,回报率论文,上大学论文,变动论文,中国高等教育论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G40-054 文献标识码:A 文章编号:1671-9468(2015)04-0065-17 从20世纪80年代末期至21世纪的最初10年间,我国的高等教育经历了快速发展,高等教育毛入学率从1991年的3.5%提高到2000年12.5%,2010年达到了26.5%(教育部发展规划司,2011)。具有高等教育学历的人口比例不断上升,根据第四次、第五次和第六次全国人口普查的数据,每10万人中具有大学(大专及以上)文化程度的人数在1990年为1422人,2000年为3611人,2010年为8930人(国务院人口普查办公室、国家统计局人口和社会科技统计司,2002,2012)。在这样的背景下,高等教育的私人回报率可能出现两种变动趋势:一是随着高技能劳动者供给的增加,高技能劳动者与低技能劳动者之间的工资差距缩小,高等教育回报率下降;二是对高技能劳动者的需求增加,抵消了高技能劳动者供给增加的影响,导致高等教育回报率不变甚至上升。在转型国家,高等教育的回报率还有可能因为市场化程度的提高而得以提升。那么,在高等教育快速发展和经济持续转型的进程中,我国高等教育的回报率发生了怎样的变化?这正是本文要回答的问题。 已经有很多研究对我国教育回报率的长期变动进行了分析。其中,李实和丁赛(2003)以及张俊森等(Zhang et al.,2005)分析了2001年之前教育回报率的变动,何亦名(2009)、丁小浩等(2012)、陈纯槿和胡咏梅(2012)以及邓峰和丁小浩(2013)则将分析范围扩展到了2001年之后。他们主要的发现是,我国的教育回报率在20世纪90年代大幅提高,但进入21世纪后教育回报率的增长趋于平稳。这些研究使用了所有学历的劳动者样本,其中有些研究以虚拟变量表示学历,然后得出高等教育相对于初中教育或小学教育的回报率。但是,通过这种方法得到的高等教育回报率的含义不是很清晰。因为接受高等教育的人必然接受过高中教育①,所以接受过高等教育的人相对于初中教育或小学教育的回报中实际上包含了高中教育的回报。因此,在估计高等教育回报率时,应该只使用高中及以上学历个体的样本。此外,上述研究主要使用普通最小二乘法(OLS),较少使用其他估计方法纠正OLS估计可能存在的偏差。其中,邓峰和丁小浩(2013)使用了多层线性模型(Hierarchical Linear Model),但该模型无法解决估计教育回报率时面临的传统计量问题,如遗漏变量偏误、样本选择偏差等。张俊森等(2005)在估计女性教育回报率的长期变动时使用了Heckman两阶段模型纠正样本选择偏差,但没有考虑遗漏变量问题。 一些研究使用高中及以上学历个体的样本估计我国的高等教育回报率,可分为三类: 第一类研究基于横截面数据估计某个特定年份的高等教育回报率,并使用一定的方法纠正OLS估计的偏差。如赵西亮和朱喜(2009)、颜敏(2013)使用了倾向指数匹配法,颜敏(2013)使用了工具变量法,赫克曼(J.J.Heckman)等(Heckman & Li,2004)、袁诚和张磊(2009)、许玲丽等(2012)使用了异质性模型。 第二类研究将高校扩招视为一个自然实验,基于扩招前后不同年份的数据,使用双重差分和三重差分的方法,估计扩招政策对大学毕业生收入的干预效应(吴要武,赵泉,2010;姚先国等,2014)。 第三类研究与本文一样,着眼于高等教育回报率随时间的变动,基于不同年份的数据,分别估计各年份的高等教育回报率,并进行跨年份比较。在这类研究中,王乐(Wang,2012)基于中国居民收入调查项目(Chinese Household Income Project,CHIP)1995年和2002年的数据,使用了工具变量法和Heckman两阶段模型;常进雄和项俊夫(2013)基于中国健康与营养调查(China Health and Nutrition Survey,CHNS)1989—2009年数据,使用了Heckman两阶段模型;胡安宁和希贝尔(Hu,& Hibel,2014)基于中国综合社会调查(China General Social Survey,CGSS)2003年和2010年的数据,使用了倾向指数匹配法;张巍巍和李雪松(2014)基于国家统计局城镇住户调查1992年、2000年和2009年的数据,使用了异质性模型。其中,王乐(Wang,2012)以及胡安宁和希贝尔(Hu & Hibel,2014)涉及的时间跨度不长。常进雄和项俊夫(2013)的研究涉及高等教育回报率的长时期变化,但仅考虑了样本选择偏差问题,没有考虑遗漏变量问题。张巍巍和李雪松(2014)的研究也着眼于高等教育回报率的长期变动,但该研究存在三个问题:其一,样本数较少,三个年份的样本量分别为366、505、860;其二,缺乏中部地区的样本省份;其三,1992年的样本省份与后两个年份不同。因此,笔者对该研究的结论存疑。从估计结果看,上述四项研究都发现我国高等教育回报率随时间呈上升趋势。 可见,现有研究缺乏对我国高等教育回报率长期变动的可靠分析。本文使用CHIP1988年、1995年、2002年、2007年的城镇住户调查数据,估计我国高等教育回报率在近20年里的变化。CHIP是中国居民住户调查的权威性数据,适合于做长期趋势的研究。现有的四次城镇住户调查在抽样方法、样本省份上保持了较好的一致性,而且样本量大,覆盖了中国不同发展水平的地区,具有很好的代表性。在方法上,本文根据伍德里奇(2007)提出的方法,借鉴阿拉贝施巴尼和马萨洛夫(Arabsheibani & Mussurov,2007)以及陈贵福和哈莫瑞(Chen & Hamori,2009)估算教育回报率的研究,将工具变量法与Heckman两阶段模型相结合,同时处理遗漏变量偏误和样本选择偏差问题。 二、模型与方法 估计高等教育回报率基于明瑟收入方程②: 其中,lnW为个人工资的自然对数。H是一个虚拟变量,取值为1表示个人接受过高等教育(指大学专科及以上教育),取值为0表示未接受过高等教育(即最高学历为高中)。X是一个矢量,包括常数项和一系列控制变量(包括性别、年龄、年龄的平方以及省份虚拟变量);β为其系数。α为高等教育的回报率,表示在控制其他变量的情况下,平均而言,接受过高等教育的劳动者的工资收入高于未接受过高等教育的劳动者的百分比。③在估算教育回报率的研究中,很多学者会加入个人从事的职业和行业等作为控制变量。笔者认为,是否接受高等教育会影响个体所从事的职业和行业,进而影响其工资收入。如果控制了这些工作特征,会低估高等教育的回报率,不能正确识别高等教育对收入的因果性影响。因此本文只加入“好的控制变量”(good controls)(Angrist & Pischke,2008),即不受个人高等教育经历影响的控制变量,如性别和年龄。加入省份虚拟变量,是考虑到中国的现实情况,可以在一定程度上控制地区差异。 使用OLS方法估计方程(1)可能存在的问题是:影响个人工资收入的不可观测因素同时与个人是否接受高等教育相关,从而OLS估计结果不能反映接受高等教育对工资收入的因果性影响。解决这一遗漏变量偏误问题的常用方法是工具变量法,即找到与个人是否接受高等教育相关但不直接影响个人工资收入的变量作为工具变量。 在寻找工具变量时,笔者发现在估计教育回报率的经验研究中,配偶的受教育水平经常被作为个人受教育水平的工具变量,无论是针对发达国家的研究(如Trostel et al.2002)、针对发展中国家的研究(如Arabsheibani & Mussurov,2007),还是针对中国的研究(如Chen & Hamori,2009)。这是因为婚姻选择具有匹配性(Pencavel,1998),即夫妻双方通常具有相同的兴趣、经历和行为特征,受教育水平也往往相近,因此夫妻的受教育水平具有很强的相关性④。但是,配偶的受教育水平不会直接影响本人的工资收入。郭冬梅等(2014)的研究也表明,配偶的受教育程度是个人受教育程度的一个强工具变量。受此启发,本文使用配偶的受教育年限作为个人是否接受高等教育的工具变量(后文还使用了配偶是否接受高等教育作为工具变量,研究结论不变)。⑤ 工具变量估计使用两阶段最小二乘估计(2SLS),即: 方程(2)为第一阶段回归,方程(3)为第二阶段回归。其中H为表示个人是否接受高等教育的虚拟变量,S为工具变量(即配偶的受教育年限),X的含义同方程(1)。 在估计高等教育回报率时可能存在的另一个问题是样本选择偏差。也就是说,可以观测到当前正在工作的劳动者的工资信息,但观测不到当前未参加工作的劳动者(如失业者、从事家务劳动的妇女等)的工资信息。如果某些因素(如受教育水平)既影响个人进入劳动力市场的概率,又影响个人的工资,那么即便使用工具变量法也不能得到正确的估计结果。伍德里奇(2007)提出了一种存在内生解释变量时纠正样本选择偏差的方法,即Heckman两阶段模型和工具变量法的结合。其步骤如下: 第一步,基于全部劳动力人口样本(不论目前是否就业)估计参与方程: 在方程(4)中,如果能观测到个人的工资(即进入劳动力市场),则work=1;否则work=0。Z包括方程(1)中的外生解释变量X、工具变量S以及影响劳动力参与但不影响工资的变量M。赫克曼(Heckman,1990)指出,在参与方程中必须至少有一个不出现在工资方程中的连续变量作为识别变量(identifying variables),即M。在相关研究中使用的识别变量有:家庭总人口中0~6岁人口的比例、7~15岁人口的比例、60岁以上人口的比例(Zhang et al.,2005),家庭中6岁以下人口的数量(Arabsheibani & Mussurov,2007),家庭总人口中7岁以下人口的比例(Chen & Hamori,2009)。受此启发,本文中的M包括三个变量,即家庭总人口中0~5岁人口的比例、6~17岁人口的比例、60岁及以上人口的比例,用这三个变量分别衡量家庭抚养学龄前儿童、未成年学龄儿童和老人的负担。使用Probit模型估计方程(4),然后可以针对有工资数据的样本(work=1)计算出逆米尔斯比率。 第二步,使用有工资数据的样本,进行工具变量估计: 方程(5)为工具变量估计的第一阶段回归,解释变量包括逆米尔斯比率λ和参与方程(4)中所有的解释变量Z。方程(6)为第二阶段回归,其中的α就是在纠正了遗漏变量偏误和样本选择偏差后高等教育的回报率。此外,针对方程(6)的回归结果,对∶δ=0进行t检验可以判断是否存在样本选择偏差。如果拒绝了,表明存在样本选择偏差;反之则表明不存在样本选择偏差。 下文将基于方程(1)的方法称为OLS,基于方程(2)和(3)的方法称为IV,基于方程(4)(5)(6)的方法称为样本选择模型。 三、样本与数据 本文使用CHIP 1988年、1995年、2002年、2007年的城镇住户调查数据。样本的选择基于以下几点考虑。第一,仅包括高中及以上学历的个体。第二,由于使用配偶的受教育水平作为工具变量,因此仅包括已婚的个体。而且基于退休年龄的相关规定以及我国《婚姻法》对结婚年龄的规定,男性样本限定在22~60周岁,女性样本限定在20~55周岁。第三,仅使用户主及其配偶的样本。这是因为户主及其配偶肯定在同一户中,而且CHIP的调查问卷中询问了个人与户主的关系,可以准确地确定户主及其配偶的信息。但户主的父母、岳父母以及已婚的子女与户主在同一户中的比例很低,不予考虑。不考虑这部分样本还有两个原因:首先,CHIP 1988年的调查问卷在询问个人与户主的关系时,没有设计“岳父母或公婆”以及“媳婿”这两个选项,无法确定相应的夫妻关系;其次,根据CHIP的调查问卷,如果在同一户中,户主有多个已婚子女,也无法确定个体之间的夫妻关系。第四,分析对象仅限于劳动力人口,不包括丧失劳动能力者、在校学生和离退休者。第五,分析对象仅限于雇员,不包括自我雇佣者(如个体户、私营企业主等),这是在使用明瑟收入方程估计教育回报率时通行的做法。 CHIP 1988年的城镇调查包括10个省级行政单位(以下简称“省份”),其中北京代表大都市,辽宁、江苏、广东代表东部地区,山西、安徽、河南、湖北代表中部地区,云南和甘肃代表西部地区。1995年,调查在原有省份基础上增加了西部地区的四川,样本省份增加为11个。2002年,调查在原有省份基础上增加了1997年成为直辖市的重庆,样本省份增加为12个,但涵盖的地理区域不变。2007年CHIP城镇数据库包括两类数据:一类是国家统计局(NBS)提供给CHIP的,是其每年城镇住户调查的一部分,除了2002年的12个省份,还增加了上海、浙江、福建和湖南;另一类是利用独立的CHIP问卷进行家庭访谈所得,涉及上海、江苏、浙江、安徽、河南、湖北、广东、重庆和四川等省份。本文使用的1988年、1995年、2002年的数据均来自CHIP的独立调查,涵盖的省份基本相同,具有可比性。但2007年CHIP独立调查的省份与前三个年份差异较大,为了保证分析结果的可比性,本文使用的2007年的所有数据均来自NBS提供给CHIP的数据,但只包括北京、山西、辽宁、江苏、安徽、河南、湖北、广东、重庆、四川、云南、甘肃12个省份的数据。⑥另外需要说明的是,在CHIP 2002年的独立调查中无法得到个体的工资性收入数据,因此在该年份,工资性收入数据来自NBS的住户调查,但其他数据均来自CHIP的独立调查。 主要变量的描述性统计见表1,分析样本只包括受教育程度为高中及以上的个体。其中,工资指年工资性收入,大学学历包括专科、本科和研究生。可以看出,在受教育程度为高中及以上学历的劳动者中,受过高等教育的比例从1988年约30%增加到2007年超过50%。而且相对于本科学历而言,专科学历劳动者所占的比例上升更快。⑦ 不同学历劳动者的平均工资和工资中位数的比值见图1。从1988年到2007年,大学学历与高中学历劳动者平均工资的比值从1.14上升到1.54,本科及以上学历与高中学历劳动者平均工资的比值从1.22上升到1.88,专科学历与高中学历劳动者平均工资的比值从1.06上升到1.35。平均工资比值在1988—1995年间变化很小,在1995—2002年之间增加最快。而且从2002年到2007年,本科及以上学历与高中学历劳动者的平均工资比值仍有较大幅度的上升,但专科学历与高中学历劳动者的平均工资比值则增加不多。工资中位数比值的数值和变化趋势与平均工资比值非常接近,不再赘述。简单的描述统计分析表明,即便在经历了20世纪90年代末期开始的高等教育大规模扩招之后,大学学历与高中学历劳动者的平均工资差异仍在进一步拉大。 图1 不同学历劳动者平均工资和工资中位数的比值 图1只表明了高等教育相对于高中教育的工资溢价,而不是高等教育本身带来的回报。这一溢价可能源于高等教育回报率,也可能源于其他原因。正因为如此,才有估计高等教育回报率的必要。 四、中国高等教育回报率的长期变动 (一)高等教育回报率的整体变动 根据方程(1)—(6),本文使用三种方法估计高等教育回报率,结果见表2。 弱识别检验(weak identification test)的结果表明,配偶的受教育年限不是一个弱工具变量。内生性检验(endogeneity test)的结果表明可以拒绝个人是否接受高等教育为外生的假定,即个人是否接受高等教育是内生变量。表2所示的回归结果对于各种形式的异方差是稳健的,弱识别检验使用Kleibergen-Paaprk Wald F统计量,内生性检验使用C统计量(也称为Difference-in-Sargan统计量)。在方程(6)的回归结果中,逆米尔斯比率λ的系数都是显著的,说明存在样本选择偏差。而且λ的系数小于0,表明如果不控制样本选择偏差,将会高估高等教育的回报率。 由表2可以看出,我国高等教育回报率的OLS估计值从1988年的6.80%快速增加到2002年的42.14%,而后缓慢增加到2007年的44.75%(见方程(1)的估计结果)。IV估计值是OLS估计值的两到三倍,从1988年到2007年一直呈明显的上升趋势。在纠正了遗漏变量偏误和样本选择偏差后,1988年、1995年、2002年、2007年的高等教育回报率分别为11.72%、29.13%、42.32%和61.53%,同样为持续增长。样本选择模型的估计结果高于OLS估计值,但低于IV估计值。需要注意的是,根据OLS估计结果,从2002年到2007年,高等教育回报率仅有小幅上升,而样本选择模型的估计结果表明在此期间高等教育回报率仍有大幅上升。 在关注我国高等教育回报率变化趋势的研究中。王乐(Wang,2012)发现四年本科教育回报率的OLS估计值从1995年的23.1%上升到2002年的37.8%,IV估计值从1995年的51.1%上升到2002年的87.9%。而且在对女性样本使用Heckman两阶段模型纠正样本选择偏差后,仍发现本科教育的回报率在此期间大幅提升。胡安宁和希贝尔(Hu & Hibel,2014)发现大学教育的回报率从2003年的33%上升到2010年的64%。张巍巍和李雪松(2014)发现在1992、2000和2009三个年份,大学教育回报率的OLS估计值分别为15.3%、29.7%、33.6%,IV估计值分别为29.5%、69.1%、66.1%,基于异质性模型并运用半参数局部工具变量方法(LIV)的估计值分别为22%、39.6%、45.6%。常进雄和项俊夫(2013)基于Heckman两阶段模型,发现1989年、1991年、1993年、1997年、2000年、2004年、2006年、2009年大学教育的年度收益率分别为2.12%、2.51%、3.55%、5.86%、6.08%、8.49%、9.39%、9.59%。由于数据来源不同、方法各异,这些研究的估计数值不宜与本文的估计数值直接进行比较,但在时间趋势上可以作一些比较。王乐(Wang,2012)、常进雄和项俊夫(2013)以及张巍巍和李雪松(2014)发现我国高等教育的回报率在20世纪90年代大幅上升,这一点与本文的结论相同。但张巍巍和李雪松(2014)发现,进入21世纪后高等教育回报率的上升幅度明显减小;而本文与常进雄和项俊夫(2013)以及胡安宁和希贝尔(Hu & Hibel,2014)都发现,在这一时期高等教育回报率上升的势头并没有放缓。 由于本文使用配偶的受教育年限作为个人是否接受高等教育的工具变量,只能使用已婚样本,存在该样本有可能无法代表总体的问题。为此,本文分别使用已婚样本和全体样本(即所有22~60岁男性和20~55岁女性)中拥有高中及以上学历的样本做了两个分析。其一,通过对主要变量的描述性统计分析发现,在相同年份,与全体样本相比,已婚样本的平均工资偏高一些、年龄偏大一些、男性的比例稍高一些,但两个样本学历分布的差异并不明显。更重要的是,根据两个样本计算出来的不同学历劳动者的工资比值相差无几。其二,基于方程(1)和全体样本数据,用OLS方法估计了高等教育的回报率,并将结果与本文中基于已婚样本的OLS估计结果进行了比较。结果发现,使用两个样本得到高等教育回报率的估计值相差很小。基于上述分析,本文认为用已婚样本代替全体样本是可以接受的。⑧ (二)稳健性检验 为了检验估计结果的稳健性,本文做了三组分析。 首先,在IV方法和样本选择模型中,第一阶段回归[方程(2)和方程(5)]使用的是线性概率模型。使用线性概率模型的问题之一是概率预测值可能小于0或大于1,而且在两端的估计效果较差。有的相关研究也在IV估计的第一阶段用probit模型估计个人接受高等教育的概率,以此作为工具变量(如Heckman,& Li,2004;颜敏,2013;张巍巍和李雪松,2014)。但此处仍然使用了线性概率模型,理由如下:第一,伍德里奇指出,将工具变量法与样本选择模型相结合的方法“可应用到任何类型的内生变量上,包括二值变量以及其他离散变量”(伍德里奇,2007,p.483)。第二,本文分别用OLS(线性概率模型)和probit模型估计第一阶段的回归方程,预测出个人接受高等教育的概率,发现用两种方法得到的概率预测值的分布大体相同,用前者的结果替代后者是可以接受的。⑨第三,在IV方法和样本选择模型的两阶段最小二乘回归(2SLS)中,本文使用的是stata软件的ivreg2命令,并在第一阶段用线性概率模型。该命令默认第一阶段的回归使用OLS(线性概率模型),然后在第二阶段中自动调整系数的标准误估计。但如果在第一阶段回归用probit模型估计个人接受高等教育的概率,然后以此作为工具变量,就必须手工进行2SLS。这样做的风险是:在第一阶段用probit模型不满足标准的2SLS的相关假定,而且第二阶段回归方程的标准误和检验统计量是不正确的。尽管如此,这里还是在第一阶段用Probit模型估计个人接受高等教育的概率,手工进行了2SLS估计,并将估计结果与本文之前的估计结果(即使用ivreg2命令,第一阶段用线性概率模型)进行了比较。结果发现,两种处理方法的估计结果相差很小。⑩这在一定程度上可以说明本文估计结果的稳健性。 其次,在估计教育回报率时,通行的做法是不考虑自我雇佣者。因为自我雇佣者的收入取决于诸多因素,不宜使用基于人力资本理论的明瑟收入方程估计教育回报率。但在CHIP的调查问卷中,有部分自我雇佣者填写了工资性收入,而且自我雇佣者占劳动力人口的比例越来越高(在本文的样本中,这一比例从1988年的不到1%增加到2007年的5.24%)。为了检验是否考虑自我雇佣者对估计结果的影响,本文分三个样本进行估计:“样本一”是表2使用的样本,不包括自我雇佣者;“样本二”是在参与方程中包括自我雇佣者,将其视为未参与劳动力市场(work=0),但在工资方程中不包括自我雇佣者;“样本三”同样在参与方程中包括自我雇佣者,将有工资性收入的自我雇佣者视为参与了劳动力市场(work=1),并在工资方程中包括这部分自我雇佣者。以配偶受教育年限作为个人是否接受高等教育的工具变量,采用相同的估计方法和控制变量进行估计,结果发现使用三类样本的估计结果差异不大,而且呈现出相同的时间趋势。(11) 最后,使用不同的工具变量有可能改变估计结果。为此,本文基于“样本一”,以配偶是否接受高等教育为个人是否接受高等教育的工具变量,采用相同的估计方法和控制变量。从表3的(1)(2)部分的估计结果可见,使用不同工具变量的估计结果差异不大。 (三)不同群体和地区高等教育回报率的变化 不同群体和地区高等教育回报率的变化也是相关研究关注的问题。表4所示为在不考虑自我雇佣者(即使用“样本一”)并以配偶受教育年限作为工具变量的情况下,不同性别、年龄(40岁以下和40岁及以上两个群体)、学历层次(专科和本科及以上两个群体)和地区(东部、中部和西部)的高等教育回报率。在表4中,下划线表示存在样本选择偏差。从理论上看,如果存在样本选择偏差,那么样本选择模型的估计结果与IV估计结果差异较大,应该使用样本选择模型的结果。而如果不存在样本选择偏差,那么应该使用通常的IV估计结果。但在后一种情况下,样本选择模型的估计结果与通常的IV估计结果差异不大(表4所示的结果显示了这一点),使用两种方法的估计结果都可以接受。因此,本文用样本选择模型的结果作为最终的高等教育回报率估计结果,并在图2中直观地显示出来。从图2可以看出,女性的高等教育回报率始终高于男性。但从1988年到2007年,男性的高等教育回报率一直呈上升趋势,而女性的高等教育回报率的增长势头在2002年后出现了停滞。年长者(40岁及以上)的高等教育回报率始终在上升,而年轻者(40岁以下)的高等教育回报率在2002年以后出现下降。分地区来看,东部地区的高等教育回报率几乎都是最高的,而且不断提高。西部地区的高等教育回报率也呈现上升趋势。但中部地区的高等教育回报率在2002年以后出现了下降,而且在2007年时远远低于东部和西部地区。最后,本科及以上学历的回报率高于专科学历的回报率,但二者都呈现上升趋势。 图2 不同群体和地区的高等教育回报率(样本选择模型的估计结果) 在比较不同组别的高等教育回报率时,本文采用的方法是分样本回归,而另一种方法是加入组别的虚拟变量,以及该虚拟变量与个人是否接受高等教育这一变量的交互项。基于以下两方面的考虑,本文倾向于分样本回归的方法。其一,分样本回归假设不同组别的回归方程不同,是一种更为灵活的方式。其二,本文使用的方法是将工具变量法与样本选择模型相结合,在估计方程(5)和(6)时,内生变量是个人是否接受高等教育(H),工具变量实际上有四个(配偶受教育年限、家庭总人口中0~5岁人口的比例、6~17岁人口的比例、60岁及以上人口的比例)。如果引入内生变量与其他变量的交互项,就必须将工具变量与其他变量的交互项同时作为工具变量。由于一个变量跟它与其他变量的交互项之间的相关性很高,这样做会大大降低估计的效率,笔者并不认为这样做是必要的。事实上,就已有文献而言,在分析教育回报率的组别差异时,使用工具变量法的研究都是采用分样本回归(如Chen & Hamori,2009;Wang,2012)。 在高等教育快速发展和经济持续转型的背景下,高等教育的私人回报率会发生怎样的变化,是一个有价值的理论问题,也具有重要的现实意义。本文使用CHIP 1988年、1995年、2002年、2007年的城镇住户调查数据中高中及以上学历个体的样本,在同时考虑遗漏变量偏误和样本选择偏差问题的情况下,估计出在这20年里我国高等教育回报率的变动趋势。研究发现,1988年、1995年、2002年、2007年我国的高等教育回报率分别为11.72%、29.13%、42.32%和61.53%,呈现持续上升的趋势。而且估计结果高于OLS估计值,但低于通常的IV估计值。同时,不论本科及以上学历,还是专科学历,其相对于高中学历的回报率都呈现上升趋势。男性的高等教育回报率一直呈上升趋势,而女性的高等教育回报率的增长势头在2002年后出现了停滞。年龄较大的劳动者的高等教育回报率始终在上升,而年轻劳动者的高等教育回报率在2002年以后出现下降。东部和西部地区的高等教育回报率逐年提高,而中部地区的高等教育回报率在2002年以后出现了下降。 本文发现,在1988-2007年间,我国高等教育的回报率持续上升,而且上升的势头在进入21世纪后并没有放缓。笔者认为有两个可能的解释:其一,知识经济对高技能劳动者的需求增加,高技能劳动者和低技能劳动者的工资差距拉大,抵消了高技能劳动者供给增加的影响;其二,随着我国市场经济体制的不断完善,人力资本的劳动力市场价值得到了更为充分的实现。当然,探究高等教育回报率上升的原因需要进行深入细致的理论研究和经验分析,已经超出了本文的范围。从现实的角度看,高等教育的私人回报率持续提升意味着即便在经历了1999年开始的高等教育大规模扩招之后,上大学对于个人而言仍然是一项越来越有价值的投资。不过,女性劳动者、年轻劳动者和中部地区的高等教育回报率在2002年之后出现停滞或下降,表明高等教育回报率的长期变动在不同群体和地区之间存在差异。 由于缺乏最新的数据,本文无法将分析的时间拓展到2010年以后。笔者尝试使用CHNS 1989—2011年的数据进行更长时段的分析,但因样本量太小(每年的有效样本量只有400个左右),无法保证估计的可靠性而放弃。笔者期望在CHIP新一轮的调查完成之后继续本文的研究,以探究我国高等教育回报率的最新变化,特别是探究不同人群从高等教育经历中得到的经济收益的差异。 致谢:作者感谢匿名评阅人的意见和建议,感谢王骏提供的帮助。当然,文责自负。 ①在本文中,高中或高中教育指高中阶段教育,包括普通高中和中等职业教育,后者指职业高中、中等专业学校和技工学校。 ②为简明起见,本文中所有方程的变量省去下标。 ③严格地讲,高等教育回报率应为e[α]-1。但绝大部分相关研究均直接使用α衡量教育回报率,故而本文也采用这一做法,以便与相关研究进行比较。另外,本文的主旨是探讨高等教育回报率的时间趋势,无论使用哪一种方法,研究结论都不会发生本质的变化。 ④李煜基于2000年全国1‰人口普查资料的分析表明,婚姻双方的教育匹配度在20世纪80年代以后一直处于较高的水平。参见李煜:《婚姻的教育匹配:50年来的变迁》,载《中国人口科学》2008年第3期。 ⑤当然,配偶的受教育程度有可能影响本人的收入,从而用配偶的受教育年限作为工具变量不满足外生性的要求。但在经验研究中,寻找一个完美的工具变量几乎是不可能的。笔者在考虑数据可获得性的条件下进行了尽可能的尝试,并期望与研究者展开更深入的讨论。 ⑥李实等对2007年CHIP的调查抽样方法和数据进行了详细的介绍。参见李实、佐藤宏、史泰丽:《中国收入差距变动分析——中国居民收入分配研究IV》,人民出版社2013年版。 ⑦在1988年和1995年的CHIP调查中没有设计学历为研究生的选项,无法知晓个人是否为研究生学历。而且即便在2002年和2007年的样本中,研究生学历的样本数也太少,难以保证代表性。因此本文没有单独对研究生学历的劳动者进行分析。 ⑧⑨限于文章篇幅,具体分析结果在文中略去,如有需要可向作者索取。 ⑩限于文章篇幅,具体分析结果在文中略去,如有需要可向作者索取。 (11)如何处理自我雇佣者样本尚需在理论和方法上进行深入探讨,这里所做的简单比较只是为了看看估计结果的稳健性。标签:回报率论文; 大学论文; 工具变量论文; 概率计算论文; 自我分析论文; 上大学论文; 人口问题论文; 中国大学论文; 投资论文;