农村居民举家迁移的影响因素:基于混合Logit模型的经验分析,本文主要内容关键词为:农村居民论文,模型论文,因素论文,经验论文,Logit论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
改革开放以来,随着中国经济社会的快速发展,农村劳动力外出务工的规模日益扩大。据统计,2004年和2006年,农村外出从业劳动力已分别达到11823万人和13181万人(国家统计局调研组,2006;国务院第二次全国农业普查领导小组办公室、国家统计局,2008);到2011年,又进一步增加到15863万人(国家统计局,2012)。农村劳动力流动为中国经济发展做出了重要贡献。首先,农民工作为城镇劳动力供给的重要来源,使得中国经济发展在相当长的一段时期内保持了低成本的优势;其次,农民工及其家庭成员在城镇地区的消费又在一定程度上拉动了消费品行业及生活服务业的发展。但是,由于城乡分割的户籍制度与社会保障制度的制约,农民工的市民化程度依然较低,农村家庭在城镇定居的意愿较弱,由此导致其消费需求相对不足,也易造成城镇地区劳动力供给的波动性。促进农民工市民化,一方面有助于为城镇劳动力市场提供较为稳定的劳动力供给来源,另一方面也有利于刺激消费、扩大内需,对于中国经济社会的可持续健康发展具有重要意义。举家迁移在一定程度上反映了农民工及其家庭成员在城镇地区安家落户的意愿,相比于个人迁移或部分家庭成员的迁移,举家迁移更具有稳定性和长期性的特点。
迄今为止,国内外研究中国农村劳动力流动的文献可谓浩如烟海,但由于能够识别农村劳动力举家迁移的微观调查数据并不多见,因此,以农村劳动力举家迁移为研究对象的文献少之又少。本文试图利用国家统计局2005年全国1%人口抽样调查数据来识别和界定举家迁移的农村家庭,利用混合Logit模型分析其选择举家迁移的影响因素,揭示其中蕴含的政策含义。
二、文献综述
中国农村劳动力流动一直是学术研究热点问题之一。已有的许多研究关注于农村流动劳动力的个人特征与流动原因、在城市劳动力市场上所遭受的就业与收入歧视、外出务工对其家庭及流出地经济的影响等方面(例如Zhao,1999;Meng and Zhang,2001;Démurger and Li,2013;赵忠,2004)。就研究对象而言,已有的大多数文献关注农村劳动力个人层面的流动(例如Zhao,1999;Hu et al.,2011;Meng,2012),但也有部分文献在家庭层面上对农村劳动力流动进行了分析,探讨了流动的家庭迁移模式。例如,翟振武等(2007)使用中国人民大学人口与发展中心2006年北京市1‰流动人口抽样调查数据研究发现,14岁及以下儿童在北京市全部流动人口中的比例从2000年的9.2%提高到了2006年的14.2%;在已婚流动人口中,75.3%的人与配偶同时在京流动。他们据此认为,夫妇二人或夫妇偕同子女共同流动已成为北京市流动人口的主要特点,北京市流动人口已经呈现出家庭迁移的趋势。朱明芬(2009)利用2008年杭州市农民工的回溯性调查数据研究发现,农民工家庭人口随迁比例在逐渐提高,夫妻携子女迁移的比重增长较快。
有些文献研究了农村劳动力家庭迁移的原因。陈卫、刘金菊(2012)使用2006年北京市1‰流动人口抽样调查数据研究发现,收入对家庭迁移决策有着显著的正向作用,而非经济因素(例如孩子教育)也对家庭迁移决策产生了显著影响。邵岑、张翼(2012)利用国家人口和计划生育委员会2010年全国流动人口动态监测数据,比较了“80前”与“80后”流动人口的家庭迁移行为,发现迁入地家庭收入、迁移汇款等经济特征对家庭迁移的影响在“80前”与“80后”之间不存在代际差异,但受教育程度、迁入城市时的年龄、职业身份等因素对家庭迁移的影响存在着显著的代际差异。袁霓(2008)使用中国健康与营养状况调查数据研究发现,夫妻共同外出打工的家庭在全部迁移家庭中的比例呈现出逐年上升的趋势。
需要指出的是,上述关于家庭迁移的研究文献只是讨论了多个家庭成员而非所有家庭成员同时外出的情形。例如,陈卫、刘金菊(2012)所关注的是两个或两个以上直系亲属同时外出的情形;邵岑、张翼(2012)所讨论的家庭迁移为涉及两位及以上主要家庭成员迁入同一座城市并且共同居住的迁移行为。然而,正如李强(1996)所指出的,农民工家庭的迁移模式可以分为单身子女外出型、兄弟姊妹外出型、夫妻分居型、夫妻子女分居型、全家外出型共五大类。因此,以外出家庭成员数量来界定迁移类型,无法在兄弟姊妹外出型、夫妻子女分居型和全家外出型这三种迁移模式之间进行区分,也混同了部分家庭成员外出以及所有家庭成员都外出这两种迁移类型。洪小良(2007)通过对2006年北京市流动人口家庭户调查数据的分析发现,43.4%的流动人口家庭为举家迁移型,9.3%的家庭为夫妻分居型,35.2%的家庭为夫妻子女分居型,单身子女外出型和兄弟姊妹外出型流动人口家庭的比重则分别为13.8%和2.8%①。但是,在分析迁移决策的影响因素时,洪小良(2007)并没有将举家迁移作为因变量进行考察,而是以整体的家庭迁移作为研究对象。
举家迁移作为农村家庭迁移的一种重要类型,更能反映出农村劳动力在流入地定居的意愿和能力,但已有的文献或者仅仅考察了部分家庭成员的共同迁移行为,或者没有将部分家庭成员共同迁移与举家迁移区分开来。有鉴于此,本文对农村居民举家迁移的影响因素开展分析,在研究内容上对已有的研究进行补充。在研究方法上,以往文献通常使用Logit模型或者Probit模型分析迁移决策。然而,Logit模型只能刻画可观察特征(年龄、性别、受教育程度等)对迁移偏好的影响,而无法考虑迁移偏好随不可观测因素而变化或者迁移偏好完全随机变动等情形。由于住户调查难以包括影响迁移决策的所有信息,一些影响迁移决策的因素通常不能被研究者所观测到,因此,可观测特征完全相同的家庭可能会有着不同的迁移行为。影响迁移决策的不可观测因素进入经济计量模型中的误差项,会使得误差项无法保证符合独立同分布的假设,导致Logit模型出现误设的问题。除此之外,Logit模型也受限于无关备选方案的独立性这一假设。相比于Logit模型,Probit模型可以处理偏好的随机变动,同时也不依赖于无关备选方案的独立性这一假设,但Probit模型需要假设误差项服从正态分布。与Logit模型、Probit模型不同,混合Logit模型放弃了过强的无关备选方案的独立性这一假设,允许系数在可观测特征相同的样本之间存在差异,同时也无需假设误差项服从正态分布。考虑到已有研究方法的缺陷,本文拟运用混合Logit模型来分析农村居民的举家迁移决策。
三、数据与描述性统计
准确界定举家迁移需要对流动人口的家庭信息有完整和准确的了解,但大多数调查难以满足这一要求。例如,在农村住户调查中,可以通过访问留在农村的家庭成员,获取外出家庭成员的信息,以此来界定非举家迁移。然而,举家迁移者由于全家都迁移到了城镇地区,因此也就难以包括在农村住户调查的样本之中。虽然在城镇地区进行的调查可以获取流动人口的相关信息,但其中的许多调查却没有提供流动人口的流出地家庭成员的有关信息,从而为界定农村劳动力是否举家迁移造成了困难②。
国家统计局2005年全国1%人口抽样调查的范围覆盖了中国大陆31个省、自治区、直辖市,既包括城镇地区,也包括农村地区,调查信息包括了个人的性别、年龄、户籍性质、居住地、受教育程度、就业及收入状况。该数据中也包含了调查对象的婚姻状况以及15~64周岁妇女的存活子女数等信息,从而为识别举家迁移提供了很大的便利。因此,本文拟利用这一调查数据中1/5的随机样本,来对农村劳动力举家迁移进行界定,并对其影响因素开展分析。本文所使用的2005年全国1%人口抽样调查1/5随机样本共有996588个住户、2585481个个人。
根据研究的需要,本文将从农村迁移到城镇的流动人口定义为农业户籍、目前居住在城镇、户籍登记地不在目前居住的乡(镇、街道)并且离开户籍登记地半年以上的人员。由于举家迁移的家庭通常为核心家庭(nuclear family),因此,有些核心家庭可能在迁移之前属于主干家庭(stem family)或扩展家庭(extended family)③这些核心家庭做出举家迁移的决策,既是出于对城镇工作和生活的向往,有的也是基于家庭规模合理化(分家)的考虑。为了更好地考察举家迁移的影响因素,并剔除分家等其他因素对估计结果的干扰,本文只保留了农村核心家庭样本④。在此基础上,本文将家庭成员总数等于流动人口总数的住户定义为举家迁移家庭;将至少有一名家庭成员迁移、但并非所有家庭成员都外出的住户定义为非举家迁移家庭;将没有成员外出流动的住户定义为非迁移家庭。此外,本文根据个人调查样本的婚姻状况和15~64周岁妇女的存活子女数信息,对举家迁移进行了更为细致的认定。对于个人已婚但单身一人在城镇地区生活,即使其在城镇地区的家庭成员总数等于流动人口总数,仍被界定为非举家迁移;如果夫妻双方都是初婚有配偶,妻子所生育的子女存活数多于与该夫妻在城镇地区共同生活的子女数,那么,该住户也被视为非举家迁移⑤。
经过上述处理,本文共得到207839个农村核心家庭样本。其中,举家迁移的家庭10018个,占4.82%;非举家迁移的家庭10459个,占5.03%。因此,样本中有9.85%的家庭至少有一名家庭成员流动到了城镇,非迁移家庭则占样本的90.15%。本文的估算结果表明,在迁移的家庭中,举家迁移的比重为48.93%。洪小良(2007)对2006年北京市流动人口家庭户调查数据的分析表明,举家迁移的家庭占到了外来农民工家庭户的43.4%,但其样本除了核心家庭以外,还包括了主干家庭和扩展家庭。而主干家庭和扩展家庭通常拥有较多的家庭成员,举家迁移的成本和难度也就相应地高于核心家庭。考虑到样本结构的这一差异,笔者的结果与洪小良(2007)的估计应该是极为接近的。
表1提供了样本的描述性统计信息。表1显示,非迁移家庭的人口规模最大,平均为3.09人,而举家迁移家庭的人口规模为2.82人,非举家迁移家庭的人口规模为2.56人。从人口结构看,举家迁移家庭有着最高的6岁及以下小孩占家庭人口总数的比例(0.093),而非举家迁移家庭和非迁移家庭的这一比例分别为0.064和0.047。从7~12岁在校生(也即小学生)占家庭人口总数的比例看,举家迁移家庭最高,非迁移家庭次之,而非举家迁移家庭最低。非迁移家庭则有着最高的中学生(13~18岁在校生)占家庭人口总数的比例(0.076),举家迁移家庭和非举家迁移家庭的这一比例分别为0.033和0.025。从劳动力占家庭人口总数的比例看,非举家迁移家庭的这一比例最高,达到了0.836,而举家迁移家庭和非迁移家庭的这一比例分别为0.758和0.663。如果将劳动力根据年龄分类,进而考察不同年龄段劳动力占家庭人口总数的比例,可以发现其不同的分布特征。从表1可以看到,举家迁移家庭有着最高的19~30岁劳动力占家庭人口总数的比例,而非举家迁移家庭的31~45岁劳动力比例最高,非迁移家庭则有着最高的46~60岁劳动力比例。需要指出的是,由于2005年人口抽样调查不是全国性的普查,原籍地不在调查范围之内的非举家迁移人员的家庭成员信息无从获知,从而会导致非举家迁移家庭在人口规模和人口结构方面的统计偏差。可以预见的是,非举家迁移家庭的人口规模会存在一定程度的低估。而由于非举家迁移家庭通常是劳动力外出务工,非劳动力尤其是正在就学的子女留在原籍地,因此,非举家迁移家庭的劳动力和学生占家庭人口总数的比例会分别出现高估和低估的情况。
父母文化程度以及年龄在不同类型家庭之间存在着较大的差异。由于本文的样本只包括了核心家庭,因此,父亲和母亲与家庭的户主和配偶相对应。表1显示,迁移家庭的父亲受教育年限最高,而非迁移家庭的父亲受教育年限最低。总体而言,母亲的受教育年限要低于父亲,但母亲受教育年限在不同类型家庭之间的分布显示出与父亲受教育年限类似的特征。迁移家庭的母亲受教育年限最高,非举家迁移家庭次之,而非迁移家庭最低。父母亲年龄在不同类型家庭之间也存在着差异。非迁移家庭父母亲年龄最大,父亲和母亲的平均年龄分别为45.62和43.54岁。举家迁移家庭父母亲最为年轻,父亲和母亲的平均年龄分别为35.46和32.99岁。
有关劳动力流动的经济理论表明,劳动力流动决策主要受流入地和流出地之间预期收入差距的影响。由于预期收入差距是收入与就业率乘积的差距,表1于是也报告了迁入地和迁出地之间的收入差距以及就业率差距。对于非迁移家庭而言,收入差距被定义为当地城市的非农收入均值除以当地农村的非农收入均值再减去1。而对于迁移家庭而言,收入差距则为迁入地(城市)的非农收入均值除以迁出地(农村)的非农收入均值再减去1。就业率差距与预期收入差距的定义进行了类似的处理。收入差距、就业率差距以及预期收入差距的具体定义为:
收入差距=迁入地城市或本地城市的平均非农收入/户籍所在地农村的平均非农收入-1
就业率差距=迁入地城市或本地城市的就业率/户籍所在地农村的就业率-1
预期收入差距=(迁入地城市或本地城市的平均非农收入×迁入地城市或本地城市的就业率)/(户籍所在地农村的平均非农收入×户籍所在地农村的就业率)-1
从表1可以看到,举家迁移家庭的迁出地与迁入地之间的收入差距最大,迁入地平均非农收入达到了迁出地平均非农收入的3.759倍;非举家迁移家庭的迁入地平均非农收入为迁出地平均非农收入的3.474倍;而非迁移家庭所在城市的平均非农收入为当地农村平均非农收入的2.596倍。从就业率差距看,举家迁移家庭迁入地城市的就业率要比迁出地农村的就业率低24.1%,非举家迁移家庭迁入地城市的就业率则比迁出地农村的就业率低23.6%。非迁移家庭所在城市的就业率则要比当地农村的就业率低24.2%。尽管迁入地的就业率要低于迁出地,但由于迁入地的收入水平要远高于迁出地,因此,迁出地与迁入地之间依然存在较大的预期非农收入差距。举家迁移家庭和非举家迁移家庭在迁入地的预期非农收入分别为迁出地的2.856倍和2.649倍。对非迁移家庭而言,当地城市预期非农收入则为当地农村预期非农收入的1.939倍。
家庭类型在不同地区的分布也是不均匀的。从户籍所在地来看,举家迁移家庭和非举家迁移家庭更多地来自于中部地区,户籍所在地为中部地区的举家迁移家庭和非举家迁移家庭分别占到了这两类家庭的42.8%和39.6%。对于户籍所在地为东部地区和西部地区农村家庭,其迁移比例要高于户籍所在地为中部地区的农村家庭。
四、模型与变量
在经验分析中,离散因变量模型是研究劳动力迁移决策的基本方法。对农村劳动力是否举家迁移决策进行分析,鉴于因变量为二值变量,适于使用Logit模型、Probit模型等二值概率模型。但是,在本文研究中,由于农村家庭面临举家迁移、非举家迁移、非迁移这三种选择,使用二值概率模型无法很好地分析其迁移决策行为。对三种或三种以上选择的分析,常用的方法为多元Logit模型。然而,多元Logit模型依赖于无关备选方案的独立性(independence of irrelevant alternatives,ⅡA)假设。ⅡA假设意味着,当非迁移不再成为一个选择时,举家迁移和非举家迁移的概率会以同样的比例变动。这无疑是一个很强的假设。
在ⅡA假设无法满足的情况下,多元Probit模型和嵌套Logit模型(nested Logit model)成为可能的选择。多元Probit模型并不需要ⅡA假设,在多元Probit模型的设定中,不同选择之间的替代关系可以是任意的,而非多元Logit模型中的成比例移动(proportional shifting)的替代关系,但多元Probit模型必须假设误差项服从正态分布。嵌套Logit模型则是对多元Logit模型的扩展。对于嵌套Logit模型来说,在同一嵌套(nest)内部,ⅡA假设成立;对属于不同嵌套的选择而言,ⅡA假设则不成立。对本文研究来说,举家迁移和非举家迁移可以视为一个嵌套,而非迁移这一选择可单独成为一个嵌套。然而,如前文所言,当非迁移不再成为一个选择时,举家迁移和非举家迁移之间呈现成比例变动的替代关系这一假设可能并不成立。在现实生活中,人们的偏好存在差异性,具有相同特征的家庭往往会做出不同的迁移决策。嵌套Logit模型无法考察自变量的系数在样本群体中的变异性,从而无法解释可观测特征相同的家庭为什么会有着不同的迁移行为。因此,就本文所研究的问题而言,嵌套Logit模型并不是一个合适的分析工具。
与以上多项选择概率模型不同,混合Logit模型(mixed Logit model)则放弃了过强的ⅡA假设,允许自变量的系数在不同观测对象之间存在差异性,也不要求误差项须服从正态分布,因而能够分析任何情形下的离散选择决策,具有极强的普适性(Train,2003)⑥。鉴于混合Logit模型所具有的上述优点,本文拟采用混合Logit模型来分析农村劳动力的家庭迁移决策。
假设第i个家庭对于第j种选择的效用为:
对于(1)式,假设服从第一类型极值分布(type I extreme value distribution),且是独立同分布的,i=1,…,N;j=1,2,…,J。为年龄、受教育程度、收入差距等可观测特征,为相应的系数。根据(1)式,可以得到家庭i选择j的概率为:
与Logit模型不同,(1)式中的概率为依赖于的取值的条件概率。对研究者而言,可以被视为服从分布f(β|θ)的随机变量,其中,θ为描述该分布的参数(例如均值、标准差)⑦。通过对(2)式在的所有取值上进行积分,可以得到无条件概率:
对于(3)式,可以利用如下模拟(simulation)方法进行计算:首先,从分布f(β|θ)中抽取,其中,r=1,…,R;其次,根据所抽取的,计算;最后,在重复第一步和第二步R次后,取的均值,从而得到模拟的无条件概率:
在得到无条件概率之后,可以计算模拟的对数似然函数,并通过求解该对数似然函数的最大化对系数进行估计。模拟的对数似然函数为:
(5)式中,若家庭i选择方案j,=1:若家庭i选择其他方案,=0。
混合Logit模型得到了较为广泛的应用。例如,Détang-Dessendre et al.(2008)利用该模型分析了法国的劳动力流动问题;Borah(2006)利用该模型分析了印度农村居民在公立医院、私立医院和私人医生之间的选择问题;Berry et al.(1995)利用该模型分析了消费者在不同品牌汽车之间的选择问题;Zhang and Zhao(2013)则利用该模型分析了中国农村流动人口在流动距离和收入差距之间的权衡问题。
五、估计结果解释说明
(一)估计结果
本部分使用混合Logit模型对农村家庭在举家迁移、非举家迁移和非迁移这三种情形之间的选择进行分析⑧。本文需要使用Stata软件中的mixlogit命令对模型进行估计⑨,该命令需要对数据进行变形,使其合乎条件Logit(conditional Logit)模型的格式,也即将变量从分观测(case-specific)的变量变为分备择方案(alternative-specific)的变量⑩。由于存在举家迁移、非举家迁移和非迁移这三种备择方案,本文将数据复制为原有数据的3倍,并根据原有变量生成分备择方案的变量。
相比于分观测变量的数据,分备择方案变量的数据除了所选择的方案以外,也包括了未选择方案的有关信息(11)。本文补充了收入差距和就业率差距等分备择方案变量的信息。例如,对迁移家庭而言,收入差距在分观测变量的数据里面为迁出地农村和迁入地城市之间的收入差距。在分备择方案变量的数据中,本文也计算了迁移家庭如果不迁移所面临的收入差距,也即迁移家庭户籍所在城市居民的收入均值与当地农村居民的收入均值之间的差距。对非迁移家庭而言,本文分别以户籍为当地的举家迁移家庭和非举家迁移家庭的收入差距的均值,作为非迁移家庭在举家迁移和非举家迁移时所面临的收入差距。
在进行估计时,本文将6岁及以下小孩占家庭人口总数的比例、7~12岁在校生占家庭人口总数的比例、13~18岁在校生占家庭人口总数的比例、收入差距、就业率差距等变量的系数视为随机的,以便允许可观测特征相同的家庭有着不同的迁移选择行为。
下页表2报告了混合Logit模型的估计结果。本文首先对10个变量的随机性系数进行了似然比检验,以考察其标准差的联合显著性(12)。检验结果表明,卡方统计量为343.41(自由度为10),在0.0001的显著性水平上拒绝了这10个系数的标准差都为零的原假设。下面对各变量系数的估计结果进行简要的解释说明。
(二)系数固定的变量对家庭迁移决策的影响
1.家庭人口特征。根据下页表3,31~45岁劳动力占家庭人口总数的比例对举家迁移有着正向影响,19~30岁、46~60岁劳动力占家庭人口总数的比例对举家迁移没有影响,但所有年龄段劳动力占家庭人口总数比例的提高,都会显著增加非举家迁移的概率,相对于19~30岁、46~60岁年龄段劳动力而言,31~45岁劳动力占家庭人口总数的比例对非举家迁移的影响尤其明显。另外,表3中的估计结果显示,家庭人口规模的扩大对举家迁移和非举家迁移都具有显著的抑制作用。
2.父母特征。从父母亲特征看,父亲受教育年限的增加,能够显著提高举家迁移和非举家迁移的概率,而且父亲受教育年限对提高举家迁移概率的作用幅度要大于其对非举家迁移概率的作用幅度。尽管父亲受教育年限的增加有助于提高家庭迁移的概率,但母亲受教育年限对举家迁移和非举家迁移的概率都没有影响。父亲年龄对提高举家迁移的概率有着显著影响,但对非举家迁移的概率没有影响。(13)母亲年龄对举家迁移和非举家迁移的概率都有显著的影响,但与父亲年龄的作用不同,母亲年龄的增长对举家迁移概率的影响呈现出“正U型”的特征,而对非举家迁移的概率产生了显著的负向影响(14)。
3.区域虚拟变量。户籍所在地的区域虚拟变量对举家迁移和非举家迁移的概率也具有显著影响。在控制其他影响因素之后,相比于户籍所在地为中部地区的农村家庭而言,户籍所在地为东部地区的农村家庭的迁移概率相对较低,而户籍所在地为西部地区的农村家庭的迁移概率更低。总体而言,户籍所在地对农村家庭迁移决策影响大小的顺序依次为:中部最大,东部次之,西部最低;此外,户籍所在地对举家迁移概率的作用幅度要大于对其非举家迁移概率的作用幅度。
(三)系数随机的变量对家庭迁移决策的影响
1.各年龄段孩子占家庭人口总数的比例。6岁及以下小孩、7~12岁在校生和13~18岁在校生占家庭人口总数比例的系数被假定服从正态分布,这主要是因为这些变量对迁移决策的影响在不同农村家庭之间存在较大的差异,有些农村家庭会基于子女教育等方面的考虑选择举家迁移或非举家迁移,对这部分农村家庭而言,这些变量对迁移决策的影响是正向的;相反,有些农村家庭则会因为照看孩子的需要而选择不迁移,对这部分农村家庭而言,这些变量对迁移决策的影响是负向的。
(1)6岁及以下小孩占家庭人口总数的比例。平均而言,6岁及以下小孩占家庭人口总数的比例能够显著降低举家迁移的概率而提高非举家迁移的概率。但是,从系数标准差的估计结果可以看出,6岁及以下小孩占家庭人口总数的比例对举家迁移概率的影响在样本中具有很大的变异性,系数标准差达到了22.472,而且这一结果在统计上高度显著。由于6岁及以下小孩占家庭人口总数比例的系数服从正态分布,可以计算出该系数在本文研究样本中小于0的样本比例为52.89%,即对52.89%的样本家庭而言,6岁及以下小孩占家庭人口总数的比例对其举家迁移的概率产生了的负向影响(15)。相比之下,6岁及以下小孩占家庭人口总数的比例对非举家迁移概率的影响具有较小的变异性,系数标准差只有1.169,经过计算得知,对86.47%的样本家庭而言,6岁及以下小孩占家庭人口总数的比例对非举家迁移的概率具有正向作用。这说明,6岁及以下小孩占家庭人口总数的比例对农村家庭非举家迁移决策而言并不具有很强的抑制作用,但对相当多(52.89%)的农村家庭而言,6岁及以下小孩占家庭人口总数的比例越高,其举家迁移的概率就越低。一种可能的解释是,如果农村家庭选择非举家迁移,6岁及以下小孩可以在老家抚养,由于农村生活成本较低,家庭的留守成员或其他亲属都可参与对小孩的照料,其抚养成本不至太高;但如果选择举家迁移,6岁及以下小孩将在城市抚养,从而推高家庭在城市的生活成本,而且留在农村的其他亲属无法提供照料方面的帮助。因此,对相当多的农村家庭而言,6岁及以下小孩占家庭人口总数的比例对其举家迁移概率产生了负向影响。
(2)在校生比例。平均而言,7~12岁在校生占家庭人口总数的比例对农村家庭举家迁移的概率没有影响,但这一变量系数的变异性很大。经过与上述类似的计算可知,对48.52%的样本家庭而言,7~12岁在校生占家庭人口总数的比例越高,其举家迁移的概率越高;而对51.48%的样本家庭而言,该比例越高,其举家迁移的概率反而越低。正是7~12岁在校生占家庭人口总数的比例对举家迁移概率的影响在样本群体中存在极大差异,导致了这一变量均值的估计结果并不具有统计显著性。尽管对举家迁移的概率没有显著影响,但平均来说,7~12岁在校生占家庭人口总数的比例对农村家庭非举家迁移的概率产生了显著的负向影响,而且其系数的变异性较小。因此,对所有的样本家庭而言,7~12岁在校生占家庭人口总数的比例越高,非举家迁移的概率越低。上述估计结果在一定程度上说明,相当多(48.52%)的农村家庭基于对7~12岁子女接受更好教育的考虑而举家迁移到城市,但也有相当多(51.48%)的农村家庭难以承受举家迁移到城市的居住成本和子女在城市的教育成本而倾向于不选择举家迁移;由于非举家迁移的家庭通常会将7~12岁的孩子留在农村老家上学,难以照顾好其学习和生活,因而7~12岁在校生占家庭人口总数比例的提高不利于农村家庭选择非举家迁移。13~18岁在校生占家庭人口总数的比例对农村家庭迁移决策的影响与7~12岁在校生占家庭人口总数的比例相类似。具体来说,对大约34%的样本家庭而言,13~18岁在校生占家庭人口总数的比例越高,其举家迁移的概率越高;对其余大约66%的样本家庭而言,该比例越高,其举家迁移的概率反而越低;但对几乎所有样本家庭而言,13~18岁在校生占家庭人口总数的比例对其非举家迁移的概率都产生了显著的负向影响。
2.收入差距与就业率差距。一般而言,迁入地和迁出地之间的收入差距和就业率差距会形成迁移的拉力,对所有农村家庭的迁移都会有着正向影响,尽管作用的幅度并不相同。本文假设收入差距和就业率差距的系数服从对数正态分布,即收入差距的对数与就业率差距的对数均服从正态分布,从而保证了收入差距和就业率差距的系数估计值对所有样本家庭而言都是正的。
表2报告了收入差距对数与就业率差距对数的系数估计值与系数标准差,但由于表2中其他变量都为原值而非对数值,为统一起见,本文在表3中另行报告了收入差距与就业率差距系数均值及其标准差的估计结果(16)。由于收入差距和就业率差距的系数服从对数正态分布,因此,从表3可以看到,对所有样本家庭而言,收入差距和就业率差距的系数都为正。收入差距对举家迁移决策的影响在不同农村家庭之间有着一定的变异性,系数标准差为0.026且统计显著。但是,收入差距对非举家迁移的影响在不同农村家庭之间没有变异。这些结果说明了允许农村家庭在迁移偏好上存在随机化差异的重要性。相比于非举家迁移而言,举家迁移可能风险更大,而农村家庭的风险态度或者抵御风险能力是不可观测特征。这些不可观测特征的存在,使得可观测特征相同的农村家庭对迁移有着不同的偏好。风险态度或者抵御风险能力不同的农村家庭,面临举家迁移引致的相同幅度的收入提升时会有着不同的迁移决策。对风险偏好或者抵御风险能力较强的农村家庭而言,较小幅度的收入差距就足以让他们做出举家迁移的决策;而对风险厌恶或者抵御风险能力较弱的农村家庭而言,相当大的收入差距才能够促使他们举家迁移到城市。而非举家迁移的风险相对较小,因此,不同农村家庭在风险态度或者抵御风险能力上的差异,并不会使收入差距对其非举家迁移决策产生影响。对举家迁移和非举家迁移而言,就业率差距绝对值的缩小能够提高迁移的概率,但就业率差距系数的标准差在统计上都不显著。这些结果说明,就业率差距对迁移决策的影响幅度在不同农村家庭之间相差不大。从系数均值的大小来看,收入差距对举家迁移决策的重要性要高于对非举家迁移决策,但就业率差距对非举家迁移决策的重要性则要高于对举家迁移决策。
六、结论及政策含义
本文使用国家统计局2005年1%人口抽样调查的1/5样本,对农村居民中的举家迁移家庭进行了识别,发现举家迁移家庭占到了全部农村迁移家庭的48.93%。相比于非举家迁移家庭而言,举家迁移家庭的人口规模较大,劳动力比例较高,学龄前儿童、小学生及中学生占家庭人口总数的比例也相对较高。三类农村家庭相比较,举家迁移家庭父母受教育程度最高,非举家迁移家庭次之,非迁移家庭最低。父母亲年龄在不同类型家庭之间也存在着差异,非迁移家庭父母亲年龄最大,举家迁移家庭父母亲最为年轻,非举家迁移家庭父母亲年龄居中。
本文使用混合Logit模型分析了农村家庭在举家迁移、非举家迁移和非迁移这三种选择中的决策行为。估计结果表明,31~45岁劳动力占家庭人口总数的比例对举家迁移的概率有正向影响;家庭人口规模的扩大对举家迁移的概率有负向影响;父亲受教育年限的增加能够显著提高举家迁移的概率,但母亲受教育年限对举家迁移决策没有显著影响;父亲年龄的增长会提高举家迁移的概率,母亲年龄对举家迁移概率的影响呈现出“正U型”曲线的特征,对非举家迁移的概率则有显著的负向影响。
平均而言,6岁及以下小孩占家庭人口总数的比例能够显著降低举家迁移的概率,但这一变量的作用在不同农村家庭之间具有很大的变异性,对52.89%的农村家庭而言该比例不利于其选择举家迁移。对大约一半的样本家庭而言,7~12岁在校生占家庭人口总数的比例越高,其举家迁移的概率越高;而对剩下的一半样本家庭而言,该比例越高,其举家迁移的概率越低。对66%的样本家庭而言,13~18岁在校生占家庭人口总数的比例越高,其举家迁移的概率越低。由于假设收入差距和就业率差距的系数服从对数正态分布,因此,对所有农村家庭而言,收入差距的扩大以及就业率差距绝对值的缩小能够提高其举家迁移的可能性,但收入差距对举家迁移概率的影响幅度在不同农村家庭之间有着一定的变异性,而就业率差距的影响幅度则不存在变异性。
本文的分析表明,追求更好的子女教育是相当多的农村家庭选择举家迁移的重要影响因素。然而,也有部分农村家庭难以承受城市的生活成本以及子女在城市的教育成本,对这部分农村家庭而言,子女教育成为阻碍其举家迁移的重要因素。从政策的角度而言,改革现行的以户籍人口为对象的义务教育体制,将进城农民工子女纳入流入地义务教育的范围,鼓励公办学校吸收农民工子女入学,支持农民工子弟学校发展,将有利于提高农民工子女在城市所接受教育的质量并降低农民工家庭的教育费用支出,促进其举家迁移,推进流动人口的城镇化。
①部分家庭既属于夫妻分居型,也属于夫妻子女分居型,故各项比重之和超过100.0%。
②例如,尽管城镇地区的流动人口调查显示,一对夫妇和一个子女同在城镇生活,但在缺乏其全部家庭成员信息的情况下,仍无法判断该家庭是否为举家迁移;假如该对夫妇在农村老家还有子女,则该家庭并不是举家迁移。
③核心家庭是指由父母亲与未婚子女组成的家庭,而扩展家庭通常由多个核心家庭组成。主干家庭则是由祖父母、父母以及未婚子女组成的三代家庭。
④已有的研究表明,家庭迁移的主体为核心家庭。例如,陈卫、刘金菊(2012)发现,北京市流动人口家庭化的趋势是以核心家庭为基础的。此外,邵岑、张翼(2012)也限定了所分析的家庭种类,但他们的研究样本除了核心家庭以外,还包括了主干家庭。
⑤当然,囿于数据限制,本文对举家迁移的识别并非是完美无缺的。首先,对举家迁出农村但家庭成员在城镇地区不同地点居住的家庭,本文无法进行正确识别,会将其定义为非举家迁移家庭。但是,由于本文只保留了核心家庭样本,样本家庭规模较小,因此,发生这一识别错误的概率相应较低。其次,本文所识别出的举家迁移家庭,可能是来自不同农村地区的流动人口在迁入城市后新组建的家庭,而非迁移到城镇地区的原农村家庭。最后,由于缺乏户籍变更信息,本文也无法识别“农转非”的举家迁移家庭。
⑥对混合Logit模型的详细讨论,请参见Train(2003)第六章、第十一章。
⑦β的分布可根据所研究问题以及研究者对系数特性的判断而设定,通常的选择有正态分布、对数正态分布、均匀分布、三角形分布等。
⑧本文尝试使用多元Logit模型估计了农村家庭的迁移决策,并对ⅡA假设是否成立进行了检验。Hausman检验和Small-Hsiao检验结果都表明,ⅡA假设对本文的研究样本而言并不成立。
⑨需要指出的是,mixlogit命令还存在改进的空间。目前,该命令只考虑了系数服从正态和对数正态分布的情形,尚未考虑系数服从均匀分布、三角形分布、伽玛分布等更多的情形。此外,该命令在模拟时使用了标准的Halton抽样,而标准的Halton抽样在生成多维的随机数序列时,容易出现序列之间高度相关的情形,而倒换(scrambled)的Halton抽样能够有效避免这一情形的出现(Train,2003)。
⑩具体方法可以参见Hole(2007)或Long and Freese(2006)第7.2.4节。
(11)分观测的变量即是因家庭而异的变量(例如年龄、受教育程度),分备择方案的变量不仅在不同家庭之间有差异,而且会在同一家庭的不同具体备择方案之间存在差异。
(12)本文有5个系数为随机的变量,但由于数据进行了变形,因此,共有15个系数为随机的变量。在估计中,为避免共线性问题而舍弃一个备择方案,剩余10个系数为随机的变量。
(13)综合考察父亲年龄及其平方项的估计系数,可以发现,父亲年龄对举家迁移概率的影响具有“倒U型”曲线的特征。表2对父亲年龄及其平方项的系数估计值进行了四舍五入。在进行四舍五入之前,父亲年龄及其平方项的系数估计值分别为0.140126和-0.000769,通过计算可知,这一“倒U型”曲线的顶点为91岁。由于调查数据中并没有父亲年龄大于91岁的样本,因此,总体而言,父亲年龄的增长会提高举家迁移的概率。
(14)对举家迁移和非举家迁移而言,母亲年龄影响的“正U型”曲线的最低点分别为65岁和89岁。
(15)如果系数服从均值为μ、标准差为σ的正态分布,那么,样本中系数小于0的比例为Φ(-μ/σ),其中,Φ(·)为标准正态分布的累积分布函数。
(16)具体计算方法请参见Train(2003),第154页。