2010年人口普查数据质量评估以及对以往人口变动分析校正,本文主要内容关键词为:变动论文,人口普查论文,以往论文,人口论文,质量论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在第六次人口普查数据全部公布之前,郭志刚(2011)便主要依据蔡泳(2011)利用人口普查公报中年龄金字塔经过图像识别技术估算得到的年龄结构粗线条数据发表了名为《“六普”①结果表明以往人口估计和预测严重失误》一文。郭志刚以第六次普查的人口年龄结构为标准,模拟过去20年人口进程及其主要人口指标,然后与其他来源的人口指标进行了比较和分析。指出1990~2010年间的人口估计和预测存在的普遍问题是高估了出生人口数量,高估了生育水平,高估了人口增长,从而低估了人口老龄化程度。显然,由于那时2010年普查数据还没有公布,郭志刚才会得出他文章中的一些结论,否定以往研究者对于生育、死亡、年龄结构数据的调整以及他们在此基础上对人口变动态势的判断。那么,以往研究者对资料调整带来的误差真的比不调整大吗?真的缺乏科学的依据或者现实的依据吗?或者说目前就没一个可以让人信服的数据来准确说明中国的人口到底是一个怎样的状况?为此,让我们先来看一看2010年人口普查到底告诉了我们什么。
这里我们首先得承认,完成13亿多人口的普查的确是一个艰巨而困难的工作。2010年人口普查公报显示这是一次数据质量较高的普查,漏报率仅仅为0.12%,也仅仅次于1990年的人口普查质量,因此2010年人口普查可以说的上是一次成功的普查。然而,不能因为它是成功的普查就对关乎准确判断人口发展状态的关键指标的数据质量有一丝忽略。根据公布出版的人口普查数据显示,我国育龄妇女总和生育率为1.188,这是一个世界范围最低的水平,除中国的台湾、香港、澳门三地外,全球223个国家和地区中只有新加坡比这一水平低。但是,就中国的现实社会经济发展水平以及我们的现行生育政策来看,这样的生育水平是难以置信的。更为惊人的是,2010年人口普查得到的男婴死亡概率为3.73‰,女婴死亡概率为3.92‰,在世界最发达的国家和地区也很难达到这样低的死亡水平,这一水平可以排到世界前15位,比德国、瑞典还要低。此外,我们通过对分性别、分年龄死亡资料分析发现,2010年我国男性人口出生预期寿命达到75.66岁,女性人口达到80.41岁,相比较2000年第五次人口普查时,男性出生预期寿命增加了5岁,女性增加了6岁多。10年的时间里全人口出生预期寿命增加5岁多,显然大大超出了联合国步长法在预期寿命达到70岁后每10年增长不超过2岁的增长幅度,也大大超出了人们的预期。这是一个真实的情况吗?恐怕无法使人相信!因此,仅仅从生育、死亡的资料可以看出,2010年人口普查数据的质量并不像公布的那样好。我们需要对2010年人口普查数据质量做一较为全面的评估和修正。只有如此才能够准确掌握和判断我国人口发展的现状和态势。
1 1990年、2000年和2010年人口普查年龄、性别数据质量检验
为了准确计算年龄结构并利用年龄性别数据推算评估过去人口发展的水平、预测未来人口发展趋势,需要对人口普查的年龄、性别数据质量进行检验,以判断是否存在年龄堆积和性别偏好。只有不存在这两个方面问题时,进行年龄移算估计得到的人口信息才能保证准确性和真实性。
1.1 年龄偏好指数
年龄偏好指数是在假设实际年龄别人口分布呈线性(或均匀)的条件下,评估人们在报告自身的年龄时是否存在偏好,如对0、5、8等数字的偏好。当x岁的年龄偏好指数越接近100,表明在该年龄上不存在偏好;比100大的越多,表明在该年龄上存在偏好(堆积),而比100小的越多,表明在该年龄上存在“跨越”。
利用年龄偏好指数计算公式可计算得到近三次人口普查3~59岁各年龄的年龄偏好指数,表1给出了1990年、2000年和2010年特殊年龄偏好系数的情况。可以看到,历次全国人口普查在个别年龄上均存在一定程度的“堆积”和“跨越”。由以上有关年龄偏好系数的介绍可知,系数偏离100有可能是正常,也有可能是“多报”或者“漏报”造成的。可通过年龄推算法,分别比较近三次普查中存在“堆积”和“跨越”的年龄是否一致,来判断哪些年龄存在漏报或者多报现象,需要修正。
首先,判断三次人口普查数据中存在“堆积”的年龄中的“多报”情况。将2000年和2010年存在“堆积”的年龄倒退回1990年的年龄,再与1990年存在“堆积”的年龄进行比较发现,1990年27岁与2000年37岁和2010年47岁相对应,且年龄偏好系数非常接近,据此判断1990年27岁年龄偏好在很大程度上是由现实造成的,而并非完全由“多报”造成(此处无法判断是否存在多报,暂且假设存在多报)。同理,我们可以判断2000年18岁、37岁和43岁人口及2010年28岁、47岁和53岁人口的年龄偏好也是在很大程度上由现实偏好造成,而并非完全由“多报”造成。这里年龄偏好指数显示的堆积现象,不只是由于年龄偏好而是部分由于人口并不服从均匀或线性分布造成的。关于该年龄人口是否有堆积,是否存在重报,将在下文给予评估。
其次,判断三次人口普查数据中存在“跨越”的年龄中的“漏报”情况。将2000年和2010年存在“跨越”的年龄倒退回1990年的年龄,再与1990年存在“跨越”的年龄进行比较发现,1990年6岁与2010年的26岁相对应;23岁与2000年的33岁和2010年的43岁相对应;31岁与2010年的51岁相对应。并且对于年龄的偏好系数非常接近,据此判断1990年6岁、23岁、28岁、29岁和31岁年龄偏好系数在很大程度上是由于这队列在出生年份处于高峰,出生多于相邻年份造成的,而并非完全由“漏报”造成(此处无法判断是否存在漏报,暂且假设存在漏报)。同理,我们可以判断2000年33岁人口及2010年26岁、43岁、49岁和51岁人口的年龄偏好也是在很大程度上由此造成,而并非完全由“漏报”或“堆积”造成,是由于年龄人口并不服从均匀分布造成的。这样可以判断,当我们进行年龄单岁组移算时不会造成年龄上的错误。
1.2 年龄、性别质量检验指数
从表2的检验指数可见,2010年第六次全国人口普查年龄报告质量较高,不存在明显的年龄偏好。当然,与1990年的人口普查相比,2010年普查人口年龄报告品质要略差一些;而与2000年的人口普查相比,2010年普查人口年龄报告品质要好一些。从联合国综合指数可见,性别报告存在较大的偏好。与1990年相比,2010年人口普查出生人口性别比处于不正常状态,这种状态是如何形成的?是否是由于女性人口漏报造成?这还需进一步检验。总体而言,2010年人口普查的人口年龄数据质量较好,不存在非常明显的偏好。因此,可以用于人口的年龄移算。
通过上面对三次普查人口年龄、性别报告质量的检验,年龄结构数据质量较高,除个别年龄外,几乎不存在明显的年龄偏好堆积和跨越,可以用于年龄移算和预测。至于性别偏好问题,在下面的漏报检验估计以及漏报女性人口回填后,可以得到改善。
2 2010年人口普查死亡数据质量评估
这里首先说明,2010年第六次全国人口普查(简称“六普”)中有关分年龄别、性别的死亡资料是指2009年11月1日~2010年10月31日之间的情况,由于只有两个月的差异,因此我们假设这期间反映的死亡水平与2010年全年的一致,以这期间的死亡水平代替2010年的死亡水平。
已有的研究(李树茁,1994;张二力、路磊,1992;孙福滨、李树茁、李楠,1993;翟振武,1989)均表明1982年“三普”死亡数据的准确度非常高,可以直接使用。而1990年“四普”存在一定程度的死亡漏报现象,此后的研究又表明2000年“五普”的死亡数据也有一定程度的漏报只是不很严重。本文采用布拉斯罗吉特生命表系统以1982年普查获得的1981年分性别、年龄死亡概率作为标准,对2010年分性别、年龄的死亡概率进行重新估计和修正,并对死亡漏报给予评估。具体的死亡概率的修正方法、参数估计以及具体资料和内容将在另文刊出,这里不再详述。
2.1 0~4岁儿童的死亡漏报评估
以1981年的分性别、分年龄死亡概率作为标准,采用布拉斯罗吉特生命表系统估计得到2010年分性别0~4岁各年龄人口的死亡概率(见图1)。
由此可见,2010年人口普查所获得的婴幼儿(0~4岁)死亡数据存在较大的漏报。2010年普查得到的男婴死亡概率只有3.73‰,女婴死亡概率只有3.92‰,修正后男婴死亡概率为25.81‰,女婴死亡概率为17.82‰。由此可以得到2010年婴儿死亡漏报率高达78%~85%。幼儿死亡漏报也比较严重,男性在60%~72%,女性在54%~70%,男性婴幼儿死亡数据的漏报情况比女性婴幼儿的要严重一些。
2.2 60岁及以上老年人口死亡漏报
我们利用1981年的死亡概率作为标准,选择30~59岁年龄段的死亡概率作为稳定可靠数据可以估计得到2010年分性别60岁及以上各年龄人口的死亡概率(见图2)。图2给出了2010年全国分性别60岁及以上老年人口各年龄的死亡概率普查数据原值与布拉斯逻辑特生命表法修正值。
通过比较可以看到,2010年60岁以上人口死亡概率的修正值大于普查直接计算得到的原值程度比较明显。说明2010年的老年人口的死亡漏报现象比较严重,60~90岁男性老年人口的死亡漏报率超过20%,平均在23%左右,95岁及以上人口的死亡漏报机会不存在;女性老年人口的死亡漏报率低于男性,但是60~90岁女性老年人口的漏报率大多超过5%,平均在8%。从而证明,普查数据中的死亡人口数据质量相对较差,直接计算的死亡概率准确性不高,必须对其进行修正,提高其准确度。
3 2010年漏报人口的年龄分布估计
根据1990年以来的三次人口普查分性别、年龄的人口,利用重新估计得到的1989~2000年和2000~2010年分性别、年龄的死亡概率,采用年龄移算法和数据匹配的方法,重点考察2010年“六普”和2000年“五普”漏报人口和重报误报的情况。
3.1 2010年分年龄组的漏报情况
3.1.1 0~9岁人口漏报
通过对1982年、1990年、2000年和2010年四次人口普查数据的对比,即使是普查质量非常高的1982年和品质较高的1990年,低龄人口漏报情况也是大大超出普查公报的结果。利用1990年(7月1日)人口普查获得的8~15岁人口资料回推到1982年(7月1日)的0~7岁人口,假设在1990年8~15岁人口不存在漏报的情况下,可以得到1982年0~7岁漏报情况,计算得到漏报率(见图3)。根据2000年人口普查数据推算得到的7月1日10~19岁人口资料回推到1990年7月1日的0~9岁人口,同样假设在2000年10~19岁人口不存在漏报的情况下,可以得到1990年0~9岁漏报情况,计算得到漏报率(见图3)。此外,经过对2000年人口普查数据质量特别是0~9岁漏报情况的研究(王金营,2003;翟振武、陈卫,2007;张为民、崔红艳,2002;于学军,2003),并对比2010年10~19岁人口,可以肯定2000年0~9岁漏报率更为严重,漏报率超过10%,0~1岁漏报率超过20%,远远高于前面两次人口普查。这表明,无论高质量的普查还是有一定漏报率(2000年普查公报总体漏报率1.81%)的普查,低龄人口都存在相当程度的漏报,而且随着社会发展,人口流动活跃、户籍管理、房屋住宅市场化等因素变动,使得0~9岁人口普查时漏报现象变得越来越严重。
判断1982年、1990年和2000年人口普查时人口漏报,我们可以根据下一次普查的结果。然而,由于2010年普查得到的0~9岁人口资料没有后续的人口普查可以参照,10~19岁人口虽有2000年人口普查得到0~9岁作为队列参照,但是以往研究已经表明2000年0~9岁人口本身漏报比较严重,不能作为评判标准。因此,2010年人口普查的0~9岁和10~19岁两个年龄组的数据质量需要用其他办法来检验。这里考虑到2010年的人口普查数据公报的漏报率仅为0.12%,直观表明数据质量与1990年普查质量相近。对比1990年人口普查的数据质量,本文一个基本假设就是2010年人口普查的质量不会比1990年的普查质量好,或者说1990年的普查质量应该好于2010年的普查。因此,我们以公认数据质量较好的1990年0~9岁人口的漏报率作为2010年人口普查该年龄段最低漏报率。
由表3可见,按最低的漏报率计算,2010年0~9岁漏报人口为884.5万,漏报率为5.70%,0岁漏报率为12.47%。其中,0~9岁女性漏报率为6.16%大于男性5.30%。这应该是最低的漏报规模,考虑到2010年我国人口的流动规模和户籍管理的困难性,低龄人口的漏报规模可能会更大,当然可能会相比较2000年人口普查时的漏报率要低。
3.1.2 10岁及以上人口的漏报或误报评估
由于10~17岁人口多为在校学生,漏报情况较小。2010年10~29岁人口的漏报将依据1990年同年龄段的漏报率计算。在不考虑现役军人的情况下,我们利用2000年的普查数据可以推算出1990年17~29岁人口缺失率均为1.4%,缺失人口430万。扣除现役军人270万,1990年17~29岁人口缺失160万左右,这种误差一是漏报、二是死亡率估计误差,可以判断17~29岁人口的漏报情况很小。
30~49岁人口处于工作、家庭等状态比较稳定,漏报率也较小,但是可能存在重报或者误报现象,该年龄段人口可以根据1990年的10~29岁人口、2000年的20~39岁人口资料,校正2010年的该年龄段人口。为了对2010年30~49岁人口中各年龄人口质量进行仔细评价,我们对1990年普查获得的个案资料按出生年月汇总,得到各个时期出生在t-1年11月1日至t年10月31日的人口,与2010年普查获得分年龄人口进行同一队列比较(见表4)发现,2010年男性人口中的30~38岁和49岁,女性人口中的30~34岁、36~38岁、44岁、47岁和49岁的规模大于1990年同一队列人口数。由于1990年普查质量高于其后的普查,我们有理由相信1990年的资料可信。由此我们可以断定,2010年以上这些年龄存在较大规模的重报或误报,这些年龄人口的平均重报或误报率男性为3.10%,女性为2.21%,男性重报率高于女性。
2010年41、51、52、58岁四个年龄的人口规模与2000年的31、41、42、48岁四个年龄的人口规模相差甚大,比较1990年第四次全国人口普查时的21、31、32、38岁四个年龄的人口规模(含现役军人),表明2000年的21、31、32、38岁四个年龄的人口报告是准确的,从而说明2010年41、51、52、58岁四个年龄的人口存在误报和由于出生分布的非均匀性,导致2010年7月1日这四个年龄人口的失真。
此外,通过比较2000年40岁及以上人口留存到2010年时的分年龄人口与“六普”报告的50岁及以上的人口,可计算得到50岁及以上人口中男性重报1317088人,重报率为0.79%;女性漏报1149036人,漏报率为0.68%。当然,这些人口均匀分布到各个年龄后将是很小的比例。
4 2010年普查的生育数据质量及其评估
4.1 2010年人口普查时的生育、育龄妇女抽样偏误
根据2010年人口普查获得的生育资料显示,长表出生人口数(生育数)占短表的出生人口比例为8.601%,而长表中育龄妇女平均人口数占2009年11月1日至2010年10月31日期间的年育龄妇女平均人口数(没有考虑育龄妇女的重报)的比为9.423%。从这一角度看,在抽样时当年有生育行为育龄妇女被抽中的比例小于总体育龄妇女被调查的比例,换言之,当年有生育孩子行为的育龄妇女与没有生育行为育龄妇女的抽样比例相差较大。如此,即使不考虑出生漏报,调整同一比例后,育龄妇女总和生育率为1.2884,要比普查获得1.1879高8.4%。也就是说,由于抽样的偏误,至少造成低估生育水平8.4%。因此,在评估生育水平时需要考虑这种抽样偏误带来的影响。
此外,由表4显示的数据可以计算得到,育龄妇女中有较大规模的重报,30~49岁育龄妇女的重报率大体在2.21%,在核算生育率时理应扣除这些影响。
4.2 0-9岁漏报回填后估计得到的2000~2010年的生育水平
根据第六次人口普查的资料,可直接利用公式
推算得到2000~2010年期间育龄妇女总和生育率在1.30~1.52之间。然而,2010年0~9岁人口明显存在较大程度的漏报,因此需要将漏报人口回填后再估计该期间的生育水平(见表4)。我们根据1990年0~9岁漏报率回填2010年0~9岁人口后,在不调整育龄妇女重报情况下,根据上述公式估计的育龄妇女总和生育率在1.36~1.65之间(见表5)。其中,2010年的总和生育率为1.507。如果考虑到30岁及以上育龄妇女存在重报情况(该年龄段育龄妇女重报率为2.21%),则2010年育龄妇女的总和生育率应该在1.52左右。
5 对以往人口变动判定的校正
5.1 生育水平估计和人口预测生育率预设的校正
以往的一些研究或报告,如《国家人口发展战略研究》、《持续的挑战——21世纪中国的人口形势、问题和对策》、《21世纪中国人口发展战略研究》等(国家人口发展战略研究课题组,2007;李建民、原新、王金营,2000;田雪原,2007),常常将1995年之后到2010年的人口预测中方案生育水平设定在1.8甚至更高一些。王金营(2003)、于学军(2003)、张为民(2002)、翟振武、陈卫(2007)等学者对于1990年后的各个时期的生育水平均有估计,其结果是1990~2000年期间生育水平高于1.7,2000年后生育水平在1.65~1.75之间。当然,也还有一些学者认为应该相信人口普查公布数据所显示的生育水平。
然而,根据前面我们对于2010年人口普查年龄人口质量的评估,并利用近三次人口普查数据相互印证,在考虑当前社会经济发展以及人口流动的影响,认为2010年人口普查的0~9岁人口漏报率不低于1990年的该年龄段的漏报率。因此,将0~9岁漏报回填后估计得到的2001-2010年总和生育率(见表5)是一个低限值。如果2010年0~9岁人口的漏报率更高,所得到的总和生育率应该大于表5中的水平,而且这种可能性很大的。换言之,2001~2010年期间总和生育率水平接近甚至超过了1.7。与2010年普查之前研究者们的判断略有差距。但是,2005~2009年总和生育率受年龄结构波动影响有所回升,并没有也不会达到1.75以上的高水平。可以判断,2001~2010年期间我国妇女总和生育率最高值可能会达到1.75,而低值应该在1.45左右。
至于对于1991~2000年期间的生育水平的评估,我们通过2010年普查获得的10~19岁人口对比2000年0~9岁人口,在不考虑10~19岁人口依然存在一定程度漏报的情况下,发现2000年0~9岁人口漏报达到2000万以上,略小于王金营(2003)、于学军(2003)、张为民、崔红艳(2002)等对这一年龄段漏报规模的估计值,但是差距很小,所差的是不同年龄之间有一定差异。换言之,过去人们对于1991~2000年生育水平的估计(1.7~2.0),特别是1995~2000年期间生育水平基本在1.65~1.75之间。
由此我们认为,在2010年普查之前人们对于生育水平的估计判定和人口预测对于生育率方案的预设略微高了一些。根据目前的研究,我们应该可以判定,进入21世纪的头10年我国育龄妇女总和生育率比1990~2000年又有所降低,双独家庭的增加并没有使得生育水平产生明显上升,当前的生育水平应该在1.60~1.70之间。
5.2 1990~2010年预期寿命变动评判
根据以1981年分性别、分年龄死亡概率为标准,利用布拉斯相关生命表法估计得到2000年和2010年的分性别、年龄的死亡概率模式,重新构建生命表继而计算得到这两个时期出生预期寿命(见表6)。由表6显示,重新估计得到的2010年分性别出生预期寿命大幅度低于直接计算得到的值,与2000年预期寿命相比较,男性增长了0.97岁,女性增长了4.05岁。10年间女性预期寿命增长幅度远远大于男性。
从2000~2010年的预期寿命变动看,我国男、女性预期寿命在近10年提高的速度快于1990~2000年的10年。过去,我们利用联合国步长法评估2000~2010年的预期寿命和分年龄别死亡概率,存在低估寿命而高估死亡概率情况。从而影响了这一时期对人口预测的准确性和对老年人口规模、所占比重的评估,高估了死亡率、低估了老年人口规模和比重。但是,由于2010年普查获得的死亡数据存在较大的漏报,直接计算死亡概率和预期寿命则会高估寿命而低估死亡概率。
5.3 年龄人口、年龄结构的评估
通过以上的分析发现,虽然2010年统计公报的漏报率非常小,但是0~9岁漏报率还是大大超过了预期,30岁及以上人口也还存在年龄“堆积”和“跨越”的现象。同时,根据普查公报显示,在公布的年龄人口信息中不包括230万现役军人和465万难以确定常住地的人口。230万现役军人可以根据他们的年龄信息合并到相关年龄人口中,但是,难以确定常住地的465万人口到底他们的年龄、性别是什么是一个谜!他们为什么难以确定?其原因研究者也不很清楚。这些人口的年龄、性别的准确性判定对我们评判人口形势有着至关重要的影响。由常识可知,这465万人口不可能是成年人口或者很小比例的是成年人口,很可能是低龄人口。
根据1990年0~9岁人口的漏报率进行修正,其他年龄的人口则采用1990年和2000年普查人口的2010年留存人口进行修正。可以得到2010年普查时点分性别、年龄的人口及其构成(见表7)。经过漏报回填和重报剔出处理后,2010年0~14岁人口为23016.8万人,占总人口的比重为17.21%;15~64岁劳动年龄人口为9.89亿,占总人口比重为73.91%,其中15~59岁人口约9.30亿,占总人口的69.52%;60岁以上人口约1.78亿,占总人口的13.27%,其中65岁及以上人口为1.19亿,占总人口的比重为8.89%。
通过与公报公布资料比较发现,0~14岁少年比重比公报公布的要大0.60个百分点;而15~59岁人口比重和60岁以上人口比重均比公报公布要低一些。人口老龄化程度要比普查公报公布的要低,这主要是将0~9岁漏报人口回填,增加了少年人口的比重所致。如果从60岁及以上人口所占比重(13.27%)和少年人口的比重(17.21%)两个方面看,我国人口的老龄化程度比普查之前人们估计的结果要高,或者说,以前人们对于老龄化速度的判断略低了一些,这应该引起人们的注意。
6 结语
通过以上对2010年普查数据的分析和漏报估计,在0~9岁人口按1990年普查漏报率为底线的情况下第六次全国人口普查的年龄人口漏报率为0.75%,重报率为0.551%,合计误差率为1.299%。由此可见,2010年人口普查的年龄资料比2000年的要好一些。但是,这仅仅是在0~9岁人口低漏报率假设前提下的结论。值得关注的是30~39岁人口和50岁及以上男性人口存在较多的重报,其原因还有待研究和剖析。
本次普查较为严重的是低龄人口的死亡漏报和老年人口的死亡漏报,使得我们不能够准确对于当前和未来人口变动的趋势做出判断。此外,出生漏报、育龄妇女重报大大影响了对生育水平的判断。因此,在使用2010年人口普查数据时一定要对数据的质量做出评估。
另外,本文仅仅是对普查得到的分性别分年龄人口、死亡数据和生育数据的质量做了初步的评估,其他数据诸如流动人口、教育、就业与职业、家户等等数据的质量并没有给予关注。这些只能有待研究者根据相应的方法和其他可靠的资料来源对此进行检验。
注释:
①文中“六普”是指中国2010年人口普查,“五普”是指中国2000年人口普查。