对中国2000年人口普查准确性的估计,本文主要内容关键词为:中国论文,人口普查论文,准确性论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中国是世界上人口最多的国家,近十多年来人口增长速度大幅度下降,经济实力大幅度跃升,引起了全球的高度关注。因此,世人对中国人口的数量和结构问题也越来越关心。2000年中国进行的第五次全国人口普查为人们了解中国的人口数量和结构提供了基础数据。
国家统计局于2002年8月公布了这次普查的总人口124261万人(不含250万现役军人),以及详细的各种结构数据。这些数据是普查直接登记并经过计算机汇总后得到的。大家在分析和研究中国人口问题时,经常要用到的正是这些资料。问题是这些数据的准确性到底怎样?是否存在偏差?本文将利用人口分析技术和与其他有关统计资料比较等方法,对这次普查数据准确性做出估计。
另外,“2000年第五次全国人口普查主要数据公报(国家统计局,2001-03)”发布的总人口为126583万人,与前面提到的计算机汇总数据相比,同口径(不含现役军人)多2072万人。普查公报发布的是手工汇总的数据,并且已经按照事后质量抽查的漏报率进行了调整。由于手工汇总的数据很少,不方便大家对普查资料做详细深入的分析。因此,本文将主要对计算机汇总的数据进行质量评价,进而对普查公报公布的总人口的准确性给出回答。
1 分年龄人口的准确性估计
构成一个人口群体的最基本数据是年龄和性别,如果分年龄、性别的人口数不准确,人口的总量以及各种构成数据就不可能准确,甚至根本无法使用。
1.1 10岁及以上分年龄人口的一致性检验
2000年普查各年龄人口应该与1990年普查相应年龄人口有着严格的一致性,即2000年普查11月1日10岁及以上各年龄人口前移到7月1日后,a岁(a≥10)人口就是1990年普查a~10岁存活下来的人口。因此,2000年(a≥10)人口数应该严格地小于1990年a~10岁人口数。换言之,1990年a~10岁的人存活到2000年a岁时的存活率应该小于1。
为便于比较,图1给出了分性别的留存率曲线(在计算普查的留存率时,均加入了现役军人,并将2000年人口前移到7月1日)。分年龄段看留存率具有以下特点:
(1)10~19岁。男女两性除男性18岁之外,留存率均大于1,即1990年0~9岁的人活到2000年不仅没减少反而还增加了,这显然是错误的。其原因要么1990年0~9岁的人口有漏报,要么2000年10~19岁人口有重报。一般地讲,如果居住比较稳定,重复登记的可能性比较小。10~19岁,至少10~15岁还不是流动人口的主体,因此这次普查重复登记的可能性不大。而1990年时,他们正是0~9岁,为了躲避计划生育的处罚,少报小孩也是可以理解的。因此,假定2000年10~19岁人口是准确的,那么10~19岁留存率大于1主要是1990年0~9岁人口的漏报所致。
图1 普查间留有率比较
(2)20~45岁。男女两性留存率既有大于1的也有小于1的,在年龄分布上交替出现,即当某一个年龄的留存率大于1时,与它相邻年龄的留存率就小于1,除女性28~30岁连续三个年龄留存率大于1以外,其他大于1的从年龄的连续性上看最多不超过两个。这一现象还说明不了20~45岁人口是否有重报或者漏报,很可能与两次普查年龄报告的不一致有关。我们再将普查留存率与生命表留存率比较,可以发现普查的留存率曲线围绕生命表留存率曲线上下波动,而且波幅不大。进一步分析我们不难发现,男性20~23岁连续四个年龄均低于生命表留存率,而24~29岁连续六个年龄又高于生命表留存率,这说明男性20~23岁可能存在漏报,而24~29岁可能存在重报。总的看,在20~45岁26个年龄中,留存率男性低于生命表留存率的有11个、高于的有15个;女性低于生命表留存率的有10个、高于的有16个。这似乎预示着20~45岁的人口总体上可能略有重报。我们假定1990年10~35岁的人口数是准确的,利用生命表的留存率将其推算到2000年,然后再与这次普查的人口比较,便可大致估计出20~45岁人口有漏报也有重报,重漏相抵,重报大于漏报,大约净重复登记了466万人,占20~45岁人口的0.85%,其中男性204万,女性262万。
如何解释青壮年人口的重报呢?这次普查之前,我们已经注意到了查准流动人口的难度很大,曾反复要求各地一定要重视对流动人口的登记。在摸底数字上报后,人口总量明显偏低,国家普查办公室下发了紧急文件,要求各地务必抓好外来和外出人口的登记工作。由于各地都担心人口的漏报,再加上判断一个人是否应在本地登记主要靠本人申报后普查员再判断确定,因此可能有一部分人既在现住地被登记,又在家里被登记了,从而造成了两边都登记。但是这种重复的现象并不严重。
(3)46岁及以上。46岁及以上各年龄留存率均与生命表留存率吻合得比较好,除女性75岁以后稍低于生命表留存率外,其余各年龄均在生命表留存率曲线上下小幅波动,说明46岁及以上人口的准确性很高,与1990年普查有很强的一致性。
1.2
0~9岁人口的准确性检验
(1)0~9岁人口存在漏报。
普查登记得到的0~9岁人口数量,基本改变了人们已有的中国近30年来每年出生人口大都超过2000万的习惯性概念。表1是将2000年人口普查实际登记的人数,根据生命表留存率,反推的1990年11月1日以来各年的出生人数、出生率和妇女的总和生育率。
按照表1推算出的1990~2000年每年的出生率和总和生育率,妇女生育已经降到了异常低的水平,1995年总和生育率降到1.62,以后各年均低于1.5,1999年则只有1.09。1996~2000年5年平均也只有1.31。这不仅低于世界上大部分国家,也低于中国目前的政策生育水平(约1.6)。
表1 2000年人口普查推算的各年出生情况
2000年 普查登记人数 出生年份 回推出生人数 回推出生率 回推总和
年龄 (万人)(年)(万人) (‰)生育率
0 1379
2000
140811.15 1.30
1 1150
1999
1185 9.46 1.09
2 1401
1998
144811.66 1.33
3 1445
1997
149612.16 1.38
4 1522
1996
157712.95 1.45
5 1693
1995
175614.57 1.62
6 1647
1994
170914.34 1.57
7 1791
1993
186015.78 1.71
8 1875
1992
194816.72 1.79
9 2008
1991
208718.14 1.92
注:出生年份的确切时间段,2000指1999.11.1~2000.10.31,……,1991指1990.11.1~1991.10.31。
90年代初以来,随着经济的发展、生活水平的提高,人们的生育观念确实发生了一些转变,再加上计划生育工作力度的加强,妇女生育水平有所下降,而且速度加快,都是可以理解的。但总和生育率低于计划生育政策水平,而且连续几年在1.3左右,似乎难以解释。否则,超计划生育和多胎生育现象的依然存在就难以自圆其说了。所以只能判断这次普查实际登记的0~9岁人口存在一定程度的漏报。
(2)通过1990年普查0~9岁人口的漏报看2000年0~9岁人口的漏报。
表2 2000年人口普查与1990年人口普查相应年龄的比较单位:万人,%
2000年人口普查
1990年人口普查 2000年普查回推 回推人数与 90年
年龄 实际 按时点差 年龄 实际
90年相应
90年登记 漏报率
登记 4个月调整登记
年龄人口
人数之差
1026212586 02322 2640
318 13.68
1125142495 12333 2521
188 8.07
1224582515 22418 2535
117 4.84
1326282526 32429 2542
113 4.65
1423192227 42141 2241
100 4.65
1520432039 51998 205153 2.63
1620312023 61906 2035
129 6.76
1720072109 72020 2121
101 5.00
1823122193 82202 2206 4 0.18
1919521929 91809 1941
132 7.30
累计 22885
22642累计 2157822832 1254 5.81
表2列出了这次普查10~19岁人口与1990年普查0~9岁人口的比较。我们可以发现,将这次普查10~19岁人口回推后,1990年0~9岁累计漏报1254万(22832~21578),占1990年0~9岁实际登记人口的5.81%,或者说0~9岁漏报率为5.81%。假定2000年人口普查实际登记的低年龄组人口的漏报率,与1990年低年龄组的漏报率一致,那么2000年实际登记人口中的0~9岁漏报人口达925万。考虑到这次人口普查的调查环境比1990年时更差,低年龄漏报的情况可能要比1990年严重,至少不会好转,因此925万人仅仅是0~9岁漏报的一个最低限的估计。
(3)从近几年小学入学人数看0~9岁的漏报。
近些年一系列的人口调查表明,对出生人口,特别是超计划出生孩子的调查难度很大,极易漏报。我们可以利用近年来小学入学人数与这次普查的低年龄人口做一比较(见表3),来估计0~9岁人口的漏报。
小学入学人数与低年龄少年儿童数量有着密切联系。假设①学龄儿童入学率为100%;②全国上小学的年龄统一为6周岁(单看一年当然不合理,但如果看连续几年的累计情况还是大致可行的);③普查时点11月1日与9月1日各年龄人口数的时点差异忽略不计。那么普查时4岁人口减掉两年的死亡应为2002年小学入学的人数,5岁人口减掉一年的死亡应为2001年小学入学的人数,6岁人口应为2000年小学入学的人数,7岁人口加上一年的死亡应为1999年小学入学的人数,……,依此类推,便可得到1997~2002年历年应该上小学的人数(表3中“按人口普查回推到入学年龄人数”)。
通过表3,我们不难发现实际入学人数都比回推入学人数多,6年累计多出1996万人。实际入学人数比回推入学儿童稍少是正常的,因为入学率很难达到100%;而每年都比回推入学儿童多则是不合常规的,因为教育统计中,虽然小学入学人数可能略有重报,但连续6年累计多报入学人数1996万是绝对不可能的。所以,这种不合常规的现象只能用这次人口普查4~9岁人口约有1996万人被漏掉了来解释。
表3 普查登记人数与相应年份入学人数的比较单位:万人
2000年普查入学人数 按人口普查回推到 实际入学人数比
年龄 人数 入学年份 实际入学人数入学年龄人数回推入学人数多
4 15222002
19531519434
5 16932001
19441692252
6 16472000
19461647299
7 17911999
20301793237
8 18751998
22011878323
9 20081997
24622012450
合计 10537 12536
105401996
资料来源:历年《中国教育事业发展概况》,中华人民共和国教育部发展规划司。
以上分析,仅4~9岁年龄段漏报人口就达1996万,占该年龄段普查登记人数的18.94%,如果0~3岁人口也按此比例漏报,漏报1018万。从而,这次普查0~9岁人口漏报多达3014万。
为什么0~9岁人口漏报如此严重呢?首先,群众对超生的孩子往往不愿意如实申报,以便避开超生处罚;其次,一些基层政府在普查之前就错误地认为普查将是对十年来计划生育工作成效的二次大检验,十年来与计划生育有关的出生数已经经过上级的认定,而且已经得到上级的表彰,如果普查的小孩多于平常上报的出生数,以往的政绩就要被怀疑,而且也担心由此受到批评;第三,一些带孩子外出打工和躲避计划生育管理的流动人口,其孩子也很难被如实地登记上来。
2 性别比准确性分析
本文第一节论证了分性别的各年龄人口的重报和漏报问题,这一节将着重分析漏报和重报对男女两性的影响。
2.1 同队列性别比分析
正常情况下,由于各年龄死亡率男性都比女性高,所以2000年与1990年同一队列的性别比应该略有下降。图2给出了1990年、2000年普查同一批人性别比比较曲线(在计算性别比时,均加入了现役军人,并将2000年人口前移到7月1日)。可以看出,分年龄性别比有以下几个特点:
第一,同队列性别比比较,除个别年龄(2000年19、26~28、30、35、36、38、39)外,2000年性别比都低于1990年,而且性别比曲线在两次普查时的分布模式非常一致,两条曲线基本没有交叉,即便出现了交叉,只要在相邻年龄做一个平滑,交叉就几乎不出现了。这说明如果普查有漏报或者重报发生时,对绝大多数年龄来讲,基本不存在性别上的选择。
图2 同队列性别比比较
第二,2003年10~18岁的性别比均低于1990年0~8岁的性别比,每个年龄都低近2个多百分点。十年间性别比能否下降得这么快?目前,我们尚找不到2000年10~18岁分性别人口漏报或者重报的证据,如果认定2000年10~18岁人口的性别比107.46是准确的,那么反推到1990年时的性别比为107.74,比1990年普查实际登记的109.47低1.73。鉴于本文第一节已经证明1990年0~9岁人口有漏报,因此在1990年漏报的低年龄人口中,可能女性略多于男性,但女性的漏报不会是造成1990年低年龄儿童性别比偏高的主要因素。
第三,2000年性别比高于1990年的,基本集中在26~39岁的中青年段,但高的程度并不大。从本文第一节分析20~45岁人口有漏也有重的情况来看,可能26~39岁男性主要是略有重报,女性则表现为略有漏报。
第四,40岁及以上,2000年的性别比都低于1990年,而且随年龄增大,差距也在增大,说明两次普查的同队列性别比非常一致,这也与本文第一节分析45岁以上人口是比较准确的结论相一致。
第五,2000年0~9岁的性别比继续保持在较高水平,1岁最高,达到122.65,10个年龄平均高达117.45,比1990年人口普查的109.30高出8.15。以上分析了1990年0~8岁女性漏报导致性别比提高1.73,按此结论,2000年即使考虑到女性漏报的影响,0~9岁的性别比也将高达115以上。因此,当前中国婴幼儿性别比偏高已经成为一个不争的事实,而且有日益加重的危险。造成偏高的原因有女孩漏报的影响,但不是主要的,更多的可能要从有选择的终止妊娠方面去检查。
2.2 总人口性别比
2000年人口普查,总人口性别比为106.67,比1990年的106.58略有上升。一般来讲,随着人口年龄结构由年轻型向老年型过渡以及男性死亡率高于女性的作用,总人口性别比应呈下降趋势。如果不考虑90年代以来的出生人口,普查登记的总人口性别比为105.18,与1990年相比,确实呈下降趋势。但是,虽然中国老年人口比重有所上升,而由于90年代以来新出生人口的数量较多,出生性别比又持续偏高,它对总人口性别比所起的上升作用略大于老年人口增加对总人口性别比所产生的降低作用。综合各种因素,以及上述对各年龄性别比的分析,总人口性别比略高于1990年,达到106.67是比较可信的。说明,这次普查性别比比较准确,尽管不同年龄人口有漏报和重报,但基本上不影响性别比的准确性,换句话说,漏报或者重报除个别年龄段外基本不存在性别选择。
3 对生育水平准确性的估计
这次普查登记了2000年11月1日前12个月的出生人口,进而可以计算出总和生育率为1.22。这是否是目前中国真实的生育水平呢?答案是否定的,因为这与计划生育的政策生育水平相差太大。
3.1 相关数字之间的矛盾说明总和生育率1.22明显偏低
(1)计算总和生育率时使用的出生人数的偏差所产生的影响。
这次普查,妇女生育情况来源于长表,普查前12个月出生人口为118万,而长短表全部的出生人口为1411万,这意味着长表出生仅占全部出生人口的8.36%。而这次普查长表的抽样比为9.5%,15~49岁妇女的抽样比为9.2%,说明长表出生人口明显偏低,从而由此计算的总和生育率也必然偏低。
0岁组人口恰恰是普查前12个月出生人口存活到普查时点的孩子,应该严格小于出生人口。但长表0岁组人口为130.5万,反而比长表出生118万多出12.5万,这显然是错误的。按照生命表与之间的关系,由0岁人口可以反推出出生人口为133万,比118万多出12.71%,由此总和生育率将提高到1.38。
(2)从地区之间的比较看生育水平的漏报。
这次普查直接计算的总和生育率城市0.86,镇1.08,乡村1.43。从目前计划生育工作的实际情况看,城市基本上可以按政策生育,但农村还很难做到,因此农村的1.43大大低于政策生育水平是令人难以相信的。分省看,除北京、天津、上海三大老的直辖市以外,有11个省区农村的总和生育率低于1.3,其中不乏人口大省,更有两个省的农村总和生育率还不到1,难道在一个省的农村范围内真能做到只生一个孩子吗?我们确实找不到能让人信服这一点的理由,所以只能认为生育水平的数据是偏低的。
3.2对实际生育水平的估计
本文第一节通过与近年来小学入学人数的比较,得出了这次普查0~9岁人口平均漏报18.94%,以此来调整长表的0岁人口为130.5×1.1894=155万,再推算到普查前12个月的出生为158万,这意味着长表登记的出生人口118万漏掉了40万,漏报率33.90%。用这个漏报率来调整总和生育率,将达到1.63。另外,年龄越小漏报的可能性越大,这一点已经在本文第一节利用这次普查10~19岁人口回推到1990年,看0~9岁人口的漏报时得到验证(0岁人口的漏报率达到13.68%,是0~9岁平均漏报率5.81%的2倍多)。如果按照这个规律把上述0岁人口的漏报率调整到44.6%(0.1368/0.0581×0.1894),则出生人口扩大为193万,长表出生118万漏报75万,漏报率64%,总和生育率达到2.0。因此,1.63只是2000年总和生育率的一个下限估计。但上限也不会超过2。实际水平还是在1.8左右。
另外,上面估计了长表出生人口不会少于158万,按照长表抽样比9.5%计算,全国普查前12个月的出生人口应不会低于1663万,表明长短表合计登记的出生人口1411万至少漏掉了18%。
4 对死亡水平准确性的分析
这次普查登记了普查前12个月的年龄别死亡人口,为了解中国的死亡水平提供了很好的资料。
4.1对粗死亡率的分析
2000年普查前12个月的死亡人口731万,以此计算的粗死亡率为5.92‰。与1990年普查的6.64‰比较,降低0.72个千分点。虽然总的看,这种变化反映了我国人口死亡水平降低的趋势,但从以下几点看,死亡率还是有偏低的迹象。
(1)标准化死亡率排除了年龄结构对死亡率产生的影响,可以进行死亡水平之间变化的比较。我们以1982年人口年龄结构为标准,分别对1990年、2000年普查的年龄别死亡率进行标准化,得到1981(1982年普查的是1981年死亡)死亡率为6.37‰,1990年死亡率为6.00‰,2000年的死亡率为4.79‰。我们不难发现,1981~1990年九年间死亡率降低6%,1990~2000年十年降低20%。通过1990年前九年与后十年的比较,1990~2000年下降的速度似乎太快了些,说明2000年普查的死亡人口有漏报,实际死亡率要高于5.92‰。
(2)从各省的标准化死亡率看,有一些经济发展水平、医疗水平、城市化水平等影响健康状况的指标不是排位靠前的省区,其标准化死亡率却较低,有的仅仅比北京、天津、上海三个直辖市略高或者持平,处于全国中上等的水平。说明普查的死亡确实存在漏报。
(3)每年国家统计局进行的1‰人口变动情况抽样调查表明,1991~2001年每年的粗死亡率都在6.70~6.43‰之间,11年来基本平稳,而且呈略有下降的态势。所以2000年普查的粗死亡率不应当与人口变动情况抽样调查的结果相差太大。由于人口普查是对人口各种状况的调查,普查项目多,而人口变动重点是对出生、死亡的专项调查,相对来说能更真实反映人口的死亡情况。因此,2000年普查的粗死亡率应在6.4‰左右,以此计算的死亡人口漏报率约为8%。
4.2 分年龄死亡率
正常情况下,由于生理等因素的性别差异,男性死亡率要略高于女性。从分性别的年龄别死亡率可以看出,除0~2岁出现了反常以外,其他年龄的死亡率均呈现正常规律。我国女婴死亡率高于男婴在1990年就已经出现,现在没有改变而且距离在进一步拉大。这说明传统的重男轻女观念依然很强烈,致使男性婴幼儿受到的医疗健康保障远远好于女性。
图3 1990年、2000年死亡率比较
为了与1990年比较,我们分别将2000年男性和女性分年龄死亡率除以1990年的死亡率,绘成图3。随着经济发展和卫生条件的改善,各年龄死亡率都应该呈下降趋势,在医学上无重大突破或者没有发生自然灾害和战争情况下,相邻几年的死亡率波动不会很大。从图3可以看出,2000年的年龄别死亡率,男性除27、28、30和38岁高于1990年死亡率外,其余都低于1990年;从下降幅度看,2~5岁、16~19岁、50~70岁下降幅度大,其余基本保持同幅度的下降;整条曲线摆动较大。女性各年龄均低于1990年死亡率;除1~7岁、16~26岁下降的幅度较大外,其余下降的幅度比较一致;相对于男性整条曲线比较平稳;但总体上女性下降幅度比男性略大些。这可以说明两点,一是凡下降幅度比较大的年龄段,可能与死亡人口的漏报有关;二是女性16~26岁死亡漏报程度可能比男性稍微高些。
4 对平均预期寿命的估计
根据以上分析,我们用6.4‰的粗死亡率对2000年的年龄别死亡率进行修正,计算了婴儿死亡率和平均预期寿命(表4)。同1990年相比,婴儿死亡率男性大幅度下降,女性反而略有上升。平均预期寿命由68.55岁提高到71.40岁,提高了2.85岁。其中男性69.63岁,提高了2.79岁,女性73.33岁,提高了2.86岁。
5 对总人口的估计
5.1 与户籍统计比较
户籍管理是中国人口管理的一项重要制度,为社会经济发展做出过巨大贡献。虽然近年来,随着市场经济的发展,人口流动性增大、人户分离现象突出、无户口人员增多,使户口管理有所削弱,导致户籍人口低估了实际人口数,但户籍统计得到的人数依然可作为对人口总量估计的一个参照。表5列出了统计局和公安部门户籍统计的比较。
表4 平均预期寿命和婴儿死亡率单位:岁,‰
平均预期寿命 婴儿死亡率
年份
合计
男 女合计男 女
1990年 68.55 66.84 70.47 32.89 32.36 33.48
2000年(实际登记)72.43 70.64 74.34 26.33 22.16 31.29
2000年(修正)71.40 69.63 73.33 28.38 23.90 33.72
1999年底,户籍人口为122492万人,2000年全年净增1180万人。假设全年自然增长人数是平均分布的,每月户籍人口增加98.33万人。到2000年11月1日户籍人口应为123475万人。以此为基数,再考虑以下因素,便可以推断出2000年11月1日实际的全国人口总量,然后再与普查登记的人口数进行比较。
表5 统计局数据与公安数据比较单位:万人
统计局公安
年份总人口年净增人口总人口年净增人口
1990114333 112954
1991115823
1490
114191 1237
1992117171
1348
115243 1052
1993118517
1346
116277 1034
1994119850
1333
117354 1077
1995121121
1271
118468 1114
1996122389
1268
119546 1078
1997123626
1237
120583 1037
1998124761
1135
121498
915
1999125786
1025
122492
994
2000126743957
123672 1180
注:总人口为年底数,统计局数据含现役军人,公安数据不含现役军人。
资料来源:《中国人口年鉴》1990~2001,中国统计出版社;《中华人民共和国全国分县市人口统计资料》,群众出版社。
(1)1990年户籍人口的漏报对2000年的影响。1990年年底户籍人口公布为112954万人,再加上320万现役军人为113274万人。通过与1990年人口普查以及人口普查前户口整顿资料的比较分析,1990年年底户籍人口应为114528万人(含320万现役军人)(崔红艳,关于中国人口总量的探讨,人口研究,2000;5),即1990年年底户籍统计的人口数就少了1254万,通过1990~1999年历年户籍人口的增长情况看,这部分人没有逐年补上的迹象。因为从表5.1可以看出,户籍人口每年净增都在900~1200万,呈逐年平稳减少的态势,而且都比同期统计局公布的净增人数少。所以,可以认为这些在1990年年底户籍统计中漏掉的人,10年来除自然减员71万(按死亡率6.5‰计算)外,尚有1183万人未包括在2000年11月1日户籍统计的123475万人中。
(2)250万现役军人未包括在户籍统计中。
(3)2000年人口普查尚有户口待定805万。
以上三项合计为2238万,所以到2000年11月1日普查时户籍统计的总人口应达到125713万人(123475+2238)。这个数字比人口普查直接登记的124511万人(含250万现役军人)多0.97%,说明普查直接登记数确实有漏报。
以上分析是假设1990~1999年历年户籍统计的人口,除1990年年底的1183万未包括进来外,再没有新的漏报的基础上进行的。如果再考虑到目前户籍管理的弱化,漏报可能比上一世纪90年代初要严重,即使10年累计漏报维持在1990年年底的水平,也要再增加1183万人,那么普查时点的总人口将达到126896万人,比普查实际登记数多1.92%。或者说普查的漏报率是1.92%。所以通过与户籍统计比较,普查直接登记人口的漏报率约在0.97~1.92%。
5.2 分年龄人口漏报的影响
本文第一节论证了低年龄约漏报3014万,青壮年净重报466万,从而总人口净漏报2548万,漏报率为2.05%。
5.3 事后质量抽查
事后质量抽查是大多数国家用以评价普查登记质量的常用方法。这次普查登记结束后,国家直接抽取了602个调查小区、16万人进行了事后质量抽查。抽查结果总人口漏报率1.81%,由此公布了全国总人口126583万。
我们可以将与户籍统计比较的漏报作为下限,分年龄人口漏报作为上限,这样2000年普查总人口的漏报率在0.97~2.05%之间,人口总量在125713~127059万之间。因此,普查公报公布的漏报率1.81%和总人口126583万人是可信的。
6 对普查表长表代表性的分析
2000年人口普查,首次采用长短表技术。长表抽样采用随机等距概率抽样方法,在每个调查小区每十户抽一户填报。抽样方法由国家统一制定,抽中户的随机起点由国家规定方法、基层普查办公室组织操作。
普查表短表(指全部资料,下同)只有人口的年龄、性别、民族、户口状况、受教育等一些人口的基本情况,普查表长表的项目49个,包含迁移、学业、就业失业、婚姻、生育以及住房等详细的信息,是人们深入研究中国人口问题只能也必须要依靠的资料。长表实质上是普查中实施的一次规模庞大的抽样调查,按普查结果计算的抽样比是9.5%。因此长表数据的代表性是大家在使用之前极为关心的。关于长表的抽样误差,可以按照抽样方法和普查结果计算得到,在此不做专门介绍和讨论。以下重点放在对长表直接调查的数据与短表数据的差异分析上,看一下长表主要人口结构数据是否与短表相一致。
6.1 主要结构数据的比较
从几个主要结构数据看,长、短表还是有一定的差异。
图4 分年龄抽样比(%)
家庭户所占比重:长表97.53%,短表96.94%,说明长表抽中的家庭户稍微偏多;家庭户规模:长表3.39,短表3.46,说明长表稍微偏重家庭人口较少的户。造成这种现象的原因,一是根据普查方案的规定,填报长表的户是根据事先摸底的住户底册抽取的。现场登记时,对于在摸底时未了解到的人口,一律登记短表,而这些人大部分是居住不太稳定的流动人口,很少有家庭户。同时在补漏过程中查到的人口也都登记了短表。所以从方案设计的角度有可能造成短表集体户多些、长表集体户少些的现象。二是由于填报长表工作量大,也不排除个别地方抽些人口少的户填报长表的可能(段成荣,关于2000年人口普查质量的调查与思考,中国人口科学,2001;6)。但总的看,家庭户规模的偏差并不大。
总人口性别比:长表104.94,短表106.30,说明长表的男性人口偏少。这可能是男性流动人口大多被补报了短表所造成的。
6.2 年龄分布的差异分析
分年龄段看,0~14岁、15~64岁、65岁及以上三个年龄段人口比重,长表分别为23.5%、69.1%、7.4%,短表分别为22.9%、70.0%、7.1%。长表的少年人口、老年人口略高于短表,而青壮年人口略少于短表。
进一步分析每个年龄的差异情况。这次普查,长表登记的人口占短表实际登记总人口的9.5%,即抽样比为9.5%。图4是各年龄人口的抽样比,可以看出,各年龄抽样比呈规律性的摆动,7~12岁比较高,都在9.8~9.9%之间;17~30岁比较低,都在9.2%以下,最低点在20岁,仅为8.58%;从50岁开始一直到80岁又比较高,都在9.8%以上;其余年龄段基本围绕在9.5%左右。总的看,少年、老年的抽样比偏高,青壮年偏低。
从长短表分年龄的性别比来看(见图5),20~49岁长表各年龄性别比明显低于短表,其余年龄基本与短表相同。这与长表总人口性别比偏低的结论是一致的。
总的看,表面上长表抽中的老人和小孩多些,青壮年少些。事实上,主要还是由于长表漏掉了流动人口、而且主要是男性流动人口所造成的。由于青壮年流动人口抽少了,必然导致其他年龄人口比重偏高。如果能将这部分人补上,那么总人口的性别比以及各年龄段人口的比重也将与短表一致。长表之所以会漏掉青壮年流动人口,还是补漏阶段查出的人都填报了短表所引起的。需要提请注意的是,长表漏掉了青壮年流动人口,不等于普查没有查到他们,只不过是这些人填了短表而没有填报长表而已。
图5 长短表分年龄性别比比较
7 结论
通过以上分析我们可以归纳出以下基本结论:
(1)分年龄数据0~9岁人口漏报比较严重;20~45岁有漏也有重,但还是重报大于漏报;其余各年龄组人口的完整性比较高。
(2)总人口受分年龄人口完整性的影响,直接普查登记的数据还是表现出净漏报;漏报主要发生在低年龄组和婴幼儿。利用各种方法估计的漏报率,大约在0.97~2.05%之间,人口总量在125713~127059万之间。因此,普查公布的漏报率1.81%和总人口126583万人是可靠的,也比较真实客观地反映了2000年中国人口总量的规模。
(3)性别比数据比较可信,尽管不同年龄人口有漏报或者重报,但基本上不影响性别的准确性。或者说,漏报或者重报除个别年龄外基本不存在性别选择。
出生婴儿性别比以及幼儿性别比偏高已经得到证实,大约高于115。而且偏高的趋势持续不减。漏报女婴可能是一个因素,但不是主要因素,其影响的程度比较小。
(4)妇女生育水平明显偏低,长表直接计算的总和生育率1.22大约至少低估了34%,2000年实际的总和生育率最低也不会低于1.63,应在1.8左右;普查的全国前12个月出生人口1411万(短表)至少漏报了18%,实际出生人口应大于1663万。
(5)普查直接计算的粗死亡率5.92‰是一个偏低的估计,漏报率约为8%,实际死亡率应在6.4‰左右;平均预期寿命71.40岁,比1990年提高了2.85岁;婴儿死亡率为28.41‰,比1990年有所下降,其中男婴下降幅度较大,但女性基本未变,男婴死亡率低于女婴的趋势继续存在,差异在扩大。
(6)长表数据总体上看代表性比较好。但由于少报了青壮年流动人口、特别是男性流动人口,使得长表的家庭户规模偏小、在年龄结构和性别结构上与短表相比出现了偏差,可能会对长表其他各种结构数据产生一定的影响。在推算总体时只要注意到这些问题,就不影响对长表数据的使用。
(7)通过这次普查我们还可以发现1990年人口普查的0~9岁人口有较高的漏报率,达到5.81%,漏报人口约1254万。这也再次说明调查低年龄组人口的难度非常之大。
中国2000年人口普查是市场经济条件下的第一次普查,规模巨大,难度空前。户籍管理弱化、人户分离严重、流动人口增加、保护个人隐私观念增强等因素,为搞好人口普查、提高数据质量提出了严峻的挑战。这次普查总人口的漏报率达到1.81%,比历次普查都有大幅度的提高。尽管这个漏报率和由漏报引起的结构数据的偏差并不大,不影响普查数据的使用,与其他国家相比质量也比较高,但是通过以上分析我们不难看出:
这次普查有两大难点,一是出生死亡,二是流动人口,这仍将是今后普查的两大难点。但查准流动人口的难度相对要小一些,因为流动人口主要是居住不稳定,查出多少与基层政府没有直接的利益关系;而查准出生人口的难度始终没有降低过,因为这不是普查员工作认真些就可以做到的,出生数量直接关系到基层政府的工作政绩。所以普查还要在出生以及低年龄人口上下工夫。
另外,普查方案设计等技术环节要注意可行性研究,尽量减少需要申报人的理解和需要普查员的判断才能准确填表的环节和做法。比如对普查对象的界定,一个人是否被登记,要靠被调查者的准确报告和普查员的准确判断,只要一方出现失误就很容易被漏掉或者重复。
总之,这次普查漏报率的提高提醒了我们,今后的人口普查和调查工作还有不少值得认真总结和改进的地方。