中国出生性别比水平与数据质量的研究_性别比论文

中国出生性别比水平与数据质量研究,本文主要内容关键词为:中国论文,水平论文,性别比论文,质量论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【中图分类号】C924.24 【文献标识码】A doi:10.3969/j.issn.1004-129X.2009.04.001

【文章编号】1004-129X(2009)04-0003-08

一、对中国人口出生性别比水平的质疑

20世纪80年代以来,我国人口的出生性别比持续攀升,大大超出了正常范围。到2000年以后,出生性别比偏高的情况更为严重。从中国2000年-2007年人口出生性别比的数据(图1)可以看出,我国人口的出生性别比水平确实很高,而且波动很大。2000年-2007年这8年里,我国人口的出生性别比全都保持在115以上,近4年甚至在120左右波动;而且这8年中出生性别比的波动很大,忽高忽低,高低相间,每年之间难于相互比较。

图1 2000年-2007年中国人口出生性别比

资料来源:2000年全国第五次人口普查资料、2005年全国1%人口抽样调查资料及各年1‰人口抽样调查资料。

由于有关出生性别比的数据来源多样,而且不同来源的数据水平差距很大,于是有关出生性别比水平、特别是省级出生性别比水平的准确性问题,一直存在很大争论。中国各省人口出生性别比差异很大,有些省的人口出生性别比出奇的偏高。鉴于出生性别比是一个对样本数量十分敏感的指标,需要大规模的人口数据的支持,有些人对各省的出生性别比的准确性产生了怀疑。

目前,对中国人口出生性别比的争论分成两种意见,双方各执一词。支持者认为,中国的人口出生性别比水平确实很高,数据所反映的情况基本是真实可信、可以接受的。反对者则认为这些数据,特别是省级数据并没有代表当地的出生性别比水平,是存在问题、值得怀疑的。

本文通过对2000年第五次人口普查数据资料、2005年全国1%人口抽样调查资料和教育部统计的在校学生数据等多套数据的分析和比较,以翔实的数据、全面的资料对我国出生性别比究竟有多高,目前我国人口出生性别比的数据是否可靠,出生性别比数据存在的问题以及导致这些问题的原因等一系列问题进行分析和研究,以助于正确认识我国人口出生性别比升高的态势。

二、普查数据中0岁人口组数据存在问题

通过对2000年第五次人口普查资料统计的全国0-9岁人口分年龄的性别比(图2)与2005年全国1%人口抽样调查资料统计的全国0-9岁人口分年龄性别比(图3)的分析可以发现,两次调查都显示了同一个规律:0岁人口性别比明显低于1-4岁人口各年龄组的分年龄性别比。2000年全国0岁年龄组性别比比1岁年龄组性别比低4.9,2005年这个差距扩大到5.2。

图2 2000年中国0-9岁人口分年龄性别比

资料来源:2000年全国第五次人口普查资料。

图3 2005年中国0-9岁人口分年龄性别比

资料来源:2005年全国1%人口抽样调查资料。

这种情况在许多省都不同程度地存在,甚至在一些省,0岁人口性别比远远低于1-4岁人口各年龄组的分年龄性别比,差异十分明显。比如2005年江西0岁年龄组的性别比为126.8,而1岁年龄组的性别比为154.6,相差27.8;河南0岁年龄组的性别比为115.7,而1岁年龄组的性别比为140.6,相差24.9;广东0岁年龄组的性别比为119.2,而1岁年龄组的性别比为130.0,相差10.8。图4和图5反映的是江西与河南两省0岁人口性别比与1-4岁人口各年龄组的分年龄性别比的差异,可以看出0岁人口性别比与1-4岁各年龄组的性别比的差距非常大。

图4 2005年江西0-4岁人口分年龄性别比

资料来源:2005年江西1%人口抽样调查资料。

图5 2005年河南0-4岁人口分年龄性别比

资料来源:2005年河南1%人口抽样调查资料。

2000年的数据来源于人口普查,2005年的数据来源于1%人口抽样调查。如果只是0岁和1岁组性别比相差大,那我们可能还无法判断偏差主要出现在哪个组。但现在的情况是1-4岁中每个年龄组性别比都大大高于0岁组。显然,1-4岁中每个年龄组,甚至包括更高的年龄组,都连续地在抽样中抽偏,且抽偏的方向又完全一致,这样情况出现的可能性几乎为零。

因此,我们可以判断,在人口普查和人口抽样调查这样的调查系统中,相对于其他年龄组,0岁组人口的统计中存在大量男孩漏报或瞒报的现象,使0岁人口组的性别比与其他年龄组相比较显得异常的低。这种漏报的情况在一部分省中表现得相当严重。因为近年来中国出生性别比持续偏高的态势引起各方关注,0岁组的性别比成为一个备受瞩目的指标,所以很可能存在着对0岁人口组数据的瞒报和错报,以降低0岁组人口性别比的情况。

这说明,2000年人口普查和2005年抽样调查关于性别比的统计数据中,0岁组的数据质量是不可靠的。这提示我们,在通过统计数据判断我国性别比的态势时,不能过于关注0岁性别比或者出生性别比,要将其他低年龄组的性别比作为判断我国出生性别比水平的态势的主要依据。

三、低年龄组存在女孩瞒报、漏报,性别比虚假偏高

在上面的论述中,我们发现0岁人口组性别比的统计数据质量不可靠,应该采用低年龄组人口的性别比作为判断中国人口出生性别比水平的重要依据。但是对1-4岁人口的分年龄性别比的进一步分析表明,低年龄组的统计数据又存在着女孩瞒报、漏报的现象,真实的出生性别比虽然很高,但并没有普查数据所显示的那么高。

我们将2000年1-4岁年龄组的分年龄的性别比与2005年6-9岁年龄组的分年龄性别比进行了比较。2000年全国第五次人口普查中的1岁人口到2005年全国人口1%抽样调查时已经6岁,所以2000年普查时的1岁年龄组人口与2005年小普查时的6岁年龄组人口应该属于同一个出生队列,依此类推2000年普查时的2、3、4岁年龄组人口分别与2005年小普查时的7、8、9岁年龄组人口一一对应,属于同一个出生队列。

我们知道,影响一个年龄组人口性别比的因素有出生、死亡和迁移。既然他们是同一个出生队列,出生因素对他们的作用就是一样的,即他们的出生性别比是一样的。而经过计算,我们发现死亡因素和迁移因素对0-14岁人口的性别比的影响很小,可以忽略不计。既然这样,从理论上推断,我们可以认为2000年的1岁人口组的性别比和2005年6岁人口组的性别比应该是非常接近的。而调查数据显示的“事实”并非如此。通过两次调查数据的对比,我们发现全国2000年1-4岁这4个年龄组人口的分年龄性别比都比全国2005年相对应的6-9岁这4个年龄组人口的分年龄性别比要高,而且年龄越大,这个年龄组人口2000年的性别比与2005年的性别比就越接近。如果我们再将年龄组的范围扩大一些,就会发现这种差距几乎消失了,比如2000年9岁人口年龄组到2005年时成长为14岁年龄组,而性别比几乎没有发生什么变化(图6)。

图6 2000年1-9岁人口分年龄性别比与2005年6-14岁人口分年龄性别比

资料来源:2000年全国第五次人口普查资料、2005年全国1%人口抽样调查资料。

注:Ⅰ,Ⅱ,Ⅲ,……,Ⅸ代表1999年,1998年,1997年,……,1991年出生的人口。

导致理论推断与现实差异的原因在于低年龄组女孩的瞒报、漏报。在女婴出生时或者在女孩年龄较小时,瞒报、漏报的情况比较严重,使这些年龄组的性别比比真实水平有所升高。而随着这些女孩和女婴的逐渐长大,敏感的时期已经过去,调查或登记时家庭不再对她们的身份进行隐瞒,使这些在婴儿时期和幼年时期在统计数据上暂时“失踪”的女孩重新得以在统计数据上显示出来,这时该年龄组的性别比就会有所下降。

通过对教育部统计的分性别年龄在校学生数量的教育数据的统计分析,我们的推断得到了进一步的印证。教育数据的上报程序基本如下:每年9月,每个小学向上级部门报送全国统一格式的“小学基层统计报表”。报表由8张表组成,涉及学校性质、教学班数、学生人数、教师队伍状况、办学条件等。由于统计时间是在刚开学的9月,所以几乎将所有的入学儿童都已统计在内,不受之后辍学等事件的影响。“小学基层统计报表”报到乡教育部门后,由乡教育统计部门录入计算机,将电子版报送到县教育局,再由县教育局汇总报到地级市教育局,地级市教育局汇总后向省教育厅上报,省教育厅再向教育部上报。从乡到省教育厅之间的各个环节都有计算机逻辑检查,计算机汇总,各个环节都不需要对表格上的指标进行加工(如计算入学率等)。这样的环节确保了数据传送的准确、及时,并且在相当大的程度上避免了乡以上各环节的人为干涉。而且统计和上报过程中,学生的性别和各当事人的利益几乎没有关系,所以各环节没有在性别方面漏报、瞒报、多报或改动的可能性。因此,教育统计数据所反映的性别结构是比较准确的。在先前发表的研究中,我们已经对教育统计数据质量的评估、用教育统计数据对人口普查数据的调整、出生人口及其性别分布的估计等都作了详细的描述和分析,[1]本文就不再进一步说明。

我们利用教育部2000年-2003年在校小学生分性别数据年龄数据计算了在校小学生的性别比,发现几乎历年的7岁年龄组的性别比在6-10岁这5个年龄组中最高,7岁以后各年龄组的性别比是逐渐下降的(图7)。而且教育统计的小学在校生人数数据在9岁或10岁达到该队列的最高纪录。这说明9-10岁之前部分儿童尚未入学,每年还有未入学的儿童源源不断地补充到这个队列里来。当这个队列的人口进入9或10岁时,队列的人数达到最大值,此后基本不再有未入学的儿童补充进来。而且每年同一队列补充进来的儿童中,女孩数量要多于男孩数量,导致该队列的性别比随着年龄的增加而逐渐下降。也就是说,9岁之前尚未入学的儿童中,女孩要多于男孩,这与其他研究中男孩入学率高于女孩的结论是相符合的。[2]所以在教育数据中,对于每个队列来说,当这个队列的人口为7岁时,这个队列的性别比为最大值,之后,性别比随年龄增长而下降。9岁或10岁时性别比最接近这个队列的真实性别比值。我们将2000年-2003年7岁分性别的在校小学生的数量利用存活率回推,计算这4个队列在2000年时的性别比,并与普查的数据中同一队列进行对比。结果表明,用教育数据调整匹配的4-7岁儿童分年龄性别比与普查数据这个同一队列的分年龄性别比相比要低5左右(图8)。这种差异正说明2000年普查数据中低年龄组确实存在部分女孩瞒报、漏报的情况,而这些女孩在6-10岁入学时,在教育统计中被显示出来。

图7 2000年-2003年全国6-10岁在校小学生分年龄性别比

资料来源:2000年-2003年各年教育统计数据。

图8 2000年人口普查和教育统计数据调整匹配的4-7岁人口分年龄性别比

资料来源:2000年第五次人口普查资料、2000年-2003年各年教育统计数据计算所得。

陈卫和翟振武[3]曾利用教育统计数据重新估计2000年及20世纪90年代的出生性别比,认为我国实际的出生性别比并不像2000年普查数据反映的那样严重偏高,我国90年代实际的出生性别比和低年龄组性别比要比普查反映的水平低5左右(表1)。

我们利用2007年的教育数据计算得出了相似的结论。我们将2007年教育统计数据中6-10岁人口分性别年龄数据与2005年小普查数据中4-8岁人口分性别年龄数据进行了对比。2005年小普查时的4岁人口与2007年教育统计的6岁人口应该属于同一个出生队列,他们在2001年出生,2005年小普查时成长为4岁人口,2007年教育统计时成长为6岁人口。同理,2005年5、6、7、8岁人口分别与2007年教育统计时的7、8、9、10岁人口一一对应,属于同一个出生队列。我们利用存活率分别推测了两套数据中5个年龄组的出生性别比,结果表明利用教育数据推测的出生性别比要比利用小普查推测的出生性别比低5左右(图9)。

图9 2005年小普查4-8岁人口与2007年教育统计数据6-10岁人口推测出生性别比

资料来源:2005年全国1%人口抽样调查资料、2007年教育统计数据。

注:Ⅰ,Ⅱ,……,Ⅴ代表2001年,2000年,……,1997年出生的人口。

综合上面三套数据的分析,普查数据低年龄组所反映的出生性别比比教育数据反映的性别比要高2~3左右。需要强调的是,虽然我们的研究认为普查数据低年龄组中存在女婴(孩)瞒报、漏报的现象,导致普查数据所反映的我国出生性别比水平虚假性升高。但是这并不意味着我们否认我国出生性别比水平大大偏高的事实。我们认为,我国的出生性别比水平确实很高,只不过没有普查数据所显示的那么高。2000年普查和2005年小普查的数据都表明,1-4岁人口的分年龄性别比,甚至更高的年龄组性别比都非常高。2000年1-3岁人口的性别比都保持在120以上,9岁组的性别比仍然达到113.5。2005年的情况更为严重,1-7岁中每个年龄组的性别比都在120以上,其中2岁组的性别比更高达125。即使扣除我们所估计的由于女婴漏报而虚高的2~3个点,各个年龄组的性别比依旧大大偏离正常值。这在一定程度上反映出这些年龄组的人口在他们出生时该队列的性别比就已经达到非常高的水平。

从以上的分析可以得知,虽然中国人口的出生性别比水平确实很高,但是,也确实存在低年龄组的女孩瞒报、漏报的情况,中国人口出生性别比的水平偏高的情况并没有普查数据所反映的那么严重。

前面的分析讨论中所包含的一个重要假设是各年龄组儿童的分年龄性别比基本能反映出他们出生时的出生性别比。这意味着死亡和迁移因素对0-10岁儿童的分年龄性别比几乎没有影响。正因为死亡和迁移因素的影响很小,我们才能通过0-10岁儿童的分年龄性别比推断他们出生时的出生性别比情况,我们才能作出各队列人口的出生性别比应该与该队列人口在0-10岁各个年龄时期的性别比非常接近的判断。那么这种假设是否成立呢?

我们利用2000年第五次人口普查数据编制的生命表对2005年全国0-14岁人口的性别比进行调整,用存活率回推计算这15个年龄组人口的出生性别比,然后将他们的出生性别比与2000年普查时他们的分年龄性别比进行对比,两者的差异就是死亡率对性别比的影响。结果表明,这15个年龄组的出生性别比比2000年普查时的性别比低0.3~0.5不等,影响非常小,对省级数据的计算结果同样支持了这个结论。可见,因为我国的死亡率已经非常低,在低年龄时期男女差别不是很明显,所以死亡率因素对性别比的影响程度非常有限,可以忽略不计。

迁移因素主要通过迁入人口的性别比和迁出人口的性别比对各省的分年龄性别比产生影响。我们利用2000年第五次人口普查分省的迁移人口数据和2005年全国1%人口抽样原始数据的1%数据进行相关分析,结果显示,迁移对0-10岁人口的分年龄性别比的影响很小,无论是四川、安徽等流动人口的流出地,还是北京、江苏等流动人口的流入地,调整前和调整后的0-10岁人口分年龄性别比差异都很小。

从死亡和迁移因素对性别比影响的分析中,我们可以得出结论,死亡和迁移因素对我国0-10岁人口的分年龄性别比的影响非常小,可以忽略不计。所以0-10岁人口的出生性别比与该队列人口在0-10岁各个年龄时期的性别比非常接近,我们可以通过0-10岁儿童的分年龄性别比推断他们出生时的出生性别比情况。

四、我国出生性别比升高的主要原因是选择性引产

虽然我国出生婴儿和低年龄组存在大量女孩漏报的情况,但导致中国出生性别比升高的主要原因和直接原因还是选择性引产。蔡菲的研究[4]通过引产胎儿性别资料计算,2000-2006年平均引产性别比为72.5,严重偏低,认为选择性引产是我国出生性别比升高的直接原因。该研究所使用的历年调查数据的样本规模都在10000以上,依此计算性别比,样本量是足够大的(表2)。引产胎儿性别比是由引出男胎与女胎的比值乘以100所得,医学上认为受孕性别比为120~130之间,男胎流产概率较高,最后导致出生性别比为105左右。由此可以推算,正常自然流产和早产胎儿的性别比至少应该在120以上。可是根据蔡菲的研究,我国2000-2006年历年引产的性别比都在70左右,可见有大量的女孩是由于性别选择的原因被引产的。所以,导致我国出生性别比升高的主要原因还是非法的产前胎儿性比鉴定和选择性流产。

这个结论和我们的观点并不矛盾。我们认为,出生时和低年龄组的女孩漏报使中国人口的出生性别比水平有所升高,但这不是中国人口出生性别比异常偏高的主要原因,最主要的原因还是选择性流产。我们完全承认中国人口出生性别比水平大大偏高的事实,但是由于存在低年龄组女孩的漏报,我们同时认为,真实的出生性别比水平并没有普查数据所显示的那么高。

五、结论

本文通过对2000年第五次人口普查数据资料、2005年全国1%人口抽样调查资料和2007年教育部统计的在校学生数据等多套数据的分析和比较,可以得出下面的结论:第一,普查数据中0岁人口组性别比明显偏低,分析表明该年龄组的数据质量不可靠,判断我国出生性别比水平的态势应以其他低年龄组性别比的数据为主;第二,全面分析表明,普查数据中低年龄组存在一定程度的女(婴)孩漏报的现象,导致低年龄组性别比一定程度的虚假性升高,影响了对我国真实出生性别比水平的判断。但是,即使扣除了这个因素,各个年龄组的性别比依旧远远高于正常值。所以,中国人口的出生性别比水平偏高的情况是真实的,只是真实的出生性别比水平并没有普查数据所显示的那么高;第三,死亡和迁移对0-10岁各年龄组性别比的影响微乎其微,各年龄组的性别比水平扣除女(婴)孩漏报因素后就基本可以反映他们出生当年的我国人口的出生性别比水平。中国出生性别比偏高的影响是极为深远与令人担忧的,偏高的出生性别比问题已经成为我国当前需要应对的全局性重大挑战。

【收稿日期】2008-11-21

标签:;  ;  ;  ;  ;  

中国出生性别比水平与数据质量的研究_性别比论文
下载Doc文档

猜你喜欢