夸张还是低估：基于不同来源数据的出生性别比分析_性别比论文

夸大还是低估——基于不同来源数据的出生性别比水平分析，本文主要内容关键词为：水平论文,来源论文,性别比论文,数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：C924.2 文献标识码：A 文章编号：2095-2082(201 1)01-0004-07

一、对中国人口出生性别比水平的质疑

中国出生性别比从上世纪80年代以来出现持续偏高的现象，最高曾达到过121的水平。如此偏高的出生性别比水平，究竟是真实的，夸大的，还是低估的？学术界、统计界、政府部门对此一直有各种不同的观点。

通过对目前统计局公布的我国人口出生性别比数据进行分析，我们发现确实存在着一些疑点。图1显示的是国家统计局公布的我国人口的出生性别比，2000-2009年这10年里，我国人口的出生性别比全都保持在115的水平以上，近5年甚至保持120左右的水平；而且这10年中出生性别比一直在波动，忽高忽低，高低相间，并没有表现出趋势性的规律。

而且，统计局公布的我国人口出生性别比数据来源于每年的1‰人口变动抽样调查，经过比较可以发现，它所反映的历年出生性别比变化情况与全国1%人口抽样调查数据所反映的出生性别比变化情况存在着一些不一致的地方。比如在图1中，2002和2003年全国1‰人口变动情况抽样调查数据显示，从2002年至2003年，我国人口出生性别比有非常明显的下降，从2002年的119.9下降到2003年的117.5。而图2显示的是2005年1%人口抽样调查中0-9岁人口分年龄性别比。在以前的研究中，我们发现死亡因素对我国0-10岁人口分年龄性别比的影响非常小，可以忽略不计。所以各年龄组儿童的分年龄性别比基本能反映出各同批人的出生性别比。[1]因此，2005年时2岁组和3岁组儿童的性别比分别能大致反映出2003年和2002年人口的出生性别比水平。从图2可以看出，2005年小普查时2岁组的性别比要高于3岁组的性别比。因此根据图2所提供的信息大致能推断出“2003年的出生性别比要高于2002年的出生性别比”的结论，这恰恰与从图1得到的判断是完全相反的。

图1 2000-2009年中国人口出生性别比

数据来源：2000年全国第五次人口普查资料、2005年全国1%人口抽样调查资料及历年全国1‰人口变动情况抽样调查资料

图2 2005年中国0-9岁人口分年龄性别比

数据来源：2005年全国1%人口抽样调查资料

可见，根据年度抽样调查数据计算的性别比波动性很大，而且其发展趋势和根据小普查调查数据计算的性别比发展趋势之间存在不一致的地方。这就使我们对现在公布的出生性别比的质量产生了怀疑。在单一来源数据可信度不高的情况下，需要使用其它来源的数据对我国的出生性别比水平进行估计。

本文的研究目的是利用最新的公民身份信息数据(截至2010年6月30日)、历年全国在校小学生人数统计数据、2000年第五次人口普查数据和2005年1%人口抽样调查数据进行相互检验和比对，估计上世纪90年代至2008年全国出生性别比的水平及变动趋势。

二、基于不同来源数据性别比水平的分析

(一)对2000年普查与2005年小普查数据的分析

首先，我们将2000年普查1-9岁年龄组的分年龄性别比与2005年6-14岁年龄组的分年龄性别比进行了比较(图3)，检验同一部门不同调查数据间的内在一致性。2000年全国第五次人口普查中的1岁人口到2005年全国人口1%抽样调查时已经6岁，所以2000年普查时的1岁年龄组人口与2005年小普查时的6岁年龄组人口应该属于同一个出生队列，其它年龄组依此类推。影响一个年龄组人口性别比的因素有出生、死亡和迁移。既然他们是同一个出生队列，出生因素对他们的作用是一样的，即他们的出生性别比是一样的，而死亡因素和迁移因素对0-14岁人口的性别比的影响很小，可以忽略不计。所以，从理论上推断，可以认为2000年普查时的1岁人口组的性别比和2005年小普查时6岁人口组的性别比应该是非常接近的。但是，通过两次调查数据的对比发现，全国2000年1-9岁这9个年龄组人口的分年龄性别比都比全国2005年相对应的6-14岁这9个年龄组人口的分年龄性别比要高。而且随着年龄的推移，两者间的差距逐渐缩小，即年龄越高，这个年龄组人口2000年普查时的性别比与2005年小普查时的性别比就越接近。

图3 2000年1-9岁人口分年龄性别比与2005年6-14岁人口分年龄性别比

数据来源：2000年全国第五次人口普查资料、2005年全国1%人口抽样调查资料

导致理论推断与现实差异的原因可能就在于低年龄组女孩的瞒报、漏报。也就是说，在女婴出生时或者在女孩年龄较小时，瞒报、漏报的情况比较严重，使这些年龄组的性别比比真实水平有所升高。随着这些女婴和女孩的逐渐长大，敏感的时期已经过去，调查或登记时家庭不再对她们的身份进行隐瞒，使这些在婴儿时期和幼年时期在统计数据上暂时“失踪”的女孩重新得以在统计数据上显示出来，这时该年龄组的性别比就会有所下降。这就说明了由于女孩漏报、瞒报因素的存在，2000年普查数据、2005年小普查数据和人口变动抽样调查数据可能高估了我国的出生性别比水平。对于这种部门内数据间的系统性偏差，需要通过与其它来源的数据进行比对和调整，才能得以纠正。

(二)对公安数据的分析

公安数据是指公安部公民身份信息系统中的数据。对于公安数据搜集过程和数据质量，我们在陕西和江西开展了实地调查进行评估。户籍登记是日常性工作，户籍统计每年年底上报，由各乡镇派出所上报到县公安局户政科，然后再逐级上报，有纸质和电子报表同时上报。《户口登记条例》要求婴儿出生一个月内进行户口登记，但实际上一些人在小孩户口需要时才来登记户口，如小孩上学必须要有户口，因此学龄儿童的户籍统计是比较完整、准确的。对于户籍统计的年龄、性别状况，管理部门不存在任何影响和干扰其准确性的因素，影响的因素主要来自户口对老百姓的效用。因此户籍统计中6岁以上人口(不包括老年人数据)数据可靠性比较高，6岁以下人口的数据年龄越低，数据覆盖越不完整。3-6岁人口的数据有一定的参考价值，但0-2岁人口的数据则需要经过调整和校正后才能应用到分析中。

近些年公安部在全国范围内部署开展了户口整顿工作，大批漏登、错登的情况得以纠正，公安数据的质量也在进一步提高。截至2010年6月30日，公安部统计的我国总人口达到13.39亿，已经超过国家统计局公布的13.35亿。(虽然公安部数据大于国家统计局公布数据的一个原因是部分老年人口死亡而没有注销户口，但是数据中青年和中年的数据质量比较好。)

从图4可以看出，将2007年的公安数据与2010年的公安数据的分年龄、性别数据进行对比，各个年龄组的人数都有所上升。即同一个出生同批人，在2007年统计时人数少，到2010年统计时人数增多。这说明许多2007年时漏登的人在2010年时已经登记，被纳入系统之中。而且，较低年龄组得以补充的人数较多，说明原来低年龄组漏报的程度更严重。与此同时，2007年与2010年进行对比，各个年龄组的性别比都有所下降(图5)。这说明在2007-2010年间被补充到公民身份信息系统的人之中，被补充的女孩数量较多，也就是说原来漏登的人当中，女孩漏登的比例比较大。特别是2007年2-5岁这几个年龄组，到2010年性别比下降幅度都达到4左右。

图4 2007年、2010年公安数据分性别、年龄人数

数据来源：2007年、2010年公民身份信息数据(截至2010年6月30日)

图5 2007年、2010年公安数据分年龄性别比

数据来源：2007年、2010年公民身份信息数据(截至2010年6月30日)

所以，2010年公安部统计的数据虽然仍然存在一定的漏报，但在覆盖面上已经接近完整。在经过户口整顿工作以后，使用3岁及以上的数据特别是6岁及以上的数据进行回推和比对，并对往年的出生性别比进行估计具有了更高的可靠性。

(三)对教育数据的分析

教育数据是指教育部统计的历年小学生在校人数数据。我们以前的实地调查和研究分析表明，分年龄小学在校生人数的教育统计数据比较准确：在从各村点清该上学人数，到落实所有该上学者入学，到统计在校学生人数，到上报、汇总、再上报的各个环节中，小学在校生人数基本上保持了其纯净性、真实性和可靠性。而且特别是在教育数据统计和上报过程中，学生的性别和各当事人的利益几乎没有关系，所以各环节基本上不存在性别方面漏报、瞒报、多报的可能性。[2]所以，教育统计数据所反映的性别结构是比较准确的。

在之前的研究中，我们曾将2007年教育数据与2000年普查数据进行对比，发现7年后的教育数据平均每个年龄比普查时的人数多出300万左右，其中男性人数每组平均多出150多万，女性人数每组平均多出165万。具体到每个年龄组，同一批人在2007年教育统计中的人数与2000年普查男性相比，男性分别多出123万、222万、127万、136万，女性分别多出118万、227万、153万、155万。[3]与此同时，这四个同批人在普查数据中的性别比也分别从117.79、122.65、122.07和120.44下降到2007年教育数据中的115.70、114.99、114.55和114.22。这充分说明了普查数据低年龄组存在大量的漏报，而且女孩漏报的程度要明显高于男孩。表1显示的是2000年出生同批人在普查数据和历年教育数据测量中得到的性别比。可以观察到，连续3年教育统计测量得到的人数都比普查数据多出240-260万左右，性别比要比普查数据低2左右。而且这3年教育数据统计到的人数和性别比一直都十分接近，这充分说明了教育数据比较稳定，质量较好。

(四)利用不同数据估计出生性别比

通过以上分析，我们得知存在着不同来源多套数据，通过这些数据都能计算出我国的出生性别水平。而且，不同数据的质量和通过这些数据计算得到的我国出生性别比水平存在着很大的差别。那么，我国出生性别比的真实的水平到底是多少呢？

我们将2007年公安数据、2005年小普查数据和2007年教育统计6-10岁组数据中分性别、年龄人数利用生命表回推，得到各年龄组在出生时的分性别人数，最后计算出各年的出生性别比水平。三套数据对比的结果(图6)显示：根据教育数据估计的出生性别比水平明显低于2007年公安和2005年小普查数据。

图6 利用2007年户籍数据、2007年教育数据和2005年小普查数据三套数据估计的出生性别比

我们又将2010年公安数据、2005年小普查数据、2000年普查数据和历年教育统计9岁组数据中分性别、年龄人数利用生命表回推，得到各年龄组在出生时的分性别人数，最后计算出各年的出生性别比水平。图7列出了利用2010年公安数据、2005年小普查数据、2000年人口普查数据以及历年教育数据9岁年龄组数据回推的往年出生性别比，显示出公安数据和教育数据在趋势上的高度一致性。普查和小普查数据虽然在趋势上和教育数据也有一致性，但波动性更大。同时，根据教育数据估计的出生性别比水平低于2010年公安数据，两者又都低于2005年小普查数据和2000年普查数据。普查和小普查数据之所以所显示的出生性别比在水平上也比教育数据、公安数据高出许多，主要是因为普查和小普查中低年龄组女孩的大量漏报所致。而且，与2007年公安数据的研究结果相比，根据2010年公安数据计算得到的出生性别比水平向根据教育数据计算得到的出生性别比水平靠拢。这说明公安数据通过查漏补缺，数据质量得到提高，与真实的出生性别比水平更为接近。

图7 利用2010年公安数据、历年教育数据、2000年普查数据和2005年小普查数据估计的出生性别比

图8 我国历年出生性别比：估计值与公布值对比

虽然我们认为教育数据的质量较好，据其算出的出生性别比更能反映出我国出生性别比水平的真实状况，但在使用教育数据中7-10岁年龄组回推估计出生性别比时，我们只能估计到2000年为止的历年的出生性别比，2000年以后的出生性别比尚不能用直接回推的方法得到。但是人口普查数据和户籍统计数据低年龄人口可以用来估计近年来的出生性别比。所以，我们采取将教育数据所反映的出生性别比水平和公安数据(或者普查、小普查数据)所反映的出生性别比发展趋势相结合的方法，对1995-2009年教育统计中10岁或9岁人口性别比与户籍统计(或者普查、小普查)中相对应年龄的性别比进行线性回归，然后利用回归方程外推2000年以来的出生性别比。本文所示的是教育数据和公安数据回归外推得到的结果(图8)，1990年我国的出生性别比为108.5左右，2000年为115左右，到2008年上升为118左右。虽然使用教育数据估计的出生性别比与国家统计局公布的出生性别比有2个百分点左右的差异，但两套数据所反映的趋势是一致的，而且都表明我国出生性别比严重偏高。

三、结论

通过对不同来源出生性别比数据的质量评估、相互比对和分析，我们可以得出以下几点结论。

第一，统计局公布的由历年人口变动抽样的得到出生性别比波动性很大，而且其所显示的出生性别比发展趋势与2000年普查、2005年小普查数据之间存在着不一致的地方，可信度不高。

第二，由于女孩漏报、瞒报的因素影响，统计数据存在着系统性的偏差，2000年普查、2005年小普查数据低年龄组的性别比被高估。

第三，对其它来源的数据进行评估，发现教育数据所反映的性别结构是比较准确的，公安数据近些年来的数据质量也在持续提高。

第四，根据比较可靠的教育数据估计出来的中国实际出生性别比比国家统计局公布的出生性别比大体低2-3个百分点。但需要强调的是，尽管如此，中国出生性别比的实际水平仍然严重偏高。

第五，几套数据所反映出来的水平虽然不一样，但2000年以来出生性别比逐渐上升的趋势却是共同的。

总之，我们对“我国目前公布的人口出生性别比是夸大还是低估”这个问题的回答是：由于低年龄组女孩漏报、瞒报的原因，我国目前公布的人口出生性别比略有夸大，但是从程度上而言夸大不多，大概在2-3个百分点左右。即使扣除了这2-3个百分点的影响，我国的出生性别比水平依然严重偏高，形势依然非常严峻。

标签：性别比论文; 公安论文; 抽样调查论文;

夸张还是低估：基于不同来源数据的出生性别比分析_性别比论文

猜你喜欢