1982年中国各民族性别、年龄人口数的推算,本文主要内容关键词为:年中论文,各民族论文,人口论文,性别论文,年龄论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
社会科学的研究需要追踪不断变化的社会现象。但当我们试图解释现在时,却发现又不得不回顾过去,在面对那些随着时间的流逝往往变得模糊的历史事件、历史数据而使研究变得困难重重时,我们有时候会情不自禁地责怪前人:为什么当时的学者、当时的研究连一些最基础的研究都没有做?
近年,由中国社会科学院人口研究所发起,各地正在编著各民族人口丛书。在研究该民族人口时,大家自然而然地要用1982年民族人口的性别、年龄资料。因为,人口的性别、年龄是人口学中最基本的内容。它是人口再生产的历史记录,没有准确的性别、年龄人口数,许多最基本的人口指标无从确定,一些人口现象无法解释,高级的人口分析技术无法施展,而进行综合性的研究更无从谈起。但遍查已经出版的“三普”人口资料时,却找不到完整的分民族的人口性别年龄资料。缺了人口的性别、年龄人口资料,许多民族人口研究则变得困难重重,简直难以展开。例如,从1982年到1990年,部分少数民族人口出现高速增长,我们可以肯定自然增加不是主要因素,民族成分的改变是主要原因。但如果我们没有1982年的该民族的性别、年龄人口资料,则难以从定量上加以确定。类似的例子我们还可以举许多。既然分性别、年龄人口数如此重要,如果我们在还有许多线索的时候不去弄清它,那就等于把这难题留给后人,那无异于存心让后人来责难我们。本文意在通过利用现有的人口资料进行推算,补上这一重要的基础数据。
1.“三普”公布的民族人口性别、年龄资料
中国政府历来非常关心和重视民族人口统计工作,为了弄清民族人口的变化,每一次人口调查都把“民族”的调查作为必选项目。例如,中华人民共和国成立后的第一次人口普查,只调查6个项目, 其中就有“民族”一项。由于时代的局限,第一次人口普查(1953年)和第二次人口普查(1964年)在汇总调查结果是, 只汇总了各民族的人口数(1964年汇总了性别人数),这对于把握民族人口的全貌, 是远远不够的。第三次人口普查(1982年),是中国首次使用现代化的技术手段对调查结果进行汇总,其内容的详细程度确实大有进步,是前两次普查不可比拟的。但也正是由于是初次,缺少经验,所以在调查内容和调查的结果的汇总上存在着一些不如人意的地方,其中,少数民族人口的汇总就是一个例子。“三普”的死亡调查表上没有死亡人口的民族成分,所以我们无法知道当时各民族的人口死亡状况,而公布的民族人口资料中只有分散的资料,没有一个完整、准确的各个民族性别、年龄人口数等等。下面,我们把公布的全国100 %电子计算机汇总结果(注:国务院人口普查办公室、国家统计局人口统计司:《中国1982年人口普查资料》,中国统计出版社,1985年。)中有关民族人口性别、年龄的资料整理如下:
(1)汇总表3,公布了分民族的总人口数和分性别的人口数;
(2)汇总表28为各个少数民族人口年龄状况, 公布了各少数民族在0~14岁,15~19岁,20~24岁,……60~64岁,65~99岁,100岁及以上年龄的人口数,但没有分性别;
(3)汇总表29为各少数民族人口的文化程度,有各少数民族的6岁及以上的人口数;
(4)汇总表30为各少数民族的文盲、半文盲的人口数, 有各少数民族的12岁及以上人口数;
(5)在汇总表74和表75中有各少数民族15~64岁女性人口数。
对上述汇总表进行整理,我们可以使民族人口的年龄组别划得更细一些,即可以把0~14岁细分为0~5岁,6~11岁,12~14岁,并得到相应的人口数。关于分性别人口数,则只能分为0~11岁,12岁及以上, 及15~64岁不连续的分组人口数,但由于15~64岁的女性在个别民族上人数有误(注:1982年人口普查时,西藏未进行关于“死亡”、“婚姻”、“生育”项目的调查,所以公布的100 %计算机汇总的少数民族生育阶段15~64岁的妇女人数,藏族、门巴族、珞巴族和实际人数相差甚远。),所以在以下的推算中没有全部利用。
由以上的资料,我们知道,“三普”的100 %计算机汇总结果并没有给我们提供较为完整、规范分组的各民族性别、人口数。
“三普”公布的资料,除了100%计算机汇总结果外,还有1%户抽样结果。在公布的1%抽样资料中,有各个民族的分性别、 年龄人口数。对于人口数较少的民族,如10万人以下的民族, 按人口的1%计算,仅1 000人左右,若再按年龄、性别分开,一些年龄仅几个人, 有些年龄组人口数甚至为0。可以设想年龄、性别的误差是相当大的。至于1万人口以下的民族,大部分年龄组人口数都是零,其抽样结果根本无法使用。即使对人口数较大的民族,其性别、年龄构成也有相当误差。如把1%户抽样结果和在100%汇总结果中已知的性别、年龄构成相比较,设:
性别比=100·(男性/女性)
年龄组构成=年龄组人口/总人口.
1%户抽样的性别比与年龄组人口构成平均误差见表1。
由表1可知,把1%抽样调查的结果与100%的数据相比较, 汉族人口与全体少数民族人口的性别比指数绝对误差在1%以内, 在重组的年龄组(即分为0~5岁,6~11岁,12~14岁,15~19岁,……60~64 岁,65~99岁,100岁及以上),人口年龄组构成的相对误差也在1%以内。对80万人口以上的民族,人口数的误差超过5%的有哈尼族; 性别比指数误差绝对值超过2的有白族和土家族; 年龄组构成平均相对误差超过5%的仅哈尼族。所以如果按上述这些年龄分组,则1%抽样的结果除个别民族外,基本上是可用的。但对80万人人口以下的民族,则平均的年龄组构成误差基本上在5%以上。误差最大的是高山族,为96.04%。
由于1%抽样调查是以户为单位的等距抽样, 可以认为被抽到的样本分布是相当均匀的。即样本的民族人口数大致与该民族实际人口数成比例。按照抽样理论,要达到规定的置信度和误差范围,则必须有相应的样本数来保证,对于一个较小的成数(例如单岁的性别、年龄构成指数),如果规定了较小的误差与较大的可信度,所需的样本数往往是很大的。对单岁年龄的要求来说,除了汉族和全体少数民族外,每一个少数民族的样本数可以说都达不到所要求的数。
上面是由普查结果直接得到的民族人口的性别、年龄资料情况。另外,我们还可以设想用间接的方法来估算1982年各民族的年龄、性别数。由于在1990年全国第四次人口普查(以下简称“四普”)时提供了各民族人口的性别、年龄资料,以及人口死亡情况,我们设想可用倒退存活率的方法来估计出1982年的人口数。若设1982年、1990年x 岁人口数分别为P82(x)、P90(x),1982~1990年的生命表中x 岁的静止人口数为L(x),则有:
P90(x+8)/P82(x)=L(x+8)/L(x)=R(x)
可得P82(x)=P90(x)/R(x)
由于没有1982年各民族的人口生命表,难以估计1982~1990年人口死亡情况,我们暂时用由“四普”资料算出的1989~1990年各民族人口生命表(黄荣清、刘琰,1995)。估算的1982年各民族人口数与性别比,估算的人口数、性别比,在确定的年龄区间上年龄构成指数与1982年实际数据的误差见表2。
表1 1982年100%汇总结果与1%户抽样人口、年龄构成、 性别比的比较
人口数 误差
(万人) 人口(%)年龄构成(%) 性别比
全 国100 391.30 0.080.14
-0.01
汉 族 93 667.44 0.000.13
-0.03
少数民族6 723.89 1.230.450.12
蒙古族341.14-1.271.470.67
回 族722.84-0.041.290.55
藏 族384.79-0.852.411.04
维吾尔族 596.35 1.141.76
-1.58
苗 族502.12 0.051.231.54
彝 族545.36 0.901.600.39
壮 族 1 338.31 0.500.970.52
布依族211.93 1.552.561.90
朝鲜族176.52-2.612.280.18
满 族430.49-0.161.46
-0.30
侗 族142.64-0.022.470.71
瑶 族141.20 2.431.99
-0.50
白 族113.22-2.293.81
-3.91
土家族283.68-2.252.00
-2.61
哈尼族105.88-6.795.601.15
哈萨克族
90.75 1.043.550.50
傣 族 83.95 0.793.300.05
黎 族 88.71 2.103.981.63
注:设1982年100%汇总结果中x岁年龄人口数为P[,x],1%户抽样人口x岁年龄人口数为P[,x]',总人口分别为P和P'。
人口数误差=100
年龄构成误差=100
这里j表示正文中按0~5,6~11,12~14,15~19,……60~64,65~99,100[+]的年龄分组;
PM' PM
性别比误差=100(──-──)
PW' PW
PM、PW和PM'、PW'分别表示100%汇总结果和1%户抽样中男性、女性人口。
由表2可知,推算的1982年人口数与实际的人口数对于全国来说,相对误差并不那么大,而对单个民族来说有很大出入。造成两者不一致的原因可能有:第一,由于用的是期末的生命表,存活率高估,由于有存活率高估,则以1990年人口为基础推算的1982年人口数要比实际的少;第二,非封闭人口,这里说的非封闭不是通常说的由于人口迁移造成的人口增加与减少,而是由于在一个民族内有许多人改变了原来的民族成分,造成不同民族人口的此涨彼消。例如,从1982年到1990年,有相当规模的汉族改变了民族成分,所以推算的1982 年汉族人口要少于1982年登记的汉族人口,反之, 有相当规模的人在此基础改到蒙古族成分,所以推算1982年蒙古族人口要多于1982年登记的蒙古族人口,等等。
以上情况说明,除了少数几个无民族成分改变的民族外,用1990年的民族人口资料无法正确地估计出1982年各民族人口年龄、性别数。
2.性别——年龄人口数的估计方法
在人口学中,我们知道由洛特卡( Lotka)提出的稳定人口理论,有一套年龄构成的推算方法。但是它是建立在一整套严格规定的条件下才能成立。实际的人口变量(生育、死亡、迁移以及在民族人口中的民族成分的改变)很难满足这些规定条件,所以稳定人口的推算方法在这里并不适用。到现在为止,我们还未看到推算人口性别、年龄结构的普遍适用的方法。只能根据已知的条件灵活选择适当的方法。
事实上,普查提供的资料虽然不是规范、完整的性别年龄资料,但它提供了以下资料可作估算的基础:第一,全国分性别、年龄人口数;第二,各民族的性别人口数;第三,不很规范年龄分组的分民族的人口数;第四,汉族和全体少数民族单岁组性别、年龄估计数;第五,80万人口以上的民族的年龄组人口的估计数。根据上述基础资料,本文采用了年龄差别消去法来估计各民族分年龄、性别人口数(详见黄荣清等,1989)。
表2 根据1989~1990年生命表推算的1982 年人口与实际人口的误差
人口(%)年龄构成(%) 性别比
全 国0.431.76
-0.60
汉 族1.581.65
-0.51
蒙古族 -16.234.201.00
回 族
-1.542.54
-0.11
藏 族
-1.874.12
-0.85
维吾尔族 2.757.21
-1.23
苗 族 -25.172.56
-3.13
彝 族
-3.902.35
-1.82
壮 族
-0.092.55
-1.81
布依族
-4.363.42
-1.69
朝鲜族1.072.12
-0.73
满 族 -95.289.023.22
侗 族 -50.224.70
-3.81
瑶 族 -26.814.15
-4.55
白 族 -22.203.25
-2.54
土家族 -76.804.25
-2.66
哈尼族
-0.871.19
-1.48
哈萨克族 2.233.67
-0.40
傣 族
-3.093.27
-0.74
黎 族
-2.893.88
-2.08
注:人口、年龄构成、性别比误差的定义同表1。 作为标准的人口为1982年100%汇总的人口数;比较的人口为推算的人口。
设我们要估计m×n矩阵中的元素x[,ij](>0)(i=1,2, ……m;j=1,2,……n);其中行和列元素之和
为已知。假设我们先估计一个初值。估计值的行和列元素之和为X'[,i]=
,X'[,j]=
。我们要通过调整矩阵元素的值,使它的行和列元素的和和已知的和X[,i]和X[,j]非常接近,并以此作为矩阵元素的估计值;用数学语言来说,若预先规定一个任意小的正数ε,当有:
就把x'[,ij]作为x[,ij]的估计值。
调整方法是这样的:先看一下估计的初值是否满足条件(1), 如果满足,就以它作为估计值;如果不满足,则从行(或列)调整开始,令:
调整后的行元素x'[,ij]之和X'[,i]等于X[,i],但列元素之和X'[,j]不一定等于X[,j];如果调整后的x'[,ij]作为x[,ij]估计值,看是否满足条件(1),若满足,则停止调整;若不满足,则再调整, 这次从列开始调整,令:
x'[,ij](X[,j]/X'[,j])→x'[ij]
这时必定有X'[,j]=X[,j];再观察调整后的元素, 看是否满足条件(1)。若不满足,则再从行开始调整,可以证明,每调整一次, 误差=
总有所减小,这样总能得到满足条件的x'[ij]。
这里要特别指出,虽然我们能控制X[,i]和X[,j]的误差,但这样估计出的x'[,ij]并不是实际的x[,ij]。x'[,ij]和x[,ij]之间有误差存在。为了控制误差,初值估计是很重要的,我们要尽可能地选择和真值接近的值作为初值。
各民族的人口性别、年龄人口数的估计是分阶段进行的:
第一阶段以全国人口为基准先估计汉族和全体少数民族;第二阶段以估计出的全体少数民族人口为基准,估计80万人口以上的每个民族和全部80万人口以下的民族人口的和,第三阶段以估计出的80万人口以下的民族人口的和为基准,估计80万人口以下的各个民族。
估计所以要分成上述三个阶段,一是出于计算机容量的考虑。因为同时对56个民族进行性别、年龄人口数叠代所占计算机内存太大,各民族人口数差别大,影响的权数也不同。更主要的是初值条件不同。在第一阶段,以全国人口的性别、年龄人口为基准,对汉族和全部少数民族,可直接用1%户人口抽样结果作为各性别、年龄人数估计的初值。 在第二阶段,在规定的年龄组,可用1%户人口抽样结果,作为18个80 万人口以上及80万人口以下的全部少数民族性别、年龄人数估计的初值,但在高龄上作了修匀。在第三阶段,则完全用假设数,先根据已知的男女合计的年龄组人口作单岁插值,估计单岁男女人口,然后用“四普”逆向存活的人口性别比估计相应年龄组性别比,并由此算出男女年龄组人口数作为初值。
在每个阶段,又按两个步骤、两个方向上反复平衡。第一步:估计相应的年龄组性别人口数,在这里,又分为12岁以下和12岁及以上两个过程;第二步,由估计出的年龄组人口数进行单岁组人口数插值。估计单个民族的性别、年龄人口,然后以基准的人口为标准,分男、女对求出的各民族的性别、年龄人口数进行修正,然后再回到各民族那里去修正。这样通过反复修正,便可估计出每个民族单岁组的性别、年龄人口数。
对用上述方法估计出的每个民族单岁组的性别、年龄人口数,虽然我们不能就此作出结论,它就应该是“三普”时100 %数据汇总的实际结果,但它至少在以下方面和“三普”100%汇总结果一致:
(1)每个民族总人口、分性别人口数;
(2)每个民族0~5岁,6~11岁,12~15岁,15~19岁,……65~99岁,100岁年龄组的人口数;
(3)每个民族0~11岁,12岁及以上的性别人口数;
(4)除藏、门巴、珞巴族外,15~64岁的男女性别人口数;
(5)各民族人口数之和等于全国人口数;各民族分年龄、 性别人口数之和等于全国分年龄、性别人口数。
由于是在满足上述条件下的推算,我们有理由相信推算出的民族人口的估计值有相当的准确度。
我们知道,关于性别、年龄人口,对人口数较大(如80万以上)的民族,现有的系统资料仅有1%户的抽样数据, 本文的结果也是在此基础上进行推算的。推算的结果肯定比原数据有了改进。这是因为,除了上述(1)~(5)点以外(原数据不能满足),在以下两点也有了改进:第一,减少了性别年龄人口数的波动。以藏族、哈尼族为例,藏族在年龄申报上,在双数和在以“0”和“5”结尾的年龄上,存在一定程度的堆积(黄荣清,1993),这在1%户的抽样数据中很明显, 而在推算值上已消除了这种堆积(见图1); 哈尼族的抽样数据不但在总人口性别比上和100%汇总资料不一致,在年龄性别比上也呈高低起伏, 肯定有较大的误差,而推算值则有所改进(见图2)。第二, 在高龄人口上, 直接按抽样数据推算,或者过大,或者过小。例如百岁及以上的人口,在抽样数据中,或者为“0”,即表示该民族无百岁以上的老人, 而对于非零的情况,如等于“1”,如按比例推算, 则百岁老人又太多了。 而本文的推算值克服了这种现象。对于人口较少的民族,1 %抽样数据基本上无法利用,是个空白,本文的推算可以说填补了空白。
3.实例
人们常说,人口的性别、年龄数是该人口的历史记录。从性别、年龄人口那里我们可以观察到人口变动的历史轨迹。由于1953年和1964年的人口普查没有对各民族人口进行详细汇总,所以弄清1982年的各民族的年龄、性别人口对民族人口研究就显得格外重要。特别是在1982年,对多数少数民族来说,计划生育政策还刚开始实施,由人口的性别年龄特征可以看出该民族在无人为干涉生育下人口再生产的情况;此外大规模改变民族成分的现象尚未出现。从1982年到1990年,大部分民族都不同程度地有原为其他民族(主要是汉族)加入其中(黄荣清,1995),有的甚至占到该民族原人口一半以上。例如土家族,从1982年到1990年,人口增加了一倍多,人口的增加部分,当然主要不是自然增加,而是由原为别的民族后又改变了民族成分加入了土家族而引起的。 所以尽管1990年普查也提供了各民族的年龄、性别的详细资料,但由于组成人口的人已发生了很大的变化,由此也带来人口再生产因素(如生育、死亡等)的不同。从这个意义上说,此一人口已不完全是那一人口,要研究民族的历史人口,最好还是用1982年的人口统计数。下面,我们利用已估计出的1982年各民族的性别、年龄人口数,画出一些民族的性别、年龄金字塔,以此可观察到该民族人口的历史变化和再生产的特点(见图3~图8)。我们选择其中较为典型的几个民族,加以说明,希望引起研究者的兴趣。
3.1 全体少数民族
图4显示,中国少数民族人口性别、 年龄构成金字塔基本上和全国人口相同,金字塔底宽,但在10岁以下有收缩,收缩的幅度较全国要小。说明从整体上看,少数民族的出生率下降在时间上与全国同步,但平均下降的幅度较全国低。这种金字塔结构代表了大部分少数民族人口性别、年龄的特点。
3.2 朝鲜族
图5显示,朝鲜族人口性别、 年龄构成金字塔是少数民族中较为少见的类型。全国的人口性别、年龄构成金字塔在10岁以下开始收缩,朝鲜族的金字塔在15岁以下就开始收缩,在1~4岁的构成指数都较全国要低,说明朝鲜族在全国广泛开展计划生育以前(70年代初),出生率已开始下降,并且下降的速度较全国要快。
3.3 哈萨克族
哈萨克族人口性别、年龄构成呈标准的金字塔形(见图6)。 塔底很宽,在0~9岁的人口年龄构成指数较全国开展计划生育以前(1953年,1964年)还要大,妇女的生育率非常高(哈萨克族妇女平均生育子女数在7个以上)。人口再生产是典型的高速增长型。在金字塔的塔底(0~4岁),略微有所收缩。说明该民族计划生育开展得较晚, 生育率下降也很小。类似这种人口性别、年龄构成的还有撒拉族、克尔克孜族、维吾尔族等。
3.4
高山族和外国人加入中国籍(注:严格地说,“外国人加入中国籍”并不能称之为一个民族。但在中国的民族人口统计中常把他和民族列成一类,所以这里也把他看成类似于民族人口来处理。)
两者人口都很少。1982年,大陆高山族人口仅有1 650人, 外国人加入中国籍也不足5 000人。这是两个比较特殊的人口, 人口年龄构成的类型非常特殊。
从金字塔图形看,大陆高山族人口年龄构成有两个峰值:在50~54岁有一个峰值,在15~19岁出现第二个峰值。在35岁以上性别比明显的不平衡,男性多于女性;而在30岁以后性别比趋于平衡。高山族祖居台湾。在1982年时,35岁以上的人为新中国成立以前就在大陆定居,说明当时在大陆定居的以男性为主。新中国成立后,海峡两岸被阻隔,所以年龄人口出现断层。30岁以下为新中国成立以后出生的人,相应于50~54岁的人口峰值,对应出现在10~25岁的年龄高峰,且第二代人较第一代人多得多。出现这种情况可能有以下两种因素:第一,50岁左右的人,当时的生育率较高;第二,与其他民族通婚,他们出生的子女申报为“高山族”。5岁以下人口较少,可能由于人口年龄构成波动引起的, 另外,高山族人口大都居住在城市,虽然计划生育在政策上对他们的生育限制较为宽松,但与他们的前辈相比较,他们也不愿再多生育,所以出现0~5岁又开始收缩的现象(见图7)。
关于侨居外国华人的研究有不少,但对侨居中国的外国人,相应的研究却较少看到。观察1982年外国人已加入中国籍的性别、年龄构成,我们可以发现一些有趣的现象(见图8)。从1982 年外国人加入中国籍的人口年龄分布看,35岁及以上的人占绝大部分,约占全部入籍人口的83%。这部分人又以女性为主,占80%以上。说明当时已入籍的外国人大部分在新中国成立以前就在中国定居。他(她)们中有不少是抗日战争胜利后遗留在中国的日本孤儿,且以女性为主。
入籍外国人的第二代要比上一代人少得多。这可能是因为他们和中国人结婚后所生的子女都随中国的父亲(母亲)申报了某一民族,所以这一类人口越来越少。