中国的随机人口预测*_置信区间论文

中国随机人口预测*,本文主要内容关键词为:中国论文,人口论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1.引言

由Lee,Tuljapurkar(1991)及Carter(Lee and Carter, 1990)提出的随机人口预测LTC方法, 由随机死亡与生育预测及随机人口预测两部分构成。其中,随机死亡与生育预测克服了经典随机人口模型(Pollard,1975)无法处理按龄生育与死亡率的随机性时变的困难; 而李南与Tuljapurkar(1995 )通过将时间序列模型扩展为时间——区域序列模型解决了中国及许多发展中国家的死亡时间序列数据的缺乏问题,成功地进行了中国随机死亡率预测;李南与申卯兴又完成了中国随机生育率预测(李南、申卯兴,1996);这就完成了LTC 方法的第一部分并提供了进行中国随机人口预测的基础。实际上,此时的随机人口预测已可通过经典仿真方法进行,而LTC方法在此部分的核心, 在于提供了解析的近似计算方法,从而解决了经典仿真方法中结果的不可重现问题。本文使用LTC方法进行中国随机人口预测, 一方面通过给出在未来某时刻发生某种人口状态的概率,来定量地评价未来某时刻实现作为基本国策的体现人口控制目标的可能性,为科学决策服务;另一方面,也介绍了LTC方法。

2.中国随机死亡预测主要结果

记 0 时刻为 1990 年年中, 中国随机死亡预测主要结果(李南、Tuljapurkar,1995)为:

m[,xt]=e([am[,x]+bm[,x]·k[,t]]) (1)

k[,t]=k[,t-1]-a+em[,t]

(2)

其中:

m[,xt]为t时刻x岁人口死亡率;

am[,x]和bm[,x]为模型值,具体值见表1;k[,0]=-3.0388,a=0.371

em[,t]~N(0,σ[2][,m]);E(em[,t],em[,s])=0,t≠S;σ[,m]=0.476

(3)

表1 中国生育与死亡预测参数

x am[,x]

bm[,x]af[x,]bf[,x]

0 -3.2792 0.0683 0.0000

0.0000

1 -5.3986 0.2131 0.0000

0.0000

5 -6.6260 0.1888 0.0000

0.0000

10-7.2312 0.0980 0.0000

0.0000

15-6.9351 0.0155 0.0213 -0.0442

20-6.5935 0.0175 0.2046 -0.1441

25-6.5300 0.0387 0.2111 -0.2505

30-6.3499 0.0422 0.1143 -0.3135

35-6.0715 0.0582 0.0650 -0.2631

40-5.7300 0.0556 0.0288 -0.1256

x am[,x]

bm[,x]af[x,]bf[,x]

45-5.3160 0.0458 0.0038 -0.0134

50-4.8539 0.0402 0.0000

0.0000

55-4.3877 0.0319 0.0000

0.0000

60-3.8680 0.0289 0.0000

0.0000

65-3.4222 0.0162 0.0000

0.0000

70-2.9167 0.0143 0.0000

0.0000

75-2.4737 0.0123 0.0000

0.0000

80-2.0082 0.0072 0.0000

0.0000

85-1.6173 0.0072 0.0000

0.0000

在上述预测下,中国人口的期望寿命的期望值将以递减的速度上升,在2050年达到76.7岁,而其95%的置信区间将逐渐扩大,到2050年为71.9岁至81.4岁。

3.中国生育预测主要结果

中国随机生育预测主要结果(李南、申卯兴,1996)为:

f[,xt]=af[,x]+bf[,x]·f[,t] (4)

f[,t]=c[,0]+c[,1]·f[,t-1]+ef[,t];

(5)

其中:

f[,xt]为t时刻中国x岁女性人口生育率;

f[,0]=0.175,c[,0]=0.02546,c[,1]=0.8826

ef[,t]~N(0,σ[2][,f]);E(ef[,t],ef[,s])=0,t≠S;σ[,f]=0.0489(6)

ef[,t]和em[,t]独立,af[,x]和bf[,x]的值见表1。

在上述预测下,中国人口的总和生育率在2050年达到2.0165,而其95%的置信区间将逐渐扩大,到2050年为1.31至3.1703。置信区间的这种不对称性是由于当f[,t] 的状态在偏离期望非常远时使某些年龄的按龄生育率为负造成的,这是由经典时间序列模型中的随机扰动为正态分布的假定引起的;这不仅是LTC方法, 也是一般地将经典时间序列模型用于逻辑上有界的变量时必然遇到和需要解决的问题,虽然它不对通常关心的期望附近的状态产生显著影响。

4.LTC方法简介

记t时刻Leslie阵为X[,1],则预测按龄人口向量N[,t]需计算X[,t]的连乘积M[,1]:

tt

M[,t]=∏X[,t]=∏(b[,i]+Z[,i]);E(Z[,i])=0 (7)

i=1 i=1

其中b[,i]描述生育与死亡预测中确定变化,而Z[,i]描述其中的随机扰动影响。

按LTC方法(Lee,Tuljapurkar,1991),当Z[,i]各元素的方差不大时,M[,t]可对随机扰动二阶近似为:

M[,t]≈a(t,1)+S[,1t]+S[,2t]

(8)

其中:

┌b[,t2]b[,t[,2]-1]…b[,t1],t[,2]>t[,1]

a(t[,2],t[,1])=│b[,t1], t[,2]=t[,1] (9)

└I,

t[,2]<t[,1]

t

S[,1t]= ∑ a(t,i+1)Z[,i]a(i-1,1)(10)

i=1

t-1 t-i

S[,2t]= ∑ ∑ a(t,i+j+1)Z[,i+j]a(i+j-1,i+1)Z[,i]a

i=1 j=1

(i-1,1) (11)

此时已可计算N[,t]及其比值(如总人口、老龄人口、 负担比等),定义选择向量u和w,则:

(u,N[,t])=[u,a(t,1)+S[,1t]+S[,2t]]·n[,0] (12)

E(u,N[,t])=[u,a(t,1)·n[,0]]+E(u,S[,2t]·n[,0] )

=(u,n[,t])+[u,E(S[,2t]·n[,0])](13)

Var(u,N[,t])=(uu)·E(S[,1t]S[,1t])·(n[,0]n[,0] )(14)

表示张量积或Kronecker积 (须田信英,1979)。而对于比值

注意到其中方差是正态随机变量的平方或积的期望,因而在t 时刻上述变量与比值的分布均可近似地视为正态分布,从而以期望为中心的某种程度的置信区间均可按正态分布计算。

以上就是有关LTC方法的主要结果, 剩下的只是根据生育与死亡预测的结果算出E(S[,2t])及E(S[,1t]S[,1t]),即由已知数据来实现方法。

5.LTC方法的实现

基于简单和平滑的原因, 随机死亡和生育预测是在简缩生命表和5岁组按龄生育率基础上进行的,因而人口预测将以5年的间隔进行。 这样,实现方法的主要问题在于给出5年5岁组按龄留存率和生育率的表达式。

由于S[,it](i=1,2)仅包含正态随机变量的i阶项, 所以上述表达式中仅包含正态随机变量的一阶项。

5.1 分年龄组留存率

记t时刻第x年龄组留存到下一时刻和年龄组的留存率为p[,xt],其

期望为E(p[,xt])=p[,xt]

其中x按顺序对应的年龄段为0~4岁、5~9岁,……。

5.1.1 分年龄组死亡率m[,xt]

记t时刻第x年龄组死亡率为m[,xt],其期望为E(m[,xt])=m[,xt],其中x按顺序对应的年龄段为0岁、1~4岁、5~9岁,……。 则由(1),(2):

其中,η[,t]为零均值正态变量。

5.1.2 分年龄组起始年龄人数l[,xt]

记t时刻生命表中第x年龄组起始年龄人为l[,xt],其期望为E(l[

,xt])=l[,xt],其中x按顺序对应的年龄段为0岁、1~4岁、5~9岁,……。则由(蒋正华,1984):

5.1.3 分年龄组平均人数L[,xt]

记t时刻生命表中第x年龄组平均人数为L[,xt],其期望为E(L[

,xt])=L[,xt],其中x按顺序对应的年龄段为0~4岁、5~9岁, ……,则由:

5.1.4 分年龄组留存率p[,xt]

记t时刻第x年龄组留存到下一时刻和年龄组的留存率为p[,xt],其

期望为E(p[,xt])=p[,xt],其中x按顺序对应的年龄段为0~4岁、 5~9岁,……,则由:

5.2 分年龄组生育率

记t时刻女性第x年龄组单年生育为f[,xt],其期望为E(f[,xt] )

=f[,xt],其中x按顺序对应的年龄段为0~4岁、5~9岁,……。则由(4),(5):

可见ζ[,t]是零均值正态分布变量且与η[,t]独立。

记t时刻第x年龄组5年生育率为F[,xt],其期望为E(F[,xt] )=

F[,xt],其中x按顺序对应的年龄段为0~4岁、5~9岁,……。则由:

F[,xt]=S·L[,1t][f[,xt]+p[,xt]f[,(x+1)t]]/2 (39)

有:F[,xt]=F[,xt]+δ[,xt]ζ[,t]+μ[,xt]η[,t]

(40)

(39)式中s为基准年女性人口与总人口之比, 这是因为死亡预测是对不分性别的人口进行的,因而是LTC 方法在应用中的有待改进之处。

5.3 构成Leslie阵X[,t]

X[,t]=B[,t]+C[,t]η[,t]+D[,t]ζ[,t]

=B[,t]+Z[,t] (41)

其中,B[,t]首行对应元素为F[,xt],下次对角线上对应元素为p[,xt],其他元素为零;C[,t]首先对应元素为μ[,xt], 下次对角线上对应元素为ν[,xt],其他元素为零;D[,t]首行对应元素为δ[,xt], 其他元素为零。

5.4 计算E(S[,2t])及E(S[,1t]S[,1t])

有了Z[,t]表达式(41)并注意到ζ[,t]与η[,t]独立后, 即可按(10)、(11)计算E(S[,2t])及E(S[,1t]S[,1t])

最后,由于预测按5年步长进行,而生育与死亡率应取为5年间隔中点的值,因而应将(2)与(5)中k[,0]与f[,0]改为按模型倒推2.5 年,即:

k[,0]=-2.1113,f[,0]=0.1595 (46)

6. 中国随机人口预测主要结果

这里,给出从1990年到2050年的总人口、老龄比(65岁及以上为老年)、负担比(15岁到64岁为工作年龄)及少年和老年负担比作为主要结果。其中的期望变化在正态分布的意义下也就是最可能的变化。在此意义下,中国人口总数将在2045年达到最大值15.9亿然后开始下降。其他细节见图1~5及表2。

图1 人口总数及95%置信区间预测(亿)

图2 老年比及95%置信区间预测

图3 负担比及95%置信区间预测

图4 老年负担比及95%置信区间预测

图5 少年负担比及95%置信区间预测

表2 中国人口总数的期望与95%置信区间预测亿

年份

区间下限 期望 区间上限

1995

11.6472 12.105912.5646

2000

11.9142 12.832413.7506

2005

12.0566 13.418814.7810

2010

12.1700 13.939415.7089

2015

12.2750 14.460116.6452

2020

12.2955 14.951317.6071

年份

区间下限 期望 区间上限

2025

12.1956 15.349318.5021

2030

11.9954 15.622719.2499

2035

11.7275 15.788319.8492

2040

11.4118 15.878320.3448

2045

11.0455 15.906920.7682

2050

10.6425 15.887321.1321

图中显示了变量的期望与95%置信区间的随时间变化的情况,其中负担比的95%置信区间在2025年后有随时间轻微减小现象,这是LTC 方法中忽略了随机变量的高阶项引起的。

表3 对联合国中国人口方案预测的评价

年份 亿方案(亿)高方案(亿) 处于高低方案

间的可能性(%)

1995 12.3196

12.4416 11.65

2000 12.9076

13.2710 26.28

2005 13.2516

13.9540 37.42

2010 13.5561

14.5617 42.13

2015 13.8443

15.1943 45.42

2020 14.0722

15.8389 48.60

2025 14.1707

16.4223 51.59

从预测结果不仅可得到变量在给定时刻的期望及其某种程度的置信区间,而且可得变量在给定时刻的分布,这就可对各种确定性人口方案预测的实现可能性进行定量的评价。例如,联合国(United Nations,1992)的中国人口“高低方案”预测和按随机预测的对处于高低方案间的可能性的评价见表3。其中短期的可能性较小是由与其1990 年基数与随机预测(11.30亿,国务院人口普查办公室,1993 )的不同, 为 11.54亿。此外,观察可能性的大小还应注意到方案的覆盖范围, 范围较小时可能性就较小;但是,如此范围包含了期望而且关于期望是对称的,那么它的可能性就是同大小范围中最大的,方案预测在2005年之后就接近这种情况。

* 本文受国家自然科学基金资助。

标签:;  ;  ;  

中国的随机人口预测*_置信区间论文
下载Doc文档

猜你喜欢