GDM模型及2000年中国人口生存函数预测,本文主要内容关键词为:年中论文,函数论文,国人论文,模型论文,GDM论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O212.3 文献标识码:A
一、引言
人口寿命研究一直是人口学发展中的重要课题,人口寿命数据的取得主要是通过人口普查和人口抽查,根据这些数据所制成的生命表能够提供一些我们所关心的信息,比如:死亡概率随着年龄的变化规律(通常是总整数年龄)和预期的平均寿命。然而,生命表提供的信息是比较粗糙的,它描述的仅是人口在各整数年龄的存活和死亡状况。为进行更广泛的应用,我们需要获得生存函数S(x),即寿命作为连续的随机变量x,S(x)表示存活时间大于x的概率,为x的连续函数。
人口生存函数具有特殊的形状,对它的描述是灵活多样的。在实际应用中,我们希望找到一种拟合方法,既准确又方便操作,同时又能为我们提供尽可能多的信息。在众多已经提出的函数形式中,由Maisano(1986,1990)提出的GDM(Generalized De Moivre)模型在一些实际应用中显示了非常出色的拟合结果,特别在实际操作中,GDM方法可以很方便的进行,不要求分析人员具有很强的人口学知识背景。另外,模型中的参数也可以从人口学的角度加以解释,这使我们能够较好地理解和应用模型。再者,由于模型中参数所体现的规律性,为预测未来一定时期的生存函数提供了可能。
在死亡率研究中,De Moivre提出了一种简单的线性生存函数模型:x
S(x)=1-─,0≤x≤w,其中了S(x)为x岁时的生存函数,w表示最高存活年w
这个模型主要的缺点是没有考虑到外部特定环境(经济的、医疗的、文化的等)对其生存机会的影响,便得模型过于僵化,与实际不符。为使模型更灵活,GDM即广义De Moivre模型采用函数f(x)代替了DeMoivre模型中的x,即:
f(x)
S(x)=1-─── (1)
w
f(x)=w(1-S(x)) (2)
经验的研究表明f(x)可以采用如下的形式
其中,a[,0],a[,1],…,a[,k]是GDM待估的参数。
用(3)代替(1)中的f(x),就得到
(4)可改写成:
S(x)
ln(─────)=g(x)=[a]0+a[,1]x+a[,2]x[2]+…+a[,k]x[k]
(5)
1-S(x)
这样,根据变形后的(5)式,对每一年的x,我们可以很方便地使用最小二乘法估计参数a[,0],a[,1],…,a[,k]。同时,尽管k的取值可以任意大,但研究表明k=5时,6个参数的GDM模型便于操作,且具有令人满意的精确度。
二、中国人口分布的GDM模型
我们对九年的全国人口普查及抽查数据进行了分析,包括1997年,1963年,1975年,1978年,1981年全国男(女)人口生命表(年龄间隔为5岁),以及1981年,1986年,1989年,1994年,1995年全国男(女)人口生命表(年龄间隔为1岁)。
各年男性GDM模型参数估计值如表1所示。
表1 各年男性参数的估计值
结果表明拟和效果非常好,图1给出了1986年经验S(x)与拟合S(x)的比较。另外,对其余各年以及女性的分析也有类似的结果。其中,经验S(x)为十万人生命表中的估计值,即S(x)=l[,x]/10万,l[,x]为10万人口在x岁时剩余人数。
结果表明,6个参数中有3个是正的(a[,0],a[,2],a[,4]),它们是使g(x)和S(x)增大的“正项因子”,余下的三个参数(a[,1],a[,3],a[,5])是负值,是使g(x)和S(x)减小的“负项因子”。因此,我们可以分别对这两种因子进行分析,现把g(x)分为两部分:g[,1](x)——正项因子;g[,2](x)——负项因子,即
g(x)=g[,1](x)+g[,2](x)=(a[,0]+a[,2]x[2]+a[,4]x[4])+(a[,1]x+a[,3]x[3]+a[,5]x[5])
为更好地分析各参数对生存函数的影响,我们可以考虑各参数对其所属因子的贡献率,即
a[,k]x[k]a[,k]x[k]
─────,k=0,2,4和
─────,k=1,3,5
g[,1](x) g[,2](x)
如图2、图3所示为1957年全国男性各正/负参数对g(x)的贡献率(对其它各年的研究也有类似的结果)。
从图中可以看出:(1)低阶的参数(a[,0],a[,1],a[,2],a[,3])对低龄的生存函数的影响较大,而高阶的参数(a[,4],a[,5])对高龄的生存函数的影响较大。
(2)a[,0](正)和a[,1]x(负)的贡献率集中在0~25(大致)岁时,即青少年时期;a[,2]x[2](正)的贡献率在25~50(大致)岁时较为突出;而高龄期的生存函数则更多的受a[,3]x[3](负)、a[,4]x[4](正)和a[,5]x[5](负)的影响。
另外,纵向比较各年参数贡献率的变化,可发现负参数贡献率变动比较平缓,而正参数贡献率变动较剧烈。其中,a[,0]和a[,4]贡献率随时间的增长而增大,而a[,0],a[,4]的主要贡献区分别在青少年和老年。我们猜想这是因为在这两个时期,个人的生存机会容易受到外部环境条件的影响,随着经济水平的提高,青少年和老年的生存函数会得到显著的提高。
三、不完全生命表的填补与2000年生命表的预测
(一)不完全生命表的填补
有时,我们无法取得某年的完全生命表数据,即各龄x的l[,x],x=0,1,2,…,而只能得到不完全生命表。如每5岁为一组的简明生命表,这就需要填补此不完全生命表而得到完整的S(x)曲线。此时,便可以利用已有的不完全数据来估计GDM模型中的6个参数a[,k](k=0,1,…,5),然后,把a[,k]代入GDM的函数表达式(4)中,便可得到完整的S(x)曲线。
例如,我们同时取得了1981年全国简明生命表和完全生命表,按上述方法利用在0,1,5,10,15,20,…,90岁时的l[,x]对简明生命表进行了填补,结果如图4所示。结果表明填补得到的S(x)的曲线与实际的S(x)曲线吻合得非常好。
(二)预测
GDM模型的一大优点是可以对未来某一年的生存函数进行预测,从而可以较好地预测我们关心的一些信息。对于短期预测而言,一种可行的方法是分别对GDM模型中的六个参数分别进行预测,把a[,k],k=0,1,2,…,5的估计值(由已有的若干年的生命表获得)作为因变量,相应的生命表所对应的年份(时间)作为自变量,建立简单的线性回归模型,从而获得未来某一年的生存函数中各参数的预测值,进而得到了对这一时间生存函数的预测。
具体地,我们利用1957年、1963年等共9年的全国男性生命表数据,按照上述方法对全国男性1998年的生存函数进行了预测,结果和实际的生存函数比较接近,如图5所示。另外,寿命的预测值69.4569岁和实际预测寿命69.66702岁也几乎相等。
最后,我们通过类似的步骤,对2000年我国男性、女性生存函数分别进行了预测。相应的生存函数图及各参数预测值分别如图6、表2所示,并计算得男女预期寿命分别为69.89岁和74.47岁。
表2