人口死亡力的因子分解及其模型,本文主要内容关键词为:因子论文,分解论文,模型论文,人口论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
人口死亡模型是对人口生命过程的数学描述,也是度量人口死亡风险的理论方法。每个生命体,都会经历从出生、成长、发育、成熟、衰老到死亡的过程。出生到死亡的过程,即生命的长度,通常用时间(年龄)为尺度来度量,譬如我们说某个人的寿命是65岁,即他的生命过程的时间长度是65年,所以用时间(年龄)来度量人口的死亡风险最为自然。这里,我们把以年龄为自变量作出的死亡模型称为人口死亡的直接度量模型。如大家熟知的麦克海姆—冈柏兹(Makaham—Gopertz)模型,海里格曼—卜拉特(Helligman—Pollard)死亡模型都属于这一类型。死亡的另一类模型不是直接用时间作变量,而是用另一个人口年龄的死亡风险作估计,即借用另一个人口的生命过程来描述和表示这一个人口的生命过程,这一类模型典型例子可举布拉思(W.Brass)的Logit体系模型。从模型形式上说,Logit 体系模型说明的是两个人口死亡风险的关系,在这里,一个人口的存活率用另一个人口的存活率函数来表示。当然,作为标准人口的存活率在生命表上还是时间(年龄)的函数。由于它不是直接用时间作尺度来度量,所以说它是间接度量模型。
还可以从其它角度对死亡模型进行分类。例如,从函数形式来说,麦克海姆—冈柏兹模型是连续函数,而海里格曼—卜拉特模型则是阶梯函数形式,模型生命表则是离散的列表函数形式。Logit 体系从形式上看似乎是具有连续函数形式的模型,但实际上,如果作为标准人口的存活率数据是以列表形式给出时,它也只能得到离散数据。另外,从死亡模型的适用范围来看,有仅适用于部分年龄区间的,也有适用于全年龄区间的。例如现在一般认为麦克海姆—冈柏兹模型只适用于人口的老年期,而韦伯(Weibull)分布模型适用于儿童少年期。 海里格曼—卜拉特模型适用于全年龄区间。Logit 体系也是作为全年龄区间模型提出的。
毋庸置言,一个直接用时间来度量,适用于全年龄区间,有连续函数形式的死亡风险模型,适用范围广,理论意义大,如果它再具有较简单的形式,使应用变得方便,就更为理想。
1.全年龄区间人口死亡的直接度量模型
通常我们说到人口死亡率按年龄变化的特点时,总把它简单形象地概括为“U”形(在较高的死亡力时)和“J”形(较低的死力时),这是因为按年龄死亡率的图形曲线有在开始时随年龄增大而下降,过一定年龄后(通常是10~15岁)又随年龄增大而上升。如果再细致地观察一下,还可以发现,年龄别死亡率曲线除了存在这种先下降、后上升变化的形状,在30岁左右的人口中还存在一个微“凸”的部分,即在此年龄附近死亡率变化还存在波动现象。
所谓构造人口死亡直接度量模型,实际上就是要寻找这样的函数:该函数以年龄为自变量,不同年龄的函数值同年龄别的死亡风险相一致。
目前应用较多的全年龄区间的人口死亡模型有以下几个:
(1)希莱(T.N Thile)模型,其函数形式为:
μ(x)=A[,1]exp(-B[,1]x)+(A[,2]exp(-0.5B[,2](x-C)[2])+A[,3]exp(B[,3]x)
因变量μ(x)为年龄x的死亡力,A[,1],A[,2],A[,3],B[,1],B[,2],B[,3]和C为参数。模型的第一项、 第二项和第三项分别与儿童少年期、青壮年期、老年期相对应。
此模型的构造显然借鉴了冈柏兹(B.Gompertz)模型的形式。冈柏兹模型的函数形式为:
μ(x)=A.exp(Bx)
在儿童少年期,人口死亡力随年龄增加而下降,所以B〈0,于是就成为希莱模型的第一项;在老年期,人口死亡力随年龄增加上升,B〉 0,于是就成为希莱模型第三项;对青壮年期的微“凸”部分, 就用第二项来表示。
(2)海里格曼—卜拉特模型,其函数形式为:
qx=exp(A(x+B)[c])+Dexp(-E(lnx-lnF)[2])+GH[x]/(1+GH[x])
模型的因变量qx是年龄别死亡概率,此模型的第一、第二、第三项也分别表示在儿童少年期、青壮年期和老年期的人口死亡。其中,A, B,C,D,E,F,G,H为参数。
(3)劳杰士—朴兰克(Rogers—Plank)模型,其函数形式为:
qx=A+Bexp(-Cx)+Dexp(—F(x—E))—exp(—G(x—E))+Hexp(Lx)
该模型的因变量也是年龄别死亡概率。模型也是三部分组成:第一、第二项对应于儿童少年期,第三项对应着青壮年期,第三项对应于老年期。而A,B,……H,L为参数。
在儿童少年期,该模型采用了麦克海姆—冈柏兹函数形式,而在老年期采用了冈柏兹函数。
上述三个模型的共同点都是着眼于局部。即在模型构造上都着力寻找和局部的死亡力的大小一致的函数。如希莱模型是寻找和年龄点死亡力一致的函数,而海里格曼—卜拉特模型与劳杰士—朴兰克模型着眼于和单岁组死亡率一致的函数。由于从全年龄区间看,在儿童少年期、青壮年期和老年期死亡力大小和形状不一致,所以它们也就相应地设计了三个不同函数。不同点是希莱模型是连续函数模型,而海里格曼—卜拉特模型与劳杰士—朴兰克模型都是阶梯函数模型。在儿童少年期,希莱模型和劳杰士—朴兰克模型分别采用了冈柏兹和麦海姆—冈柏兹模型。海里格曼—卜拉特模型和韦伯分布模型较为接近。笔者曾验证过,在大多数情况下,在儿童少年期,以韦伯分布作模型要比冈柏兹或麦克海姆—冈柏兹模型的模型精度要高(黄荣清,1986)。所以可以认为,在儿童少年期,海里格曼—卜拉特模型要比希莱模型和劳杰士—朴兰克模型要好一些。在老年期,当x→∞时,u→∞,q(x)→1。从形式上说, 希莱模型和海里格曼—卜拉特模型要比劳杰士—朴兰克模型更为合理,劳杰士—朴兰克模型在x趋于无穷大时,q(x)也趋向于无穷大。
(3)在死亡力较高的情况下,这三个模型的精度都不高。
2.人口死亡力的因子分解模型
在本文模型提出之前,先介绍一下笔者对人口死亡模型构造的设想。
度量人口死亡风险的指标有许多,如粗死亡率、校正死亡率、死亡力、平均期望寿命以及生命表上的各列函数等等。从众多的指标中选出哪一个来作为模型函数的变量是首先要考虑的,而且是至关重要的。一些指标因为容易受到和死亡风险无关因素的影响,如粗死亡率要受人口年龄结构的影响,明显地不适合作为模型函数的变量,但即使那些完全只和死亡有关的指标,也并不是个个适宜作死亡模型的函数变量。笔者认为,从实际应用上说,若将那些数据质量要求较高,实际统计中难以得到,又与其它死亡指标的联系比较复杂,不能通过简单的数学关系表示出其它指标的死亡指标用来作模型函数的变量就不太好。如上述的年龄别死亡概率,它要求有单岁年龄别死亡概率的观测数据来支持,在研究历史人口时这是很难做到的。即使是现实人口,在当前许多发展中国家,单岁年龄别死亡概率的数据也很难得到,即使有,质量也难以保证。而它与其它死亡指标,例如一些最常用的从出生到某一年龄的存活概率、平均期望寿命等指标的联系与变换也很复杂,这就大大影响了模型的应用范围。正因为如此,这些模型除了对死亡概率本身作理论分析和用来对死亡数据作修匀外,在人口分析的其它方面应用就很有限,不如间接模型应用广泛。笔者在设计死亡模型时,考虑了上述模型存在的问题,首先在选择模型函数时作了重大的变动,下面先来看一下本文死亡模型函数的变量。
设从出生到x年龄点的存活概率为l(x)(l(0)=1),在x 年龄点的死亡力为λ(x),有
l(x)=exp∫λ(y)dy记 ∧(x)=∫λ(Y)dy
∧(x)为死亡力λ(x)从出生到x岁的积分, 或者说是从出生到x岁的累积死亡力,在不易混淆的场合,有时也简称为死亡力。 本文就是把累积死亡力作为死亡模型函数的因变量。由 l(x)=exp(-∧(x))
∧(x)=ln(l/l(x))
∧(x+n)-∧(x)=ln(l/l(x+n))-ln(l/l(x))=ln(nPx) e[,x]=∫l(x)dx=∫exp(-∧(x))dx
由于累积死亡力和存活概率、死亡概率、期望寿命有如此简单的关系,并且它的数据支持又不限于单岁或某一固定年龄组,读者可以想象这会给应用带来多少方便。
研究结果表明,当死亡力下降到一定程度时,在儿童少年期,存活概率l(x)与韦伯分布函数很接近(黄荣清,1998),所以累积死亡力用
∧[,1](x)=A·x[B](A〉0,1〉B〉0(1)
λ[,1]=ABX[B-1] (2)
这一时期的死亡力是随年龄增长而减小的函数。
在老年期,死亡力是随年龄增长而增大的,一般认为死亡力服从冈柏兹模型,即
λ[,2](x)=CKexp(DX)(C〉0,D〉0)
(3)
累积死亡力 ∧[,2](x)=∫λ[,2](y)dy=C(exp(DX)-1)(4)
上面的死亡模型分别是人口的不同年龄期的模型。如果我们设想随年龄增长而减小和随年龄增长而增大的两个不同质的死亡力同时向年龄两端延伸,即人从出生开始到他死亡为止始终同时受到两个不同质的死亡力的作用,每一年龄的死亡力是这两种死亡力共同作用的结果,则有:
模型1的基本部分:全年龄区间的死亡力可认为是(2)式和(4 )式的和
∧[,0](x)=∧[,1](x)+∧[,2](x)=AX[B]+C( exp(DX)-l)
(5)
λ[,0](x)=λ[,1](x)+λ[,2](x) (6)
(5)式表示从出生到x岁的累积死亡力是由年龄为自变量的幂函数、指数函数和常数三者之和,是有4个不同参数的死亡模型。 用不同人口的生命表数据对(5)式进行拟合, 实际数据与拟合结果是基本一致的(见表1、图1、图5、图6),这可以认为上面的设想是成立的。
表1 模式一的基本部分对美国数据拟合的结果
年份
AB1000C
1990 男0.1759
0.2231 3.5016
女0.1420
0.2593 2.4987
1910 男0.1423
0.2084 3.7385
女0.1152
0.2372 1.9508
1920 男0.1006
0.2481 2.0580
女0.0786
0.3189 0.5524
1930 男0.0755
0.2009 3.2675
女0.0597
0.2409 1.7571
1940 男0.0604
0.1438 2.5554
女0.0468
0.1968 0.8843
1950 男0.0364
0.0784 2.5548
女0.0280
0.1555 0.5809
1960 男0.0300
0.0732 2.1157
女0.0229
0.1403 0.3850
1964 男0.0273
0.0516 2.4983
女0.0212
0,1284 0.4937
年份 10D 1000△ 期望寿命
1990 男0.0777
19.11
45.65
女0.0805
19.52
48.35
1910 男0.0769
15.76
49.49
女0.0831
13.20
53.13
1920 男0.0830
14.49
54.01
女0.0992
39.82
55.92
1930 男0.07769.05
57.58
女0.0830
10.60
61.01
1940 男0.08056.19
61.02
女0.09038.57
65.43
1950 男0.07892.28
65.46
女0.09254.63
71.03
1960 男0.08093.89
66.65
女0.09595.38
73.26
1964 男0.07865.11
66.90
女0.09224.66
73.78
上面我们是设想人从出生开始就同时受到了随龄增长减小和增大的两个不同方向的死亡力的共同作用,其和的形式表明这两个不同方向的力是同时独立,平行地对人发生作用,由(6)式可以知道, 在每个年龄点的死亡力,仅和这两个不同方向的死亡力在这年龄点的值有关,和它前面的情况无关。
若我们换个假设,假设两个不同方向的力不是相互独立的,而是相互影响的,在各个年龄的死亡力和它前面年龄的死亡力情况有关,把两个不同方向的累积死亡力写成相乘的形式,有:
M[,0](x)=M[,1](x)M[,2](x)=Ax[b]exp(Cx(1-exp(-Dx[E]))(7)
这里,M[,1](x)=Ax[B],M[,2](x)=exp(Cx( 1- exp (-Dx[E]))
对(7)式两边求微分:
μ[,0](x)=μ[,1](x)+μ[,2](x)M[,1](x) (8)
μ[,1](x)/M[,1](x)=ABx[B-1]
μ[,2]/M[,2](x)=C(1+Dx[E]exp(-Dx[E]))
与基本模型1 不同的是这里假定:全年龄的累积死亡力为两个不同方向的累积死亡力的积,每一年龄点的相对死亡力(即这一年龄的死亡力与它的累积死亡力之比)为两个不同方向的相对死亡力的和。
与模型1相比较可以知道,M[,1](x)=∧[,1](x),μ[,1] (x)=λ[,1](x),而M[,2](x)≠∧[,2](x),μ[,2](x)≠λ[,2](x),但可以证明无论是λ[,2](x)还是μ[,2](x),它们同它们的累积死亡力∧[,2](x)和M[,2](x)之比, 当年龄不断增大时都趋于一个常数。对(7)式两边求对数,得到模型2的基本部分,全年龄区间的累积死亡力的对数为:
lnM[,0](x)=lnA+blnx+Cx(1-exp(-Dx[E])) (9)
(9)式是一个有5个参数的全年龄区间的人口累积死亡力模型。它也可称为死亡力的对数模型,把(9 )式模型用于拟合实际人口的观察数据,也可以得到很好的结果(见表2、图2~图4)。
表2 模式二的基本部分对美国数据拟合的结果
年份 A BC
1900 男 -1.7368 0.2070 0.8986
女 -1.9504 0.2347 0.9888
1910 男 -1.9476 0.1878 0.9160
女 -2.1645 0.2149 0.9925
1920 男 -2.3277 0.2239 0.9919
女 -2.5763 0.2504 0.9940
1930 男 -2.5890 0.1635 0.9863
女 -2.8482 0.1999 0.9930
1940 男 -2.8028 0.1100 0.0887
女 -3.0773 0.1330 0.9976
1950 男 -3.3163 0.1055 0.0556
女 -3.5739 0.0988 0.0881
1960 男 -3.5401 0.1333 0.0514
女 -3.7757 0.0956 0.0816
1964 男 -3.6294 0.1302 0.0517
女 -3.8494 0.0910 0.0739
年份100D
E 1000△
1900 男 0.0458
1.8777 22.36
女 0.0444
1.8441 27.10
1910 男 0.0813
1.6604 18.62
女 0.0469
1.8732 22.80
1920 男 0.0745
1.6905 29.76
女 0.1225
1.4621 44.04
1930 男 0.2291
1.2618 12.29
女 0.1653
1.4004 25.90
1940 男 2.5189
1.4494 9.22
女 0.1981
1.3842 14.72
1950 男 3.1364
1.7879 20.03
女 1.8249
1.6704 4.86
1960 男 1.9366
2.1309 26.85
女 1.4589
1.8448 6.57
1964 男 2.6281
2.0063 30.05
女 1.9498
1.7839 5.71
注:这里用的模型函数式为1nM[,0](x)=1nA+blnx+Cx(1 -exp(-D(0.1x)[E]))
现在我们来看一下两个模型值与观测数据的差的分布。
设实际生命表得到的数据为Y(x),共有N个,不管是(5)式表示
模型还是(9)式模型,模型的拟合值为Y(x),模型值与观测数据的差为:
R(x)=Y(x)-Y(x)
我们把它称为模型的余项。
在(5)式模型形式的场合,由于:
│∧(x)-∧(x)│=│ln(l(x)/l(x)│≈│l(x)/l(x)-1
说明余项的绝对值约等于存活率模型值与观测值的相对误差。
在(9)式模型形式的场合,由于:
lnM(x)-lnM(x)│=│ln(M(x)/M(x))│≈│M(x)/M(x)
即余项的绝对值约等于累积死亡力模型值与观测值的相对误差。模型余项的绝对值的平均值,即两个模型的误差,∑│R(x)│/N, 在模型1的场合下,当期望寿命在60岁以上时(见表1),一般都可控制在1 %以下,换句话说模型的精确度可达99%以上;在模型2的场合, 一般都可控制在5%以下(见表2),由于累积死亡力的绝对值比较小,若以存活率来衡量,它实际上已有较高的精确度。
在大多数国家,早期的人口统计,实际上都是有相当误差的。即使是现在,尤其在发展中国家,关于年龄的死亡的统计误差还是很大。以中国为例,中国人口普查的质量是世所公认的,但根据事后更周密的卫生抽样调查对比知道,1982年中国人口普查中的死亡调查项目,城市相对误差达5%左右,农村则达10%以上(周有尚等,1989)。 而两个模型与观测值的相对误差都可控制在5%以下, 则可以认为模型有较高的精度。
通过对余项数据的观测并改进模型,我们还可进一步提高死亡力模型的精度。
观察图1可以发现,尽管我们选择的观察人口的性别不同, 死亡水平相异,人口的地区和年代也不同,但余项R(x)图形的形状是大致相同的:在全年龄区间,它与X轴有若干个交点,我们把这些点,即有R(x)=0的年龄点称作死亡力的平衡点年龄(简称平衡点),把X 轴称作平衡轴,把剩余R(x)到X轴的距离称作波动幅度。在平衡点年龄上,累积死亡力完全由表示下降的和表示为上升的两种类型的死亡力的累积值所决定,在每一段(两个平衡点之间)R(x)保持相同的符号,波动幅度的变化都是先从R(x)=0开始上升, 达最大值后下降到下一个平衡点。我们把这种离开平衡点高低起伏的现象称作人口死亡力随年龄变化的波动现象。
值得注意的是,对于一个地区或国家的人口,这些平衡点在较长时期内是非常接近的,波动的方向也是一致的,它的波动幅度随死亡力下降而下降。余项分布的这种有规则波动现象表明:模型和观测数据的差异并不都是由于数据的随机误差。虽然模型已经在很大程度上反映了死亡力的年龄变化信息,但尚有一部分未被充分表示出来,补上死亡力的波动部分,我们就可进一步提高模型精度。
设死亡力非波动部分,即上面提出模型的基本部分为Y[,0](x),余项或波动部分为R(x),为模型的补充部分。完全的死亡力模型为这两者之和,可写成:
Y(x)=Y[,0](x)+R(x) (10)
则模型1的基本部分加上补充部分,我们称模型1或累积死亡力模型,模型2的基本部分加上补充部分,我们称为模型2或累积死亡力的对数模型。
补充波动部分有两种基本方法:补充被动部分的一种方法是通过调整模型的基本部分,消除波动现象,然后寻找新的函数把余下的部分补充上,其想法是这样的:
观测各个模型余项图形,我们也可以不把它看成是周期波动,而是看成主要是由一个或两个“凸起”部分组成的,通过调整“基础”,使实际值和模式基本部分的差大于0, 再找出其图形和这凸起部分类似形状的函数,这可组成完全的死亡力模型。
在死亡力较高的情况下,一般有两个凸形:第一个凸形在0~15岁,峰顶在5岁左右;第二个凸形在15岁以后。当死亡力下降时, 第一个凸形逐渐萎缩最后消失。
要找到一个图形能和两座“山峰”相一致的函数是困难的,我们可用两个函数之和组成,例如:
R(x)=Fexp(-0.5(lnx-ln5)[2])+G(x-15)[H-l]exp( -l(x-15)[H])
(11)
(11)式的第二项x〈15时,它的值为0,当死亡力下降时,F→0,第一项各年龄值趋于0。
需要说明的是类似这两座“山峰”图形的函数有许多,不同的人口,同一人口在不同时期,它的死亡水平和类型在变动,所以和这“山峰”图形最一致的最佳函数可能会变化,所以这里选择的函数对某些人口可能并不一定是最佳的。好在只要是“两头小,中间大”形状的函数,总能使模型的精度有所提高。
上面设计模型函数的方法其实是和本文中在节一提到的模型设计是一样的,节一中的几个模型中表示成人的死亡部分,即是式(10)中的R(x)。不过这些模型的提出者似乎认为,只要在成人部分修正补充即可。因而当死亡力处于较高的状态下,这些模型在儿童期的精确度不高。
上述方法的优点是模型所用的参数比较少,模型1 需要的参数一般为7、8个,模型2所需的参数一般为8、9个,但为了决定模型R(x )部分中的参数,需改变模型基本部分中的参数,其结果模型中的基本部分就失去了原来的意义。由于这种方法和过去的模型相比,在方法上没有特殊的差别,这里就不详加讨论了。本文特别地提出以下的方法。
这一种方法的特点是把余项函数R(x),即死亡力的波动部分设计成周期函数的形式,在决定余项R(x)的参数时,不改变或只略加改动模型的基本部分中的参数,而是对各年龄点死亡力的观测数据与模型基本部分的差进行直接拟合,具体作法如下:
设观测数据与模型基本部分的值相等的一些年龄点为x[,0],x[,1],……,x[,n](x[,0]=0)在相邻的两点(x[,t],x[,t+1])区间内,
R(x)=(-1)[k]F(x)sin(π(x-x[,j])/t[,j]),x[,j]〈x〈x[,j+1],t[,j]=x[,j+1]-x[,j]
(12)
在每一个区间(x[,j],x[,j+1])内,R(x)或者大于0, 或者小于0,但总是保持相同的符号,当第一个区间(x[,0],x[,1])内R(x )〉0时,取K=0,否则取K=1,这样就有F(x)〉0。
理论上,当x=0时R(0)=0,所以可取F(0)=0;当x→∞时R(x)→0,F(x)→0,或者我们可假定当超过某一年龄点时,即x〉x[,n]时R(x)≡0
对F(x)我们也可选择一个“两头低,中间高”的函数,或者简单地就取多项式函数
F(x)=x(a[,0]+a[,1]x+a[,2]x[2]+a[,2]x[3] (13)
用(13)的函数对观测值和模型基本部分间的剩余部分进行拟合,可以得到很好的结果(见图3~6、表3、表4)。
与方法一相比,在方法二中参数是分两步来决定的:第一步,用模型的基本部分的函数对观测数据进行拟合;第二步, 用剩余函数R (x)再对观测值和模型基本部分间的剩余部分进行拟合。由于第二次拟合的结果对第一次的结果没有影响,所以每一次拟合都只对少数的几个参数进行,比较容易计算;而在方法一中,由于模型的基本部分和剩余部分相互影响,所以必须一次就决定模型的全部参数,由于死亡力模型是一个带限制条件非线性的函数形式,熟悉这一问题的人都知道,解一个多参数的非线性规划问题是很麻烦的。
图1 模型1的基本部分对实际数据的拟合
图2 模型2基本部分对数据的拟合
图3 模型2对实际数据的拟合
图4 模型2对实际数据的拟合
图5 模型1对实际数据的拟合
图6 模型1对实际数据的拟合
图7 模型2对实际数据的拟合
图8 模型2对实际数据的拟合
注1:图1~图4的年龄间隔为5岁,图5~图6的年龄间隔20岁以前为1岁,20岁以后为5岁;图7~图8的年龄间隔为1岁,
注2:图中的“x”或“□”等记号表示死亡力的观察数据,光滑曲线为模型基本部分的拟合曲线(图1~图8)。波动部分的“x ”或“□”表示死亡力观测数据与模型基本部分的差(乘10倍),连接波动部分这些点的记号的光滑曲线为波动部分的拟合曲线(图3~图8), 在图7和图8中,几乎是在x轴上的点为模型值(基本部分+波动部分)与实际值的误差分布(乘10倍)。
从结果上说,方法二能明确划分出在各年龄点时,哪些是死亡力的基本部分,哪些是死亡力的波动部分,哪些是死亡力的随机误差部分,这在死亡力分析中是非常有用的;而方法一在最后的结果中已很难区分出死亡力的基本部分和波动部分。
方法二的缺点是模型中所需的参数太多。在方法二中,F(x)所需的参数与方法一中R(x)所需的参数个数差不多,但它还要知道模型基本部分等于观测值的年龄点,这些年龄点一般有4、5个,这样,全部参数的个数要多增加4、5个。但好在当我们对一个实际人口进行研究时,当它的模式的基本部分的参数被确定时,这些平衡点也就随之确定,所以它的模型参数虽多,但并不会给计算带来多少麻烦。另外,对于一个地区或国家的人口,这些平衡点常常是相对稳定的。而这些平衡点的位置,波动的大小和方向以及它的变动,正反映了不同人口的死亡模式的差别以及同一人口经过长期的变动后,它的死亡模式变化。
对死亡力模型还要补充以下几点说明:
(1)当相邻的两个波动区间长度比较接近时(这在模型2中比较常见),即t[,1]≈t[,2],t[,2]≈t[,3]时,则剩余部分可用周期函数形式来表示。设它的三个周期长度为T[,1](T[,1]=t[,1]+t[,2]), T[,2](T[,2]=t[,3]+t[,4]),T[,3],各周期的振幅函数为F(x),剩余函数的形式为:
R(x)=F(x)sin(x,T)=F(x)sin(2π(x-Σ T)/T[,j](j=1,2,3)
有时,我们可以预先规定波动区间或周期长度, 用死亡力函数(10)直接对观测数据进行拟合,常常也能得到好的结果(见图7和图8 ),这个性质在构造模型生命表时是有用的。
(2)由于累积死亡力总是随年龄增加而增加的, 所以死亡力的模型函数应该是上升函数,对于模型函数的基本部分,模型函数就是上升函数,决定模型函数的参数,从数学上说只是非线性函数的拟合问题。但当加上波动部分时,由于波动函数时而上升时而下降,要保持模型函数上升,则参数的选择必需限制在一定范围内,这样模型参数的选择就成了解非线性规划问题。
(3)两种不同形式的死亡力模型,根据人口分析的需要, 可以用在不同场合。
(4)模型2中的因变量如果不用累积死亡力的对数形式,而直接用累积死亡力的形式,则它表示人口的累积死亡力是以下四个因子的乘积:①随年龄增加而下降的死亡力的累积;②随年龄增加而上升的死亡力的累积;③在一定年龄范围呈有规则的波动因素;④死亡率的随机误差。换句话说,死亡力可以分解为上述4个因子。类似模型1也可不表示为死亡力和的形式,把因变量换成生存率,则生存率可表示为4 个因子的乘积或者说生存率可分解为4个因子。由此, 笔者把本文的死亡力模型称为死亡力的因子分解模型。
作为例子,笔者选用一个高死亡力的生命表(智利,1909年,期望寿命低于30岁)和一个低死亡力的例子(日本女性,1990年,期望寿命高于80岁),这是两个极端的情况,用以往的模型来拟合,其精度都不够理想,本文分别用模型1和模型2对它们拟合,其结果都是令人满意的(见表3、表 4)。
3.死亡现象的模型解释
利用本文建立的死亡力模型,可以对死亡力的观测数据进行解释,并由此提高我们对人口死亡规律的认识。
我们说,人口死亡,即一个人生命的结束,正如生命的出现一样,是一种生物生命现象。决定生命现象过程当然有生物因素起作用,例如衰老就是其中之一。由于衰老,导致细胞老化、组织老化、机能失调,最后导致死亡。衰老是任何一个生命体必然要经历的,所以说它是生物因素。但人口死亡,并不完全是由于衰老引起的,并且,即使衰老,也有为什么一部分人衰老得快,另一部分人衰老得慢的问题,仅靠生物因素是无法解释的,而必须用生物—社会—心理等因素共同来说明。所以当前对人类健康的研究,人们已从传统的生物模式转变为生物—社会—心理模式。
表3 模型2对实际生命表的拟合
(智利,1909年)
年龄(岁) 男 性 女 性
1 67 66067 568
71 003
70 920
264 59867 754
362 55265 602
460 95063 939
5 59 41159 70362 309 62 659
658 80261 738
758 23161 149
857 94160 833
957 84760 697
10 57 50757 403 60 343 60 153
11
57 09759 818
12
56 80459 500
13
56 49859 175
14
56 16058 824
15 55 89455 772 58 48858 432
16
55 32057 986
17
54 79557 478
18
54 19256 903
19
53 51156 261
20 52 59252 753 55 44855 553
21
51 92454 786
22
51 03453 966
23
50 09453 103
24
49 11552 208
25 47 97148 112 51 21951 292
26
47 09750 365
27
46 08549 440
28
45 26648 692
29
44 40447 897
30 43 23443 594 46 72047 107
31
42 70246 323
32
41 86545 544
33
41 03644 770
34
40 21544 002
35 39 29939 403 43 40843 238
36
38 59842 478
37
37 79941 721
38
37 00540 965
39
36 21640 210
40 35 37435 430 39 36339 455
41
34 64638 701
42
33 86437 946
43
33 08437 191
44
32 30636 437
年龄(岁) 男
性 女性
45 31 525
31 52935 651
35 683
46
30 756 34 932
47
29 985 34 183
48
29 219 33 439
49
28 459 32 701
50 27 752
27 706 31 984 31 970
51
26 961 31 248
52
26 225 30 536
53
25 500 29 834
54
24 785 29 143
55 24 273
24 082 28 539 28 464
56
23 391 27 795
57
22 712 27 075
58
21 891 26 416
59
21 301 25 712
60 20 392
20 601 24 953 25 005
61
19 899 24 290
62
19 193 23 563
63
18 480 22 821
64
17 757 22 060
65 16 988
17 023 21 234 21 278
66
16 277 20 475
67
15 520 19 650
68
14 755 18 807
69
13 983 17 948
70 13 305
13 208 17 078 17 076
71
12 435 16 198
72
11 668 15 318
73
10 913 14 442
74
10 173 13 576
75
9 2339 454
12 44912 726
768 759 11 896
778 091 11 090
786 936 9 632
796 441 9 029
80
5 9605 961 8 4378 438
815 499 7 860
825 052 7 296
834 624 6 747
844 215 6 216
85
3 7053 826 5 4545 703
902 200 3 478
951 115 1 880
100 486879
表4 模型1对1990年日本女性实际生命表的拟合
年龄 实际值
拟合值年龄 实际值拟合值
(岁)
(岁)
1 42
40
1876 75
2 48
49
1979 78
3 52
55
2082 81
4 55
58
2597 98
5 57
61
30115
117
6 59
62
35138
140
7 60
63
40172
172
8 62
64
45226
225
9 63
64
50308
308
10 64
64
55433
434
11 65
65
60620
620
12 66
66
65908
906
13 67
66
70 1 383 1 384
14 69
68
75 2 250 2 249
15 70
69
80 3 889 4 003
16 71
71
85 7 188 7 266
17 74
73
90 13 36913 304
注:表中的实际值指由原生命表算出-lnl(x)(-10[5](lnl(x),1(0)=1)的值模型参数如下:
基本部分:A=0.0043,B=0.3615,C=0.8155×10[-3], D =1.2607
波动部分:t[,1]=43.10,t[,2]=77.85,t[,3]=88.50
A[,1]=0.089,A[,2]=-0.479,A[,3]=0.929,A[,4]=-0.507
生命过程用时间(寿命)的形式来表示。我们已经知道生命是由生物—社会—心理因素来决定的,但这还不够,我们必须进一步确定这些因素是如何影响以及影响的程度。
从现象上说,当每一个人生命结束的同时,我们也就确定了他(她)的死亡年龄和死亡原因。但导致人的死亡的原因太复杂,据说疾病和死亡原因多达数千种。即使仅按世界卫生组织第九次修订的疾病和死亡原因的大分类,还有十七类和两个补充分类共十九类之多。要找到和每个具体的死亡原因一一相对应并相互联系的规律并作出其数学模型是很困难的,所以通常说的死亡模型,都是把全部死因抽象为几种类型,并阐述它的年龄变化规律。
本文的模型显示,虽然各种生物—社会—心理因素对生命的影响非常复杂,但概括起来,都可以归纳为和生命历程——年龄无关(例如由于天灾人祸导致人的意外死亡,在本文的模型中以随机误差来表示)和生命历程——年龄有关(例如衰老)两大类。而在和时间有关的一类中,又可以分为两类,即模型中的基本部分和波动部分,每一个人口的死亡力的大小,基本上由它的基本部分所规定。而在基本部分中,又把它简单地分为既有随年龄对死亡力的影响程度逐渐缩小和影响程度逐渐加强的两种形态。正是在这些不同类型死亡力的共同作用下,决定了人口死亡的历程。结合本文的死亡模型可以用生物—社会—心理因素对人口死亡的一些现象作很好的解释。
我们都知道,随着社会经济的发展,平均预期寿命不断提高,死亡力不断下降,年龄别死亡率减小。由上一节结果知道,死亡力的基本部分对死亡力的影响所占的比重越来越大,死亡力的波动部分和随机部分对死亡力的影响所占的比重越来越小,在同一死亡力水平,不同类型的差别也越来越小。这说明,由于社会经济的发展,过去非人类能力所能控制的外在的死亡影响因素(如自然灾害、孕产妇死亡)越来越小,人在不同年龄期所特有的内在的死亡力影响因素越来越大。换句话说,社会经济发展的结果,人类面临的死亡威胁,越来越同质化,这是由于人类社会的工业化、城市化使不同地区的人的生活方式越来越接近,人口的死亡以及它所能下降到的界限,越来越受决定死亡力的自身决定因素(生物因素)和改变它的能力(社会经济发展和科技发展水平)所决定。因此可以把模型中死亡力的基本部分看成生物—社会—心理因素在各年龄对人死亡的平均作用力,而把模型中的波动部分看成生物—社会—心理因素在各年龄对人死亡的附加作用力(可正可负)。
可以说,死亡的年龄波动是反映死亡力类型和水平差别的特征之一。这里结合1982年中国人口普查的数据,用生物—社会—心理因素对中国的人口死亡现象作一些解释。
人口死亡研究的是群体现象,不是个体现象。所以这里说的心理因素不是通常所理解的个人心理,而是社会心理。相同年龄的人因为有共同的社会经历,所以可以看成一个特殊的社会群体,因而有他们的共同心理。
死亡的波动周期和波形可以用人生在社会中的生命周期来解释(见图7和图8)。人在儿童期,一方面,在出生成长过程中由于逐渐地适应外界环境和获得了对疾病的免疫力,因而使死亡力有了下降。另一方面,在少儿期(4~6岁),由于身心尚未成熟,自立能力较差,尚需要照顾,但往往随着它的成长,得到的照顾也越来越少,特别是在多子女的家庭和经济条件比较困难的家庭,所以有一个死亡风险为正的附加因子在作用(总的死亡风险是减小的),到6岁,身心开始成熟, 波动因子开始下降。在少年期,基本上是无忧无虑,所以波动因子保持下降,过了12岁(约是小学毕业),开始有社会压力,波动因子回升。但到20岁以前,波动因子还是负值。即波动产生的死亡风险还是小于基本风险。人从20岁后开始进入社会,到35岁这段时期在一生之间社会压力最大。这时,有升学落榜、就业不理想、求偶挫折、职务变迁等一系列对人心理产生压力的因素,而长期的紧张,苦闷,压抑,据现代医学的研究,会导致人体的免疫能力的下降,即这些因素造成人的心理压力能导致死亡风险增大,所以波动因子为正。在35~50岁,生活转入稳定,这时波动因子减小,直至到负值。但到50岁以后,又开始上升,这种状况在退休前后能继续许多年,直到他习惯于退休生活后,波动因子才又开始回落。总之,本文模型中,死亡的波动因子表明,在人生每一次重要转折时期,心理压力减小,死亡风险因子就可能稳定或变小。虽然这些波动因子对总的死亡力影响所占的比重并不很大,但它是确实存在的,且不同人口群体的波动周期与振幅是不同的,这是它们所受到的社会及心理压力不同所致。
过去,人们在解释人到中年期死亡力相对升高的原因时,一般归结为由于交通事故造成的死亡和产妇死亡。从统计上说,上述的解释是不充分的。在现代社会,产妇死亡率已经降到微乎其微,交通事故造成的死亡在全部死亡中也不是想象的那么大,但死亡在中年期的波动还存在。笔者认为,只有联系到人到中年所处的社会地位以及由此对他们造成的心理压力,也即用现代的生物—社会—心理模式来解释才更合理一些。
4.人口死亡的直接度量与间接度量模型的相互联系
累积死亡力模型在人口分析上应用很广,例如表3 中用模型对简略生命表插值成完全生命表就是一例。这里再举一个例子,阐明人口死亡的直接度量模型与间接度量模型的相互联系。
到目前为止,直接用时间(年龄)为尺度来度量人口的死亡风险模型与以布拉思的Logit体系模型为代表, 借助于另一个人口的死亡力来度量的间接度量模型之间没有建立过共同联系,现有的两类模型的数学函数形式也很难建立起这样的联系来。
从本质上说,都以反映人这一群体的消失过程为目标的两类模型,两者之间并没有根本区别,所谓直接和间接不过是在度量这个过程时用的比较参照系不同罢了。通常说的时间尺度是以地球围绕太阳、月亮围绕地球运动一周为参照,而间接度量模型,则是以另一个人口的消失过程为参照。每一个人的消失过程,有其固有的规律,不会因为我们用不同的参照系去比较而发生变化,但如果两种模型都真正反映了人口的死亡规律,它们应该是一致的,必然有内在联系。以下我们来看一下它们的相互关系。