1995年中国不同地区死亡率的测定:一种新的人口抽样死亡率估算方法_死亡率论文

1995年中国不同地区死亡水平的测定——人口抽样死亡率估计的新方法,本文主要内容关键词为:死亡率论文,年中论文,新方法论文,人口论文,水平论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

测定一个人口死亡力的基础数据是一组全部年龄的死亡率,但要获得这一组数据却并不容易。在发达国家,由于建立了较完备的人口登记与统计制度,完整的人口死亡资料可通过登记制度获得。许多发展中国家由于人口统计制度存在缺陷,往往无法直接从经常性的人口登记中获得可靠的资料,由于这个原因,就只能依靠人口普查或人口抽样调查来取得。人口普查自不用说,由于是对全人口的调查,只要在调查中有人口死亡的项目,由普查的人口和死亡人口的调查结果,就可算出其相应的性别—年龄死亡率来。相比之下,处理人口抽样调查的资料却不那么简单,这是由于各种人口抽样调查的抽样方式不同,样本规模不同,死亡率的估计方法不同,其结果也不会相同。以传统的比例估计方法,即使以中国1995年1%人口抽样调查那样大的样本规模, 也得不到一个稳定变化的性别—年龄死亡率来。死亡率的性别—年龄呈无规则波动,使我们无法确定死亡水平,难以认清死亡力变化规律,从而使抽样结果无法充分利用。本文提出的用决定论中的贝叶斯方法来估计死亡率,较好地解决了这一问题。

1.死亡率的比例估计方法

死亡率被定义为同一年龄区间的死亡人口与平均人口之比。设由人口抽样调查得到在(x,x+n)区间内,人口数为nPx, 死亡人口数为nDx,样本死亡率nMx=nDx/nPx,并以它作为总体死亡率的估计。以下为了书写简单,把nPx,nMx中的下标省略。

以样本的比例作为总体比例的估计,这是在抽样调查中对两个总体的比例作估计时常用的方法。只要P达到一定规律,估计量近似于无偏估计,即E()=M。由于这种估计方法简单, 又近似于无偏估计,所以它在实际中常被使用。

但这种估计用在如死亡率那样的小概率事件中,存在一个问题:为了保证估计值有较高的精度,必须有非常大的样本。下面我们来看一下在一定的概率保证度和精度下所需的样本数。设抽样方式为简单随机抽样,若总体死亡率为M,则方差:

在概率保证度1-α的条件下,则P必须满足:

这里U[,α/2]为正态分布1-α相应的分位点。记δ=│1-/M│表示估计的相对误差,则:

很明显,年龄区分越细,死亡率越小,概率保证度越大,规定的相对误差越小,则所需要的样本规模越大。

用(1)式表示的样本规模还比较抽象,下面来看一下在1990 年全国人口的死亡水平下,年龄区分为5岁组,概率保证度为95%(α=0.05),相对误差在1%水平时所需的样本规模。按照(1)式计算,各年龄组男女所需的抽样人数见表1。

由表1可知,在中国1990年的死亡水平下、在95 %的概率保证度和抽样的相对误差1%的范围内,所需的样本规模达643万人,约占全国人口规模的0.52%左右。从表1中也可以知道, 各个年龄组所需相应的样本规模相差很大,以10~14岁年龄组所需的样本规模最大,为138.74万人,这是由于10~14岁年龄组的死亡率最小。考虑到抽样不是对某个年龄组,而是对整个人口进行的。而1995年实际人口中10~14岁占全国人口的比例并不高,10~14岁女性所需的样本人口占全国实际人口的1.5%左右,为了保证每个年龄组都在上述误差范围内,考虑抽样方式以及年龄组人口比例的抽样变异,则至少要抽全国人口的1.5%以上。 即是说,就现有1%的人口抽样规模在全国范围尚达不到95 %概率保证度和相对误差控制1%的要求。更不用说在各地区的水平上了。在1995 年人口抽样调查中,调查人口最多的是四川省,为69.83万人, 调查人口最少的是西藏自治区,仅13.07万人。 由于总体规模对抽样规模的影响有限,和所需的抽样规模相比,各省区调查人口是远远不够的。由此,我们也可以想象出,利用(1)式估计的年龄组死亡率有很大的误差, 它可能大于或者小于实际死亡率,从而使年龄组死亡率呈现无规则的波动。

年龄男性女性 小计

0 1449412494 26988

1 168552158952

327504

5 451038610363 1061401

10598929788445 1387374

15360669436161 796830

20265471313472 578943

25263281326839 590120

30218013293092 511105

35166569234432 401001

40114085164068 278153

45 74927107344 182271

50 46827 68375 115202

55 28293 43236

71529

60 16533 25580

42113

65 10059 15543

25602

70 5927 8882

14809

75 3744 5481

9225

80 2220 3166

5386

85 1268 1610

2878

总计 2810900

36175366428436

为了观察这种波动,我们把1995年抽样调查估计的西藏女性的死亡率和同一地区在1990年普查的死亡率进行比较(图1),可以发现, 这两组数据高低起伏,看不出两者有何相同之处。但我们知道,对同一个地区的人口而言,在短时期内死亡率水平和模式不应该有较大的波动,1990年的死亡率是对全人口调查的数据,随年龄呈有规则变动,所以我们宁可相信1990年的数据比较正确,而用比例估计的1995年死亡率数据和实际值有较大的误差。

图1 西藏女性1995年抽样人口的死亡率与1990 年普查的死亡率之比

现在我们以1990年的年龄别死亡率M[,90]为标准,对1995年样本人口的死亡率M[,95]假设H[,0]:M[,95]=M[,90]。 在显著性水平α=0.05时进行检验。我们发现,各地区的不同年龄组, 都不能否定上述假设,或者说可以接受1995年的死亡率等于1990年的死亡率的假设。

这样,对1995年的人口死亡率的估计,我们有以下几种选择:

(1)原封不动地使用样本人口的死亡率。 由于数据自身波动较大,与过去的结果差别太大,一般不太适宜。

(2)对通过假设检验的年龄组,用1990年的数据; 而对不能通过假设检验的年龄,则作适当调整。但我们知道,在统计学上,当H[,0]为真而作出拒绝H[,0]这一错误判断,称这种错误判断为第一类错误;另一种是H[,0]非真而作出接受假设的错误判断,称为第二类错误。 由于显著水平通常取得都较小,所以犯这类错误的概率较小。但在我们这种情况,如果因为通过了假设检验就直接接受,就易犯第二类错误。两个不同时期的死亡率,虽然由于相隔时间不长,不会有太大的变化,但总会有些变化,如果原封不动地使用上一时期的死亡率,似乎也不尽合理。但如何对上一时期死亡率进行修正使它适合现在的情况,包括在否定H[,0]假设后,如何重新估计死亡率,是需要讨论的一个问题。

(3)其他一些方法:有根据样本死亡率, 利用相近的模式生命表的数据来估计该人口的死亡率;或者利用一些模型,如logit模型, 对原始数据进行修匀等等。几种方法的使用常常因人而异,且复杂程度不同,还有一个共同的问题是经过修正过的死亡率,必须通过统计检验。

死亡率的年龄变化本来是有规则形状的,如常说的“J”形, 且与近期的死亡率应该是接近的。传统的比例估计方法是在完全不考虑已知的有用信息下单独作出的,由于样本规模所限,它自身可利用的信息量较少,作出的结果因样本的随机变动的原因呈不稳定形式。既然如此,我们是否可以把对死亡率过去的认识和现在得到的信息结合起来,以解决传统的统计推断所存在的死亡率不稳定的问题。这就是以下要讨论的利用决策论中风险推断的贝叶斯估计方法。

2.决策论的贝叶斯估计方法

由于把决策论方法用于人口研究在中国的文献中尚为罕见,所以这里先从介绍决策论的基本理论开始。

在人们的生活和工作中,经常会遇到各种抉择;面临几种不同情况(决策论中称之为“状态”),可能采用几种不同方案(决策论中称之为“行为”),不同方案在不同情况下可得到的结果(损失或获益)不同。我们要在不同方案下选择这样一种最优方案,按这种方案实施,能使结果最佳(获益最大或损失最小),这种选择为最优方案。

在决策论中模型的基本结构是:

a=F(A[,i],θ[,j])

这里A[,i]表示决策者可控制方案,即行动方案,把A[,i]作为变量来看待,称之为决策变量。θ[,j]为决策者不可控制的因素,把θ[,j]当作变量看待,就称之为状态变量。a表示决策者为应付θ[,j] 所采取的对策方案A[,i]的损益。

决策问题可按状态变量的不同分为确定型、风险型、不确定型。通常把只存在一个确定的状态称为确定型决策问题,如果状态是随机出现,且出现的可能性是可预先估计或计算的,为风险型(或统计型、随机型)决策,若出现的可能性完全无法估计,则称为不确定型决策。以下我们讨论的是统计推断的风险型决策。

设总体具有概率分布族{F(x;θ),θ∈

},X=(X[,1],X[,2],。……,X[,N]是从这个总体中抽取得一个容量为n 的子样,统计工作的任务是根据子样的每一个观察——子样空间的每一个点(X[,1],X[,2]……,X[,n])对总体分布采用某种决定。我们把可能采取的全部决策所组成的集合称为决策空间或行为空间,记为A。 统计推断就是对子样空间的每一点X=(X[,1],X[,2],……,X[,n])在决策空间上寻找一点a∈A,即是要在空间A中取值的子样函数:

a=d(X[,1],X[,2],……,X[,n])=d(X)

当观察值为(X[,1],X[,2],……,X[,n])时, 我们采取的决策a=d(X[,1],X[,2],……,X[,n])。显然,d(X)是一个统计量,我们把它称为决策函数或策略。

对每个具体问题,常常存在不同的决策函数可利用,要评价不同的决策函数的好坏,是通过评价每个决策行为的结果,为此引入损失函数L(θ,a),它表示当真参数为θ时,采取的决策行为a 所造成的损失。很明显,一个最好的决策是使损失L达到最小的行为,但在统计中,θ参数的真值是未知的,我们实际上并不知道最好的行为是什么,因而我们需预先用一个产生行为的策略d来代替。

a=d(X)=d(X[,1],X[,2],……,X[,n])

由此策略对应的损失是L(θ,a)=L(θ,d(X))。 由于策略d是子样函数,是随机变量,而这个损失依赖于子样,也是随机变量, 因此我们就不能运用基于某一个子样的观测值采取的决策所带来的损失来衡量策略d的好坏,而应从总体上评价,即按它的平均损失来评价。

R(θ,d)=E[L(θ,d(X))]

R(θ,d)称为风险函数,它表示当参数真值为θ时,采取的决策d(X)所蒙受的平均损失。

风险函数提供了一个衡量决策函数好坏的尺度。我们希望选择一个决策函数,使得它的风险尽可能的小。其中常用的一个标准是最大风险最小化原则:即假设D是全体决策函数组成的类,在d∈D中选取d*,使:

maxR(θ,d[*])≤maxR(θ,d)

最大风险最小化的决策的思想,用通常的说法是从最坏处着想(即风险最大),争取最好的结果(最大风险最小化)。

上面我们是假定真参数θ完全是未知的,但在许多情况下,关于θ,我们有些附加的信息可以利用。著名的贝叶斯估计就是利用这些附加信息来估计θ的方法。

前面,我们把θ看作一个未知常数,在贝叶斯估计中,我们把θ看作一个随机变量,带有给定的分布π(θ),一般称π(θ)是

上的先验分布,用f(x│θ)代替f(x,θ)表示给定θ∈

时X 随机变量的条件分布密度(或条件概率),因为π(θ)是θ的分布密度,所以θ和X 的联合分布密度是:

f(x,θ)=π(θ)f(x│θ)h(θ/x)g(x)

由贝叶斯公式:h(θ/x)g(x)=π(θ)f(x│θ)/g(x)

其中g(x)是X的边际分布密度,h(θ│x)是给定X=x 时θ的条件分布密度,又称为θ的后验分布。

常用的损失函数和符合最大风险最小化的贝叶斯估计有以下几种(见表2)。

下面,我们来讨论把贝叶斯估计方法应用到死亡率的抽样估计上。

表2

几种贝叶斯估计

损失函数 估计

1.L(θ,d)=(θ-d)[2]事后分布的均值

2.L(θ,d)=│θ-d│ 事后分布的中位值

3.L(θ,d)=0或1 事后分布的众数(极大值)

3.死亡率的贝叶斯估计

设研究对象人口的性别年龄死亡率相互独立,总体的每个年龄组死亡率都是独立的随机变量。

把总体的死亡率看作是随机变量,可能有人会有异议。这是因为每个时期总体的死亡统计是以全体人口为对象调查(或登记)得到的,有人认为这是一个确定的值(这里不考虑由于调查过失带来的误差),不存在随机变异。但正如美籍学者蒋庆琅所说:“从统计学说来,人类的寿命是一个随机实验,其结果,生存或死亡带有偶然性,如果两个人在一年中遭遇同样的死亡危险(死亡力),一个人可能在这一年里死亡,另一个人则可能生存。如果允许一个人到这一年里重新生活一番的话,那么,第一次能生存,第二次也可能生存不了。类似地,如果允许一个人口总体重新在这一年里再生活一番的话,死亡的总人数可能与前不同。……从这一观点说来,即使死亡率是建立在整个人口总体的基础上,它还是有随机变异的”(蒋庆琅,1984)。

死亡率的事前分布选择为β分布,β分布是以两个正实数α、β作为特征参数的,在区间0,1]上的连续分布。当α=β=1时,该分布即为在区间[0,1]上的均匀分布。所以选择β分布这种函数形式, 是因为若把它作为事前分布,当死亡数取作二项分布时,事后分布的形式最为简单。设总体参数空间

=[0,1],参数(死亡率)为θ时的事前分布的密度函数为:

β分布的均值、方差和极大值分别为:

均值 E(x)=α/(α+β)(2)

方差 V(x)=αβ/[(α+β)[2](α+β+1)](3)

设抽样调查的人口为P,死亡人口数为D,由于死亡率是小概率事件,与人口数相比,死亡数有较大的偶然变动,所以,可设人口为确定,调查到的死亡数D为随机变量D的实现值,进一步,设死亡率θ为真时,D服从二项分布Bin(P,θ),这时D的概率密度函数为:

通过以上设定,我们可导出事后分布。设总体死亡率事后分布的密度函数为Pr(θ/P,D),则:

这里α'=α+D,β'=β+P-D

由此可见,事后分布也是β分布,它的均值、方差为:

E(θ/P,D)=(α+D)/(α+β+P)

V(θ/P,D)=(α+D)(β+P-D)/[(α+β+P)[2](α+β+P+1)]

前面已经说过,在贝叶斯估计中,当损失函数取两次函数时,事后分布的均值作为参数的估计符合最大风险最小化的原则,这样,由抽样分布得到的总体死亡率的估计为:

M=(α+D)/(α+β+P) (4)

如果预先对死亡率M作一定的假定,并算出假定下的α和β的值,通过(4)式,就可由抽样数据的值估计总体的死亡率。以下, 我们来讨论死亡率的事前假定。

设由最近一次的人口普查(或人口登记)得到的该人口的某一个年龄别死亡率为M,把它看作是随机变量的均值,即:

E(θ)=M

死亡率的方差(蒋庆琅,1984):

V(θ)=M(1-q)/P(5)

P,q分别表示总体人口的性别、年龄的人口数和死亡概率,为了和抽样调查的人口数与死亡人口数相区别,以下把后者记为Ps和Ds。

若已知平均值M和方差的值,利用(2)、(3)式, 就可求出α和β。

α=M[M(1-M)/V-1] (6)

β=(1-M)[M(1-M)/V-1](7)

再从(4)式就可得到总体的估计死亡率来。

死亡的发生是小概率事件,当调查对象的人口规模不大时,用比例法估计的死亡率的值就会或大或小,极不稳定。举个例子来说,在低死亡力的人口中,儿童死亡率是万分之几。意外死亡是儿童主要死因。如果被调查人口中的儿童只有千人左右甚至千人以下,当调查年没有发生意外死亡,就可能出现儿童死亡率为零;当调查年有一个儿童发生了意外死亡,则儿童死亡率就达千分之几,这两种结果都大大偏离了儿童平均的死亡发生率。但用贝叶斯估计就不会出现这种情况。正如我们下面要说明的,如果抽样比很小,则被调查人口的Ds和Ps相对于α、α+β是一个很小的数。所以事后估计的死亡率主要取决于事前估计的值。所以由(4)式总可得到一个稳定的估计死亡率, 这是死亡率的贝叶斯估计较普通的比例估计的优点之一。

利用通常的比例估计量作死亡率估计时,实际上只利用了本次调查的结果,但正如我们所知道的,人口的死亡变化是有连续性的,死亡率下降到一定水平后,在短期内它的变化是非常小的。而贝叶斯估计利用了过去的死亡率的经验信息,又根据本次调查作一定的调整,从信息利用上说,贝叶斯估计较比例估计要有效得多,这也是死亡率的贝叶斯估计的优点。

下面我们来看一下α、β和P、M的关系,并进一步简化事后分布死亡率的估计式。总体人口的规模一般很大,P-1=P,再设抽样比为k,Ps=kP,Ms=Ds/Ps,则由(5)、(6)、(7)式,可得:

=M+(Ms-M)k/(k+1) (8)

式中右边第一项为事前估计值,第二项可看作是对事前估计的调整,调整的大小取决于两个因子:抽样比例k、 样本人口的死亡率与事前估计死亡率之差。

利用贝叶斯方法估计死亡率,它的准确度在很大程度上依赖死亡率的事前估计,利用上一次普查或最近得到的精确的死亡率作为事前估计,应该说是最自然的。但如果上次人口普查和这次调查相隔时期较长,或者我们有理由认为现在的死亡率同已知过去的死亡率相比,发生了较大的变化,在这种场合下,我们也可以利用事后估计死亡率{Mi}序列的性质,进一步调整,直到满意为止。

4.1995年中国30个地区死亡力水平的测定

各地区的年龄别死亡率是这样估计的:以该地区1990年人口普查年龄别死亡率M(x)为事前估计值,由比例估计得到抽样调查的死亡率,再利用(8)式,就可得到贝叶斯方法的估计死亡率。 利用估计出的中国分地区的年龄别死亡率的基础数据,我们就可编制出相应的生命表并计算预期寿命。1995年中国30个地区的0岁预期寿命见表3。

表3 1995年中国30个地区的预期寿命 岁

地区 男性 女性地区 男性 女性

北京 74.32 77.55

河南 69.20 72.97

天津 71.76 75.24

湖北 66.70 70.55

河北 70.23 74.18

湖南 65.48 68.65

山西 69.60 73.43

广东 71.33 76.88

内蒙 67.55 69.65

广西 68.40 70.55

辽宁 70.35 74.22

海南 69.98 75.91

吉林 68.46 71.82

四川 67.48 71.07

黑龙江68.95 72.39

贵州 65.65 66.88

上海 74.66 78.81

云南 63.39 67.13

江苏 70.93 76.16

西藏 60.07 65.27

浙江 71.31 75.82

陕西 68.67 71.42

安徽 69.36 72.61

甘肃 66.73 68.91

福建 69.52 73.43

青海 63.33 67.16

江西 65.02 66.27

宁夏 68.48 72.20

山东 70.84 75.11

新疆 66.89 69.10

与1990年普查结果相比较可以发现,各地区的1995年的预期寿命比1989~1990年的寿命都有所提高。但提高的幅度不大。最大的为海南,也不过提高0.33岁。如果用普通的比例估计法计算1995年的预期寿命,则可得到河北、内蒙、江西、湖南、广西、甘肃等6 个地区预期寿命有所下降的结果,其中江西下降幅度最大, 男女合计的预期寿命下降了2岁多。而有些地区的预期寿命则增幅很大,5年间增加了2岁多,如青海、西藏、北京等,就连预期寿命原来就已相当高的上海(已超过75岁)也增加了1.90岁。很明显,预期寿命的下降和在短时间内大幅度提高都是不符合预期寿命变动规律的。预期寿命一般的变动规律是在不太长的时间间隔内有所提高,但提高的幅度不大,由此可见,贝叶斯估计方法的估计结果要比比例估计的结果可靠。

每次人口抽样调查后,都要对各种总体指标作估计,这时,总会出现一些不太理想的结果。我们往往把它归咎于调查的误差。其实在有些情况下,这种不太理想的结果,并不是调查自身的问题,而是估计方法的问题。

5.小结

与比例估计相比,贝叶斯估计由于利用了已知的信息,得出的估计死亡率稳定性好。用贝叶斯方法估计出的死亡率介于事前估计值和比例估计值之间,即用事前估计值作基准,把高的比例估计值减小,而把小的比例估计值增大,这是一种稳健的估计方法。

从另一个角度来看,贝叶斯估计是一种保守的估计。估计值的精度和出错的风险是相对的。前面说过,贝叶斯估计是最大风险最小化的估计,也就是说,它尽可能保证了估计不出大的问题,但不能保证估计一定很准确。用1995年的死亡率的估计来说,它保证了不出现如比例估计那样的不合理的结果,得到了从1990年到1995年全国许多地区的预期寿命普遍上升的合理结果,但上升的幅度,如西藏、青海等有较高死亡力的地区,按照经验,可能会比表的结果更大一些,所以说它的估计结果不一定很准确。

贝叶斯估计的准确性在很大程度上取决于事前估计是否准确。事前资料收集得越齐全,考虑越周到,则事前估计就越准确。在本文中,是直接用上次的普查结果作为事前估计,其主要目的是介绍贝叶斯估计方法以及把它和传统的比例估计相比较。如果考虑得更细致一些,在上次普查结果的基础上,再联系各地区在这期间的社会经济发展以及死亡率的变化规律来作事前估计,或者利用序列{Mi},对于死亡率高的地区,再作第二次、第三次估计,则结果可能会更准确一些。

贝叶斯方法不仅可用在抽样调查的死亡率估计上,也可用于其他的关于两个量的比例,如生育率、结婚率等的估计。另外,当基础人口很少时,也可利用贝叶斯方法来估计该人口上的小概率事件(府川哲夫、清水时彦,1990)的发生。它可广泛地应用于人口统计中。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

1995年中国不同地区死亡率的测定:一种新的人口抽样死亡率估算方法_死亡率论文
下载Doc文档

猜你喜欢