参数引导法在全年龄人口死亡模型中的应用_标准误论文

参数Bootstrap方法在全年龄人口死亡模型中的应用,本文主要内容关键词为:模型论文,人口论文,年龄论文,参数论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

生命表是寿险公司计算保费和责任准备金的基础。生命表中各年龄级别的死亡率是否能真正反映真实的死亡率,直接关系到寿险公司费率的制定和准备金的提取。我国寿险公司目前使用的生命表为2006年颁布的CL00-03生命表,其经验期为2000年-2003年,距今已十多年了,随着人民生活水平的提高及医疗条件的改善,相比十年前,现在和未来各年的死亡率将会发生明显改变,而寿命的延长不仅使得年金产品的保费低估,而且影响到保险公司的养老金给付数额、准备金提取数额和经营问题等,因此寿险公司的生命表需要定期更新,这就使得对死亡率模型的研究显得十分必要。

由于无法得到寿险公司被保险人的实际死亡数据,本文将在《中国人口和就业统计年鉴》分性别、分年龄死亡数据的基础上,探究适合中国男性和女性全年龄人口的参数死亡模型,并将参数Bootstrap方法用于全年龄人口死亡模型,以此来评估所选择的全年龄人口死亡模型拟合的精度,希望能为我国生命表的制定工作提供参考。

一、Bootstrap方法概述

Bootstrap方法最初是由Efron(1979)提出的,是一种通过对总体分布未知的观测数据进行模拟再抽样来分析其不确定性的工具,其基本思想是:在原始数据的范围内做有放回的抽样,得到大量Bootstrap样本并计算相应的统计量,从而完成对真实总体分布的统计推断。该方法的优点在于不需要大量的观测数据就可以对相关参数的性质进行研究。

(一)Bootstrap方法的分类

Bootstrap方法有参数Bootstrap和非参数Bootstrap之分,下面是两者的主要区别:

(二)Bootstrap方法的主要应用

这里,标准误反映了样本均值的标准差,它描述的是抽样分布的离散程度,标准误越小,表明所抽取的样本对总体代表性越强,用样本统计量来推断总体参数的可靠性越大。

2.估计偏差的Bootstrap近似

这里,偏差用来衡量估计的参数是否具有一致性,偏差值越小,表明样本抽取得越可靠。

3.估计置信区间的Bootstrap近似

二、全年龄人口死亡模型

传统的死亡率参数拟合模型中以Gompertz模型最为著名,该模型假设死力服从如下形式:

式(4)表明死力随年龄呈现指数增长。然而实际的统计数据表明,对处于某个年龄段的低龄人口来说,死亡率往往随年龄增长而下降,而且死亡率在约23岁时会达到一个小高峰(Tenenbein and Vanderhoof,1980)。因此,Gompertz模型虽然能较好地拟合成年人的死亡分布,但对低龄人口的死亡分布拟合上存在缺陷。对此,很多学者也做了修正,Heligman和Pollard(1980)提出可以通过增加参数的方法对Gompertz模型进行调整,提出适合全年龄人口的参数死亡模型。后来,Carriere(1992)认为可以用一个包含了Gompertz、Inverse Gompertz、Weibull和Inverse Weibull四种分布的混合分布模型来拟合死亡率,并将此模型用于拟合美国全年龄人口的死亡率,得到优于Heligman和Pollard(1980)模型的拟合效果。

在全年龄人口模型的研究中,最为广泛应用的就是Heligman和Pollard模型与Carriere模型,因此下面着重研究这两种模型。

(一)Heligman和Pollard模型(以下简称HP模型)

Heligman和Pollard在1980年提出一个具有八个参数的参数模型用以估计澳大利亚的人口死亡率曲线,其用到的模型有三种形式的表达式,分别如下:

虽然这三个模型拟合澳大利亚死亡率的效果都不错,但是出于简化的目的,联合国建议采用第一个模型,在世界各国推广,并且在很多国家(如英国、瑞士、德国、西班牙、美国等)都取得了较好的效果。为了简单起见,上述模型简化如下:

Heligman-Pollard模型中的每一项代表了死亡率不同的组成部分。式(8)中右边第一部分代表儿童时期:A反映儿童死亡水平,B表示0岁死亡水平,C表示死亡曲线下降速度,A,B,C的取值均在区间内;式中右边第二部分代表青年期:D表示曲线的离散程度,E表示曲线下降的速度,F表示青年期死亡率的高峰年龄;式中右边第三部分代表中老年期:G表示曲线在0岁时的死亡率截距,H表示曲线在成年时期的弯曲程度。

(二)Carriere(1992)模型(以下简称CR模型)

CR模型假设年龄x岁人的生存分布函数具有如下形式:

三、HP模型和CR模型在中国人口数据中的应用

(一)数据来源

下面以《中国人口和就业统计年鉴》中的人口死亡数和年平均人口为例,说明参数Bootstrap方法在评估HP模型和CR模型的拟合精度时的应用,并比较两者的拟合效果。

需要指出的是,因为人口数据的缺乏,这里并没有对90岁及以上的死亡率进行分布拟合。

(二)参数估计的思想

要用HP模型或CR模型拟合死亡率,首要考虑的问题就是参数估计。对于本文考虑的HP模型和CR模型,待估参数分别为:

通过使式(14)的数值最小,可以估计出HP模型或者CR模型中的参数。这种参数估计的方法称为加权最小二乘法(WLS),可以证明WLS估计的参数具备一致性和渐近正态分布特性(Grzegorz and Konrad Szatzschneider,2004)。

(三)参数估计结果

根据上述参数估计的思想,可以利用R中的函数nlminb()或者Excel软件中的“规划求解”工具求出HP模型和CR模型中参数的估计值。

表1和表2是对前面所述中国2006年-2009年男性、女性0~89岁死亡率的初始估计值分别应用HP模型和CR模型得到的参数估计结果。

观察表1和表2,可以得出以下结论:

HP模型中代表婴儿期的部分(由参数A、B、C构成)反映了分性别的人口在孩童时期死亡率呈现了下降的趋势,对于C值,女性较男性高些,这表明孩童时期女性死亡率下降的速度要比男性快;模型中代表意外事故死亡率的部分(由参数D、E、F构成),F表示死亡率高峰年龄,结果表明男性死亡率在25岁左右最高,女性死亡率在24岁左右最高,从男性对应的D值较大而女性对应的E值较大这点来看,总体来说青年男性遭受意外事故死亡的概率要高于青年女性;模型中反映成年时期死亡率指数递增的部分(由参数G、H构成),男性的G值高于女性,女性的H值略高于男性,这也解释了进入成年后男性死亡率要高于女性的现象。

CR模型中,对于Gompertz分布和逆Gompertz分布的位置参数,男性分别为84.2818和41.1086,女性分别为87.5015和42.0470;而对于Weibull分布和逆Weibull分布的位置参数,男性分别为3.7764和24.3955,女性分别为1.7656和25.1342,这说明用Gompertz分布拟合高龄人口的死亡分布、用Weibull分布拟合低龄人口的死亡分布的效果良好。而且,男女性的均达到95%以上也表明该人口的死亡分布主要受Gompertz分布的影响,逆Gompertz分布、Weibull分布和逆Weibull分布对模型的贡献度较小且重要性依次减弱。另外,观察男女性参数估计值的差异,可以看出女性寿命普遍高于男性的实际趋势。

(四)HP模型和CR模型的拟合效果比较

为了选取更符合我国全年龄人口死亡率的死亡模型,我们需要比较HP模型和CR模型的拟合效果。将表1和表2中的参数估计值分别代入相应的死亡模型,可以得到估计的死亡率,然后按照式(14)计算出损失函数值,结果见表3。比较最终的损失函数值,可以知道:对于HP模型,男性对应的损失函数值为2.46736,女性的为4.11258;相应的,对于CR模型,男性、女性对应的损失函数值分别为1.94913和3.36319。通过比较HP模型和CR模型的损失函数值,可以认为:无论对于男性人口还是女性人口,CR模型的拟合效果都要优于HP模型。

图1~4(见下页)直观说明了CR模型和HP模型在拟合中国2006年-2009年男性和女性全年龄人口死亡分布时的模型拟合效果,其中HP模型和CR模型分别代表利用HP模型和CR模型拟合粗死亡率时得到的死亡率估计

从图1~4看出,除了个别点拟合效果不佳之外,用HP模型和CR模型拟合我国男性和女性全年龄人口死亡分布的效果还是比较理想的。就拟合曲线与死亡率的初始估计(粗死亡率)的贴近程度而言,CR模型的效果尤佳(尤其是5~45岁年龄段)。

值得说明的是,图1~4只比较了HP模型和CR模型对中国男性和女性2~89岁的死亡率的拟合效果,而没有比较0~1岁的死亡率拟合效果。通过对粗死亡率、HP模型估计的死亡率、CR模型估计的死亡率的计算知道,对于0~1岁的男性和0~1岁的女性而言,HP模型的拟合效果均要优于CR模型。下文将以CR模型为例,借助参数Bootstrap方法对该模型拟合中国男性2006年-2009年0~89岁人口死亡分布的模型精确性进行评估。

四、基于中国人口数据的参数Bootstrap方法评估人口死亡模型拟合精度

这部分将探讨参数Bootstrap方法在评估人口死亡模型拟合效果中的应用。

(一)判断模型拟合是否准确的基本思想

对于CR模型,衡量其对粗死亡率分布拟合的准确程度包含以下两个方面的内容:

其次是模型参数的准确性,即模型参数的估计值是否准确,是否能较好地描述实际死亡分布。由加权最小二乘法估计得到的参数估计具有渐近正态分布的特征,因而为我们提供了衡量参数估计准确性的一个思路,但加权最小二乘法的前提是必须知道待估参数的协方差矩阵,而且这种正态近似方法不能反映出参数可能存在的偏态分布情形。为了克服这些困难,我们可以利用参数Bootstrap方法,通过计算各参数的标准误、偏差等的Bootstrap估计来度量模型参数的准确性。若某个待估参数的标准误、偏差的Bootstrap估计值较小,则可以认为该参数的估计值是比较准确的。

(二)利用参数Bootstrap方法评估CR模型中参数估计的准确性

本文中,由于观察死亡数的经验分布未知,因此无法应用非参数Bootstrap方法。但是,表2中已经得到CR模型中各参数的估计值,因此下文将假设人口的真实死亡分布服从CR模型,利用表2的数据得到抽样分布,这个过程可以表示如下:

本文中,取B=1000次,利用R软件对上述过程进行编程,根据式(1)~(3)得到CR模型中12个待估参数的有关统计量之Bootstrap近似,具体如下页表4所示。

(三)结果分析

观察各参数的标准误和偏差的Bootstrap估计,似乎只有CR模型的Gompertz部分的参数的标准误和偏差与估计值相比都较小,置信区间也较窄(如男性的参数估计值为84.2818,标准误仅为0.1370,偏差也只有0.0720,95%置信区间为84.0812,84.6368),说明该部分的参数估计准确度较高。而逆Gompertz、Weibull和逆Weibull分布部分的标准误和偏差则相对较大,置信区间也比较宽(如男性的参数估计值为19.0165,标准误达到2.2844,95%的置信区间则为12.7190,21.1505),表明这些部分的参数估计仍需改进。

首先介绍参数Bootstrap方法的基本理念以及全年龄人口死亡拟合的代表性模型——HP模型和CR模型;然后以加权最小二乘法作为参数估计的准则,分别运用HP和CR模型对我国分性别分年龄0~89岁人口的死亡率分布进行了拟合,计算出模型的参数估计值,并比较了两种模型的拟合效果,最终认为CR模型的拟合效果更好;最后,以CR模型为例,利用参数Bootstrap方法对模型的稳定性进行了考察,结果揭示出Gompertz部分是构成死亡的主要成分,非Gompertz部分对死亡率的贡献也不容忽视,从而CR模型的形式是比较准确的。但标准误较高、偏差较大、置信区间过宽也表明了非Gompertz部分的参数估计值不够稳定。

相对HP模型而言,CR模型有如下优势:首先,CR模型中的参数有明确的直观解释,位置参数和规模参数可提供深入的信息;其次,CR模型的表达式中的各部分生存函数可以替换成其他可能的形式,例如可以将Gompertz函数部分替换成Makeham函数等;最后,CR模型可用于死亡率预测,通过CR模型对不同年份的人口死亡率数据进行拟合,可以构造出CR模型的一系列随时间变化的参数估计值,再借助回归分析等方法可以研究CR模型参数随时间变化的规律,从而预测其未来年份的参数值,进而可以预测未来各年的死亡率。

标签:;  ;  ;  

参数引导法在全年龄人口死亡模型中的应用_标准误论文
下载Doc文档

猜你喜欢