广义线性模型在生命表死亡率修匀中的应用,本文主要内容关键词为:死亡率论文,广义论文,线性论文,模型论文,生命论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
死亡率揭示了人类面临的死亡风险,而生命表则是用来描述某人口群体死亡规律的概率分布表。生命表一般分为国民生命表(National Life Table)和经验生命表(Experience Life Table)两大类。其中,国民生命表是以全体国民或特定地区的人口统计资料编制的统计表;经验生命表是人寿保险公司依据其承保的被保险人实际经验的死亡统计资料编制的统计表。其编制过程都是建立在对死亡率初始估计的基础上,结合先验观点,通过一系列的模型和方法对初始死亡率进行修正,这一过程也被称为死亡率修匀,其目的是为了得到真实死亡率的最优估计值。然而,相比国外发达国家而言,我国对编制经验生命表的研究还相对不成熟。本文将在系统介绍广义线性模型(Generalized Linear Models,GLM)的基础上研究GLM在我国国民生命表死亡率修匀中的应用,这些研究将为我国经验生命表的编制工作提供指导,也为我国保监会的死亡率经验分析工作提供理论支持和实践参考,以更加有利于我国寿险费率市场化和寿险业的科学经营。
1 文献综述
正如Miller(1946)对死亡率修匀的研究中所指出:修匀过程应包括对数据进行拟合和光滑两方面,即在保持一定拟合度的基础上,对数据进行光滑处理。然而,仅仅对数据进行拟合和光滑是远远不够的,要真实反映死亡率的客观规律,还必须结合描述这一规律的先验,依据先验观点的不同可以将死亡率修匀分为参数修匀和非参数修匀。其中,参数修匀将死亡率数据的先验表述为具体的函数形式;非参数修匀则将死亡率数据的先验表述为光滑性的概念,没有具体的函数表达式,仅对死亡率进行光滑处理。参数修匀中最早的参数模型为Gompertz(1825)提出的Gompertz模型和Makeham(1860)提出的Makeham模型,这两个模型尤其适用于高年龄组的死亡率修匀,而不能对青年和中年阶段的死亡率进行很好的修匀。为此,Heligman和Pollard(1980)提出了含8个参数的Heligman-Pollard模型,分婴幼儿时期、青壮年时期和老年时期三阶段对死亡率进行修匀;Carriere(1992)提出了另一个类似的对全年龄段死亡率进行修匀的模型。这些模型仅构造了死亡率与年龄因子之间的关系,可以视为静态死亡率修匀模型。Lee和Carter(1992)提出了同时考虑死亡率与年龄、年份两个因子之间关系的模型,可以视为动态死亡率修匀模型。Haber-man和Renshaw(1996)又给出了GLM在死亡率修匀中的应用,分别对死亡率与年龄因子之间的关系、死亡率与年龄和年份两因子之间的关系、死亡率与年龄和保单期限两因子之间的关系进行了研究。非参数修匀中最早提出的方法为移动加权平均修匀法(Moving Weighted Average Graduation,MWAG);为了克服MWAG方法的端值问题,Copas和Haberman(1983)提出了核修匀方法。近年来,随着计算技术的快速发展和统计软件的普及,为各种死亡率修匀方法的改进提供了技术支持,如核光滑(Kernel Smoothing)方法、样条修匀、局部加权回归(Locally-weighted Regression,LOESS)方法、广义可加模型(Generalized Additive Models,GAM)、Bayes修匀等;关于这方面的代表性文献可以参考Wang、Müller和Capra(1998),Wang(2005),Debón、Montes和Sala(2006),da Rocha Neves和Migon(2007)。
各国保险业都有自己的经验生命表,而且国外的寿险业一般每隔一定时间要修订一次生命表,美国也分别在1941年、1958年、1980年、2001年修订或编制了新的生命表。在各国制作经验生命表的过程中,采取的修匀方法和修匀次数不尽相同。我国的经验生命表(CL90-93)经过三次补整、修匀得到最终的经验生命表,其中修匀部分采用了8参数模型对1~80岁的死亡率进行曲线拟合,并由此外推至各年龄。经验生命表(CL00-03)采取与CL90-93不同的补整、修匀次数及修匀方法,这主要考虑了所获得的数据特点及修匀方法的适用性,同时也结合了推断高年龄组死亡率的模型与方法,以达到将死亡率曲线延长的目的,从而得到高年龄组的估计死亡率。但是,总体来说,我国对编制经验生命表的研究还相对不成熟,鉴于此,本文利用1995~2006年《中国人口统计年鉴》、2007~2010年《中国人口和就业统计年鉴》全国分年龄、分性别死亡人口状况数据,研究死亡率与年龄和年份两因子之间的关系,采用GLM中的泊松回归模型、负二项回归模型对0~89岁的死亡率进行拟合,在比较两种模型拟合效果的基础上,进一步使用B-样条函数进行修匀。
2 GLM的基本框架
Nelder和Wedderburn(1972)首次提出了GLM,关于GLM的经典教材可以参考McCullagh和Nelder(1989)的著作。总体来说,GLM从两方面对标准线性模型进行了扩展。一是对常见的各种线性模型进行了统一处理。在GLM框架下,对研究问题的均值进行适当变换后得到某个线性估计,所以称之为GLM;二是将变量分布从正态分布扩展到更广泛的分布类。在GLM中,考虑了更多的分布,如二项分布、过度分散泊松分布(Over dispersed Poisson distribution)、正态分布、Gamma分布、逆高斯分布以及其他指数散布族分布(Exponential Dispersion Family,EDF)等。至今GLM已成为主流统计学的一个分支,应用于众多领域。在精算领域,保险数据(如死亡率、损失频率、损失强度等)往往不服从正态分布,GLM非常适合分析这类数据。近年来,基于GLM在精算领域中应用的相关教材专著也已陆续出版。de Jong和Heller(2008)提供了第一本系统介绍如何应用GLM分析保险数据的教材,书中给出了大量的数值实例,并进行了细致分析。GLM在精算学中的进一步应用也可以参考Ohlsson和Johansson(2010)的最新专著。该书对GLM的各种扩展,如对GAM进行了详细介绍,可以作为de Jong和Heller(2008)的有益补充。
2.1 GLM的模型结构
2.3 GLM的参数估计
GLM使用极大似然估计法来估计模型中的参数,也就是说,最大化如下对数似然函数:
可以看出,这种近似估计即为权重为W的标准多元线性回归模型的加权最小二乘估计。
2.4 GLM的模型检验
2.4.1 拟合优度检验
在GLM中评价模型拟合优度的一种方法是将所建立的模型与最佳拟合模型进行比较。最佳拟合模型也称为饱和模型(saturated model),这是因为该模型中待估参数个数与观测值个数相同。饱和模型的对数似然函数可以表示为:
其中,n为样本数,p为模型待估参数个数,n-p为自由度。
一般采用偏差统计量的值除以自由度来比较不同模型的拟合优度,该值越小表明相应模型的拟合优度越好。当两种模型自由度差别不大时,Δ越接近于0,说明所建立的模型越好。
2.4.2 参数显著性检验
第一,似然比(LR)统计量。
其中,q表示约束条件的个数,也是模型检验矩阵C的行数。
第二,Wald统计量。
类似于线性回归模型,Wald统计量只需要估计非约束模型。因为:
其中,q表示约束条件的个数,也是模型检验矩阵C的行数。
第三,模型检验矩阵C的结构。
①单个回归系数的显著性检验
当检验=r时,模型检验矩阵C退化为行向量,且向量的第j个位置为1,其他位置都为0,即C=(0,…,1,…,0)。
②所有回归系数的显著性检验
当检验所有参数的显著性,即Cβ=r时,模型检验矩阵C可以表示为:
即模型检验矩阵C是J×(J+1)的矩阵,这里J是模型中解释变量的个数。
3 GLM在我国生命表死亡率修匀中的应用
3.1 数据来源及说明
本文建模使用的数据来源于1995~2006年《中国人口统计年鉴》、2007~2010年《中国人口和就业统计年鉴》的全国分年龄、分性别死亡人口状况表,进而得到1994~2009年各年度分年龄、分性别的初始死亡率(粗死亡率)④。由于《中国人口统计年鉴》和《中国人口和就业统计年鉴》中大部分年份都没有统计90岁及以上的分年龄死亡数据,因此,本文考虑的年龄段为0~89岁。另外,1997年《中国人口统计年鉴》将1996年85岁及以上死亡数据合并为一组统计,本文采用1994年、1995年、1997年、1998年前后4年85~89岁的年平均人口数、死亡人数的算术平均数来代替1996年的年平均人口数、死亡人数,即1996年85~89岁的粗死亡率是采用前后4年85~89岁粗死亡率的加权平均数计算的⑤。为了更清晰地描述这些数据,图1给出了我国1994~2009年连续16年0~89岁的男性和女性对数死亡率的三维图。性别死亡人口数据计算。
从图1可以看出,对男性和女性的死亡率来说,随着时间的推移,各年龄的死亡率呈现出下降的趋势,然而相同年份不同年龄的死亡率改善程度不尽相同,表现出一定的差异性和不确定性。因此,从动态的角度看,利用GLM同时考虑死亡率与年龄和年份两因子之间的关系,对我国国民生命表死亡率的修匀效果可能会更好。
3.2 两种离散型分布GLM的基本形式
正如本文第2部分所述,GLM模型中考虑了更多的分布,其中,泊松分布和负二项分布都可选取对数联结函数。下面就GLM中的泊松回归模型和负二项回归模型⑥,给出两种死亡率修匀模型。
3.2.1 泊松回归模型
按照第2部分介绍的GLM的模型结构,选取对数联结函数,进而得到:
整理得出泊松回归模型假设下的死亡率修匀模型可以表示为:
3.2.2 负二项回归模型
类似的,选取对数联结函数,在负二项回归模型假设下的死亡率修匀模型可以表示为:
3.3 模型检验、参数估计及结果分析
3.3.1 两种回归模型的参数估计
按照本文第2部分给出的参数估计方法,表1给出了两种回归模型的参数估计结果。
这里需要注意两点。一是,与经典线性回归模型不同,在GLM框架下,在求解参数的极大似然估计时,为了使估计结果更准确,需要利用泰勒级数高阶展开,也就是需要求解非线性方程组。标准统计软件中的GLM模块经常使用Newton-Raphson算法的一个变形来求解这些方程组,也就是通过如Fisher计分法(迭代加权最小二乘法IWLS)的迭代程序来求解。二是,在标准统计软件中,GLM模块的输出结果都会给出判断每个参数显著性的Wald统计量。其中,SAS软件输出的参数估计表包括每个回归系数的Wald统计量的值以及相应的P值;R软件输出的参数估计表则包括每个回归系数Wald统计量的符号平方根(即Z统计量的值)以及相应的P值,且两种软件的P值都是采用标准正态分布或t分布表计算的。
3.3.2 两种回归模型的检验及评价
按照本文第2部分给出的检验方法,表2给出了两种回归模型的检验结果。
在表2中,Null deviance是指仅包括截距项、不包括解释变量的模型和饱和模型比较得到的偏差统计量的值,Residual deviance是指既包括截距项,又包括解释变量的模型和饱和模型比较得到的偏差统计量的值。从中可以看出,两种回归模型自由度相差不大的情况下,包括年龄、年份解释变量的偏差统计量的值远远小于不包括年龄、年份解释变量的偏差统计量的值,故对于每一种模型,建模时显然应该考虑年龄、年份解释变量。进一步讲,不论男性还是女性,泊松回归模型的偏差统计量的值远大于自由度1335,说明响应变量是过度分散⑧的,即采用泊松分布拟合的效果不佳,应选用具有过度分散性质的负二项分布来拟合。为了与图1进行对比,图2(见下页)绘制了采用负二项分布拟合的我国1994~2009年0~89岁男性和女性对数死亡率的三维图。
3.3.3 对数死亡率的B-样条函数修匀
通常来说,除了在较低年龄和较高年龄之外,死亡率变化是非常平稳的。为此可设想在GLM中应用样条函数来进一步对模型进行拟合和光滑处理,这里选取B-样条函数对死亡率进行修匀,通过变动初始控制节点来调整曲线的形状,最终达到满意的修匀效果。
现对年份选择内部节点1997,2000,2003,2006;对年龄选择内部节点5,10,…,85,即对年份以3年为单位划分,对年龄一般以5岁为单位划分。在此基础上,图3给出了在负二项回归模型下,应用B-样条函数修匀后的对数死亡率关于年龄和年份的三维图。表3给出了应用B-样条函数修匀后的模型拟合优度等检验结果。
从表2和表3可以看出,负二项回归模型中自由度为1335,而应用B-样条函数修匀后自由度变为1412。从中可以看出,应用样条函数进行回归的一个优点是减少了待估参数的个数。当年龄和年份的划分区间较大时,待估参数的个数会进一步减少。
3.3.4 在某个年份内各个年龄的死亡率修匀
现以2005年为例,比较各个年龄粗死亡率和修匀后的死亡率,这里仍然采用负二项回归模型下,B-样条函数修匀后的对数死亡率,图4给出了我国2005年男性和女性0~89岁的粗死亡率和修匀后死亡率的对数值。
由图4可以看出,除了极少数年龄拟合效果不是很好之外,大部分年龄的拟合效果都相当好。整体来看,拟合效果非常好。
3.3.5 对某个年龄在不同年份的死亡率修匀
现以年龄50岁为例,比较在不同年份的粗死亡率和修匀后的死亡率,这里仍然采用负二项回归模型下,B-样条函数修匀后的对数死亡率,如表4所示。整体上看,不同年份的死亡率呈现出向下变化的趋势。由于仅有16年的时间序列数据,对不同年份同一年龄死亡率修匀的效果显然不如对同一年份不同年龄死亡率修匀的效果那么直观,这与实际情况是相符的。在实际中,由于存在死亡率改善,随着时间的推移,同一年龄死亡率一般呈现出向下变化的趋势,但这种趋势显然没有同一年份死亡率随年龄的变化特征明显。
4 本文创新点及方法建议
本文首次研究了GLM在我国国民生命表死亡率修匀中的应用,即分别研究了我国1994~2009年0~89岁男性、女性的死亡率与年龄和年份两因子之间的关系,采用泊松回归、负二项回归对0~89岁的死亡率进行拟合,在比较两种模型拟合效果的基础上,进一步使用B一样条函数进行修匀。其具体研究内容包括:同时考虑年份和年龄的死亡率修匀;固定某个年份,考虑各个年龄的死亡率修匀;固定某个年龄,考虑不同年份的死亡率修匀。其中,在同时考虑年份和年龄的死亡率修匀时,应用GLM中的解释变量有两种选择:将年份和年龄都作为因子变量;将年份和年龄都作为数值变量,同时采用样条函数进行分析。
由于《中国人口统计年鉴》和《中国人口和就业统计年鉴》每隔5年统计一次90~99岁、100岁及以上的分年龄死亡人口数据,大部分年份都没有统计90岁及以上的分年龄死亡人口数据,因此,本文考虑的年龄段为0~89岁。从理论上讲,如果可以获得90岁及以上年龄的死亡率数据,本文提出的基于GLM的死亡率修匀方法仍然可以适用,但可能存在一些问题,即90岁及以上高高龄人口的数据量一般很少,会导致这些人口的参数估计的标准误差很大。目前针对高高龄死亡率修匀,主要考虑的是静态死亡率修匀模型,即基于高龄人口的死亡率模型,采用参数外推方法来描述高高龄人口的死亡率特征。类似地,也可以在本文给出的基于GLM的动态死亡率修匀模型框架下,采用合理的外推方式对90岁及以上的死亡率进行修匀,这是进一步研究的方向。
本文第3部分的实证分析涉及大量而又复杂的数值运算,这在很大程度上归功于当前日益先进的计算机技术和统计软件支持。R软件是当前国际上日益流行的免费开发软件,它有非常多的软件包。本文使用R软件对基于GLM的死亡率修匀进行了完整的编程实现,算法模块化且具有很高的灵活性。例如,可以根据需要,选择性的导入男性、女性的死亡人口状况和年平均人口数据;算法实现中可随时查看、比较中间结果等。目前R软件在金融工程、定量风险管理、统计与精算学中的应用日益广泛,有望成为未来基本工具。
经验生命表是寿险公司进行定价和责任准备金评估的重要基础。编制的经验生命表中各年龄的死亡率是否能反映真实的死亡率,直接关系到寿险公司费率的厘定和准备金的提取。因此,研究死亡率修匀具有十分重要的理论意义和实践价值。本文的研究将为我国经验生命表的编制工作提供理论支持和实践参考。
在采用经验生命表计算平均预期寿命时,假设各年龄人群的结构和死亡率状况保持不变,即未来不同年龄的死亡率和现在保持一致,而现实中不同年龄的死亡率会随时间呈现出下降的趋势。因此,采用经验生命表的平均预期寿命估计方法对未来预期寿命有低估的风险,这也是产生长寿风险的主要原因之一。本文提出的基于GLM的动态死亡率修匀模型同时考虑死亡率与年龄、年份两个因子之间关系,通过分析不同年龄的死亡率变化的动态特征,在对各年份死亡率进行修匀的基础上,也可以对未来的死亡率进行合理预测,克服了未来人口死亡率不变假设下,对平均预期寿命的低估风险。鉴于此,这种动态死亡率修匀模型可以作为我国长寿风险管理的基础研究,进而为识别和量化长寿风险、年金产品的开发、社会保障体系的完善等提供重要的参考价值。
注释:
①这里设计矩阵中包括了截距项对应的第一列。有时设计矩阵可不包括第一列,对应的GLM没有截距项。
②这里模型待估参数包括常数项和J-1个指示变量,故待估参数个数为J个。
③本文后续部分将进一步介绍模型检验矩阵C的结构。
④粗死亡率是通过死亡人数与年平均人口数之比来计算的。
⑤这里,除考虑加权平均数之外,也可以考虑算术平均数,结合统计数据,两者差异并不大。另外,本文实证分析中也对两种处理方式下,模型的参数估计和检验结果进行了比较,差异并不显著。
⑥关于GLM中的泊松回归模型和负二项回归模型在死亡率模型中适用性的详细说明也可以进一步参考本文的参考文献15。
⑦为了与第2部分的矩阵X相区别,这里表示该向量是1行105列的行向量,且年龄i和年份t对应的元素为1,其他元素为0。
⑧过度分散是指随着样本的变化,其均值存在异质性。过度分散泊松分布的检验,即检验k是否为0的方法也是采用似然比统计量。
标签:生命表论文; 死亡率论文; 线性模型论文; 回归模型论文; 参数估计论文; 因子分析论文; 参数检验论文; 检验统计量论文; 数据拟合论文; 线性拟合论文; 对数曲线论文;