我国高龄人口死亡率减速:偏差还是事实,本文主要内容关键词为:死亡率论文,高龄论文,偏差论文,人口论文,事实论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:C812 文献标识码:A 文章编号:1002-4565(2015)09-0056-12 一、引言与文献综述 高龄乃至超高龄①死亡率的精确估计对改进老年人口规模和死亡率预测至关重要。关于高龄死亡率建模方法的研究可以追溯到200年前,经典的高龄死亡模型包括Gompertz(1825)[1]提出的Gompertz模型、Makeham(1860)[2]提出的Makeham模型、Beard(1963)[3]提出的Beard模型以及Kannisto(1994)[4]提出的Kannisto模型,这些模型都是Perks(1932)[5]提出的Logistic模型的特例,本文将其统称为Logistic类型死亡模型。此外,还有幂函数形式的Weibull模型和二项式模型等。 在使用这些模型解释各国观测到的高龄死亡率经验时,Gompertz最早就注意到死亡率减速②这一现象,即描述死亡率常速增长的Gompertz模型并不适用于极端的高龄人口,超高龄死亡率将出现减速且趋于平缓(Leveling Off)。Olshansky(1998)[6]系统回顾了超高龄死亡率减速现象的研究文献。此外,Gavrilov和Gavrilova(1991)[7]也坚信超高龄死亡率存在违背Gompertz分布律的倾向,进而Horiuchi和Wilmoth(1998)[8]建议采用Logistic模型来拟合85岁及以上超高龄人口死亡率。同年,Thatcher、Kannisto和Vaupel(1998)[9]分别采用Gompertz模型、Kannisto模型、Logistic模型、Weibull模型、二项式模型③以及Heligman和Pollard(1980)提出的HP模型中的高龄阶段死亡率模型④来拟合欧洲、日本等13个工业化国家⑤1960-1970年、1970-1980年、1980-1990年和出生于1871-1880年的80~120岁高龄人口死亡率。对于这些国家每一时期和出生队列来说,他们使用极大似然估计(MLE)模型参数和相应的渐近方差-协方差矩阵,得出用于描述死亡率减速增长的Kannisto模型和Logistic模型能提供一致、最好的拟合效果。换言之,这些研究都印证了超高龄死亡率减速是事实,是符合实际的,故而也引发了学者们进一步思考这种减速现象背后的原因。 关于高龄(尤其是超高龄)死亡率减速现象的解释可以追溯到1959年,英国精算师Beard(1959)[10]首次通过引入一种含伽玛分布的个体风险的人口异质性模型来解释超高龄人口的死亡率减速现象。Horiuchi和Wilmoth(1998)[8]指出该解释是迄今为止关于死亡率减速现象的最常见的解释。其他解释还包括来自老龄化的可靠性理论、老年人从事危险行为的可能性更低、进化论等。与已有研究不同,近年来,Gavrilov和Gavrilova(2011)[11]使用美国社会保障局提供的死亡数据,在对可获得的已经灭绝的出生队列超高龄人口数据质量进行检查的基础上,得出对于数据质量良好的88岁及以上超高龄人口,Gompertz模型的拟合效果明显优于Kannisto模型,且遵循Gompertz分布律的超高龄死亡率轨迹的年龄可以达到102~105岁,并没有表现出明显的死亡率减速现象。同时,该文献认为以往研究中得出的超高龄死亡率减速现象的原因可以分解为以下三点:第一,超高龄人口存在年龄夸大、记录准确性很难考证等数据质量问题,导致观测到的死亡率减速可能是由于数据质量较低造成的。第二,对很多国家来说,由于单年生命表中超高龄人口规模较小,这会导致估计结果的可靠性差,已有研究通常采用合并多个日历年的数据来减少超高龄死亡率估计的统计噪声,这种做法不可避免地会导致不同出生队列人口死亡数据的异质性效应。第三,关注的死亡率指标是死亡概率,而非危险率⑥。死亡概率存在上界1,而危险率可以趋向于无穷大,不存在有限上界。通常中青年的死亡率相对比较低,此时死亡概率和危险率在数值上很接近,但高龄,尤其是超高龄并非如此。已有研究没有很好地区分死亡概率和危险率。因此,夸大年龄、数据异质性、使用死亡概率指标而非危险率将导致以往研究中高龄人口死亡率估计出现下行偏差。综上所述,曾经一贯支持超高龄人口死亡率减速的人口统计学家Gavrilov和Gavrilova近期的研究反而认为这种减速现象是估计的下行偏差,而非事实。这使我们产生困惑的同时,也引发了如下思考,各国高龄(尤其是超高龄)死亡率减速到底是估计偏差,还是具有规律性的事实?我国高龄人口死亡率存在减速现象吗? 与低龄人口相比,高龄人口规模相对较小、年龄申报质量欠佳等问题一直困扰着世界各国高龄人口死亡模式的研究。与发达国家相比,中国拥有13亿人口,庞大的人口基数使得中国老年人口数量巨大,2013年中国60岁及以上老年人口已突破2亿,预计到2020年将达到2.3亿,且80岁及以上高龄老人增长速度约为65岁及以上全部高龄老人的两倍。受限于可获得的质量可靠的分年龄高龄人口死亡数据,目前国内学者对我国高龄人口死亡分布模式、高龄死亡率是否呈现出减速现象的定量研究尚不多见。这方面较早的经典文献如:曾毅和金沃泊(2004)[12]使用我国第四次人口普查数据,探讨了中国高龄人口死亡模式,分别应用Gompertz模型、Weibull模型、HP模型、多项式模型、Logistic模型和Kannisto模型,使用MLE来拟合1990年80~96岁男性和女性死亡率,结果表明描述死亡率减速的Kannisto模型对中国高龄人口死亡率的拟合效果最好。在该文献中,作者进一步比较了中国、瑞典和日本高龄人口死亡模式,指出3个国家96~105岁年龄死亡率比较接近,而中国96岁以下年龄死亡率明显高于瑞典和日本。此外,与发达国家类似,中国高龄人口死亡率随年龄增加而上升的趋势在96~105岁超高龄会减缓。也就是说,该文献支持我国1990年高龄人口死亡率存在减速现象。本文基于2000年和2010年第五次、第六次人口普查数据计算的65~100岁男性和女性高龄人口对数死亡率⑦也显示,对数死亡率的增长速度随年龄增长有变缓趋势,95~99岁部分超高龄死亡率则出现了反常的下降现象。 本文基于我国第五、六次人口普查中全国城市、镇、乡村的分年龄、分性别65岁及以上高龄人口死亡数据,在分层建模框架下,将数据质量控制方法和数据异质性融入其中,来比较和评价同时涵盖了死亡率增速、常速和减速三种情形的5类经典Logistic死亡模型⑧在我国高龄人口死亡率建模中的拟合效果和适用性。在深度诠释我国高龄人口死亡率的性别差异、区域差异和动态改善的基础上,探讨我国高龄人口死亡率减速到底是估计的下行偏差,还是事实? 二、死亡率的经验估计及高龄死亡力模型 (一)死亡率建模指标 这里,为x岁暴露死亡风险的幸存者个体人数。从式(1)可以看出,不依赖于年龄区间的长度,它是在瞬时时间x上度量的,没有上边界,并且具有一维速率,其估计值取决于选取的时间测量单位,如每年、每月。 在生存分析中,也可以表示为: 这里,f(x)表示死亡时间随机变量X的概率密度函数,s(x)为生存函数,表示新生儿在x岁时仍存活的概率。从式(2)可以看出,等于对数生存函数lns(x)的负导数。 通常来说,在研究低龄人口死亡率时,采用这3种指标估计的死亡率差异并不大,但在研究高龄乃至超高龄死亡率时,不能忽略这种差异。这是因为,一方面,和的估计值取决于计算中选取的年龄区间Δx的长度,这对死亡统计数据相对匮乏的超高龄死亡率的分析和解释会造成一定困难。另一方面,虽然与粗死亡率估计相比,在死亡率建模和死亡率指数的构造中更有优势,但是由的定义可知,它在单位1内是有界的,当死亡率特别高时,这将不可避免地会产生明显的死亡率减速。相对来说,的取值则可以大于1,故在高龄死亡率建模中,可能是一种更方便的指标。为此,本文建模采用的指标为。 (二)死亡力的经验估计 1.Sacher估计 较早的死亡力经验估计是由Sacher(1956)[13]提出的,定义如下: 如果,那么针对死亡力的缓慢变化,该估计是无偏估计。Gehan和Siddiqui(1973)[14]进一步指出该估计也是MLE。 2.简化的Sacher估计 对于等于1的年龄区间,假设死亡力在年龄区间内为常数,Gehan和Siddiqui(1973)[14]给出了简化后的Sacher估计。定义如下: 3.Kimball估计 Kimball(1960)[15]假设死亡在年龄区间内服从均匀分布,给出了死亡力的另一种经验估计: 从式(5)可以看出,它是有界的。故Gavrilov和Gavrilova(1991)[7]认为,当死亡率特别高时,它并不是极端高龄的死亡力的最佳估计。 4.其他估计 在生存分析中,根据中心死亡率的定义: 结合式(2)可以看出,中心死亡率是理论上死亡力的一种很好的估计。 (三)高龄人口死亡力模型 表1给出了死亡率增速、常速和减速的代表性模型——Logistic类型死亡模型的结构和特征。这些模型在各国高龄人口死亡率建模与分析中起到了决定性的作用。 从表1可以看出,以往研究中关于高龄死亡率减速现象的研究是通过对数死亡率的二阶导数来判断的。当时,为凹函数,且该值越小,的图形越凹,减速程度越大。正如表1第6列所示,在Gompertz模型中,线性形式的对数死亡力就是保持常数η的比例增长。而在其他模型中,凸函数形式的表现为死亡率以小于η的递增速度增长;凹函数形式的表现为死亡率以大于或小于η的递减速度增长;拟凹函数形式的表现为死亡率先以递增速度增长,而后出现拐点,转为以递减速度增长,但笔者已经证明,无论是增速还是减速,该速度都小于η。也就是说,在实际问题中,可以根据这些模型中参数的符号来判定死亡率的增长模式到底是增速、常速还是减速。 三、高龄人口死亡力分层模型 (一)基于Logistic类型的高龄死亡力分层模型结构 在表1所示的Logistic类型死亡模型基础上,本文将分层结构引入到各种模型中,来进一步刻画死亡率的性别差异、区域或类别差异,以及死亡率随时间的动态改善。下面以最具一般形式的Logistic模型为例,给出几种合适的分层Logistic模型结构。 令表示第t年、区域i、性别j的x岁的瞬时死亡率。其中下标t∈{2000,2010},i∈{0,1,2},j∈{0,1}分别代表2000年和2010年,城市、镇和乡村,男性和女性。 1.含1个随机效应的分层结构 在Logistic模型中引入分层结构的一种最简单方式就是,通过仅考虑4个模型参数{A,B,C,η}中任意一个参数的异质性来扩展原始模型。以最能衡量对数死亡力增长速度的参数η为例,仅考虑随机效应的死亡力分层结构为: 2.含2个随机效应的分层结构 下面通过考虑4个模型参数{A,B,C,η}中任意两个参数的异质性来扩展原始模型。以参数{C,η}为例,考虑随机效应的死亡力分层结构为: 3.含3个随机效应的分层结构 下面通过考虑4个模型参数{A,B,C,η}中任意3个参数的异质性来扩展原始模型。以参数{A,B,η}为例,考虑随机效应的死亡力分层结构为: 4.含4个随机效应的分层结构 与前三种分层结构相比,最复杂的一种分层结构是同时考虑4个模型参数{A,B,C,η}的异质性,即: (二)含数据质量评估的模型选择及参数估计 1.数据质量评估方法 针对高龄,尤其是超高龄人口存在的年龄误报、记录准确性很难考证等数据质量问题,沿用Gavrilov和Gavrilova(2011)[11]中使用的数据质量控制方法,即认为当女性与男性人口比例开始下降时的最大年龄可以作为年龄报告数据质量良好的上界。这种控制方法的自然依据在于,通常来说,女性比男性更长寿,随着年龄的增长,高龄人口中女性的比例会更高些。也就是说,由于更高年龄人口的年龄误报的可能性更大,故随着年龄的增长,与死亡率相关的统计数据的质量往往会逐渐变差。 2.各类分层模型中的最优模型选择与参数估计 假设考虑的高龄人口死亡率数据的年龄起点为65岁,可获得的死亡统计数据中最高的单岁死亡年龄为岁,如=99(11),数据质量最好的年龄为N岁,通常N<99。 下面以最具一般性的分层Logistic模型为例,考虑数据质量由好变差过程中,最优分层模型结构的选取及相应的参数估计方法。其步骤可以概括为: ①设定年龄区间为[65,N-1](12),针对前面给出的15种分层Logistic模型结构(13),设定模型主要超参数初始值(14),使用MLE或非线性优化技术估计模型的所有超参数,进而估计模型的随机效应,而固定效应参数则是直接通过样本数据来估计。在此基础上,计算各种分层结构下模型的检验统计量,如对数似然统计量(lnL)、赤池信息准则(AIC)、贝叶斯信息准则(BIC),它们之间的关系是: 其中,d为分层模型中超参数个数,n表示观测样本个数。最后,选择出使BIC统计量最小的模型为该年龄区间下的最优模型(15)。 ②逐步扩大年龄区间,依次考虑年龄区间为[65,N],[65,N+1],…,[65,99]时,重复步骤①。 ③在步骤①和②中的各年龄区间中,BIC统计量最小的分层模型可以视为是不同数据质量下各年龄区间对应的最优分层模型,进而可以度量最优分层Logistic模型的拟合效果对数据质量改变的敏感程度。同时,也可以通过判断所有年龄区间中BIC统计量最小的分层模型是否会自然地落入数据质量较好的年龄区间,来探讨是否有必要引入数据质量度量。显然,如果会落入,就不需要数据质量度量;如果不会落入,则进行数据质量度量是有必要的。 显然,这种分层结构的选取和参数估计同样适用于表1所示的其他4类Logistic死亡力分层模型。进而不但可以比较各种Logistic类型死亡力分层模型对数据质量变化的敏感性,而且可以判断给定相同的年龄区间,尤其是数据质量良好的年龄区间,哪种Logistic类型死亡力分层模型最优。 3.模型适合性的检验诊断 四、实证分析 (一)数据来源及特征 本文建模使用的数据来源于2000年全国第五次人口普查和2010年全国第六次人口普查中全国城市、镇和乡村分年龄、分性别的65岁及以上高龄人口死亡数据。 在下面的实证分析中,采用式(4)所示的死亡力经验估计,这是因为它清晰地给出了死亡力与死亡概率之间的关系,利用该公式可以实现生命表中与的相互转换。 数据显示出,第一,无论是男性还是女性,同一年份下我国城镇乡高龄死亡力存在显著差异,乡村高龄死亡力明显高于镇,镇明显高于城市;且2000-2010年,城镇乡高龄人口都存在明显的死亡率改善。第二,死亡力及死亡率改善程度存在性别差异,女性的死亡力明显低于男性。第三,95岁及以上超高龄人口死亡力的经验估计的波动性很大,且男性的估计波动性明显高于女性。这表明,在衡量我国高龄人口死亡率减速是否成立的研究中,我们无法回避超高龄人口死亡统计数据的质量问题。为此,本文将数据质量评估方法引入到基于年份、城镇乡和性别的分层建模框架中,来探讨我国高龄人口死亡率减速到底是事实,还是估计偏差? (二)高龄人口数据质量评估 如前所述,沿用Gavrilov和Gavrilova(2011)[11]的数据质量控制方法,即认为当女性与男性人口比例开始下降时的最大年龄可以作为年龄报告数据质量良好的上界。 数据显示,两次人口普查中,女性与男性比例开始下降时的最大年龄大约是93岁或94岁,也就是说年龄报告、记录准确程度具有良好质量的年龄上界N为93岁或94岁。为此,下面考虑不同数据质量下,各种Logistic类型死亡力分层模型抗数据质量的能力,即对数据质量变化的敏感程度,以及在控制数据质量后,即给定最好的年龄区间下,哪种Logistic类型死亡力分层模型最优。 (三)最优分层模型选择、参数估计及检验诊断 1.超参数初始值的选取 针对5种Logistic类型分层模型中共同的两个参数B和η,本文选取了相同的参数初始值,即={0.0000322,0.0955}。这些初始值的选取借鉴了段白鸽和孙佳美(2012)[16]中利用MLE得到的2005年我国男性和女性合计人口的参数估计值。从分层模型的基本思想可以看出,这些初始值应体现出我国2000年和2010年城镇乡男性和女性死亡率的平均水平,故本文选取2005年合计人口的参数估计值是合理的。 另外,为了更好地比较各种分层模型的拟合效果,在分层Makeham模型和分层Logistic模型中,设定参数A的初始值为0。在分层Beard模型和分层Logistic模型中,设定参数C的初始值与参数B的初始值相同,即都为0.0000322。 2.各种分层模型的评价及选择 针对5类Logistic死亡力模型,依次考虑年龄区间为[65,92],[65,93],…,[65,99]时,每类模型中最优分层模型结构及相应的检验统计量。表2给出了五类模型中BIC统计量最小的分层模型含有的随机效应及对应的年龄区间。 从表2可以看出,第一,当不考虑数据质量时,针对这些嵌套的分层模型,由于Logistic模型的BIC统计量最小,故5类模型中,Logistic模型是最优选择。第二,当考虑数据质量时,即随着年龄区间的扩大,数据质量由好变差情形下,Gompertz、Makeham和Kannisto三种模型中BIC最小的年龄区间都是[65,93],即最优模型恰好位于数据质量良好位置;而Beard和Logistic模型中BIC最小的年龄区间分别为[65,96]和[65,95],即最优模型的年龄上端点略有上移,包含了一些质量欠佳数据。此时,若最优模型仍选取Logistic模型,则会存在因数据质量问题导致的模型对真实死亡率曲线的解释力大打折扣。 当数据质量由好变差时,Gompertz、Makeham和Kannisto模型的拟合效果明显变差,而Beard和Logistic模型的拟合效果并没有受到太多影响。这表明,与其他3种模型相比,Beard和Logistic模型对数据质量改变的敏感程度更低。这在一定程度上表明,后两种模型的估计结果更稳健。另一方面,在数据质量最好的年龄区间[65,93]下,最优的Logistic模型仅含有两个随机效应{C,η},变得更简洁,且BIC值为-2955.74,也明显小于其他4种模型,而Beard模型的BIC值为-2870.68,比Kannisto和Logistic模型要大,并不是最小的。因此,在改进数据质量度量后,本文最终选定的最优模型是含随机效应{C,η}的分层Logistic模型。 3.最优分层Logistic模型的参数估计 表3给出了控制数据质量后,最优分层模型中6个主要超参数的估计值。在此基础上,表4进一步给出了考虑随机效应{C,η}之后,最优分层模型得到的在考虑年份、城镇乡、性别差异后,4个模型参数的最终估计值。 4.最优模型的死亡力修匀效果 为了评价最优模型的修匀效果,图1给出了最优分层模型得到的我国两次人口普查中城镇乡男性和女性死亡力和对数死亡力在不同年龄的估计值。为了进一步展示最优模型对建模使用的死亡力经验估计的修匀效果,图2绘制了对数刻度下的死亡力和最优模型估计的。 在图2中,黑点表示对数死亡力的经验估计,相当于利用死亡统计数据计算的真实值。图1和图2中,实线表示不考虑死亡力的年份、城镇乡和性别差异,仅由表3给出的模型主要超参数的估计值计算的65~93岁的平均死亡力和平均对数死亡力,对应于不含随机效应的非分层模型的估计结果,其计算公式为: 图1 基于年份、城镇乡和性别的最优分层Logistic模型估计的高龄死亡力 图2 高龄对数死亡力的真实值和最优分层Logistic模型估计值的比较 虚线表示利用表4给出的最优分层模型参数估计值得到的65~93岁的。 图3 最优分层Logistic模型的标准化残差和死亡力拟合值的检验诊断 由图1可知,2000年和2010年城镇乡男性和女性的估计死亡力位于平均死亡力的两侧,表明本文构建的分层模型具有合适性。由图2可知,虚线所示的含随机效应的分层模型的拟合效果更好。总之,这些图从不同维度表明,本文构建的死亡力分层模型在刻画我国高龄人口死亡力的年份、城镇乡和性别差异中具有优良性能。 5.最优模型假设的检验诊断 由式(12),图3绘制了最优分层模型得到的65~93岁高龄死亡力估计值的一系列残差诊断图,以进一步评估模型的适合性和充足性。其中,第(1)~(3)个子图表明标准化残差近似服从正态分布,尤其是第(3)个子图中的经验累积分布图和正态分布拟合的累积分布图几乎完全重合。第(4)~(5)个子图表明该分层模型的拟合效果非常好。第(6)~(9)个子图分别对应于标准化残差的年龄效应、类别效应、性别效应和年份效应,这些诊断图中几乎所有都在[-2,2]范围内,且残差都随机散布在零线的周围,也表明本文构建的分层模型的模型假设具有合理性。 (四)对死亡率是否减速的解释 如前所述,Gavrilov和Gavrilova(2011)[11]的研究表明,夸大年龄、数据异质性、使用死亡概率而非危险率指标是导致以往研究中高龄人口死亡率估计出现下行偏差的三大影响因素。鉴于此,本文在衡量我国高龄人口死亡率减速到底是估计偏差(16)还是事实时,选取的判定原则是:在控制这三大影响因素的基础上,如果最终选取的最优模型仍是描述死亡率减速的模型,则认为死亡率减速是事实,而非估计偏差。 具体来说,本文通过数据质量控制方法控制了高龄(尤其是超高龄)人口夸大年龄的因素,通过考虑我国高龄人口死亡率的性别差异、城镇乡差异和两次人口普查中死亡率的动态改善来区分死亡率数据的同质性和差异性,通过选取危险率(即死亡力)而非死亡概率来控制度量死亡率的建模指标,以控制影响估计偏差的三大因素。在此基础上,通过比较和评价同时涵盖了死亡率增速、常速和减速3种情形的5类经典Logistic分层死亡模型在我国高龄人口死亡率建模中的拟合效果和适用性,得出含随机效应{C,η}的分层Logistic模型最优,且最优模型的参数的正负号也表明我国高龄人口死亡率减速是成立的。 综上所述,本文得出的结论是,在改进数据质量度量后,对于具有较高数据质量的65~93岁年龄区间来说,我国高龄人口死亡率减速不属于模型的估计偏差,而是事实。 五、结论及建议 在已有研究中,学者们经常采用Logistic类型高龄人口死亡模型分析某一具体日历年或出生年分年龄人口死亡率的变化特征,相比之下,本文将死亡率数据质量问题、数据同质性和差异性融入已有5类Logistic模型中,通过构建一套具有一致性的分层建模框架(17),在深度诠释我国高龄人口死亡率的性别差异、区域差异和动态改善的基础上,来探讨我国高龄人口死亡率随年龄的增长模式,以此来解释我国近10年来高龄人口死亡率减速到底是估计偏差,还是事实?分析结果表明,当数据质量良好时,描述死亡率减速的Logistic模型拟合效果最优,且Logistic模型对数据质量改变的敏感程度最低。也就是说,我国高龄人口死亡率减速不是估计的下行偏差,而是事实。实质上,Gavrilov和Gavrilova(2011)[11]的研究之所以认为88~105岁超高龄死亡率并没有表现出明显的减速现象,这与该文献考虑的是出生队列数据有着直接关系。本文认为,在为高龄死亡率建模时,一种直观的认识就是基于出生年的对数死亡率曲线显得比基于日历年的曲线更平缓,即死亡率增长速度要小,导致在相同年龄区间,前者的对数死亡率的绝对增量要小,此时采用具有线性形式的Gompertz模型可能会更好。 本文提出的高龄人口死亡率分层建模方法具有以下优势:第一,克服了传统统计方法(如MLE)估计Beard模型和Logistic模型中参数和方差-协方差矩阵的难度。第二,本文考虑的5类Logistic分层模型属于非线性分层模型,具有非线性分层模型的三大优势,即模型的解释性、简洁性和对观测样本外数据预测的有效性。第三,各种模型的比较是在一个一致性框架下完成,即对于嵌套的分层模型,可以直接采用BIC统计量来比较各种模型的优劣。而在非分层模型中,针对这些非线性模型,为了估计模型参数,通常的做法是将其线性化,流行的变换包括取对数、双对数、互补双对数和Logit变换等,比如Gompertz模型中ln(μ[,x])为线性形式,Kannisto模型中logit(μ[,x])也为线性形式,而其他3种模型却很难通过这些常见的变换转化为线性形式,即使可以转化,5种模型也很难在一个一致性框架下比较它们的拟合效果。第四,分层模型通过设置自身的概率子模型,自然地考虑了不同年份、城镇乡、男性和女性死亡率的同质性和差异性,进而实现了更好的拟合效果。 就模型的扩展应用而言,第一,建模方法同样适用于第二部分给出的其他死亡力经验估计,但正如第二部分所述,就高龄死亡力建模而言,Sacher估计更合适。第二,从本文实证分析的结果可以看出,5类Logistic模型适用于65~93岁的更宽的年龄区间,而不仅仅只局限于特定的超高龄。也就是说,没有必要建立两阶段Logistic模型。第三,也可以将提出的分层建模方法扩展应用于我国人寿保险业两张经验生命表(1990-1993年、2000-2003年),进而比较估计结果与全国第四、五次人口普查数据得到的结果的异同。第四,对于超高龄死亡分布来说,随着年龄的增加,死亡年龄的月度分布可能偏离均匀分布假设,对于特定年的死亡月份更多聚集在前几个月,呈现出右偏分布。也就是说,在为超高龄死亡率建模时,在保证一定数据量的情况下,可以考虑细分年龄区间,比如采用月度年龄区间。当然,这需要进一步细化人口普查数据的搜集,本文建议对80岁及以上人口按月度年龄区间统计数据。最后指出,关于94岁及以上极端高龄人口的死亡模式则有待进一步专项深入研究,以期在精确量化死亡率的客观规律的基础上,为我国人口老龄化进程提供更深层次的认识。 ①超高龄(Oldest-old,Advanced Old Ages)也称高高龄,是指高龄人口中的一些更高的年龄组别。目前,关于超高龄具体如何界定的问题,尚没有公认的一致的说法。已有研究文献大多考虑的超高龄是指85岁及以上的年龄组别。 ②死亡率减速是指随着年龄的增长,对数死亡率的增长速度呈现出递减趋势。 ③对于二项式模型,使用的是85岁及以上的死亡数据;对于其他模型,使用的是80岁及以上的死亡数据。 ④HP模型分婴幼儿、青壮年和老年三阶段对死亡率建模,其中老年阶段死亡率模型形式同Kannisto模型,与Kannisto模型的区别在于,HP模型中建模的死亡率是条件死亡概率,而Kannisto模型中建模的死亡率为瞬时死亡率,也称危险率或死亡力。 ⑤纳入研究的13个国家是奥地利、丹麦、英国、芬兰、法国、西德、冰岛、意大利、日本、荷兰、挪威、瑞典和瑞士。 ⑥在精算学中,危险率(Hazard Rates)通常被称为死亡力或死亡效力(Force of Mortality),有时也简称为死力。 ⑦这里,对数死亡率是指对数刻度下的粗死亡率,也称对数中心死亡率。 ⑧这5类经典Logistic死亡模型详见表1。 ⑨与不同,是真实暴露人口数,则是在生命表编制中,为了便于计算,引入的虚拟人口。类似地,也不同于。 ⑩由于大多数年龄的死亡力都在[0,1]区间,故这里放松了过程方差假设,将ζ也看作是模型的超参数。通常在为取值在[0,1]区间的变量(如死亡率、损失率)建模时,这种处理方法得到的结果明显要比直接设定ζ=0.5的不放松过程方差假设下的结果要好;而在为损失额等变量建模时,两种处理方法的差异要小些。 (11)例如,我国第五、六次人口普查中,统计的死亡率的年龄区间为[0,1,…,99,100+],其中,100岁及以上合并为一个分组。其最高的单岁死亡年龄为=99。 (12)这里从年龄区间为[65,N-1]开始考虑,是为了验证从[65,N-1]变为[65,N]时,模型的拟合效果是否会变得更好。 (13)其中,含1个随机效应的分层结构有4种,含2个随机效应的分层结构有6种,含3个随机效应的分层模型有4种,含4个随机效应的分层模型有1种。 (14)这种表述是指,在仅含1个随机效应{η}的分层结构中,主要超参数可以记为;在仅含2个随机效应{C,η}的分层结构中,主要超参数可以记为;在仅含3个随机效应{A,B,η}的分层结构中,主要超参数可以记为;在同时含4个随机效应的分层结构中,主要超参数可以记为。其他分层结构依次类推。 (15)相比AIC统计量,这里之所以采用BIC统计量作为评价最优模型的指标是因为,BIC统计量在权衡模型的复杂性与拟合效果时,同时考虑了模型超参数个数d和观测样本数n对lnL的双重惩罚。 (16)从统计学角度讲,估计偏差的影响因素非常复杂。例如,原始数据的代表性和准确性(包括产生数据的机制)、模型的构建及参数的估计方法都可能影响估计的精确性。本文在实证分析中,控制了这些影响因素。 (17)这里所称的“一致性”是指:针对5类分层模型,从使用的死亡率样本数据到选取的死亡率建模指标(本文采用死亡力)、从模型超参数初始值的选取到模型固定效应参数和随机效应变量的估计方法、以及各种模型的比较与选择都是在一个“一致性”框架下完成的。中国老年人口死亡率减速:偏差或事实_死亡率论文
中国老年人口死亡率减速:偏差或事实_死亡率论文
下载Doc文档