Cox模型与寿险退出研究中的比例风险_协变量论文

Cox模型和寿险退保研究中的比例危险性,本文主要内容关键词为:寿险论文,危险性论文,模型论文,比例论文,Cox论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:F224 文献标识码:A

一、问题的提出

利用生存分析研究寿险退保问题是一个很好的工具,因为寿险保单的持续期(persistency duration)可以看作生存期长,而保单的退保或失效可以看作一个“保单生命”的结束,这其中的保单退保或失效就成为生存研究的目标事件。笔者利用很多统计工具研究导致保单失效的各种因素,但是这些因素的影响是一成不变的吗?它们随时间的变化会发生怎样的变化呢?本文将要解释这些问题。另外在生存分析中的Cox比例危险模型是一种半参模型,对于基准危险率的分布没有要求所以更具灵活性,故将在本文以这个模型为主要的分析工具。

二、Cox比例危险模型和危险比例性检验

Cox(1972)[1]首先引入和建立了比例危险模型,这是一个非参模型。它不要求事件发生时间变量有确定的分布,这一点是Cox比例风险模型的显著优点,并且也使其在应用上比较灵活。Cox比例风险模型的危险率定义为:

对于非参模型检验比例危险假设最好的方法是基于广义残差,检验形式有图形和统计检验两种。在标准最小二乘回归里,残差是指因变量的实际观测值和预测值之差,而在寿命模型的框架下这样的残差定义并不明显,因为因变量的值可能是删失的,而且由于在参数估计中使用偏似然方法使得所拟合的模型不能提供系统成分的估计[2]。理解生存模型的残差定义关键是将Cox模型作为更广义“计数过程”的一个特例,这个概念是由Andersen和Gill(1982)[3]提出的,在这种解释下,数据的每个个体被看作一个行进比较慢的Poisson过程的一个观测值,删失个体不是被认为“不完整数据”而是作为事件发生个数为0的观测值。Fleming和Harring(1991)[4]通过把Cox模型作为更广义乘法强度计数模型(multiplicative intensity counting medel)得到Cox比例风险模型的殊差。Schoenfeld残差是由Scthenfeld(1982)[5]引进的,其中对于每个协变量定义的Schoenfeld残差,是将风险集或总样本中所有有效非删失观测数据所对应的得分残差相加。例如对于协变量k定义的Schoenfeld残差:

其中是由Therneau,Grambsch与Flemming(1990)[[6]提出的得分残差,式中的N表示非删失数据的总数。这个和式使得每个协变量在每个时间点上的残差为一个常数,如此可以用来检验制定严格的危险比例性假设。

Schoenfeld残差在检验比例危险假设上显示出了重要的作用,这可以从两个方面说明:第一,如果模型的危险率函数遵守比例假设,那么Schoenfeld残差在整个生存区间上是一个随机游走的状态。也就是说,协变量所对应的Schoenfeld残差与生存时间无关;反之,如果模型违背比例假设,所拟会的模型在当实际危险率有上升趋势时会低估危险率,而当实际危险率有下降趋势时会高估协变量的危险率,这种解释可参考图1。

图1是显示了一个具有非比例效应的二值变量的残差分析图,实线表示危险率不成比例时的实际值,而由圆点构成的线段是比例危险模型的估计值。残差简单解释为事件发生的观测值和实际值之间的差值。就象图1中反映的对于危险率在一段时间里有下降汇合趋势的某个二元变量,在时间较小时比例模型会低估变量的影响,而在较大t时高估了这种危险率。第二,Schoenfeld残差是构成非比例假设统计检验的基础。通过上述思想Therneau,Grambsch和Flemming's(1990)[6]建立了基于残差的统计检验,他们将全部时间的Schoenfeld残差求和,然后取其绝对值的最大值作为模型非比例假设的全局检验。类似地,Harrell(1986)[7]建立了每个协变量的Schoenfeld残差和生存时间的秩之间的相关系数。

图1 具有非比例效应的二值变量残差分析图

当协变量各效应之间不成比例时,有两种可以接受的估计方法:第一种方法是将整个时间分成两个或多个不同时间区间,然后对每个时段拟合Cox模型。这种方法的优点是理解和计算过程比较简单,但对时间段的划分比较随意,选定的分割点会显著地影响模型结果;而且当有遵守比例假设的协变量存在于模型中时,此方法则变得无效(注:在此是针对时间相依较显著的变量运用了这种方法,故避免了对于遵守比例假设的协变量系数估计的扭曲。)。另一种估计方法是将危险率不成比例的协变量与时间变量的某种函数(通常是自然对数函数)的交互项放入模型中。这样为了检验协变量X是否具有非比例效应,需要在模型中加入新建变量(Time)(注:时间的交互项也有其他形式,如或者,即反映了可能具有的不同形状的非比例性。然而应用最多的还是(Time)交互项,而且通过模拟发现ln(Time)检验效果并不低于其他常用来检测比例危险的合理方法(Hosmer,David W等,1999)见参考文献[2]。)。这也是处理非比例问题的一个一般方法。交互项的显著性检验构成了对协变量非比例效应的直接检验,而且当危险率不成比例时加入时间交互项的模型,将对协变量影响的评价也将更为准确。

三、数据样本

笔者用到的样本为国内某地区近几年终身险的保单退保数据,包括由于各种原因导致合同停止的保单以及到考察期结束止仍为有效的保单。在总样本中有少量数据(被保险人的年均收入因素取值缺失)影响本文的分析,所以为了结论的准确性将其剔除。另外趸缴数据由于量很少也被剔除,这样得到用于分析的数据有232202条。由于失效(这里的失效包括保单状态为失效和永久失效的保单,失效保单的终止日期按失效日期计,永久失效保单的终止日期按保单合同终止日期计。)或退保导致合同停止的保单将是目标保单,而将其他原因导致保单停止和考察期内仍有效的保单视为删失保单。故将保单的持续期定义为一个连续变量:

对于合同停止保单:

持续期=失效日期或合同停止日期—保单生效日期

对于考察期内一直有效的保单:

持续期=考察期结束日期—保单生效日期

由于数据的限制,所研究的影响因素只限于保单特征和被保险人的个人特征。其中的部分分类变量和连续变量在分析中作了粗糙分类变换,因为这样使得模型的AIC值大大降低。下面以连续变量保费为例介绍分类的过程。

首先将样本数据中的保费分成14个小区间,分区间的标准是保证每个区间的样本数量尽量一致,这些区间是:

[min,600](600,700](700,750](750,800](800,850](850,900](900,950)(950,1000](1000,1100](1100,1200](1200,1300](1300,1500](1500,1800](1800,2300](2300,2800](2800,max]

分别以16个指示变量prem1~prem16表示属于这个区间中的保单,其中以prem16作为参考量。将prem1~prem15这15个指示变量一起放入Cox模型中,参数估计的划分见图2。在参数估计的散点图上,根据系数估计基本在同一水平上的划分为一个区域,当然在划分区域时可以有多种选择,将其一一放入Cox模型中,并选取AIC值最小的模型所对应的区域。这样反复试验则最终得到五个区域,根据这五个区域所包含的变量重新定义新的变量:

图2 根据参数估计重新划分保费分类区域图

第一组(prem1):包括保费≤600,700<保费≤750,1300<保费≤1500的保单。

第一组(pretm):包括600<保费≤700,1200<保费≤1300的保单。

第三组(prem3):包括750<保费≤800,850<保费≤900,1100<保费≤1200,1800<保费≤2300,800<保费≤850,950<保费≤1000的保单。

第四组(prem4):900<保费≤950,1000<保费≤1100,1800(保费≤2300的保单。

第五组(prem5):2300<保费≤2800的保单。

第六组(prem6):保费>2800的保单,此变量作为参考标准。

图3 Cox比例危险模型拟合表1中与协变量对应的cox-snell残差图

同样的程序对保额、年均收入、年龄和职业进行了粗糙分类,得到的类别及其他变量的变换处理见表1。

表1 影响因素定义及分析应用分类处理表

四、模型拟合结果及Schoenfeld残差图

从图3的cox-snell残差可以看到:这个数据应该是适合Cox比例危险模型的,但还是有必要对每个协变量的比例危险假设进行检验,这里用前文中的Schoenfeld残差。在Schoenfeld残差和时间变量duration的秩构成的图中(由于篇幅关系这里只列出了age2、age5两个变量的Schoenfeld残差图,见图4组图),包括一条零点(残差的均值)的参考线和一条残差的平滑曲线(光滑度为0.7),这样有利于观察残差的趋势。如果协变量具有比例效应,那么这两条线应该相互挨的比较近。也就是说,能够表现出残差在任何一个时间点上的均值应该为零。

从图4看:age2和age4两个年龄组的残差平滑曲线具有正的斜率,说明在持续期较短时中年投保人相对于年轻投保人的保单失效危险率被低估了,而45~50岁的投保人在这段时间却被高估了,同时这组在3年后的危险率又被低估了。由此结论知,年轻投保人的保单并非在整个持续期都表现出较大的失效危险。从年均收入变量看:这个模型低估了年均收入不大于1万的保单在短持续期里的危险率,相应地高估了收入较高者,在以后的时间里中等收入者的退保危险应该高于收入较低者;从保费水平看:在第一个保单年度低保费保单的失效危险被低估了而高估了高保费保单,但是在以后的大部分时间里残差是紧挨零值参考线的,这也使得他们的残差与时间变量的相关系数不显著;从保单大小看:大保额的保单相对小保单的失效危险在较短和较长的持续期里均被高估了,而1万元保额在这个数据中应该占有较高的失效危险;从缴付期间看:20年期的保单相对10年期的失效危险在前两个保单年度应该具有稍高的危险,因为这个模型将其低估了。

图4 ab分别代表协变量age2、age5的Schoenfeld残差和duration的秩构成的组图

结合Schoenfeld残差图以及与时间变量的相关系数分析得到prem3,prem5,age2,age4,age5,pay20,ear1,ear2,ear3,amnt3,marr,occ4,occ6这些变量的参数估计是随时间变化的,因此需要对其作进一步的处理。

五、模型的改进

引入时间相依变量:

这样得到比例危险模型的危险率在t≤τ,这个时间段对应的相对风险是,τ时间之后相对风险降低为。为了确定最优的τ值,对每一个模型都拟合一系列的τ值,选择最大的对数偏似然函数的值被记录下来。由于似然函数的值只有在事件发生时才会改变,因此模型的拟合是伴随τ等于各个事件发生时间而进行的,这样得到最大的对数似然函数的τ值是τ的最优值。下面首先寻找τ的最优值,表2展示了协变量对应的最优τ值,在表2中没有出现occ2、hea1、jobfee3个变量,这是因为这3个变量的对数似然值不随时间分割点的变化而有大的波动,即当引入时间指示变量时它们并没有带来更多的信息。

这里为得到更好的模型,尝试利用上述经过改进的协变量建立两种模型:模型1是只对prem3,prem6,age2,age4,age5,psy20,ear1,ear3,amnt3,marr,occ4,occ6这些变量进行上述的改进,其余变量保持不变;模型2是保留occ2、heal、jobfee3个变量不变,其他变量与上述分割点的时间指示变量的交互项添加到模型中。经过SAS/Phreg的运行,得到两个模型的偏对数似然(-2logl)、AIC值分别是457028.18,457098.18和449585.23,449679.23。另外下面的接收者操作特征曲线(Receiver Operator Character curve简称ROC曲线)也说明模型2更好一些。

具体来说,利用估计的生存概率作为判断变量,即当生存概率大于某个分割点时判定这个保单是非失效或非退保保单,小于这个点时认定为失效或退保保单。图4的ROC曲线比较了这两个模型和logistic模型拟合这组数据的预测能力,其中由圆点连接的曲线代表模型1的ROC曲线,由星号构成的曲线是模型2的ROC曲线,带有加号连接的曲线为logistic回归得到的ROC曲线,中间的虚线部分(对角线部分)为基准线。可以看到模型1和模型2的ROC曲线下方的面积显然要大于logistic模型,从这一点讲生存分析得到的预测模型要优于logistic模型;而且比较模型1和模型2,模型2的ROC曲线一直位于模型1的上方,因此可以认为第二个模型对于失效保单的预测能力更强些。

六、对于影响因素的解释

虽然模型2在上述比较中是最好的,但是将原始变量和时间变量对数值(ln (duration))的交互项放入模型中使得模型能够反映更多的信息,因而也使得对协变量的解释更接近于真实情况。这个模型得到的参数估计如表3所示。根据表3中的参数估计,可以分析上述因素对于保单退保失效危险的影响随时间变化的情况。例如对于被保险人的投保年龄,各组的保单失效危险率与第一组的相对比值随时间变化的趋势,见图5。

从图5中可以分析出:较低投保年龄的保单并不是在全部时间里都表现出最高的失效危险率,在大约前两个保单年度里投保年龄在40岁和50岁之间的保单失效危险率要远远高于低龄保单,而在25到40以及大于50岁时投保的保单的表现要缓和,并且趋势几乎相同。所以在保单的早期失效中也要重视40~50岁投保的保单,按道理讲他们应该非常需要保险这样的健康保障,之所以出现这样的潜在危险,其原因需要去调查。同样,对其他协变量也如此分析,发现对于年均收入组变量,他们之间的比值随时间的递增而递减,第一组的保单表现尤为明显,而其他两组的失效危险率水平相当,在前两年的危险率也高于收入最高组,其后降低。

注:参数估计中带有“*”表示在0.1水平上不显著的变量;带有“**”表示在0.05水平上不显著的变量;其余变量均在0.01水平上显著。

这一趋势说明保单的早期失效危险基本集中于低收入保户。对于职业变量,在前2年里除了第二组的危险率很高外,其余各组的危险率比农牧业稍高,而在2年后各组几乎平行变化趋势很小且平稳,危险率逐渐低于农牧业保户的保单;第二组中含有的新闻出版业和体育在样本数据中占据的保单失效率达到最高,但是体育业在样本中的投保份额很低,那么新闻出版业为何会出现高危险率的原因则需要探寻;第六组的保单在调查的全部时间里均显示出比农牧业保户高的失效危险率。对于保额变量在2.5年之前大保单的失效危险率较高,这之后趋于平稳并且低于低保额保单。一方面,大保额保单的突然失效或退保可能和欺诈有关或者只是为了保证保险代理人员及时完成保费任务而做秀;另一方面,大保额保单受到重视和严格审查所以在较长持续期里的失效危险率也降低。对于缴付期间,在全程中除了开始的一段时间外缴付20年的保单失效危险率均要低于缴付10年的保单,并会随着时间增加而降低,同时分析出在前2年里缴付10年的保单失效危险要大而在2年后变得缓慢,所得到的结果与缴付期间越长保单的失效危险会增大的一般结论相悖。对于投保人的性别,在持续期的前3年里男性投保人的保单失效危险率要高于女性,3年后则反方向转变。而对于婚姻状况,在前2年半里已婚投保人的保单失效危险率要远远高于独身投保人,而在全程的大部分时间里却是低于非已婚投保人的。保单的健康加费变量则显示在大部分时间里有健康加费的保单失效危险率低于没有健康加费的保单。

标签:;  ;  ;  ;  

Cox模型与寿险退出研究中的比例风险_协变量论文
下载Doc文档

猜你喜欢