COX模型压缩预测方法在担保率预测中的应用研究_预测模型论文

Cox模型的压缩预测方法在退保率预测中的应用研究,本文主要内容关键词为:模型论文,方法论文,Cox论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、问题的提出

由保监会联合麦肯锡咨询进行的研究调查结果显示,2004年寿险退保率为10%,退保额约300亿元。2007年由于银行利率的连续调高以及上涨的股市,也曾导致一些客户退保。2008年美国次贷危机引发的寿险信任危机虽没有对国内寿险业造成很大的冲击,但是也敲响了警钟。

另外,保险行业的技术特点决定着商业公司的成长与发展。寿险精算师需要对每一个参数都作出一个相当长期的假设。假设合适、准确与否对于产品定价、准本金估算和利润测度有着重要的影响。而退保率就是这样一个需要在寿险精算中需要进行假设的重要参数。如果退保率的期望值被低估,那么公司的风险是造成大量退保差损失;如果退保率的期望值被高估,那么公司的风险是造成产品的保费偏高,影响销售。

因此做好退保率水平的预测将对寿险公司在精算参数设定和提高保单持续率的对策上更具主动性。鉴于此,本文根据国内退保客户的个人特征及保单特征,利用生存分析中的Cox比例危险模型构造退保率的预测模型,希望对此领域的实务和理论研究有所帮助。

二、Cox比例危险模型及压缩预测简介

利用生存分析研究寿险退保问题是一个很好的工具,因为寿险保单的持续期(pemistency duration)可以看作生存期长,而保单的退保或失效可以看作一个“保单生命”的结束,这其中的保单退保或失效就成为生存研究的目标事件。

Cox(1972)一文首先引入和建立了比例危险模型,它不要求事件发生时间变量有确定的分布,这一点是Cox比例风险模型的显著优点,并且也使它在应用上比较灵活。Cox比例风险模型的危险率定义为:

所以根据(1)~(4)式的关系我们即可得到某一特征人群在某个时刻的生存概率预测值。

但是上述的预测方法得到的生存概率预测值并不理想,所以有学者提出利用压缩预测法进一步改善。较早提出“压缩(shrinkage)”思想的是Copas(1983)①,Copas指出模型对数据的拟合可以分成两部分:回顾性拟合(retrospective fit),意即对于“旧数据或原始数据”的拟合;另一部分是前瞻性拟合(prospective fit)或检验性拟合(validation fit),意即对于“新数据”的拟合。因为对回顾性拟合的评价中,原始数据既作为建模样本,又作为检验样本,所以人们感觉在对新数据的检验拟合时会出现比较乐观的情形,但事实并非如此,Copas引用“压缩”一词表示回顾性拟合和前瞻性拟合之间的差距。对于一般回归模型,文中给出经过压缩改进后的预测值为

三、数据样本的划分

本文用到的样本为某保险公司于1999年初到2006年6月8日期间承保的终身险保单的退保数据,包括由于各种原因导致合同停止的保单以及到考察期(2006年6月8日)结束止仍为有效的保单。

由于样本中“被保险人的年均收入”变量有部分缺失,因此考虑两种情况:情况一,不把此变量纳入到预测模型中,此时数据样本共计263836条,并从中随机抽取50%作为检验数据,其余50%作为建模数据,此时建立Cox预测模型Ⅰ;情况二,模型中纳入经济收入变量,只选用此变量不缺失的数据共计232202条,同样的方式抽取检验数据和建模数据,此时得到Cox预测模型Ⅱ。在本文中由于失效②或退保导致合同停止的保单将是目标保单,而由于其他原因导致保单停止和考察期内仍有效的保单将视为删失保单,保单的持续期定义为一个连续变量:

对于合同停止保单,持续期=失效日期或合同停止日期-保单生效日期

对于考察期内一直有效的保单,持续期=考察期结束日期-保单生效日期

四、模型Ⅰ的建立及预测能力检验

在模型Ⅰ中纳入的因子有被保险人的性别、年龄、婚姻、职业、缴费方式、缴费期间、保额、职业加费和健康加费,为了提高模型的解释能力对于其中的保费、保额、年龄进行了粗糙分类,这一做法使得模型的AIC值有明显的减少。以保费的划分为例,简要说明粗糙分类的过程。

首先将样本数据中的保费分成16个小区间,分区间的标准是保证每个区间的样本数量尽量一致,这些区间是:[min,600]、(600,700]、(700,750]、(750,800]、(800,850]、(850,900]、(900,950]、(950,1000]、(1000,1100]、(1100,1200]、(1200,1300]、(1300,1500]、(1500,1800]、(1800,2300]、(2300,2800]、(2800,max]分别以16个指示变量prem1~prem16表示属于这个区间中的保单,其中以prem16作为参考量。将prem1~prem15这15个指示变量一起放入Cox模型中,在这16个变量的系数估计值构成的点图(图1)上,基本在同一大小水平上的变量划分为一个组,构成一个新的指示变量,当然在划分区域时可以有多种选择,把这些新的指示变量一一放入Cox模型中,重新拟合数据,选取AIC值最小的模型所对应的区域。这样反复试验我们最终得到六个区域,根据这六个区域所包含的变量重新定义新的变量:

图1 根据系数估计点图重新划分保费分类区域

第一组(prem1):包括上述定义中的prem1、prem3、prem5和prem14,即保费≤600、700<保费≤750、800<保费≤850和1800<保费≤2300的保单;

第二组(prem2):包括上述定义中的prem2、prem4和prem12即600<保费≤700、750<保费≤800和1300<保费≤1500的保单;

第三组(prem3):包括上述定义中的prem6、prem10和prem8即950<保费≤1000、850<保费≤900、1100<保费≤1200的保单;

第四组(prem4):包括上述定义中的prem7和prem13即900<保费≤950和1500<保费≤1800的保单;

第五组(prem5):包括上述定义中的prem15和prem9即1000<保费≤1100和2300<保费≤2800的保单;

第六组(prem6):包括上述定义中的prem11即1200<保费≤1300的保单;

第七组(prem7):包括上述定义中的prem16即保费>2800的保单,此变量作为参考标准;

同样的程序我们对保额、年均收入、年龄进行了粗糙分类,另外也对职业类别按照相同的原理进行分类合并,这些变量的变换处理如下表1所示:

表1 模型Ⅰ中各个解释变量的进一步处理与改进

由于Cox模型假设两个不同个体的危险函数之间只差一个与时间无关的比例因子,因此本文利用Schoenfeld残差对模型中的协变量的比例危险假设进行检验③,如图2展示了age2、gender对应的Schoenfeld残差图,是Schoenfeld残差(纵轴)和时间变量duration的秩(横轴)构成的图,包括一条零点(残差的均值)的参考直线和一条残差的平滑曲线(光滑度为0.7)。如果协变量具有比例效应这两条线应该相互挨地比较近,也就是说能够表现出残差在任何一个时间点上的均值应该为零。比较所有变量的Schoenfeld残差图④,认为除了变量heal和变量jobfee外,其他变量都有违背比例危险性的嫌疑。

对于违背比例危险假设的变量,我们通过寻找最佳的时间分割点引入时间指示变量⑤,各变量对应的时间分割点见表2,并将时间指示变量与表2中的协变量的交互项构成的新变量放入模型中,并用协变量名加字母t表示,如age2t表示变量age2和的交互项,其他类同。经过这一改进后,模型的似然比值由原来的743.4843提升到86622.8891,说明改进后模型的解释能力提高了很多;同时观察改进模型的离差残差图见图3,可以看到离差残差点的光滑曲线(实线)和零值线(虚线)很接近。

图2 模型Ⅰ中age2

此时,根据参数估计结果及计算公式(1)可以得到每个个体的风险得分,并按风险得分的大小分成高、中、低三个风险组,见表3,高危组的保单平均持续时间只有一年多,而中低两组平均生存期相对比较接近。按上述改进后的Cox比例危险模型并结合公式1~4得到每组每个个体的生存概率预测值,本文中使用的个体的实际生存概率则用Kaplan-Meier方法估计得到,如此得到三个风险组的预测生存曲线和实际生存曲线,见图4。

模型Ⅰ拟合终身险建模样本的风险得分分组

图4直观地比较了三个风险组的模型预测生存曲线和实际生存曲线,为了更加清楚的比较,预测生存概率经过光滑度为0.6的平滑后得到现在图中的生存曲线。图中⑥横轴表示保单持续期,纵轴表示生存概率值;以预测模型得到的生存曲线以“预测”标示,由Kaplan-Meier方法得到的生存曲线以“实际”标示;第三组为高危险组则以“group=3”标示,“group=2”和“group=1”则分别表示中危组和低危组。从图中看出该预测模型对于建模样本的区别能力较强,第三组高危组的生存曲线在最下方,意味着它的生存概率下降最为迅速,低危组在最上方,中危组在中间。该模型对于建模样本的预测能力基本还不错,尤其对于高、中两组,但是对于低危组在从第四个年度到第五个年度的过渡中预测偏差比较大,预测模型高估了这段时间的生存概率。

图4 模型Ⅰ拟合建模样本得到的预测生存曲线和实际生存曲线比较

图5 模型Ⅰ拟合检验样本得到的预测生存曲线和实际生存曲线比较

为了检验预测模型的外推能力,我们需要评价该模型对于检验样本的预测效果。同样根据风险得分的大小划分为高中低三组,同时计算它们的预测生存概率和实际生存概率得到图5,可以看到该模型的外推能力还不错,但是对于第一组预测能力较差,先是在前三个年度低估生存概率,以后的年度却大大高估了。

为改善预测,我们尝试利用压缩技术,首先计算压缩因子、校正预后指数和校正生存概率,具体过程如下:(i)计算压缩因子,在建模样本的预测模型下,计算检验样本中每个个体对应的风险得分PI,然后以PI为唯一协变量在检验样本上拟合Cox模型,该模型的参数估计值即为压缩因子的估计值,如此得到的压缩因子为0.875。(ii)根据公式(5)计算校正预后指数API。(iii)由,计算校正生存概率。如此得到的校正生存曲线和实际生存曲线的比较如图6。

从图6看,压缩预测后的校正结果(图6中“调整”指示的曲线)并没有我们期望的那么好,尤其对于高、中两个危险组,但是低危组在四个年度以后的生存概率预测有了较好的改进。比较图6和图5,对于前三个年度的生存概率预测用原方法进行较合适,而三个年度以后的生存概率我们用压缩预测可能更好。

图6 模型Ⅰ预测加入压缩因子后的生存曲线和实际生存曲线的比较

五、模型Ⅱ的建立及预测能力检验

在模型Ⅱ中纳入的因子有被保险人的性别、年龄、婚姻、职业、经济收入、缴费方式、缴费期间、保额、职业加费和健康加费。如果将模型Ⅱ中的部分连续变量也象模型Ⅰ那样离散化,发现模型的AIC值从295810.37增加到295912.06,所以这部分的年龄、保额和保费三个连续变量没有作离散变换处理,健康加费和职业加费的分类处理同模型Ⅰ,被保险人的年均收入以一万进行了分组,分类较多的职业进行粗糙重组。

连续变量出现在模型中的最佳函数形式有助于提高模型的解释能力,我们将连续变量标准化(保额和保费变量先进行自然对数变换而后标准化),然后根据该变量对应的鞅残差进行分段处理效果比较好。例如对于保额变量,在标准化后的鞅残差图如图7所示。其中横轴表示每个保单的保额标准化值,纵轴表示对应的鞅残差值;从图中看到的虚线部分是零直线,另一条实曲线则是鞅残差的平滑曲线(光滑度为0.7),可以看到当处理后的保额变量小于-1时,退保危险被高估了,而在大约大于1.5时则低估了这类保单的退保危险。所以为避免估计有偏,我们在解释变量中加入指示变量。保费变量和年龄变量也进行同样的处理。

图7 模型Ⅱ中保额变量对应的鞅残差图

接下来类似模型Ⅰ,对于变量的比例危险性进行检验,并对违背此比例性的变量进行改进,这使得模型的似然比值从696提高到52072,并且AIC值也有大幅度的下降。另外在模型的解释变量中加入协变量与时间指示变量的交互项,如gendert表示变量gender和的交互项。根据参数估计结果,我们可以计算每个个体的风险得分,并按风险得分的大小分成高、中、低三个风险组见表4,然后计算预测生存概率和由Kaplan-Meier法得到的实际生存概率,如此得到三个风险组的模型预测生存曲线和实际生存曲线见图8。

模型Ⅱ拟合终身险建模样本的风险得分分组

可以看到,模型Ⅱ对于建模样本的风险区别能力不太理想,在高风险组(图中的第三组group=3)和中风险组(图中的第二组group=2)的实际生存曲线的末端几乎混合在一起,但是模型Ⅱ的预测能力还是不错的,预测曲线基本上均围绕着实际生存曲线方向发展,尤其低危组(图中的group=1)拟合的非常好。

下面对于模型Ⅱ的外推能力进行检验,计算模型Ⅱ的参数估计值在检验样本上的风险得分,然后按其大小划分为高中低三组,同时计算它们的模型预测生存概率和实际生存概率,如此得到预测生存曲线和实际生存曲线比较见下图9。可以看到模型Ⅱ在检验样本上的风险大小区别和预测能力均不如意,因为从高风险组和中风险组的实际生存曲线上看,二者几乎混为一条曲线,只是在末端才分开;同样这两组的生存概率预测曲线也是和实际预测曲线分道扬镳;类似于在建模样本上的表现,只有低危组比较理想。

为了改善模型Ⅱ的预测能力,尝试利用压缩技术,计算得到风险得分作为唯一协变量拟合检验样本的Cox模型的参数估计值为0.7,然后再计算风险得分的调整值继而得到调整预测生存曲线和实际生存曲线的比较图10,可以看到压缩技术并没有改善预测能力,反而使情况变得更糟。

图9 模型Ⅱ拟合检验样本得到的预测生存曲线和实际生存曲线比较

图10 模型Ⅱ校正后的预测生存曲线和实际生存曲线比较

六、结论

根据寿险中保单退保的特点,利用生存分析方法研究寿险退保问题是非常适用的。而且在郭春燕、易丹辉(2007)一文中实证说明了Cox模型在退保数据的预测能力上要大大优于传统方法,如logistic回归模型。因此本文着重描述了不同数据特点下,进一步提升不同组别生存概率的预测能力时Cox模型运用的细节,例如各种残差图和Cox模型的压缩预测方法的使用。

为了最大程度的利用原始信息为下一步决策做准备,本文在考虑是否将有部分缺失的经济变量纳入到预测模型中进行了讨论。那么接下来,如何比较这两种模型的预测能力以及早期退保率的最终预测将是下一步研究的内容。

注释:

①Copas,J.B.,Regression,Prediction and Shrinkage,Journal of the Royal Statistical Society,B,1983,45:311-354.

②这里的失效包括保单状态为失效和永久失效的保单,失效保单的终止日期按失效日期计,永久失效保单的终止日期按保单合同终止日期计。

③Schoenfeld残差是由Schoenfeld(1982)引进的,这篇文章中对于每个协变量定义的Schoenfeld残差是将风险集或总样本中所有有效非删失观测数据对应的得分残差相加。即例如对于协变量k定义的Schoenfeld残差:,其中是由Therneau,Grambsch,and Flemming(1990)提出的得分残差,式中的N表示非删失数据的总数。这个和式使得每个协变量在每个时间点上的残差为一个常数,如此可以用来检验制定严格的危险比例性假设。

④由于篇幅所限,我们只展示了age2、gender的Schoenfeld残差图,如图1。

⑤对每一个模型都拟合一系列的τ值,选择最大的对数偏似然函数对应的τ为最优。

⑥图4结构的解释同样适用于图5、图6、图8、图9和图10等预测生存曲线和实际的比较图。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

COX模型压缩预测方法在担保率预测中的应用研究_预测模型论文
下载Doc文档

猜你喜欢