泊松提升模型在中国车险索赔频率预测建模中的应用
张连增,申 晴
(南开大学 金融学院,天津 300350)
摘要: 为研究泊松提升模型在中国车险定价中的应用,将Boosting算法加入到SBS(Standardized binary split)回归树中,基于中国某公司2016年28个省份交强险保单数据,以样本内外损失函数的最小化为标准,对相关模型进行比较以选择相对较优的模型,应用得到的模型对各个变量进行单变量预测。研究结果表明:泊松提升模型优于SBS回归树模型,不存在过拟合的前提下,泊松提升模型的预测效果会随着树的深度或者迭代次数的增大而变得更优,确定了深度为3,迭代次数为15的泊松提升模型(即PBM3)为最优模型。
关键词: :Boosting算法;泊松提升模型;回归树模型;交强险;索赔频率
一、引 言
车险是非寿险的重要组成部分,车险定价一直是一个复杂、困难并且重要的工作。自从20世纪90年代英国精算师把广义线性模型(GLM)应用到非寿险定价中,非寿险产品得以科学定价的同时,GLM在精算中的应用也得到不断完善与发展。随着大数据时代的到来,在车险产品定价过程中需要考虑的因素特别是数值型变量因素的不断增加,传统GLM的局限性不断凸显,主要表现为:随着变量的增多,变量间的相关关系增强,GLM的预测能力不断下降。为此,在建立GLM之前,需要对样本中的数值型解释变量调整为分类变量,而且为减少可能存在的具有相关关系的解释变量对GLM预测效果的影响,在建立GLM时,需要引入交互项。在互联网科技迅速发展的今天,上述数据处理与操作可以轻松实现,但是经过类似处理与操作后的模型有效性问题值得思考。
为了克服GLM自身存在的局限性,当前在车险产品定价中出现了很多模型与方法,其中以回归树、支持向量机、神经网络和Boosting算法等为代表的机器学习方法,近年来得到了快速的发展。本文将Boosting算法加入到SBS(Standardized Binary Split)回归树模型中,应用得到的模型对中国交强险索赔频率进行预测建模分析。然后将泊松提升模型与SBS回归树模型进行比较,以损失函数的最小化为标准来选择相对较优的模型,应用得到的较优模型对中国交强险保单中的各个变量进行单因素预测分析,分别分析各个因素对索赔频率的影响。本研究为以后的相关研究和交强险定价提供一定的理论借鉴和参考。
二、文献综述
本文中用到的泊松提升模型是Boosting算法与SBS回归树的结合,关于Boosting算法和回归树方法在车险产品定价中应用的国内外相关研究成果主要有:
Friedman最早提出了一种梯度提升法(GBM),它通过对回归型问题的求解来扩展提升能力,该算法成功地将可加性建模和极大似然等统计元素纳入建模中,被认为是数据挖掘领域的重大突破[1]。Guelman使用梯度提升树(Gradient Boosted Trees,GBT)对索赔频率和索赔强度分别进行建模,该模型对索赔频率和索赔强度的预测效果比传统广义线性模型的预测效果要好[2]。Liu等将一种称为多分类AdaBoost树方法用于车险索赔频率预测分析,并将该模型与广义线性模型、神经网络模型与支持向量机模型进行比较,最后证明多分类AdaBoost树方法具有更强的预测能力和可解释性[3]。Zöchbauer认为回归树方法为构建具有相似风险特征的同质投资组合提供了一个有用的工具,更先进的树集成方法,如Bagging法和随机森林的预测能力超过了传统的广义线性模型[4]。Wüthrich基于驾驶者行为数据对车险产品价格的稳定性进行研究,认为使用经典的回归树或Boosting算法进行价格更新时,所得到的价格波动较大,为了使价格更新顺利进行,建议使用以前的费率结构作为新产品的初始价格[5]。Noll等基于第三方责任保险数据集,比较了经典广义线性模型、回归树建模、助推器和神经网络方法在索赔频率预测建模中的表现,研究表明:广义线性模型不能恰当地处理特征分量之间的交互作用,而其他方法能够较好地处理这些交互影响[6]。
张连增等应用回归树方法对中国车险索赔频率进行预测建模分析,并与广义线性模型进行比较,得出单棵回归树的预测能力不如传统的广义线性模型,但是通过Bagging法得到的回归树优于传统的广义线性模型[7]。孟生旺等通过应用随机森林模型、神经网络模型和XGBoost模型对驾驶行为风险因子的出险概率进行分析研究,并与传统的logistic回归模型进行比较,结果表明XGBoost模型对于出险概率的预测能力更强[8]。
除此之外,关于车险费率厘定还有其他一些研究成果,例如,张连增等在车险费率厘定时提出了一种处理大额索赔的频率—强度方法,并通过分别对索赔频率和索赔强度进行建模分析实证检验了带有大额索赔的频率—强度模型在车险费率厘定中的优越性[9]。
合伙形式的评估机构,应当有两名以上评估师;其合伙人三分之二以上应当是具有三年以上从业经历且最近三年内未受停止从业处罚的评估师。
总结国内外研究成果发现:第一,Boosting算法和回归树模型在车险定价应用的研究成果很多,国内相关的研究成果则较少;第二,国内外关于Boosting算法和回归树的研究大多侧重于二者在车险定价中的比较,关于将Boosting算法加入到回归树模型中除了国外有少量研究外,其他相关研究较少。鉴于此,本文采用Boosting算法与SBS回归树相结合的方法对中国车险定价索赔频率进行预测分析研究。
三、模型介绍
这个算法被称作泊松提升法,最终估计值为由M 个弱学习器组成,并且每个弱学习器均来自于X 的一个分割。
本文应用泊松提升模型(Poisson boosting model)进行索赔频率建模。泊松提升模型是在以泊松偏差统计量为损失函数的SBS(Standardized binary split)回归树模型中加入Boosting算法。具体步骤为:将一棵只有很少叶子的SBS回归树作为弱估计量,以这个弱估计量的残差作为新的响应来构造下一个弱估计量,以自适应的方式迭代此过程则将产生一个较强的估计量。以下重点介绍SBS回归树模型、Boosting 算法和泊松提升模型这三部分内容。
(一)SBS回归树模型
SBS回归树模型就是在给定一个复杂性参数(complexity parameter)的条件下,寻找对特征空间X 的最优区分(X k )k=1,2,…,K ,其中K 表示叶子数。对特征空间的最优区分就是在所有的SBS中迭代寻找最优的分割[10]。
(二)Boosting算法
Boosting算法是一种将弱学习器(weak learner)提升为强学习器的算法[11]。
a.根据公式设置相应的权重,则样本数据为:
(三)泊松提升模型
1.模型介绍
泊松提升模型将Boosting算法加入到SBS回归树模型中,主要是通过自适应迭代的方法实现样本内损失函数的最小化,其算法流程如下:
(1) 初始化
王维的一生经历了一次次的“失去”。他出生在贵族世家,家境殷实,生活美满。父亲教他诗文,母亲教他绘画和佛经,年幼的王维还继承了祖父的音乐基因,据说他第一次拿起乐器就可以弹奏,和莫扎特一样,都是极有音乐天赋的“神童”。
a.选择K ≥2和固定α ∈(0,1],其中K 表示叶子数,α 表示收缩因子(通常为1)。
校园,是我们快乐成长的地方;校园,是我们学习知识的地方;校园,是我们心中最喜欢的地方。校园里的四季,是最美的。
b.设置初始的最大似然估计其中,N i 表示索赔次数,v i 表示风险暴露数。
(2) 重复。当m =1,2,…,M
采用SPSS 21.0软件进行分析,组间比较采用有序分类变量两组独立样本的秩和检验。其中P<0.05认为差异具有统计学意义。
(1)
其中n 为样本个数。
总体而言,柬埔寨在平衡地缘压力和提升文化影响力的双重考量下选择了积极配合的行为同中国发展文化外交关系。柬埔寨既尊重中国在其中扮演的主导角色,又注重吸收中国的资源来充实自身的文化发展。
b.构建一个SBS泊松回归树估计
(2)
其中|T (m) |=K 表示样本数据D (m) 的叶子,表示第t 片叶子中的样本。
c.更新估计值
(3)
(3)频率估计值
(4)
2.模型估计
在教学中,将把知识教育同价值观教育、能力教育结合起来,进一步注重课堂话语传播的有效性。作为职业技术学院,应提高人才培养层次,重点在于要求学生的职业素质和能力要求,即重视思想政治素质、公民道德素质、职业素质和身心健康素质等。
尽管马克思早就认识到必须用实际的和具体的方式对雇佣劳动进行批判,但直到《手稿》才把这个方法真正施之于实践。在《手稿》中,马克思深入生产、分配、交换和消费领域,关注具体物质生产的生产和再生产关系,认为生产关系是内含了一定社会历史内容的生产关系,雇佣劳动不是一般的劳动。马克思运用从抽象到具体的方法,对雇佣劳动问题作出了深刻的阐释。
(5)
其中由SBS回归树模型的参数估计得到。因为第一个回归树把特征空间X 分了一次,所以把第一个回归树估计值称为弱学习器。估计值初始化了泊松提升法,则估计的泊松回归模型为:
其中n 为样本数。接下来回测和修正这个模型,进而用另一个回归函数来改善为此,定义以下权重:
(6)
(4)叶面追肥:水稻营养生长期(7月10日以前)叶面肥以酿造米醋,氨基酸类微肥为主,水稻生殖生长期(7月10日以后)应以酿造米醋、磷酸二氢钾等促早熟微肥为主,叶面喷施硅肥、镁肥、硒肥。
(7)
所以初始的索赔频率模型假设被替换为:
(8)
回归函数被K =2的SBS回归树估计值重新进行估计,表示新的权重,回归树估计量可以用以下形式表示:
(9)
其中可以用以下形式表示:
(10)
改进的回归函数估计值用以下形式表示:
(11)
因此,以上回归函数估计值是两个弱学习器的组合。因此,迭代M 次时,当m =3,…,M 时的权重可以用以下形式表示:
(12)
i =1,2,…,n
弱学习器被一个权重为的SBS回归树分区,并产生了K =2的新叶子。此时可以通过以下方式进行回归函数的迭代更新:
对照组并发症发生率、平均手术时间与住院时间都明显超过观察组,组间比较差异有统计学意义(P﹤0.05)。(详见表1)
(13)
首先介绍索赔频率模型的一个基本假设:设X ={x |x ∈R p }是特征变量取值范围,选择一个函数λ :X →R +,在给定的一年内,第i 份保单的索赔次数其中x i 是第i 份保单对应的特征向量,v i 是第i 份保单的风险暴露数,即对索赔次数进行泊松分布建模,进而估计出能够反映期望索赔频率的回归函数λ (·)。所有的样本可表示为{(N i ,x i ,v i ):i =1,2,…,n }。
四、实证分析
(一)数据描述
本文数据来源于国内某保险公司交通事故责任强制保险486 780条理赔数据,数据的格式如表1所示。
表 1数据格式表
关于数据中变量的说明如表2所示:
从486 780条数据中随机抽取390 000条(后面回归树建模分析中的参数minbucket=6 000,这样可以保证训练集中至多可以分成65组)样本作为训练集进行建模,记为L ={(N i ,x i ,v i ):i =1,2,…,n },其中x i 表示训练集中各个变量,n =390 000,用于模型的拟合和选择。剩余96 780条样本主要用于模型的预测分析,记为T ={(N t ,x t ,v t ):t =1,2,…,n ′},其中n ′=96 780。
表 2变量说明表
(二)变量的描述性统计
通过比较模型PBM1(J =1,M =10)与PBM2(J =2,M =10),不难发现PBM2的样本内外损失低于PBM1的相关样本损失情况,说明在迭代次数M 保持不变的情况下,随着树的深度J 的增加,模型的样本内外损失情况不断减小,模型得到优化。同理,通过比较模型PBM3(J =3,M =15)与PBM2(J =2,M =10),PBM1(J =1,M =10)的表现,发现模型PBM3的样本内外损失情况低于PBM2与PBM1的相关样本损失情况,说明在不存在过拟合问题的前提下,该模型随着树的深度J 和迭代次数M 的同时增加,模型的样本内外损失情况是不断减小的,模型得到进一步的优化。相对于PBM1(J =1,M =10),PBM2(J =2,M =10)和RT3而言,PBM3(J =3,M =15)的样本内外损失是最小的,模型PBM3是最优的模型。
[3]Astington,J.W.&J.M.,Jenkins.(1999).A Longitudinal Study of the Relation Between Language and Theory-of-Mind Development,Developmental Psychology,35(5).1311-1320.
表 3训练集和测试集的索赔次数和索赔频率情况表
(三)实证结果
1.SBS回归树模型
(1)树的生成。基于SBS回归树模型对训练集L 进行建模,该算法通过用R软件包中的rpart函数进行循环迭代来实现。关于函数rpart的相关参数首先进行简单介绍,其中,minbucket表示生成的回归树中每片树叶至少应该包含的数据记录个数,取minbucket的值为6 000[4]。cp(complexity parameter)为复杂性参数,控制树的规模,取值范围为(0,1],其值越小则树的规模也就越大,此处我们设置cp的初始值为0.000 5,关于参数cp进行赋值的详细介绍参考Therneau等[12]。我们称经过上述参数设定生成的模型为RT1,生成的树为tree1,树的生成通过运行summary函数可得:生成的SBS回归树一共有9片叶子和8次分割,其中第一个分割考虑的是无赔款优待水平(BonusMal)是否为A、B、H类。通过观察图1,可以发现第一个分割是最有效的分割,因为第一个分割使样本内损失从0.225 667 6下降到0.222 932 3,相对于其他分割来说,第一个分割使样本内损失下降的最多。
由图2a可知:3417.82 cm-1νOH、3076.8 cm-1ν=C-H、1633.69 cm-1νC=C、1273.00 cm-1ν=C-O,表明20%vol酒的致浊物中可能含有酚类化合物;2939.48 cm-1νasC-H、2864.26 cm-1νsC-H和1423.45 cm-1δCH吸收峰以及在波数高于1633.69 cm-1处吸收峰与其重叠致使1633.69 cm-1不对称峰形表明,致浊物中可能含有蛋白质类和高级脂肪酸酯类化合物。结果表明,低度酒的致浊物可能是蛋白质与酚类化合物缔合[28],并混有少量高级脂肪酸酯类化合物。
通过图1,我们分析了cp值为0.000 5,叶子数为9、分割次数为8的回归树模型及其样本内损失减少情况。接下来我们通过10折交叉验证方法来进一步决定树的最优规模和相应的样本内损失。
图 1 RT1模型样本内损失减少情况图
(2)最优子树。在交叉验证模型时,10折交叉验证方法是统计学中广泛运用的方法,这里的主要思路是把训练集L 随机分成10个规模相等的子集L 1,L 2,…,L 10,基于训练集L /L v ,v =1,2,…,10得到回归树估计值通过验证验证集L v 得到其样本外损失[13]:
(8)若不采取防护措施,矿区开采可能对部分河段造成一定的影响,因此矿区内的地表水对矿区开采存在一定的制约作用。
重复上述过程,可以得到10折交叉验证误差:
运用上述10折交叉验证原理,我们首先设置cp=10-8(初始值设置尽可能小)来生成一个规模较大的SBS回归树,我们称这个回归树为tree2,这个回归树一共有K =35片叶子。对tree2进行10折交叉验证,根据最小交叉验证误差规则,判断模型tree2是否为最优子树,我们称这个模型为RT2。回归树tree2的交叉验证误差和相应的标准误差条如图2a所示:
a.模型RT1
b.模型RT2
图 2模型 RT2和 RT3的 10折交叉验证情况图
通过观察图2a可以发现:交叉验证误差(CV error)在成本复杂性参数(cost-complexity parameter)接近-5时达到最小,在-8时交叉验证误差不变,因此RT2存在严重的过拟合问题。通过选择最小的交叉验证误差以及对应的cp值,重新生成树tree3以及对应的最小交叉验证规则模型为RT3,树tree3共有35片叶子,如图2b所示,cp=2.520 53e-04时有最小的10折交叉验证误差,也不存在过拟合现象,可以认为RT3是最优子树。
下面结合上一节所述的样本内和样本外损失函数的表达式,我们分别计算RT1、RT2、RT3的样本内和样本外损失,具体情况如表4所示:
表 4三种回归树模型的样本表 单位:10-2
从上表我们发现模型RT2的样本内外损失和模型RT3的一样,但都低于模型RT1的相关水平,初步可以认为回归树规模越大(即叶子数越多),则回归模型的样本偏差越小,损失也就越小。虽然模型RT2的样本损失和模型RT3的相关损失一样,但模型RT2设置的初始cp值过小,可能会存在过拟合问题,模型RT3是通过10折交叉验证方法验证得到的最优模型。理论上最优子树的选择很重要,不仅能提高模型的效果,也能减少过拟合问题。
2.泊松提升回归模型
考虑用Poisson Boosting Machine Model(泊松提升模型)进行索赔频率建模。泊松提升模型是基于以泊松偏差统计量为损失函数的SBS(Standardized Binary Split)回归树算法。该算法通过用R软件包中的rpart函数进行循环迭代来实现。本文把J =1的泊松Boosting 算法模型称为模型PBM1,通过编程计算得到模型PBM1的样本内外损失分别为:21.984 28×10-2和22.466 05×10-2,此时模型PBM1的样本内损失高于模型RT3的样本内损失,而模型PBM1的样本外损失却低于模型RT3的样本外损失。为了改善模型的样本内损失情况,不仅可以增加迭代次数M ,而且还可以增加树的深度J ,或者两者同时增加,从图3发现3个模型随着迭代次数的增加,样本内损失减少的曲线比较平滑,所以本文中主要分析增加树的深度对模型样本内损失的影响。在保证算法运行速度的前提下,又不至于使模型出现过拟合的问题,我们选择的迭代次数M 值相对较小。同理,我们把J =2,3的泊松Boosting 算法模型分别称为模型PBM2,PBM3。汇总模型PBM1,PBM2,PBM3与RT3的各种样本内外损失情况如表5所示。
将K =2作为Boosting算法的初始值,则此时的回归树估计值表示为:
表 5三种泊松 Boosting算法模型和模型 RT3样本损失情况表 单位:10-2
通过表5发现:模型PBM3(J =3,M =20)的样本内损失低于模型PBM3(J =3,M =15)的样本内损失,而该模型的样本外损失却高于模型PBM3(J =3,M =15)的样本外损失,说明当迭代次数M =20时,模型PBM3存在过拟合问题。所以PBM3的最大迭代次数M =15。在模型PBM1和模型PBM2不存在过拟合问题的前提下,为了便于比较分析,本文中确定模型PBM1和模型PBM2的迭代次数M =10。
由上部分可知,本文将样本数据分为训练集和测试集。通过比较训练样本和测试样本的索赔次数和索赔频率,我们发现二者是有区别的。具体情况如表3所示。表3反映了训练集和测试集在索赔次数和索赔频率方面的比较情况,其中索赔次数分别为:0、1、2、3、4的样本数占训练集和测试集的比率各有不同,具有一定的差异。在索赔频率方面:训练集的索赔频率为5.173 623%,略低于测试集的索赔频率(5.285 29%)。训练集和测试集的索赔次数和索赔频率的差异会造成二者损失函数值的差异,影响模型的效果,具体如下节所示。
PBM1 (J =1,M =10),PBM2(J =2,M =10),PBM3(J =3,M =15)和RT3的样本内损失情况如图3所示:
图 3三种不同泊松 Boosting算法模型和 RT3的样本内损失情况图
图3中三角形表示模型PBM1的样本内损失情况,空心圆表示模型PBM2的样本内损失情况,实心点表示模型PBM3的样本内损失情况,实线表示模型RT3的样本内损失情况。通过观察上图发现,虽然模型PBM1(J =1,M =10)的样本内损失随着迭代次数的增加而不断降低,但是始终高于模型RT3的样本内损失。由于模型PBM1的深度和迭代次数较小,使得模型PBM1的表现不如模型RT3。在保持模型PBM1的迭代次数M =10不变的情况下,增加树的深度到J =2则得到模型PBM2。从上图容易发现模型PBM2在迭代到第5次时,样本内损失已经低于模型RT3的样本内损失,在保持迭代次数不变的情况下,增加树的深度,使模型的样本内损失不断减少,模型得到优化。同理,在树的深度增加到J =3以及迭代次数增加到M =15时得到模型PBM3,相对于模型PBM1,PBM2而言,随着每次迭代的进行,模型PBM3的样本内损失减少的更快,且在迭代到第4次时,模型PBM3的样本内损失已经低于模型RT3的样本内损失情况。所以,在模型PBM1、PBM2、PBM3和模型RT3四个模型中,模型PBM3的样本内外损失最小,模型PBM3是相对较优的模型。
“外研社杯”全国英语演讲大赛参赛选手成功的例子可以给我们一些启发。在大赛上,他们口若悬河,思维敏捷,展示了用英语进行跨文化交流的风采。据报道,初赛时有些选手并不十分出色,但经过强化训练后,他们的口语能力发生了质的变化。他们的成功,除了自身和指导教师的努力外,还在于演讲活动本身的吸引力以及演讲比赛形式所带来的挑战。许多研究表明:英语演讲有利于发展大学生的英语口语能力和写作能力,培养大学生的自主学习能力,增强大学生的心理素质,提高他们分析问题、解决问题的能力。[1]
3.模型的预测分析
通过上述分析,选择相对较优的泊松提升模型PBM3,用测试集T 对模型PBM3进行单变量预测分析。在进行预测分析之前,确定不同变量在测试集中出现次数最多的数值或因素为各个变量的固定取值,具体为:保单省份(Region)为P37,驾驶员年龄(DrivAge)为50,驾驶员性别(Gender)为M ,汽车座位数(Seat)为5,汽车重量(Weight)为2,汽车车龄(VehAge)为6,无赔款优待水平(BonusMalus)为A ,转续保(renew)为Ri,车系(VehBrand)为C 。对某一变量(例如变量Region)进行单变量预测时,该变量的数据为测试集中的观察值,其他变量的数据则全部为对应变量设置的初始固定值。其中各个变量的预测情况如图4所示。上面各个图中,横坐标表示对应各个变量的分组情况,纵坐标表示各个变量不同分组对应的预测频率大小。
从保单省份(Region)频率预测情况图中,我们发现:在其他因素不变时,各个省份的交强险索赔频率的预测值不同,其中索赔频率最高的省份P43(湖南省)为0.078 5,索赔频率最低的省份P50(重庆市)为0.029 1。由于各个地区社会、经济、文化、气候以及地理环境的差别,使得各个省份的交强险索赔频率出现差异。所以,在未来的交强险定价工作中,也应将地区因素作为一个定价因子加以考虑。
从汽车车龄(VehAge)频率预测情况图发现:在其他因素不变时,索赔频率大体上随着汽车车龄的增加而增大。具体表现为:在汽车车龄为0~2时,索赔频率为0.038 4,达到了最小,除了在汽车车龄为6时出现了较小的波动外,其余的索赔频率总是随着汽车车龄的增加而增大的,特别是当汽车车龄大于11时,索赔频率达到了最大为0.065 6。说明在其他条件不变的情况,新车由于机器设备性能较好,此时驾驶的安全性较高,出事故的概率则较小,反之,旧车随着机器设备的老化等原因使驾驶的危险性较高,出事故的概率则较大。
图 4各个单变量预测结果图
从驾驶员车龄(DrivAge)频率预测情况图中,我们发现:在其他因素不变时,驾驶员年龄在18~46时,索赔频率呈缓慢下降的趋势,其中驾驶员年龄为18~24时索赔频率为0.073 5,达到了最大,年轻的驾驶员由于驾驶经验缺乏、年轻气盛、爱开“冲动车,斗气车”等原因,导致出事故的概率较大,索赔频率较高。随着年龄以及驾驶经验的增加,中年人出事故的概率较小,索赔频率较小。另外,驾驶员年龄在47~80时,索赔频率又有增加的趋势,特别是55~80的驾驶员,随着年龄的增加,应急能力下降,导致出事故的概率增加,索赔频率较大。
从汽车座位数(Seat)频率预测情况图中,我们发现:在其他因素不变时,汽车座位数在小于6座时,索赔频率为0.050 49,相对较低,在大于等于6座时,索赔频率为0.054 5,有所增大。
从驾驶员性别(Gender)频率预测情况图中,我们发现:在其他因素不变时,男性的索赔频率(0.050 486)低于女性的索赔频率(0.053 092 261)。由于身体和心理原因使得女性出事故的概率大于男性,索赔频率高于男性。同时,相关研究表明:女性出小事故的概率高于男性,但是男性出致死或较大损害事故的概率高于女性。
从汽车重量(Weight)频率预测情况图中,我们发现:在其他因素不变时,索赔频率随汽车重量的增加而增大,汽车重量低于0.5时,索赔频率为0.030 3,达到了最小;在汽车重量为1时,索赔频率为0.035 2;当汽车重量大于等于2时,索赔频率为0.039 7,此时索赔频率达到了最大。
从无赔款优待水平(BonusMalus)频率预测情况图中,我们发现:在其他因素不变时,无赔款优待水平越高,即历史索赔次数越少,则索赔频率越低。其中,无赔款优待水平为G (上年度发生两次及两次以上有责任交通事故)时,索赔频率最高为0.108 3,而无赔款优待水平为H (上年度发生有责任道路交通死亡事故)时,索赔频率最低为0.037 9,主要是因为本文中H 类的索赔保单的索赔次数都是0次,所以本文预测的索赔频率相对较小。
汽车类型(Veh Brand)所有不同分类的索赔频率都为0.050 485 767,初步分析由于样本数据中C 系车的样本数为89 908个,占测试样本集的绝大部分,文章中该车系的索赔频率影响了其他车系的索赔频率。同样,转续保(renew)所有索赔频率一样,都为0.050 485 767。
五、结 论
本文将Boosting算法加入到SBS回归树模型中,并且比较Boosting算法加入前后模型效果的变化情况,得到相对较优的模型,并用较优的模型对测试集进行单变量索赔频率预测分析。在模型选择和索赔频率预测分析的过程中总结得出以下结论:
第一,模型RT3是通过10折交叉验证方法得到的最优子树,其表现优于模型RT1和RT2,在回归树分析中,剪枝等处理工作对确定最优子树很必要。在模型RT3中加入Boosting算法得到了泊松提升模型,至于泊松提升模型,在保证不存在过拟合问题的前提下,随着树的深度和迭代次数二者中的其一或者二者同时增加,则模型效果不断得到改进。基于本文中的训练集,最终确定了深度为3,迭代次数为15的模型PBM3为最优模型。
第二,通过用测试集对模型PBM3分别进行单变量预测分析我们得到:在其他因素不变的条件下,由于各个省份(Region)社会、经济和自然环境的差异,使得各个省份的交强险索赔频率各不相同;索赔频率大体上是随着汽车车龄(VehAge)的增加而增大的;驾驶员车龄(Drivage)为18~24时的索赔频率最高,即年轻人的索赔频率最高,老年人的索赔频率次高,中年人的索赔频率最低;汽车座位数(Seat)小于6座的索赔频率低于汽车座位数(Seat)大于等于6座的索赔频率;男性的索赔频率低于女性的索赔频率;索赔频率随汽车重量(Weight)的增加而增大;无赔款优待水平(BonusMalus)越高,即历史索赔次数越少,索赔频率则越低。
参考文献:
[1] Friedman J.Greedy Function Approximation:A Gradient Boosting Machine[J].The Annals of Statistics,2001(29).
[2] Guelman L.Gradient Boosting Trees for Auto Insurance Loss Cost Modeling and Prediction[J].Expert Systems with Applications,2012,39(3).
[3] Liu Y,Wang B J,Lv S G.Using Multi-class AdaBoost Tree for Prediction Frequency of Auto Insurance[J].Journal of Applied Finance & Banking,2014,4(5).
[4] Zöchbauer P.Data Science in Non-Life Pricing:Predicting Claims Frequencies Using Tree-Based Models[D].ETH Zürich:Department of Mathematics,2016.
[5] Wüthrich M V.Price Stability in Regression Tree Calibrations[E].2017 China International Conference on Insurance and Risk Management,July 19-22,2017.Guilin,China,749-762.
[6] Noll A,Salzmann R,Wuthrich M V.Case Study:French Motor Third-Party Liability Claims[J/OL].SSRN Electronic Journal,2018.https:∥ssm.com/abstract=3164764.
[7] 张连增,谢厚谊.回归树方法在车险索赔频率预测建模中的应用[J].保险研究,2018(1).
[8] 孟生旺,黄一凡.驾驶行为保险的风险预测模型研究[J].保险研究,2018(8).
[9] 张连增,王缔.大额索赔条件下的车险费率厘定[J].统计与信息论坛,2019(1).
[10] Wüthrich M V,Buser C.Data Analytics for Non-Life Insurance Pricing[R].ETH Zürich,2018:119-125.https:∥ssrn.com/abstract=2870308.
[11] 周志华.机器学习[M].北京:清华大学出版社,2016:173-177.
[12] Therneau T M,Atkinson E J,Foundation M.An Introduction to Recursive Partitioning Using the RPART Routines[R].Vignettes,2015.https:∥cran:r-project.org/web/packages/rpart/vignetts/longintro.pdf.
[13] James G,Witten D,Hastie T,Tibshirani R.An Introduction to Statistical Learning with Applications in R[M].Berlin:Springer,2013:181-183.
Predictive Modeling Applications of Poisson Boosting Model for Claims Frequencies of Auto Insurance in China
ZHANG Lian-zeng,SHEN Qing
(School of Finance,Nankai University,Tianjin 300350,China)
Abstract :The application of Poisson Boosting Model in vehicle insurance pricing in China by adding the Boosting algorithm to the SBS (Standardized Binary Split) regression tree is mainly studied here.Based on the data of a company's compulsory traffic insurance policies from 28 provinces in 2016,choose the optimal model by comparing the relative models with the criterion of minimizing the in-sample and out-sample loss function and use the optimal model to predict each variable.The results show that the Poisson Boosting Model outperforms the SBS regression tree model,the predicted efficiency of the Poisson Boosting Model will become superior as the increase of depth of the tree or number of iterations without over-fitting,and it explains that the optimal model is the Poisson Boosting Model (PBM3) with the depth is 3 and number of iterations is 15.
Key words :boosting algorithm; Poisson Boosting Model; regression tree model; compulsory insurance; claim frequency
中图分类号: F840.65
文献标志码: A
文章编号: 1007-3116( 2019) 09-0027-08
收稿日期 :2019-02-28;修复日期: 2019-04-18
基金项目 :国家自然科学基金青年项目《基于相依结构的多元索赔准备金评估随机性方法研究》(71401041);南开大学基本科研业务费《机器学习在金融预测建模中的应用研究》(63185010);教育部人文社会科学重点研究基地重大项目《基于大数据的精算统计模型与风险管理问题研究》(16JJD910001)
作者简介 :张连增,男,山东莱芜人,教授,博士生导师,研究方向:精算与风险管理,机器学习;
申 晴,男,河南商丘人,博士生,研究方向:精算与风险管理,机器学习。
(责任编辑:于思琦)
标签:Boosting算法论文; 泊松提升模型论文; 回归树模型论文; 交强险论文; 索赔频率论文; 南开大学金融学院论文;