基于Logistic回归模型和因子分析法的车险续保率影响因素分析论文

基于Logistic回归模型和因子分析法的车险续保率影响因素分析

林 海 (昆明理工大学 交通工程学院,云南 昆明 650500)

摘 要: 为有效提高车险续保率,以某保险公司26 734条保险样本数据为分析对象,通过Logistic回归模型中的多重共线性处理剔除不显著变量后,得到渠道、品牌、投保类别、新车购置价、车龄等13个影响因素。应用Logistic回归模型构建车险续保率影响因素重要程度排序图,对车险续保率影响因素进行分析。在此基础上,应用因子分析法表征和计算各影响因素权重。结果表明,产品属性包括是否投保车上人员、是否投保盗抢和签单保费是影响车险续保率的首要关键因素,承保属性包括渠道、投保类别、车龄、NCD是影响车险续保率的次要关键因素。

关键词: 车险续保率;影响因素;Logistic回归模型;因子分析法

0 引 言

近年来,我国保险行业稳步发展,财产保险行业也得以快速发展,而车险保费收入在我国整个财险保费收入中占了绝大部分,并且由于汽车行业交易量的增加以及相关政策的出台,车险的投保率逐步提高。但由于车险产品的功能很难做到差异化,车险市场同质性严重,费改后价格竞争和各种高成本的营销手段成为市场竞争的主要策略,使得财险公司在维持市场占有率的情况下很难盈利。在这种情况下,提高车险业务的续保率,维护客户忠诚度对于财险公司的长远经营具有重要意义,分析车险业务中影响续保率的因素,从而锁定目标续保客户群体,实现精准营销。

5.药敏纸片试验结果见表2。药敏纸片试验结果表明敏感的药物依次是:头孢菌素、环丙沙星;中度敏感的依次是:青霉素和卡那霉素;而对土霉素、链霉素、庆大霉素具有抗药性。

目前,已有研究从不同角度对续保率影响因素进行研究。Young Moon Chae分别运用决策树C5.0算法、Logistic回归和关联规则对韩国寿险政策是否对投保客户产生有利影响进行分析,并对3种算法运行出来的结果进行比较分析[1]。Shu-Hsien Liao等对台湾的人寿保险市场进行了基于Apriori算法和聚类算法的客户细分,通过对客户需求链的分析,给出了保险企业在新产品开发和客户营销方面的建议[2]。倪琪等利用某保险公司的车险续保数据,探究哪些变量能够较为显著地起到影响作用,并讨论目标客户与普通客户在影响因素上面的共性与差异[3]。王钧等先还原出原始因素表单,然后采用租糙集理论(Rs)产生规则,利用灰色关联度法进行分析,从而获得可信度与各个因素之间的关系,从而推广到续保率与因素的关系[4]。陈曼发现车辆种类的不同会导致续保率的不同,其中家庭自用车的续保率最低[5]。杨子江等认为承保车辆的车龄、车价、品牌等因素对车辆的续保与否有影响,但是并未作出实证分析来印证[6]。王梦晨从客户层面、车辆特征层面及公司政策层面分析了车险业务中影响续保率的因素并选择广义线性模型中的Logistic模型为工具,筛选有解释能力的变量,作为影响续保率显著的风险维度,根据模型结果提出提高续保率的建议[7]。上述研究缺乏对车辆续保率影响机理研究,针对此问题,本文以某保险公司65 535条数据为样本数据,通过对样本数据进行降维处理、异常数据删除及冗余数据合并后提取出19个影响因素,运用Logistic回归模型建立影响车险续保率因素排序分析模型,确定各车险续保率影响因素的重要程度。在此基础上,利用因子分析法表征和计算各因素的关联度,对影响因素进行权重计算,进而为保险公司提高车险续保率提供科学依据。

1 理论与方法

1.1 Logistic回归模型

1.1.1 模型简介

图3为不同输入交流电压时输出电流I随时间t的变化曲线,通过分析电路输出电流,输出直流电流随输入电压的升高而增大,并且电流稳定。虽然在电压较大时电流出现波纹,但通过后续电路也可进行抑制。

1.1.2 模型的建立

Logistic函数又名生长函数或Pearl-Read曲线。是由比利时数学家P.F.Verhulst在1838年首次提出的,是广义线性模型家族中的一种。此后人们对Logistic模型进行了系统的研究和应用,使得它在农业、经济学、医学等各个领域都占据着非常重要的作用。

因子分析的基本模型如下:设有p 个原有变量x 1,x 2,…,xp ,且每个变量(经标准化处理后) 的均值为0,标准差为1。现将每个原有变量用k (k<p )个因子f 1,f 2,…,fk 的线性组合来表示,则有:

Logistic回归模型被用于描述二分类变量(因变量为0和1)和一个或多个自变量之间的关系。Logistic回归模型的一般表达式如下:

其中:P (Y = 1)表示对于给定的x 相应个体选择1的概率。F (z )是Logistic累计概率密度函数。Y 通过Logistic函数被转换为概率。

其中:P 为保单的续保概率,m 为协变量个数(个);β12,…,βn 为各个自变量的Logistic回归相关系数;x 1,x 2,…,xn 为影响车险续保率的各个自变量;z 与若干个预测变量x 呈线性关系。由式(2)得知回归方程的因变量是对数的某个具体选择的机会比。Logistic回归模型的优势是把 [0,1] 区间上的预测概率问题转化为在实数轴上预测一个时间发生的机会。

S代表结构特征量对设计参数的灵敏度矩阵。Δp=p-p0代表设计参数的误差。利用拉各朗日乘数法,式(3)的极值问题转化为如下的线性问题:

1.2 因子分析法

据了解,有四类企业在新疆生存状况比较好,一是进口企业,如以色列海法、德国康朴;二是国内做得较好的液体肥企业,如史丹利、金正大等;三是疆内自身发展起来或者投资在疆内建厂的企业;四是充斥在各个水溶肥发展较好市场的地方小杂牌厂家。也正因如此,地方农户的需求转向市场,而市场上滴灌肥品类繁杂、标准不一,缺乏领军品牌。

VDI3926标准下进行VDI测试,通过排放和压差的对比结果表8可知,PPS无基布滤料相对于PPS含基布滤料排放质量浓度更低,稳定阶段后,相当于正常使用粉饼层形成,由于同样克重下,无基布滤料的纤维数量多,纤维比表面积大,滤料表面过滤面积增大,显著提高了滤料的过滤性能,同时由于PPS无基布滤料整体孔隙率大,孔径小,避免了PPS含基布滤料中的基布粘附粉尘现象,故整体压差低于PPS含基布滤料。

“因子分析”的名称于1931年由Thurstone首次提出,因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。

1.2.2 模型建立

收集内分泌、泌尿外科电子和纸质数据,包括图片、学位论文、会议论文等全文数据,利用计算机辅助工具,对各类资源进行收集整理、筛选、分类,并将选定的内容分别按要求有序地下载、排序、汇总,再按照规定的格式进行加工整理。

本文运用某保险公司的部分续保数据来说明Logistic回归模型在续保模型中的应用。由于考虑到选取的解释变量的同质性问题,仅选取部分家庭自用车作为样本进行建模,剔除无效样本及对样本数据进行降维处理、异常数据删除及冗余数据合并后,样本容量大约有26 734条。

2 基于Logistic回归模型车险续保率影响因素分析

2.1 数据来源

用矩阵的形式表示为:

2.2 变量选取

从图1中可以看出渠道、NCD、签单保费、投保类别、是否投保车上人员等因素对是否续保的影响较大。

2.3 结果分析

运用SPSS Modeler数据挖掘软件建立Logistic回归模型,得到车险续保率影响因素的重要性排序,如图1所示。

多重共线性是指线性回归模型中的预测变量间存在高度相关的关系,会导致模型的估计值产生偏差。应用方差膨胀因子(Variance Inflation Factor,VIF)对模型的预测变量进行检验,排除有显著共线性的变量。一般认为,当VIF>10时,说明自变量之间具有显著的共线性,需要剔除相应的自变量。针对样本数据中的28个影响因素,根据多重共线性检验结果,剔除不显著变量后,得到渠道、品牌、投保类别、新车购置价、车龄、NCD、被保险人性别、被保险人年龄、是否投保车损、是否投保盗抢、是否投保车上人员、三者险保额、签单保费等13个影响因素,确定此13个影响因素作为自变量。

“好了。我不需要你的解释了。思雨,你知道我并不是那种小心眼的女人。但你长时间在生活中对我的态度,已经证明了一切。这样一根年轻女人的长发丝,沾在你毛衣上而不是外衣上,这一点似乎已经证明了什么。你说呢?”老婆的目光咄咄逼人。

3 基于因子分析法的车险续保率影响因素权重确定

3.1 计算步骤

(1)评价指标体系构建

1.2.1 方法简介

根据Logistic回归模型得到的渠道、NCD、签单保费、投保类别、是否投保车上人员、三者险保额、是否投保盗抢、品牌、被保险人性别、车龄等10个影响因素,遵从完备性、科学性、系统性及可操作性等基本原则,分别从产品属性、承包属性、客户属性、标的属性等4个准则层构建评价体系,使评价体系从不同方面综合反映车险续保率影响因素(见表1),运用SPSS多元统计软件进行影响因素权重分析。

(2) KMO与Bartlett球形检验

检验是否适用因子分析的常用统计量,包括KMO检验以及Bartlett球形检验。经过计算,检验结果KMO值为0.543>0.50,说明适合使用因子分析;同时,Bartlett球形检验对应的P 值为0.000,小于给定的显著性水平p =0.05,因此认为原有变量适合作因子分析。

图1 车险续保率影响因素的重要性

表1 指标汇总表

(3) 因子个数的确定根据特征值与成分数分析,4个因子满足特征 值λ≥1的原则,因此,因子总数暂定为4个,公共因子可以依据累计方差贡献率来确定,前k 个因子的累计方差贡献率定义为,其中ak 为前k 个因子的累计方差贡献率为第i 个因子的方差贡献;λi 为第i 个特征值。

通常选取特征值大于1的因子为公因子;将原有变量的统计数据导入SPSS,按照因子分析操作处理,得到因子解释原有变量特征值从大到小排列的结果,结果显示,相关系数矩阵特征值大于1的共有4个公因子。本例中,方差贡献率a 1=17.89%,a 2=15.88%,a 3=11.11%,a 4=10.51%,累积方差贡献率a 1+a 2+a 3+a 4=55.39%,能够较好地反映大部分数据信息,即认为前4个因子就能基本保留原有数据信息,所以提取4个因子是合适的。

3.2 结果分析

通过SPSS软件得出车险续保率影响因素权重排序,第一主因子产品属性包括是否投保车上人员、是否投保盗抢和签单保费是影响车险续保率的首要关键因素,综合权重达0.32;第二主因子承保属性包括渠道、投保类别、车龄、NCD是影响车险续保率的次要关键因素,综合权重达0.29。

4 结论

(1)本文以某保险公司26 734条保险样本数据为分析对象,通过Logistic回归模型中的多重共线性处理剔除不显著变量后,得到渠道、品牌、投保类别、新车购置价、车龄等13个影响因素。应用Logistic回归模型构建车险续保率影响因素重要程度排序图,结果表明,排名前十的车险续保率影响因素分别是:渠道、NCD、签单保费、投保类别、是否投保车上人员、三者险保额、是否投保盗抢、品牌、被保险人性别、车龄。

(2)由因子分析法确定的各因素的综合权重排序可知,产品属性包括是否投保车上人员、是否投保盗抢和签单保费是影响车险续保率的首要关键因素,承保属性包括渠道、投保类别、车龄、NCD是影响车险续保率的次要关键因素。因此,保险公司在制定精准营销策略时需要有针对性和侧重点,从而有效提高客户车险续保率。

参考文献:

[1] Yong W S,Chae Y M,Kang S H,et al.Development of Health Insurance Rate-Setting System Utilizing Data Mining Technique[J] .Journal of Korean Society of Medical Informatics,2001,7(2):25-36.

[2] Liao S H,Chen Y N,Tseng Y Y.Mining demand chain knowledge of life insurance market for new product development[J] .Expert Systems with Applications,2009,36(5):9422-9437.

[3] 倪琪,刘骅飞,田雪颖.车险续保率影响因素模型[J] .企业研究,2011(10):112-113.

[4] 黄沛,李剑.基于粗糙集理论的续保规则挖掘模型[J] .上海交通大学学报,2004,38(4):641-645.

[5] 陈曼.影响车险客户续保因素刍议[J] .上海保险,2012(8):34-36.

[6] 杨子江,王野,马天诣.影响汽车保险续保率的因素分析[J] .企业研究,2011(10):109.

[7] 王梦晨.A公司车险业务续保率影响因素研究[D] .长沙:湖南大学(硕士学位论文),2017.

Analysis of Factors Affecting Auto Insurance Renewal Rate Based on Logistic Regression Model and Factor Analysis

LIN Hai (Faculty of Traffic Engineering,Kunming University of Science and Technology,Kunming 650500,China)

Abstract: In order to effectively improve the auto insurance renewal rate,26 734 insurance samples of an insurance company are used as the analysis object.After eliminating the insignificant variables by the multicollinearity processing in the logistic regression model,13 factors including channel,brand,insurance category,new car purchase price and vehicle age were obtained.Logistic regression model was used to construct the ranking map of the important factors affecting the auto insurance renewal rate,and the factors affecting the auto insurance renewal rate were analyzed.On this basis,factor analysis is used to characterize and calculate the weights of each influencing factor.The results show that the product attributes including whether to insure the car,whether to insure and steal,and the signing of the premium are the primary key factors affecting the car insurance renewal rate.The underwriting attributes include the channel,the type of insurance,the age of the car,and the NCD is the secondary key factor of car insurance renewal rates.

Key words: auto insurance renewal rate;influencing factor;Logistic regression model;factor analysis

中图分类号: F840

文献标识码: A

文章编号: 1002-3100(2019)08-0162-03

收稿日期: 2019-05-16

作者简介: 林 海(1994-),男,内蒙古呼和浩特人,昆明理工大学交通工程学院硕士研究生,研究方向:交通安全仿真。

标签:;  ;  ;  ;  ;  

基于Logistic回归模型和因子分析法的车险续保率影响因素分析论文
下载Doc文档

猜你喜欢