基于逻辑回归的客户车险续保率研究
胡锐玲,贺嘉钰,沈陆明
(湖南农业大学 信息科学技术学院,湖南 长沙 410128)
[摘 要] 为提高客户的车险续保概率,对客户进行精准的画像分析,文章对客户基本信息进行筛选、剔除。对其进行量化处理,采用Logistic回归,得到Logistic回归方程,定性定量分析客户基本信息对是否续保的影响,并预测客户的续保概率。针对不同的客户对其采用不同的优惠、福利、服务方案,提高其续保率。
[关键词] 车险续保率;虚拟变量;逻辑回归
1 引 言
机动车辆保险在我国的财险保费中所占比重最大,以千亿元计。车险市场历来是财险公司的兵家必争之地。新车销售放缓,车险市场中新车业务占比日渐下滑,与此相对应的是续保业务占比不断提高。续保市场更强调以客户为导向,更加重视对核心阵地的资源投放,倒逼公司“眼光向内”,加速客户需求分析、产品精准推送、价格敏感性分析、客户互动体验等课题的研究和应用。文章通过收集的某保险公司客户的基本信息,进行实证研究。建立合理的数学模型,对客户进行精准画像,求出续保概率。针对不同的客户设计不同的优惠和福利方案,以提高续保概率(数据来源于2019年“认证杯”数学中国数学建模网络挑战赛C题)。
2 数据处理
根据收集涉及的客户基本信息,先对基本的数据进行清洗和预处理,定义各基本信息列为自变量,“是否续保”为因变量。因变量y 为二分类变量,即续保和不续保,即视为y =1和y =0,设定因变量区间范围为(0,1),预测各个客户的续保概率。
本课题的案例库框架建设,经过反复对比建设的资金、难度和适应性后,课程组决定采用网页型框架,使用Dreamweaver软件编辑网页构架。
对于客户的基本信息数据包含各种类型的数据。根据数据信息的完整度以及自变量与因变量是否有关系先对数据进行筛选,删除。再将其分类变量定义虚拟变量,二分类变量用0-1赋值,现构造出包含以下23个自变量指标对客户进行精准画像。标识如下(见表1):
按表1皮肤反应分级标准记录反应结果,32例受试者中出现1级皮肤不良反应的人数多于5例,或2级皮肤不良反应的人数多于2例,或出现任何1例3级或3级以上皮肤不良反应时,判定受试物对人体有皮肤不良反应。
表1 回归自变量定义描述
续表
3 逻辑回归模型的建立
利用Python软件得到Logistic回归模型具体的参数拟合结果如表2所示。
由表2可得,签单保费(X 16)、立案件数(X 17)、保单性质(X 2)、本省车牌(X 5_1 )、车商渠道(X 1_1 )、电网销(X 1_2 )、常数项,自变量系数全都通过了显著性检验。另外剩下的大多数变量未进入模型,说明其余的自变量对客户选择是否续保影响不大,而这7个自变量则是对最后是否续保有重要影响的指标因素。
(4)本省车牌这一变量的系数表明,当购买车险的客户车牌是本省车牌时,其选择续保的概率相对于非本省车牌和临时车牌的客户会增加,这和地域稳定性有关。本省车牌的客户相对于非本省车牌和临时车牌的客户,一方面更加有地区优势,出事故的概率会更小;另一方面会更长期的在本地工作,续保的概率会更高。
4 模型求解与结果分析
对于一般的连续性变量,可以采用普通回归,但是对于输出结果是离散二分类变量时,如y =1或y =0。则需要采用二分类逻辑回归。逻辑回归也被称为广义线性回归模型。Logistic回归函数为:
(1)签单保费有一定的正向影响,签单保费的金额越大,客户续保的可能性也越大。
表2 逻辑回归结果
得到的Logistic回归方程为:
P =
需求情况:今秋用肥较往年延后,农需尚未完全启动。受近期钾肥价格高位坚挺影响,下游需求持续放缓,复合肥企业观望氛围较浓,采购一般;市场整体交投疲软,对钾肥需求不强。
全国、全省组织工作会议已经明确新时代组织工作的新目标、新任务、新要求,我们首要任务是吃透精神、领会实质、把握要义,确保工作始终沿着正确的轨道前进。
(3)对于保单性质这一变量,当取值为0时,表示此单是续保签约,取值为1时,表示转保,联系其系数来看:即当某一客户的保单性质为转保时,下一年的续保概率会大大减少,而当该客户的保单性质为续保时,相当于为该保险公司的老客户,一般而言,都会继续选择续保。
(2)立案件数系数为负值,说明随着客户在某一保险公司立案件数的增加,选择续保的概率会降低,这与实际关联很大,当某一购买车险的客户立案件数增加导致保险公司的赔款增多时,保险公司也会对其重新进行评估,其今后购买车险的优惠和福利都会减少,此时,对客户来说,选择续保是不太明智的,因此,该变量与最后的续保概率呈负相关。
其中,P 表示续保概率,是关于参数β 0,β 1,…,β n 的非线性函数,符合一个标准的Logistic分布;X i 表示各变量。通过Logistic函数,可以将输出的值限制在区间[0,1]上。通常会定义一个阈值,一般为0.5,当y >0.5时,就将y 归为1这一类,否则归于0这一类。
(5)保险购买的渠道这一变量,电网销和车商渠道的系数很显著,说明这两种购买渠道相对于其他的购买渠道的客户,续保概率会增加。这与渠道购买的可信度与优惠度有关,一般购车时就购买的保险与电网联售的保险的可信度和优惠度更大一点,客户更容易选择续保。
有一天,我正在跟兄弟们聊剧本,她打了个电话来,说她要离开台湾一阵,今天想来见见我。我说好啊,来吧!她来的时候,门没锁,一推门进来,我就看她还穿着晚礼服和高跟鞋,应该是刚刚表演完,非常美丽。我旁边所有的兄弟都惊呆了。
基于以上逻辑回归的结果,对客户续保的概率进行预测。根据定义的阈值0.5对客户是否续保进行判断,续保率P >0.5,则认为该客户很可能续保,P <0.5,则认为该客户一般情况下不会选择续保了。通过预测的客户续保选择,与实际的是否续保对照检验,可以得到预测准确率有99.66%。说明Logistic回归充分挖掘了客户的基本信息,模型预测的效果很好。
5 建 议
在对客户进行了精准画像的基础上,根据其基本特征针对性提出优惠福利方案。公司的服务的好坏对客户是否续保的影响是不可忽视的,从客户开始选择本公司开始,服务便开始了。对客户的需求了解、产品内容、签订保单、理赔以及在保险合同期间的追踪调查等都是需要注意完善的。与汽车相关的行业进行合作,可为汽车提供各项服务的渠道以此完善在保单合同期间汽车的各项服务,也可与之进行相应的优惠政策(例如:汽车需要清洗时);续保领红包、福利;开展更多的活动,与客户建立更多的联系,既能利用此机会向客户进行车险类知识、公司产品的介绍,也能了解客户的需求,疑问,以及问题的反映;大数据时代,信息来源更高效更准确。通过大数据分析,了解客户的最近搜索等,针对性地为客户提供相应的服务;为鼓励客户续保时选择签订几年的合同,为此针对提出新的优惠政策,这样有助于提高近几年的续保率。
保险对于保证我们实际的生活是具有重要的意义的。车险无疑是其中重要的组成部分,凡是买车的,除了国家强制性要求买的交强险,多少会选择一些商业险来进行保障。对于保险公司来说,提高本公司的竞争力、利润率,在如何设计保险类型、宣传保险产品等方面是需要注重的。而对续保概率的研究,如何提高续保率的方面也是不可忽视的。
参考文献:
[1]唐现文,董海燕,吉文林.二分类变量Logistic回归模型下职业农民培育意愿分析[J].江苏教育研究,2013(12):48-50.
[2]张晋昕,李河.回归分析中定性变量的赋值[J].循证医学,2005(3):169-171.
[3]刘佳.基于大数据的车险精准营销模式研究[J].郑州:华北水利水电大学,2018.
[4]丁元林,孔丹莉.对比标度权重法在量化有序多分类变量中的应用[J].数理医药学杂志,2005.
[5]席俊虎,王文志,胡冰倩.数据挖掘驱动下的车险续保流程再造[J],中国保险,2016(3).
[中图分类号] F842
[作者简介] 胡锐玲(1998—),女,湖南常德人,湖南农业大学信息科学技术学院,研究方向:统计学;贺嘉钰(1997—),女,湖南常德人,湖南农业大学信息科学技术学院,研究方向:统计学;沈陆明(1973—),男,湖南岳阳人,湖南农业大学信息科学技术学院,教授,研究方向:分析几何及其应用。
标签:车险续保率论文; 虚拟变量论文; 逻辑回归论文; 湖南农业大学信息科学技术学院论文;