我国居民保险购买行为的决策树模型分析
王姗姗
(燕山大学理学院,河北 秦皇岛 066000)
摘 要: 近几年许多行业都步入大数据时代,但数据挖掘技术在我国保险领域的应用相对不多,并且我国保险公司也要考虑通过改变传统的经营方法来提升业绩,因此加大对数据的利用力度,过渡到数字化营销模式对保险公司来说十分关键。主要研究决策树算法在保险公司客户识别方面的应用,根据加入误分代价的决策树模型建立的分类规则,找出了影响我国居民是否购买保险产品的主要因素。
关键词: 决策树;误分代价;基尼指数
1 数据处理
选取2015年中国综合社会调查数据,根据相关研究选取其中的性别、年龄、个人年收入、是否拥有城市/农村基本医疗保险情况这四个影响因素。性别是名义变量,给男性赋值1,女性赋值2。将年龄以及个人年收入进行分段划分,并且对这两个影响因素数据进行离散化处理。
文丘里管同进气管的连接有串联和并联2种形式[16-17],综合考虑到柴油机台架的空间布局和文丘里管尺寸,选择串联的文丘里管系统见图2。
表1 年龄编码 (岁)
表2 个人年收入 (万元)
初始数据共有10968条,对其进行精简,只保留明确回答是否购买了商业医疗保险的数据,即购买了或是未购买的,凡是回答“无法回答、拒绝回答、不知道、不适用”的都不适用于本文的研究,故直接将其舍去,处理后的数据为10747条。对于其中个人年收入的缺失值对其进行同类插补将其补齐。最后得到的数据中购买商业医疗保险的居民有950个,未购买商业医疗保险的居民有9797个。
2 决策树分析
2.1 样本不平衡处理
由于本文中购买商业医疗保险的居民有950个,未购买商业医疗保险的居民有9797个,样本存在严重的不平衡性,因此我们在建模时要对购买了商业医疗保险的样本增加误分代价。
某些组合问题从表面上观察并不是图论问题,但可以结合图论中提到的有关概念,运用图论中有关定理和性质来解决问题
2.2 模型建立
首先利用个人年收入进行划分,此属性共有7个值,K =7,即a 1=1,a 2=2,a 3=3,a 4P =4,a 5=5,a 6=6,a 7=7,数据集划分成1个集合,即D 1,D 2,D 3,D 4,D 5,D 6,D 7。
表3 样本集划分
其中Gini (D k )=2P 1P 2,从而
黎永兰,女,1976年4月生,九三学社成员,曾任四川广安市政协常委,广安市广安区人民政府副区长,分管科教文卫等方面工作。2017年10月22日晚,黎永兰被男友林雪川袭击后重伤入院抢救。2017年10月27日,黎永兰因颅脑重度损伤,抢救无效死亡。
进行建模得到的决策树风险如表6。
决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节点表示树选择哪几个变量(属性)作为划分,每棵树的叶节点表示为一个类的标号,树的最顶层为根节点。本文用CART决策树(回归树)对居民是否购买医疗保险进行分类,该算法是一个二叉树,即每一个非叶节点只能引申出两个分支,因此十分适合用于本文的研究。将处理过后的10747条样本划分为训练集和验证集,随机抽取80%为训练集,剩下的20%为验证集。
购买商业医疗保险的样本量比未购买商业保险的样本量少很多,因此使用加入误分代价的CART决策树模型,根据样本中购买了医疗保险和未购买医疗保险的人数比例进行设置误分代价如表5。
表4 个人年收入划分样本
决策树算法中包含最核心的两个问题,即特征选择和剪枝,关于特征选择目前比较流行的方法是信息增益、增益率、基尼系数和卡方检验。CART算法的特征选择就是基于基尼系数得以实现的,其选择的标准就是每个子节点达到最高的纯度,即落在子节点中的所有观察都属于同一个分类。
当底板最外缘拉应力达到235 MPa时底板的剪力滞系数分布图如图13所示。此时,塑性阶段的剪力滞系数是通过数值计算的结果除以屈服应力235 MPa得到。从ANSYS中提取固端正应力结果后,此时底板最外侧几个点的正应力已经超过屈服应力235 MPa,其他大部分点均未达到屈服应力,说明在这种均布荷载作用下各点的剪力滞系数与弹性阶段剪力滞系数分布都差不多,同时截面的应力分布还处于弹性阶段的状态,模型的塑性变形不明显,主要是弹性阶段的变形。
依次计算出各个属性的基尼指数,并比较各属性基尼指数的大小得到个人年收入的基尼指数最大,从而确定个人年收入为第一个划分属性。个人年收入基尼指数计算步骤如下:
其中D k 表示包含个人年收入为编码取k 的样本,|D k |表示总共有多少个样本位于此区间,其中购买了医疗保险的有X人,表示a =k 时购买了商业医疗保险的人数占样本总体的比例,表示未购买医疗保险的比例。
表5 误分代价设置
首先在对样本划分前,总的训练数据共有2类,即N =2,其中参与商业保险的居民共有760,未参与商业保险的居民共7878,|D |=7118。
表6 决策树分类风险
从上表可以看出分类的标准误差很低,说明分类的效果比较理想,得到简单树形图为图1。
图1 简单树形图
2.3 模型结果解释
建模得到的特征重要性如表7所示。
表7 牲征变量重要性
Growing Method:CRT
Dependent Variable:您目前是否参加了以下社会保障项目-商业性医疗保险。
可以看到影响到我国居民是否购买商业医疗保险的因素由重要性的从高到低依次为您个人去年全年的总收入、是否参加基本医疗保险、年龄、性别。从这点我们可以看出,收入是一个人是否会购买商业医疗保险的首要决定因素,当收入达到一个较高水平时居民会选择购买商业医疗保险,例如在本文的模型中可以看到收入高于9万元时居民会购买商业医疗保险,这说明我国居民在家庭较为富裕的情况下才会考虑为自己购买医疗保险增加保障。
对于保险公司来说,需要在营销时着重了解潜在客户的收入情况,将收入较高的潜在客户作为首要推销目标,降低营销成本。
嵌入式学科服务是图书馆服务的重要发展方向之一,如何进行个性化定制并积极提嵌入式服务,也是图书馆服务的重点发展方向之一。当前,业界对于基于个性化定制嵌入式学科服务的研究正在积极开展之中,加上嵌入式学科服务的能力评价体系在一定程度上受限,上文所述基于个性化定制的嵌入式学科服务策略内容基于现有研究的提炼与思考,以期为相关研究提供参考。
参考文献
[1] 王星,谢邦昌,戴稳胜.数据挖掘在保险业中的应用[J].数据,2004,24(4):50-51.
[2] 王书爽.基于后修正贝叶斯决策树模型的保险企业营销决策[J].统计与决策,2013,14(3):180-182.
[3] Zhang Y,Chi 在X,Xie F D,Li N.A weights-based accuracy evaluation method for multi class multipliable classifier [J].Journal of Computational Information Systems,2008,4(2):589-594.
[4] Bolton R N,Kennan P K,Bramlett M D.Implications of loyalty program membership and service experiences for customer relation and value [J].Journal of the Academy of Marketing Svience,2000,20(1):95-108.
作者简介: 王姗姗(1994-),女,满族,河北承德人,硕士,燕山大学理学院应用统计,研究方向:数据挖掘。
中图分类号: F23
文献标识码: A
doi: 10.19311/j.cnki.1672-3198.2019.35.059