基于深度学习技术的机动车辆保险欺诈识别模型与实证研究论文

基于深度学习技术的机动车辆保险欺诈识别模型与实证研究

徐 徐 王正祥 王牧群 北京工商大学经济学院

本文受北京工商大学2018年研究生科研能力提升计划项目资助。

针对车险欺诈的日益猖獗和传统欺诈识别模型的低效率特点,本文建立了以深度学习技术为基础的车险欺诈识别模型,同时考虑到为了与传统机器学习模型进行比较,针对车险数据中的数据不平衡问题,利用下采样和过采样算法将不平衡数据转变为平衡数据集。然后,根据数据变量之间存在相关性的事实,采用PCA算法对数据进行降维处理,最后将数据应用到不同的模型。车险欺诈数据集的实验结果表明,深度学习的预测能力最好,提升了欺诈识别的准确率。

一、引言

伴随着经济的快速增长和汽车保有量的增加,车险市场蓬勃发展。以中国车险市场为例,2005年保险公司实现保费收入857.52亿元,到2015年车险保费收入为6198.96亿元,占财产险保费收入的比例由69.9%增加到77.54%,年平均增长率为21.87%,远超过经济增长率。但是,随之而来的问题就是车险欺诈案件的增多,而且欺诈行为发生的范围也在扩大,如被保险人、车辆维修人员、律师、警察、保险工作人员和其他人(Šubelj et al.,2011)。

保险欺诈给保险公司带来的直接损失就是赔款增加,同时也会造成其他消费者潜在利益的损失。在我国保险欺诈最严重的险种是车险和健康险,其中车险欺诈占比最高,业务中最为普遍(喻炜、冯根福和张文珺,2017)。根据中保协发布的数据显示,财产险中70%的保险欺诈案件属于车险欺诈,欺诈形式表现为高档车碰瓷、虚构保险事故、内外串通骗保、修理人员伪造证明材料骗保等。当下,从车险反欺诈实践来看,保险公司的对手已经由原来的单个、隐蔽行为逐渐转化成“专业群体”和“标准化操作”,最后欺诈团伙形成产业链,其结果降低了保险公司的经营效益,增加了赔款支出,可能影响保险公司的定价策略和社会经济福利。在发达经济体中,如美国、英国、澳大利亚,它们具有比较成熟的保险市场,但是车险欺诈也很严重。美国每年的保险欺诈金额约为800亿美元,直接导致美国家庭保费平均上涨950美元;澳大利亚保险欺诈局的一项研究反映了因保险欺诈导致的费用上涨的趋势,平均每年上涨20亿美元(Australia:Insurance,2016);在2014年,英国保险业协会的调查表明虚假索赔数量比2013年增加了18%(Cutting Corners,2015)。这些统计数字清楚地说明了保险欺诈的严重性,因此需要加以解决,以减轻这种恶意企图造成的损失。

传统的保险欺诈识别主要依靠财务审计和专家判断,其缺点包括识别效率和准确率较低、识别成本费用高。为了最大限度地提高识别效率和准确率,建立行之有效的识别技术迫在眉睫。人工智能的出现为保险反欺诈带来了新的工具和技术。本文将借鉴国外先进的机动车辆保险反欺诈识别系统,并结合运用人工智能领域中成熟的深度学习技术,构建机动车辆保险欺诈识别模型,最后运用保险公司经验数据检验模型识别可行性和效果。

文章的结构安排如下:第二部分简要介绍保险欺诈领域的相关研究工作;第三部分解释本文欺诈识别的技术基础,主要包括深度卷积网络;实证和识别模型效果比较在第四部分;最后是结论和启示。

二、文献回顾

国内外对保险欺诈的研究主要包括两个方面:理论研究和欺诈识别实证研究。理论研究成果丰富,研究工具主要包括博弈论和委托—代理理论。大多数学者认为保险欺诈主要是由保险市场的信息不对称和道德风险导致的(Arrow、Artis、Caudill、毛钦、张瑞刚等)。

让每个学生成为班级的管理者与被管理者,给每个学生展示自我的舞台,让每个学生在自信与竞争中茁壮成长相信他们收获的将是沉甸甸的果实和快乐美好的回忆!

在保险欺诈的实证研究方面,主要是对欺诈识别的检测,检测的方法可以归纳为两个方面。一是采用传统的回归模型和专家系统进行分类,如Probit、Logit和Logistic等广义线性模型(GLM)。Ll.Bermudez(2008)等采用Logit模型和Gibbs抽样对西班牙的一组保险索赔数据进行了欺诈识别检测和分析。使用Probit和Logit等回归模型的学者还包括Artis et al.(1999)、Belhadji et al.(2000)、Steven B.Caudill(2005)、Stijn Viaene(2005)等。此外,Von Altrock(1997)、Stefano et al.(2001)、Major et al.(2002)、Pathak et al.(2003)、Barse etal.(2005)使用专家系统进行索赔欺诈的风险管理和识别。二是采用机器学习技术对车险欺诈进行建模,选择合适的算法来识别欺诈,以实现对保险索赔的分类,取得了不错的效果。欺诈识别所运用的机器学习技术主要包括神经网络(Neural Network)、朴素贝叶斯(Naive Bayes)、决策树(Decision Tree)、模糊逻辑(Fuzzy Logic)、贝叶斯信念网络(Bayesian Belief Networks)和随机森林(Random Forest)、社会网络分析(Social Network Analysis)等。

自2013年起,公司核心业务之一是家政管理系统的研发。2014年底,第一代管理系统开始投入使用,这在很大程度上提高了家政服务管理效能,为公司积累了大量的业务数据。到2016年下半年,自然正家上线了第一代线上交易入口——微信客户端,经过一段时间的线下大力推广,公司平台取得了日均十几单的交易量,但是在业务蓬勃发展的背后,却也暴露出了一些问题。如线上客户和线下客户竞争“白热化”;线上客户分布广,不确定性强,如何科学派工,平台缺乏数据支持等一系列的问题。

早期采用的机器学习模型都是基于索赔数据类别分布大致均匀和平衡这一假设,如Hongxing He et al.(1997)构建了反向传播算法的多层感知器,使用已被专家分为四类的医疗保险样本来训练模型,最后考虑到专家分类中的噪声程度(即不一致性),使用基于神经网络输出的概率解释的技术来查看多层感知器的分类性能。S.Viaene et al.(2005)采用具有自动相关性和正则化确定权重的神经网络分类器,研究了汽车保险索赔欺诈的检测。由于神经网络分类效果的高效性,很多学者对神经网络模型进行了优化,如S.Viaene et al.(2005)采用具有自动相关性和正则化确定权重的神经网络分类器,结合贝叶斯学习研究了汽车保险索赔欺诈的检测。WeiXu etal.(2011)提出了基于随机粗糙子空间(Random Rough Subspace)的神经网络组合模型。首先产生粗糙集约简并且保持数据信息一致性,然后随机选择约简构成一个子集并利用保险索赔数据训练神经网络分类器,最后根据组合策略得到组合神经网络分类器。另外,很多学者也在其他技术上进行了实践,如Bermúdez et al.(2008)提出了非对称的贝叶斯二分类逻辑模型用于识别在西班牙汽车市场发现的恶意保险索赔。Rekha Bhowmik(2011)采用朴素贝叶斯、决策树和基于规则的分类器,评估了其在汽车保险欺诈识别上的效果。

由于在原始数据里年龄出现了两次:离散型和类别型。由于离散型年龄的唯一性会增加模型的复杂性,因此去掉离散型特征年龄,保留类别型年龄。因此,最后综合得到了21个对车险欺诈有重要影响的特征。

然而,上述所采用的机器学习算法只能使用已经存在的特征。数据集中隐含的其他特征信息很难利用传统的算法提取和利用。随着深度学习技术的不断发展,Yifei Lu(2017)和Kang Fu et al.,(2018)分别提出了利用深度神经网络进行欺诈检测和采用卷积神经网络识别信用卡欺诈。因此,本文提出基于深度神经网络技术的汽车保险欺诈识别模型,并且最后与SVM(支持向量机)、RF(随机森林)等进行比较。

三、深度学习

深度学习(Deep Learning,DL),也称为深度神经网络(Deep Neural Network,DNN),来源于机器学习泰斗Hinton在2006发表的一篇论文(Reducing the Dimensionality of Data with NeuralNetworks)。深度学习的前身是人工神经网络(ArtificialNeuralNetwork,ANN),基本特点是试图模拟人脑的神经元之间传递和处理信息的模式。深度学习的发展经历了三次发展浪潮:20世纪40年代到60年代出现了以控制论为基础的深度学习雏形;20世纪80年代至90年代出现了以联结主义为特征的深度学习;从2006年“深度学习”概念提出,深度学习研究进入快速发展和爆炸期,以谷歌、微软和脸书等为代表将深度学习在图像识别、语音识别和自然语言处理等方面实现了商业应用。

考虑到车险索赔数据获取的困难性,本文选取的数据集来自1994—1996年美国某家保险公司的不同区域的车险索赔数据,多位学者(Phua et al.,2004;Xu et al.,2011;Sundarkumar and Ravi,2015;SundarkumarKe et al.,2015;Nian et al.,2016;Sharmila et al.,2017)已使用该数据集来验证所建立的模型的识别准确度。数据集包括15420条索赔记录,其中14497条索赔记录为正常索赔(94%),923条索赔记录为欺诈索赔(6%),为了与其他学者的模型进行比较,本文将1996年的所有索赔记录(4083条)作为模型的测试数据集,而1994—1995年的索赔记录(11337条)作为模型的训练数据集(Phua et al.,2004)。原始数据特征见表1。

虚拟现实(Virtual Reality)简称VR,是一种比普通模拟技术更为高级的模拟仿真技术。它利用计算机技术建立一种更为逼真的三维虚拟环境,让用户有一种“身临其境”的感觉,高端的虚拟现实除了提供视觉和听觉感受外,还提供触觉、嗅觉等感受。更为重要的是,在这样的环境中,用户还能够与环境或其中的对象实时交互,如漫游虚拟世界、操作虚拟设备等。这种技术在计算机辅助教学、网络教学和模拟训练等领域具有广阔的应用前景。在网络课件中用到的虚拟现实技术主要有VRML、Web3D和虚拟全景,Web3D是用于网络环境的实时三维技术,广义的Web3D包括VRML和虚拟全景。

治疗组患者的临床高血压情况程度评分较之于对照组来看,明显比对照组要高很多,差异有统计学意义(P<0.01),平均住院的天数也比对照组要短很多,差异有统计学意义(P<0.01);两组患者的心理情况差异具有医疗临床的统计学意义[4]。见表1。

卷积神经网络(Convolution Neural Network,CNN)是一种专门用来处理具有类似网络结构的数据的神经网络,比如时间序列和图像数据。它结合利用了三大体系结构特点来保证一定程度的位移和失真不变性:局部感知区域、权重共享和空间或时间上的下采样(Yann LeCun和Yoshua Bengio,1997),其中权值共享机制大大降低了网络的复杂度,减少了网络权值数量。卷积神经网络的架构主要包括输入层、卷积层、Relu激活层、池化层、全连接层,其中卷积层是卷积网络的核心部分,自动完成特征提取,池化层通过汇聚特征后稀疏参数来减少要学习的参数,来降低网络的复杂度。普通神经网络与卷积网络的区别见图1。

循环神经网络(Recurrent Neural Network,RNN)是一类处理序列数据的神经网络。网络的训练使用的是随时间反向传播(Back Propagation Through Time,BPTT)算法。循环神经网络主要应用在自然语言处理(Natural Language Processing,NLP)领域。

欧洲中央银行并不是以失业率以及汇率来调控政策,而是以利率机制来控制通胀率,这使得政策在欧元区内得不到平衡。欧洲中央银行需要实行平衡的目标组合,以照顾到成员国的利益。

准确率表示在模型预测保险欺诈的保单中,实际上也为保险欺诈的保单比例;召回率表示在实际保险欺诈的样本中,被预测为保险欺诈的保单比例。在实践中,常采用准确率和召回率的组合,称为F1分数:

四、实证分析

本文选取某保险公司的车险索赔数据作为模型训练和验证数据集,建立深度神经网络欺诈识别模型,进而基于不同的指标与传统模型进行比较。

(一)数据描述和预处理

深度学习网络模型主要包括卷积神经网络、循环和递归神经网络、自编码器和玻尔兹曼机、深度信念网络等。下面对其中的几个进行简单介绍。

像保险欺诈、信用卡欺诈等异常检测问题,传统的方法忽略了一个重要的问题——数据的非平衡性,即欺诈性的交易样本占总体的比例要远远小于正常的交易样本。随着大数据的出现,数据的非平衡性更加明显,传统的分类方法在非平衡数据集上就会失效。近年来,国内外学者开始关注非平衡数据集的分类问题,主要包括两个层面:数据和算法。数据层面是对数据采用欠采样或者过采样等方法来处理得到新的数据;算法层面是指根据非平衡数据的特点,设计新的分类算法,如代价敏感、支持向量机、随机森林(Ke Nian et al.,2016;Yaqi Li et al.,2017;闫春、李亚琪和孙海棠,2017)。

▶图1普通神经网络(左)和卷积神经网络(右)

来源:http://cs231n.g ithub.io/convolutional-networks/#conv

▶表1 车险数据的变量描述信息

(二)特征工程与采样

根据特征的重要性判定出有意义的特征,接下来要做的工作就是剔除一些信息重叠的特征,即进行数据的降维。在机器学习中,流行的降维处理技术有主成分分析(Principle Component Analysis,PCA)、线性判别分析(Linear DiscriminantAnalysis,LDA)和核主成分分析(Kernel Principle Component Analysis,KPCA),其中前两种属于线性降维,最后一个属于非线性降维。本文将采用PCA技术进行数据的降维。

在本文的数据集中,只存在数值型和类别型两种数据表示方式,故只对类别型数据进行处理。在机器学习领域,对分类变量进行处理的方法是独热编码(One-hot-encoding)或N取一编码(One-out-of-N encoding),也叫虚拟变量。根据独热编码方法,我们总会获得了对欺诈有影响的独立特征。另外,为了消除数值型变量的量纲对模型产生的影响,本文在数据预处理阶段已经进行了无量纲化的数据标准化。

在数据预处理阶段得到的对车险欺诈有重要影响的21个特征中,描述数据点的既有连续特征(Continuous Feature)也有分类特征(Categorical Feature)或离散特征(Discrete Feature)。由于数据表示方式会对机器学习模型的性能产生巨大影响,比如数据缩放(缩放到单位方差)和特征扩充(增加特征的交互项),因此选择合适的特征就显得尤为重要。特征工程就是解决问题的一种方式。

在保险索赔数据中,欺诈性的数据只是少数类,如图2所示,其中0表示非欺诈索赔,1表示欺诈索赔,这种情况在机器学习中被称为数据不平衡问题。处理不平衡问题的方法主要有两类,一种是在数据层面进行下采样(Undersampling)或过采样(Oversampling),减小或增加某个类别的数量;另一种是在模型的算法层面上,主要包括集成学习和代价敏感学习,算法主要有Adaboosting。本文采用的是在数据层面的方法来消除数据不平衡问题给分类效果带来的不利影响。

(a)、(b)中给定幅值为1000cts,频率1Hz的正弦输入位置信号,可以看出改进型ADRC可以很好跟踪位置信号,而传统ADRC响应滞后而且不能跟踪到峰值位置。

(三)模型评价与比较

为了比较各种机器学习模型的分类效果,文章采用了交叉验证,即将数据随机划分成10个子数据集,依次选择其中的9个子数据集作为模型的训练数据,另外1个作为验证数据集,最后计算评价指标的平均值。

对于二分类问题,通常选择评价模型的指标是混淆矩阵。混淆矩阵是根据真实类别和预测类别交叉统计的列联表,用来确定模型的性能好坏。对于欺诈识别分类模型,混淆矩阵的结构如表2所示,其中TP、FP、FN、TN为真实类别和预测类别下的保单数。

▶图2 欺诈数据频数统计

▶表2 欺诈识别模型的混淆矩阵

根据混淆矩阵,可以定义与模型性能评价相关的准确率(Precision,PRE)和召回率(Recall,REC),如下:

在骨折患者X线平片检查的过程中,各方一定要密切配合,结合临床实际,采取适当的防控措施,减少漏误诊现象的发生,提高X线平片诊断的正确性。

“不行!一千个理由也好,一万个理由也罢,就是俩字:不行!”马国平狠心说,“给你两条路:要么你卷起铺盖、摘下领花,走人;要么用血汗书写你的军旅生涯,作为你给菊花结婚的礼物!自己选!”……

自编码器(Autoencoder)是神经网络的一种,它的内部有一个隐含层h,可以产生编码表示输入。自编码器由两个部分组成:一个函数表示编码器和一个生成重构解码器。搭建一个自编码器模型需要完成三项工作:搭建编码器和解码器、设置损失函数。它的类型主要有正则编码器、稀疏编码器、去噪编码器等。

基于F1分数的定义,F1的取值在[0,1]之间,取值越大,表明模型的泛化能力越好,预测能力越强。

传染性喉气管炎在禽类疾病中较难治愈,如果用10%的鱼腥草进行拌料喂食成年鸡,对该病的防治和治疗效果很好,防治率高达88%,治愈率高达83%,在对喂食过鱼腥草的鸡进行白细胞检测时发现其能有效提高白细胞的数量,这说明鱼腥草能有效治疗动物传染性喉气管炎。

对于不平衡数据分类模型性能的评价标准中,受试工作者曲线(Receiver Operator Characterristic,ROC)是较为全面的评价标准。ROC曲线的横轴是假正率,纵轴为真正率(也为召回率)。ROC的对角线可以理解为随机猜测,如果分类器性能曲线在对角线以下,那么其性能比随机猜测还差。对于完美的分类器来说,其真正率为1,假正率为0,这时的ROC曲线即为横轴与纵轴1组成的折线。基于ROC曲线,ROC曲线右下方的区域面积被定义为AUC,其取值越接近于1,表明模型的分类效果越好。

3.由香日德出发西北行,经铁卜圭古城、德令哈、怀头他拉、绿草山和小柴旦镇,而后可以分别前往若羌、敦煌;

第一步的实验结果如图3所示,从图中可以得出Logistic回归、K-最近邻支持向量机、决策树和随机森林的AUC得分分别为0.81、0.67、0.61和0.73(自上而下),整体来看与Ravi(2011)和Sundarkumar(2015)的分类效果一致。其中,Logistic回归的效果明显优于其他的三种模型,随机森林次之,决策树的效果最差。

▶图3 Logistic、Kneighbors、Dec isionTree和Random Forest的PR曲线和ROC曲线

第二步比较的是传统机器学习模型和深度学习的分类效果,其中图4为车险欺诈数据集使用没有经过采样处理的效果,采用的传统模型为Logistic回归、K-最近邻支持向量机和决策树。图5和图6分别为下采样和过采样的模型分类效果直方图(注:图中的蓝色、绿色和灰色分别代表未采样、下采样和过采样的分类效果,红色代表深度学习模型的模型效果,数字0-3分别代表随机森林、K-最近邻、Logistic回归和决策树模型)。

在精确度方面,深度学习模型为0.94,除了与Logistic回归相等,均优于其他模型,尤其是未经过采样处理来消除数据不平衡问题时,模型的性能平均提升21%。从召回率来看,深度学习预测能力明显优于K-最近邻、Logis回归,也比采用下采样的随机森林和决策树预测能力好。虽然随机森林和决策树模型过采样后与深度学习的模型性能相差无几,但是随着数据量的增多,经过过采样之后,数据的维度会剧增,这样对于模型的训练就显得有点困难,以至于影响预测能力。最后,综合来看F1分数,深度学习的预测性能最好,其次是决策树模型,再是随机森林模型和K-最近邻、Logistic回归模型。

综合考虑精确度(Precision)、召回率(Recall)和F1分数这三个模型评价指标,深度学习模型对于车险欺诈的预测能力最好,而Logistic回归模型最差。

五、结论与建议

随着我国车险市场的不断壮大,车险欺诈案件也不断攀升,已扰乱了车险市场的正常经营秩序。考虑到传统车险欺诈检测手段的低效率现状以及新兴技术的出现,本文建立了以深度学习技术为基础的车险欺诈识别模型,同时考虑到为了与传统机器学习模型进行比较,针对车险数据中的数据不平衡问题,利用下采样和过采样算法将不平衡数据转变为平衡数据集。然后,根据数据变量之间存在相关性的事实,采用PCA算法对数据进行降维处理,最后将数据应用到不同的模型。车险欺诈数据集的实验结果表明,深度学习的预测能力最好,提升了欺诈识别的准确率。因此,保险公司应加快数字化转型,利用保险科技为欺诈检测赋能。

▶图4 传统机器学习模型与深度学习准确率(Precision)对比

▶图5 传统机器学习模型与深度学习召回率(Recall)对比

▶图6 传统机器学习模型与深度学习F1分数对比

第一,科技发展对保险业带来的创新是巨大的,保险公司应该在反欺诈应用中重视大数据分析技术、云平台建设,在识别、计量、评估、检测、控制和报告欺诈风险等环节建立有序的和可靠的信息系统,同时与同业共建反欺诈共享信息平台。

第二,保险公司在应用传统反欺诈工具的基础上,应加快研究如何应用新技术,如大数据、云计算、机器学习、物联网等。在公司内部设立相关的研究部门和研究岗位,引进大数据和机器学习、图像识别等技术人才,建立反欺诈科技应用平台。

第三,加强公司内部各个部门的合作。反欺诈是一项系统性的工作,传统的管理模式会降低数字化转型带来的效率提升。所有工作都应该在公司数字化转型战略的指引下进行决策,避免数字化转型过程中消耗企业的利润。

另外,后续研究工作中还可以考虑更加复杂的深度学习模型,如卷积神经网络等,进一步提升欺诈检测的效率。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于深度学习技术的机动车辆保险欺诈识别模型与实证研究论文
下载Doc文档

猜你喜欢