高维附加信息下的商业医疗保险费用评估模型和方法,本文主要内容关键词为:医疗保险论文,模型论文,费用论文,方法论文,商业论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:F840.684 文献标识码:A 文章编号:1004-4892(2013)04-0058-08
商业医疗保险是社会医疗保障体系最主要的补充支柱。在社会医疗保险中,医疗费用的评估非常重要,但是由于医疗费用数据分布的特殊性[1],例如费用数据往往呈偏态分布;医疗费用和保险者的生存时间有密切的联系;由于有删失和死亡事件的发生,导致患者的医疗费用在这两种情况下是不相互独立的;还有部分投保者在一定时间内没有费用的发生等等。这些都给医疗费用的评估带来了很大的挑战。在国外,已经有大量文献定量研究医疗费用,提出了许多精确刻画医疗费用的一些统计模型和方法。在医疗费用中普遍使用的方法包括数据变换方法[2][3][4]、广义线性模型方法[5][6]、混合参数分布模型方法[7][8][9]、混合效应模型方法[10]等等。Mihaylova(2010)[11]针对此问题有过专门研究,在这些方法中尤其以数据变换方法和广义线性模型最为常用。
广义线性模型是目前医疗费用分析中比较普遍的一种方法。然而,广义线性模型总是假定联系函数是一个已知函数,而这个已知函数的选择需要专业知识。另外,广义线性模型总是基于低维附加信息进行统计分析,当含有所有高维协变量的时候,传统的广义线性模型不再适用。随着生物技术的大力发展,基因表达(gene expression)和单核苷酸多态性(single nucleotide olymorphism-SNP)分析等的出现,使得新类型的数据往往含有大范围的附加信息,即所谓的“高维协变量”。
针对现有医疗费用评估方法中存在的局限性,本文将Lin(2003)[6]的模型延伸到可以允许含有高维附加信息的医疗费用评估模型,然后提出一个新的评估方法,从而更准确地评估医疗费用。该模型有两个特点:一是可以允许高维附加信息的存在,二是假设联系函数总是未知的。最后通过模拟和实例分析来评价我们提议的模型和方法。
然而此模型也存在如下的局限性:一是我们总是将协变量定义为低维协变量;二是在该模型中,联系函数g总是被完全参数化,这样就使模型缺乏一般性和灵活性。
基于该模型存在的不足,在本文中,我们将其做进一步延伸:即我们允许联系函数g完全非参数化,协变量可以是高维协变量。具体地讲,我们提议如下的多指标模型:
其中的联系函数g可以完全未知,附加信息的维数可以是高维的,这种情况在医疗费用中很常见,例如伴随着费用的信息有年龄、性别、病种、住院医院的级别等等多达30个信息(见后面的实例分析),这些信息都会对医疗费用的发生产生影响。就目前文献中的方法而言,研究者往往根据自己的经验挑选几个变量作为附加信息,而这样的做法很容易遗漏一些重要变量。因此,最近以来,充分降维方法被广泛使用在该类数据分析中,其最大的优点在于:一是不需要假设因变量和自变量的具体分布形式;二是不同于主成分分析等,在充分降维过程中考虑到了响应变量的因素;三是不同于变量选择方法去挑选某些变量,而是寻找变量的若干个线性组合。这些优点使得充分降维成为目前处理高维数据的热点和有力工具。
有鉴于此,我们把医疗保险费用赔付表示成为一个标准的回归模型:
注意到在模型(3)中g是p-元函数,而在(4)中是d-元函数,在不至于引起混淆的情况下,我们仍将其记为函数g。
本文就是在模型(4)基础上,首先获得协变量的中心降维子空间的维数和基方向,然后再利用局部回归方法对完全非参数化的联系函数g进行估计。
三、模型估计
(一)充分降维
本文将利用充分降维方法对协变量进行降维,充分降维方法的重要特点是通过寻找变量的线性组合从而达到降维的目的。这种降维方法不需要任何参数模型,且不损失任何分布的信息。从统计理论的角度讲,其描述如下:
令Y表示响应变量(可以是多维的),X为P×1维协变量向量。充分降维方法就是要在上寻找一个最小子空间S,S满足:
(二)多元局部回归
在降维的基础上,对联系函数g应用局部回归方法对其进行估计。本文考虑的回归模型为:
四、数值模拟
(一)结构维数d=1的数值模拟
利用模型产生400个数据点,其中X维数p=10,,X中的每一变量和ε独立同分布于标准正态分布。在此模型中,任意和β成比例的向量均为其中心降维子空间。下表我们给出利用MSIR方法得到的β的均值与方差,该模拟进行了100次。
利用MSIR降维我们得到估计的结构维数d=1,在下表中,我们可以看出利用SIR的估计效果是非常好的,且对切片数的选取不敏感,我们切片分别为5,10,15。其均值很接近标准化的β。
在降维的基础上,我们利用局部回归方法估计回归函数,其估计曲线连同散点图列在图1中。在上述估计中,我们把带宽选为,核函数。由下面曲线可以看出,局部回归对数据点进行了很好的拟合。
图1 估计曲线与散点图
(二)结构维数d=2的数值模拟
利用MSIR降维我们得到估计的d=2,利用估计的β与真实的β的相关系数(β)来评级估计的贴近程度,越接近1我们的估计效果越好。由下表可以看出MSIR方法得到的结果非常好,我们切片分别选为5,10,15。
在降维的基础上,我们也可以利用局部回归方法给出回归曲线的估计。同样的,我们把带宽选为,核函数选为均匀核K(u)=1/2,-1≤u≤1。由图形①可以看出局部回归估计对该散点图进行了很好的拟合。
五、实例分析
本文根据2008年某商业保险公司在上海和四川两地推广的一个医疗保险产品的理赔数据,研究医疗损失对影响因素的响应关系。仇春涓(2012)[15]挑选了若干设计变量,利用广义线性模型分析了上述数据。正如前面叙述的一样,本文利用模型(4)再次分析该组数据,通过寻找变量的若干线性组合达到降维的目的。
这里简单描述一下数据的结构,其中因变量是一份医疗保险合同在一个固定保险期内的最终赔款额。影响因素为所有可能的变量,一共30个变量。我们主要介绍几个比较重要的变量:
(1)被保险人所在的地区(0表示四川地区,1表示上海地区);
(2)被保险人性别(0表示男性,1表示女性);
(3)险种保障档次(1,2,3三个档次,一档的限额最低,三档的限额最高);
(4)被保险人年龄:以岁数为单位;
(5)医院级别(1,2,3三级别,0表示未分级);
(6)住院天数;
(7)案件意外代码(0表示案件非意外发生,1表示案件意外发生)。
为了消除变量量纲的差异,我们标准化了所有协变量。利用MSIR方法对协变量进行降维,得到估计的结构维数d=l和中心降维子空间的基方向β,β的值见下表。
图2 估计曲线
通过基方向和回归曲线的估计,我们可以得出以下结论:
(1)地区,0表示四川,1表示上海。在降维得到的线性组合中,地区的系数为-0.0655,由图像我们可知,相同的险种在上海的赔付要比在四川的赔付高。商业医疗保险在赔付上的差异产生了地区的不公平性,这点和仇春涓(2012)[15]的分析相吻合。
(2)险种的保障档次,分为l,2,3级。在降维得到的线性组合中,其系数为-0.9363,说明险种的保障档次对保险的赔付额的影响尤其明显。保险档次越高,赔付额越高,这点和仇春涓(2012)[15]的分析是一致的。
(3)被保险的性别,0表示男性,1表示女性。在降维得到的线性组合中,性别的系数为-0.1512,我们得出女性在保险赔付中要比男性的赔付高。这一点与仇春涓(2012)[15]的结论不一致。仇春涓(2012)[15]得出的结论为性别对医疗保险的赔付无显著影响。
(4)年龄,年龄的系数为0.0001,其对保险赔付的影响很小。这点和仇春涓(2012)[15]的结论相吻合。一般来说,我们都认为年龄是影响医疗费用的一个非常重要的因素,但由数据我们可以看出,我们研究的对象年龄都是60岁以下的,低龄儿童在投保人群中占很大比重没有涉及到60岁以上的老年人群,所以年龄因素的影响不显著。
(5)医院级别,分为1,2,3级别,0表示未分级。医院级别的系数为-0.3061,医院级别越高,赔付的金额越高。医院级别越高,医院的功能、设施、技术力量等综合水平越高,患者的住院费用也就越高,从而医疗保险的赔付额越高,这点和仇春涓(2012)[15]的结论相吻合。
(6)住院天数。住院天数的系数为-0.0092,住院天数越长,医疗保险的赔付越高。然而住院天数对赔付额的影响并不十分显著。这和仇春涓(2012)[15]的结论不一致。仇春涓(2012)[15]认为住院天数是影响医疗保险赔付非常重要的因素。理论上,住院天数越长,医疗费用越高,保险赔付越高。然而,医院的级别,是否手术,是否放射等因素对住院费用也有很大的影响,使得住院天数对医疗保险赔付的影响并不是那么显著。
(7)案件意外代码,0表示案件非意外发生,l表示案件意外发生。其系数为0.0492,表明案件意外发生时,保险赔付额小于案件非意外发生时的赔付额。该变量在文献[15]中并未考虑。其他变量也可以依次分析,在此不再一一列出分析结果。
在本文中,我们对传统模型进行了改进,将Lin(2003)[6]医疗费用模型中的联系函数非参数化,这使得该模型更具一般性和更大的灵活性,该模型也允许有高维协变量的存在。我们采用两步估计的方法来估计模型参数,首先利用MSIR对高维的协变量进行降维,在得到中心降维子空间的基方向和结构维数后,利用局部回归去估计完全未知的回归函数。该模型和方法提供了一个处理含有高维协变量的医疗费用数据的一种有效选择。在本论文中,我们主要研究医疗费用的具体金额,而没有考虑医疗保险索赔次数的分布等问题,这将是我们以后要继续研究的问题。
感谢华东师范大学金融与统计学院仇春涓博士提供了第五节中的数据。
①如需要图像,可向作者索要。