汽车交通事故损失分布的尾部估计_交叉验证论文

汽车交通事故损失分布的尾部估计,本文主要内容关键词为:尾部论文,交通事故论文,损失论文,汽车论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引言

汽车保险费率的放开是我国非寿险费率管制向宽松方向发展的标志。但是,费率市场化也给保险公司的精算提出了较高的要求,需要我们更加准确地估计风险。在厘定汽车保险费率时,需要对损失的分布类型进行假设,对其中的未知参数进行估计以及进行模型的拟合优度检验。显然,分布假设的合理性显著影响着最终精算结果的正确性。由于巨额损失将使保险公司面临非常大的风险,所以我们对损失的尾部分布一直非常重视。本文将借鉴极值理论的方法,对汽车保险损失金额分布的尾部进行估计和分析。

一、文献回顾

作为次序统计理论的一个分支,极值理论是研究次序统计量的极端值的分布特性的理论。它只考虑分布的尾部而不是整个分布,可以在总体分布未知的情况下,仅依靠样本数据,得到总体中极值的变化性质,所以是测量极端市场条件下损失的一种常用方法。它具有超越样本数据的估计能力,可以准确地描述分布尾部的分位数。极值理论给出了一些关于极值损失的统计分布的有趣结果,尤其是极值损失的极限分布与损失本身的分布相互独立,是一个极其有用的结论。

极值理论近年来被广泛地应用在巨额损失的估计上。对非寿险业务来说,一般运用右偏的分布来建立损失模型,并利用实际损失数据来预测未来的损失情况,以便安排再保险。在预测未来的损失情况时,对损失分布的尾部估计相当的敏感,因此损失分布类型的假定是否合适非常重要。一般来说,通常运用指数分布、伽玛分布、威布尔分布、对数正态分布、帕雷托分布等建立损失模型,但是这些分布在估计尾部概率时常会发生高估或低估的情形。近年来已有许多文献,如Mcneil[1]及Resnick[2]均建议以广义帕雷托分布(Generalized Pareto Distribution,简称GPD)来拟合损失模型的尾部情况,其拟合结果相对传统模型更为合适。

广义帕雷托分布由Pickands[3]在1975年提出,该模型以极值理论为基础,当变量服从广义帕雷托分布时,其超过某一门槛值的条件超额分布也是广义帕雷托分布。此外,Smith[4]、Davison and Smith[5]也证明对超过某一门槛值的损失变量可假定服从广义帕雷托分布。将极值理论应用于实际保险损失的相关文献还有:Zajdenweber[6]利用法国在1975年到1992年间由于火灾所引起的营运中断保险理赔大于16000法郎的损失资料进行分析,发现大于330000法郎以上的损失服从帕雷托分布,然后还利用极大似然估计法估计了帕雷托分布中的参数。Mcneil[1]利用丹麦1980到1990年损失金额超过一百万丹币的2156笔火险资料,通过直方图、Q-Q图、样本平均超额函数图等方法来判断火险损失情况,进而比较在估计损失的尾部形态时,对数正态、帕雷托、广义帕雷托分布中哪一个比较合适,结果发现广义帕雷托分布比较合适。Resnick[2]随后将Mcneil[1]的结果作了一定的扩展,应用样本自相关函数检验、渐进理论检验以及Hill图、Alt Hill图、Altsmoo Hill图、Alt图等方法,提供类似的数据分布的一些判断方法,并对丹麦损失资料做独立性检验,结果发现丹麦的火险损失间并无相关性存在。其它文献还有:Dupuis[7]利用矩估计方法、概率加权矩方法和极大似然估计来估计极值分布,发现GPD分布的形状参数ξ<0时,。因此用实际损失数据进行参数估计时,可能会产生参数估计不合适的情况,且极大似然估计方法比矩估计方法和概率加权矩方法更加合适。Gilli等人[8]则建议以样本平均超额函数图或Q-Q图等图形法来估计GPD分布的门槛值位置。国内方面,高洪忠[9]、柳会珍和顾岚[10]、赵桂芹和王上文[11]均提及用GPD分布来拟合尾部的损失,但未对门槛值的取法作讨论。

综合以上文献,选择GPD分布来模拟保险损失的尾部极值部分是比较合适的。从理论上说,门槛值必须足够大才能使权值损失分布趋近于GPD分布,因此门槛值的取值至关重要。

二、分析模型

GPD分布的概率密度函数和累积分布函数如下式所示,其中ξ为形状参数,σ为尺度参数。

可以通过样本平均超额函数图形选取适当的门槛值μ。作散点图,选取μ,若从μ开始与μ开始呈现出近似正斜率的线性关系,则认为大于门槛值μ的尾部损失部分,适合以广义帕雷托分布来构造损失模型。但是,由于根据这种方法确定的μ值可能不只一个,这时通常根据Q-Q图或者K-S检验来判断哪一个μ值更为合适。

三、实证检验与结果分析

我们采用上海市虹口区2003年的交通事故损失数据进行分析。虹口区无论在经济发展情况、地理环境、人口情况、消费水平等方面都是上海市具有代表性的城区之一。2003年,虹口区交警支队统计,除去快速处理的案件,全区共发生了2548起交通事故,涉及了5305位人员和车辆。由于一起交通事故要涉及到肇事者双方,并且双方所承担的责任不同。为了严谨起见,我们只对承担全部责任、主要责任、同等责任和次要责任的肇事者及其车辆进行了分析,并且去掉了其中没有发生经济损失的事故。经过整理之后,我们共得到了损失资料2230笔。

(一)模型参数估计

在损失资料中,最低为480元;最高为29999元,均值为6217.58元,中位数为4836元,极差为29519元。由于在8000元以下的损失大约为1732笔,约占整个损失资料的78%,因此本文从门槛值2000元起,每增加100元作为一个新的门槛值,至门槛值8000元共61个门槛候选值。选定待比较门槛值后,本文首先观察此61个门槛值,在样本平均超额函数e(μ)图形法的决策原则下,GPD分布的最合适门槛值。将所有门槛值的样本平均超额函数e(μ)图形绘制成图1。从图1中可以发现,μ=4000或5400时,e(μ)开始呈近似正斜率线性关系。因此,就本研究样本而言,在样本平均超额函数(e(μ))方法下,门槛值为4000元或5400元时条件超额样本适合以GPD分布作为损失分布的模型假设,下面将分别对4000元或5400元的门槛值进行GPD模型的参数估计。

图1 2003年虹口区交通事故损失的样本平均超额图

注:图1的横坐标为门槛值μ(单位:元),纵坐标为e(μ),即样本平均超额。

2003年交通损失数据的GPD模型参数估计如表1。

表1 不同门槛值下的GPD模型参数估计结果

μξσ

条件超额样本个数

40000.1225*** (3.884) 3641.54*** (3.535)1402

54000.1425*** (3.535) 3678.89*** (19.51) 976

注:括号内为对应的t值;* * *表示在0.01的显著性水平下是显著的。

将所得的参数估计代入式(4)的F(x)中,经计算可得2003年虹口区的交通事故损失分布的估计模型为:

通过其Q-Q图和K-S检验发现,在门槛值为4000元和5400元时,两种情况下均不能拒绝原假设,两个门槛值下的估计模型都对数据拟合的比较好(结果略)。这实际上也从一个方面说明了,用样本平均超额函数e(μ)图形来确定门槛值,虽然有理论上的依据,但却受个人主观性的影响,并且确定的门槛值也不一定是最合适的门槛值,甚至门槛值可能不是唯一的,我们需要通过其它方法找到最合适的门槛值。

(三)模型改进方法

由于每年的交通事故损失资料不同,如果仅仅考虑某一组特定的损失资料所确定的门槛值位置,在对车险损失进行定价时,其应用会受到一定限制。为解决这个问题,本文借鉴林丽芬等[13]的方法,通过重复且多次的交叉验证技巧,估计GPD分布的最合适门槛值位置。交叉验证法将一组独立同分布的样本以随机抽样的方式分为训练组样本和验证组样本,用训练组样本来估计,用验证组样本来检验,重复进行多次。本文根据无重复抽样方式,将原始损失资料随机分为两组,一组作为训练组样本,一组作为验证组样本。在给定门槛值下,利用训练组样本的条件超额样本估计GPD分布的参数并建立模型;利用验证组样本的条件超额样本对训练组样本的条件超额样本所建立的GPD模型进行拟合度检验。所谓拟合度检验是指接受或拒绝假设的总体分布,其原假设H0为:总体服从GPD分布,备择假设H1为:总体不服从GPD分布。因此,当固定一个门槛值时,完成将原始样本随机分为训练组与验证组两组样本,训练组样本建立GPD损失模型,验证组样本进行模型拟合度检验等三个步骤称为一次交叉验证。

对任意一个给定的门槛值,本文对样本资料都进行1000次交叉验证,首先将原始资料随机分为训练组和验证组两组样本,样本资料随机分组比例设定为(2/3,1/3),即训练组样本占总样本个数的2/3,验证组样本占总样本个数的1/3。当固定门槛值时,利用训练组样本的条件超额样本用极大似然方法估计广义帕雷托分布的参数,接着利用验证组样本的条件超额样本对训练组样本所建立的模型进行K-S检验。重复样本的随机分组、参数估计、模型检验共1000次后,得到拒绝原假设H0的比例即为该门槛值所对应的交叉验证错误率。对门槛值2000到8000元共61个门槛值(每个门槛值递增100元)的条件超额样本进行分析,结果如图2所示。

由图2可以观察得到,错误率经过了一个先降低后升高的过程,其中在3900元处达到最低,与图1中样本平均超额函数图观察得到的门槛值4000元相差无几。门槛值处于3900元与5700元之间时,错误率均不超过10%,比较稳定,随后又有所升高。

为了验证门槛值为3900时对估计其他年度交通事故损失尾部分布的借鉴作用,我们收集到上海市虹口区2006年的交通事故损失数据,对原始数据进行了类似上文2003年样本数据的处理后,我们共得到了符合要求的损失资料1902笔。利用上文中的广义帕雷托分布进行数据拟合,设定门槛值为3900元,得到的结果列于表2。

图2 不同门槛值下的错误率图

表2 利用2006年数据得到的GPD模型参数估计结果

μ ζ σ

条件超额样本个数

39000.0629** (2.0884) 3722.56*** (23.3876)1083

注:括号内为对应的t值;***表示在0.01的显著性水平下是显著的。**表示在0.05的显著性水平下是显著的。

对模型拟合度进行检验,有如下的Q-Q图和K-S检验结果:

图3 利用2006年数据得到的模型拟合度检验图

注:图3的横坐标为根据模型得到的估计值,纵坐标为经验估计值

从图3中可以看到,该Q-Q图中连线的近似斜率为1,表示模型拟合效果较好。而在K-S检验中,D-C的值为-0.0409,小于0,不能拒绝广义帕雷托分布的原假设。因此,我们可以认为,参数为μ=3900,ζ=0.0629,σ=3722.56的广义帕雷托分布模型对数据拟合的效果比较好。该验证结果同时也说明了,用交叉验证法得到的门槛估计值用于未来年度损失分布的尾部估计还是比较稳健的。

四、结论

本文虽然仅仅是以上海虹口区的交通事故损失数据来分析损失金额的极值分布,但是我们的研究方法非常值得借鉴。我们应该认识到,损失金额的尾部分布假设是非寿险精算中的一个普遍存在的问题,各个险种都有可能发生这种问题。极值理论在这类问题上提供了较好的解决方法。尽管广义帕雷托分布在拟合损失尾部分布方面有较好的拟合优度,然而,如何选定门槛值非常重要。样本平均超额图是一种简单有效的方法,有可能得到不唯一的门槛值。但是这种方法是凭人为主观判断,容易产生主观上的错误,很难确切地得到精确的门槛值。而交叉验证是一种有效的改进模型的方法,依据交叉验证法的错误率来进行选择,从众多可能的门槛值中估计广义帕雷托分布的最合适门槛值位置。这种方法下得到的门槛值,比仅仅根据样本平均超额函数图形法所得到的门槛值更具有参考价值。

极值分布理论和交叉验证方法除了在厘定保险费率时具有非常重要的作用以外,还可以用于再保险的决策中,超额损失再保险也可以根据类似的方法确定门槛值。保险公司在进行再保险安排时,一般是用右偏的分布来构造损失模型,再用实际损失样本来预测未来的损失情况,因此,对于损失分布的尾部非常敏感,我们可以运用极值分布理论和交叉验证方法正确估计损失的分布。

标签:;  ;  ;  ;  

汽车交通事故损失分布的尾部估计_交叉验证论文
下载Doc文档

猜你喜欢