索赔数据的广义Pareto分布拟合_gpd论文

索赔数据的广义Pareto分布拟合,本文主要内容关键词为:广义论文,数据论文,Pareto论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:F840 文献标识码:A

引言

在保险中,如果考察1970年以来世界范围内所发生的金额最大的30起索赔和最严重的30起自然灾害,不难从这些事件中找出一些共同的特征:

①它们对保险业和再保险业造成了相当大的影响;

②人们难以对它们作出远期预测;

③纵观整个保险业的历程,这些事件发生的概率很小,通常被称之为极值事件。

粗略地讲,保险中的极值事件就是那些发生概率很小,但又对保险业造成重大影响的(有时是毁灭性的)事件,这些极值事件如果发生,一般都超过了单个保险公司的承受力,或对其造成严峻的冲击。对这些公司而言,其结果都是灾难性的。

事实上,若选定一家保险公司,然后收集该公司的每次索赔额的历史数据进行分析,往往会发现在保险业中有一个有趣的20%~80%现象,即“占总次数20%的那些索赔额的数额之和大约是公司历史索赔总额的80%(有些公司还不止80%)!”(参阅Embrechts等(1997))。因此如何准确地刻画这些极值事件,对保险公司的保费计算至关重要。也正因为此,这些极值事件已成为保险公司最感兴趣的问题。事实上,这里至少涉及了以下几个问题:

①超出损失再保险保单的定价问题。

②高分位数的估计问题。

③可能的最大损失(Probable Maximum Loss,PML)的估计问题。

在处理这些极值事件时,文献中一般采用极值分析的方法建模。在极值分析中主要有两类模型,一类是极值定理模型(EVT),这类模型主要对组内最大值建模,即所谓的区组最大方法(Block Maxima method,BMM)。例如知道某一资产若干年的损失值,BMM则可用来分析月度、季度、年度的最大值的统计规律。另一类是广义Pareto分布模型(GPD),这一模型也称为POT模型(Peaks-Over-Thresholds),它对观察值中所有超过某一较大门限值(threshold)的数据建模。由于广义Pareto模型分布有效地使用了有限的极端观察值,因此,通常认为在实践中很有实际意义。对这两种模型的理论的系统介绍可参见P.Embrechts(1999)、R.D.Reiss和Thomas(2001)等。

本文将利用GPD模型来分析这些极值事件的统计规律。研究表明,GPD模型在保险和再保险精算中扮演着重要角色。

一、统计建模

(一)GPD模型的定义及其极限定理

(1)广义Pareto分布(Generalized Pareto Distribution,GPD)的定义

GPD的定义为:

(二)厚尾分布的诊断

在诊断厚尾性时,有两种简单而且有效的方法。

(1)平均超出函数图

假设随机变量X有有限均值,即E[X]<+∞,那么它的平均超出函数(Mean Excess Function, MEF)定义为e(u)=E(X-u|X>u)。容易证明,当X为一指数分布时,它的平均超出函数为一常数,平均超出函数图为一水平线;当平均超出函数有向上变化趋势时,表示X为一厚尾分布;当平均超出函数有向下变化趋势时,X为一短尾分布。实际中,函数e(u)通常未知,但可以通过随机样本的经验平均超出函数图来估计。

(2)指数QQ图。它的解释很简单:如果数据独立同分布,均服从指数分布,指数QQ图中的点应该近似是一条直线;如果指数QQ图向上凸,表明经验分位数比理论分位数增长快,这时,分布是厚尾的;反之,如果指数QQ图向下凸,则表明是一个短尾分布。

(三)门限值的初步选取

在GPD模型中,门限值u的确定非常关键,它是正确估计参数β和ζ,进而精确度量保费的前提。过高的u值会导致超出数据太少,从而估计参数的方差会偏大。而太小的u值则会产生有偏的估计量。在实际中,通常可以把下面两种方法结合使用以更准确地确定门限值u。

(1)经验平均超出函数图

平均超出函数可以通过下面样本经验平均超出函数(Empirical MEF,EMEF)来估计:

在(6)中,。一般地,如果EMEF在超过某一门限值后有明显的线性变化,且斜率为正时,表明大于此门限值的观测数据服从GPD且形状参数ζ>0;如果EMEF在超过某一门限值u后明显的线性变化,且斜率为负时,表明观测到的数据是短尾的;而指数分布的EMEF呈现的是一条水平线。因此,如果某个门限值u后的 EMEF趋向于线性时,我们就可以选取这个值为门限值。

(2)样本的Hill图

另一种有效选取门限值的方法就是作样本的Hill图。一般地,我们可以选取形状参数ζ相对稳定时对应的门限值。Hill图定义为表示尾指数的Hill估计值)。门限值u选择图形中尾指数的稳定区域的起始点的横坐标k所对应的数据

虽然上面两种方法对怎样选取门限值起到了非常重要的作用,但是,什么叫EMEF趋向于线性,什么叫ζ相对稳定,这谁也说不清。

(四)GPD模型的检验原理

最早研究GPD模型的检验问题的是Davis和Smith(1990),此后,V.Choulakian和M.S.Stephens (2001)进一步完善了Davis和Smith(1990)的结论。他们根据Cramervon统计量和Anderson-Dar ling统计量提出了如下的GPD模型的检验方法,精确地说明了在一定的显著性水平下,门限值取多大时,样本数据可服从GPD,检验方法如下:

二、索赔数据的GPD拟合

(一)索赔数据描述

现在对国外某保险公司的索赔数据进行分析,该数据包含了从1980年1月3日至1990年12月31日共2167个损失额超过一百万克朗的火灾保险数据。数据的基本统计特征如表2(表略)。

从表2可以看出,75%分位数与25%分位数的差并不大,但是数据库中包含一些损失额相当大的数据(最大的损失达263.25百万克朗)。并且数据严重右偏,偏度系数达18.76282。

(二)门限值的选取

现在首先观察索赔数据的尾部特征,为此,图1(图略,见原文,下同)分别给出了它的样本的经验平均超出函数(EMEF)图和指数QQ图。图1中,图左:索赔数据经验平均超出函数图,图右:索赔数据指数QQ图。从图1中可以得到,数据支持索赔分布是厚尾的。

现在来考察索赔数据在取多大的门限值时,才服从广义Pareto分布,从样本经验平均超出函数图可以看到索赔数据的门限值并不好判断。事实上,样本的Hill图同样也不能提供较好的门限值。但如果利用2.4节中的检验方法,就很容易得到想要的结果。将靠近临界值的结果分别列在表3中。从表3可以看出,我们选取门限值u=5.767524,超出个数比较恰当。

为说明GPD估计的效果,图2(图略)进一步给出了超出损失分布的GPD拟合图和残差的指数QQ图。在图2中,图左:索赔数据的超出损失分布的GPD拟合图,图右:索赔数据的残差的指数QQ图、从图2中可以看出,利用GPD拟合超出损失分布,只要门限值选取适当,效果一定很理想。

三、模型的两个应用

(一)高分位数的点估计

对于一个被保险人来说,一个非常有用的信息就是索赔数据的分布的高分位数估计。一般地,分位数可以通过相应的经验分布得到。但是,当要估计高分位数时,如果再用这种方法,由于大的观测值很少,估计出来的高分位数就很不精确,该方法就失效了。这时,可以借助于GPD模型来估计高分位数。

设F(x)为索赔额的分布函数,那么对显著水平p,可能的分布的p-th分位数(这里,一般有p≥0.95)定义为

所以,PML事实上就是在一段时间内的最大损失的分布的1-ε的分位数。为运用这个公式,Wilkinson (1982)提出了一个基于顺序统计量的非参数方法。Kremer(1994)运用GPD模型考虑了这个问题,Cebrian(2003)在Kremer(1994)基础上进一步考虑了这个问题,说明了在GPD模型中,门限值u的超出数可以用一个Poisson分布来逼近。在这种情况下,他得出了PML的估计式为

将GPD模型参数拟合的结果应用于式(13),同时,注意到λ=18.27273,可得索赔数据的5%、 1%、0.1%的PML的点估计,具体结果见表5(表略)。从表5可以看出,火灾最大损失额为207.2311百万克朗的可能性为5%,最大损失额为488.2921百万克朗的可能性为1%,最大损失额为1625.524百万克朗的可能性为0.1%,可能性为1%和0.1%的最大损失额均比这十一年的最大损失263.2504百万克朗大很多。

四、对GPD模型的说明

由于再保险数据所呈现出的厚尾性的统计规律,使得极值理论,特别是GPD模型在保险和再保险精算中扮演着重要角色。运用GPD模型,可以精确地得到在保险中广泛使用的高分位数和可能的最大损失的估计值。然而,该方法在应用中也存在一些不足。由于保险数据只有在较高的门限值时才呈现 Pareto状态,因此GPD模型一般只适用于再保险和巨灾保险,而不能将其运用于一般的保险理赔的精算技术中。然而,不可置疑的是,GPD模型在保险中的良好应用前景已得到越来越广泛的关注。

标签:;  ;  ;  ;  ;  ;  ;  

索赔数据的广义Pareto分布拟合_gpd论文
下载Doc文档

猜你喜欢