中度删除时极值指数的估计_极值分布论文

适度删失时的极值指数估计,本文主要内容关键词为:极值论文,指数论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:O212文献标识码:A

在实际中,我们常常碰到这样一类数据:某份保单的理赔额超过了100万;某人在保单期限到期时还活着;某河道洪水的水位超过警戒水位5米等等。这些数据的共同特点是我们不知道它们的确切值,但知道大于等于某个值,它们由于某种原因未能观测到。这时,如果我们知道超出某个固定值的数目时,我们称这组数据被删失(Censored data)了。在本文中,我们就来研究极值情形下出现删失数据时的极值指数估计问题。而且,我们的讨论将限制在Pareto型分布的Hall族情形。

一、删失情形下的极值指数的估计

在完全可观测数据下,即X[,i],i=1,2,…,n,…均可观测到时,极值指数的估计在极值统计中占有极其重要的地位。[1]基于极大似然估计,构造了著名的Hill估计。设

X[,n,1]≤X[,n,2]≤…≤X[,n,n]

为n个观测值X[,1],X[,2],…,X[,n]的顺序统计量,则Hill估计为

现在我们考虑适度删失下极值指数的估计问题。在删失数据下对极值指数的估计的研究不多。[2]利用普通的极大似然估计对极值指数的估计原理进行了一般的介绍,[3,4]则在不同的条件上分别提出了各自的修正的Hill估计模型。[5]总结了与删失数据相关的截断数据的几种极值分布的极值指数的估计问题。在这里,我们将以[3]的估计为基础进行讨论。

假设在数据X[,i],i=1,2,…,n中,删失概率为p,即我们能够观测到的数据有N[,r]个,N[,r]=N[,r](n)=n-[np],[np]表示不超过np的最大的整数。也就是说,我们的观测数据为:

X[,n,1]≤X[,n,2]≤…≤X[,n,N[,r]]

由于最大的[np]个数据不能观察到,因此,传统的Hill估计已不再适合。为此,[3]构造了如下修正的Hill估计:

很显然,在N[,r]=n时,这个估计就是Hill估计。

在Hill估计中,一个很关键的问题是如何选取门限值X[,k],或者说,如何选取超出门限值X[,k]的个数。在删失情形下,同样存在这个问题。[3]建立了指数回归模型,通过使AMSE最小,得到了MSE准则下的超出门限值X[,k]的样本点个数κ,通过随机模拟说明了估计量的拟合效果,同时给出了估计量[*](k,n)的大样本性质。

在完全数据下,[6,7]利用最小平方法分别对Hall族和幂指数型的尾的极值指数进行了估计,得到了理想的结果。在这一章中,受他们启发,我们利用加权的最小二乘法(Weighted Least Squares,WLS),研究了适度删失(Moderate Censoring)情形极值指数的估计问题,并与指数回归模型方法所得结果进行了比较,说明了我们的方法比指数回归模型方法更有效。在我们的方法中,我们发现超出门限值的样本点个数κ对我们的估计结果并不显著。

二、删失情形下的极值指数的WLS估计

假设X[,1],X[,2],…,X[,n],…是一列正的,独立同分布的随机变量序列,具有共同的分布函数F。我们假设F属于Pareto分布型的一个子族—Hall分布族(Hall(1982)):

F(x)=1-ax[-α](1+bx[-β])

其中α=1/γ,γ为Hall分布族的极值指数。从这里我们可以看出,对于Hall分布族而言,它有一个很好的优点是γ=1/α。因此只要给出α的估计就可知γ的估计值。Hall分布族包含了许多我们熟知的分布,例如学生-t,Fréchet,Burr分布均在其中。

在上式中,我们将其参数α,β限定为比零大的数,而常数a,b为实数。即

F(x)=1-ax[-α](1+bx[-β])α>0,β>0,a,b∈R(3)

[8,9]说明了在完全数据下,当给定k时,Hill估计(k)的渐近期望值可以表示为:

很显然,随着k的增加,(k)的偏差也将增加(b=0时除外)。而(k)的渐近方差为

AVar((k))=(1/kα[2])(5)

从(4)和(5)可以看出,当k较小时偏差较小,但这时方差却较大;反之,当k较大时偏差较大,方差却较小,因此,如何选取合适的k,是一个关键的问题。

和[8]一样,在这里将参数α,β进一步限定为α=β。这样,由(4),我们就可将(k)的偏差看成k的线性函数。当然,假设α=β并非对所有分布均适合。但[6,8]均说明了对以极值分布为极限分布的分布而言,这个假设并不苛刻。[9]指出:“在学生-t分布情形下,α等于该分布的自由度的个数,而β=2。然而,随机模拟的结果却表明,在Hill估计中,对参数β的选取很不敏感。即使对参数β的选取有较大误差,也不会导致参数α估计的失常。”因此,我们认为α=β这一假设并不过分。

现在我们假设在修正的Hill估计(2)中,门限值已经选定,而用以估计的超出门限值的样本点个数κ的值也已知。在k≤κ时,由[3]可知:

从上式可以看出,现在的问题已不再是如何选取κ,而是计算每一个[*](k,n),k=n-N[,r]+1,…,κ,然后计算(7)中参数值。从(7)式可以看出,虽然(7)式为一线性回归模型,但是用简单的最小二乘估计得到的结果显然是不对的。其理由有二。

(1)Hill估计(k)的方差是随k的变化而变化,因此(7)中的误差项ε(k)也是异方差的,而不是独立同分布的。

(2)由于[*](k,n)的特殊结构,变量[*](k,n)存在某种相关关系。

基于以上两个理由,我们采用加权最小二乘估计(WLS),为简便记。记

注 在(8),(9)式中,我们对的第二列的选取是1,2,…,κ-n+N[,r],而不是(n-N[,r]+1),(n-N[,r]+2),…,κ,主要是基于简便的考虑。事实上,从(4)式可以发现当删失概率p很小时,这样做对偏差的影响很小([np]/n)。而且对(7)每一个方程,都存在这个相同的误差项,因此可以将它放在随机误差项ε(k)中一起考虑。通过随机模拟后我们发现,当的第二列的选取是n-N[,r]+1,n-N[,r]+2,…,κ时,对极值指数的估计的影响是可忽略的。

现在,我们在进行加权最小二乘估计时,构造如下的加权矩阵W:

三、模拟研究

现在,我们将进行随机模拟,对利用WLS得到的极值指数估计量的统计特征进行研究。

(一)模拟结果

我们对下列分布进行了随机模拟:

(1)学生-t[,1]分布。真实的极值指数γ=1,α=1。

(2)学生-t[,4]分布。真实的极值指数γ=0.25,α=4。

(3)Burr(1,1,1)分布,Burr(θ,τ,λ)分布的分布函数满足:

这时,真实的极值指数γ=1,α=1。

在随机模拟时,我们对每一个分布作了200次随机模拟,每次模拟的样本量n依次为500,700,1000。κ的取值为n/2,表1,表2,表3(表略,见原文,下同)分别给出了每一种分布下删失概率p=0.01,0.05,0.1时,极值指数的200次模拟结果的平均值。括号里的数为该估计值对应的标准误。为对模拟结果有更直观了解,我们在图1(图略,见原文)中给出了Burr(1,1,1)的200次模拟所得结果的盒子图。在图1中,第一行的删失概率为p=0.01,第二行的删失概率为p=0.05,第三行的删失概率为p=0.1,第一列的样本量为500,第二列的样本量为700,第三列的样本量为1000。实横线表示该估计值的真值。其他分布的模拟所得结果的盒子图相类似,不再给出。我们注意到Burr(1,1,1)分布与Fréchet(1)分布所得结果基本上是一致的。这与它们有相同的β值有关。而相对来说,Burr(1,0.5,2)分布的结果与真值有一定误差,这与用其他方法得到的结果是一致的。

(二)κ的稳健性分析

为说明我们的模型对κ不敏感,我们对Burr(1,1,1)分布删失概率为p=0.05时,取不同的κ和样本大小进行了随机模拟,具体结果见表4(表略)。从表4我们很容易看出,我们所用的WLS方法对κ的选取并不敏感,这一点,也给我们在应用WLS方法时提供了便利。在后面的内容中,我们直接取κ=n/2。

四、WLS估计与指数回归模型结果的比较

从前面的图表可以看出,我们的模型方法上比较简单,拟合的效果也不错,除Burr(1,0.5,2)分布在删失概率为p=0.05,0.1时估计误差较大外,对学生-t分布、Burr(1,1,1)分布、Fréchet(1)分布,极值指数的估计误差基本上能控制在5%以内,估计的标准误也很小(均没有超过0.2)。为进一步说明模型的准确性,我们与[3]的指数回归模型进行了比较,两种模型的所用分布模拟次数(均为100次),样本量大小(均为500),删失概率等都完全相同。结果见表5,表6,表7(表略)。从这三个表可以看出,我们的方法除Burr(1,0.5,2)分布外,其他两种分布要比指数回归方法理想。

(摘自《高校应用数学学报A辑》(杭州),2005.2)

标签:;  

中度删除时极值指数的估计_极值分布论文
下载Doc文档

猜你喜欢