Gumbel分布参数估计及在水位资料分析中应用,本文主要内容关键词为:水位论文,参数论文,资料论文,Gumbel论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O212.1
引言
在工程设计尤其是大型工程的设计中,需要对一些带有严重破坏性的自然灾害的强度进行充分估计。例如,在建造桥梁时,为了防止洪水冲塌桥梁这类事故的发生,设计时,就必须预先考虑到保用期间该河流的可能爆发的最高水位。此外,在建造高大建筑物时,也要考虑到若干年内的最大风压。这类问题在水文气象中经常可以碰到,其能否妥善解决,在国民经济建设中具有重大的意义。如果考虑不周,就可能会带来大的损失,但是,在设计时又不能盲目地加大安全系数,因为这样会造成不必要的浪费。
统计中处理这一问题的方法是极值统计,本节我们先对相关的概率模型——Gumbel分布作一简单的叙述,第二节讨论Gumbel分布中的参数估计的分位数法、极大似然法和概率加权矩法,第三节利用蒙特卡洛方法来考察三种估计方法的优劣性,最后给出对某条河流水位数据处理的结果。
设X[,1],X[,2],…,X[,n]为服从分布函数为F(x)的总体中抽出的i.i.d.样本,X[,(n)]=max(X[,1],X[,2],…,X[,n])。当n趋于无穷时,X[,(n)]的极限分布(如果存在的话)称为极值分布,不少统计学家象Von Mises,Frechet和Fisher都对之作出过贡献,1943年格涅坚科找到了X[,(n)]极限分布的类型,并找到了向这些极限分布收敛的充要条件,特别地,P[(X[,(n)]-u[,n])/δ[,n]<x]对收敛于
G[,1](x)=exp{-exp(-x)},-∞<x<+∞(1)
(Ⅰ型极值分布,也叫Gumbel分布)的充要条件是:对任何x∈R有{n[1-F(u[,n]+δ[,n]x)]}=e[-x],其中u[,n]和δ[,n]是由F(u[,n])=1-1/n,F(u[,n]+δ[,n])=1-1/(ne)所决定。Von Mises提供了P[(X[,(n)]-u[,n])/δ[,n]<x]收敛于G[,1](x)的更便于应用的充分条件,为:若原始分布F(x)满足:(1)当x充分大时,F″(x)存在有限;(2)当x充分大时,P(x)=F′(x)>0;(3)
d/dx[(1-F(x))/P(x)]=0,则X[,(n)]的渐近分布为G(x)=G[,1][(x-u)/δ],其中G[,1]如(1)中定义。更进一步,若F′(x)=P(x);当x>0时,有Const×exp(-x[α])x[β]的形状,则定理的条件必成立,此处α>0。这包含了指数分布,正态分布,Weibull分布及Gamma分布。
水文站在沿江及沿海各个水文观测站处观测水位至少一日两次,每年就有七百多个观测数据。水位的分布可认为是正态分布,因此最高水位的分布G(x)可用Gumbel分布来渐近,下面第四节对实际数据的拟合的适合性分析将会更进一步地支持这一观点。故要讨论的问题可归纳如下:设置X[,1],X[,2],…,X[,n]是从Gumbel分布总体中抽出的i.i.d.样本,(u为位置参数,δ为尺度参数)要求给出参数u和δ的估计。
一、参数估计
(一)分位数法
注意到因此u和u+δ分别为G(x)的
分位数。如果用样本的p分位数m[,p]作为总体p分位数的估计,即
是从标准极值分布F[,Y](y)中来的n个次序统计量,由于母体F[,Y](y)不含有任何未知参数,故通过次序统计量的分布可以数值地求得(Y[,1],Y[,2],…,Y[,n])′的数学期望和协方差矩阵。由于这些数值经常要用,人们把这些值的结果专门造了表,见[1]。进一步,通过线性变换
得到的期望和方差。
(二)极大似然法
极大似然法的详细讨论见[2],此处我们只简述相关的结果。
根据Gumbel分布的分布函数得其密度函数为
二、利用蒙特卡洛法评估估计量
设随机变量X服从Gumbel分布G(u,δ),不失一般性我们可令参数u=0,δ=1,给定样本容量n=5,10,25,50,100,200,1000,应用以下三种方法可得到参数u和δ的各自估计值:分位数法、极大似然法和概率加权矩法,
给定样本容量n,估计θ的两种方法的相对效定义为
表1 参数估计的统计性质
表中列出了蒙特卡洛模拟试验的数值结果。(这里M取3000次,每步运算精度为10[-14]。)
以上利用产生服从Gumbel分布的随机数进行蒙特卡洛试验来考察三种方法的优劣性,由这些试验推出的结论如下:
(1)一般说来三种方法中极大似然法是最有效的。
(2)尽管分位数法给出的估计量在三种方法中计算最为简便,但它却是具有最大方差的渐近无偏估计量,效率最低。
(3)极大似然法给出了具有最小方差和最小均方误差的关于参数δ的估计量。而概率加权矩法得到的关于参数u的估计量其方差和均方误差最小,而极大似然法与其相差不大。
(4)概率加权矩法得到Gumbel分布参数u和δ的一个无偏估计,其结果在很多方面很好,表明了在估计能写出分布函数的反函数形式的分布参数时这种方法非常有用。
三、应用
(一)Gumbel分布对数据的适合性
在使用Gumbel分布来拟合我们手头的历史数据之前,我们首先需要判断这样的拟合是否是合适的,这可以通过经验分布的两次对数来判断。这是由于Gumbel分布的分布函数F(x)具有性质ln(-ln(F(x))=-(x-u)/δ。利用数据得到经验分布函数F(X[,(i)])=i/n,i=1,2,…,n,则ln(-ln(F(X[,(i)])与X[,(i)]应该近似线性关系。图1~图3(图略,见原文)分别表示了附表一、二和三的数据的这两者的关系图。
从图形可以看出,乙站和丙站的经验分布函数的两次对数非常接近于直线,因此用Gumbel分布去拟合数据是合适的。对于甲站的数据,除最后一个点(这是一个显然的离群点和高杠杆点)外也能很好地近似于一条直线。考虑到其数据较少(19个样本)这一事实,出现这样的离群点并不奇怪,因此用Gumbel模型依然是合适的,但在做统计的估计与推断时,这样的离群点最好排除掉。
(二)参数估计值
现在回到某条河流三个水文观测站的历年最高水位资料(见原文中附表一、二、三);由三种方法得到的参数u和δ的估计值列表如下:
表2 参数估计
(三)预测
以上我们根据X[,(n)]的子样,利用三种方法估计了X[,(n)]的渐近分布Gumbel分布中的参数u和δ,也就找到了X[,(n)]的渐近分布的估计
某条河流这三个水文观测站T=100,200,500,1000年一遇的最高水位分别见下表,表中最高水位的单位为米。
表3 T年一遇最高水位
T年100 200 500 1000
甲站T年一遇最高水位5.2205.3265.4665.572
乙站T年一遇最高水位5.1235.2365.3855.498
丙站T年一遇最高水位5.5885.7285.9126.051
(摘自《应用概率统计》(沪),2005.5)
标签:参数估计论文;