单调回归模型及其在退化数据中的应用,本文主要内容关键词为:单调论文,模型论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O212.7
引言
在产品的退化数据的研究中(Lu and Meeker(1993))提出研究退化方程
(1)
其中是第i个产品在时刻某一特征退化量,α是固定参数,是随机参数。模型(1)中的η(t,α,β)常常称为退化轨道,只有极少数产品的退化轨道能够根据某些物理的定律得到,而大多数情况下人们是不知道的,简单地,有时用线性的退化轨道来近似,比如随机斜率的退化模型(Zhuang(1994))
y=α+βt+ε
利用单调回归,可以提出更加灵活的模型
y=α+βm(t)+ε(2)
其中m(t)是一个单调函数,α,β可以是随机的,α反映着初始的观察,β控制着退化的斜率。
有关限制的回归,如单调,凸函数等限制,人们在实际也经常遇到,比如儿童的生长曲线,单调变换等,有关这方面的研究人们也提出许多方法(Ramsay(1988),Kelly and Rice(1990),Mammen(1991)),一般都是将单调回归化为有限制的最优化问题。Ramsay(1998)提出了一种广泛的单调函数类,建议从这种函数内中选择一个函数来近似回归。本文我们从这一函数类出发,假定其中的ω(s)是一个有固定结点的样条函数,为了防止模型过分地拟合数据(overfitting data)。我们用惩罚最小二乘(penalized least square estmate(PLSE))估计其中的未知参数,并得到了参数估计的强相合性及其依分布收敛于正态等大样本性质。
本文第二节阐述模型的由来;第三节是模型参数的估计及其性质;第四节计算方法;第五节给出模拟例子及该模型在金属疲劳试验中的的应用。
一、模型的由来
二、模型的参数估计及其性质
三、计算方法
(一)结点的选择
给定结点的数目,建议选择均匀结点。Ruppert,D.(2002)详细研究一般惩罚样条回归结点的选择,连续的或单峰的回归函数只需要较少数目的结点;对于非连续回归函数,常常需要较多数目的结点,最好在非连续点有个结点。另外选择结点还应该保证未知参数的个数不超过总自由度,即所有的未知参数都是可估计的。模型(4)中的是单调回归函数f的两阶导数与一阶导数的比,即使ω(s)是不连续的,而估计出来的单调回归函数也是连续二阶可导的。模拟研究发现ω(s)的仅取一个结点的一次样条函数就能得到很好的近似效果,这样未知参数的个数也在能够接受的范围。
(二)光滑参数λ的选择
光滑参数λ的选择可以通过交叉验证(cross validation)CV的方法。即:最小化
第一步为最优化解给了一个初值,第二步可以用一些标准的软件来求,比如MATLAB中的fminsearch函数。为了提高效率,也可以用改进的Gauss-Newton迭代法来求。
四、模拟与实例
考虑如下非线性单调回归
(一)金属疲劳的例子
金属裂缝的增长的例子(Ln(1993)),在这个实验中有21个样本,每个样本初始裂缝长度都是0.90(单位:英寸in),当裂缝增加到1.6时我们认为失效发生。Lu(1993)建议用如下非线性混合模型
表1 模型(10)和(11)所预测出的产品寿命
按照Lu(1993)的模型(10)我们用非线性的最小二乘估计,计算得到每产品的退化轨道如图2(a)(图略),预测出每个产品的寿命如表1第一行。在实际中,有关产品的退化,经常遇到由有关的专业知识也无法找到产品的退化轨道模型,有时既使能够提出一个退化轨道,也常常是刻画产品某一方面的原因所引起的退化,而物质的退化常常是受多方面的原因,要找到一个全面刻画产品退化的模型是十分困难的,常常需要用一个经验模型来近似。由于产品的退化都是单调的,不可逆转的。我们可以用前面的单调光滑的方法来估计产品的退化轨道,以求得到产品退化的一个经验模型,由模型(7)取
由(11)式得到的金属疲劳的退化轨道,为了与物理模型相区别,称为经验模型或统计模型,计算结果如图2(b)(图略)。
回归曲线与y=1.6的交点对应的时间点称为产品的寿命如图2中的星号。结果如表1。由(10)式(11)时预测出的21个样本的平均寿命,中位数,样本标准差的比较如表2。
表2 模型(10)式和(11)式所寿命预测的比较
模型
均值 标准差中位数
(10)式0.12420.02370.1776
(11)式0.12560.02570.1172
(二)结果分析
注1 经验模型与物理模型(Lu(1993))在区间[0,0.12]是十分接近的如图,经验模型对平均寿命的估计(0.1256)和物理模型对平均寿命的估计(0.1242)十分接近。
注2 模型(7)中的实际上是对回归函数二次导数与一次导数比值的一种估计,由模型7来看即使是一个不光滑的样条函数。得到的单调的回归函数也可以是光滑的,模拟研究发现,常常一次样条就够了。另外,也可以用其它样条基,如B样条基。对于本例计算结果相差不是太大。
注3 对于本例参数λ对估计的影响不是很大,这是因为模型(11)中的估计近似地等于0。本文用的是λ=10。
注4 本文得到的经验模型只是在物理模型难以得到的情况下的一种选择,若能够得到物理模型我们还是建议使用物理模型,因为物理模型的外推相对还是可靠的。
致谢 感谢审稿人提出的建设性的意见。