缺失数据下半参数单调回归模型的估计,本文主要内容关键词为:缺失论文,单调论文,模型论文,参数论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 引言
考虑如下的半参数回归模型
Y=β+h(W)+ε,(1)
其中,Y为响应变量,为p维解释变量,W为1维解释变量,ε为随机误差,满足E(ε|X,W)=0,β为p维未知回归参数,h(·)为未知回归函数,T表示转置。
半参数回归模型是线性回归模型和非参数回归模型的结合。与线性回归模型相比,半参数回归模型对于描述响应变量和解释变量之间的数量关系具有更强的适应性;与非参数回归模型相比,半参数回归模型更容易解释,并且能够在一定程度上解决高维回归函数估计的“维数祸根”问题。Engle等[1]首先用半参数回归模型研究了天气因素对用电量的影响。之后,半参数回归模型被广泛地应用到不同的领域,见Heckman[2],Spechman[3],Schmalensee和Stoker[4]等。传统的半参数回归模型通常把h(·)假定为某光滑函数,用核估计、惩罚最小二乘估计、样条估计或局部多项式估计等估计方法对h(·)进行估计。在实际应用中,经常遇到响应变量和某些解释变量之间具有明显单调性的情形。当根据实际应用背景可以判断h(·)为未知单调函数时,模型(1)变为半参数单调回归模型。Huang[5]研究了半参数单调回归模型的估计问题,并借助经验过程有关理论讨论了参数估计和非参数估计的渐近性质。Cheng[6]把Huang[5]的结论推广到了高维h(·)的情形。与核估计、样条估计和惩罚最小二乘估计等估计方法相比,单调回归方法的优点是能够保证估计的单调性,并且由于该方法引入了单调性的限制,可以自动地选择“光滑”参数,而不需要去确定光滑参数或惩罚参数,从而避免了传统非参数统计方法经常遭遇的问题。这一点可以从单调回归估计的PAVA(Pool Adjacent Violators Algorithm)算法(见Robertson,Wright和Dykstar[7])中清楚地看出。对非参数单调回归模型的研究是近年来统计研究的一个活跃分支。见Brunk[8],Barlow,Bartholomew,Bremner和Brunk[9],Wright[10],Robertson,Wright和Dvkstar[7],Hall和Huang[11],Dette,Neumeyer和Pilz[12],Mammen和Yu[13]等。
本文在h(·)为单调增函数的假设下讨论了响应变量出现随机缺失时模型(1)的估计问题;采用对缺失数据进行借补的方法处理缺失问题;把借补后的数据作为完全数据,采用单调回归的方法对未知单调函数进行估计。Huang[5]和Cheng[6]在完全数据下定义了β和h(·)的同时估计,估计的算法本身要求β有一个初始估计。与Huang[5]和Cheng[6]的估计方法不同,本文首先得到了β的相合估计,在此基础上定义了h(·)的单调约束最小二乘估计。文章结构安排如下:第2节给出了参数部分和非参数部分的估计方法和估计的渐近性质;第3节通过随机模拟实验研究了有限样本量下估计的表现。附录部分给出了第2节中定理的证明。
1 估计方法及主要结果
1.1 估计方法
1.2 主要结果
定理1.2.1和定理1.2.2的证明见附录。
2 模拟比较
本部分通过随机模拟实验探讨有限样本量下估计的表现。在实施模拟时考虑模型
并画出了h(·)的1000次模拟的平均估计曲线。模拟结果见表1,图1-图4(见下页)。
从表1可以看出
1)随着样本量的增加,β估计的偏差的绝对值和方差均逐渐减小,说明β估计的精度越来越高。
2)缺失概率对估计的精度有明显影响。随着缺失概率的减小,估计偏差的绝对值和方差均逐渐减小,说明随着缺失概率的减小,估计的精度越来越高。
从图1-图4可以看出
1)随着样本量的增加,h的估计曲线(hhat(w))与真实曲线(h(w))的拟合程度逐渐变好,并且估计曲线的光滑程度越来越高。
2)缺失概率对h的估计的光滑程度有影响,缺失概率越小,h估计光滑程度越高。
在证明定理1.2.1和定理1.2.2之前先给出下面的几个引理。
由大数定律可得
不难看出
再结合引理2和Slutsky定理可知定理1.2.1成立。证毕。
定理1.2.2的证明记
为证定理1.2.2,只需证
由此立得(18)。定理1.2.2得证。证毕。