随机插补下两线性模型中响应变量分位数差异的经验似然置信区间,本文主要内容关键词为:区间论文,位数论文,线性论文,变量论文,模型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 引言
经验似然方法是Owen[1]在完全样本下提出的一种重要的非参数统计推断方法,经验似然方法与经典的或现代的统计方法比较有很多突出的优点,如:用经验似然方法构造置信区间除有域保持性,变换不变性及置信域的形状由数据自行决定的诸多优点,还有Bartlett纠偏性及无需构造轴统计量等优点。正因为如此,经验似然方法引起了许多统计学家的兴趣,他们将这一方法应用到各种统计模型和各种应用领域,如文献[1-5]等分别在总体样本没有缺失的情况下,利用经验似然方法构造了不同模型下不同未知参数的经验似然置信区间。但在一些实际问题的研究(如民意调查,市场研究,邮寄问卷调查,社会经济研究,医药研究及生物遗传等其他科学实验)中,一部分数据由于被抽样个体不愿提供,调研人员本身的原因没有收集到和其他不可控因素而无法获得,以及信息填报汇总错误等原因产生数据的缺失现象,此时尽管经验似然有诸多突出的优点,却不能直接应用于数据的统计分析,而在缺失数据情形下,总体未知参数的估计及总体差异的比较是医学,经济和教育领域经常遇到的课题,因此如何将经验似然方法推广到不完全数据的统计分析成为一项重要而困难的任务。
近年来,众多统计学家在这一方面做了许多有益的探索,如Wang & Rao[6-7],Wang,Linton & Hrdle[8]等学者研究了缺失数据下未知参数的经验似然置信区间,其主要思想是利用插补法对缺失数据进行补足,得到总体的“完全”样本数据后,利用补足后的“完全”样本数据进行经验似然统计推断。
目前,对缺失数据进行插补的方法有多种,其中通常的插补方法有固定插补(均值插补,最近邻插补,线性回归插补,核回归插补等)和随机插补(随机插补,分数插补等),具体补足方法见文献Yates[9],Little & Rubin[10],但固定插补法具有一定的局限性,对于均值以外的研究并不适用,常常会产生被估计参数的不相合估计,而随机插补法能够克服这一缺陷,提高估计值(或置信区间估计)的精度[11],因此随机插补法在缺失数据的插补中采用更多,文献[11-13]正是采用随机插补法分别讨论了单个总体中未知参数以及两个非参数总体差异的经验似然置信区间(其中两总体的数据缺失均满足完全随机缺失机制(MCAR),但是数据缺失中,随机缺失机制(MAR)比完全随机缺失机制(MCAR)的限制条件更弱且在实际中更易满足,同时,对于随机缺失(MAR)情形下两线性模型中响应变量分位数差异的经验似然置信区间的构造还未被涉及,本文针对这一问题在吸收上述文献基本思想的基础上,采用随机回归插补法针对随机缺失(MAR)下两线性模型中响应变量的分位数差异的经验似然置信区间展开讨论,构造分位数差异的经验似然置信区间。
对于本文中所讨论的问题和模型具有广泛的实际应用背景,例如,医学领域中,考察两种新药的疗效的差异是否明显,经济研究中,考察两个不同地区的居民生活水平的差异是否明显等(当调查中出现数据不完全的情形时),这些都是本文讨论的模型需要解决的实际课题。
本文第二部分将给出所讨论的模型及相应的插补方法,第三部分给出本文的主要结果,第四部分给出相关引理和定理的证明,第五部分给出了数值模拟结果。
1 模型及插补方法
模拟结果表明:当样本量适当大时,在随机回归插补法下得到的置信区间平均覆盖率接近置信水平0.95;且在相同的响应概率下,当样本量逐渐增大时,所得区间的平均长度逐渐缩短,区间覆盖真值的平均覆盖率逐渐逼近0.95。因此我们从模拟角度进一步说明了随机回归插补方法的有效性。