Fay平衡半样本的方差估计的基本理论和应用,本文主要内容关键词为:方差论文,样本论文,理论和论文,Fay论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0 引言
现在越来越多的领域需要通过抽样调查获取信息,日益受到社会各个领域的关注。方差估计[1]抽样调查中评价调查数据质量的重要指标,方差估计方法包含方差公式计算法、泰勒级数展开法和重抽样方法,其中重抽样方法[2-3]主要有随机组、刀切法(Jackknife)、平衡半样本(Balanced Repeated Replication)和自助法(Bootstrap)等方差计算方法。由于实际的大型调查一般采用分层多阶段不等概的复杂抽样设计,目的是为了目标变量的均值、总量、百分数、相关系数等多种类型的参数估计,若采用传统的公式法,计算过程十分复杂,重抽样方法以其稳健性和简便性得到了广泛的应用。
中国的抽样调查起步较晚,大型的抽样调查同样采用分层多阶段不等概的复杂抽样设计。在进行抽样设计时,往往利用所有可以获得的辅助信息对抽样框进行分层,进而提高估计量的精度。但在实际调查中,过多的分层会导致部分层中有较少的初级单元落入,使用随机组和刀切法往往无法得到有效的方差的估计量。而平衡半样本方法[4]适用于这种每个层中有较少初级单元的情况,有效提高了方差估计量的精度。平衡半样本方法的实质是通过调整每个层中的样本单元的抽样权数,利用不同权数得到目标参数的估计量,进而利用目标估计量的变异性得到方差估计量。这种方法已经在国内的几个大型调查中使用,但是该方法使每个层的权数是2倍或零倍的权数,一方面在每次的计算目标变量的估计量时舍去了一部分样本信息造成样本信息的浪费,另一方面权数的变异较大,容易高估方差估计量。当目标变量是比例估计量且每个层中的样本量比较小时,利用平衡半样本方法得到的方差估计量倾向于高估,因此,Robert Fay[5]于1989年对这种平衡半样本方差估计方法进行了修正,通过减弱权数的变化提高方差估计量的精度,这种方法更适合中国抽样调查的国情。Andy Sadler和Helen Chen(2010)[6]用PPI(The Producer Price Index)数据比较Fay平衡半方法以及其它重抽样方法并进行比较,Jonathan J.Lisic和Omolola E.Ojo(2008)[7]在NCS(National Compensation Survey)中应用Fay平衡半样本方法计算方差,Van L.Parsons(2010)[8将Fay平衡半方法应用到国际健康调查(National Health Interview Survey,NHIS)中,并利用1997~2005 NHIS的成人样本的方差。Fay平衡半样本方法也用于无回答数据的方差计算中,Eric V.Slud和Yves Thibaudeau(2008)[9]比较了无回答情况下平衡半样本方法和逆概率方法,以及结合Laplace和平衡半方法[10],并应用于IPP(Income and Program Participation)中。在国内,这种方法使用并不普遍,近几年逐渐开始应用,例如中国青少年儿童发育特征的综合抽样调查[11]等。赵馨(2011)[12]介绍了平衡半样本方法在Warner模型中的应用,高歌、范玉波(2010)[13]推导出二分类敏感随机应答技术Warner模型在整群、分层整群抽样总体比例的方差计算公式,吕萍(2011)[14]介绍重权数方法时简单提及Fay平衡半样本方法,金勇进(2009)[15]介绍了缺失数据中的平衡半样本方法.但是,在实际调查中,由于实际抽样设计和实际调查的复杂性,Fay平衡半样本方法的实际应用更加复杂,本文将主要介绍Fay平衡半样本方法的基本理论和实际应用,并对该方法进行改进,使之更加符合中国实际调查。
1 Fay平衡半样本方法的基本原理
由上可知,平衡半样本方法的实质上是通过调整每个层中的样本单元的权数,利用不同权数计算目标参数的估计量,进而利用估计量的变异性得到方差估计量。但是,这种方法使每个层的权数是2倍或零倍的权数,一方面在每次的计算目标变量的估计量时舍去了一部分样本信息造成样本信息的浪费,另一方面权数的变异较大,容易高估方差估计量。当目标变量是比例估计量且每个层中的样本量比较小,利用平衡半样本方法计算的容易高估方差估计量。
其中ε的选择是十分重要的,当ε趋向于零时,该方法近似于泰勒线性方法,当ε趋向于1时,近似于标准的平衡半样本方法。在实际调查中,选择ε=0.5可以得到比较好的估计结果。由于平衡半样本的余集也是平衡半样本,因此在实际使用时可以用平衡半样本的余集提高目标变量的精度,即
,
其方差估计量是
由此,得到充分利用平衡半样本和余集半样本的目标变量的估计量是
Fay平衡半样本方法同样要求每个层中的样本量是2,但是,在实际中往往无法满足这个要求,即有些层中的样本量多于2个,有些层中却只有1个初级样本单元。在实际调查中,可以利用划分虚拟层的方法,将每个层中的初级样本单元随机分成两个虚拟层,或将邻近的两个层合并为一个虚拟层,然后利用Fay平衡半样本方法。在实际调查中包含层内初级单元的个数大于2或小于2的情况。
2 Fay分组平衡半样本方法
在用Fay平衡半样本进行方差估计时,若某些层中的样本个数大于2,无法直接用Fay平衡半样本方法。此时,可以用Fay分组平衡半样本方法[16](Fay Grouped Balanced Repeated Replication)或混合正交矩阵方法[17](Mixed Orthogonal Matrix)进行方差估计。
2.1 Fay分组平衡半样本方法
均值的方差估计量是:
层内虚拟组的划分产生了虚拟组的组内方差和组间方差,导致方差估计量的高估。为了提高估计精度,应尽量减小随机组内的组内方差,即划分的两个虚拟组组内的差异要尽量小,组间的差异要尽量大。在实际调查中,当层内样本单元结构的信息无所获得时,此时为了提高目标变量的估计精度,将层内虚拟组的划分过程重复r次,则均值估计量是
均值的方差估计量是:
上述方法有效地提高了方差估计量的精度,在实际中,也可以利用平衡半样本的余集更加有效的利用样本信息提高估计精度。
2.2 Fay混合正交矩阵的平衡半样本方法
该方法提高了估计的精度,但是计算过程比较复杂,对估计量的有效性有较高的要求,在实际中使用较少。相反,分组平衡半样本方法由于简便性和有效性得到了广泛的应用。
在一个复杂调查中,因为在抽样设计中没有考虑方差的估计问题,导致出现过多的层,此时的计算量是十分大的,为了提高计算效率需要对层进行合并,尤其是当层内样本单元个数是1时,合并层是一种比较好的选择。
3 Fay部分平衡半样本方法
在实际调查中,有效的分层可以极大地提高估计的精度,但是当层数太多时计算量十分庞大,为了操作的有效性和经济性,需要将L个层进行适当合并,从而降低计算量。例如,将L个层合并成G(L<K)个虚拟层,设是虚拟层集,利用R×G正交矩阵得到平衡半样本,这种方法称为Fay部分平衡半样本[18](Fay Partially balanced Repeated Replication)方法,从而得到的估计量是
,
方差估计量是:
这种方法不仅提高计算效率,同时有效地解决了层内只有一个初级样本单元的方差估计问题。但是,这种方法容易导致方差估计量的高估,因为在合并层的过程中引入了层间偏差。为提高估计的精度,应尽可能地合并相似的层,例如利用有效的辅助信息,合并邻近相似的层。
4 改进Fay平衡半样本方法
平衡半样本方法一般假定层内的样本是简单随机抽样或有放回的不等概率抽样得到的。但是,在实际调查中一般用不放回的系统抽样或不放回的PPS抽样方法来提高样本的代表性。此时,通常假设抽样设计是不放回的抽样使用平衡半样本方法估计方法,因此常常导致估计量的高估。利用辅助信息对每次重复抽取的半样本进行校准,即利用校准权数的方法提高估计的精度。
权数调整是抽样调查的重要内容之一,平衡半样本方法实质上就是在基础权数的基础上通过利用重抽样方法对权数进行调整得到估计量。调查数据的权数调整一般包含各阶段的基础权数、无回答调整和事后分层调整权数等,在实际中,为了简化运算,首先对调查数据进行基础设计权数调整、无回答权数调整和事后分层权数调整,然后使用上述Fay平衡半样本方法计算方差估计量,即利用的第r个平衡半样本的最终权数是
但是,由式(6)得到的估计量往往不是无偏估计量。因为每次得到的Fay平衡半样本的样本的结构发生了变化,此时原来的无回答和事后分层调整的权数是错误的。所以Fay平衡半样本方法需要在原始样本的基础设计权数基础上,对每次的Fay平衡半样本进行无回答权数和事后分层权数调整或利用其他辅助信息进行校准,即
其中表示第r个平衡半样本的无回答调整权数、事后分层调整权数和最终的平衡半样本权数。从而提高各个Fay平衡半样本的目标变量的估计精度,进而提高方差估计量的精度。本文将这种方法称为修正Fay平衡半样本方法。同样的可以将用在分组Fay平衡半样本方法和Fay部分平衡半样本方法中。
5 实例
在实际调查中,由于实际情况的复杂性,通常需要结合各种Fay平衡半样本方法。下面以实例模拟说明Fay平衡半样本方法在实际中的应用。
5.1 数据说明
采用分层三阶段不等概率的复杂抽样设计对中国6岁~15岁青少年儿童发育特征进行抽样调查。第一阶段,将全国的区县分成14层,在每个层中抽取100个区县样本;第二阶段,在样本区县中抽取学校样本;第三阶段,在每个学校样本中随机抽取学生样本。采用Fay平衡半样本方法计算各个年级各个区域的某测试得分的均值估计量和方差估计量。
5.2 数据分析
一些软件中已经出现了平衡半样本方法的程序包或模块,例如R软件中的程序包“survey”的svrepdesign命令可以进行平衡半样本方法的方差估计。但是,实际调查往往比较复杂,无法简单、直接地用现成的软件进行计算。在本次调查中,需要结合前面讲述的各种Fay平衡半样本方法,即对于层中初级单元个数少于2的需要与邻近的层进行合并,初级单元的个数大于2的则需要随机划分法为2个虚拟组,增加正交矩阵的维数,并重复执行这个过程以提高估计的精度。这个过程的计算比较复杂,下面用R软件编程计算各个年级各个区域的目标变量的估计量。
(1)将14层中的区县进行修正,即将区县个数小于2的层就近合并,将区县个数大于2的层随机划分为2个虚拟组。
(2)用64阶正交矩阵(由于(1)中多次划分虚拟组,所以需要增加正交矩阵的维数)使用Fay分组平衡半样本方法对目标变量的均值估计量和方差估计量进行计算。
(3)重复执行(1)(2)100次,将每次执行的结果进行平均即为最终的估计量,结果如表1所示。
由表1可知,利用Fay平衡半样本方法得到目标变量的均值估计量和方差估计量,其估计量的效果相对较好,而且这个过程可以重复的计算其它目标变量的方差估计量。
6 总结
Fay平衡半样本方法主要针对分层多阶段抽样设计的复杂调查,更加适用于中国的国情。本文主要介绍Fay平衡半样本方法的基本理论及其在实际调查中的应用,并对这种方法提出了改进,最后用一个实例模拟说明Fay平衡半样本方法在实际中的应用和优势。Fay平衡半样本方法具有十分广泛的应用,其在缺失数据中的应用及改进将是作者今后研究的重点。