分层抽样估计方法新探,本文主要内容关键词为:法新论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
ABSTRACT
The paper puts forward two ways of thinking on stratified samplingestimation,the longitudinal autoregression and multi-compound estimation method.The longitudinal auto-regression method probes into estimate of population mean based on the linear regression relationship between the means of the strata under investigation and ancillary characteristics.The multi-compound estimation method estimates the means of the strata esparately by different methods and the population parameteris taken from these estimates.The paper further analyses conditions for the application of these methods;estimates and their error term;advantages and disadvantages and other problems of the two methods.
本文将探讨两种新的分层抽样估计方法:纵向回归估计法和多重复合估计法。
一、纵向回归估计法
(一)问题的提出
(三)总结
1.纵向回归估计法的缺点。正如其它估计方法一样,纵向回归估计法也有一定的缺点,那就是估计量的方差要大于分别估计法和组合估计法。不难证明有(过程略):
2.纵向回归估计法的优点。以下一些优点有时将是更为重要的:(1)对资料的要求最简单,无须已知辅助变量的各层均值资料,而这对于分别估计法则是必需的。(2)计算过程最简便。分别估计法须计算多个回归系数,得出各层均值的估计量,然后才能综合出总体均值估计量;组合估计法的回归系数是各层回归系数的特殊加权平均,计算更为繁杂;而纵向回归估计只需计算一个回归系数即可,步骤简便,尤其是在等比例分层抽样下更是简易。分层数越多,纵向估计法计算简便的优点更值得注意。(3)由于以层样本均值为变量,纵向回归系数有较好的稳定性,避免因个别层样本较小而产生大的偏差。当样本总容量n固定,因增加层数而减少层样本单位时,这一优点也更明显。(4)随着层数的增加,β会向B[,c]靠近,因此对于多层的分层抽样,纵向回归估计的效果与组合回归估计相差无几,而估计步骤要简便得多。
3.通过研究发现,纵向回归估计法适合于的线性回归拟合接近于x与y的线性回归拟合之总体,这时,β与B[,c]、B[,h]的相差就不会太大。它尤其适合于层界不易确定总体的有关标志等距分层回归估计,这时估计过程也更简易。
二、多重复合估计法
(一)问题的提出
在分层抽样的三种估计方法中,回归估计的效果优于比率估计,比率估计的效果一般又优于简单扩充估计(即各层样本均值的直接加权平均,也即一般的估计),但从实际操作的简便性而言,简单扩充估计与比率估计好于回归估计。通常,一次分层抽样估计只采用一种方法,在具备辅助变量资料的情况下,我们希望能更多地采用比率估计法或回归估计法,以提高估计精度。然而,以下两种情况要求我们在选择估计方法时采用灵活的态度,而不是只拘泥于一种方法。
一是当总体所形成的层中,只有部分层具备辅助变量资料的时候,如果采用比率估计法或回归估计法,那么对于不具备辅助变量资料的层来说是不合适的,这时最简单的处理就是采用简单扩充估计法,但这样做会使具备辅助变量资料的层损失这些有用的辅助信息。在这种情况下,能否对具备与不具备辅助变量资料的层加以分类而采用不同的估计方法呢?即部分层采用简单扩充估计,部分层采用比率估计或回归估计,然后将不同估计方法的结果加以复合得出总体均值估计量。这样做的目的是为了通过利用部分层的有用信息而使估计精度比只采用简单扩充估计而有所提高。
二是对于总体的所有层,虽然可能都具备辅助变量资料,能采用比率估计法或回归估计法,但由于不同层之间样本有大小之分,调查变量与辅助变量之间的关系也有差异,再加上实际应用上简便性的要求,可能部分层适合比率估计法,部分层适合回归估计法,同时可能还有分别估计与组合估计之别,这时也需要对总体的层进行归类,分别采用不同的估计方法,使估计精度与应用的简便有效地统一。
这种不同类的层采用不同的估计方法,然后将各方法的估计结果加以复合,最终得出总体均值估计量的方法,本文称之为多重复合估计法。
(二)总体均值估计量及其方差
为简便起见,下面仅以总体只有三层的情况为例来讨论多重复合估计法。
设第一层不具备辅助变量资料,用简单扩充估计法,层单位数为N[,1],样本单位数为n[,1]。第二层具备辅助变量资料且适宜用比率估计法,层单位数为N[,2],样本单位数为n[,2]。第三层也具备辅助变量资料且适宜采用回归估计法,层单位数为N[,3],样本单位数为n[,3]。N=N[,1]+N[,2]+N[,3],n=n[,1]+n[,2]+n[,3],W[,i]=N[,i]/N,f[,i]=n[,i]/N[,i]。
(三)总结
1.对于增加了新层而这些新层尚不具备辅助变量资料的总体,区分老层与新层而采用多重复合估计法是具有实际应用意义的。
2.在具有辅助变量资料的层中,仅仅以最小估计量方差的大小作为选择比率估计法还是回归估计法、分别估计还是组合估计的标准是不妥的,还应考虑其它一些因素。具体讲,有以下几条原则:(1)对于x与y高度正相关的层,比率估计与回归估计结果相差不大,这时从应用的方便性出发,可优先考虑采用比率估计法,因为它更易被理解。对于正相关度较低或呈负相关的层,应采用回归估计法。(当然,对于同一总体,一般不会出现部分层正相关,部分层负相关的情况)。(3)对于具有两个及两个以上辅助变量资料的层,应采用回归估计法。(4)当某些层样本较小时,为避免大的偏差,应先考虑采用组合估计(组合比率估计或组合回归估计),但要求这样的层数较多,如组合比率估计为三层以上,组合回归估计为五层以上。否则,仍以分别估计为好。(5)当若干层的比率R[,i]相近,则这些层可作为一类进行组合比率估计;当若干层的回归系数b[,i]相近,则这些层可以作为一类进行组合回归估计。若R[,i]或b[,i]相差较大,则应各层分别进行比率估计或回归估计。
3.多重复合估计法有较大的应用灵活性,可以根据具体的分层情况在简单扩充估计法、分别比率估计法、分别回归估计法、组合比率估计法、组合回归估计法及本文前面刚介绍的纵向回归估计法之间进行多种多样的配套复合,选择余地大,适用面广,能兼顾提高估计精度与灵活应用、便于操作的各种要求。
注释:
①参见联合国统计局编:《抽样调查理论基础》,谢嘉等译,上海人民出版社1984年版。这一结论根据该书第51页式(7)转化而来。
标签:分层抽样论文;