调查内比估计效果的数据模拟分析——关于简单抽样设计与PPS系统抽样设计的比较,本文主要内容关键词为:效果论文,简单论文,数据论文,系统论文,PPS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
引言
抽样设计的效率在于充分利用已知的辅助信息。我们知道,当辅助信息与目标变量之间具有较高的相关时,采用比估计方法可以提高抽样效率;当抽样单位的大小与目标变量之间有相关时,采用PPS抽样方法可以提高抽样效率。那么可以设想,在有辅助信息可以利用时,同时采用PPS抽样和比估计就可以更加提高抽样效率。我们利用一个省的农业普查数据进行模拟分析,证实了这一点。
比估计是相对于简单估计而言的。简单估计量只涉及所估计的指标本身,不需要利用其他信息。而在实际调查中,调查通常是多指标的,一个指标的估计常常可以利用其他指标或历史数据的信息来进行估计,可以通过不同的抽样设计来提高抽样效率。
比估计可以进一步分为调查内比估计与调查间比估计[1],调查内比估计是指使用的辅助变量数据是同一次调查获得的,然后对相关的不同指标进行比估计及其推断。调查间比估计是指使用的数据是不同调查(如当期调查和上期调查)获得的,然后进行比估计及其推断。因为对比估计使用的数据的代表性、相关性、口径等有一定的要求,调查间比估计经常用于连续性调查之中。近年来由美国农业部专家帮助在广东省进行的MPPS抽样,使用的就是调查间的比估计。调查内比估计与调查间比估计的原理是相同的。本文根据收集到的数据,对调查内比估计进行模拟分析,结果表明PPS系统抽样设计与比估计相结合在估计效果上有很大的好处。
一、PPS系统抽样设计的比估计
一般的比估计的使用条件是在简单随机抽样设计情况下不涉及权数,所以我们将它称为简单比估计。在PPS抽样设计的情况下,每个单元抽选的概率是不等的,所以就不应该直接使用简单比估计。我们称在PPS抽样设计条件下的比估计为加权比估计。在抽样的教材中,通常分别介绍比估计和PPS抽样,但是把PPS抽样与比估计结合起来还不多见。在我国农产量多目标调查的可行抽样设计中,我们使用了PPS系统抽样方法[2]。对PPS系统抽样方法如何使用比估计,就是一个需要研究的问题。我们曾比较详细地讨论过简单随机抽样的比估计和PPS系统抽样的比估计[3]。
我们知道在简单随机抽样设计情况下的简单比估计[4]记为
附图
(一)调查内的比估计
附图
它与简单比估计的形式一样,只是变量不是原来的指标了。如果取PPS抽样设计的辅助变量为耕地面积,因为耕地面积相对稳定,即其两年间变化不会太大,所以在估计时就会有很大的好处。它的方差估计结果也与前面一样推导,本处不再列出。
二、调查内比估计的数据模拟和分析
由于收集的数据只有第一次农业普查的资料,所以不便进行调查间比估计的模拟分析。下面先用农业普查数据先进行简单估计;再计算简单随机抽样下的比估计;再选用辅助变量进行PPS的估计;最后应用PPS的比估计。这里模拟分析的目的,是分析各种方法的抽样效率。
(一)等概率情况下的简单估计
农业普查中有许多指标,我们选择了其中的两个重要指标:粮食种植面积和总种植面积。为估计粮食种植面积,在某县742个村的总体中用简单随机抽样抽取20个村,得到数据如表1。现估计粮食种植面积及其95%的置信区间。这里的面积单位是亩。
表1 调查数据表
附图
其变异系数为:CV=μ/Y=118622/1529711=0.0775。
所求的95%置信区间是(1529711±232500)。
(二)在等概率情况下以总种植面积为辅助变量进行比估计
仍从742个村中抽20个村,假设抽到相同的样本(这样便于比较),辅助变量选为总种植面积,仍利用数据表1。假设已知全县的总种植面积为:X=2114121亩。
从表中可以得到:
附图
变异系数为:CV=μ/Y=42078/1250503=0.0336
所求的95%的置信区间是1250503±82473。
(三)采用以耕地面积为辅助变压的PPS系统抽样(未采用比估计)
为了便于比较,仍抽取20个村作样本,但样本不同了,因为耕地面积较大的村,抽中的概率大,取得的数据如表2。
表2 调查数据表
附图
表中抽样概率就是根据辅助变量计算出来的。我们知道,在比估计中,抽样概率用是等价的,这里用是因为容易得到总量的估计。
附图
变异系数为:CV=36998/1308257=0.0282
所求的95%的置信区间为1308257±72516。
(四)PPS系统抽样的比估计
采用以耕地面积为辅助变量的PPS系统抽样,在估计时以总种植面积为辅助变量的比估计,仍用表2数据。
附图
变异系数为:CV=34995/1314138=0.0266
所求的95%置信区间是(1314138±68590)。
如果选用,它比f=0.027略大,因此相应精度要稍高一点。
就本例而言,选用f和计算有限总体校正系数[5],对结果几乎没有影响。但当总体不大时,或抽样概率与总概率之比远大于抽样比时,则影响就是不可忽略的。本例中的实际数据是:。为清楚起见,可用表3加以归纳。
表3 几种抽样设计结果的比较
抽样方式估计方法 估计量/真值 估计量变异系数95%的误差限
SRS 简单估计 1.18
0.0775 ±232500
SRS 比估计
0.96
0.0336 ±82473
PPS系统抽样 一般PPS估计 1.01
0.0282 ±72516
PPS系统抽样PPS比估计 1.01
0.0266 ±68590
三、总结
从表3可以得到一些结论:对简单随机抽样设计,如果采用简单估计,估计量与真值的比是1.18,估计量变异系数是0.0775,其95%的误差限是232500亩;如果采用比估计,估计量与真值的比是0.96,估计量变异系数是0.0336,其95%的误差限是82473亩。无论从哪个指标或特征来判断,比估计的效果都比简单估计的效果好。而对PPS系统抽样设计,如果采用简单估计,估计量与真值的比是1.01,估计量变异系数是0.0282,其95%的误差限是72516亩;如果采用比估计,估计量与真值的比是1.01,估计量变异系数是0.0266,其95%的误差限是68590亩。无论从哪个指标或特征来判断,比估计的效果都比简单估计的效果好。同时可以得出:简单随机抽样简单估计的效果是最差的;与简单随机抽样设计相比,PPS系统抽样设计的效果要好得多。
简单随机抽样由于没有利用任何信息,估计的误差最大,估计量的变异系数也最大;其次是简单随机抽样的比估计,由于利用了总种植面积为辅助变量作比估计,估计的误差缩小,变异系数也大大降低;第三是采用以耕地面积为辅助变量的PPS抽样,估计误差和变异系数都比较小:最好的是既利用辅助变量进行PPS抽样,又利用了辅助面积进行比估计,其估计误差与PPS抽样相仿,但差异系数是最小的。因此,在调查实践中,我们应该充分利用条件,采用效果比较好的抽样设计。