MPPS抽样设计方差估计的比较研究_标准误论文

MPPS抽样设计方差估计的比较研究,本文主要内容关键词为:方差论文,MPPS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引言

1997年,美国农业部国家农业统计署(NASS)专家Jeffrey T.Bailey和Phillip Kott[1]提出MPPS抽样方法,用于解决多目标抽样问题,即:在有限的资源条件下,为得到多个目标变量的值,如果按单个目标进行抽样,对数据和信息的需求使得调查次数和(或)调查内容增加,从而无法体现抽样调查高效与灵活的优点;MPPS方法采用了多变量与抽样单元规模成比例的概率抽样,实现了多目标抽样。

以全国性的农业抽样调查为例,其抽样方案常涉及多阶抽样。其中以二阶抽样为例,第一阶抽取行政村,第二阶抽取农户。许多国家经常使用的方法是,第一阶抽样用分层与规模成比例的概率抽样(分层PPS抽样);第二阶抽样采用简单随机抽样或随机起点的系统抽样(等距抽样)。因为第二阶抽样在理论和方法上容易处理,因此关键在于第一阶抽样。但是对多个调查主题做出适当的分层是非常困难的,而PPS抽样中的辅助变量的选取也存在很多问题,比如若用农户数为辅助变量,它的准确性、时效性及与调查主题的相关性等问题都必须加以认真考虑。

解决这个问题的一种思路是增加现有调查的内容,这样可以满足多种需求而非增加新的调查项目。在一项扩展的调查中只是延长访问时间,从而增加已被抽中的被访者的调查负担,而不是在一项新调查项目中抽取和接触新的更多的被访问者,从而较大程度地控制调查的总费用。不过,扩展调查内容可能使调查目标相互冲突。例如,一项主要为经济指标设计的调查可提供较为准确的经济指标的估计,但提供不了准确的农产量估计。在NASS近期的调查中,研究了多目标调查中目标冲突这一问题。一个共有的主题是从多重抽样框中抽样的方法,Bankier[2]、Skinner[3]和Skinner[4]等人对此作了论述。

名录抽样框(list frame)抽样适合于发展中国家,或更通常的说法,适合于设村一级的国家。由于诸如分层随机抽样和单变量PPS抽样等常规抽样技术的局限,因而引入多变量PPS,即MPPS抽样。我国有关部门与美国NASS进行了多年合作,在广东省进行MPPS抽样的试点。尽管MPPS研究的重点在农业,但所揭示的概念与方法适合多目标(可能相冲突)的任何抽样调查。

MPPS抽样设计对采用以名录为抽样框进行抽样设计的多目标调查,具有较好的效果。但是,它本身也还有需要研究及改进的地方。本文在对MPPS抽样设计进行研究的基础上,提出了几种调整方差估计的方法,并用我国第一次全国农业普查的资料进行了模拟、比较和分析。

一、MPPS抽样设计的思路

由两个部分组成:第一项来自于初级抽样单元(PSU,例如村)之间的变异;第二项来自于二级抽样单元(SSU,例如农户)之间的变异。通常第一项的数值远较第二项的大,因此重要的是适当选择辅助变量,尽可能减小PSU之间的差异。这在具有地理特征的农业调查中尤为如此。

在这类调查中,典型的二阶抽样是:第一阶抽样采用以户数为辅助变量的PPS抽样抽取行政村;第二阶在每个被抽中的行政村中按简单随机抽样抽取户。当第二阶抽样的样本量都相等时,则总体中每户的最终入样概率都相等,从而是一种自加权设计。这一设计的另一个优点是估计量及其方差估计的计算都极为简单。不过,当调查指标与辅助变量(农户数)相关性不太强时,估计的精度不高。此时需要寻找更好的辅助变量。例如,许多国家有每个村的有关作物和牲畜生产量的数据,比如每个村的牛数,可将它们作为辅助变量。但当调查为多目标时,就可能出现问题。在对牲畜的存栏量进行调查时,使用牛数为辅助变量对牛的存栏量估计是一个理想的选择,但它对猪的存栏量估计可能是一个糟糕的选择。此时使用农户数为辅助变量可能是个折中方案,前提是村中的牛和猪的存栏量数与农户数都相关。

按多个变量分层也存在类似的问题。在多目标调查中,寻找合适的分层标准是一项非常困难的工作。采用MPPS抽样设计,在一定程度上可以避免多目标调查中的分层。

二、MPPS系统抽样设计的基本方法

MPPS抽样是单变量PPS抽样的推广。设总体有N个(初级)单元,有K个调查指标,分别选取与它们高度相关的变量(通常是相应的历史数据)为辅助变量(k=1,2,…,K)。MPPS抽样中,总体第i单元的入样概率(相当于单变量PPS抽样中的)由下式确定:

Bailey和Kott在文章[1]中使用永久(亦称持久)随机数PRN,采用泊松抽样来抽取样本。但本文采用系统抽样的方法获得样本,进行数据模拟。

四、MPPS抽样设计的数据模拟、比较和分析

众所周知,均方差(MSE)等于该估计值的方差加上与调查方式相联系的偏差的平方,是用来衡量抽样结果与在相同条件下全面调查结果之间的差别的。在实际调查中,因为真值往往是无法得到的,所以无法计算均方差。这时,只能通过方差来测算精度。

(一)MPPS抽样的直接模拟、比较和分析

从上面的讨论可以得知,MPPS抽样设计的思想与PPS的相同。我们只有一年的普查数据,无法采用比估计对MPPS方法直接模拟,所以我们采用PPS抽样设计简单估计的方法来模拟。二者理论和方法上是完全相同的。

采用系统抽样方式,使用某省第一次全国农业普查的数据,变量代码和预定样本量的结果如表1,数据模拟得到的结果如表2。

表1 变量代码和预定样本量表

序号变量 预定样本量序号变量 预定样本量

1 耕地面积 35010油菜籽面积 300

2 总种植面积30011花生面积

330

3 粮种植面积32012棉花面积

330

4 稻谷面积 30013糖料面积

310

5 小麦面积 32014蔬菜面积

330

6 玉米面积 32015牛存栏 320

7 大豆面积 33016羊存栏 320

8 薯类面积 30017猪存栏 300

9 油料面积 33018禽存栏 280

表2 直接模拟得到的结果

注:总体单元数为31064个村,样本量为1317,抽样比为4.2%。

表1中的预定样本量,是根据经验设定的期望样本量,如根据前期分项调查的样本量而定。若预定样本量得到的精度不跑满足要求,则可以提高所分配的样本量;若依此样本量调查得到的精度大大超过要求,也可以减少所分配的样本量。

表2中的估计比率是估计值与实际值的比。从估计比率可以看出,所有指标的误差范围都在之内,对于多目标调查能够达到的精度,此结果是令人满意的。

变异系数是标准误与估计值的比。从变异系数C.V.来看,最大值为8%(糖料种植面积),其他的指标都不超过5%,所以精度也是令人满意的。如果要使糖料种植面积也达到精度要求,可以适当增加该指标分配的初始样本量。

表3是标准误和变屿系数的计算结果。其中放回标准误,是指根据方差公式(6)计算的数值;标准误1,是使用式(8)计算出来的数值;标准误2,是使用式(7)计算而得,其中

标准误3是通过式(5)计算而得,其中f=n/N=1317/31064=0.0424。

表3 精度结果的比较

从结果可以看出,只有糖料面积的标准误1出现较大的降低,所以值得进一步研究其原因。其他测算的指标的误差都小于放回标准差,其中以标准误2最小。而广东省使用的公式与用1-n/N调整的公式得出的结果差别很小,且互有大小。我们倾向于使用标准误2,从方便性考虑标准误3也是一种选择。因为此处样本量很大,所以对标准误的各种调整的计算结果影响不大;对样本量不够大或入样概率较大的情况,计算结果可能会有显著不同。

(二)MPPS抽样的分层模拟、比较和分析

对于以概率1入样的单元,实际上是特殊经营单元,它们在某个指标上占有较大的比重。根据调查的分层原理,可以将这些特殊经营单元分为一层,组成必选层,即该层中每个单元都将被调查;将其它单元组成一层,为抽样层,在此层中进行抽样调查。上面我们已经知道,总体单元数为31064,样本量为1317,抽样比为4.2%。我们发现,必选层单元数为43,所以抽样层样本量为1274,抽样层的总体数是31021。抽样层的模拟结果如表4。表中估计比率1是抽样层推算的总量与此层实际总量的比,估计比率2是抽样层推算的总量与总体总量的比。

从表4可知,以上18个指标的估计比率1与抽样层总体的误差都在5%以内,抽样层推算的结果是不错的。从变异系数可知,除了糖料种植面积,其他指标的误差都不超过5%,结果也不错。抽样层的糖料种植面积仅占总体的58%,其他指标的估计比率2与总体的误差都在5%以内。这也说明,在必选层中,糖料种植面积占有很大比重。因此,必选层单元主要是由糖料种植面积确定的。而经过验证,必选层中所有的单元都是由糖料种植面积确定的。这证实了在MPPS抽样中,糖料种植面积指标发挥了奇特的作用。用上面几种方法得到的精度结果放在表5中。从表5可知,在抽样层中比较变异系数,就比较合理了。糖料种植面积的调整1标准误和变异系数也有较大的下降,但下降程度已可接受。

表4 抽样层模拟结果

对表5中4种变异系数进行比较,除了糖料种植面积外,在精度方面,标准误1与放回标准误相比,提高得不大;与标准误3方法的差别也不大,且精度各有大小。标准误2的方法提高得最多,这是因为规模较大的单元被抽中的概率大,与PPS抽样的解释是完全一致的。调整系数中的=115.61/1274.18=0.0907,抽样比是f=1274/31021=0.0411。

从表5可以看出,使用式(8)估计方差有其合理的地方。此省糖料种植面积不符合正态分布。许多村没有糖料种植面积,因此少数糖料种植面积较大的村在计算入样概率时,就起到了决定性的作用。这种方法值得讨论的地方是,只要把那些少数起决定性作用的村,都作为特殊经营单元而放入必选层,糖料种植面积的变异系数出现大幅度下降的现象就会消失,在计算入样概率时,对别的指标也比较公平。在这种情况下,使用式(7)估计方差是较理想的选择。

把必选层的结果与抽样层的结果结合起来得到总体的结果,而必选层不增加抽样误差,因此这种分层有利于提高估计的精度。分层模拟的结果放在表6中。从表6可知,将总体分为必选层和抽样层,18个指标的估计比率全部在5%以内。在估计比率中,糖料种植面积占总体的98.7%,相当准确。在必选层中,糖料种植面积占了相当大的比重。从变异系数可知,所有指标的都不超过5%,结果很好。特别是糖料种植面积,精度也非常高。

表5 抽样层各精度比较

表6 分层模拟结果表

注:总体单元数为31064个村,样本量为1317,抽样比为4.2%。其中必选层单元数为43,抽样层单元数为1274。

表7 分层精度结果的比较

表7是几种标准误和变异系数的计算结果。从表中可知,以上方法得到的变异系数,都比较合理。糖料种植面积的标准误1和变异系数也有较大的下降,但不再下降得使人难以接受。对上面4种变异系数进行比较,除了糖料种植面积外,在精度方面,标准误1与放回标准误相比,提高得不大;与标准误3的差别也不大,且精度各有大小。标准误2提高得最多。

五、结论

MPPS抽样设计在多目标调查中,发挥了很好的作用。它的思想与PPS抽样有相同之处。但它在方差估计等方面,还存在一些需要研究的问题。本文对MPPS抽样设计的方差估计进行了研究,给出了几种改进方差估计的方法,并对这几种方法进行了比较和分析。根据MPPS抽样设计的原理,笔者认为使用式(7)来估计方差,是一种较好的选择。

标签:;  ;  ;  ;  

MPPS抽样设计方差估计的比较研究_标准误论文
下载Doc文档

猜你喜欢