周期抽样调查的最优样本旋转率_样本容量论文

周期性抽样调查的最优样本轮换率,本文主要内容关键词为:抽样调查论文,周期性论文,样本论文,最优论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、样本的轮换及其准则

为了获得具有一定间隔时期的资料,在经常性的抽样调查,例如我国城市住户调查及农村住户调查中往往采用固定样本进行调查。调查户根据调查的要求,分类逐项记帐,调查员每隔一定时期走访调查户,取得各类统计数据。这样做有一定的优点,主要是调查户固定,资料可比性好,调查费用也较低。

但是这种固定样本的调查方法也存在一些缺陷。首先,由于客观情况不断变化,总体的各项指标随着时间的推移也在变化,长期使用同一样本难以保证在任何时候样本都具有较好的代表性。当样本不能反映总体的变化时其代表性就下降,样本呈老化状态。其次,周期性进行的调查会使部分被调查者感到是一种负担,产生厌倦感,以至对调查采取搪塞或不合作的态度,影响调查数据的质量。第三,对同一类型资料进行长期连续调查会使被调查者受到调查时所得到的信息的影响,改变行为方式,进行自我调整,致使提供的数据缺乏真实性,不能反映事物的真实面貌。因此,对周期性进行的抽样调查,为了使样本具有较好的代表性以获得精确度较高的估计,不能采用固定样本的方式,必须对样本实行轮换。

所谓样本轮换,就是在上期的样本中抛除一部分老抽样单位,并从过去未被抽中的抽样单位中随机抽出等量的新单位来代替它们,与上期样本中保留下来的老抽样单位拼配成现期样本。

在样本轮换中,一个重要的问题是如何确定样本轮换率,即上期样本中被抛除的老单位数占样本容量的比例。以n表示样本容量, 设其在各期调查中大小保持不变,m 表示现期调查保留的上期样本的老单位数,u表示现期调查抛除的上期样本的老单位数,t表示样本轮换率,则

那么应该按照什么准则来确定样本轮换率呢?我们知道,抽样调查的目的是基于样本资料对总体指标进行估计,这自然要求用以对总体指标进行估计的估计量应具有尽可能高的精确度,即该统计量具有尽可能小的方差。由于在进行调查时总的调查规模即样本容量n保持不变, 因此确定样本轮换率的准则应是在调查规模固定的约束下使估计量的方差达到最小。满足这些条件的样本轮换率称为最优轮换率,相应的样本轮换量称为最优轮换量。

二、最优轮换率的确定

我们就抽样调查中一类最常见的问题——总体均值的抽样估计讨论如何确定最优样本轮换率。因为总体总值和均值仅相差一个常数——总体抽样单位数,因此在总体均值场合成立的结论也完全适用于总体总值场合。

设总体由N个抽样单位组成,周期性地进行调查, 样本容量固定为n。为使样本具有较好的代表性,对上期样本实行轮换。 在上期样本中随机抽取m个抽样单位, 其现期观察值记为y[,11],y[,12],…,y[,1m],其样本均值记为

这表明当样本完全没有老化时不用实行样本轮换,仍可由此样本均值作为总体均值的估计。

3.当0<β<1时,u=nβ,m=n-u=n(1-β),α=1-β。此时(1)式将新老抽样单位关于总体均值的信息以加权的形式结合在一起,结合的比重视样本老化系数β的值而定,样本老化越严重,β就越大,新抽样单位的信息所占比重就越大,反之就越小。

上述分析还表明,以样本老化系数β作为轮换率实行样本轮换并按(1)式定义的估计量估计总体均值具有最优性, 在调查规模固定的约束下,(1)式定义的均值估计量具有最小的方差。

三、关于样本老化系数的讨论

从上文知,确定最优样本轮换率的问题归结为确定样本老化系数的问题。但是如何确定样本老化系数目前尚无成熟的方法。下面对此做进一步探讨。

样本老化是一个形象的说法,其实际含义是指样本失去代表性。在周期性进行的抽样调查中,为了获得尽可能精确可靠的统计信息,自然要求提供信息的样本应具有尽可能好的代表性。然而在某种条件下,由于事物发展的连续性同一样本不同时期的观察值之间几乎总是具有正的相关性,即具有同步变动趋势。可以设想当正相关性很强时,这样的样本用来作为周期性调查的固定样本是不适宜的,因为样本中各抽样单位观察值之间的同步性掩盖了调查对象总体不同单位之间由事物发展不平衡规律所决定的非同步性。因此必须对这样的样本实行轮换。

笔者认为,样本相关系数可以作为样本老化程度的描述。以x[,1],x[,2],…,x[,n]记上期样本当期观察值y[,1],y[,2],…,y[,n]记上期样本现期观察值来计算相关系数。

1.当r=1时,说明上期样本现期观察值y[,1],y[,2],…,y[,n]完全可以由上期观察值x[,1],x[,2],…,x[,n]解释,不必进行现期调查,完全由上期的均值就可预知现期的均值。因此上期样本现期观察值y[,1],y[,2],…,y[,n]对估计现期总体均值而言毫无新的价值,当然这样的样本就完全没有代表性,我们说完全老化。

2.当r=0时,说明上期样本现期观察值y[,1],y[,2],…, y[,n]完全不能由上期观察值x[,1],x[,2],…,x[,n]解释,从而现期均值也不存在必然关系,可以认为上期样本对现期调查来说仍有很好的代表性,完全没有老化。

3.当0<r<1时,可以认为上期样本有一定程度的老化,其大小可用r描述。r越大,现期观察值y[,1],y[,2],…,y[,n]可用上期观察值x[,1],x[,2],…x[,n]解释的比重就越大,解释的比重也就越大,样本老化程度就越严重;r越小,现期观察值可用上期观察值解释的比重就越小,解释的比重也就越小,样本老化程度就越不严重。

将以上关于样本相关系数的分析与第二部分关于样本老化系数的分析进行对比,不难看出两者在度量样本老化程度上是完全一致的。于是把样本老化系数定义为样本相关系数,从而得到最优样本轮换率、样本老化系数、样本相关系数三者的关系

最优样本轮换率=样本老化系数=样本相关系数

用公式表示就是

t=β=r

按公式(3)对上期样本计算相邻两期观察值的样本相关系数是很容易的,因此以样本相关系数作为最优样本轮换率从计算角度讲也是方便的。

标签:;  ;  ;  

周期抽样调查的最优样本旋转率_样本容量论文
下载Doc文档

猜你喜欢