抽样中不等概问题等概化研究,本文主要内容关键词为:,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在抽样中,我们经常会碰到观察个体大小不一的情况。例如,以乡为观察个体的农产量抽样估计、以学校为观察个体的学生身体素质抽样估计等。当我们所关心的标志即观察标志与个体大小基本呈等比例变化时,如果不分个体的大小而赋予它们同等被抽中的概率(即采用等概抽样法),那么在仍然采用简单估计的前提下,抽中大的个体就会给出过高的总体估计值,抽中小的个体则会给出过低的总体估计值,从而使抽样估计受到大的抽样误差的支配。例如,在由一个以县为个体的样本数据来估计全国出生人数时,就会产生这种情况。为了减少抽样误差,人们就想到了不等概抽样设计,即按个体大小赋予它们不同被抽中的概率并据以给出总体估计值。然而不等概抽样的一个很大缺点是操作过程麻烦,尤其是当样本容量大于2时的不重复的不等概抽样十分困难。因此在实践中,人们希望能在保证必需的抽样精度的前提下,仍通过等概抽样这种较简便的方法来解决观察个体大小不一的这类抽样估计问题,即把不等概问题等概化处理。通过初步研究,本文提出以下三种处理方法:分层抽样估计法、转移观察标志法和回归估计法。
一、分层抽样估计法
这是一种通过分层来消除或削弱个体大小不等对估计精度影响的设想。抽样原理告诉我们,当总体内在变异程度很大时,正确运用分层技术能有效地降低抽样误差,提高估计精度。因此,当观察标志的数值高低与个体的大小呈高度的线性相关关系(正、负相关均可)、且个体之间大小相差悬殊时,通过对个体按其大小进行分层事实上就是相当于按其标志值高低进行分层。如果通过分层能使层内个体之间的大小差异不大,那么层内个体之间的标志值差异也就不会太大,这样每层都只需进行等概抽样也能保证样本有较高的代表性。
那么采用这种方法时的抽样估计精度如何呢?为此我们试对其估计量方差与纯随机等概抽样、纯随机不等概抽样的估计量方差作一比较(为讨论方便,以重复抽样为例。下同)。
设x[,i]为总体中第i个体的观察值,为总体均值,N为总体容量,n为样本容量,那么在纯随机等概抽样下,总体均值的简单估计量为(记):
该估计量的方差为:
为总体方差。
再设y[,i]为衡量总体中第i个体大小的辅助标志值,且令,那么在纯随机不等概抽样下总体均值的简单估计量为(记):
在采用分层抽样估计法来处理不等概问题等概化时,还要注意以下几点:(1)要正确选择衡量个体大小的辅助标志。虽然辅助标志未在估计总体指标时起作用,但却是分层的依据,其与观察标志之间的相关程度如何直接影响着分层的结果和抽样的效果,因此对辅助标志的选择至关重要。一般的原则是以具备全面资料且与观察标志相关密切程度最高的标志作为辅助标志。(2)这种方法对如下这类总体的抽样估计最为有效:通过分层能使层内个体大小相等或十分接近。例如,由一个以家庭为个体的样本来估计某城市对某种食品的消费量时,按家庭人数分层就可以使层内个体大小相等,这时层内家庭对该种食品消费量的差异就完全是一种不受个体大小影响的差异了。(3)如果分层后层内个体之间还有一定差异,为了进一步提高样本的代表性,层内抽样可以采用按辅助标志排队的对称等距等概抽样法。(4)这种方法最适合对个体数较多、个体本身不是很大但有差异、采用不等概抽样十分困难的总体的抽样估计。
二、转移观察标志法
在统计调查中,所要观察的数量标志一般有两类:直接表明个体特征的绝对标志和间接表明个体特征的相对标志或平均标志。通常,绝对标志与个体大小有关,而相对标志或平均标志与个体大小无关。例如,一个县新出生人数的多少与该县总人口数的多少有关,但人口出生率的高低并不与总人口数的多少有关;一个乡粮食总产量的高低与该乡的播种面积多少有关;如此等等。因此,抽样中的不等概问题是针对与个体大小有关且基本呈同等比例变化的绝对标志而言的。这样,在抽样中若遇到不等概问题时,我们就可以通过把观察标志转化为相对标志或平均标志的方法来转化为等概率问题。其一般过程为:先把所要观察的某与个体大小基本呈同等比例变化的绝对标志(如县的出生人数)除以衡量个体大小的辅助标志(如县的总人口数)转化为某与个体大小无关的相对标志或平均标志(如县的人口出生率),然后等概抽取样本并估计出总体的总相对水平或总平均水平(如全国的人口出生率),再乘以辅助标志的总体均值或总体总值还原得出所要观察的某绝对标志的总体均值或总体总值。
若令d[,i]=x[,i]/y[,i],则d[,i]为与个体大小无关的某相对标志或平均标志的值。这时,对于总体来讲,标志d的均值为(记):
在应用转移观察标志法时,也要注意以下几点:(1)同样要正确选择作为衡量个体大小依据的辅助标志,总的原则是x与y之间的正相关关系越显著越好。(2)这种方法对于观察标志与辅助标志不仅呈高度正相关而且基本按相同比例变化(即x[,i]/y[,i]≈/)的情况最为适用,因为这时它的估计量方差小且与纯随机不等概抽样很接近,但操作应用过程却要简便得多。然而,倘若转化后的相对标志或平均标志的结果在各个体上有较大差异,或者x/y与x呈较高的负相关关系,这种方法并不适用,其效果可能还不如纯随机等概抽样的简单估计。(3)一般要求样本容量n较大,以降低估计量的偏差性,这是由比率估计的性质所决定的。在某些必要的场合,还应该对估计量的偏差进行检验,确保偏差不致于大到影响最终的估计结果。一般的原则是,只要辅助标志y的样本均值的变异系数小于0.1,估计量的偏差就可以忽略不计。(4)这种方法如果结合分层技术(如当x与y的相关性在大小水平不同的个体上有所差异时),抽样效果会更好。
三、回归估计法
前面已指出,抽样中的不等概问题是针对观察标志与个体大小基本呈等比例变化这种情况而言的。对于这种情况,我们有充分的理由认为观察标志x与辅助标志y之间存在高度的线性相关关系(而且是正的),完全可以建立以y为自变量的回归方程。据此,我们就可以根据回归估计原理来估计观察标志的总体均值。这时,辅助标志(即个体大小)对观察标志的影响已通过回归方程自然得到体现,因此样本的抽取就只需采用等概的方法了。
同样,在应用回归估计法来把抽样中的不等概问题等概化时,也要注意以下几点:(1)这种方法与不等概抽样估计相比有一个最大的优点是,只要求x与y之间有高的线性相性相关关系(正、负相关均可),而不必象不等概抽样那样要求x与y之间基本按等比例变化。如果遇到x与y之间的相关系数为±1但x[,i]/y[,i]≠/的情况,那么不等概抽样估计的方差V仍会有较大的值(甚至可能大于V)而。这充分说明,回归估计法不仅避免了不等概抽样操作上的复杂性,而且适用性强,更加灵活,同时具有优良的估计效果。(2)由于x与y之间的相关性越高,回归估计的效果越好,因此要尽量选择与调查标志相关性最强的标志作为衡量个体大小的辅助标志,这一点与前两种方法有类似性。(3)如果x依y的回归方程是接近通过原点的直线(即回归常数接近于0),那么回归估计法与转移观察标志法几乎有相同的抽样估计效果。如果该直线不通过原点,那么根据回归估计与比率估计的性质可知,
,即回归估计法优于转移观察标志法。(4)如果x与y之间的相关关系是非线性的,那么在通过取对数等方法线性化后,仍可能过回归估计法来估计总体指标。只要相关性高,估计效果就会良好。(5)由于回归估计量也是有偏的,因此一般也要求样本容量较大,以降低偏差性。必要时,也可以对样本回归系数b进行显著性检验并对估计量的偏差进行评价。(6)为了进一步提高样本的代表性,也可以采用按辅助标志排队的对称等距等概抽样法来抽取样本,然后再进行回归估计。必要时,同样可以结合分层技术来抽取样本。
标签:样本容量论文;