成本条件下的多目标复合抽样设计_样本容量论文

成本条件下多目标复合抽样设计,本文主要内容关键词为:条件下论文,成本论文,目标论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

 一、成本条件下多目标抽样设计的背景及基本思路

众所周知,在人口、社会、经济领域的抽样调查实践工作中,所涉及的调查指标往往不止一个,有的甚至多达数百个。随着我国社会主义市场经济体制的建立和发展,人们对这些调查资料可靠程度的要求也越来越高。另外,从人力、物力和经费的角度,对目前已经开展的有些有关的调查是否能合并进行的问题也提到了议事日程。所以,从我国统计调查工作的实际背景来看,本文研究的多目标抽样问题有两层含义:其一是各项调查指标估计精度的控制问题:如何在总调查费用不变的前提下,尽可能使多项调查指标的推算结果都能达到事先设计的要求;其二是多项不同的调查如何使用一套样本进行数据收集的问题。这些问题在理论上都可以归结为多变量的抽样问题。

本文对多目标抽样问题的研究思路是以调查成本为出发点,用复合样本(s[,1],s[,2])来对数据进行收集,主样本s[,1]收集所有指标变量的数据,辅样本s[,2]只收集“低成本指标”的数据。然后利用各指标之间的相关关系构造恰当的估计量,以达到提高推算精度的目的。其要点归纳如下:

(1)把被调查指标按数据收集的成本分为高低两类:“低成本指标集”和“高成本指标集”。前者的数据收集成本较低,后者的数据收集成本较高,分别用Y[,h](h=1,…H)和X[,l](l=1,…,L)来表示。在实际问题中也确实存在着这样一类数据收集成本相对较低的指标。

(2)用样本s[,1]和s[,2]来对应于其数据收集的特定含义,其中,s[,1]收集所有指标变量的数据,称为主样本;s[,2]只收集“低成本指标”的数据,称为辅样本。称(s[,1],s[,2])为复合样本。由于主样本s[,1]和辅样本s[,2]的特殊含义,复合样本(s[,1],s[,2])并不简单等于s[,1]∪s[,2]。s[,1]∪s[,2]是样本空间上的一个点,而(s[,1],s[,2])是样本空间上的一个点。

(3)假设总调查费用为C,在总费用C的限制条件下,最多能调查n个单位,这是指在常规设计下,被抽中单元收集所有指标变量的数据。如果费用函数为:C=C[,0]+(C[,L]+C[,H])n(其中,C[,0]为固定成本,C[,H]为收集Y[,h]的单位平均成本,C[,L]为收集X[,l]的单位平均成本),那么,一个简单的设想是用容量为n[,1](<n)的样本s[,1]收集所有的指标Y[,h]和X[,l]的数据,用“节省”下来的费用[(C[,L]+C[,H])(n-n[,1])]只收集低成本指标X[,l]的数据,可调查n[,2]=(n-n[,1])/C[*]个单元,其中C[*]=C[,L]/(C[,L]+C[,H])。也就是说,我们可以抽取两个样本s[,1]和s[,2],其容量分别为n[,1]和n[,2]。

显然,对于低成本指标X[,l],我们有n[,1]+n[,2](>n)个单元的数据,所以在相同的条件下精度肯定会有所提高;对于高成本指标Y[,h],尽管我们只有n[,1](<n)个单元的数据,但可以把n[,1]+n[,2](>n)个单元的X[,l]观察值作为“辅助资料”,构造恰当的统计量,譬如,在简单随机抽样情况下,构造统计量:

对任意的高成本指标Y[,h]成立。根据这些直观的思想,在一定的条件下,我们可以在总调查费用不变的基础上提高抽样调查的精度,也可以在原抽样调查精度不变的基础上减少总调查费用。

二、复合抽样设计

用两步实现的观点来看复合抽样设计对解决某些具体的样本老化问题可能会有较好的思路。如全国农产量和住户调查的县级样本是在1983年根据对称等距抽样方法抽选出来的,目前普遍认为已存在样本老化问题。但是,各抽中县均已成立农村社会经济调查队,样本轮换的可能性已经不大。从复合抽样设计两步实现的角度,我们可以认为主样本s[,1]已经实现,现在的问题就是怎样寻找一个条件抽样设计p(·|s[.1])来抽取辅样本s[,2],只收集那些成本很低的指标数据。这样就可以用很低的代价提高各种指标的推算精度,从而在一定的程度上解决样本老化问题。

就常用的π型估计量来说,在给定的抽样设计p(·)下,计算估计量的值只需一阶包含概率π[,k],但计算估计量的方法同时需要一阶包含概率π[,k]和二阶包含概率π[,ij]。p(·)唯一确定π[,k]和π[,ij],但π[,k]和π[,ij]并不唯一确定抽样设计p(·)。π[,k]和π[,ij]可对应许多抽样设计。也就是说,如果给定π[,k]和π[,ij],则可以构造一类定义在样本空间Ψ上的概率函数p(·),使得,

在π[,k]和π[,ij]所对应的一类抽样设计下,π型估计量的值和方差是一样的。在此意义下,我们使用符号(π[,ij],n)表示抽样设计,实际上指的是一类抽样设计。这一类抽样设计具有相同的一、二阶包含概率,因而具有相同的方差,其样本量为n。对复合抽样设计p(·,·)来说,有关的一、二阶包含概率分别为:

三、复合抽样设计的一个基本定理

定理1在复合抽样设计下,记:

证明略。

对于X[,l]来说,这与样本量为n[,1]+n[,2]的简单随机抽样的结果是吻合的。对于Y[,h]来说,这与样本量为n[,1]的简单随机抽样加上n[,1]+n[,2]个“辅助资料”X[,l]的回归估计结果是吻合的。

四、成本条件下复合抽样设计的估计量精度分析

定理1是复合抽样设计下有关估计量的方差表达式,这是一般的结果,并没有考虑调查费用问题。在实际的抽样调查设计中,样本量的确定是一个重要的问题,它取决于调查经费和期望的精度。那么,对于成本条件下多目标抽样设计,如何确定复合样本(s[,1],s[,2])的大小?如何在调查总预算限制条件下,尽可能地提高各项调查指标的估计精度?我们有下面的定理2:

定理2:对任意给定的样本量为n的简单随机抽样设计,如果总费用函数为C=C[,0]+(C[,H]+C[,L])n,其中。C[,0]为固定成本,C[,H]为收集Y[,h](h=1,…,H)的单位平均成本;C[,L]为收集(X[,l](l=1,…,L)的单位平均成本,那么,存在相应的简单随机复合抽样设计

证明略。

定理2在简单随机情况下探讨了复合抽样设计在调查费用限制条件下的最优样本规模,包括提高相应估计量精度的充分必要条件。在一般情况下也有类似的结果,我们在此不作讨论。我们可以认为,这样的复合设计是对有限调查经费的有效使用,多收集“廉价”低成本指标的信息,使总样本规模在总费用不变的情况下得到扩大,其代价是高成本指标的样本规模减少。高成本指标推断精度损失的弥补和提高是利用指标之间的相关关系构造恰当的估计量。在某种意义上,我们也可以理解为这是“有代价”地使用“辅助资料”的抽样设计,它是传统作用辅助资料抽样设计的推广。显然,一般使用辅助资料的回归估计量是定理2的一个特例,当相对成本C[*]趋于零,

下面,我们用一组假设的数据来看成本条件下复合抽样设计所带来的估计量方差减少的程度。

这一指标可以用来度量复合抽样设计相对于原来的简单抽样设计估计量方差减少的程度。

由此可见,在一定的条件下,如果总调查费用不变,在估计量方差减少的意义上,成本条件下复合抽样在精度上的提高是十分可观的;同样,如果相对精度不变,复合抽样设计将使得调查费用大大减少。

五、实例分析

下面我们用河南省新密市的实际资料来作比较分析。我们选取的调查指标有10个:人口数、粮食播种面积、棉花播种面积、油料播种面积、蔬菜播种面积为低成本指标X[,l](l=1,2,3,4,5);农民纯收入、粮食产量、棉花总产量、油料总产量、蔬菜总产量为高成本指标Y[,h](h=1,2,…,5)。把该市307个行政村作为总体单位,简单随机抽样的样本规模为n=30。

很显然“人口数、粮食播种面积、棉花播种面积、油料播种面积、蔬菜播种面积”这5个指标有的能够从其他的调查中得到,有的可以花费较少的人力和财力取得,而与这5个指标相比,其余的5个指标“农民纯收入、粮食产量、棉花总产量、油料总产量、蔬菜总产量”则需要花费较多的人力和财力才能搜集得到。

我们的目的是比较在费用相同的条件下“成本条件下复合多指标抽样设计方法”与简单随机抽样方法的精度。

基本计算步骤如下(略去中间计算结果):

1.计算低成本指标X[,l](l=1,2,3,4,5)的相关系数矩阵R[,X]及其逆矩阵;

2.计算高成本指标与低成本指标相应的相关系数向量r[,Y[,h]X](h=1,2…,5);

3.计算高成本指标Y[,h](h=1,2,…,5)与低成本指标X[,l](l=1,2,3,4,5)之间的广义相关系数

4.假设不同的C[*]=0.1,0.2,0.4,根据公式

从上述实证分析的结果看,本文提出的多指标复合抽样设计方法可以使抽样精度大大提高。

标签:;  

成本条件下的多目标复合抽样设计_样本容量论文
下载Doc文档

猜你喜欢