基于双重抽样框的二阶段抽样调查方法研究,本文主要内容关键词为:抽样调查论文,阶段论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、问题的提出
传统抽样调查的抽样设计与抽样估计理论均以单一抽样框为基础。当今社会,由于城市化进程与产业转移等原因致使人口流动与生产单位转移变得比以往任何时期都要频繁。而人口和生产单位往往是社会经济调查的目标对象,故很难建成覆盖所有目标单位的单一抽样框。如果坚持要建成接近完整的单一抽样框,将花费高昂的费用,也可能需要很长的时间才能完成,建成后还得耗费大量资源对其进行不断地更新与维护,这显然不能体现抽样调查成本低,追求时效性强的优点。采用多重抽样框(即两个或两个以上的相互独立的抽样框)的策略,使它们联合起来可以完全覆盖目标总体,这是弥补单一抽样框覆盖不完整问题的一种方法。同时,还要求这些抽样框是现有的资料,或者能够轻易构建起来,这样就可以既保证样本数据对总体信息推断的可靠性,又可以节约抽样调查中建框的固定成本。
国际上,关于多重抽样框理论的研究起源于20世纪60年代。Hartley对双重抽样框的估计问题进行了开创性研究[1],Fuller和Burmeister,Bankier,Kalton和Anderson,Skinner,Skinner和Rao等人在此基础上对双重抽样框的估计方法进行了拓展[2-6],Skinner和Rao将前人研究的基于双重抽样框的估计方法扩展到多重抽样框的情形[7]。但是上述研究仅局限于单一阶段抽样,对于在双重(或多重)抽样框抽样情形下的二阶段(或多阶段)抽样估计量研究的甚少,其中Casady,Snowden和Sirken将Hartley提出的基于双重抽样框的估计方法应用于电话名录框与区域框组合抽样设计的分层多阶段抽样[8],B.C.Saxena,P.Narain,A.K.Srivastava探讨了多重抽样框下的二阶段抽样估计问题,但是只考虑了次级抽样单元在各域的单位调查成本相同的情形[9]。
在国内,由于行政分级的政治模式,多阶段抽样调查早已成为实际中应用较广泛的一种调查手段(尤其是政府部门组织的调查项目)。在理论研究方面,由于国内几乎没有开展过基于多重抽样框的抽样调查,因此关于多重抽样框的理论研究几乎呈空白局面,仅有金勇进教授在其译著中对多重抽样框的概念进行了简略的介绍[10]91-97。对于多阶段抽样的研究自然也是仅局限于单一抽样框的前提,对于多重抽样框的情形未曾涉及。基于此,本文拟引进国外相对丰富的多重抽样框估计理论,研究国内目前流行的多阶段抽样调查,将多阶段抽样扩展到多重抽样框的情形,以求弥补国内在这一领域的空缺。为了分析问题的简便及计算的简捷,文中仅对双重抽样框下的二阶段抽样调查进行详细研究,其他更复杂的情况(如多重抽样框,多阶段抽样调查模式)可以按照所给的思路进行推广。
二、总体总值估计量及其方差
在二阶段的抽样中,假定每阶段都面临着从双重抽样框中抽选调查单元。设第一阶段抽样的目标总体由抽样框A与B共同组成,这里不失一般性,假定两个抽样框存在相互重叠的部分。记N分别为抽样框A与B中的总体单位个数,
为独立取自抽样框A与B的样本数。从总体中抽取的初级抽样单元能够被分人以下三个子域(见图1),即:域a,域b和域ab。
图1 二阶段抽样下双重抽样框的一般结构图
域a:包含来自于抽样框A而不在抽样框B中的总体单位,记为总体单元个数。
域b:包含来自于抽样框B而不在抽样框A中的总体单位,记为总体单元个数。
域ab:包含来自于抽样框A与B公共部分的总体单位,记为总体单元个数。
假如每个抽样框中都不存在复合现象,即每个总体单位在某个抽样中只能出现一次,且每个抽样框都不存在非目标单位。在简单随机抽样的情形下,总体总值的事后分层估计量如式(1)所示:
将式(2)代入第一阶抽样下各子域的总体总值估计量公式中,再代入式(1)可得式(3):
由于从两个抽样框选取样本是相互独立的,所以来自A抽样框的统计量与来自月抽样框的统计量之间的协方差为0,即:
所以式(1)中总体总值估计量的方差可以表示为式(4):
对于每个抽样框的两个子域进行事后分层,估计量的方差可用式(5)近似表示[11]194:
三、最优抽样权重系数及样本容量设计
前一小节的研究可以解决简单随机抽样下的估计问题,并且给出了估计量的方差计算公式。但是关于双重抽样框重叠部分的抽样权重系数该如何取,以及在各抽样阶段如何选择样本量方能实现最优等问题还需要进一步研究。本节沿着既定成本下方差最小(或者既定方差下成本最低)的思路,引人拉格朗日函数解出双重抽样框重叠部分的最优抽样权重系数和各阶段的最优样本容量。
结合式(7)和式(9),考虑既定成本下方差最小,建立拉格朗日函数:
根据各偏导数方程,可解得最优的样本容量分别为:
四、结论及研究展望
本文打破了传统抽样调查理论仅基于单一抽样框分析的束缚,引进了在实际中成本更低廉,覆盖面更广的基于多重抽样框调查的新思路。针对基于双重抽样框的二阶段抽样调查的估计理论进行深入研究,给出了总体总值估计量及其估计量方差。基于双重抽样框的抽样调查理论研究中,重叠部分的抽样权重系数及各子域的最优样本容量都是难以确定的,本文利用拉格朗日函数这一成熟的数学工具,解决了这一难题,给出了最优抽样权重系数及两个阶段抽样过程中各子域的最优样本容量。本文的重要意义在于为二阶段抽样中基于双重抽样框实施提供理论支持,也可以将文中的研究结果进一步扩展到多阶段抽样以及基于多重抽样框选样的情形。
本文的研究展望有如下几点:其一,文中在研究总体总值估计量及其方差时,考虑的是两个阶段均为双重抽样框的情形,并且假定所有双重抽样框的结构均为文中图1所示,对于某阶段为单一抽样框以及双重抽样框的结构为完全重叠或某抽样框包含另一个的情形而言,可以在此基础上进一步推知;其二,文中求解拉格朗日函数时,为了计算的简便,考虑在两个抽样阶段都有一个抽样框可以完全覆盖目标总体的情况,对于其他情况需要深入计算,但是计算过程要复杂很多;其三,本文的研究仅基于所有阶段抽样以及针对各抽样框的抽样均为简单随机抽样的情形,对于其他复杂形式的抽样设计文中未曾研究,更进一步的研究需要将这一估计方法拓展到一般类型抽样调查的场合;其四,对于基于多重抽样框的情形,以及多阶段抽样的情形本文均未展开分析,感兴趣的读者可以在本文的基础上进行拓展,但估计量的计算将更为繁琐。