抽样调查应用与理论中的若干前沿问题,本文主要内容关键词为:抽样调查论文,理论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O212.2 文献标识码:A
1895年,挪威统计学家凯尔(A.N.Kiaer)在国际统计学会(ISI)第五届大会上提出“用代表性样本方法来代替全面调查”的建议,这一年被认为是抽样调查历史的开端。一百多年以来,抽样调查已形成为一门成熟的统计学分支学科。笔者综述了近三四十年来抽样调查应用与理论中的若干前沿问题,着重于抽样设计与推断方法、非抽样误差分析及小域估计等三个方向,同时指出我国抽样调查的实践与理论研究所面临的主要问题。
一、抽样调查的设计与推断
抽样调查的基本推断目标是通过样本调查数据构造总量、均值、比值等总体参数的估计及相应的精度(抽样方差)估计,更为复杂的描述性参数有域总量、域均值、分布函数、分位数、回归系数、相关系数等。
关于抽样调查的统计推断,至少有四种正式框架:基于抽样设计的随机化推断;基于模型假设的模型化推断;模型辅助推断以及关于总体结构的分析推断。纵观抽样调查的发展史,统计学家在改进抽样技术的同时,越来越重视统计模型的作用,各种数理统计技术愈来愈被广泛地应用于抽样调查领域,并与传统抽样理论日趋融合。
(一)有限总体上的抽样设计
抽样调查涉及的总体是有限总体,其中单元都可识别。设总体中共有N个不同单元,记为,或简记为U={1,…,k,…,N}。样本是总体中的一个子集。抽样调查中的变量有三类:研究变量、辅助变量以及协变量。研究变量即调查的指标变量,对任意单元k∈U在调查前都未知,记为;辅助变量实际上是一种设计信息,它可用来有效地构造抽样设计,在调查前对任意单元是 k∈U都已知,记为;协变量的性质介于研究变量和辅助变量之间,只知道部分信息,如相关的总体总量等,调查时只对样本搜集有关信息,但不是推断对象,在推断阶段用来提高研究变量的估计精度,如比估计和回归估计中所用的协变量。
为获取总体的有关信息,需制定合理的抽样方案,选取对总体具有代表性的样本进行调查,然后加工样本信息,对总体进行科学推断。抽样调查的第一步就是设计抽样方案。对给定的抽样设计,在具体实施抽样以前,对任意k∈U,“单元k被抽中”的概率称为一阶包含概率;对任意两个不同的单元 k与l,“单元k与l都被抽中”的概率称为二阶包含概率;一阶包含概率全为正的抽样设计称为概率抽样设计,这种设计能确保每一单元都有机会被抽到,可以构造总量等参数的无偏估计量;二阶包含概率全为正的设计能确保有效地构造估计量方差的无偏估计。可测抽样设计是指一、二阶包含概率全为正的抽样设计。许多常用的抽样设计是可测的,而与系统抽样有关的设计是不可测的。Bethlehem和Schuerhoff[1]及Sengupta[2]给出了设计可测的充要条件。
利用辅助变量的不等概率抽样一般有很高的效率,例如包含概率与其规模成比例的概率抽样,即 PPS抽样,其中尤以不放回的PPS抽样设计,即πps抽样设计更受重视。如何构造和实施πps设计是一个长期的公开问题。Brewer和Hanif[3]总结了50种不放回不等概率抽样方法;邹国华与冯士雍[4]也给出了一种新的不等概率抽样方法。而在实际应用中,n=2的πps抽样应用最为广泛,研究也最为充分。对 n≠2的πps抽样方法,由于包含概率计算复杂、样本抽选麻烦等问题,因而应用相对较少。在实际中应用较多的n>2的πps抽样是πps系统抽样,但由于系统抽样是不可测的,因此它的方差估计比较麻烦。目前虽有一些可以选用的方法,但这仍是一个需要进一步研究的问题。
(二)随机化推断
传统抽样调查以抽样设计为基础进行样本的随机化抽选,并应用样本数据进行有关推断,因此称这种推断为随机化推断。随机化推断认为总体中各单元的指标值是固定不变的,随机性仅在于样本的选取,对推断的评估建立在反复抽样的基础上。推断的合理性和总体结构无关,即使在复杂情况下也是如此,至少对大样本调查是这样。尽管在调查的设计阶段也常常对总体进行一些合理的假设,但这只不过是用来帮助选择优良的抽样设计与估计量,并且这些假设通常都是非常宽松的,譬如说,假定抽样获得的估计量服从中心极限定理,在大样本情形下,其分布是渐进正态的。
Neyman于1934年奠定了随机化框架的基础,之后经Jessen、Cochran,Hartley,Hansen,Hurwitz,Maholanobis,Sukhatme和Godambe等人的发展,随机化推断理论在20世纪50年代已相当完善。Rao和 Bellhouset[5]对抽样调查的早期发展进行了简洁的概述。随机化推断框架的基本性质是抽样和推断都不依赖总体模型,因而是模型自由的。正因如此,随机化方法在抽样调查实践中有着巨大的作用。回顾抽样调查的实践,几乎所有的由政府及民间统计机构开展的主要调查,实际上都采用传统的抽样调查方法,参见Kish[6],Cochran[7],冯士雍和施锡铨[8]等人的文章。
随机化推断认为:总体单元调查指标值未知,但是客观存在的固定常数是把推断建立在抽样设计上。如果忽略无回答和计量误差,随机性主要在于样本的随机选取。抽样调查中最基本的推断就是总体总量或总体均值的估计。对总量的经典的估计是Horvitz-Thompson估计,利用H-T估计可得到进一步的估计,如均值和各种比例的估计等。H-T估计无论是在理论上还是在实践上都有很多优点,因此长期以来备受关注。
(三)复杂样本的方差估计
经典(概率)抽样的目标量估计及其方差估计在理论上都已解决,但在实际问题中所使用的抽样方法可能是多种抽样的组合,获得的样本较为复杂,估计量也不限于简单的线性估计。复杂样本的方差估计是20世纪70年代以来讨论得比较多的一种技术,其中主要方法有:(1)随机组方法。(2)平衡半样本方法。(3)刀切法与自助法等再抽样方法。(4)泰勒级数法即线性化方法。Wolter[9]系统地总结了包括上述四种方法在内的复杂样本的方差估计方法。泰勒线性化和再抽样技术在复杂调查的数据分析中起到了显著作用;吴建福[10]回顾了回归分析中的四种再抽样方法,提出了加权刀切法、加权自助法及刀切一自助法;邵军和涂冬生[11]系统阐述了再抽样技术,讨论了它们在抽样调查中的应用。
复杂样本的方差估计是许多抽样调查软件的主要内容。已有多种相应的软件包已经问世,比如利用 Taylor线性化开发的SUDAAN和PCCARP,利用再抽样技术开发的WESVAR和VPLXT等。
(四)模型化推断
模型化推断法认为:有限总体的研究指标值是某个随机模型(即超总体)的一个具体实现,推断目标是有限总体参数,但把推断建立在模型的基础上。Brewer[12]首先提出依赖于模型的推断方法,而Royall于1970年发表的文献[13]是模型化推断理论初步形成体系的标志。考虑超总体回归模型:
在上述模型下,Royall(1970)[13]建议对有限总体总量采用以下估计:
当模型假设和实际情况相符时,模型化推断比随机化推断更有吸引力,因为它利用了模型信息,而随机化推断虽有模型自由的优势,但具体到一次调查只能利用样本信息。但是当模型假设与实际情况不符时,模型推断就不甚理想。
Cassel等人的论文[14]是一本较为系统的有关模型化推断的专著。
(五)模型辅助推断
随机化推断和模型化推断各有优缺点,二者的理想融合自然是科学地建立模型,综合利用抽样设计和模型信息进行统计推断。模型辅助推断是随机化推断的一种形式,利用模型构造有限总体参数的估计,对模型的假定一般较弱。Cassel等人(1976)[15]提出了总体总量的广义回归估计:
既然模型辅助法涉及到随机设计与模型假设两种不同的随机机制,一个很自然的问题是采用何种标准来度量估计精度?Sunberg(1994)倡导用平方预报方差的均方误差作为度量估计精度的统一标准。
Sārndal等人的论文[16]是一本有关模型辅助推断的较为系统的专著。
(六)总体结构推断
总体结构推断针对的是总体结构,而不直接针对客观存在的有限总体,虽然后者是样本来源。通常的做法是将有限总体的研究变量y的取值和辅助变量x的取值看作某个超总体模型的一次具体实现,其中θ是模型参数。只要确定了θ,总体结构就清楚。因此,这种推断的首要任务是估计θ。结构推断的进一步任务是估计θ的泛函,譬如说回归模型中的回归参数λ。
抽样设计和模型假定的作用也是结构推断中的重要问题。一般来说,分析者应该明确两种随机性:产生有限总体指标值的超总体模型和样本的概率选取。如果抽样设计完全已知,那末对于λ的似然推断就可以忽略抽样设计。总体结构的细节,如层、群等可能仍在推断中起作用,这里忽略掉的只是重复抽取过程,如有序样本中的单元顺序。对于信息抽样来说,利用的边缘分布对θ的进行推断时一般不能忽略抽选过程。一阶包含概率经常包含总体信息,如层权,即使在模型化推断中也是如此。二阶包含概率很少包含总体信息,因此在随机化推断下的方差分析在结构推断中的作用很小。
二、非抽样误差分析及其处理
抽样调查中的非抽样误差包括抽样框误差、无回答误差及计量误差三类。抽样误差可产生于抽样调查的各个环节,即调查的设计(包括抽样设计与问卷设计等),调查实施与数据采集以及数据的汇总分析与处理等过程中。随着对抽样误差理论研究的日益深入与相对完善,对非抽样误差的分析,包括对它的来源与影响分析、对非抽样误差处理技术,是近二三十年来研究的另一个热门课题,参见Lessler等[17]。
(一)抽样框误差
抽样框是有关总体全部单元的名录、地图等的框架,用作抽取样本单元的依据。但在实践中抽样框 (抽样总体)与所研究的总体(目标总体)常不一致,从而产生抽样框误差。抽样框误差包括以下几个方面:
1.丢失目标总体单元。这种情形抽样框没能覆盖全部总体单元,它使总体总量的估计偏低,同时也会造成对均值估计的偏倚。这是抽样框误差中影响最为显著而且也较难进行补救的一种。对丢失目标总体单元的补救有两条途径:一是尽可能将丢失的目标总体单元寻找回来,例如采用将丢失单元与抽样总体单元实行某种形式的联接方式以及采用辅助抽样框;二是利用有关资料对丢失单元的数据进行推算或采用核查等方式,查清丢失单元的影响程度,再对估计进行调整。一个常用的方法是使用由Hartley提出的借助多重抽样框技术[18,19]。
2.包含非目标总体单元。在这种情形抽样框包含了一些不属于研究对象的即非目标总体单元,它造成总体总量估计的偏高。由于发现非目标总体单元相对比较容易,可以通过一定程序进行剔除,因此比较前一种误差,这种误差影响较小。
3.抽样框中的单元与目标总体单元不完全是一对一的对应,而是存在一对多或多对一的现象。这种情况称为抽样框与目标总体存在着复合连接。
4.有些复杂抽样框还包滑辅助信息。如果这些辅助信息不完全或不正确,不仅不能提高抽样的效率,也降低了估计的准确性,从而导致误差。
与此有关的一个问题是对不断变化中的总体的抽样,例如中、小型工业及商业调查、交通运输量调查及出入境调查等。对变化中的总体,由于不可能获得完善、及时更新而适用的抽样框,抽样有很多困难。对这类特殊领域的抽样,近年来也有了针对性的研究[19,20]。
(二)无回答误差
无回答是指抽样调查中由于种种原因没有能够对被抽中的样本单元的全部或部分进行回答,从而没有获得有关这些单元的全部或部分数据。调查中的无回答一直是困扰调查统计工作者的一个问题,也是当今世界调查统计学家面临的主要挑战之一。
这方面早期的研究工作主要关注于对无回答的事前预防方法和措施,如Deming[21],Kish[6]等人都曾经研究过提高或改善回答率的措施。但这种事前预防并不能完全避免无回答问题,因此研究者越来越多地关注于无回答的事后弥补方法。
20世纪后期至21世纪初,出现了一系列关于无回答问题研究的论著:例如Kalton[22]对无回答问题进行了介绍和处理;Madow、Olkin和Rubin[23],Madow、Nisselson和Olkin[24]对无回答的基本理论、方法和案例分析进行了总结;Rubin[25]提出多重插补法;Groves[26]对无回答率的介绍和预测;Groves等人[27]对网络调查、追踪调查等多种类型调查中的无回答进行的研究等等。
无回答分为两类:单元无回答与项目无回答。弥补单元无回答的标准方法是加权调整法,而处理项目无回答的主要方法是插补。
如果从某样本单元未获得任何信息或取得的信息量极少,则称为单元无回答。加权调整是通过增加回答者的权重来弥补无回答,以减小无回答带来的偏倚。对单元无回答的影响部分取决于人们对无回答是怎样发生的假定,即取决于对总体参数进行估计的类型。无回答有确定论与随机论两类:确定论假定总体单元回答与否在入样前就已确定;而随机论认为每个单元在入样时都有一个回答概率,此时统计推断必须考虑由于回答的随机性所带来的额外不确定因素。早期对无回答的研究大多采用确定论观点,如Hansen与Hurwiz[28],他们采用二重或二阶抽样处理无回答。Politz和Simmons[29]的工作是把无回答视为随机的最早研究之一。将无回答随机论观点与模型推断结合在一起,是近期许多研究无回答文献中所关注的问题。
最常用的对单元无回答的加权调整法有以下四种。
1.逆概率加权法。对无回答进行加权调整的最直接的想法是逆概率加权法(IPW),即以单元的回答概率的倒数进行加权。自Horvitz和Thompson[30]首次提出用此方法估计数据非随机缺失下的总体均值后,在很长一段时间内并没有得到很好的应用。直到20世纪末,Robins和Rotnitzky(1995)在重回归模型下证明了IPW估计量的渐近正态性以及相合性,并提出修正IPW估计量;Wooldridge(2002)提出了逆概率权重最小化估计量,即IPWM(IPW minimization)估计量,用于分析一期或多期调查中的无回答问题;Carpenter等(2005)利用实证分析,指出IPW估计具有双稳健性,即在错误的回答概率模型或错误的均值估计模型下,IPWM估计量仍具有相合性。上述研究结果使得IPW法受到越来越多的关注。
2.类加权法。这是目前无回答问题中使用最为广泛的加权方法。根据辅助信息,将回答单元和无回答单元进行划分,形成调整类,每一类的回答率的倒数或该倒数的常数倍即为该类回答单元的回答权重。常用的划分调整类的方法是回答倾向分层和均值预测分层。按回答倾向分层,划分好的调整类满足“回答齐性类”条件;按均值预测分层,划分好的调整类满足“均值相等类”条件。调整类的划分是类加权方法主要考虑的问题之一。
类加权法分为总体加权和样本加权两种,在多数情形下,前者比后者有较小的均方误差。总体类加权估计量可以用于覆盖不全问题和单元无回答问题,而样本类加权估计量则只能用于无回答问题。类加权法的一个缺点是它将导致调整后权重分布的多样性,从而增加了估计量的方差。特别是当存在大量的样本量较小调整类时,由无回答调整权重引起的方差增加幅度是相当大的。
3.梳理法。梳理法最早是由Deming和Stephant[31]提出的。梳理是在多个变量方向上交替进行调整的过程。当类加权法使得辅助变量的样本联合分布与总体的联合分布一致时,梳理法则对辅助变量的边缘分布进行考虑。以两变量为例,梳理法的步骤如下:(1)使样本每行的权数总量与总体相应行的权数总量一致。(2)使样本每列的权数总量与总体相应列的权数总量一致。(3)由于对列的处理,行的一致性不再保证,因此对行进行重新调整,使得行的一致性仍成立。重复以上过程,对样本和总体的行、列进行一致性调整,直至收敛,即使得行、列的一致性同时满足或近似满足。
由于梳理法的复杂性,其估计量的均方误差难以给出。梳理法的收敛速度一般很快,但某些条件会影响其收敛速度,甚至无法收敛。因而,梳理法的收敛性受到极大的关注。Oh和Scheuren[32]在证明梳理法的收敛性时指出:用于调整权重的控制变量构成的交叉类的大小是影响该方法收敛性和收敛速度的主要原因。因此,他们建议以更合理的方式利用梳理法,即保证每个小区域内非空,或选择适当辅助变量构造非空区域。
4.校准法。校准法是通过调整样本单元的权重,使得辅助变量的样本分布与其总体分布较为一致,并保证辅助变量的样本加权总量估计值和总体总量相等。Lundstrm[33]首先提出用校准法处理无回答问题,并给出了相应的方差估计。与传统的无回答调整相比,校准法有许多优点。校准法无须要求对样本单元的回答机制作出简单假定,也不需要建立回答概率模型。Son和Jung[34]利用校准方法核准了存在单元无回答情形下总体加权估计量的方差估计,克服了由于单元无回答导致的方差低估问题,避免了方差估计出现负值的情形。
处理项目无回答的主要方法是插补(imputation)。将无回答的项目,即缺失的数据用一些替代值代替,对如此得到的“完全数据集”,使用完全数据统计分析方法分析数据并进行统计推断。20世纪80年代以后,人们开始着力研究插补方法。迄今为止,提出并发展了30多种插补方法,目前研究的主要问题是插补后数据的方差估计以及改进或简化多重插补的计算。主要的插补方法有以下几类。
(1)单一插补。单一插补指对每个缺失值,从其预测分布中取一个值填充缺失值,然后使用标准的完全数据分析进行处理,它是目前调查实践中处理项目无回答最通用的技术。单一插补的方法很多,又可归为两类:随机插补和确定性插补。随机插补含有随机的因素,而确定性插补意味着对特定的缺失数据,可能的插补值只有一个。随机插补能更好地保持数据的分布,保持比确定性插补更真实的变异性。
早期常用的插补方法包括:推理插补、均值插补、热平台插补、冷平台插补、最近邻插补、比率/回归插补等。近期又发展了EM算法、贝叶斯自助法及近似贝叶斯自助法等。
EM算法是一种迭代算法,它广泛应用于缺失数据问题,既能用于插补缺失值,又能直接用于估计总体参数。贝叶斯自助法及近似贝叶斯自助法是两种基于贝叶斯观点的随机插补方法。
单一插补具有两个最吸引力的特征:首先,标准的完全数据分析可用于填充后的数据集;其次,对公众应用的数据库,可能潜在要求建立合理的插补,只需数据生成程序运行一次,并且这些插补能够融合数据收集者的知识。单一插补也有明显的缺点:插补的单一值不能反映对无回答所服从的分布,也不能反映由插补增加的变异。针对这一问题,J.N.K.Rao使用刀切法与自助法等再抽样方法对矫正估计量的方差估计作了大量工作[35],也是近十年来插补研究的主要方向之一。
(2)多重插补。80年代后,Rubin[25]提出了多重插补方法,后经Rubin、孟晓犁和J.L.Schafer等人完善和发展,已经在著名的统计软件SAS中采用。多重插补是一种以模拟为基础的方法,对每个缺失值产生m(>1)个合理的插补值,这样插补后可得到m组数据,使用标准的完全数据方法分析每组数据并融合分析结果。
多重插补具有许多优点:第一,增加了估计的有效性,基于m个损补的一个估计,其效率为,其中γ为缺失信息比例;第二,当多重插补是在某个模型下的随机抽样时,反映了在该模型下由缺失值导致的附加变异,从而避免了单一插补低估估计量的方差的弊端;第三,在多个模型下通过随机抽取进行插补,可以对无回答的不同模型下推断的敏感性进行直接研究。
多重插补中常用的方法有回归预测法、倾向得分法、MCMC方法等。其中回归预测法是指对带有缺失值的任一变量,以先前的变量作为协变量,建立适当的回归模型,然后根据得到的模型,插补缺失值;倾向得分法是指给每条记录一个倾向得分,据此把观测数据分成固定的几组,然后在每一组内使用近似贝叶斯Bootstrap方法插补;MCMC方法(主要指数据扩充算法)是指通过MCMC方法得到条件预测分布的平稳分布,然后从中抽取值进行插补。
(3)几何插补。从几何的观点来研究插补就是用逼近观测数据的函数去插补缺失数据。Dear(1959)提出了主成分方法(DPC),后来又发展了广义迭代的主成分方法(GIP)。几何插补基本上只关注点估计,不考虑方差,在基因研究、图像处理等方面应用较多。
(三)计量误差
计量误差是非抽样误差中不可避免,同时也是最难处理的一种误差,对计量误差的研究首先需要对计量误差进行量化。数值型的计量误差对调查估计影响的最简单模型是考虑计量中的固定偏差,但没有随机变异的模型,例如Zarkovich(1966)讨论的模型。对于有偏计量的数值化研究可通过收集样本单元其它准确或无偏的计量来进行,这通常在子样本的基础上实施操作。对于分类数据的计量误差,误差是由于错误分类引起的,特别是对敏感性问题的回答。目前发展了不少基于随机化回答技术(RRT)来减少这类误差。随机化回答也可以处理数量化的敏感性问题。
除用随机化回答技术来处理敏感性问题以减少计量误差外,关于计量误差的研究目前还不是很系统,多是针对个案进行讨论,真正能用于一般的普遍方法还很少。Biemer和Grovers等人[36]与Lybery等人的[37]两部专著较为详尽地论述了计量误差的处理。
三、小域估计
(一)小域估计的意义与研究概况
抽样调查中的域是指需要推断但不作为层处理的子总体,也称为研究域。所谓“小域”,是指规模很小的域,在文献中一般记为small area或者small domain。它既包括地理上的小区域,也包括总体中按照某种属性划分出的一个很小的子总体,如按照性别、年龄、种族划分的特定人群。在典型的抽样调查中,调查方案往往是为估计总体(或层)目标变量而设计的,不是为估计域设计的。这样会出现一些域,落入其中的样本单元数目很小,甚至可能为零,这样的域即为“小域”。对小域估计的研究,也是国际抽样调查理论研究的热门问题之一。
国外早期的小域估计研究主要集中在人口统计方面。在人口统计中主要用到传统间接估计方法,即合成估计及复合估计。这两种方法都是基于抽样设计的估计方法,优点是应用简便,缺点是估计有偏。因而,目前研究重点大多基于模型的估计方法。模型估计方法有明确的统计模型形式,可以处理比较复杂的数据类型,同时还可以通过样本数据对模型的合理性进行验证。因而被广泛应用于实际工作之中。常用的模型估计方法有:混合线性模型下的经验最佳线性无偏估计(EBLUP),经验贝叶斯估计(EB)和多层贝叶斯估计(HB)等。最近一二十年来,传统数理统计学中的许多方法,例如线性模型、时间序列分析,以及贝叶斯方法都被广泛用于小域估计的研究中。
在小域估计研究与发展过程中,J.N.K.Rao,Singh,M.P,Ghosh等为小域估计方法的理论研究做出了很大贡献,其中Ghosh和Rao[38]、Rao(1999)[39]对小域估计的方法及其应用做出了总结。Rao[40]是一本最新的全面系统介绍小域估计理论的专著。
(二)小域估计的一般方法
1.合成估计量。合成估计量是一种简单的间接估计量。用Gonzalez(1973)的定义,合成估计量就是“当一个大域的可靠的无偏估计可以由调查样本直接获得时,在假定大域与其所覆盖的各小域有共同特征的前提下,可以用大域的估计量协助产生小域的估计量。”用大域的估计量协助产生小域的估计量,这就是合成估计的思想。
2.组合估计量。合成估计量对假定条件非常敏感,在假定条件不满足时,会产生非常大的偏倚,因而把直接估计量与合成估计量进行加权平均,即成为组合估计量。
3.经验最佳线性无偏预测(EBLUP)方法。该方法主要基于Henderson(1950)的方法,对线性混合模型在正态性假定下求得随机效应的BLP估计量,结合固定效应的最小二乘估计量给出目标量的 BLUP估计量,这里的BLUP(最佳线性无偏预测)是指在所有线性无偏预测类中均方误差最小。在实际应用中BLUP的方差分量通常未知,便可以通过Henderson(1975)的方法给出方差分量的极大似然 (ML)估计或REML等估计,并带入BLUP,即得到EBLUP估计量。
由于EBLUP方法简单易用,在小域估计中已有了广泛的应用。其中Fay与Herriot(1979)开创了小域估计量被广泛应用的先河;Robinson(1991)对EBLUP的理论进行了总结,并给出了多个应用实例。
4.经验贝叶斯(EB)方法。经验贝叶斯方法的原理是:对线性混合模型,假设目标估计量μ是固定效应β和随机效应u的线性函数,其中λ是模型参数,先由条件密度f(y|μ,β)和先验信息f(μ|λ)求出目标量的后验分布f(μ|y),后验分布的均值作为目标量μ的贝叶斯估计。当模型参数未知时,利用样本数据的边缘分布f(y|λ)计算出模型参数的估计,用后验估计作为目标量的推断基础,即得到μ的经验贝叶斯估计。
经验贝叶斯方法的优势在于不需对分布作出假定,能够处理二元数据和计数数据;缺点是在后验分布比较复杂时,需进行数值积分的计算。EB方法在正态模型假定下的估计量与EBLUP估计量一致。
5.层次贝叶斯(HB)方法。层次贝叶斯方法的原理是:分层次地对模型中的参数及随机效应给出先验分布,由所给的先验信息,结合模型假定,利用贝叶斯公式导出待估目标量的后验分布。以后验分布作为贝叶斯推断的基础,用后验分布的均值作为目标变量的HB估计量,用后验方差作为HB估计量的精度度量。在HB方法中,正确地选择先验分布,是获得准确估计结果的前提。很明显,分层次地对模型参数给出先验分布,对先验分布的刻划更精细,先验信息更为准确,从而使推断结果的精度大为提高。然而,复杂的先验信息也增加了计算的负担。可喜的是,随着计算机计算能力的提高以及MCMC的出现,在很大程度上解决了这一难题,尤其是吉布斯(Gibbs)抽样算法以及其推广形式M-H算法的发展,极大地促进了HB方法在实际问题中的推广应用。
四、我国抽样调查研究与应用中的主要问题及对策
随着我国经济体制从计划经济向社会主义市场经济的转变以及统计制度的深化改革,20年多年来,抽样调查作为统计调查的一种重要方法及获取统计资料的重要手段,日益受到政府各部门、企业、学术界与社会公众的重视,它的应用无论从广度还是深度都有了极大的发展。多年来,我国抽样调查的理论与应用面临以下主要课题。
(一)抽样调查如何满足多层次需要
中国各级政府都要管经济,各级行政长官都关心本地区经济与社会发展情况,需要掌握有关统计数据,这是中国的国情。既然抽样调查可以用来获得所需要的统计数据,因此,很自然地要求抽样调查能够满足多层次推断的需要。从统计理论上讲,要解决这个问题,简单且可行的方法是将需要的层次(如省,县、乡等)进行划分作为层的子总体,而进行分层抽样。但实际上用分层抽样来满足每个层次抽样推断的需要,从经济上是不可行的,也与采用抽样调查的初衷相违背。其解决途径与方法:
1.从改进估计的角度出发。通过使用与目标量高度相关的辅助信息,校正样本偏离总体结构的状况,从而获得可靠的目标量估计值。如事后分层估计方法;广义线性回归估计方法(GREG)以及校准估计方法等。
2.借助于辅助信息和建模预测手段。采用通常的域估计方法,对划分过细的采用小域估计方法。
3.采用样本追加策略。这是由笔者和秦怀振提出的一种新方法,其思想是按照某种特定的概率抽样方法,从总体中抽取基本样本对总体(或层)进行估计;对于特定的域,如果落入该域中的样本单元不能保证直接对域目标量推断的需要,就在该域内再按照某种方法抽取部分单元作为追加样本,与原来落入该域中的基本样本组成复合样本来对域目标量进行推断。这种方法的思想是在为估计上一层(例如全国)目标量为目的而抽取的样本基础上,通过样本追加来满足估计下一层(例如省)目标量的需要,且两级样本相互兼容。当估计下一级(省)目标量时,同时用到上一级(全国)落在本省的样本与本省的追加样本。追加样本的目的不仅仅是因为需要增加样本量,更主要是因为全国样本中落在本省内的样本对本省并没有代表性。样本追加策略的另一个优点是利用下级追加样本,可以进一步提高上级目标量的估计精度。样本追加策略已用于中国妇女社会地位调查及限额以下批发零售贸易业、餐饮业抽样调查等一些实际项目中(见秦怀振[41]对样本追加策略的理论与基本方法的阐述)。
(二)多主题或多指标抽样
多主题或多指标抽样不仅是我国,也是许多发展中国家的抽样调查,特别是农业调查中所面临的问题。在这些国家中由于农业专业化程度不高,因而农业调查一般都是多主题、多指标的。另一方面,不同主题(涉及不同种类的农作或经营)的地域分布又极不均匀,因此采用一些传统的方法其精度要求不能同时满足不同指标的要求。多主题或多指标抽样需要解决的核心问题是如何用一套样本同时满足多个调查指标的估计精度。
美国农业部国家农业统计署(NASS)的专家J.T.Bailey和P.Kott在1997年提出MPPS抽样方法[42],即多变量PPS抽样,用于解决多目标抽样问题。MPPS抽样设计对采用以名录为抽样框的抽样设计的多目标调查具有较好的效果,在我国农业调查中也已得到应用。但是,这种方法也还有许多需要研究及改进的地方,张勇等[43]对MPPS抽样设计的方差估计进行了比较研究。
解决多主题抽样的另一种途径是针对不同主题或指标地域分布的不均匀性的特点,采用多项抽样,再利用相应的辅助变量作比估计或回归估计。
(三)无回答的影响及其处理
随着对抽样误差理论研究的日益深入与相对完善,对非抽样误差的分析,包括对它的来源与影响分析、对非抽样误差处理技术也已成为我国抽样调查研究与应用中所面临的主要课题。在三类非抽样误差中,必须着重对待的是对无回答误差,特别是单元无回答的影响及其处理。多项调查的统计数据显示,我国入户调查和电话调查的一次成功率都非常低,且与国外大多数情况相反,入户调查的回答率通常低于电话调查。我国调查实际中处理单元无回答的通常做法是用相似或相近的单元替代或在设计样本量的基础上增加一定数量的余量。这些方法虽然在一定程度上解决了方差增大的问题,但对估计偏倚问题却丝毫无补。虽然国际统计界对无回答问题已进行了大量的研究,但我国目前对抽样调查中无回答问题的研究还未引起足够的重视,基本上只停留在对国外文献的介绍及一些只针对个案的零散的研究上,缺乏对其理论研究及实际应用的较为系统的研究。因此对包括无回答误差在内的所有非抽样误差的分析研究是摆在我国调查统计界面前的一大课题,必须引起高度重视。
在此需特别指出的是,秦怀振、丁文兴、徐玉娟、杨军诸位博士为本文提供了许多素材,特此表示感谢。
标签:样本均值的抽样分布论文; 方差分析论文; 样本方差论文; 概率抽样论文; 总体方差论文; 抽样分布论文; 参数估计论文; 概率分布论文; 样本均值论文; 概率计算论文; 随机误差论文; 抽样调查论文; 统计学论文; 方差论文;