论统计调查中的域估计及其实证研究,本文主要内容关键词为:实证研究论文,调查中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O211 文献标识码:A
抽样调查是获得统计数据的一项重要途径,因此许多项目要求抽样调查能够满足多层次推断的需要。从统计理论上讲,我们可以将需要进行研究的层次作为子总体进行分层抽样。这实际上就是域估计的问题,域是对于总体的一种描述,域估计就是对域的目标量进行估计。
一、域估计的两种方法
常用的域估计的方法主要有两类:直接估计和间接估计。
(一)直接估计
标准的统计推断都是建立在调查设计基础上的随机化的推断,通过随机化、重复化获得无偏估计并实现对方差的估计,这种方法通常被称为“基于设计的估计”,或“直接估计”。域估计中对于总体的推断也是同样的,直接估计仅仅依赖于对当期调查落在该域的样本数据进行估计,通过加权来实现一个无偏的或近似无偏的一致估计量。这种估计方法经过汉森(Hansen)和麦多(Madow)等人的完善和发展,以及基于计算和检验等方面的优势,在实践和理论研究中都得到了广泛应用。
(二)间接估计
在实践中,调查费用总是有限的,无法增大满足域估计所需要的样本量;样本量过小,会导致估计量方差增大从而无法满足估计的精度要求;有些域可能根本没有样本落入,从而无法进行估计,因此需要采用间接估计方法。
间接估计方法主要采用条件分析的观点,对总体的推断是建立在随机抽取的样本之上,根据样本的信息来发掘未抽中个体的信息。实质上是通过模型推断和条件推断相结合的方式,把已观察样本数据作为条件,并根据这些数据和未观察到数据之间的关系建立模型,通过估计模型的未知参数来实现对目标变量的估计。
二、域估计案例分析
(一)直接估计案例
(二)间接估计的案例
间接估计一般可以分为三种,即域间接估计(横截面)、时间间接估计(时间序列)和域与时间结合的间接估计(横截面和时间序列相结合)。域间接估计只使用其他区域的数据而不使用该区域的历史数据。时间间接估计只使用历史数据而不使用其他区域的数据。而域与时间结合的间接估计既使用其他区域的数据也使用历史数据。早期的间接估计方法比较简单,假设较理想,例如使用总体的样本均值作为各个域的均值,或假设总体和域在一定时期内的变化特征是相同的,等等。现代的间接估计一般使用模型估计技术,获得相关程度较高的辅助变量和选择合适模型对模型估计的成功是至关重要的。下面我们即以1990年的年龄结构数据来间接估计1990年以前的中国人口的年龄结构。这里我们建立一个人口年龄结构的模型,在这个模型中,利用获得的1990年人口年龄结构,采用存活倒推法来间接估计过往人口结构,也就是以生命表为基础,根据年龄、性别、人口存活率予以估计。对生命表中的参数,本文采用Coale-Demeny(西区模式)参数。然后通过回朔方法估算各年份年龄、性别、人口数。年龄、性别、人口数回朔方法的算法为:
三、间接估计和直接估计特点对比分析
作为域估计最重要的两种方法,直接估计和间接估计是各有特点的,关键在于我们要考虑不同的场合以决定选用何种估计方法。
(一)间接估计中的模型估计一般是针对某一特殊目标变量设计的,如果模型设置合理,一般精度比较高,检验也比较全面。不论是随机效应模型、回归模型还是时间序列模型,其参数估计和模型诊断都比较成熟和完善,特别是贝叶斯方法在模型推断中的应用,随着计算问题的解决,估计的精确度大大提高,而且精度的测量也容易获得。相比较,直接估计在复杂抽样形式下方差的计算就很困难。同时,模型估计量会具有更加合乎要求的性质,与直接估计量相比,来自抽样设计的偏差对模型估计量的影响要小很多。而在传统方法中,抽样设计的类型将影响偏差的大小。
(二)在间接估计中使用模型分析调查数据的时候,容易识别和测量变量间存在的因果关系。我们在建立模型时,通常是假设变量之间存在某种关系,那么通过对模型的效度的检验,就可以很方便地验证变量之间存在的这种关系是否成立,并测量这种关系的大小。同时模型能够处理各种复杂数据类型,如广义线性模型就能够方便地测量各种属性数据与目标变量间的关系。
(三)间接估计方法不仅使用了本区域的数据,也使用了其他区域和以往时期的信息,而直接估计只使用了当期调查中落在该区域的样本数据。与各域目标变量的真实分布相比,间接估计的估计值具有某种“集中”的趋势,其方差相对于直接估计值一般要小。
(四)如果预测模型的假设条件不成立,间接估计量往往是有偏的,而且偏差不会随着样本量的增大而减小。但是模型估计值的均方误差一般要比直接估计的均方误差小,这也是我们选择其来代替直接估计量的原因。
(五)间接估计量是不稳健的,若选择的模型不合适或没有合适的辅助变量,模型估计就会失败,估计的效果将很差。而直接估计量是无偏估计量,相对比较稳健,可以抵抗模型的失败。通常我们在建立模型的时候,在设计阶段进行更多的深入研究或进行预调查,使得模型更有依据,另外还可以使用不同的模型,以检验模型变动的敏感性。
四、结语
一般情况下,如果样本量很充足,也无缺失数据,则使用传统的直接估计方法最为便利。当直接估计方法不能很好地满足我们的需求时,使用模型来进行间接估计就是一种必要的选择。因而,结合工作中实际情况,探讨抽样调查中不同研究域的估计方法,具有现实的理论和实践意义。