抽样调查中单元无回答的二重抽样法,本文主要内容关键词为:单元论文,调查中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
无回答误差是非抽样误差的重要来源之一。如果对无回答(尤其是单元无回答)不予处理,将会降低样本的有效性和代表性,使调查估计产生偏差,从而降低调查的信度和效度,形成“令人惭愧的缺憾”。传统的仅靠增加样本容量来弥补无回答的思路并不能从本质上解决问题。本文在传统处理方法的基础上探讨补救无回答的二重抽样方法,并给出进一步提高估计精度的思路。
一、无回答及单元无回答
关于无回答这个概念,统计学家表述时使用的词汇有所不同。比如,Coharan(1953)和Kish(1963)使用“无回答”(Non-Response)这个词,Ford(1976)和Kalton(1983)使用的是“缺失数据”(Missing Data),还有其他一些研究者称其为“不完全数据”(Incomplete Data)、无访问(Non-Interview)或未完成(Unfinished)。实际上,从不同的分析角度出发,对概念的界定不同是很正常的。如果从数据收集阶段来研究非抽样误差,使用“无回答”比较恰当。所谓无回答是指在资料搜集阶段中,由于各种原因没有能够对被选出的样本单元进行计量,从而没有获得有关这些单元的数据或信息。
从不同的角度,可以对无回答做不同的分类。从范围上,无回答可以分为单元无回答和项目无回答。单元无回答是指,调查单元被选入样本,却没有接受调查,没有向调查人员提供资料。即在调查中,被调查者交的是一份白卷。项目无回答是指,被调查者虽然接受调查,但对其中的某些问题未予回答,使答卷中出现了一些问题的空缺。与单元无回答相比,项目无回答或多或少提供了一些信息,因此影响要小一点,处理方法也相对简单。而对于单元无回答,有必要单独讨论。
二、单元无回答的统计影响
在普查中,无回答的情况不是很严重。抽样调查则不同,在许多情况下,被调查单元是否接受调查没有法律的约束,非政府机构组织的调查更是如此。调查前的宣传工作也无法与普查相比,被调查单元缺乏思想准备,重视程度不足,因此无回答成为影响数据质量的一个重要方面,尤其是单元无回答。那么,在抽样调查中使用因单元无回答造成了缺失的数据推断总体会产生什么影响呢?
单元无回答的存在往往形成一种系统性误差,也称偏差或偏倚。要考察这种偏差应从形成单元无回答的两种情况(有意识的无回答和无意识的无回答)入手分析。
首先,偏差产生于被调查者有意识的无回答。在存在有意识无回答时,如果仅用回答者的数据对总体进行推算,势必导致有偏估计,这是因为,这些主观上拒绝回答的被调查对象,其所涉及的变量的数量特征往往与那些回答者存在着显著差异。
无意识的无回答一般不会带来系统偏差,但也不排除这种可能:虽然被调查者并不是有意识地拒绝调查,但他们却集中于某一个群体中。比如调查对象应包括各个年龄段,而如果白天做入户调查,则老人更容易接触到,而中青年则更容易不在家。由于这些无回答的产生,就使得样本的构成与总体的构成出现不同,由此产生了无回答偏差,对于第二种情形,应该从调查时间和调查手段上考虑,尽量避免。限于篇幅,这里暂不讨论。本文着重对第一种情况进行分析。
当然,实践中并非所有的无回答都会造成偏差,因为,如果无回答是由一些随机因素引起的,则无回答者与回答者在调查项目的数量特征上没有显著差异,这样的无回答就不会造成偏差。但要注意的是,由于无回答减少了实际调查的样本数量,所以它也会增大估计量的方差。
三、单元无回答的传统处理方法及存在的问题
对单元无回答的传统处理主要是通过扩大样本量来抵消无效样本对调查精度的影响。在实践中,调查回答率R是一个衡量数据收集工作质量的重要指标,用回收到的有效问卷数占计划样本量的百分比来表示。造成无效调查问卷的原因有:①样本单元超出调查范围;②样本单元未接触到,比如在住户调查中,可居住的住宅却无人居住(是空的),或被调查者不在家,或邮寄问卷没有返回等等;③样本单元没有回答,比如拒访等。其中,第3项属于单元无回答。无效的调查问卷会减少预期样本量,从而降低调查估计的精度。为了达到规定的精度,需要根据预计的回答率调整样本量的大小(即根据预计的回答率确定一个较大的样本),公式为(为根据样本量公式计算得到的初始样本量)。
例如,在一项关于居民购买力情况的调查中,预计回答率为80%,计算得到初始样本量为300,则最终样本量为=300÷0.8=375(人),即实际应调查375人。扩大样本量的方法所需要的前提条件是无回答率事先能够估计,这样可以增大最初的样本量以弥补由于无回答导致的方差的增大。需要注意的是,虽然样本量的增大有助于减少抽样方差,但是,由无回答所造成的偏倚不会因此而有丝毫的减少。
下面在不考虑其他偏差的前提下,从均方误差的角度讨论样本量变动对调查精度的影响。
为了减少MSE,考虑采取增大样本容量的办法。如样本容量增长4倍,回答者人数则达到200人,则:。可见,由于样本容量的增大,使得估计量方差由原来的0.013降到0.0032但是偏差丝毫未改变。MSE=0.0032+0.25=0.2532。由此可见,MSE没有得到很明显的改观,这是因为,增大样本容量固然可以减少估计量方差,但回答仍然来自于同一层的总体,无回答层中的资料仍然缺失。由于无回答者与回答者具有不同的特征,所以增加样本量对抽样精度的提高是有限的,对调整因无回答而造成的偏倚无效。所以,不管样本增大多少,偏差仍以同样的方式存在。因此要减少偏差就应另辟途径。
四、单元无回答处理的二重抽样法
(一)二重抽样法处理单元无回答
在实际调查中可以应用二重抽样(或二相抽样)法来处理单元无回答,此时,调查结论来自于最初回答单元数据和无回答单元的子样本数据。
这种方法最初是由Hansen和Hurwitz提出的,采用这种方法的一般步骤是:先从总体中抽取一个较大的样本,采用成本较低但无回答率可能较高的方法调查,然后在无回答单元中再抽取一个子样本进行面访调查,取得无回答单元的信息,最后把这两部分调查结果结合起来对总体做出推断估计。这种方法实际上是事后分层的二重抽样,总体被分成两层,即回答层与无回答层,通过第一重抽样(例如邮寄问卷调查)不仅得到回答层的观测值,而且也得到各层权重的估计,第二重抽样仅对无回答层进行。这样做,无疑可以增加获取数据的代表性。但关键的问题在于:两重样本量应设计为多大?毫无疑问,样本量越大越好,尤其是第二重样本量。但样本量增大会相应带来费用的增加。所以,必须在抽样的估计效果与费用之间进行综合权衡,寻求最佳效果。
二重抽样法考虑了回答者和无回答者在调查特征上的不同,能够较好地避免无回答引起的偏倚,提高估计精度,而且费用不会增加太多。缺点是调查的组织及计算较复杂。
(二)进一步的改进
在样本容量不变的情况下,抽样实践对估计精度的提高一般遵循两个思路:一是改进抽样方法;二是改变估计形式。以上二重抽样是从改变抽样方法的角度,保证无回答层有部分单位被抽中且确实能取得有价值的信息。在此基础上,我们可以考虑进一步改进估计方法,尽量增大估计精度提高的得益。
比率或回归估计是提高估计精度通常的考虑思路,只要有合适的辅助变量的信息可供选择。在此不再赘述。此外,在二重抽样的基础上进行贝叶斯估计也是一种好的思路。
贝叶斯方法是基于贝叶斯定理发展起来的。与其他方法不同,它在观测样本数据前先给出先验分布,然后通过观测样本数据纳入新的信息,对先验分布进行调整,从而得到重新估计的后验分布。其过程可以用图1来说明。
图1 贝叶斯方法流程图
Erickson最早对贝叶斯方法在二重抽样中的应用进行了研究。贝叶斯二重抽样方法与传统方法在有关抽样和数据收集等方面是相同的。但是在进行估计时却表现出明显的差异。贝叶斯方法假定调查所要测量的变量Y是一个独立的随机变量,在对样本进行观测前事先给出总体中回答单元的比例,回答单元和无回答单元的真实均值的联合先验密度。然后对总体进行二重抽样,利用观测得到的样本信息,根据贝叶斯公式,对先验密度进行修正,从而得到联合后验密度。最后,在前面步骤的基础上建立总的均值的后验分布。根据y的这个后验分布,通过如下的损失函数期望值的最小化,导出最优的贝叶斯估计值。
在这里,给定最初样本和无回答子样本,对于y的后验分布,K是个常数。在先验信息不清晰的特殊情况下可以看出,与传统估计量相同,同样也可以导出n和f的理想值。
比较贝叶斯二重抽样和通常的二重抽样,会发现二者有着密切的关系。两者均采用了抽样调查中二重抽样的方法;两者均考虑了回答者与无回答者在调查特征上的不同,能够较好地避免回答者引起的偏差,提高估计的精度;两者因为都涉及到两次抽样,增加了调查的程序和组织的难度,同时收集无回答子样本的数据也比较困难,因此调查的组织及计算均比较复杂。在有些情况下,传统二重抽样方法和贝叶斯二重抽样方法所节省的费用甚至不能弥补其调查组织及计算的复杂性所带来的损失。
同时,二者也有明显的不同之处。首先,理论基础不同。传统的二重抽样方法以传统的统计理论为基础,个回答单元的抽样分布取决于最初样本和其后子样本的抽选方法;而贝叶斯二重抽样方法的理论基础不仅包括了传统的统计理论,而且还包括了贝叶斯理论。其次,样本观测值y的假定不同。传统方法认为y是固定的常数;而贝叶斯方法则假定y是一个随机变量。第三,选择最初样本n和子样本抽选比例f的基础不同。传统方法对n和f的选择取决于被假定的方差和费用模型以及与这些模型有联系的参数的合理测定;而贝叶斯方法则取决于先验密度假定和样本的数据。最后,确定n和f的准则不同。传统方法在给定费用条件下使估计量的方差最小化,或在给定方差条件下使费用最小化,从而求得和的值;贝叶斯方法则是根据损失函数的期望的最小化来求解。
总之,数据收集过程中,无回答问题日益突出,提出一个好的补救方案至关重要。而二重抽样方法以及在此基础上实施比率估计、回归估计甚至贝叶斯估计均是为了降低非抽样误差,提高估计推断精度。尽管这些方法未必能在实践中达到预期的效果,但仍不失为解决问题的思路。