对定量的敏感性问题的一种改进调查法及其估计量,本文主要内容关键词为:定量论文,性问题论文,敏感论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
随着我国改革开放以来社会进步、经济发展的需求,抽样调查日益成为人们快速、经济、有效地获取资料或信息的重要手段。抽样调查存在着影响精度的两类误差:抽样误差和非抽样误差。抽样误差不可避免,但利用合适的抽样方法能减少抽样误差,并提高估计量的精度。与抽样误差相比,非抽样误差处理起来比较复杂,拒绝回答和回答不真实都会产生非抽样误差。当我们调查一些涉及政治态度或个人隐私等敏感性问题时,被调查者往往会拒绝回答,或给出虚假答案,给以后的工作带来不可估量的损失。为解决这一问题,使被调查者没有后顾之忧地给出真实回答,又能保护其个人隐私,1965年Warner提出了随机化回答调查法。发展至今,敏感性问题的研究已日趋成熟,不仅形成了很多种随机化策略,而且研究领域也从具有两种选择的随机化回答到具有多种选择的随机化回答。但以往的讨论多局限于对定性数据的处理。实际生活中很多敏感性问题我们仅知道其属于事先给定答案中的哪一类是不够的,我们往往想知道被调查者的真正答案,如何被调查者调查其银行存款数额,在校学生考试作弊次数及青少年最早吸毒年龄等等。这就有必要进一步讨论定量的敏感性问题的随机化回答。而且很多定性问题经过技术处理,也可作为定量的来对待。如,具有两种选择的敏感性问题,我们可规定回答“是”为0,回答“否”为1。同样,具有多种选择的敏感性问题,如k种选择,我们可规定属于第i种选择的为i,i=1,2,…,k。从这个角度说,讨论定量的敏感性问题更为重要。
定量的敏感性问题是对定性问题的直接推广,现今很多定量的敏感性问题的结果是在已有定性问题的研究基础上得到的。如1971年
Greenberg模型直接来源于Simmons的双样本、可选择问题模型;而沿着Miller的可选择列表方法的思路,Himmelfarb和Edgell(1980)提出了可加常量方法。一般地,对定量问题,我们最想得到的是对均值的估计量。本文正是从均值估计量入手,结合上述两种方法,寻找一种改进的调查法,使均值的估计达到较高的精度。
二、调查方法及均值的估计
假设我们需要调查一个定量的敏感性问题,其真实答案为X,为保护被调查者,并得到真实回答,我们产生随机数Y。为达到较高精度,一般要求Y的分布尽可能类似于X的分布。所以我们可根据上次调查结果或凭经验估计Y的分布。假定Y的分布密度为f(y)。为简单起见,这里假设已从总体中按简单随机抽样抽得n个被调查者,被调查者的回答为Z。X、Y、Z的均值为μ[,x]、μ[,y]、μ[,z]。方差为S[2,X]、S[2,Y]、S[2,Z];Z的样本均值为,样本方差为S[2,Z]。
(一)Greenberg模型
其调查方法为:
第一步:产生一概率密度为f(y)的随机数Y。该过程可由计算机实现。
第二步:产生一0,1分布的随机对ε,P(ε=1)=p。该过程极易实现,如何从一放置有若干红球和白球的盒中摸取一球,摸到红球表示ε=1,否则ε=0。其中盒中红球所占的比例为p。
第三步:如果ε=1,则被调查者回答敏感性问题X;否则要求被调查者回答看到的Y值。X,Y与ε相互独立。研究者只能看到被调查者给出的最终回答Z。
将之归为模型,则得
Z=εX+(1-ε)Y
两边取期望,由X,Y与ε的独立性及条件期望的概念,得
Greeberg模型中我们看到由于有(1-p)的概率回答与被调查者无关的随机数Y,使得信息大量浪费,从而导致μ[,x]的估计精度不高。p=1时,该模型成为一般的直接提问法。
所以通过比较两者的差同样可看出:要提高精度,一是使Y与X的分布相同,或者做到μ[,Y]=μ[,x],S[2,Y]=S[2,X],但由于X是研究对象,其分布是不可能完全已知的,所以我们只能做到使Y的分布与X的分布尽量相似。提高精度的另一途径是增大p值,但直接增大p值会导致被调查者的怀疑,使数据不可靠,所以只能取适当的p值。事实上,从调查方案的设计中,我们看到的最终的n个回答中理论上只有p的概率与所研究问题有关。是否我们可做到被调查者的回答完全含有所研究的敏感性问题的信息,而又使被调查者无后顾之忧地给出其回答呢?答案是肯定的。如Himmelfarb和Edgell的可加常量方法就做到了这一点。
(二)Himmelfarb和Edgell的可加常量方法
其调查方法为:
第一步:产生一概率密度为f(y)的随机数Y。
第二步:被调查者回答X+Y的和。其中X与Y相互独立。研究者只能看到被调查者给出的最终回答Z。将之归为模型,则得
Z=X+Y
两边取期望,由Y与ε的独立性及条件期望的概念,得
(2)估计量的性质:
可加常量方法的一个最大特点是操作简单,估计量的计算简单。但在每个回答均含有敏感性问题的信息的同时,又使所有回答引入与调查问题无关的随机数,使估计量的精度在一方面提高的同时又有了下降。Y=0时,该模型成为一般的直接调查法。这时该估计量
所以通过比较两者的差同样可看出,要使精度提高,在包含尽可能多的有用信息的同时,最好尽可能少地引入无关信息。这就提醒我们是否可结合上述两种方法的优点构造一个新的方案,既使每个被调查者的回答都含有敏感性问题的信息,又使随机数仅以一定的概率影响被调查者的最终回答。
(三)改进方法
其调查方法为:
第一步:产生一概率密度为f(y)的随机数Y。
第二步:产生一0,1分布的随机数ε,P(ε=1)=p。
第三步:如果ε=1,则要求被调查者回答X+μ[,Y]的和;否则回答X+Y的和。X,Y与ε相互独立。研究者只能看到被调查者给出的最终回答Z。将之归为模型,则得
Z=ε(X+μ[,Y])+(1-ε)(X+Y)
两边取期望,由X,Y与ε的独立性及条件期望的概念,得
由于
μ[,X]=μ[,Z]-μ[,Y]
所以如果我们用之去替代μ[,Z]的话,则得
(1)简单估计量
所以从均值估计量的方差比较亦可以看出,改进方法对Greenberg模型以及Himmelfarb和Edgell的可加常量方法均作出了改进,其精度最高。
实际中,改进方法不仅使估计量的精度有一定的保证,而且操作简单,又对被调查者有一定的保护,所以改进方法是一种比较理想的调查方法。
三、其它估计量
(一)方差的估计
在上述三种敏感性词调查中,提出了一个公共要求,即要使均值估计量的精度高,必须使Y的分布尽可能类似于X的分布,或者尽可能使μ[,Y]=μ[,X],S[2,Y]=S[2,X]。给出μ[,Y]、S[2,Y]的一个很好方法是利用上次调查所得的
(二)比例的估计
对定量的敏感性问题,有时我们除了想知道估计均值外,我们还想考虑具有某一特征的比例的估计,这时我们可把定量数据当作二分总体处理。如在调查个人月收入时,我们经常会想知道收入高于(或低于)某一值α的被调查者在总体中所占的比例。下面以改进方法为例,给出θ=P(X>α)的估计,其余可类似给出。
由于Z=ε(X+μ[,Y])+(1-ε)(X+Y),所以我们可得
X=Z-(1-ε)Y-εμ[,Y]
首先我们把变量进行改造,即把满足条件的Z值作为1,否则为0。这样,利用二项分布的定义,我们很容易就可得到θ的估计。
标签:调查法论文;