设计效应运用中的问题,本文主要内容关键词为:效应论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在抽样调查中,特别是在调查的设计阶段,有一个重要的概念常被设计人员使用,即调查的设计效应(design effect,简称deff)。它是指在相同样本量的条件下,采用特定的抽样设计(一般为较复杂的抽样设计)与简单随机抽样设计估计量的方差之比,即
式中,[,d]是特定抽样设计的估计量方差,[,s]是相同样本量下简单随机抽样的估计量方差。设计效应是抽样调查中的一个重要参数,它可以表明特定抽样设计的估计效率;如果有设计效应的经验数据,也可以用于确定不同调查方式所需要的样本量,从而大大节约计算样本量的时间,因此倍受抽样调查设计人员的关注。
尽管不同的抽样设计的具体内容可能千差万别,但一般而言常常包括下面三个比较重要的因素:
1.不同抽样方法的影响,如:分层抽样,整群抽样,等等;
2.各观察值所被赋予的不同权数的影响,采用不等概抽样就会出现这种情况;
3.在样本的子群中采用不同的抽样比,或者说在子群中抽样单位出现偏多或偏少的情况。
应当说在一个规范的特定抽样设计方案中,对上述三方面的内容均有明确说明,但在计算设计效应时,容易对简单随机抽样估计量方差的计算方法产生忽视,从而使得设计效应的含义不够明确。比如,假如我们采用等概重复(或不重复)简单随机抽样的估计量方差去计算(这是一般的教科书上讲授的方法),设计效应中就包含了上面三个因素的影响,但我们并不清楚每个因素影响的具体状况。一个模糊的设计效应可能带来不良结果。例如,设计效应在实践中的一个重要应用是利用其经验数据计算样本量。两次调查在因素1,2项上完全相同,但在因素3上有差别,利用前次调查设计效应的经验数据计算本次调查必要的样本量,其结果就会由于因素发生变化而变得不够准确。如果我们给设计效应划分出不同类型,以便区分出不同因素的影响,就不仅使设计效应的含义更为清晰,而且有利于我们更恰当地运用它。
事实上简单随机抽样的估计量方差[,s]()可能会存在不同情况。最一般的情况是,在重复抽样条件下,各观察值之间相互独立,为样本均值,该估计量的方差是Var()=σ[2]/n,其中σ[2]为总体方差,n为样本容量。所以,简单随机抽样的方差估计以及相应的设计效应deff即取决于对总体方差σ[2]的估计,也取决于我们所定义的样本容量n。
例如在一项全国性的调查中欲估计具有博士学位就职人中的平均收入。不妨令n[,T]代表调查中的样本单位,即所有接受调查者,N[,T]则是样本单位的权数之和,也即总体单位数。同时令具有博士学位的样本单位数和子群单位数分别为n[,d]和N[,d0]则:
式中,δ[,i]为指示变量,δ[,i]=1表明第i个样本单位具有博士学位,否则δ[,i]=0;W[,i]为第i个样本单位的权数。于是具有博士学位被调查者这个子群的σ[2]的估计量为
式中y[,i]是第i个样本单位的收入, ()是样本均值的期望值。
现在我们考察第一种类型的设计效应。不妨假定样本容量n[,T]是固定的。由于在调查之前无法确认被调查者应归于哪一个子群,因而样本容量n[,d]是不固定的。n[,d]的估计值为
于是,在简单随机抽样条件下估计量的方差为
这样我们得到了第一个类型的设计效应为
通过分析不难发现,这个类型的设计效应包含了前面所提到的三个方面因素的影响,它对于抽样方案的设计是十分有用的。但仅仅有它还是不够的。我们不妨从调查的实践上看,因为在许多的调查中,对于稀少的子群(可以认为具有博士学位的被调查者是稀少子群,因为我国目前这个子群在总体中所占比例还很小),为了提高其样本的代表性,在该子群中的抽样比一般要高于总体的抽样比。举例来说,假如获博士学位的个体占整个就业人数的万分之一,调查的样本容量5万人,那么如果仅仅调查5个具有博士学位的个体,其子群的样本代表性是远远不够的,这意味着,实际调查中该子群的样本容量n[,d]要比前面提到的 [,d]大许多。由于不同子群抽样比的差别(前面所列举的因素3),在 [,d]比n[,d]小的情况下,将会对[,1]造成高估,从而使deff[,1]偏小。同理,对于n[,d]比 [,d]小的子群,计算出的[,1]将会偏低,造成deff[,1]偏大。
设计效应的第二个类型假定子群样本容量n[,d]是固定的,在我们的例子中即假定事先确定具有博士学位被调查者的个数。这时简单随机抽样的方差为
于是,第二种类型的设计效应为
与第一种类型的设计效应相比,deff[,2]剔除了由于子群抽样比偏高或偏低带来的影响。这样,它就只包括了不同抽样方式(因素1)和不同权数(因素2)对特定抽样方式所产生的作用。
第三种类型的设计效应假定采用放回的不等概抽样,这时可以对简单随机抽样的估计量方差进行修正,以反映不等概的情况,其计算公式为
由此得到了第三个类型的设计效应
这时设计效应中就仅仅包含了如分层抽样,整群抽样等不同抽样方式(因素1)的影响,而不再包括不同权数(因素2)的影响。
由此看出,除了最为单纯的情况,即假定=/n以外,从不同的角度还可以计算出不同类型的设计效应。这些设计效应反映了特定的抽样设计中不同方面因素的影响。通过对不同设计效应的对比分析,不仅可以使我们对复杂抽样设计的总体状况有所了解,还可以帮助我们对每个具体因素的影响有所认识。设计效应的作用也就被发挥的更为淋漓尽致。
标签:总体方差论文;