极小信息量下分层抽样的样本分配的一个案例,本文主要内容关键词为:信息量论文,极小论文,样本论文,分配论文,案例论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、问题的提出
分层抽样中样本量在各层中如何分配,这是抽样设计中的一个重要问题。计算各层的样本量需要一些辅助信息,如各层中目标变量的方差。在抽样调查的实践中,特别是一次性的抽样调查中,上述所需的辅助信息常常不具备,因此,我们面临着在信息量最小的条件下如何在各层中分配样本量的问题。
本文产生于作者在美国NORC(National Opinion Research Center)进行研究期间所做的调查设计中的一个实例,这里对其进行了归纳,,加工,提炼与析,希望能够就极小信息量条件下如何在分层抽样中进行样本量的分配这一问题提供一种思考的途径。
二、背景
调查目的:欲了解在美国的亚洲血统人口(即有亚洲血统的美国籍公民)对一些问题的看法,并和其他血统人口的看法进行对比分析。
调查对象:美籍居民。
调查方式:电话调查,即向专门的公司购买随机电话号码,然后由调查员依号码拨打,实施调查。
样本要求:(1)全国范围内完成2700人,其中1200 人为亚洲血统(Asian),600人为西班牙血统(Hispanic),300 人为非西班牙血统黑人(Non-Hispanic-Black,以下简写作NonH-B),600人为非西班牙血统白人(Non-Hispanic-White,以下简写作NonH-W);(2 )必须有芝加哥市的样本(原因略)。
要解决的问题:决定需要购买的电话号码数量及电话号码购买数在各地区的分配。
其它说明:经分析决定采用美国1990年人口普查资料作为计算样本量的辅助资料,该资料有分地区的户数,按血统分类的人口总数,但是没有按血统分类的户数(事实上这种划分很难,一些家庭是由多种血统人口组合而成的),而电话号码多以户为单位,故把血统的人口比例视为分血统的户数比例。此外,各地区电话号码中,非居民住户电话号码所占比例略有差异,实际设计中有所考虑,为使分析简明,本文把这个因素舍弃,并假定无回答率均为60%。由于没有其它辅助信息,故假定各地区目标变量总体方差相等。
三、初步分析
对美国1990人口普查资料进行分析后发现,就全国范围看,各种族人口所占比重分别为:Asian占2.706%,Hispanic占8.636%,NonH- B占11.443%,NonH-W占77.215%。亚洲血统人口所占比重远远小于其他种族人口,而本项调查的重点是亚洲血统人口,对该种族要求的样本量较大。因此,抽样设计的主要矛盾是如何满足亚洲血统人口的样本量。由于电话号码是随机抽取的,可以设想,能满足亚洲血统人口样本量的个数,自然也会满足其他种族样本量的要求(事实证明确实如此),故设计的重点放在确定各地区抽取亚洲血统人口的样本量。
如果样本量按人口比例在全国各地区铺开,所需要的电话号码个数为:
1200
所需个数=___________
0.02706×0.6
计算中已将非居民住户电话号码因素舍弃,并假定回答率为60%。
分析人口普查资料发现,各地区亚洲血统人口的比重是不同的。例如在旧金山(S.F.),该比重高达28.614%,因此,若能在亚洲血统人口比重高的地区多抽,在该比重低的地区少抽,则能减少所需购买的电话号码数量。由人口普查资料可知,将各地区亚洲血统人口比重按由高至低的顺序排列;前几个地区依次为:旧金山(S.F)28.614%, 西雅图(Seattle)11.781%,洛杉矶(L.A.)10.443%,纽约(N.Y.)6.964%;此外,必选城市芝加哥(Chicago)为3.70%。除上述5个地区之外的其它广大地区(以Blance表示)占全国人口的比例超过90%,亚洲血统人口比重仅为2.170%。具体情况见表1。
表1 美国不同地区亚洲血统人口所占比重 单位:人
(1)地区(2)人口数 (3)=(2)×100%÷(6)
地区人口占全国比重
S.F 723959 0.284
Seattle 516259 0.202
L.A.
8863164 3.741
N.Y.
7322564 2.868
Chicago 2783726 1.090
Balance
23510353692.084
Total (6)255313208
100.000
(4)亚裔人口数 (5)=(4)÷(2)亚裔比重R[,h](%)
20715528.614
6081911.781
925556110.443
509955 6.964
102938 3.698
5102210 2.170
6908638 2.706
但上述做法带来的负作用是,样本若过于集中于某地区,将会使样本的代表性降低。因此。需要寻找一个结合点,使得抽选的样本量尽可能地少,同时又保证具有一定的代表性。
四、样本量分配
为了便于调查的组织和管理,可以采用按地域分层。以表1 资料所示,将全部地区划分为6个层, 于是要解决的问题是在仅有有限的辅助信息(人口数,户数,种族分类)条件下,如何在各层中分配样本量,使得调查费用尽可能少(即可能少地购买电话号码),同时保证样本具有一定的代表性。为便于分析,将有关符号作如下说明:
N:Asian总户数,N=总户数×Asian人口比重
N[,h]:第h层中Asian户数(h=1,2,…,6),N[,h]=第h层总户数×第h层Asian人口比重,则N=;n:完成的Asian样本户数,即n =1200;n[,h]:第h层完成的Asian样本户数;T[,h]:第h 层需抽取的电话号码数;
N
;ω:扩张系数,ω=-;ω[,h]:第h层扩张系数,ω[,h]=
n
N[,h]
--;R[,h]:第h层亚洲血统人口比重;σ研究变量总体标准差;σ
n[,h]
[,h]:研究变量第h层标准差,由于σ,σ[,h]未知,故假定σ=σ[,h]。
为求得各层样本量的最优分配分案,借用L.Kish提出的设计效应(Design Effect,简写作Deff),结合样本量的分配,设定一个目标函数T×Deff,希望使其最小;再依前述条件设置约束s.t.,形成一个规划问题,即:
的比例分配T[,h],可使(P)的目标函数达到最优(忽略n[,h]必须取整数)。于是得到表2中的计算结果:
表2 应抽样本量T[,h]和完成Asian样本量n[,h] 单位:户
S.F.305584 28.614
46773.814
Seattle 236702 11.7819571.046
L.A.
2989552 10.443 100885.907
N.Y.
2819401
6.964
51815.521
Chicago 1025174
3.6987289.898
Balance84570997
2.170 270377.285
Total 91947410
2.706
(7)486713.471
(5)n[,h]1200×(4)÷(7)(6)=T[,h]=(5)÷(0.6×R[,h])
115.32971.70
23.60333.84
248.74
3969.82
127.75
3057.37
17.97810.08
666.62 51195.01
1200 60037.83
由表2知,T=60037.83,根据前面公式,可以计算出Deff=1.1404,故:
T×Deff=60037.83×1.1404=68467.34
前面曾计算,在简单随机抽样条件下,T=1200/(0.02706×0.6)=73911.30。利用有限信息进行分层后,在同样估计精度条件下,所需抽取的样本量减少了将近8%。
下面检验在这种抽样分配方案下,其它血统人口的样本量要求能否满足。可以按各地区不同种族人口比重估计出实际能完成的样本单位数如表3所示:
表3 各种样本量完成数单位:户
地区 Hispanic
NonH-B
NonH-WAsian
S.F.
53.1842.50192.02115.32
Seattle 6.4719.76150.48 23.60
L.A. 888.07
251.21993.87248.74
N.Y. 441.07
462.72802.80127.75
Chicago 94.38
187.61186.09 17.97
Balance
2133.67 3296.74 24619.98666.62
Total 3616.84 4260.53 26945.34 1200
可见,抽样方案中对其他种族样本量的要求是可以满足的。
规划问题的引入,提供了在信息量极小的情况下,如何进行样本分配的一种思路。计算结果表明,按此种方案分配样本,其效率高于简单随机抽样。在调查实践中,特别是一次性的抽样调查中,类似的信息量极小的情况是会经常遇到的。充分有效地利用规划方法,是一条有价值的、值得思考的途径。
五、关于对偏好的考量
以上分析实际默认了用户对调查费用与设计效果是同样看重的。然而现实中,不同的用户对这两者可能会有不同的偏好,也就是说,在调查费用和样本代表性之间侧重点不同。具体而言,处于下列情况时,应将调查费用视为矛盾的主要方面:a.存在调查费用限制;b.研究变量本身受地域因素影响不大;c.相对而言,对样本代表性的要求不很高。而将样本代表性视为矛盾主要方面的情况有:a.研究变量本身受地域因素影响很大;b.调查内容重要,对样本代表性有较高要求;c.有充足的调查费用。
出于切合实际的目的,我们引入效用函数,以调查费用和设计效果为自变量,记作:
u(x,y),其中,x代表调查费用,y代表设计效果。
效用函数可以有很多表现形式,在此以最直观,最简单的形式为例,列出不同情形下效用函数的函数形式:
更看重效果的:u(x,y)=x×y[2]或:u(x,y)=x×y[3],u(x,y)=ln(x×y[2])
更看重费用的:u(x,y)=x[2]×y或:u(x,y)=x[3]×y,u(x,y)=ln(x[2]×y)
相对来说同样看重的:u(x,y)=x×y或:u(x,y)=ln(x×y)
两个极端的例子是:
只看重效果的:u(x,y)=y或:u(x,y)=lny
只看重费用的:u(x,y)=x或:u(x,y)=lny
这里所给出的效用函数,其值越低,用户越满意,这与一般的效用函数不同。如果能够通过调查,描点得到一系列效用函数曲线,从而得出其函数形式,是最好不过的了。
表4以两组数据为例,分别计算了各种效用值, 从中可以大略看出因效用函数的表现形式不同,对于同样的两种抽样方案,会出怎样的不同评价,从而作出不同的的选择。其中一组数据是按表2所计算出的T值和Deff值,另一组是简单随机抽样下的n值和Deff值。
表4
不同效用函数形式下分层抽样与简单随机抽样效用值的比较
--效用函数对于方案评价进而方案选择的影响
(1)效用函数形式 (2)分层抽样
选择方案
u(x,y)=x 60037.8 分层
u(x,y)=x[,2]×y 4110614484.0 分层
u(x,y)=x×y
68467.3 分层
u(x,y)=x×y[,2] 78080.16 简单随机
u(x,y)=y
1.1404 简单随机
(3)简单随机抽样 (4)=(2)÷(3)效用值之比
选择方案
73911.3
0.8123 分层
5462880268.0 0.7525 分层
73911.3
0.9263 分层
73911.3
1.0564
简单随机
1.0
1.1404
简单随机
为了观察效用函数对分层抽样样本分配的影响,我们利用Excel 中的规划求解,求得不同效用函数下的最优分配方案,并分别与简单随机抽样的效用值进行了比较(见表5)。可以看出, 效用函数的形式对于样本分配的影响还是很大的。
表5
不同效用函数下分层抽样样本量的最佳分配
--效用函数对于样于量分配的影响
地区 当u(x,y)=
Ln(x)
Ln(x[,2]×y) Ln(x×y)
S.F.1200.00
1050.11 115.32
样 L.A.P0.00 38.91 248.74
本 N.Y.
0.00 18.31 127.75
量 Chicago 0.00 2.40
17.97
的 Seattle 0.00 3.83
23.60
分 Balance 0.00 86.44 666.62
配 Total1200 12001200
分层抽样8.85 20.72
11.13
简单随机抽样
11.21 22.42
11.21
方案选择
分层
分层分层
地区 当u(x,y)=
Ln(x×y[,2])Ln(y)
S.F. 56.16 48.7984
样 L.A.P 186.23 178.6142
本 N.Y.111.26 109.4883
量 Chicago19.15 15.6187
的 Seattle16.84 22.0193
分 Balance
810.35 825.4611
配 Total
1200 1200
分层抽样 40.64
0.0127
简单随机抽样 11.21
0.0000
方案选择 简单随机 简单随机
表5的上半部分是不同效用函数形式下的样本量分配分案, 即当目标函数改变时,所求得的相应最优解。从中可知,当效用函数中X (调查费用)的权重越大时,在亚洲血统人口比重最大的旧金山完成的样本量越多,最后总共应抽的样本量就越少,花费也就越少;当Y (设计效果)的权重越大时,在亚洲血统人口比重最小的其他地区(Balance )完成的样本量越多,样本的代表性就越强,但另一方面,应抽的样本量也越多,花费也多。这从逻辑上考虑也是合情合理的。表5 的下半部分列示了不同效用函数形式下分层抽样的最佳方案与简单随机抽样方案的效用值比较,与表4相似,但表4中分层抽样的样本量分配是固定的,而在表5中,每一组分配方案都是相应效用函数下最佳的分配方案, 即使目标函数值最小。
在这一部分中,我们对偏好问题加以考虑,并通过效用函数将偏好量化。由表4、表5的分析可知,将偏好引入抽样问题并非全无意义,因为对决策而言,偏好确实是一个很重要的因素。
文中所给定的假设,比如各层的方差、回答率都一样,对于问题的研究方法并无实质性的影响。此外,样本量理应是整数,这使前面的非线性规划问题转变为整数规划问题,方便起见,我们忽略了这个问题,相信对于问题的实质不会有大的影响。