“当代中国妇女地位研究”抽样调查方案及抽样效果评估,本文主要内容关键词为:抽样调查论文,中国妇女论文,当代论文,地位论文,效果论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【提要】 本文介绍“当代中国妇女地位研究”抽样调查的方案设计,并对方案的精度及设计效果进行了评估。在第一部分详细地叙述了调查所采用的分层四阶不等概率抽样方法及二重抽样技术,讨论了样本量的确定与分配。第二部分详细地讨论了总体目标量的估计及其方差估计的方法,给出了具体的计算公式,最后列出了若干目标量的实际精度和设计效果并就此作了讨论与分析。
“当代中国妇女地位研究”抽样调查(简称妇女调查)是由中国社会科学院人口研究所承担的联合国人口基金CPR/90/P06项目的研究课题之一,是中国社会科学院的重点项目。该项目旨在对中国当代妇女地位和妇女发展等问题进行实证的和理论的研究。该项目联合上海、山东、广东、陕西、宁夏、吉林、四川、河北、湖北社会科学院和复旦大学、杭州大学的人口研究所11个科研单位于1991年在上述省(市、区)进行了全省或地区性的问卷抽样调查,调查时点为1991年10月1日。
1.抽样方案
1.1 概述
“妇女调查”是以各省(市、区)的总人口为抽样总体(去除了部分边远人口稀少地区),采用了分层四阶段不等概率抽样方法及二重抽样技术。
在省(市、区)内分城市和农村二个区域(大层)抽样,并将城市和农村作为二个总体进行目标量估计。城市又按人口规模分层,分为大、中、小城市(或大、小城市)三层(或二层),农村按所处地理环境分为三(或二)层。多阶抽样的抽样误差主要来源于第一阶的抽样误差,一般不回放的不等概率抽样其误差较小,因此,在层内第一阶采用不放回的与人口数成比例的不等概率抽样(πPS)方法抽取二个市(县),具体使用的是德宾(Durbin)方法;第二阶在市(县)内采用放回的与人口数成比例的不等概率抽样(PPS)方法抽取若干街道(乡镇);第三阶在街道(乡镇)中同样采用PPS方法抽取2个居(村)委会;第四阶在居(村)委会中采用等距抽样(亦称系统抽样)方法抽取样本户。
由于调查对象是20~54岁已婚妇女与丈夫生活在一起的夫妻对(简称合格夫妻对),而符合调查要求的夫妻对事先是没有统计数据的。为了有针对性的进行调查,提高调查效率,我们采用了二重抽样(亦称二相抽样)技术。首先进行第一重样本抽样,估计合格夫妻对在各阶人口和总体人口中的比例。做第一重抽样时,在最后一阶(第四阶)进行对居(村)委会的整群抽样,在居(村)委会查阅户口登记卡统计出居(村)委会中合格夫妻对的比例,由此推断省(市、区)总体中合格夫妻对的比例。第二重抽样时,在用上述方法进行一、二、三阶抽样后,第四阶在居(村)委会所有合格夫妻对的家庭中抽取实际调查的家庭户。
1.2 样本量的确定与分配
一般抽样调查的样本量是由对估计量所要求的精度并在此精度下以所花费的成本最低而确定的。但实际情况往往是进行调查的资金、人力等客观条件和调查的样本规模已经确定。我们的任务便是在已有的样本规模下,采用各种有效方法提高抽样精度和设计效率。
现确定各省(市、区)的样本量为1500~1400合格夫妻对,城乡各分配750~720夫妻对,为便于自加权处理样本,各市(县)、街道(乡镇)和居(村)委会都按等量分配样本,最后一阶每个居(村)委会抽样取25~30合格夫妻对。
1.3 抽样方法与操作
省(市、区)城乡层内第一阶用德宾方法抽取2个市(县)。 设层内有N个市(县),每个市(县)的人口数为Mi(i=1,2,…N)。 在抽样操作时所使用的参数列表如下:
表1 抽样参数
抽样操作时,首先计算z[,i]和Z[,i]列,发生第一个〔0,1〕中的随机数α[,1],若Z[,K-1]<α[,1]≤Z[,K],则第K个单位被抽中,这是按概率z[,i]抽取的第一个样本单位市(县)。然后计算表内x[,i];列及D值与X[,i]列, 发生第二个〔0,1〕中的随机数α[,2],若X[,L-1]<α[,2]≤X[,L],则第L个单位被抽中,这时第二个单位抽中的概率与x[,i]成比例,并且比例除数为D。
上述方法中要求,为保证这一点, 在某些省份一个城市人口大于层内总人口的一半时,将城市分为若干区,以区为抽样单位参加抽样。
用德宾方法抽取二个样本单位时,任一单位i第一次被抽中和第二次被抽中的无条件概率均等于z[,i],因此,单位i 被抽中(第一次抽中或第二次抽中)的概率π[,i]为
π[,I]=2z[,i]
(2)
而样本包含i、j两个单位(不计抽中的顺序)的概率π[,ij]为
其中D见公式(1)。
以上公式(1)、(2)、(3)将在目标量估计时使用。
第二、三阶采用放回的与人口数成比例的不等概率(PPS )方法抽取街道(乡镇)、居(村)委会。
第四阶居(村)委会抽取样本户的等距抽样,PPS 方法与等距抽样方法从略。
2.目标量的估计及其方差估计
2.1 目标量
本次调查问卷的变量绝大多数是分类变量即定性变量,因此在进行数据汇总时绝大多数的指标是总体比例型的目标量,如合格夫妻对占总体的比例、合格夫妻对或妻子、丈夫的某种特征分类在合格夫妻对中所占的比例等。在计算精度和设计效应时,我们只选择丈夫、妻子的年龄、文化分布及合格夫妻对的家庭人均月收入分布指标做分析,以提供对抽样方案和抽样结果做出评估的定量依据。
2.2 记号
为给出目标量的估计方法,首先介绍本文中所使用的记号的意义。
使用英文字母如y,P…等表示指标量。大写字母为总体指标量,小写字母为样本指标量,字母上有∧符号的为估计量。字母下标编号表示某一层次的指标值(或估计值),无下标的字母表示省(市、区)的指标量(或估计值)。M——人口数;L——户数;n——样本数;H——合格夫妻对数。下标编号有:
无下标——省(市、区)城(乡);h——层编号;i——层内市(县)编号;j——市(县)内街道(乡镇)编号;k——街道(乡镇)内居(村)委会编号。
如某省h层i市的人口数表示为M[,kj]。在做层内分析时,有时省略h 编号。
2.3 市(县)的目标量估计及其方差估计
根据抽样方案,市(县)内抽取街道(乡镇)和下一阶抽取居(村)委会均采用放回PPS方法。
在进行第一重抽样时,对居(村)委会整群调查合格夫妻对的比例,若居(村)委会的人口规模差别不大,则样本可看作近似自加权的,这样市(县)合格夫妻对的比例估计量为
在第二重抽样时,我们是在合格夫妻对中抽取样本户,合格夫妻对中分类比例是以合格夫妻对为总体的比例型估计量。
在多阶PPS抽样中只要各阶等样本分配, 最后一阶抽样的样本量相等,则可保证最低一级样本单位被抽中的概率相等,从而获得的样本是自加权的。在第二重抽样时,第一、二、三阶都是以人口数为比例的概率抽取样本单位的,而最低一级样本户却是合格夫妻对,如为使每一对合格夫妻被抽中的概率相等,严格地讲,各居(村)委会中的样本户就不应是等样本分配的。我们为了计算和操作方便,不必(或无条件)在第一重样本抽样后计算出合格夫妻对各层次的比例估计,再以各层次合格夫妻对数为比例的概率进行第二重样本抽样。所以在此假设在同一市(县)内居(村)委会中合格夫妻对的比例是基本相同的,这样各居(村)委会等样本抽取合格夫妻对,合格夫妻对样本也就是近似自加权的。因而市(县)内合格夫妻对某种特征分类的比例估计近似为:
它的方差估计为:
现将上海、陕西、山东、广东、宁夏、吉林6 个省(市、区)做为推论总体,将各省(市、区)的估计用以上分层抽样公式加权求和,权数为各省合格夫妻对数与6省(市、区)合格夫妻对数之比,即计算出6省(市、区)调查的目标量估计与方差估计,从而可进一步计算总的调查指标的精度和设计效应。
3.目标量的精度与设计效应
本调查的调查方式是研究人员和受培训的调查员入户面访,因此问卷的回收率达100%,有效问卷99%以上, 并且问卷中绝大多数问题的回答率也在95%以上,所以在数据汇总和计算精度时将不考虑不回答因素的影响。
本调查是分层四阶不等概率的复杂抽样调查,不能直接使用简单随机抽样的精度公式,调查指标的实际精度必须按照上述所给出的公式,根据实际调查数据计算出方差而得。
在获得了各省(市、区)和6省(市、 区)的目标量估计的方差估计后,通过计算标准差:
设计效应deff是另一个用来衡量复杂抽样的设计效率的量。它是复杂抽样的实际方差与在相同样本下采用简单随机抽样时方差的比值。它反应了在复杂抽样时设计方法不同引起的样本量的效率的不同,而样本效率直接与调查成本相关。因此设计效应是评价设计方案优劣的重要指标之一。
经过以上公式计算,6个省(市、区)的合格夫妻对比例以及6省(市、区)总体夫妻年龄、文化分布和家庭人均月收入分布的精度和设计效应列表如下:
表2 6省(市、区)合格夫妻对占总人口的比例的精度和设计效应
地区
分类总体 上海
陕西
山东
广东
宁夏
吉林
比例% 18.98 15.76 12.19 22.34 16.35 23.73 21.10
城市
精度% 96.95 90.65 92.31 95.88 91.06 92.39 94.42
设计效应 4.41
3.40
2.55
2.21
6.41
7.78
1.98
比例% 19.58 18.98 18.39 22.09 17.48 19.05 23.33
农村
精度% 96.85 92.92 88.64 97.55 92.41 93.00 91.50
设计效应 3.95
2.21
6.26
0.34
4.40
4.94 5.64
注:本文中所指的精度均在95%置信水平下计算的结果。
表3 6省(市、区)合格夫妻对夫妻年龄分布及其精度和设计效应
地区
分类20~24 25~29 30~34 35~39 40~44 45~49 50~54 55+
比例% 1.51
14.30
19.07
23.16 15.43
11.848.735.96
城市 精度% 65.68 85.92
93.43
92.72 90.26
84.24
85.50
82.70
(丈夫) 设计效应2.123.881.191.87
2.033.192.362.22
城市 比例% 4.12
17.02
20.83
23.10
15.97 11.057.82
(妻子)精度% 74.88 91.95
92.49
95.41
85.76 85.04
85.62
设计效应3.25
1.561.740.744.52
3.261.91
农村 比例% 5.47 19.18
17.56
20.54
16.90 10.716.123.52
(丈夫)精度% 73.45 91.73
90.56
93.07
88.47 86.65
71.92
79.90
设计效应4.80
1.912.231.463.18
2.516.051.73
农村 比例% 8.12 20.34
19.50
20.58
16.62
9.725.12
(妻子)精度% 86.95 90.72
91.60
87.52
90.57 80.25
73.16
设计效应1.77
2.592.014.752.09
4.944.18
表4 6省(市、区)合格夫妻对夫妻文化程度分布及其精度和设计效应
地区 分类 文盲 识字不多 小学
初中高中
中专
大专大专以上
比例% 0.300.284.73
29.23
22.36
15.21 18.349.55
城市 精度% 7.87
45.5264.70 83.99
91.57
80.32 85.08
71.16
(丈夫) 设计效应
3.001.097.26
12.412.408.15
5.86
10.33
城市 比例% 0.711.358.32
33.25
26.14
16.16 10.263.81
(妻子)精度%
70.42
66.7473.31 86.34
91.78
84.38 74.85
57.04
设计效应
0.731.787.58
10.912.815.51
8.488.57
农村 比例% 3.984.8032.62 42.19
14.601.37
0.350.09
(丈夫)精度%
54.23
70.5887.77 91.68
86.49
72.91 15.06 -
设计效应 10.225.148.525.943.671.20
2.983.19
农村 比例%24.00
12.5727.90 20.617.550.41
0.830.21
(妻子)
精度%73.87
82.4689.26 85.54
75.89 - - -
设计效应 25.385.215.258.92
5.595.99
31.353.27
注: “-”为精度极差。
表5
6省(市、 区)合格夫妻对家庭人均月收入分布及其精度和设计效应
地区 分类 ≤50 51~100
101~200 201~300
301~400
>400
比例% 3.17
29.79 37.23
18.37 10.56 0.87
城市 精度%71.06
88.28 91.25
88.50 49.34
-
设计效应3.226.83 5.333.49 35.54 114.22
农村 比例%44.72
53.95 13.264.72
2.91 0.43
精度%78.46
80.27 77.24
75.18 80.83 47.37
设计效应 44.18
23.54 9.323.59
1.30 1.41
注: “-”为精度极差。
精度和设计效应这两个评价抽样质量的指标都与样本量、设计方法和样本方差(即指标量实际方差的无偏估计)这三个因素有关。在设计方法相同的情况下,精度这个指标对于样本量较敏感,而设计效应对最高一阶样本单位间的方差较敏感。也就是说,在同一个抽样方案下,某种特征分类的比例估计高,其相应的精度就高,指标精度不满足要求可增加样本量,或将低精度的指标分类与相近特征的分类合并加以解决。如设计效应不满足要求,这主要是样本单位间的差别大所致。由于样本单位间的差别是客观情况的反映,要减少设计效应就要重新选择设计方法,或运用分层分阶的技巧改进样本构成和组织形式。
表2的数据表明,推论总体6省(市、区)合格夫妻对比例的精度城市为96.95%,农村为96.85%,设计效应城市为4.41,农村为3.95。各省(市、区)合格夫妻对比例的精度城乡均超过90%。设计效应在2 ~7之间,各省(市、区)有所差别。城市中广东、 宁夏的设计效应较高,这是由于对居委会做整群抽样,广东、宁夏的居委会人口数较多,样本量大,使得相应简单随机的方差相对小而引起的。农村中陕西、吉林的设计效应较高,山东较低,经从数据中查明这是样本单位间方差的大小引起的。
表3、4、5的数据表明, 总体合格夫妻对的指标分布的精度和设计效应在各分组指标中是不同的。为便于在同一样本量水平下进行比较,我们以百分比频率等于10%、设计效应等于3 为准来比较各指标分组的情况。表3数据城乡夫妻年龄分布分组指标值在10%以上的精度在85~93%之间,分组指标中有63%的设计效应小于3;表4数据城乡夫妻文化程度分布分组指标值在10%以上的精度在75~90 %之间, 分组指标中有22%的设计效应小于3,表5数据城乡家庭人均月收入分布分组指标值在10%以上的精度在44~90%,只有两个分组指标的设计效应小于3。 这说明,本调查的年龄分布抽样效果最好,文化程度次之,家庭人均月收入的抽样效果最差。这是因为在我们的抽样方法中,样本是按人口规模分层,并按人口数比例的概率抽取的,样本单位之间年龄分布的差别较小,设计效应就小,而其它指标,如家庭人均月收入的差别就可能大,设计效应就增大。如果我们改变抽样方法,如以收入分层,并按收入多少成比例的概率抽样,那么必然能改进收入指标分布的抽样效果。这就要由调查的研究目的和要求来决定。
“妇女调查”是一个综合性的指标较为广泛的抽样调查,在样本量不能十分充分的情况下,不能使每一个指标的抽样效果都令人满意,我们给出以上三种指标分布的精度和设计效应,即给出本调查中指标抽样效果较佳,一般、较差的范围。
标签:概率抽样论文; 样本方差论文; 抽样分布论文; 总体方差论文; 概率计算论文; 概率分布论文; 抽样调查论文; 统计学论文;