我国公民权利意识抽样调查方案的设计_样本均值的抽样分布论文

我国公民权利意识的抽样调查方案设计，本文主要内容关键词为：公民权利论文,抽样调查论文,意识论文,我国论文,方案论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

0 引言

随着改革开放的不断深入和社会主义市场经济的逐步完善，人们的生活水平发生了翻天覆地的变化。生活水平的不断提高，不仅促进了我国社会物质文明的现代化发展，也极大地推动了精神文明的现代化建设。在诸多观念更新方面，公民权利意识的认识也发生了很大的变化，总体上看，公民的权利意识有了明显地提高，不少公民对自身享有的社会权力和相应利益有了比较清晰地认识，然而也有部分公民权利意识淡薄，不清楚自己有什么权利和怎么维护自己的权利。

为了全面、准确地掌握我国公民权力意识的认知、公民对现有生活的满意度、对公共管理的评价等，分析影响公民权利意识的因素，本研究通过借鉴已有关于我国居民使用互联网抽样方案[1]、居民吸烟抽样调查方案[2]，试图设计一个能够满足各子总体、各区域共同使用的抽样方案。

1 抽样方案设计的基本思路

本研究抽样方案设计遵守概率抽样的原则，同时为了提高估计的效率，将抽样总体进行分层，采用pps与等概率相结合的多阶段、多个抽样框的抽样设计。

1.1 调查对象的界定

本研究的调查内容主要涉及到权利认知、权利行为、权利评价、权利期待、权利教育等多个方面，通过这些方面的调查，掌握我国公民权利意识的现状和分析影响权利意识的因素，需要估计两类目标量。一类是各种比例，比如对权利意识有比较清楚认识的人所占的比例，对权利意识评价较低的人所占的比例等。另一类是各种均值，比如对公共管理评价的平均得分等。考虑到公民具有一定权利意识是要具备一定的行为能力，因此本研究的调查对象界定为“全国所有18周岁以上、在本地居住或者预期居住半年以上的具有完全行为能力的公民，家庭户的界定不以户口为标准”。

1.2 初级单元抽样框的确定与划分

考虑到我国公民的教育水平不同，首先将调查总体分为两个子总体：大学生子总体和居民家庭子总体（不包括大学生）。大学生文化程度高、思考能力强、对权利意识的认知能力你强。因此单独列为一个总体进行调查。再考虑到我国各地区经济、文化、意识形态不同，为使得抽样设计有更高的效率，将我国31个省、直辖市、自治区进行适当的划分，在划分的各个抽样框内根据具体情况，采用不同的初级抽样单元。

对于大学生子总体，采用分层、三阶段pps与等概率相结合的抽样。初级单元抽样框为2011年统计的全国普通高等教育学校（不含成人高等学校和民办的其他高等教育机构），共2683所。

对于居民家庭子总体，也采用分层、三阶段pps与等概率相结合的抽样。根据我国各地区的经济状况、文化程度、行政划分，将我国的31个省、直辖市、自治区的初级抽样单元划分为4个抽样框。

抽样框1：北京、上海、天津；

抽样框2：江苏、浙江、广东、山东、福建、辽宁、湖南、湖北；

抽样框3：黑龙江、吉林、山西、河南、河北、安徽、江西、海南；

抽样框4：内蒙、四川、重庆、广西、云南、贵州、陕西、甘肃、青海、宁夏、西藏、新疆。

抽样框1中的3个直辖市属于经济高度发达地区，文化水平普遍较高，居民认知能力强。2011年中国省市文化产业发展指数统计数据显示，北京、上海、天津的省市文化产业综合指数分别为79.8、79.2、78.2分，依次占据了前三名，影响力指数方面，上海为84.4分，排名第一，北京为80.8分，排名第三，天津为78.5分，排名第五，从居民生活水平来看，这三个地区的居民生活水平都比较高，2011年北京和上海人均消费性支出都超过了2万元，天津1.8万多元，都处于全国领先水平。考虑到这些因素，加上这3个地区属于大都市的代表，因此单独划为一层。由于城市的特点以及多阶段抽样各阶段样本的要求，抽样框1以街道和乡镇为初级抽样单元。

其他3个抽样框的划分主要也是以经济状况、居民的受教育程度为依据。抽样框2中的几个地区也属于发达地区，从综合实力看，仅次于北京和上海，居民生活质量、文化水平都比较高；抽样框3中的几个地区属于中等发达地区，经济实力一般，居民生活位于全国中等和中下水平，居民受教育程度也处于中下水平；抽样框4中的几个地区属于落后地区，经济、文化、教育都比较落后。

需要说明的是重庆虽然属于直辖市，但是经济状况还是比较一般，2011年人均消费性支出为1.3万多元，和甘肃、云南等地的消费水平差不了多少，另外2011年重庆文化产业综合指数仅为16.29排名第17，和抽样框4中的其他地区比较相似，因此划分到抽样框4中。

1.3 抽样框的分层

对于大学生子总体，根据其具有的培养学生的资格划分为含有研究生教育资格的、含有本科培养资格的和含有专科培养资格的三类，由于有些学校既有研究生教育、也有本科和专科教育，有些学校只含有研究生教育或者专科教育，为了抽样的方便，这里把高校中不同学历教育分开，划分为不同的层次，比如一个高校中同时具有研究生、本科、专科三个层次的教育资格，则这个高校的初级抽样单元就变为3个。因此将初级抽样单元改称为学历培养机构，简称为培养机构。

根据国家统计局公布的数据，2011年全国研究生培养机构755所，本科生培养机构1129所，专科生培养机构1280所。初级抽样单元按照学历层次划分为3层。

对于居民家庭子总体的四个抽样框，对每个抽样框都进行分层。抽样框1中，四个地区都是直辖市，直接分为街道层和乡镇层，这样样本分布广泛、可操作性强，而如果以区县为初级抽样单元，就会使得由于样本单元较少造成样本分布相对集中，样本的随机性不强，从而降低抽样估计的精度。其他三个抽样框先将初级抽样单元划分为区层和县层，其中区层包含市辖区和县级市。

抽样框1中，初级抽样单元为街道和乡，根据《中国统计年鉴2012》，共有775个初级单元；在其他三个抽样框中，区县为初级抽样单元，共有2750个初级单元；其中，抽样框二包含864个初级单元；抽样框三包含863个初级单元；抽样框四包含1023个初级抽样单元。这样，四个抽样框共有3525个初级单元，被分为10个小层，具体结果见表1。

1.4 抽样单元的确定与抽取方法

大学生子总体采用分层三阶段抽样的方法，按照各层学生人数的比重，确定各层抽取的学校数。

第一阶段抽取单元：培养机构，抽取样本单元时以学生人数作为辅助变量进行pps抽样；

第二阶段抽取单元：学院（系），抽取样本单元时进行随机抽取；

第三阶段抽取单元为学生，抽取样本单元时首先按照年级进行分层，然后根据学号等距抽取。

居民家庭子总体在各抽样框内也采用三阶段不等概率抽样

第一阶段抽样单元：区、县级市、县（抽样框一采用街道、乡镇），抽取样本单元时以人口规模作为辅助变量的系统pps抽样；

第二阶段抽样单元：居委会、村委会，抽取样本单元时以人口规模作为辅助变量的系统pps抽样；

第三阶段抽样单元：家庭户，抽取样本单元时根据编号等距抽取。

1.5 样本量的确定

大学生子总体中，样本量的确定以比例指标为主，先考虑在简单随机抽样下样本量的确定。设p为对权利认知比较明确的人所占的比例P的简单估计量。本次研究要求估计p时的最大允许绝对误差为0.05，置信度为95%，即

p（｜p-P）＜0.05=0.95

根据抽样理论在简单随机抽样下，所需要抽取的大学生

其中

=1.96是标准正态分布下双侧0.025的分位数，d=0.05是绝对误差，p（1-P）的最大值是当p=0.5时，计算得到简单随机抽样下保守的样本量为

根据理论分析和实际经验，三阶段pps抽样的设计效应大概是2左右[3]，因此在此抽样方案下，需要抽取的大学生数为9604×2=19208名。在本文中，抽取19296名。

居民家庭子总体中，最终抽样单元为住户，简单随机抽样下，设最大允许绝对误差和置信度与大学生子总体中抽样相同，可以计算出在简单随机抽样下需要抽取的家庭户为9604户。在抽取住户时，也采取三阶段不等概率抽样，取设计效应也为2，因此取最终需要抽取的住户也为20000户。

1.6 样本量的分配

大学生子总体中，确定在全国抽取201所培养机构，每所培养机构调查96名学生。为提高抽样精度，在第一阶段抽取培养机构时，按照各层的人数进行pps抽样，每层的培养机构数量不同，因此每层的样本量也不等。最终研究生培养机构抽取了14所，本科生培养机构抽取了110所，专科生培养机构抽取了77所；第二阶段抽取学院（系）时，每个培养机构抽取8个学院（系）；第三阶段抽取学生时，每个学院（系）抽取12个学生，每个年级抽取相同的学生人数。

居民家庭子总体中，需要抽取20000户居民，入选的家庭中年满18周岁以上、在本地居住或者预期居住半年以上的公民都要进行调查。

在抽样框1中，3个城市都属于特大城市，为了满足对特定区域层的目标估计，首先确定直辖市层抽样框1的最终样本单元量为2000户，在抽样框1中，在每个抽中的街道（乡镇）抽取2个居委会（村委会），然后再抽中的每个居委会（村委会）抽取10个家庭户，计算出抽样框1需要抽样100个街道（乡镇）。

在抽样框2、3、4中，最终抽取的住户为18000户，在每个抽样框中，按照各个抽样框中的人口数量按比例分配最终样本单元。本文根据《中国统计年鉴2012》中2011年各地区的人口资料计算出各个抽样框最终抽取家庭户数。最终计算出抽样框2抽取7500户，抽样框3抽取4600户，抽样框4需要抽取5900户。

在每个抽中的区县中抽取5个居委会（村委会），每个抽中的居委会（村委会）中抽取10个家庭户，结合最终各个抽样框中的样本单元数，计算出抽样框2需要抽取150个初级单元，抽样框3需要抽取92个初级单元，抽样框4需要抽取118个初级单元，加上抽样框1，总共抽取了460个初级抽样单元。各阶段的抽取样本单元数如表3所示。

1.7 样本的追加

样本追加策略的主要思想是按某种特定的概率抽样，从总体中抽取基本样本对总体（以及作为子总体的层，如果进行分层抽样的话）进行估计；但对于特定的域，因为基本样本落入该域中的单元并不能保证对该域有代表性（特殊情况除外），因此不能直接对域的目标量进行推断。为此，在域内再按某种方法抽取部分单元作为追加样本，和域中的基本样本联合，来对域的目标量进行推断[4]。

判断样本是否追加，主要看在多阶段抽样中，较高层次的抽样设计，落入低层次的样本量能否满足其推断的精度要求，如果不满足就需要追加。比如在一项全国性的大型抽样调查设计中，按照某种抽样设计，第一阶段抽取区县，但是抽取的区县落入到各省的情况并不一样，或者说各个省抽取的样本量数量、比例可能不等，有些省抽取的比较少，这时候如果要估计该省的情况，就需要追加样本，提高估计精度。

本研究采取不放回样本追加，追加样本抽样方案与总体的抽样方案保持一致，各阶段抽样单元、抽样方法与总体的设计方案一致。在追加的过程中，如果初级抽样单元重复抽中，则该初级抽样单元中需要抽中的二级样本单元翻番。

每个阶段样本量追加多少合适，这要根据实际情况来确定。限于篇幅，这里直接给出在不放回追加情况下总样本量为常数的情况。

对于大学生子总体，追加方案在对培养结构分层的基础上，采用分层三阶段不等概率抽取。对于抽样框1中的三个城市，追加方案中在对街道、乡镇进行分层的基础上，采用分层三阶段不等概率抽样；对于抽样框2、3、4中的地区，追加方案在对区（县）分层的基础上，采用分层三阶段不等概率抽取。

2 居民家庭子总体具体的抽样设计

2.1 抽样框1的样本抽取

在抽样框1中的3个直辖市中，非农业人口和农业人口的比例是3:1，因此抽取100个初级单元时，抽取75个街道和25个乡镇。

在街道（乡镇）层内将三个直辖市的街道（乡镇）先按所属直辖市北京、天津、上海的顺序排列，同一直辖市内按街道（乡镇）所属区县邮编排列，同一区县内按街道（乡镇）的自然顺序排列。在街道层和乡镇层内分别采用与各个街道、乡镇人口规模成比例的PPS抽样方法抽取75个街道和25个乡镇，具体抽取可以采取拉希里二次抽取法。在每个入选的街道（乡镇）内采用与居委会（村委会）人口规模成比例的PPS抽样抽取2个居委会（村委会），具体实施与第一阶段相似，先对各区（县）内的村委会编号，可以利用计算机产生随机数的方法编号，然后采用拉希里二次抽取法进行。

抽取住户时，首先清点居委会（村委会）辖区内的住户，并按照门牌号进行排列编号。在每个抽中的居委会或村委会内对家庭户的抽样采用随机起点的系统抽样抽取10户。

2.2 抽样框2、3、4的样本抽取

抽样框2、3、4中的初级单元都分成区层和县层，三个抽样框中共抽取360个初级抽样单元。在每个抽样框的区（县）层内，将所有初级抽样单元按照人均收入由低到高排序，然后采用与区（县）人口规模成比例的系统pps抽样抽取初级样本单元。

在区（县）抽取之后，抽取二级单元和最终单元时，抽样方法和过程和抽样框1中抽取样本单元类似。在入选的区（县）内，分别采用与各居委会（村委会）人口成比例的系统pps抽取5个居委会或村委会。在实际的抽取过程中，区层多抽取居委会，县层多抽取村委会。抽取住户时，也是对每个抽中的居委会或村委会内对家庭户的抽样采用随机起点的系统抽样抽取10户。

2.3 最终各抽样框各阶段样本单元的构成

抽样框1中共抽取100个初级单元，其中街道75个，乡镇25个；200个居委会（村委会），2000个住户。

抽样框2中共抽取150个初级单元，其中区层75个，县层51个；750个居委会（村委会），7500个住户。

抽样框3中共抽取92个初级单元，其中区层54个，县层72个；460个居委会（村委会），4600个住户。

抽样框4共抽取118个初级单元，其中区层39个，县层69个；590个居委会（村委会），5900个住户。

3 缺失数据的处理

在实际的调查中，无论是大学生子总体还是居民家庭子总体，由于各种主观原因或者是客观原因，都会出现一些单元无回答或者项目无回答的现象，首先要考虑追加调查，如果追加调查后，有些单元还存在缺失，就要考虑调整估计量。对此，本文中主要采取插补和加权的措施来调整估计量。

3.1 插补

插补方法是处理缺失数据的一种常用的技术方法，主要用于处理由于项目无回答造成的缺失数据。插补方法有很多种，根据确定插补值时是否使用辅助变量，分为使用辅助变量的插补方法和不适用辅助变量的插补方法。

插补方法的本文中如果没有辅助变量可以使用，对于单元无回答使用中位数插补，如果有可利用的辅助变量，根据具体情况考虑使用比率插补、回答概率插补双重稳健插补等。

3.2 加权