政治学抽样调查中的“无应答”分布与影响,本文主要内容关键词为:政治学论文,无应答论文,调查中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]DO [文献标识码]A [文章编号]1672-7320(2008)02-0225-07
一、问题的提出
中国政治学抽样调查在逐渐发展的同时,也出现了较高比例的无应答问题,而高比例的无应答可能导致总体参数估计的偏差(Estimates Bias)[1](第535-536页)[2](第178-179页)[3](第60页)。这里所说的无回答是指在抽样调查的数据采集过程中,由于各种原因而无法获得某个样本的任何一项回答或者无法获得样本对某个或某些个问题的回答的情况,前者称为单元无应答(unit nonresponse),后者称为选项无应答(item nonresponse)[4](第7,12页),包括“不知道”、“拒绝回答”、“没有答案”、“没有观点”等多种情况。
无应答问题对任何学科或任何形式的抽样调查都是一大挑战。目前,在社会科学抽样调查领域内,如心理学、教育学、社会学、政治学、市场研究等,关注无应答问题的研究越来越多,以美国著名的社会调查刊物The Public Opinion Quarterly为例,在1990-1994年间和1995-1999年间,专门研究无应答问题的文章分别占全部文章①的13%和15%,到了2000-2004年间,这方面的文章占18%。研究无应答问题在社会科学调查领域内已经成为一项重要的课题。
中国政治学自20世纪80年代恢复之后,开始逐渐应用经验研究方法来探讨中国政治发展过程中的理论和实践问题。1990年以来,已经公开发表研究成果的、研究中国政治问题的、入户问卷面访式的概率抽样调查就有20多项。那么,中国政治学概率抽样调查中的无应答分布情况如何?它们都表现出哪些特点?它们是否已经达到不容忽视的水平?是否可能引起估计偏差?这些问题对于更精确地运用实证研究方法研究中国政治和政治学理论问题非常重要。因此,本文将关注焦点集中在探讨中国政治学抽样调查中的无应答分布上面,以期为读者提供一个概览。
二、中国政治学抽样调查简况
本文将国外政治学期刊、中国学期刊、民意和社会调查期刊、国内社会科学核心期刊以及这几方面的学术著作纳入数据采集的范围,按照“中国”、“政治”或“政策”或“政府”、“调查”或“数据”等关键词进行全面搜索,并且对已经搜索到的相关研究中的参考文献进行“滚雪球式”的搜索查阅,多方位地采集关于研究中国政治的抽样调查信息。结果搜索到了20项已经公开发表研究成果的政治学概率抽样调查(请参见表1)。这些抽样调查的主题主要分布在政治体制改革研究、政治参与研究(包括参与意识、参与行为)、乡村选举研究、政治文化研究(包括政治态度、政治价值观研究等)和政治精英流动等方面。
三、无应答的增长趋势和分布状况
在前文所列举的概率抽样调查中,单元无应答和选项无应答的比例均呈现出逐渐增长的趋势。在单元无应答方面,1990年史天健教授主持的政治行为调查的无应答率为9%,但是到了2000年,“世界价值观调查——中国部分”的无应答率已经达到25%,2003年北京大学中国国情研究中心实施的“全国公民思想道德观念调查”(政治学论题为主),以及2004年实施的关于平等与公正问题的一项全国研究的无应答率均在20%左右。不仅如此,在城市范围内的研究中,无应答的比例增长更快,北京大学中国国情研究中心立项的“北京社会经济发展年度调查”的无应答率从1995年的14%增加到2000年的25%,到了2004年已经增加到30%(请参见表2)。
在选项无应答方面,许多态度型测量指标的无应答比例也有比较明显的增长趋势。“世界价值观调查”中,1990、1995、2000年三波调查中都包含的相同变量有114个,排除其中的关于受访人年龄、性别、职业等人口学变量,剩余95个变量中,有74个变量的无应答率在每一波调查中都有所增长。1995年和1990年相比,这95个变量的无应答率平均增长幅度为1.6%,2000年和1995年相比的增长幅度为3.2%。只有10个变量在1995年的无应答率低于1990年,有13个变量2000年的无应答率低于1995年。表3列举了一组政治学态度性问题的选项无应答率,可以看出,这几个变量的无应答率都有大幅度的增加。
在其他学者所进行的调查中,选项无应答率也在近几年居高不下。史天健教授主持的1990年政治行为调查和1993年政治文化和政治参与调查中,有一组关于政治参与意识的测量指标,其选项无应答比例都超过了5%。
此外,在1993年政治文化和政治参与调查中,有一个与世界价值观调查中的V126题目比较相似的关于测量人们对于限制私有经济态度的问题,其选项无应答的比例为15.8%[6](第551页)。其它一些关于政治学研究题目的无应答比例也比较高,例如:对于“国家像一部完整的大机器,个人不过是其中的一个螺丝钉,不应该追求独立地位”,回答“不知道”的比例为15.0%[6](第550页)。对于“一种言论或意见可以不可以在社会上流行应该由政府决定”,回答“不知道”的比例为23.2%[7](第68页)。
从以上的描述可以看出,选项无应答率不仅有明显增长的趋势,而且近些年,多数政治学态度性测量指标上已经达到了不可忽视的比例。
不仅如此,选项无应答的另外一种分布态势也足以引起学者们的重视,即有许多受访人会在一次调查中的多数题目上都回答“不知道”,如果说个别的变量上的无应答可能是特殊案例的话,那么对于多数题目都回答“不知道”则意味着更为严峻的问题。
以2004年全国公众价值观调查为例,该调查中涉及到政治学研究内容的非知识性态度型测量指标有58个,在这些指标中,平均的样本无应答百分比为18.09,标准差为6.96,而且有3/4的题目的样本无应答率超过了12.8%。在另外两项全国调查的涉及到政治学研究内容的非知识性态度型测量指标中,选项无应答比例也在大多数的题目上显示出较高的态势。(请参见表5)
四、选项无应答对统计推断的影响
一般而言,对于选项无应答,最简单的处理办法是忽略,但是选项无应答能否被忽略取决于以下因素:(1)无应答所占的比例,少量的无应答不会对样本均值产生较大的影响;(2)无应答样本是否是随机分布的,无应答者与回答者之间是否具有显著的差异。如果二者之间具有显著的差异,那么就不能将其简单地忽略。关于这方面的文献论述,在统计学领域非常丰富,为了便于理解,本文在此从社会科学的实例角度来对其做一简要说明。
笔者曾在《中国公民对民主政治体制态度的实证分析》一文中,针对美国学者Russell J.Dalton和Doh Chull Shin教授提出的“民主体制已经为大多数人所拥护,即使在中国这样的社会主义国家,尽管人们对民主的理解还很模糊,但是已经有96%的人赞成在中国实行民主政治体制”这一说法指出,“数据显示只有31%的人明确表明只赞成民主体制,较多的人(42%)既赞成民主体制也赞成非民主政治体制,此外还有15%的人对我国适合哪一种体制表示‘不知道’。……通过逻辑斯蒂回归分析发现,对我国适合哪一种政治体制表示‘不知道’与‘知道’的两类人群之间,至少在95%的置信水平上存在着显著的差异”[8](第38-43页)。由此可见,忽略无应答与不忽略无应答会得出不同的结论。
不仅如此,对于无应答的不同处理方式也会对参数估计产生不同的影响,甚至有可能获得相反的结果。以北京大学中国国情研究中心“2003年全国公民思想道德观念调查”为例,该调查中有一组测量人们对国家机构信任程度的题目:
D6、请问您在多大程度上信任下列机构和组织?您是非常信任、比较信任、不太信任,还是完全不信任?(逐项提问)
b、法院c、人民代表大会d、律师行业e、信访机关f、村委会/单位g、中国共产党
h、检察院i、政府部门j、工会k、新闻媒体l、妇联m、公安机关
受访人对这组题目的回答情况如表6所示,其中5个变量中的“不知道”所占的百分比都超过了10%。笔者选择了三种方法来对这组变量中的“不知道”进行处理:(1)将“不知道”直接作为缺损值而忽略;(2)将“不知道”假设为一种中立的态度,即既不表示信任也不表示不信任,也就是将“非常信任”、“比较信任”、“不太信任”、“完全不信任”分别再编码为2,1,-1,-2,将“不知道”编码为“0”,“没回答”定义为缺损值;(3)将“不知道”按照每个变量的均值进行赋值,即选择SPSS软件中相应功能菜单自动将这些“不知道”赋以均值。
由于这组变量在设计之初就是用来建立“机构信任”的指标系统的,经过因子分析表明该组变量具有共同的公因子,按照三种处理“不知道”的方法所得到的新变量组的公因子方差贡献率分别为50.8%、46.5%和44.9%,也经过了信度检验,可以加总建立指标(index)③。加总之后获得的三个变量的基本描述情况请参见表6。
接下来,为了检验不同教育水平的人群在机构信任方面是否存在显著的差异,本文将这三种指标分别和教育水平做一元单因素方差分析(One way-ANOVA)检验。结果发现,不同教育水平的人在按照第1种方法置备而得的机构信任指标上表现出了显著的差异(p<0.01),但是不同教育水平的人在按照第2种方法置备而得的机构信任指标上却没有表现出显著的差异(p>0.05),而教育水平与第3种方法而得的指标之间又表现出了显著的关系(p<0.001)。我们暂时无法判断哪一种做法更加合理,但是,有一点可以说明,即对于选项无应答,尤其是对于“不知道”的不同处理方法有可能导致完全不同的结论。因此,应该根据足够可靠的辅助信息,依据合理的假设对无应答数据慎重处理,方能避免由它而引起的有关估计偏差的困扰。
中国政治学抽样调查的实践正在逐渐展开,在这个过程中,学者们有很大可能面临较高比例的无应答问题。虽然当前有越来越多的方法可以将无应答数据进行处理,例如:当前比较常用的插补(imputation)方法中就包括随机插补、推理插补、均值插补、比率/回归插补、热平台插补和冷平台插补、多重插补等多种方法[9](第46-47页)[10](第28页)。但是,这些方法的使用必须借助足够的、高质量的辅助信息。所谓高质量的辅助信息,主要包括那些能够为研究者分辨出回答者和无应答者特征、分辨出无应答与研究变量之间关系,以及无应答与实施程序、采访工具的关系等方面的信息。只有借助这些信息的作用,才能使统计上的先进手段发挥出良好的效果,如果调查的设计者们在实施采访的过程中,根本就没有采集到足够的信息的话,再高明的统计学家也会面临无米之炊的困境,而在信息不足的情况下所作出的估计也不可能做到无偏差。不仅如此,一些统计学家们也指出,任何一种处理无应答的方法均有可能起到反作用,也会增加误差。因此,保证数据质量的关键是从根本上降低无应答。
总的来说,当了解到政治学抽样调查中的无应答比例已经持高不下,并且有可能引起参数估计偏差之后,就不能再对这些数据简单忽略。为了更好地解决无应答问题,事先了解无应答样本的分布特征和成因④是首要的,只有这样才能在调查设计阶段就制定相应的采访实施方案,以尽量减少无应答,并且设计出需要采集的辅助信息,为后期的数据分析和科学研究打下坚实基础。
收稿日期:2007-07-23
注释:
①文章总数不包括该刊物中的“The Polls”、"Book Reviews"、“In Memoriam”三个栏目中的文章,2000-2004年文章总数为100篇,1995-1999年文章总数为96篇,1990-1994年文章总数为130篇。
②由于篇幅限制,表1未列举参考文献的具体名称,有需要者可直接与作者联系。
③按照三种处理“不知道”的方法所进行的信度检验的alpha值分别为0.91,0.90,0.88。
④关于选项无应答的分布及原因可参见严洁:《项目无回答的成因与降低其水平的途径》,载《华中师范大学学报(人文社会科学版)》2006年第45卷第6期,第58-63页。