虚拟情景锚定法如何提高问卷调查的可比性
——以公民诉求影响力的测度与分析为例
李 锋
(中共中央党校 政治和法律教研部,北京 100089)
【摘 要】 问卷调查作为社会调查中收集资料的重要手段,利用标准化的问卷形式,对多个对象进行调查分析,并进而在调查结果基础上进行定量研究。然而,由于不同的受访者对于标准化的问卷理解上可能不同,会造成针对同一问题的“人际不可比”。为了解决该问题,学者从设立虚拟情境和设定锚定两个方面加以改进。在此基础上,学者研究开发了虚拟情景锚定法,并被广泛应用于医疗领域和社会科学等范围。本文以公民诉求影响力为例,细致呈现了虚拟情境锚定法的设计和测量,并以实例呈现了虚拟情景锚定法的操作流程。结果显示,虚拟情境锚定法在测度上可以纠正人际不可比,在设计上可以利用虚拟情境测量公众在复杂问题上的态度与偏好。
【关键词】 虚拟情境锚定法;人际不可比;公民诉求影响力
自上世纪50年代以来,社会科学中发生了行为革命,越来越多的学者开始使用定量研究方法,在传统的规范性的研究方法之外,引入科学化、定量化的研究手段和方法。尽管在1969年戴维·伊斯顿在就职美国政治学会主席时曾经批评行为主义革命并反对过分热衷于定量分析,但是政治学中依赖个体主观的问卷研究方法仍不断发展。[1]大量政治学者开始通过大规模、科学抽样的问卷来研究政治心理、政治态度等,例如世界价值观调查(Word Value Survey)、东亚民主动态调查(Asian Barometer Survey)、欧洲社会调查(European Social Survey)等,在国内也有北京大学中国国情研究中心、北京大学中国社会科学调查中心、中国人民大学社会学系、北京师范大学中国收入分配研究院等机构开展全国性的问卷抽样调查。
在问卷调查方法中,抽样和调查是其中的重要问题。针对抽样的研究目前较为深入,许多的学者在调查中使用计算机辅助的多层随机抽样[2]等方式尽可能保证抽样的科学性。然而针对调查的问题,目前研究仍然不足,即表现为对于不同受访者对待客观题目的评价标准尺度问题。[3]
从设计思路来看,问卷调查作为一种标准化的问卷形式,试图通过分析不同受访者对于标准化问题的答案差异,例如根据受访者的人口学特征或者其他主观要素分析不同人群之间答案的差异,来建构不同要素之间的相关关系与因果机制。然而,从设计思路到实际操作中,问卷设计者面临着重要的逻辑跳跃,即不同的受访者面临着同样的答案未必具有理解上的一致性;其次,由于受访者的不同知识背景等,即便人们的理解一致,人们的标准也可能并不一致,这就导致不同的受访者之间存在着人际不可比的情况,即条目难度差异(differential item functioning,下文用DIF代替),也就是说不同受访者回答的“非常同意”“比较同意”的评判标注具有差异。针对理解上的不一致性,可以通过更加详细、更加精确的问题描述来解决,而针对条目难度差异(DIF)造成的人际不可比则对于主观评价类题目非常常见,而且一般难以解决。
一、对于人际不可比问题的传统解决办法与虚拟情境锚定法的引入
(一)传统上针对人际不可比问题的解决思路
为了解决问卷测量中的人际不可比性,学者提出了不同的建议和办法。其中之一为建立基准或者锚点。例如Cantril提出由受访者自己定义两级的锚点,如由受访者自己提出朋友之中最具有自由主义特点的朋友以及最具有保守主义特点的朋友,然后将自己放入自我定义的两极的一种。[4]Cantril提出的这种方法被广泛采用,研究者将其称之为“Cantril梯度法”,有学者用来测量自尊心、[5]青少年关系。[6]但是King指出这种方式确实可以降低不可比性,但是这种调查信度水平较低,而且并不会降低DIF。[7]Aldrich在测量普通选民对常见议题的态度时将总统候选人视为所有选民通用的参照物,因此可以用来调整选民相对于总统候选人的意识形态差异。然而这个办法高度依赖所有的候选人对候选人已经有着无偏差的认知和足够的政治知识,而且只可以解决单维的问题,并且没有办法解决无回答的情况。[8]Poole进一步改进了Aldrich的方法,使之可以解决无回答的题目及多维的问题,Poole的黑箱测量方法假定人们对特定问题存在与自报答案存在差异的真实答案,这个真实答案是自报答案的线性转换。因此,如果对受访者询问相同的锚定题目,配合上自报题目,研究者可以计算出线性变换的参数值。[9]
第二种办法则为建立虚拟情境的办法。在针对部分过于抽象和复杂的概念进行主观评价时,更容易出现由于理解上不一致而导致的人际间不可比。基于此,许多研究者会设计一个或多个虚拟情境让受访者更便于理解测量的概念。实际上,从20世纪50年代就开始,在社会科学中使用虚拟情境来辅助社会调查并广泛适用于人类学、社会学、心理学和经济学等。Fowers设计了十二个虚拟的临床情境,来观察不同性别的医生在这些虚拟情境中表现功利主义、传统的男子主义,还是女性主义。[10]针对传统心理研究采用李克特量表来测量幸福感带来的标尺不同的问题,Hsee和Tang提出设计不同的虚拟情境,如口渴时的水和一周阴雨后的阳光等虚拟情境,修正这种人际不可比性,通过分析发现此法能够减少虚假的金钱幸福负相关而保留真正的负相关情况。[11]通过这些虚拟的情境,人们便于进行社会实验,从不同程度的情境中看出人们态度的变化和意识形态的倾向。
除了建立锚点和虚拟情境的方法外,阿尔蒙德在进行跨国公民文化的比较中,也提出了利用非文字技术或者将抽象名词转换为具体词汇等手段降低跨国调查中的不等值问题;[12]还有些学者利用项目反应理论(IRT)的特殊类型Rasch模型来解决DIF的问题。[13]
(二)虚拟情景锚定法的提出
基于前人的研究成果,King在2004年改进了设定锚点的方法,并结合虚拟情境的设置,来确立多维的锚点,这个方法被称为虚拟情境锚定法(anchoring vignettes)。通过此法来直接测量个体的DIF并纠正。[7]与传统设立锚点的方式相比,通过虚拟情境的设置可以除去个人经验、生活情境等带来的测量误差。与传统的使用虚拟情境来生成随机变量,虚拟情境锚定法将虚拟情境作为受访者客观的、可以用来比较的标准,并将个人自报的答案与对虚拟情境的回答结合起来,得出对问题真实的、具备可比性的答案。
King将测量政治效能感作为案例介绍了此法。首先,受访者判断自身政治效能感。其次,设计者虚拟几个场景,其中虚构的人物分别做出一定行为,让受访者判断这种行为对政府的影响;通过比较两者可以纠正不同受访者的评判标准不一致的问题,由此得出纠正后的结论。正如图1所示,Alison、Jane、Moses代表着虚拟情境中不同的虚拟主角,分别代表着对政治效能感的从高到低,左侧的Self则代表着自己对自身政治效能感的评价。如果按照自我评价,Self1的政治效能感显然高于Self2。但是,如果按照虚拟情境进行调整,Self1认为自身的效能感高于Moses而低于Jane,Self2则认为自身的效能感高于Jane而低于Alison。因此如图中最右经过调整后的效能感示意图可知,Self2的效能感实际上高于Self1的政治效能感。
图1 不同受访者针对不同情境的反应
从数学化表达来说,如图2所示,j代表着不同的虚拟情境,i代表着受访者,Zij代表着受访者针对不同虚拟情境的评价。C则是经过虚拟情境调整后的真实态度。
2.信息共享是系统发展的趋势。通过信息共享打破资源孤岛僵局,同时通过跨管辖区域、跨交通模式的部署和管理达到信息资源的无缝衔接,这是智能交通管理系统发展的必然趋势。
图2 虚拟情景锚定法的数学表达
如果将此图套用至上文的图表中,我们可以得出低于Moses效能感为1,等于Moses效能感为2,以此类推,最高的效能感为高于Alison,效能感为7。经过调整后,显然Self1的真实效能感为3,Self2的真实效能感为5。
因此,调整后的政治效能感依赖于受访者对于不同的虚拟情境的评价并且将自身放置于这样的评价指标之内,由此受访者对虚拟情境的评价就是基准,受访者对不同情境的答案差异就“锚定”了受访者的真实态度,由此使得不同的受访者之间对待抽象概念有着更为具体的理解,确保受访者的评价标准更为统一。刘小青在文章中将其比作“尺子”,认为锚定后的评价尺子的刻度更一致。[3]
小学数学教学是学生踏上学习数学之路的开始,所有的学习都是为了给未来更深入的数学学习打基础。数学的发展历史悠久,从阿拉伯数字产生到后来的各种定律公式都是前人不断探索的结果。培养学生的核心素养,一是为了激发学生学习数学的兴趣,并且加深学生对数学世界的理解;二是需要学生明白学习数学最重要的就是主动寻找规律,清楚万变不离其宗的道理;三是培养学生独立思考和处理问题的能力,找到学习数学的正确方法。
这种虚拟情境锚定法建立在两个假设之上:第一,受访者在回答自评问题与虚拟情景问题时候的逻辑一致,即两者即便都有DIF,但是两者DIF一致(简称为回答逻辑一致性);第二,受访者对虚拟情境的反应与评价一致,即对虚拟情境的程度认知顺序符合客观情况(简称为虚拟情境认知一致性)。在King看来,在这两个条件下,在自我评价问题中,受访者回答的不同一方面受到实际水平不同的影响,另一方面则受到DIF的影响(随机测量误差);而在虚拟情境中,受访者的不同仅因为DIF的影响。所以,自我评价问题与虚拟情境共同使用可以让我们得出没有DIF的结果。在文章中,作者也发现虚拟情境锚定法的纠偏作用。通过对墨西哥三个省和中国两个省的观察,King发现在使用传统自测题目时候,超过50%的墨西哥人认为政治效能感非常低,而仅有不足30%的中国人认为政治效能感非常低;但是使用虚拟情境锚定法后,超过40%的中国人认为自己的政治效能感甚至低于虚拟情境中效能感最低的设置(保持沉默),而墨西哥人选择该值的不足20%。通过此法,两国评判标准差异的问题得以解决。
“素养”一词的含义比“知识”和“技能”更加宽广。“知识”与“技能”主要涉及具体学科领域的知识和基本技能,而素养是一个复杂的结构,其所涉及的内涵并非单一维度,而是多元维度的。核心素养不仅仅是知识技能,更重要的是正确的价值观念、必备的品格和关键能力。
从整体而言,利用虚拟情境锚定法可以结合自我锚定方法、虚拟情境方法的优点,有效降低DIF,各个方法的优缺点可见表1。
表1 虚拟情景锚定法与其他方法的对比分析
二、虚拟情境锚定法在多学科的应用
通过结合虚拟情境设定和锚定设定,能够为人际对比设定更为客观的锚定,大大减少了由于受访者标准不一致导致的DIF。此法一经问世,就吸引了许多学者进行分析和讨论。
(1)虚拟情景锚定法在医学的应用
太阳能电池板通过螺栓固定在垃圾箱顶盖,垃圾箱顶盖与顶盖的支撑柱焊接固定,顶盖的支撑柱与垃圾箱焊接固定。垃圾箱顶盖通过螺栓固定有红外传感器、单片机、窄带物联网通信模块。空气质量检测器、异味传感器与单片机电连接,单片机与窄带物联网通信模块电连接,窄带物联网通信模块通过无线信号与云端服务器连接,云端服务器通过无线信号与移动终端连接。太阳能电池板通过导线与蓄电池连接,蓄电池通过导线与单片机、红外传感器、空气质量检测器、异味传感器、窄带物联网通信模块电连接。
由于大量关于身体、心理健康的题目都是受访者的主观感受,受访者群体由于文化差异、自我因素等造成标准不统一更为常见,因此虚拟情境锚定法在医疗健康领域使用非常广泛。
Salomon等率先将此法应用于对健康的自我评价,作者在包括中国、斯里兰卡、巴基斯坦等六个国家针对了3012名成年人进行了个人健康的自我评估的问卷测试,然后在其中406名受访者进行了虚拟情境锚定的测试,具体来说包括10~15个虚拟情境,例如“保罗是一个每周可以跑20公里和打羽毛球的运动员”“玛丽是一个每周可以慢走两次,每次走4公里的人”“杰玛脑损伤,她不能动自己的嘴也不能笑,只能眨眼”等反映了人们健康状况的情境,受访者回答这些情境里面个体的健康程度。然后再询问自己认为自身的健康状况。根据受访者对于不同虚拟情境的回答和自陈回答的对比,结果显示老年人对于身体健康状况的判断更加“宽松”,发现中国受访者相比于斯里兰卡对于自身身体状况的判断更加“乐观”。因此,作者认为跨国间的主观健康状况认知需要使用虚拟情境锚定法来较准。[14]通过设定10~15个虚拟情境,问卷设计者可以更好地将自身的主观判断与这些情境中进行比较,使得结果更加准确。然而,大量虚拟情境的存在也使得受访者对于这些情境中体现的真实的“测量值”不一致的现象更为普遍,即可能存在违背虚拟情境锚定法“虚拟情境认知一致性”的假设。
使用相似的方法,中国家庭动态跟踪调查中也设计了相似的题目测量受访者对于自身健康情况的主观感知。但是,为了便于受访者的理解,设计者精简了虚拟情境,仅保留了两个虚拟情境来锚定自己的回答。其中之一为“孙军/李梅走路、跑步、活动四肢毫无问题,每周跑步两次,每次跑5公里;他/她不记得最近一年身体疼痛的时间,因为一年内都没有感受过疼痛。即使是在体力劳动后也不感到疼痛。您觉得他/她的身体如何?是非常健康,很健康,比较健康还是一般?”第二个情境则为“赵刚/王丽走200米的路毫无问题。但是走完1公里或者爬上几层楼后会觉得累。他/她的日常活动没问题,比如从市场上买菜归来。他/她每个月都有一次头痛。吃药之后会有所缓解。头痛时,他/她能够继续日常工作。您觉得赵刚/王丽的身体状况如何?”从以上的情境设计我们可知,问卷设计者希望精简虚拟情境,以便减少虚拟情境设计中设计者与受访者的“程度不一致”的现象。Chen和Meng使用中国家庭动态跟踪调查2012年的数据,并认为应该使用经过虚拟情境锚定后的“主观健康状况”与社会资本进行分析,来识别两者之间的关联。[15]
H22.刘娟/刘强所在的村/社区的低保户信息没有公开,刘娟/刘强觉得不公平。于是她/他在村里公开抗议,要求公开这个信息,村委会给出书面承诺解决。
(2)虚拟情境锚定法在政治学领域的应用
由于King在政治学领域使用虚拟情境锚定法,并开发了供学者使用的R包,方便研究者使用该方法,因此许多政治学者使用虚拟情景锚定法。
L eón将此法应用在测量人们对腐败的认识之上,传统上人们认为关于腐败认知的主观视角数据并不可信,包括透明国际使用的专家意见,所以大量的研究使用入户调查中的客观行为数据。作者使用虚拟情境锚定的方式试图对主观方面的数据进行纠偏,问卷中,作者设计一个情境“卡洛斯需要一个建筑许可证来建造一座房子。给发放许可证的公务员好处费是该地区公务员的重要收入来源。卡洛斯从来没有在不给公务员塞好处费的情况下拿到过建筑许可证”。此后,作者将虚拟情境设定后,要求受访者将自己放入虚拟情境内进行判断,“如果您是卡洛斯,您觉得给公务员塞好处费对得到建筑许可证有多重要”,作者认为不同国家的腐败情况会影响受访者对该问题的判断。通过对西班牙和智利两国进行配额调查,最终收集1600余份样本。数据结果发现尽管自测数据表明西班牙的腐败情况没有智利严重,但是智利民众对腐败的标准更严苛,因此如果贸然使用自测数据会带来认知误差。[18]
宋庆宇、乔天宇使用中国家庭动态跟踪调查2012年的数据来测量主观社会地位。在调查中,在访题“您在本地的社会地位?”后面有两道虚拟情境的访题:“陈先生/女士小学毕业,靠摆地摊生活,月入1000元。在您看来,这位陈先生/女士在本地的社会地位?”和“周先生/女士医科大学毕业后在本地行医,月入5000元。在您看来,这位周先生/女士在本地的社会地位?”作者发现如果利用自陈数据,甘肃省居民主观社会地位的平均水平高于上海市民,但是经过设置两个虚拟情境的较准,甘肃省的居民明显有高估自己社会地位的倾向。而且作者还发现在社会经济发展水平更高的上海,教育、职业等因素对于人们自身社会地位认知的影响更大。[19]
环境温湿度对烟草在制品在风送过程中含水率的变化有较大的影响,根据制丝生产环境温湿度分布和工艺流程特点,选择烘梗丝风选机、叶丝就地风选机和混合丝风送喂料机作为试验研究对象,对烟草在制品在风送设备前后的含水率变化进行试验测定。
从前文的例子可知,虚拟情境锚定法适合来测量具有复杂内涵同时有严重依赖于个体主观感知的概念,例如前文研究的“自身健康程度”“腐败程度感知”“主观社会地位”等。除了在医学领域、政治学领域的应用,虚拟情景锚定法在测量工作满意度、[20]公共卫生满意度、[21]繁文缛节、[22]环境政策评估等[23]多领域广泛使用。
目前,高职学生的英语阅读学习存在基础薄弱、词汇量少、语法概念模糊等问题。很多学生反映英语阅读学习中的难点主要体现在:词汇层面主要是词汇在不同语境中的词义辨析、不同词性的灵活运用;语法层面主要是语法知识的灵活运用及对于篇章整体含义的把握;及由于中西文化差异及相关文化背景知识的欠缺而造成阅读障碍及误读等阅读困难。
总之,虚拟情境锚定法已经取得一定的研究成果,然而目前的中文研究,除了部分学者外[26][3][27][19]仍旧不足。至于如何将虚拟情境测度的概念作为变量,如何设定虚拟情境等具体操作仍不多,不利于该方法在社会科学研究中的普及推广。本文希望在这些方面有所补充。
三、虚拟情景锚定法的设计——以公民诉求影响力为例
在前文中,笔者介绍了虚拟情境锚定法(anchoring vignettes)的方法原理及相关学者对该方法的应用。为了更好地了解该方法的应用,笔者在后文将更加直观地呈现该方法的设计及测度,以及具体应用及注意事项等。这两部分的具体分析将使用Wand和King等在R软件中开发的anchors软件包。[28]
(一)研究数据的介绍
笔者将使用2014年北京大学中国国情研究中心的媒体调查数据,整个数据库共有样本3747份,分为ABC三卷,在B卷和C卷中设计了虚拟情境的问题,通过虚拟出不同的场景,并让受访者与情境中人的反应进行对比,由此得出民众真实的诉求影响力的主观认知。今后的研究中,便于分析虚拟情境中的议题或者主体等因素是否影响受访者的回答。由于ABC三卷完全随机发放,经过平衡性检验可知,三类问卷中并不存在显著差异(见表2)。
表2 针对问卷发放随机性的平衡性检验
针对拿到B卷和C卷的受访者,我们设计了四个虚拟情境,其中包含不同的议题、政府不同的回应行为,此后让受访者判定在该情境中公民对于解决自身利益诉求的影响力。此外,B卷和C卷的受访者在虚拟情境中利益诉求时的政治主体(政府层级)也有差异。在B卷中,受访者被假定面向基层组织和领导反映,而在C卷中则被假定面向市政府和领导进行反映。具体情境如下:
(1)B卷情境:向基层组织诉求
H19.李娟/李强所在的村/社区正在拆迁,李娟/李强觉得自己得到的补偿数额不公平。于是她/他向村长抱怨,要求重新核定补偿数额,村长口头承诺解决。
H20.王娟/王强所在的村/社区正在拆迁,王娟/王强觉得自己得到的补偿数额不公平。于是她/他在村里公开抗议,要求重新核定补偿数额,村委会书面承诺解决。
H21.张娟/张强所在的村/社区的低保户信息没有公开,张娟/张强觉得不公平。于是她/他向村长抱怨,要求公开这个信息,村长口头承诺解决。
第二,不论是在B卷还是C卷,每一类问卷的四个情境中均包含不同的议题领域:低保户信息不公开与拆迁问题。将两者相比,后者显然涉及更重要的利益,而且更为重要的是,后者涉及更加个体的利益而前者代表着公共利益。
第二,“传承”概念并未过时,只是我们需要从实践的角度,将民俗事象在历史时间中的传承,理解为行动者实践的过程及变化轨迹。两者之间的根本差异,是将关注的对象从客体性的民俗事象,转变为历史社会互动中的实践主体。也正是在这一意义上,民俗学者对“传承”和“历史”的理解与历史学者(尤其是历史人类学者)发生了分歧:当历史学者将“传承”理解为由历史节点构成的单流向河流时,民俗学者把“传承”视为“过去”参与建构“现在”的方式,即过去已经被“日常化”了。[注]尹虎彬:《从“科学的民俗研究”到“实践的民俗学”》,《中央民族大学学报(哲学社会科学版)》2017年第3期。
许多学者在此后的研究中都发现,利用虚拟情境锚定后测量出来“真实”的主观态度,与直接的自陈态度具有差异,利用虚拟情景锚定法来较准测量,对减轻人际不可比具有重要意义。例如,Mojtabai直接比较美国与九个欧洲国家中老年的自陈抑郁状态,发现美国整体抑郁状态比欧洲九个国家更为严重。但是通过虚拟情境的调整,美国的抑郁状态比七个欧洲国家更好,仅次于法国和希腊。作者还认为文化上的这种差异不仅可以解释自我报告的抑郁状态,还可以解释其他精神疾病。[16]Zhang则发现,虚拟情境锚定法有助于较准不同性别之间的自陈健康状态的差别。[17]
(2)C卷情境:向市政府诉求
H19.张娟/张强所在的村/社区正在拆迁,张娟/张强觉得自己得到的补偿数额不公平。于是她/他联系市政府有关部门,要求重新核定补偿数额,有关部门表示研究解决。
H20.赵娟/赵强所在的村/社区正在拆迁,赵娟/赵强觉得自己得到的补偿数额不公平。于是她/他到市政府上访,要求重新核定补偿数额,有关部门承诺解决。
H21.刘娟/刘强所在的村/社区的低保户信息没有公开,刘娟/刘强觉得不公平。于是她/他联系市政府有关部门,要求公开这个信息,有关部门表示研究解决。
H22.王娟/王强所在的村/社区的低保户信息没有公开,王娟/王强觉得不公平。于是她/他到市政府上访,要求公开这个信息,市政府有关部门承诺解决。
第三,在B卷和C卷中公民诉求的政治主体有差异(基层组织和市政府),以此检验不同的政治主体是否影响公民诉求影响力的测度。
RSSI-MCL算法虽然能够在一定程度上提高算法的定位精度,但是以牺牲算法的运算效率为代价的,这使得数据量较大时,对于节点的定位时间花销较高,今后将从提高算法的运算效率、降低时间复杂度入手进行研究,以更进一步优化算法。
在让政府解决关系X娟/X强切身利益问题的时候,X娟/X强有多大的影响力?
其中具体选项为:1.非常大;2.比较大;3有一些;4.根本没有;8.不知道。
在上述中X即为题目中出现的姓氏,为了便于受访者尽快理解虚拟情景,访员会根据受访者的性别念出不同的名字(男性即为X强,女性则为X娟),由此缩短受访者与题目中虚拟情境之间的距离。
通过对上述题目的观察,不同的事件中显然反映着受访者不同的公民诉求影响力。为了丰富学者对于公民诉求影响力的理解,在本部分设计了多重情境。
第一,在四道题目中,政府的回应行为有所差异,由此可以反映不同的诉求影响力,这也是公民诉求影响力的直接体现。一般而言,口头承诺/书面承诺或者研究解决/承诺解决也代表着公民对政府的不同影响程度,显然书面承诺(承诺解决)比口头承诺(研究解决)代表着对政府更强的影响力。
太和医院急诊科临床一线的医师、护士,自发在2008年成立“星星急救科普志愿服务队”。他们利用各种时间,走街串巷宣讲,希望将医疗急救专业知识向公众普及,从而提高民众的急救意识和技能。一旦接受培训的民众达到一定规模,将会为送医不及时的特殊患者争取急救时间,这也是发挥医院救死扶伤社会功能的一种有益途径。
对于以上所有的情境,受访者都被共同提出如下问题:
基于此,利用虚拟情境方法的引入,笔者不仅能够得出更加具有科学性的公民诉求影响力指标,还能利用该方法的情境设计,得出影响公民诉求影响力的因素,即诉求主题、诉求对象、回应行为之间,何种发挥更加重要的影响。
由图4可知,电压互感器1、2、3、4、5、6、7、8、9和10号C相的量测数据序列之间的平均欧氏距离均小于阈值,而电压互感器11的量测数据序列与上述电压互感器的量测数据序列的平均欧氏距离大于阈值,由此可以判定电压互感器11,也就是叙二线C相的电压互感器发生故障。
(二)确定虚拟情境顺序
基于对两个问卷中情境的观察,笔者暂且假定不同情境中反映出的政治影响力从高到低分别为:H20>H19>H22>H21。通过上述假定,笔者认为在影响政府的问题上,议题领域上的影响强于政治主体(市政府/村组织/市相关部门/村长)的不同反应差异,政治主体在面对重大的、涉及公民个体利益诉求的回应行为。
首先,我们利用这个顺序检验了面向市政府的诉求(C卷)。结果发现在C卷的1259份样本中,一半左右(632/1259)的问卷针对不同的虚拟情境有着至少两个不同的回答,受访者针对虚拟情境的不同回答才得以锚定出受访者本人对政治主体的影响力,由此确定其公民诉求影响力。其中回答完全符合笔者假定的情境顺序的仅有112个,其中仅有一个虚拟情境的回答违背设定顺序的有402个,不超过两个答案违背的有502个。
在表3中,笔者计算了不同受访者对于不同虚拟情境下公民影响力的判断,如果受访者的顺序认知完全符合设计,右上部分的比例应该大于左下角的比例。从表中可知,确实有更多的受访者认为H21反映出的公民影响力小于H22、H20,其中H19<H21的占比为0.079,而H21<H19的比例则为0.096,显示出两者的影响力程度非常接近,但受访者对两者情境的认知并不违背笔者设计。但是H22>H19的比例则为0.278,远大于H22<H19的0.114的占比。再观察H20与H22的关系,也可以发现类似H19和H21的关系,即两者较为接近,但是H20略低于H22。四个虚拟情境的关系显示出存在着另外一种可能性,即反映出公民诉求影响力的顺序应该为H20>H22>H19>H21。
表3 针对问卷C卷虚拟情境顺序的验证
接下来,笔者继续审视在初始的顺序(H20>H19>H22>H21)下,所有的C卷受访者的所有答案中频率最高的十种,结果显示出最高比例的受访者给予所有的虚拟情境同样的回答,其次是给予H21/H19同样的回答,H22/H20同样的回答,而且认为H21/H19体现的公民诉求影响力低于后两者(具体见附录表1)。基于这两个图表,我们很有信心指出在C卷中更为合理的顺序应该为H20>H22>H19>H21。
其次,笔者使用B卷的数据对研究者预先设计的顺序H20>H19>H22>H21进行验证。通过观察针对B卷受访者最多的回答答案,仍然是第二多的受访者选择了{1,3},{2,4}的答案。基于此,笔者有充足的信心证实针对所有虚拟情景的设计,不论其诉求对象是村组织还是市政府部门,其合理的顺序应该为H20>H22>H19>H21。这也表明,在决定公民诉求影响力的问题上,不同的政治行为主体(基层组织和市政府)并无显著差异,而政治主体的不同行为差异的影响,远大于议题领域的影响(个体议题还是公共议题)。换言之不论针对何种议题,只要能够促使政府/村组织作出书面承诺/承诺解决,均比研究解决/口头承诺显示出公民诉求对政府更大的影响力。
从仿真波形可以看出,引入虚拟电容后,牵引过程中直流电压及电池电流的震荡程度明显减小,电压最大震荡幅值为±200 V,系统稳定性得到很好的改善。
(三)针对初始模型的顺序改进
根据前文分析,促使政治主体做出可置信的回应才是决定公民诉求影响力的根本因素。基于此,笔者将反映公民诉求影响力的虚拟情境的顺序调整为H20>H22>H19>H21。根据此顺序,笔者再次验证了B卷。结果发现,在1265个受访者中,有704个受访者至少对不同的虚拟情景有两个以上的回答,其中不违背设定顺序的达到434个,与上节相比有着极大的改善。通过对不同虚拟情境的选择比例可知,仍然存在着H21/H19之间、H22/H20之间区分程度较低的情况。
在针对虚拟情境的顺序进行调整后,笔者发现不论是B卷还是C卷,虚拟情境的设定顺序已经基本符合受访者的认知,接下来可改进的因素是受访者对不同虚拟情境的答案高度一致的问题。
通过虚拟情境锚定法的引入,笔者通过比较不同问卷中,受访者对于不同情境的回答情况,实际上得出了影响公民诉求影响力的重要因素——政府回应行为,即公民更加期待政府做出可置信的承诺,例如书面承诺/承诺解决比研究解决/口头承诺更加显示出公民对于政府的影响力;而具体的诉求议题差异则不如政府回应行为的影响深远。
从本部分的分析可知,虚拟情境的设定不仅可以用来较准测量,还可以在测量的同时检验相关理论。然而,本部分出现的对于四个虚拟情境设定区分程度不高的情况显示出,虚拟情境设定过于复杂尽管有助于生成理论,但是可能造成受访者回答困难的情况。如何在虚拟情境设定有意义、有理论产出的同时保证虚拟情境设计的区分度高、理解度高也是一个重要的研究问题。
四、虚拟情景锚定法的测度——以公民诉求影响力为例
(一)结合自陈题目与虚拟情境题目测度公民诉求影响力
为进一步呈现虚拟情景锚定法如何修正不同受访者在针对虚拟情境回答上出现一致过多的情况,以及如何利用虚拟情境锚定法来测度真实的公民诉求影响力。笔者在接下来的部分中,将同时引入公民诉求影响力的自陈题目。
H18.在让政府解决关系您切身利益的问题时,您觉得自己有多大的影响力?
具体选项为:1.非常大;2.比较大;3有一些;4.根本没有;8.不知道
2014年对所有烧损部位进行了更换和维修,但在后期的生产中烧损现象未得到改善,造成维修费用高。为了有效解决高温烟气烧损钢件的问题、保证锅炉的平稳运行,特进行此次改造。
采用SPSS 22.0统计学软件对数据进行处理。计量资料以“±s”表示,采用t检验;计数资料以百分数(%)表示,采用t检验。以P<0.05为差异有统计学意义。
为了保留虚拟情景信息的丰富性,同时减少受访者对不同虚拟情境相同回答的比例,笔者在接下来的研究中将仅仅保留两个虚拟情境,并同时兼顾议题的差异和政治主体行为差异。①在本部分,笔者仅希望比较传统的自陈式问法和虚拟情境锚定法的差异,而不关注B卷和C卷中不同的诉求对象,仅仅以B卷中的虚拟情境题目为例。因此,最终仅保留如下题目:
B卷中两个虚拟情境
H20.王娟/王强所在的村/社区正在拆迁,王娟/王强觉得自己得到的补偿数额不公平。于是她/他在村里公开抗议,要求重新核定补偿数额,村委会书面承诺解决。
H21.张娟/张强所在的村/社区的低保户信息没有公开,张娟/张强觉得不公平。于是她/他向村长抱怨,要求公开这个信息,村长口头承诺解决。
在筛选出两个虚拟情境后,针对不同虚拟情境的回答过于一致的问题虽仍然存在,但却大大减少,受访者违背H20>H21的比例大为降低,显示出模型的准确率大大提高。基于此,笔者将结合受访者针对自己公民诉求影响力的题目(H18)和两个虚拟情境的回答,试图计算校正后的公民诉求影响力的真值。由于存在两个虚拟情境,受访者的答案区间应该为1~5,其中值越大显示出影响力越小。经过对B组校正后的回答如表4所示,其中一部分有具体值,而另外一部分由于对不同的虚拟情境有着相同的回答,导致真实值为一个区间。
表4 问卷B卷合并虚拟情境后的频数分布
在如何处理最终得到的受访者真实态度上拥有具体值和区间的两类答案的问题上,学者提供了四种途径,例如简单忽略区间值(omit tied cases)的答案,或者将区间内包含的答案做统一权重处理,最终显示均等化区间值(Uniform Allocation),或者采取删除序列回归(censored ordered probit)对区间内包含答案的概率密度进行处理,或者采取最小熵(minimum entropy)对区间答案进行处理[29](见附录2)。由于笔者仅关注个人自报的公民诉求影响力与通过虚拟情境锚定得到的真实值之间的差异,因此在此笔者忽略掉所有的区间答案。然后将受访者的教育背景、收入、年龄、区间答案的上界和下界、自报的公民诉求影响力作为子数据库,利用R软件提供的MI软件包进行贝叶斯框架下的插补。在插补后,笔者对区间答案和缺失值插补后的多条链的插补值进行对比,发现几乎所有的插补值均包含在原有的区间答案界限之内,显示出插补效果较好,并未出现明显违背原有信息的现象。
(二)比较自陈的公民诉求影响力与公民诉求影响力
根据题目的设计,针对题目的设计得分越高彰显出公民影响力越小;为了便于比较,笔者针对自陈题目得到的公民诉求影响力和根据虚拟情景锚定法得出的公民诉求影响力进行重新编码,以使得更高的分数代表更高的公民诉求影响力。
此外,许多学者针对此法的有效性和改进进行了研究。其中一部分学者关注于对虚拟情景锚定法本身的设置条件、模型进行优化和发展。如Buckley发现如果自我评估的题目在虚拟情境之前,会造成虚拟情境题目的回答出现系统性膨胀,虚拟情境的出现顺序也会影响条目间关联。因此作者建议应该实现自我评估题目与虚拟情境出现顺序随机化、虚拟情境不同层次间出现顺序随机化,不同虚拟情景设置随机化。[24]Hopkins和King也发现如果将原本放在虚拟情境之前的自我评估的题目放在虚拟情境之后,不仅不会造成偏误,而且会提高受访者对问题的理解。另外,作者发现如果直接让受访者比较虚拟情境和受访者自己,则会造成回答不一致的情况,并带来更差的结果。[25]宋庆宇、乔天宇则建议在调查中必须加以注意题目设计的可理解性。[19]
在针对自陈的公民诉求影响力题目进行重新编码后,根据下图可知,大部分公民认为自己的影响力非常弱,平均分仅仅为1.54分,如图3所示:
图3 公民诉求影响力的自陈值(基于B卷)
此外,笔者对经过虚拟情境锚定法计算得出的公民诉求影响力也进行重新编码,得分如图4所示,在1~5的指标下,平均值为2.33,即便折算为1~4的指标体系下也为1.86。显示出虚拟情境锚定法得出的公民影响力比自陈的公民诉求影响力更高。
图4 基于虚拟情境锚定法得出的公民诉求影响力(基于B卷)
总之,通过使用虚拟情境锚定法,我们能够用更统一的标准衡量公民诉求的影响力,并发现在校准后,认为公民具有一定影响力的比例提高。当然,这与问卷设计者设计出的不同场景有关。笔者进而使用政治参与、政府信任等指标与虚拟情境锚定法得出的公民诉求影响力进行回归分析,均发现该测量值符合前人的基本研究。这表明虚拟情景锚定法的测度具有较强的一致性和合理性。
五、小结
针对标准化的问卷,设计者希望能够得出标准统一的回答,并在此基础上进行科学的分析,并探索相关关系与因果机制。然而,针对许多较为复杂的概念,很多受访者并不容易理解,而且也容易造成理解的标准不一致,即造成条目难度差异(differential item functioning),即人际之间存在不可比的现象。传统上解决针对标准化问卷中可能存在的“人际不可比”现象具有多种纠正方案。虚拟情景锚定法则结合传统的多种纠正方案,提出更便于操作和标准化的操作流程。
虚拟情境锚定法通过设定虚拟情境,并将自己与不同次序的虚拟情境进行锚定,由此产生出经过较准、可供不同文化、不同特征的受访者能够比较的“真实值”。笔者认为不仅应将虚拟情境锚定法视为一种修正“人际不可比”的方法,还应该充分利用虚拟情境锚定法的优势,例如在情景设置中多下功夫,将其作为产生理论的手段。换言之,虚拟情境设定本身可以作为问卷实验的一部分,结合虚拟情境锚定法与问卷设计,在设计虚拟情境的时候不仅注意情境本身的“梯度”性质,还注意情境本身的“主体”或“对象”,由此产生多样化的虚拟情境。例如,通过审视受访者对于四个虚拟情境的态度,发现公民在判断诉求影响政府的能力时,更加重视政府的回应行为(口头承诺还是书面承诺等可置信行为),而不在意利益诉求是私人利益或者公共利益。换言之,在影响受访者对于公民诉求影响力的认知上,公民更重视政府的行为,而非利益诉求事项。而且公民到底向基层组织还是高层次政府诉求的影响并不显著。此外,笔者还利用虚拟情境锚定法比较了自陈数据和“真实值”的差异,发现中国公民有低估诉求影响力的倾向。
与此同时,笔者在进行分析时,也发现虚拟情境锚定法需要更加注意不同虚拟情境的设定。虚拟情境的设置必须科学,否则可能起不到任何纠偏的作用。例如世界卫生组织在进行不同国家卫生体系的评价时需要测量民众的自述健康状态,为了纠正不同国家的不可比性,世界卫生组织也设置了三个虚拟情境。然而有学者就发现虚拟情境设定在巴西并不成功。[30]事实上,关于政治学、社会学的概念测量比医疗健康领域的“主观健康感知”更加复杂,这对虚拟情境的设定提出了科学化、通俗化的要求。如果大部分受访者缺乏理解虚拟的情境或者虚拟情境顺序的能力,就必然影响该方法在问卷设计中的适用性。
在本研究中,为了利用虚拟情境锚定法检验到底是政府行为还是诉求事项本身更影响公民诉求影响力,采取了复杂的虚拟情境设定,导致有不少受访者对于虚拟情境的理解存在一定的困难。这对于问卷设计也提出了进一步的挑战:第一,必须在设计虚拟情境时更加注重虚拟情境的差异性,使得受访者能够更准确、更容易识别出情境的差异,确保在虚拟情境认知一致性的前提下尽量减少对不同虚拟情境相同的回答。第二,在确保受访者能够完成虚拟情境的前提下,设计多种情境,并考虑将情境设计与问卷实验相结合,以保证收集更加丰富的信息。第三,在设计问卷的时候注意预调查,检验自陈问题与虚拟情境问题的顺序问题,以及尽量使用简洁的话语,在自陈问题和虚拟情境问卷中尽量保证用语一致,确保自陈问题与虚拟情境回答的标准一致性,确保研究者的问卷设计意图能够准确地在测量中得到体现。
(笔者感谢北京大学中国国情研究中心提供分析数据。)
注释:
①按照Gary King的介绍,在使用Chopit模型的情况下,甚至只需要一个虚拟情境即可。因此,尽管Gary King在文中经常使用多个情境,笔者在这里保留两个情境并不违背虚拟情境锚定法的规定。
参考文献:
[1]金太军.行为主义政治学的“新革命”及其启示[J].内蒙古社会科学(汉文版),2000,(3):24-29.
[2]Landry Pierre F.,Shen Mingming.Reaching Migrants in Survey Research:The Use of the Global Positioning System to Reduce Coverage Bias in China[J].Political Analysis,2005,13(1):233-236.
[3]刘小青.降低评价尺度偏差:一项政治效能感测量的实验[J].甘肃行政学院学报,2012,(3):47-54.
[4]Cantril H.The pattern of human concerns[Z].New Brunswick:Rutgers University Press,1965.
[5]Carpenter Janet S.Applying the Cantril methodology to study self-esteem:psychometrics of the Self-Anchoring Self-Esteem Scale[J].Journal of nursing measurement,1996,4(2):171-189.
[6]Mazur Joanna,Szkultecka -D?bek Monika,Dzielska Anna,et al.What does the Cantril Ladder measure in adolescence?[J].Archives of medical science:AMS,2018,14(1):182.
[7]King Gary,Tandon Ajay.Enhancing the validity and cross-cultural comparability of measurement in survey research[J].American Political Science Review,2004,98(1):207.
[8]Aldrich John H.,Mckelvey Richard D.A Method of Scaling With Applications to the 1968 and 1972 Presidential Elections[J].American Political Science Review,1977,71(1):111-130.
[9]Poole Keith T.Recovering a Basic Space From a Set of Issue Scales[J].American Journal of Political Science,1997,42(3):954-993.
[10]Fowers Blaine J.,Applegate Brooks,Tredinnick Michael,et al.His and her individualisms?Sex bias and individualism in psychologists'responses to case vignettes[J].Journal of Psychology Interdisciplinary&A pplied,1996,130(2):159-174.
[11]Hsee C.K.,Tang J.N.Sun and water:on a modulus-based measurement of happiness[J].Emotion,2007,7(1):213-218.
[12]加布里埃尔·阿尔蒙德,西德尼·维伯.公民文化——五个国家的政治态度和民主制[M].徐湘林,戴龙基译.华夏出版社,1989.
[13]Strobl Carolin,Kopf Julia,Zeileis Achim.Rasch Trees:A New Method for Detecting Differential Item Functioning in the Rasch Model[J].Psychometrika,2015,80(2):1-28.
[14]Salomon J.A.,Tandon A.,Murray C.J.Comparability of self rated health:cross sectional multi-country survey using anchoring vignettes.[J].Bmj British Medical Journal,2004,328(7434):258.
[15]Chen H.,Meng T.Bonding,Bridging,and Linking Social Capital and Self-Rated Health among Chinese Adults:Use of the Anchoring Vignettes Technique.[J].Plos One,2015,10(11):e142300.
[16]Mojtabai R.Depressed Mood in Middle-Aged and Older Adults in Europe and the United States:A Comparative Study Using Anchoring Vignettes.[J].Journal of Aging&Health,2015,28(1):1714-1721.
[17]Hao Zhang,Teresa Bago D'Uva,Eddy Van Doorslaer.The gender health gap in China:A decomposition analysis[J].Economics&Human Biology,2015,18:13-26.
[18]León Carmelo J.,Ara?a Jorge E.,León Javier De.Correcting for Scale Perception Bias in Measuring Corruption:an Application to Chile and Spain[J].Social Indicators Research,2013,114(3):977-995.
[19]宋庆宇,乔天宇.中国民众主观社会地位的地域差异:基于对 CFPS2012成人问卷数据的“虚拟情境锚定法”分析[J].社会,2017,(6):216-242.
[20]Johansson Edvard.New evidence on crosscountry differences in job satisfaction using anchoring vignettes[J].Labour Economics,2006,15(1):96-117.
[21]Rice Nigel,Robone Silvana,Smith P.C.International Comparison of Public Sector Performance:The Use of Anchoring Vignettes to adjust Self-Reported Data[J].Health Econometrics&Data Group Working Papers,2010,16(1):81-101.
[22]Pandey Sanjay K.,Marlowe Justin.Assessing Survey-Based Measurement of Personnel Red Tape With Anchoring Vignettes[J].Review of Public Personnel Administration,2014,35(3).
[23]Araa Jorge E.,León Carmelo J.Scale-perception bias in the valuation of environmental risks[J].Applied Economics,2012,44(20):2607-2617.
[24]Buckley Jack,Buckley Jack.Survey context effects in anchoring vignettes[J].New York University,2008.
[25]Hopkins Daniel J.,King Gary.Improving Anchoring Vignettes:Designing Surveys to Correct Interpersonal Incomparability[J].Public Opinion Quarterly,2010,74(2):201-222.
[26]刘素芳,林岳卿,何泽慧等.世界卫生组织健康调查资料的结构方程模型[J].中华预防医学杂志,2010,(7):631-635.
[27]吴琼.主观社会地位评价标准的群体差异[J].人口与发展,2014,(6):63-70.
[28]Wand Jonathan,King Gary,Lau Olivia.anchors:Software for Anchoring Vignette Data[J].Journal of Statistical Software,2011,42(42):1-25.
[29]Wand Jonathan,King Gary,Lau Olivia.anchors:Software for Anchoring Vignette Dat[J].Journal of Statistical Software,2011,42(42):1-25.
[30]Damacena G.N.,Vasconcellos M.T.,Szwarcwald C.L.Perception of health state and the use of vignettes to calibrate for socioeconomic status:results of the World Health Survey in Brazil,2003[J].Cadernos De S-aúde Pública,2005,21:65-77.
附录
附录1
附录表1 问卷C卷虚拟情境顺序的频率分布
附录2
笔者利用软件自带的绘图功能,基于向村级集体反映问题的B组问卷,按照网民与非网民描述出上述四类处理区间答案后的情况。可以发现,由于针对本问卷的区间答案较多,造成不同处置方式对公民诉求影响力的“真实值”有较大差异。然而如果集中于分析图中反映的信息对比,从网民与非网民的对比中可以发现,网民在C=4或者5的时候比例低于非网民,而在C=1或者2的时候高于非网民。由于在笔者的研究中,C越大代表着真实的公民诉求影响力越小,从四类处置办法的图表中我们均可以发现网民的诉求影响力高于非网民。通过该例子,我们可以看到针对区间值的不同处理方法。
图1 基于虚拟情境锚定法的得出的网民与非网民的公民诉求影响力(基于B卷)
附注:深色为网民的公民诉求影响力,而浅色为非网民的公民诉求影响力
【中图分类号】 D035
【文献标识码】 A
【文章编号】 1009-4997(2019)03-0050-10
收稿日期: 2019-05-06
作者简介: 李锋,政治学博士,中共中央党校政治和法律教研部讲师,清华大学数据治理研究中心兼职研究员,北京大学国家治理研究院助理研究员、北京大学中国国情研究中心人员,研究方向:国家治理、政治学量化方法、大数据政治学。
基金项目: 中央党校2019年校级科研重点课题“新时代我国社会主要矛盾问题研究(2019ZD004);教育部重大项目“国家治理理论研究”(17JJD810001);国家社科基金“新媒体条件下中国公民政治价值观实证调查研究”(16BZZ006)。
(编辑:康宁)