敏感问题Simmons模型的(分层)整群抽样研究,本文主要内容关键词为:模型论文,敏感论文,Simmons论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
所谓敏感性问题是指高度私人机密性或大多数人认为不便在公开场合表态及陈述的问题,例如吸毒、赌博、卖淫、酒后驾驶、个人收入、逃税、婚前性行为、性病、艾滋病、同性恋倾向等。敏感性问题按总体的特征可分为属性特征的敏感性问题和数量特征的敏感性问题两类,属性特征的敏感性问题又可进一步分为二项选择(两分类)敏感性问题和多项选择(多分类)敏感性问题。
对于敏感性问题的调查,若采用直接提问的方式,被调查者为了保护自己的隐私或出于其他目的,往往会拒绝回答或故意说谎,使调查结果产生偏倚。为了防止偏倚,随机应答技术(randomized response technique,简记为RRT)被认为是最能有效保护被调查者隐私,提高其真实回答率的一种方法[1]。目前国内外对敏感问题RRT的抽样调查设计研究,只局限于简单随机抽样,实际应用也主要局限于小范围特殊人群小样本的简单随机抽样,或将敏感问题RRT的复杂抽样方法调查资料误用RRT简单随机抽样调查的有关公式来统计分析,而且也极少对敏感问题RRT抽样调查的信度与效度进行评价。
本文对二分类敏感问题随机应答技术Simmons模型下较复杂的整群抽样、分层整群抽样调查方法进行了设计;推导出二分类敏感问题随机应答技术Simmons模型在整群抽样、分层整群抽样下总体比例的估计量及其估计方差的计算公式;并结合苏州大学学生婚前性行为的调查实例,对二分类敏感问题随机应答技术Simmons模型的整群抽样、分层整群抽样取得了成功的应用效果。
一、调查方法
(一)Simmons模型的随机应答技术
Simmons模型是1967年由学者Simmons等提出[2]。该模型需设计一随机化装置,例如:一口袋中放置若干个大小、重量、触感完全相同的红球和白球。在没有旁人在场时,每个被抽中的人有放回地从袋中随机抽出一球;抽到红球时,针对敏感性问题A:“你具有特性A吗?”,回答“是”或“否”;抽到白球时,针对非敏感性问题B:“你具有特性B吗?”,回答“是”或“否”。该模型中设计了两个无关联问题A和B,故又称两个无关联问题的RRT模型。
(二)Simmons模型的整群抽样方法
整群抽样的优点是抽样框要求简单,调查单位比较集中,调查工作的组织和进行比较方便,调查每个基本单元的费用降低,使得同样的费用可调查更多的基本单元;一般认为其缺点是调查单位在总体中的分布不均匀,抽样误差较大。作为一种经济实用、实施方便的抽样方法,在医学调查中被广泛应用。Simmons模型的整群抽样可分为三个步骤:第一步将总体划分为群(一级单元),各群由二级单元组成;第二步以群为抽样单元,从总体中随机抽取一部分群;第三步对抽中群的全部二级单元采用Simmons模型的随机应答技术进行二分类敏感问题的调查。
(三)Simmons模型的分层整群抽样方法
分层抽样的主要优点是减少抽样误差。Simmons模型的分层整群抽样可分为四个步骤:第一步将总体根据某项或某几项特征划分成若干层;第二步将各层划分为群(一级单元),各群由二级单元组成;第三步以群为抽样单元,分别从各层随机抽取一部分群;第四步对抽中群的全部个体采用Simmons模型的随机应答技术进行二分类敏感问题的调查。
二、公式推导
(一)Simmons模型的整群抽样
(1)总体比例的估计量及其估计方差
三、应用实例
以2007年苏州大学新校区全体在校学生为调查总体,划分为本科生(1层)、研究生(2层)两个层,本科生共9689人,研究生共1890人,得。以班为群,使用大班拆小班、小班并大班的做法,使各层内各班学生数近似相等。采用Simmons模型的分层整群抽样(各层内即为整群抽样),分别随机抽取本科班20个共1080人、研究生班18个共818人,总计38个班1898人。设置一随机化装置:一口袋中放置大小、重量、触感完全相同的6个红球和4个白球。在没有旁人在场时,每个被抽中的学生有放回地从袋中随机抽出一球;抽到红球时,回答敏感问题:“你是否有过婚前性行为?”,抽到白球时,回答非敏感问题:“你是男生吗?”,只需回答“是”或“否”,每人重复调查2次,总计调查3796人次。各层各班男生的比例在调查时由调查员清点获得。本次调查问卷回收率达100%,无漏填项目,回收问卷的合格率达100%。用Excel 2003建立数据库录入数据,对所有资料进行手工及计算机纠错,数据分析通过SAS9.13完成。
(一)各班婚前性行为发生率的调查计算结果
Simmons模型分层整群抽样重复2次调查苏州大学新校区38个班学生婚前性行为数据,按(11)式计算得:20个本科班第一次调查的婚前性行为发生率及第二次调查的婚前性行
表1 Simmons模型分层整群抽样重复2次调查苏大38个班学生婚前性行为结果
(二)各层婚前性行为发生率的估计及其估计方差
以第一次调查的数据,按(7)式计算得本科生婚前性行为发生率的估计值为:
(四)调查的信度评价
将38个班重复两次调查计算的比例数据进行平方根反正弦变换,对变换后的数据进行相关分析,Pearson积差相关系数r=0.88429,P<0.0001,显示两次调查结果间存在高度相关,说明调查方法的信度较高。
四、讨论
(一)本研究的实用性
敏感性问题的调查在卫生工作与医学科研中非常普遍和十分重要,特别在我国艾滋病防治工作中尤为重要。我国HIV/AIDS的流行经过传入期(1985~1988年)、扩散期(1989~1994年)、增长期(1995~2001年)和较快增长期(2002~2007年),目前正面临着快速增长或爆发流行的威胁!我国目前艾滋病病毒感染率究竟是多少?我国目前男、女同性恋的人口数究竟有多少?我国目前究竟有多少妓女?我国目前嫖客的数量及其年均嫖娼的次数是多少?我国目前多性伴侣人员年均性伴侣人数是多少?我国目前吸毒人数究竟有多少?我国目前国产安全套阴道交、肛交、口交的使用破损率各是多少?…?国家有关HIV/AIDS防治政策、规划的制定需要准确的数据!准确的数据呼唤对敏感问题的科学调查方法与统计公式!本文研究结果为国家及地方各级卫生主管部门和有关单位制定相关规划与政策提供科学可靠的数据,对防病治病尤其对艾滋病、性病的防治,对提高人民群众的健康水平,对发展社会主义经济具有重要的实际应用价值。
(二)本研究的创新性
近期国外学者对所收集的1965~2000年间38篇相关文献进行Meta分析的结果显示,应用随机应答技术调查敏感性问题在结果的准确性、可靠性方面较传统调查方法有着显著的优势[6]。关于敏感性问题的抽样调查设计,国内外不少统计学者进行了研究并提出了不少抽样调查方法。但到目前为止,国内外对敏感问题抽样调查的设计研究,只局限于简单随机抽样,而且对敏感问题抽样调查的信度与效度评价也极少研究。
本文采用二分类敏感问题Simmons模型,对较复杂的常用整群抽样、分层整群抽样调查方法,在国内外首次推导出敏感问题总体比例的估计量及其估计方差的计算公式,填补了国内外卫生统计学、生物统计学、人口统计学、经济统计学、科学技术统计学、社会统计学、环境与生态统计学等各统计学科敏感性问题抽样调查设计的空白,具有较大的创新意义。
(三)本研究的可靠性
本文结合苏州大学学生婚前性行为的调查实例,对二分类敏感问题Simmons模型的整群抽样、分层整群抽样,取得了成功的应用效果。并对调查的重测信度进行了评价,重复两次调查的结果之间相关程度较高,很好地说明本文研究的调查方法与统计量计算公式的信度较高,即说明本文研究的调查方法与统计量计算公式的可靠性较高。
(四)本研究公式的潜作用
本文对Simmons模型随机应答技术在整群抽样、分层整群抽样下推导出敏感问题总体比例的估计量及其估计方差的计算公式。当敏感问题各层总体比例、总体比例的估计量及其估计方差按本文提供的公式计算出来以后,可进一步进行(层)总体比例的区间估计(因整群抽样、分层整群抽样的样本含量一般较大,所以样本比例、样本均数一般近似服从正态分布);进一步进行各层比例间比较的t检验、Z检验、方差分析或秩和检验。
(五)本文的相关研究内容
本文是作者2006~2008年主持的国家自然科学基金项目——“敏感性问题的抽样调查设计”(项目编号30571620)的主要研究结果之一。本项目对多种RRT在多种复杂抽样方法下的调查技术及统计量计算公式进行了系统研究,并对调查的信度、效度作了评价。因篇幅所限,其他研究结果将会陆续发表。