用马蒙模型解决社会调查研究中数据缺损问题,本文主要内容关键词为:调查研究论文,模型论文,社会论文,数据论文,用马蒙论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:C915文献标识码:A文章编号:1001-5019(2006)04-0146-04
社会学研究有四个方式,即调查研究、实验研究、文献研究和实地研究,[1] 其中调查研究方式不论在社会学研究的实际使用量上,还是在研究性质的广泛程度上(探索性研究、描述性研究和解释性研究)都具有非常重要的位置,是社会学研究的最重要手段之一。它包括生活调查、问题调查、民意调查、市场调查和学术调查等方面。由于调查研究方式充分采用了统计手段去采集、处理和分析数据,如抽样方法、数据维护、统计分析等,因此它是实证主义定量分析的典型。调查研究收集资料的主要工具是问卷,在形式上它是一份精心设计的问题表格,其用途是用来测量人们的行为、态度和社会特征,它一般由封面信、指导语、问题、答案和编码构成。[2]
社会研究不可等同于自然研究,我们的研究对象是人不是物,在采集数据(问卷填写)时需要被研究者的密切配合。如果被调查者存在主客观障碍,就会造成数据不准确,甚至丢失。所谓主观障碍是指被调查者心理上和思想上对问卷产生的各种不良反应所形成的障碍。比如,当问卷内容太多,问卷表太厚,或者问卷中需要大量时间进行思考、回忆、计算的问题太多时,回答者就会有畏难情绪;当问卷中的问题涉及个人隐私等敏感的内容时,回答者就会容易产生种种顾虑;当问卷的封面信对调查的目的、内容、意义解释不够时,回答者就可能对问卷不重视,缺乏积极合作的责任感。所谓客观上的障碍是指被调查者自身的能力、条件等方面的限制所形成的障碍。比如说阅读能力的限制,如果问卷的格式较复杂、问题较抽象或者语言不通俗易懂,那么有些文化程度较低的被调查者就很难看懂这些问题,更谈不上回答了。又如理解能力的限制,无论是对于问题的内容还是对于填写问卷的方法,常常会有一些被调查者理解不了的。还有记忆能力、计算能力所带来的限制,在问卷中,研究者常常询问有关被调查者过去的经历或生活的问题,也常常询问诸如年收入、月生活费、每天用于某件事的时间等问题,这些问题常常要求被调查者进行一定的(有时甚至是困难的)回忆、思考和计算。另外和自然科学研究一样,在数据录入时,由于种种原因,也会出现数据丢失或明显错误输入。
如果数据丢失或明显错误是由于录入造成的,而且原始数据还在,那么还有机会弥补;如果原始数据已不在,无法填入实际值,则此时我们称作“数据缺损”(missing data)。然而大量的数据缺损是在数据采集时就形成了,即在返回的问卷中某个或某些问题没有回答或答非所问。这种现象在社会调查中普遍存在,如果缺损数据的量相当大,则在此基础上进行数据分析会严重影响研究的结果。因此在进行正式的数据分析之前,必须进行数据维护,而且必须是采用现代统计方法进行科学的维护。表1是一个社会调查的示例,个案二没有回答问题一和问题二,个案三没有回答问题二:
表1 一个社会调查结果示例
问题一 问题二 问题三
本人身高(cm)
目前未婚同居吗 期望配偶的学历
个案一165
是研究生
个案二 本科
个案三170 中专
个案四160
不 本科
一、目前解决数据缺损问题的常规方法及其优缺点
最常见的处理这类数据缺损的方法是“单举法删除”(listwise deletion)。如果任何一个变量(问题)含有缺损数据的话,就删除与其相对应的整个个案(问卷)。如果少量个案被删除,这一方法十分有效,因为缺失的数据是随机的,所以参数(点值和标准差)的估计依然是无偏的,但是由于数据量的减少会带来精度损失。精度损失大小与删除的个案数目有关,删除的个案越多精度越低。如果许多问卷的同一变量都存在数据缺损,则该变量被删除,会严重影响此次研究目的。表2显示如何删除变量二(问题二)和个案二。
表2 变量和个案删除示例
问题一 问题二
问题三
本人身高(cm)
目前未婚同居吗
期望配偶的学历
个案一165
是研究生
个案二 本科
个案三170 中专
个案四160
不 本科
与删除对应的方法是用一个“合理”的值填空。其中的一个简单方法是均值替换法(mean imputation),即用其他个案中该变量未缺损值的平均数对缺损的数据进行替换。虽然该方法简单易行,但这种方法会产生有偏估计,偏差大小与缺损数据的量有关,量越多偏差越大。这一方法目前已被经常使用,甚至一些广泛使用的商业软件也采用了这一方法。表3显示如何用该法解决个案二问题一的缺损数据:用个案一、三和四的问题一的平均值165填入。
表3 均值替换法示例
问题一 问题二
问题三
本人身高(cm)
目前未婚同居吗
期望配偶的学历
个案一165
是研究生
个案二165 本科
个案三170 中专
个案四160
不 本科
另一个经过改进的填空方法是“个别替换法”(single imputation),通常也被叫做“回归替换法”(regression imputation)。用数据缺损的变量为因变量,用其他变量为自变量,通过未缺损的数据建立回归模型,再用该个案的其他变量值代入该回归模型去估计缺损的数据。这种方法可以大大提高点值的精度,而且是一个无偏估计,但是却倾向于低估标准差,而且这一问题会随着缺失信息的增多而变得更加严重。公式1为上面示例建立的一般形式的回归模型。实际回归模型应视数据而定。
身高=f(同居,学历)+ε(1)
解决上述问题的改良方法为“多重替代法”(multiple imputation)。[3-4] 即首先从未缺损的数据上产生缺损数据的分布,然后根据这个分布给每个缺损数据赋予一个模拟值。多重替代法的基本逻辑以及用它来进行的推断都来自Bayes规则。这种方法的优点是,研究者可以比较容易地在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。常用的具体方法是EM法,它针对缺失数据简化模型,通过用最小二乘估计计算模型参数,进而估计缺失数据并推断它们的未知性质。但是EM对数据的分布有特殊要求,从而限制了它的使用。
二、马蒙模型
将马尔可夫链、蒙特卡罗方法和Bayes方法相结合就构成了马尔可夫链之蒙特卡罗模型(简称MCMC),即马蒙模型。它应该是目前解决数据缺损问题的极佳方法。这种方法在允许同时拟合缺损数据值和参数值的前提下,得到了一个包含所有缺失情况后的参数分布样本,从而拓展了多重替代法。且与多重替代法相比,这一方法可以得到关于参数未知性质的更为精确的估计和描述,虽然在这一方法的使用过程中显得颇为繁琐,但是借助于计算机,这一问题已迎刃而解了。
在Bayes推论中,[5] 首先设定含有缺损数据的变量一个前分布(prior distribution)f(θ),这个分布可以通过观察未缺损的数据假设成正态分布、t分布、F分布等等,如果实在没有合适的分布可选用均匀分布(uniform distribution)来代替。然后建立可能性函数(Likelihood)f(data|θ),再根据Bayes理论去求缺损数据变量的后分布f(θ|data),θ表示该变量分布的实际参数,实际参数可以是平均值、总值、比例等等,data指的是该变量未缺损数据。公式如下:
现实生活中有很多这样的现象:某一系统在已知现在情况的条件下,系统未来时刻的情况只与现在有关,而与过去的历史无直接关系;某一事物的发展从空间上看,只与邻近的事物相关,而与较远的事物无直接关系。马尔可夫链是最好的用于描述这类现象的数学模型。[6] 我们在进行社会调查时所采集的数据,无论在时域还是地域上看,都符合上述现象。
蒙特卡罗(Monte Carlo)方法,又称随机抽样或统计试验方法,属于计算数学的一个分支,它是在上世纪40年代中期为了适应当时原子能事业的发展而发展起来的。蒙特卡罗方法的基本原理及思想如下:当所要求解的问题是某种事件出现的概率,或者是某个随机变量的期望值时,它们可以通过某种“试验”的方法,得到这种事件出现的频率,或者这个随机变数的平均值,并用它们作为问题的解。蒙特卡罗方法通过抓住事物运动的几何数量和几何特征,利用数学方法来加以模拟,即进行一种数字模拟实验。它是以一个概率模型为基础,按照这个模型所描绘的过程,通过模拟实验的结果,作为问题的近似解。可以把蒙特卡罗解题归结为以下三个主要步骤。
第一步是构造或描述概率过程。对于本身就具有随机性质的问题,如粒子输运问题,主要是正确描述和模拟这个概率过程;对于本来不是随机性质的确定性问题,比如计算定积分,就必须事先构造一个人为的概率过程,它的某些参量正好是所要求问题的解。即要将不具有随机性质的问题转化为随机性质的问题。
第二步是实现从已知概率分布抽样。构造了概率模型以后,由于各种概率模型都可以看作是由各种各样的概率分布构成的,因此产生已知概率分布的随机变量(或随机向量),就成为实现蒙特卡罗方法模拟实验的基本手段,这也是蒙特卡罗方法被称为随机抽样的原因。
第三步是建立各种估计量。一般说来,构造了概率模型并能从中抽样,即实现模拟实验后,我们就要确定一个随机变量,作为所要求问题的解,我们称它为无偏估计。建立各种估计量,相当于对模拟实验结果进行考察和登记,从中得到问题的解。
三、实例验证
下面给出的是模拟的对某城市居民进行的社会生活状况调查的一个示例。通过问卷方式获得了11位被访者的完整数据,见表4。
表4 完整数据
年龄月收入个人所得税
个案一
23 2000 20
个案二
30 1300 13
个案三
27 5000 40
个案四
40 7000 47
个案五
36 5087 38
个案六
25 3000 29
个案七
55 4500 23
个案八
37 3894 29
个案九
29 1600 14
个案十
45 3000 19
个案十一 49 3800 21
然而在实际操作中,问卷中年龄、月收入、个人所得税等是属于个人隐私问题,因而往往被调查者有所顾虑,从而造成这几个变量的数据缺损。表5给出实际调查时可能获得的部分数据(采用随机抽取的方法制作缺损数据):
表5 三个变量都存在数据缺损
年龄月收入个人所得税
个案一
23 2000 20
个案二
30 1300
个案三
5000 40
个案四
40 7000
个案五
36
38
个案六
3000 29
个案七
55 4500
个案八
37
个案九
29 1600 14
个案十
45 3000 19
个案十一 49 3800 21
如果简单地删除有数据缺损的个案,则删除后的数据见表6:
表6 单举法删除后的数据
年龄月收入个人所得税
个案一
23 2000 20
个案三
27 5000 40
个案五
36 5087 38
个案六
25 3000 29
个案八
37 3894 29
个案十一 49 3800 21
用SAS软件的MI(多重替代法)过程的MCMC方法对上述数据进行缺损填空,结果见表7,黑体字为新填充的值。
表7 表4中的缺损数据经过马蒙模型处理后填入
年龄月收入个人所得税
个案一
23 2000 20
个案二
30 1300
12.85
个案三 27.215000 40
个案四
40 7000
47.40
个案五
36 5087.03
38
个案六 24.563000 29
个案七
55 4500
23.36
个案八
37 3893.68 29.79
个案九
29 1600 14
个案十
45 3000 19
个案十一 49 3800 21
对该数据分别进行了单举法删除和马蒙模型填空,然后分别将三个变量的描述性数据分析结果及实际结果列入表8(只分析它们的平均值和其标准差):
表8 表4与表5的描述性数据分析的比较
单举法删除马蒙模型 实际情况
平均值
标准差
平均值
标准差
平均值
标准差
年龄 32.838.81 37.0711.5336.0010.41
月收入
3796.83 1181.96 3620.23 1639.45 3652.82
1709
个人所得税 29.508.31 26.2810.2626.6411.07
无论是平均值还是它们的标准差,马蒙模型获得的结果均比单举法删除的结果更接近实际值。由此可见,采用马蒙模型去解决社会调查研究中数据缺损问题,可以获得极好结果。
四、讨论
必须注意,任何统计模型都有其使用条件,而MCMC法的有效性则有赖于这样的一个假设是否成立,即特定的数据缺损相对于其它的数据来说是否是随机的和独立的。“纯随机缺失”(missing completely at random,MCAR)这一术语被用来指称这样一种情况,即缺失情况相对于所有未缺损数据和缺损数据来说,在统计学意义上必须是独立的。值得庆幸的是,人们发现多重替代法的有效性并不是必然受到这个很苛刻的假设条件的影响。事实上,只要缺损数据与未缺损数据之间保持独立的话,这一方法就有效,这一情况被称为“随机缺失”(missing at random,MAR)。这后一种要求在大多数情况下都可以被满足。但是如果缺失情况是与缺失数据本身存在某种关联的话,这一条件便不能被满足(例如,假设高收入的人更有可能拒绝回答他们的收入水平)。
标签:大数据论文;