项目缺失数据的若干处理技术及其有效性评估-以中国版环境关心量表(CNEP)的应用为例论文

项目缺失数据的若干处理技术及其有效性评估
——以中国版环境关心量表(CNEP)的应用为例

范叶超1,肖晨阳2

(1. 中央民族大学 民族学与社会学学院,北京 100081;2. 美利坚大学 社会学系,美国 华盛顿 20016)

[摘 要] 项目缺失数据是定量研究中的一个常见问题,但国内社会学界迄今对此缺乏足够的关注。本文简要介绍了项目缺失数据的成因与机制,并分别回顾了个案删除、单一插补和多重插补3类缺失数据处理技术(MDT)。进一步,利用一个环境社会学的研究示例,对若干MDT的有效性进行了评估,发现缺失数据比例会干扰传统MDT的统计有效性。尽管如此,本文认为,当缺失数据比例较低时(如小于5%),研究者们也可考虑更具实践有效性的一些传统MDT。

[关键词] 项目缺失数据;个案删除;单一插补;多重插补;实践有效性

无应答(nonresponse)是抽样社会调查中的一个普遍现象,是指受访样本“未能提供必需的信息或提供的信息不可用”[1],它进一步又可细分为单元无应答(unit nonresponse)和项目无应答(item nonresponse),分别是指样本单元未能应答此次调查和样本单元参与了调查但仅回答了部分项目两种情况。无应答引起的缺失数据(missing data)是社会(科)学的定量研究者们通常无法回避的一个棘手问题。缺失数据的存在使统计分析过程变得复杂(因为几乎所有常见统计程序的执行都假设是由信息完整的个案组成的数据集),也让分析结果面临统计功效下降和参数估计结果有偏的双重风险。

目前,昌乐县全面启动世界地质公园申报工作,加快金宝莲花山农庄小镇建设步伐,抓好传统古村落保护、改造和提升,开发火山温泉资源,建设特色旅游聚集区;以莲花山小镇为支撑,打造休闲娱乐、健康养生为特色的山地旅游度假区;以现代农业产业园区为核心,建设休闲农业旅游示范区,全面整合火山小镇资源,打造潍坊西部重要的区域性旅游目的地。

与单元无应答相比,项目无应答引起的缺失数据问题更为复杂。在关于项目无应答的专门研究没有开展以前,研究者们只能依靠在长期实践中逐渐摸索出的一套传统缺失数据处理技术(Missing Data Techniques,为行文方便以下一并简称为MDT)来应对此类缺失数据,这些传统MDT被证明在一定程度上能够克服缺失数据给统计分析带来的不便,但也由于各自的一些技术缺陷而被诟病。自20世纪70年代起,统计学家们提供了一些现代MDT方案以因应项目缺失数据对统计分析的不利影响。

在国外社会科学界,统计学家们的上述努力引起了强烈回响和广泛注意,目前研究者们对如何预防和处理项目缺失数据已经有了相对清晰的工作方向,但遗憾的是,国内主流社会学界尚缺乏对项目缺失数据的系统认识。的确,关于项目缺失数据处理的研究涉及相对专业化的数学和统计学领域,加上一些现代MDT对计算机硬件配置要求较高以满足大样本的繁复运算,这些可能是导致国内社会学研究长期以来未能在方法论意义上妥善处理项目缺失数据的重要原因。本文的写作目的有两点:一是呼吁国内社会学定量研究者要重视项目缺失数据的不同应对策略对统计分析结论的潜在影响,二是为预防和处理项目缺失数据提供一些具有针对性的操作建议。

一、 项目缺失数据:成因与机制

项目无应答是指个案在一些测量项目上的信息没有研究价值。在一些社会调查机构发布的二手数据中,各测量项目除了有研究者设定的具体回答选项外,通常还会用“拒绝回答”“不知道”和“不适用”3个选项来标记该项目的缺失数据。但关于应答行为的大量研究文献表明,“拒绝回答”“不知道”和“不适用”代表的项目无应答背后有着相当复杂的成因:受访者可能原本能够提供有价值的信息,但却因为种种原因,这些信息没能在调查中被采集到,最后只能妥协地将它们一并归为项目无应答。项目无应答在问卷调查中是无法完全避免的,由此造成的缺失数据对统计分析的干扰也必须诉诸一定的技术手段来调整,但在此之前,研究者们需要诊断项目缺失数据的具体发生机制才能确定选择何种MDT。

(3) 每道施工工序之间应进行交接检验,在进行下道工序前,上道工序必须经过检测或验收,验收不合格不得进行下道工序的施工。

鲁宾将项目缺失数据划分为完全随机缺失(missing completely at random, MCAR)、随机缺失(missing at random, MAR)和非随机缺失(missing not at random, MNAR)3种缺失机制。完全随机缺失是指数据集中某个变量的缺失部分(missingness)同时独立于变量本身的其他变量;随机缺失是在假设强度上略弱的一种缺失数据机制,即数据集里某个变量的缺失部分与变量本身无关但与其他变量有关,缺失部分在控制了数据中一些其他变量后可以得到解释;非随机缺失是对随机缺失的继续偏离,它假设数据集中某变量的缺失部分与变量自身有关(即缺失数据可能系统分布在因变量值域的某一部分)。项目缺失数据是否会影响统计分析的结果取决于其从属于何种缺失机制,在统计学家们看来,只有完全随机缺失和随机缺失对统计分析的影响是可忽略的(ignorable),即在数据分析过程中不必再特意建立模型去估计缺失数据的机制[2-3]

与热卡插补和回归插补一样,多重插补首先需要借助某个或一组辅助变量建立插补模型,在此基础上实现对项目缺失数据的多次估计并确定多个替补值。多重插补提供的插补模型包括一般线性回归、logistic回归、预测均值匹配(predictive mean matching)、多元正态回归(multivariate normal regression)、链式方程(chained equations)等,研究者可根据数据缺失机制和变量层次选择适合研究的插补模型。

二、 项目缺失数据的处理技术

在项目缺失数据的专门研究还未开始前,研究者们在经验中已经逐渐摸索出一系列应对项目缺失数据的技术手段,这些传统MDT大体上可归为个案删除(case deletion)和单一插补(single imputation)两种类型。在过去很长一段时期内,研究者在应用这些MDT时未能考虑到项目缺失数据本身的特征,加上这些MDT各自的一些固有缺陷,反而可能“把事情弄得更糟”[4]。自20世纪70年代以来,伴随缺失数据研究的崛起(以鲁宾1976年正式提出缺失数据3种机制为关键时间节点),以多重插补(multiple imputation)为代表的新一代MDT相继问世,这些MDT被认为是较个案删除和单一插补更稳健的项目缺失数据应对方案。

1. 两类传统MDT:个案删除VS单一插补

个案删除是最常见的一类MDT,是指通过删除个案的方法来实现进入数据分析的数据集结构之完整性。在使用个案删除处理项目缺失数据的很多研究者看来,如果个案在某个研究变量的信息是缺失的,那么个案也失去了分析价值,不如剔除。具体到操作,个案删除又有列删(listwisedeletion)和对删(pairwise deletion)两种方式:前者指删除掉任何研究变量存在缺失数据的个案,以确保只分析那些信息完整的个案;后者指通过利用在双变量中信息都完整的个案计算协方差矩阵,在此基础上完成一系列数据分析过程。

单一插补是与个案删除思路截然不同的另一类MDT。顾名思义,单一插补意味着用一个替补值插补到原本缺失数据的位置,以构造一个完整数据集供研究者分析使用。替补值是对缺失数据真实值的一次近似估计,它的估计方式有固定的(deterministic)和变动的(stochastic)两种。

扬中市智慧城市建设对于提升扬中城市发展水平、推进镇江智慧城市建设、促进江苏智慧城市可持续发展以及对全国县级智慧城市发展都具有重要的积极意义。

成品油市场作为中国能源行业的重要组成部分,对国民经济的平稳运行有着重要影响。合理的定价机制、公平的市场环境、完善的制度建设是成品油市场高效有序运行的重要保障。

固定的替补值估计是均值插补、中位数插补、中间项插补、“补0法”等单一插补MDT,即将一个常数插补到原来缺失数据的位置,该常数既可以是对连续变量集中趋势的反映(如均值、中位数),也可以是定序变量测量的中间项,或者是将缺失数据看作一个单独变量类别并用指定常数(如数字0)来编码。以常数作为替补值的单一插补操作较为简单,这算是一个优势,但也存在一个共同缺陷:使用单个固定的常数作为替补值很可能会低估缺失数据的变异性,容易扭曲变量分布,并导致参数估计有偏。

表2的结果表明,缺失数据比例会影响个案删除对样本代表性的损害程度。首先,在缺失数据比例较小的2003城镇样本中,样本的代表性在列删前后均未出现显著变化:所有社会人口变量的均值和标准差估计值在列删前后基本一致,只有极细小的差异(若只保留小数点后一位,这些差异则观察不到)。其次,列删对缺失数据比例较大的2010城镇、2010乡村样本的代表性造成了一些明显损害。在列删后的2010城镇样本中,样本的性别结构由原先的“女多男少”逆转为“男多女少”,平均年龄下降了2.41岁,受教育平均年限上升了0.93年,平均家庭年收入增加了4.64千元,且在职和党员的个案比例也有所增加;而在2010乡村样本中,除了在职变量的估计结果维持不变外,其他变量的分布在列删后也各自出现了与2010城镇样本中相似的变化[注] 单一样本t 检验的结果表明,性别、年龄、教育、家庭年收入、党员等变量在列删前后的均值差异都具有统计显著性,2010城镇样本中的在职变量的均值在列删前后也发生了显著变化。。一个值得注意的发现是,尽管2010乡村样本也和2003城镇样本一样满足完全随机缺失假设,但列删却降低了其样本代表性,这表明:即便在完全随机缺失的条件下,个案删除的应用仍然存在一定风险。

表4的数据分析结果与基于表3的发现基本一致:在2003城镇样本中,个案删除、中间项插补、均值插补、回归插补4种传统MDT下环境关心得分的均值和标准差与多重插补的估计值基本一致;但在2010城镇、2010乡村样本中,个案删除、中间项插补、均值插补对环境关心得分的均值估计都是有偏差的,只有回归插补较为接近多重插补下的估计结果。此外,同样是在后2个样本中,与多重插补相比,所有传统MDT无一例外都低估了标准差。

2. 多重插补简介

除了表1中的10个CNEP量表项目,本研究涉及的其他测量还包括性别、年龄、教育、家庭年收入、在职、党员、环境知识等变量,它们既作为对缺失数据做回归插补和多重插补时的辅助变量,同时也是回归分析中的自变量,其中:性别变量的编码为0=“女”、1=“男”;年龄变量用受访者在调查年份的实际年龄表示;家庭年收入为受访者在调查年份家庭的总收入,单位为千元;在职变量测量的是受访者的受雇情况,编码为0=“不在职”、1=“在职”;党员变量的编码为0=“非党员”、1=“党员”;环境知识的测量由一个10项目量表组成,每项回答正确计1分,否则计为0分,最后将各项得分累加,得分越高表示受访者环境知识水平越高[12]。除了家庭年收入外,以上变量在3个样本中均没有缺失数据。家庭年收入变量在2003年城镇、2010年城镇和2010年乡村3个数据集中的缺失数据比例分别是11.18%、16.03%和10.93%。为简化研究,本研究对缺失数据的处理仅限于CNEP量表项目,故在以下分析中对家庭年收入的缺失数据统一采取多重插补来处理[注] 家庭年收入的插补选择的是预测均值匹配模型,插补值随机来自由性别、年龄、教育、在职、党员等辅助变量确定的100个个案(knn)的收入取值,利用拔靴法(bootstrap)共插补10次。 。

干预组患者的治疗有效率为94%(47例),明显高于常规组的76%(38例),两组患者治疗有效率比较具有统计学意义(P<0.05,X2=6.3529)。

多重插补的理念由鲁宾提出[2-3]。为说明多重插补的基本原理,我们假设有一个由1 000个个案组成的数据集,它包括800个信息完整的个案和200个仅在某一变量存在缺失数据的个案。关于该变量缺失数据的多重插补过程将分3个步骤完成:第一步,研究者需要对信息缺失的200个个案分别做两次以上(如3次)的模型估计,从而使得每个个案的缺失数据分别有3个估计值[注] 鲁宾认为,插补的次数可以视缺失数据比例来确定,通常2~3次即可,最多不超过10次,但也有部分研究认为插补的理想次数需要达到上百次。 ;用估计值来替补缺失数据,从而形成了3个完整数据集;第二步,基于这3个不同的完整数据集,研究者可以执行统计分析,进而生成了3组不同的数据分析结果;第三步,按照一定规则将多组分析结果合并为1组。

缺失机制只是描述数据集中存在缺失数据的项目与其他项目的关系,要注意与前文提及的造成项目无应答的原因区别开来,但二者也并非完全没有联系,只有在了解项目无应答的具体成因后,我们才能对缺失数据属于何种机制作出准确诊断,以确定最合适的MDT。

在某种意义上,多重插补可以理解为对执行多次热卡插补或回归插补结果的综合,但却较它们能够更好地反映缺失数据固有的不确定性。此外,重复的插补过程也让研究者能够获得对标准差的估计结果,而这在单一插补中通常难以直接获得。尽管大多数研究者认为多重插补假设的数据缺失机制是随机缺失,但也有研究表明多重插补在应用于完全随机缺失和非随机缺失的项目缺失数据时也依然奏效[7]。换言之,多重插补对数据缺失机制的假设并不像一些传统MDT那样严格。总的来说,与传统MDT相比,多重插补毫无疑问是更稳健的项目缺失数据解决方案。

脑膜瘤是临床较为常见的颅脑肿瘤病变,是发生于脑膜及其间隙的一种衍生物,进展缓,病程较长,以成年人为主要发病群,且女性居多。临床表现为头痛、头晕、继发性癫痫等,伴随肿瘤增大,位置变化,会引起视、听、感等知觉障碍症状,对患者身心健康和生命安全造成极大威胁。早期发现和诊断是临床治疗的关键[1-3]。当前,影像学检查是临床颅脑肿瘤最为重要、有效的诊断方法,MRI凭借其较高软组织分辨率、多向成像等优势,在临床肿瘤病变诊断中有着广泛、良好应用[4]。本文主要对我院肿瘤科诊治的25例脑膜瘤患者的临床诊断资料开展回顾性研究,系统剖析MRI及其增强扫描的诊断效果,现报告如下。

3. 项目缺失数据处理在国内社会学研究中的实践现状

2012—2016年5年间,《社会学研究》和《社会》两大国内社会学核心期刊共刊登了187篇以抽样调查数据为基础的实证研究论文。通过对这187篇论文的梳理发现,只有约一半数量的论文(97篇)明确报告或讨论了项目缺失数据;在所有未谈及项目缺失数据的论文中,通过比较各篇论文在研究设计部分报告的有效样本与实际分析样本的规模差异,笔者也检测出有51篇论文虽未报告但却存在或多或少的项目缺失数据;此外,另有39篇论文的项目缺失数据情况无法得知。笔者由此得到的第一个重要认识是,项目缺失数据问题目前尚未引起国内社会学定量研究者的高度警惕。

进一步,笔者对两大期刊明确报告或讨论过项目缺失数据的97篇论文报告的应对策略进行了归纳,结果发现:在当前国内主流社会学界,研究者们采取了多样化的策略来应对项目缺失数据问题,其中也折射出一个突出问题:既有研究普遍没能在方法论意义上对研究涉及的项目缺失数据进行妥善处理。首先,笔者发现,以基于最大似然/贝叶斯估计的模型分析和多重插补为代表的现代MDT尚未在国内主流社会学研究中获得广泛应用。在所有应用了MDT的论文中,只有个别研究(3.75%)报告基于最大似然/贝叶斯估计的模型直接分析缺失数据,而采用多重插补的研究也只占一成(10.00%)。其次,研究者们普遍青睐传统MDT(特别是个案删除)来处理项目缺失数据。在报告处理了项目缺失数据的80篇论文中,超过九成(92.50%)的研究者都不约而同地选择了个案删除来处理缺失数据,也有相当多的研究者(占17.51%)采用了均值插补、中间项插补、“补0法”“回归插补”等单一插补技术对缺失数据予以一次性的信息填补。再次,尽管有研究报告了数据的缺失情况,但却选择直接分析含有项目缺失数据的数据集(占8.25%)或因为顾及项目缺失数据对分析结果的可能影响对存在缺失数据的个案予以单独分析(占9.28%),需要注意的是,前一种应对策略在实际分析中仍然会被统计软件包默认以个案删除的方式处理,后者也无法真正规避缺失数据对研究结论的不利影响。此外,只有非常少的研究讨论了其使用的项目缺失数据应对策略对数据分析结果可能造成的影响,而仔细考察过项目无应答成因及数据缺失机制的研究更是寥寥无几。

4. 反思:什么样的MDT是有效的?

在一些严格的统计学家看来,以个案删除和单一插补为代表的所有传统MDT由于各自的一些缺陷而都应当被禁用,只有多重插补等现代MDT才是项目缺失数据最有效的解决方案。本文的观点是,统计有效性不应当作为判定某种MDT有效与否的唯一标准。现代MDT对统计有效性的提高是以牺牲一定的实践有效性(practical efficiency)为代价的,故对许多缺乏统计学背景的社会学定量研究者来说不能算是最合适的解决方案。需要看到的是,传统MDT是在长期研究实践中逐渐形成的,相比现代MDT更易于理解和操作,在一些条件下也被证明具有统计有效性,这是它们能够在国内社会学研究领域中得以广泛流行的重要原因。因此,不宜因为传统MDT不稳定的统计有效性而将这些颇具实践有效性的解决方案完全弃之不用。

笔者推荐学有余力的研究者在研究中优先选择多重插补等现代MDT,与此同时,笔者也希望可以明确影响传统MDT统计有效性之稳定的主要条件,旨在让研究者们在今后的项目缺失数据处理中能够拥有更多自主选择的空间。在回顾既有研究的基础上,笔者认为,可以结合项目缺失数据比例(proportion of missing data)来评估传统MDT的统计有效性。传统MDT的统计有效性受到一些不可控条件的约束,缺失数据比例便是其中一个最重要的因素。有研究表明,当缺失数据比例较小时,传统MDT也展现出较好的统计有效性。笔者从中获得的启示是:如果能够控制住缺失数据比例的影响,传统MDT同样可以纳入研究者们应对项目缺失数据的备选方案。笔者将结合一个环境社会学的示例研究在实践中检验该想法的可靠性。

三、 示例研究设计

1. 数据基础

示例研究使用的数据来自2003和2010两个年度的中国综合调查(Chinese General Social Survey, CGSS)。CGSS2003覆盖了中国大陆地区25个省级行政单位的城镇地区,CGSS2010除了将调查范围拓展为大陆地区全部31个省级行政单位外,还同时在城镇和乡村地区进行了数据收集。除一些社会人口变量外,本研究涉及的主要变量均来自两个年度CGSS调查中的环境模块[注] 关于CGSS调查数据的更多介绍请参见http:∥www.chinagss.org。 。此外,为确保分析结果的精确性,笔者依照两次CGSS调查中受访者对环境模块的回答情况做了更为严格的个案筛选,凡是对NEP量表和环境知识量表共计25个项目全部无应答的个案都被视为单位无应答而予以排除。最终,CGSS2003、CGSS2010数据集分别有5 072和3 596个个案进入数据分析,其中,CGSS2010中城乡地区的个案数分别为2 315和1 281个。

2. CNEP量表在CGSS中的应答情况

进一步,笔者比照既有研究对CNEP量表的使用,将该量表的各项得分累加,从而建构了取值在10~50之间的环境关心变量。表4呈现的是不同MDT技术下3个CGSS样本中环境关心得分的均值和标准差,笔者依然以多重插补下的估计结果作为参照基准。

表1 CNEP量表在2003和2010年度CGSS调查中的各项缺失情况

由表1可知,在CGSS2003调查结果中,CNEP量表各项无应答个案数较少,各项缺失数据比例在0(CNEP1)~0.34%(CNEP7),但在CGSS2010调查结果中,无论是城镇还是乡村,CNEP量表各项的无应答情况显著增加,城镇样本各项的缺失数据比例在6.39%(CNEP4)~18.01%(CNEP5),乡村样本中这一比例在14.75%(CNEP4)~37.47%(CNEP5)。整体来看,CNEP量表各项在CGSS2010中的缺失情况要比CGSS2003严重,在乡村的缺失情况又要比城镇严重。实际上,在CGSS2010对CNEP量表各项的调查中,由于受访者“拒绝回答”“不适用”和回答“不知道”造成的缺失数据并不多,占城镇、乡村样本比例分别在1.25%和0.47%以下;在控制以上3种缺失“原因”的情况下,乡村样本中仍然有14.52%(CNEP4)~37.00%(CNEP5)的个案对CNEP项目无应答,城镇样本中这一比例为5.66%(CNEP3)~16.85%(CNEP5)。可见,CNEP量表项目在CGSS2010调查中更普遍的无应答情况在很大程度上与当年问卷设计中新增的“无法选择”选项有关。

为什么CGSS调查中CNEP各项出现了程度不一的无应答呢?对于未能参与调查设计和执行过程而直接使用二手数据的研究者们而言,这一问题的答案无从考证。笔者利用STATA统计软件包提供的mcartest命令,对3个样本中的CNEP量表各项缺失数据是否满足完全随机缺失假设进行了检验,结果表明:2003城镇样本和2010乡村样本在CNEP量表各项缺失数据满足完全随机缺失假设,而2010城镇样本则违悖了该假设。在此情况下,笔者只能退一步假设2010城镇样本在CNEP量表项目的缺失数据满足随机缺失[注] 笔者对2010乡村样本中CNEP量表各项缺失数据满足完全随机缺失假设的结果也感到意外,这一有趣的发现值得进一步探讨;即便2010城镇样本的CNEP量表各项缺失数据可能不完全满足随机缺失假设,但依前所述,多重插补仍然适用。 。结合既有研究发现,本研究假设2010城镇地区的CGSS调查中,受访者对CNEP各项无应答形成的缺失数据主要取决于他们的社会人口特征和环境知识水平。

由图3、图11、图12可知,卷筒侧钢丝绳的张力最大时,卷筒结构上的最大等效应力并非是该运行阶段内最大的。因为卷筒结构上的最大等效应力不仅与卷筒侧钢丝绳的张力有关,还与钢丝绳的缠绕系数有关。在满载上提过程中,卷筒结构的最大等效应力为131.6 MPa,低于材料的屈服极限,达到最大等效应力的时间为87 s,即为钢丝绳缠绕卷筒第3层且等速阶段结束的时刻;空载下放时,卷筒结构的最大等效应力为75.12 MPa,时间在第52秒,即发生在等速阶段。

根据CNEP量表项目的实际缺失情况,笔者可以将CGSS的2003城镇样本、2010城镇样本和2010乡村样本近似看作少量缺失、中等缺失和严重缺失的数据集。因此,对以上3个数据集的缺失数据处理分别代表了不同缺失数据比例条件下的3种情况,它们为检验笔者的研究想法提供了一组自然实验数据。

3. 变量测量

在认真考察了项目缺失数据的复杂成因和不同机制后,统计学家们提出了若干现代MDT,包括基于最大似然/贝叶斯估计的模型分析(model analysisbased on Maximum Likelihoodor Bayesian estimation)[5]、随机森林缺失数据算法(Random Forest Missing Data Algorithms)[6]以及多重插补,这几类MDT被证明在处理项目缺失数据时都十分可靠,但多重插补在当前实证研究中的应用相对要更加广泛。为节约篇幅,本文只选取多重插补作介绍。

4. 分析策略

示例研究旨在探索缺失数据不同比例情况下若干传统MDT的统计有效性。根据前文所述,多重插补是目前公认的最具统计有效性的一种现代MDT,故本研究将基于多重插补的数据分析结果作为评估其他传统MDT的基准。限于文章篇幅,笔者将考察的目标范围限定在目前国内社会学界常用的个案删除、均值插补、中间项插补和回归插补共4种传统MDT,用它们分别来处理CNEP量表各项缺失数据。具体来说:CNEP量表各项缺失数据的多重插补选用了链式方程的ologit回归模型,辅助变量有性别、年龄、教育、家庭年收入、在职、党员、环境知识和其余量表项目,利用拔靴法共插补了10次;个案删除使用的是列删法,即只要个案在任意一个量表项目存在缺失数据,则删除该个案;中间项插补将量表各项的缺失数据统一视为受访者选择了“无所谓同不同意”的选项,编码为数值3;均值插补用量表各项的平均值来替补各项的缺失数据;回归插补使用了与多重插补相同的插补模型,但仅采用了多重插补的首次插补结果来构造量表各项的完整数据。

本研究对若干传统MDT统计有效性的评估分为两块:一是评估不同传统MDT对变量分布的影响,二是评估不同传统MDT下多元统计分析结果的精确性。所有数据分析过程主要是利用STATA14.0统计软件包来完成,同时对3个不同样本执行分析命令。

四、 缺失数据处理与变量分布

1. 个案删除会损害样本代表性吗?

在大多数统计学家们看来,个案删除仅适用于完全随机缺失假设,否则很可能会降低样本对总体的代表性。所谓样本代表性,可以理解为调查样本在性别、年龄、职业、收入等社会人口特征变量分布与总体具有相似性。本研究使用的3个CGSS样本都是通过随机抽样获得,故笔者假设它们最初都对总体具有良好的代表性。表2比较了列删前后一些社会人口变量在3个样本中的分布,采用列删法来处理CNEP量表的项目缺失数据后,2003城镇、2010城镇和2010乡村3个样本相继折损了61、755和683个观察个案,占全部个案数的比例分别为1.20%、32.61%和53.32%。

对比之下,以热卡插补(hot-deck imputation)和回归插补(regression imputation)为代表的单一插补MDT对替补值的估计结果则是变动的,因而更多考虑到缺失数据的变异性。热卡插补技术的核心理念是用当前数据集中相近个案的实际值分别作为替补值,在具体操作中,首先需要利用一些辅助变量(auxiliary variable)在数据集中信息完整的个案里筛选出一组与受赠者(the recipient)情况相近的潜在捐赠者(the donor),接着采用随机(或非随机)的方法确定某个捐赠者,并用其对某个项目的实际回答结果来替代受赠者的无应答[注] 与热卡插补相近的另一种缺失数据处理技术是冷卡插补(cold-deck imputation),其操作过程与热卡插补相似,只是捐赠者来自另一个独立数据集。 。回归插补假设某目标变量存在缺失数据,并基于一些高度相关且信息完整的其他变量建立目标变量的回归方程,在此基础上计算出不同个案的相应期望值作为缺失数据的替补值。整体上看,热卡插补和回归插补在处理不同个案的缺失数据时更具灵活性和针对性,从而克服了使用单个固定值的单一插补技术对缺失数据变异性的低估,对变量分布的扭曲也相对减少。

表2 对CNEP量表项目缺失数据列删前后的社会人口变量分布(CGSS)

注:家庭年收入在3个样本数据中都存在一定的缺失值。

2. 不同MDT对含有缺失数据变量分布的影响

除了社会人口变量的分布由于大量个案被删除而可能被改变外,那些被MDT或删除个案或插补数值的变量之分布受到的影响可能要更加直接和明显。本研究重点关注的变量是在3个CGSS样本中都带有一定缺失数据的10个CNEP量表项目,为此,笔者在表3中呈现了应用5种MDT下CNEP量表各项的均值和标准差。按照研究设计,笔者假设多重插补后CNEP量表各项均值和标准差的估计结果最接近真实值,并将其与其他传统MDT的估计结果进行比较。

由表3结果可知,传统MDT在何种程度上改变含有缺失数据变量之分布会受到缺失数据比例的影响。在2003城镇样本中,CNEP量表各项在经由所有4种传统MDT处理后,其各自的均值和标准差都与多重插补的估计结果相同或没有显著差异。相较之下,在2010城镇、2010乡村2个样本中,所有被考察的传统MDT都或多或少改变了CNEP量表某项或多项的分布。具体来说,与多重插补的估计结果相比:①个案删除高估了2010城镇样本中CNEP量表第2、3、5、7、9项以及2010乡村样本中CNEP量表第3、5、7、9、10项的均值,且低估了2个样本中所有CNEP量表项目的标准误;②中间项插补明显低估了2010城镇样本的全部CNEP量表项目以及2010乡村样本中除了第5、7项外其余8个CNEP量表项目的均值,且同样低估了2个样本中CNEP量表各项的标准误(2010城镇样本中的CNEP4例外);③均值插补显著高估了2010城镇样本中CNEP量表第5、7两项以及2010乡村样本中CNEP量表第5、7、10项的均值,且CNEP量表各项的标准误在2个样本中也都被低估;④与上述3种传统MDT相比,回归插补对CNEP量表各项分布的影响相对较小,除了2010乡村样本中CNEP5的均值被显著低估外,其余各项的均值都与基于多重插补的估计值一致,但基于回归插补,CNEP量表各项的标准差在2个样本中同样有不同程度被低估的情况。

CNEP量表(Chinese New Ecological Paradigm scale)包含了本研究演示不同MDT的关键项目,该量表前身是美国环境社会学家邓拉普等提出的用于测量公众环境关心的新生态范式量表[8],后经由洪大用等引入中国大陆并重新修订[9-10],是测量当代中国公众环境关心的一个成熟工具。CNEP量表在2003和2010年度的CGSS调查中都得到过应用。如表1所示,CNEP量表共由10个测量项目构成,其中,第5、7两项为负向陈述,其余各项为正向陈述。本研究将2003和2010两个年度CGSS调查中对负向陈述项目回答“完全不同意”“比较不同意”“无所谓同不同意”“比较同意”“完全同意”依次赋值为5、4、3、2、1,正向陈述项目的上述回答则依次赋值为1、2、3、4、5。实际调查将受访者“拒绝回答”、回答“不知道”和“不适用”相应CNEP项目的情况都视为无应答[注] “拒绝回答”“不知道”和“不适用”在CGSS原始调查数据中的编码分别为-3、-2、-1。 。需特别说明的是,CGSS2010调查问卷中,CNEP量表的各项测量新增了一个“无法选择”的选项,因为不具信息价值,所以笔者将这一回答结果也看作无应答。表1是CNEP量表在2003和2010两个年度CGSS调查中由各项无应答造成的缺失数据情况。鉴于中国城乡居民环境心态体系的显著差异[11],笔者将2010年度的城、乡调查结果分开来考察。

表4 采用不同MDT后CNEP量表的得分情况(CGSS)

注:*p ≤0.05。

个案删除和单一插补是研究者们在长期研究实践中逐渐摸索出来的两类传统MDT,各有优势,但它们对项目缺失数据的处理也都有着一些瑕疵,特别是可能会对变量分布和多元统计分析结果的精确性造成不利影响。在关于缺失数据机制的正式研究开始前(甚至直至今日),研究者们对缺失数据处理技术的选择一直具有很强的主观随意性:在很大程度上,传统MDT的应用能否有效解决缺失数据造成的问题还是又制造出新的“麻烦”似乎更多地取决于运气。自20世纪70年代起,随着多重插补等现代MDT的正式提出,项目缺失数据开始有了更加成熟的应对方案。

综上所述,使用传统MDT来处理项目缺失数据不仅可能会降低样本对总体的代表性,还可能会因此扭曲项目相关变量的分布;但当缺失数据比例较小时,传统MDT对样本代表性没有太大影响,且对被处理后的变量之分布似乎也未造成显著干扰。

五、 缺失数据处理与多元统计分析

传统MDT(特别是单一插补)由于对方差和标准差的估计可能有偏差而扭曲以方差或协方差矩阵为基础的一些多元统计分析结果。接下来,同样是以3个CNEP量表项目缺失数据比例不一的CGSS样本为例,本研究撷取了验证性因子分析和回归分析两种常见多元统计分析,并考察不同MDT下它们对于CNEP量表项目分析结果的影响。

1. 验证性因子分析

验证性因子分析是结构方程模型的一个重要步骤,旨在确认不同测量项目与同一理论概念(潜变量)之间的关系(以取值在0~1之间的因子负载系数来表示),它是一项以协方差估计为基础的多元统计技术。在关于CNEP量表的既有研究中,研究者们明确指出该量表是一个单一维度量表,共同测量环境关心这一潜变量。表5呈现的是应用了不同MDT后CNEP量表的单维验证性因子分析结果。

当地今年大部分肥料经销户肥料销售状况不容乐观,一方面是由于今年肥料价格较高,农户不愿投入,在选择肥料时只关注肥料价格,选择价低质次的产品,而价格较高的品牌产品销售困难。另一方面由于玉米价格持续低迷,农户种植玉米几乎没有收益,因此许多农户将小麦、玉米轮作改为单种小麦。

表5结果显示,缺失数据比例会影响一些传统MDT下验证性因子分析结果的精确性。尽管传统MDT下CNEP量表各项单维因子负载在所有样本中都与多重插补的估计值大体相近,但t 检验的结果却表明,除了回归插补外,其他3种传统MDT下许多CNEP量表项目的因子负载值在3个样本中都或多或少与多重插补的估计结果存在显著差异。在2003城镇样本中,个案删除下的CNEP4、中间项插补下的CNEP3以及均值插补下的CNEP9等个别CNEP量表项目的因子负载值与多重插补下的估计结果具有统计学意义上的差异。但如果按照惯例,以0.3作为因子负载值的可接受标准,2003城镇样本中的这些显著但却细微的差异并不会改变研究结论。相较之下,在CNEP量表各项缺失数据比例偏大的2010城镇、2010乡村2个样本中,使用回归插补以外3种传统MDT后的被“误估”情况有所增加:个案删除后,2010城镇、2010乡村样本中分别有3个CNEP量表项目的因子负载值被显著高估;中间项插补后,2010城镇、2010乡村样本中分别有3个和1个CNEP量表项目的因子负载值被显著高估;而在均值插补后,2010城镇、2010乡村样本中分别有4个和3个CNEP量表项目的因子负载被显著低估。在实际研究中,这些看似微小的估计值差异实则干扰了研究结论的精确性。例如,同样以0.3作为因子负载值的标准,尽管都是以2010乡村样本作为数据基础,在保留小数点后一位的情况下,使用个案删除和多重插补分别处理缺失数据,关于CNEP7的因子负载是否达标会得出截然相反的结论。

2. 多元线性回归分析

进一步,笔者建立了环境关心(CNEP量表项目累加得分)的多元线性回归模型,模型的自变量有男性、年龄、教育、家庭年收入、在职、党员和环境知识等。本研究对应用了不同MDT后的3个CGSS样本数据集进行模型估计,结果见表6。

表6 采用不同MDT后CNEP得分的多元线性回归分析(CGSS)

注:括号外和内分别是标准化回归系数和标准误;表格呈现了回归系数的统计显著性检验结果,*p ≤0.05。

表6呈现的结果较多,但仔细观察不难发现,缺失数据比例再次对不同MDT下的回归分析结果产生了重要影响。一方面,在2003城镇样本中,不同MDT下的回归模型估计结果基本一致,无论是F 值还是判定系数,4种传统MDT下的估计结果都与多重插补的结果极为接近,从标准化回归系数来看,除了均值插补和回归插补下收入的作用方向被扭转外(但不具有统计显著性),5组模型估计结果也没有特别明显的差异;另一方面,基于2010城镇、2010乡村2个样本的回归分析结果表明,传统MDT可能会直接影响估计值的精确性。例如,应用中间项插补后,不仅回归分析的模型拟合指标(F 值、判定系数)与多重插补的估计结果存在很大出入,环境知识的标准化回归系数在2010城镇、2010乡村样本中也分别高出多重插补估计值0.115和0.151[注] 单尾t 检验的结果表明,这两组差异都具有统计显著性。。再如,与多重插补的结果相比,个案删除和回归插补在2010乡村样本中对家庭年收入影响的统计显著性检验结果有误,将模型中原本不显著的家庭年收入变量误判为显著。此外,笔者还注意到,在2010城镇、2010乡村样本中,尽管一些变量的回归分析结果不具统计显著性,但回归系数方向却被扭转了,如2010城镇样本中的性别、年龄变量以及2010乡村样本中的年龄变量都可能因为部分传统MDT的应用出现相反的回归系数方向。

油层录井多见油气显示,含油级别一般在油斑级别以上,且多为油浸级别。含油饱和度一般为40%~55%,原油密度为0.857~0.938g/cm3,黏度为7.01~1 600mPa·s,地层水矿化度高且变化较大,一般为(8~13)×104 mg/L,最低2.6×104 mg/L,最高20×104 mg/L。

本部分的数据分析结果表明,在缺失数据比例较小的条件下,传统MDT下的多元统计分析整体上呈现出较好的统计有效性;而当缺失数据比例偏大时,为确保分析结果的精确性,在执行多元统计分析前应避免使用传统MDT来处理项目缺失数据。

上官星雨也扑哧一笑,吴耕就是一个大蠢驴,他这一缓,乌有先生的白棋局面落后不少,她抬头看向子虚:“子虚爷爷这一着我来帮你下,要是我下得不好,你可别用你的烛花掌烧焦了我的头发和眉毛!”子虚点头。

六、 结论与讨论

首先,本文简要介绍了项目缺失数据及其处理技术,由前文介绍可知,项目缺失数据的成因十分复杂,有着不同的缺失机制。在众多项目缺失数据的应对策略中,与以多重插补为代表的现代MDT相比,许多传统MDT尽管被证明具有实践有效性,但其统计有效性却并不稳定。其次,利用一项示例研究,本文对不同缺失数据比例下若干传统MDT的统计有效性进行了初步探索。示例研究结果表明,在缺失数据比例较大时,传统MDT除了有可能扭曲数据集中的变量分布外,还可能会导致多元统计分析结果有偏;而当缺失数据比例较小时,传统MDT整体上呈现良好的统计有效性。

在开展信息化管理的过程中,企业就会广泛而深入地运用计算机技术。因此,在管理过程中,企业必须订立一个科学的操作规程以及严格的工作规范,不定期地对企业员工进行培训以及教育,并适当地抛弃那些与实际状况不符的工作方式,深入学习一些先进的操作流程以及生产技术,在真正意义上提升企业员工的整体素质。

本文写作的一个重要目的是提醒国内社会学界重视项目缺失数据及其处理等相关议题。总的来说,目前国内大多数社会学定量研究者对项目缺失数据的重视程度还不够,反映在MDT的选择上具有较强的主观随意性。笔者在此呼吁,为提高研究结论的可靠性,未来的中国社会学研究应给予项目缺失数据更多关切。受美国心理学会制定的相关标准启发[13],笔者建议今后国内社会学定量研究可参照以下3个步骤来报告和管理项目缺失数据:第一步,报告所有研究涉及项目或变量的缺失数据比例;第二步,根据项目缺失数据的成因思考其具体属于何种缺失机制;第三步,选择有效的MDT来处理项目缺失数据。以上3个步骤需要研究者、期刊编辑和审稿人3方共同推动才能真正落实。

四是推广《社区矫正心理矫治工作指导手册》的应用,通过现场指导、集中培训等方式,培养一批心理矫治工作的行家里手。同时,组织研讨会,交流心理矫治工作经验,总结成功案例,向全区推广成功的工作做法和工作典型,推动社区矫正工作整体上水平。

理论上,研究者可以通过控制社会调查中那些影响项目无应答的因素来减少项目缺失数据发生的概率。如果是一手调查数据,在充分理解项目缺失数据不同成因的基础上,身兼调查设计者的研究者可通过改善社会调查过程的各个环节来竭力预防项目无应答情况的发生。例如,示例研究使用的CGSS2010调查数据中,CNEP量表各项提供给受访者的选项较CGSS2003新增了一个“无法选择”的选项,实则给予受访者更多的无应答空间,最终导致2010城镇、2010乡村2个样本中的CNEP量表各项缺失数据比例都有不同幅度的增加,而这些缺失数据本可以在问卷设计环节就能够避免。

毫无疑问,多重插补等现代MDT是目前应对项目缺失数据最具统计有效性的技术手段。然而杀鸡焉用牛刀?本文的核心观点是,鉴于多重插补在国内社会学界的全面应用目前还存在一定技术壁垒,在控制缺失数据比例的条件下不妨考虑选择更具实践有效性的一些传统MDT。对不熟悉多重插补原理与操作的研究者而言,如果研究本身对估计值的精确性要求不高,项目缺失数据的处理可以将兼具统计有效性与实践有效性的一些传统MDT纳入备选方案。结合既有统计学研究和示例研究的发现,笔者建议将研究涉及所有项目之总缺失数据比例的临界值定为5%比较合适:当缺失数据比例小于5%时,可优先考虑一些传统MDT,并重点推荐使用回归插补;而当缺失数据比例大于5%时,应当考虑使用现代MDT来确保研究结论的精确性。当然,5%的标准也不是绝对的,笔者希望研究者们在实际研究中可以灵活把握,也欢迎今后的研究对此标准有更多的讨论。此外,需要读者注意的是,缺失数据比例并不是影响传统MDT统计有效性的唯一因素,样本规模、提供关键信息个案等因素的影响也不能完全摒除。作为一项探索性研究,本研究的发现至少表明,小比例的缺失数据是应用传统MDT的一个重要前提。笔者鼓励更多研究能够考察影响传统MDT统计有效性的其他因素,从而为研究者们选择有效的MDT提供更充分的参考信息。

囿于篇幅,本文的很多介绍不能详细展开,但关于项目缺失数据的更多理解无疑会使我们在预防和处理这类问题时显得更加游刃有余。本研究介绍和着重演示的MDT也只是项目缺失数据所有应对方案中的一部分。鉴于此,笔者既鼓励有兴趣的读者去自行研阅相关文献,同时也督促未来的社会统计学教材可以尽早纳入有关项目缺失数据和MDT的专门介绍。

[参 考 文 献]

[1]BETHLEHEM J,COBBEN FA,SCHOUTEN B.Handbook of nonresponse in household surveys[M]. New Jersey: John Wiley & Sons, 2001: 418.

[2]RUBIN D B. Inference and missing data[J].Biometrika,1976(3): 581-592.

[3]RUBIN D B. Multiple imputation for nonresponse in surveys[M]. New York: John Wiley & Sons, 1987.

[4]ALLISON P D. Missing data[M].Thousand Oaks, CA: Sage, 2000:12.

[5]帅平,李晓松,周晓华,等.缺失数据统计处理方法的研究进展[J].中国卫生统计,2013(1):135-139.

[6]TANG F,ISHWARAN H.Random forest missing data algorithms[J]. Statistical Analysis and Data Mining: The ASA Data Science Journal, 2017(6): 363-377.

[7]GLYNN R J,LAIRD N M, RUBIN D B.Multiple imputation in mixture models for nonignorable nonresponse with follow-ups[J].Journal of the American Statistical Association, 1993,88(423): 984-993.

[8]DUNLAP R E,VAN LIERE K D,MERTIG A G,et al.New trends in measuring environmental attitudes: measuring endorsement of the new ecological paradigm: a revised NEP scale[J].Journal of Social Issues,2000(3): 425-442.

[9]洪大用.环境关心的测量:NEP量表在中国的应用评估[J].社会,2006(5):71-92.

[10]洪大用,范叶超,肖晨阳.检验环境关心量表的中国版(CNEP)——基于CGSS2010数据的再分析[J].社会学研究,2014(4):49-72.

[11]范叶超,洪大用.差别暴露、差别职业和差别体验——中国城乡居民环境关心差异的实证分析[J].社会,2015(3):141-167.

[12]洪大用,范叶超.公众环境知识测量:一个本土量表的提出与检验[J].中国人民大学学报,2016(4):110-121.

[13]WILKINSON L, Task Force on Statistical Inference of APA Board of Scientific Affairs.Statistical methods in psychology journals: guidelines and explanations[J]. American Psychologist, 1999(8): 594-604.

[中图分类号] C91-03

[文献标识码] A

[文章编号] 1671-7287( 2019) 03-0064-16

[收稿日期] 2018-12-27

[作者简介] 范叶超(1990-),男,安徽宣城人,中央民族大学民族学与社会学学院讲师,博士,研究方向:环境社会学、社会理论。 曼彻斯特大学可持续消费研究所博士研究生刘齐协助作者展开了一些数据收集和整理工作,在此表示感谢,同时,感谢编辑和匿名审稿人的修改建议。限于篇幅,本文出版时做了较大删节和改动,故一些细节无法详细展开,欢迎有兴趣的读者来函索取原稿。

[责任编辑 章 诚]

标签:;  ;  ;  ;  ;  ;  ;  

项目缺失数据的若干处理技术及其有效性评估-以中国版环境关心量表(CNEP)的应用为例论文
下载Doc文档

猜你喜欢