经济统计调查中缺失数据的修复,本文主要内容关键词为:缺失论文,数据论文,经济论文,调查中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、问题的提出
抽样调查中,常常会出现调查对象无回答的情况,当然,在增加人力、财力,提高调查技巧和水平以及多次重访的条件下,无回答的现象可能会有所减少,但要在所有抽样调查中都完全消除无回答的现象是不现实的。
按无回答项目的范围来划分,无回答可分为项目无回答(即部分调查项目无回答)和单位无回答(即全部调查项目无回答)两种情况。本文讨论有关项目无回答的数据补充问题。
关于项目无回答的数据补充方法,统计学家们作出了种种不懈的努力和尝试,提出了许多数据补充的思路和方法,这些方法可以分为统计估算法和明显替代法两大类。其中,统计估算法是以获得的部分统计信息为基础,根据现象之间的内在联系和数量关系,对缺失数据进行估算和推断的方法。主要包括平均关系估算法、因素估算法、比例估算法、构成估算法、模型估算法和插值估算法等方法。明显替代法一般是在所能够获得的各种统计资料中,寻找它们与无回答项的统计联系,从中找出一个尽可能与无回答项条件相似的单位的数值作为其替代值。明显替代法主要包括完全匹配替代法、演绎替代法、距离函数替代法和均值替代法等。
我们认为:统计估算法的优点在于可应用的方法灵活广泛,但其不足在于缺乏一个重点的实际值作为补充的依据。而明显替代法的优点是找出了一个实际值作为缺失值的替代值,但对这个替代值与真实的缺失值可能存在的偏差却重视不足。因此,我们在两类方法的基础上提出一种综合吸收两类方法优点的替代(估算)方法——调整替代估计法。
二、调整替代法的基本思路
首先,我们将全部样本单位按是否回答划分为以下4个部分,见表1(表略,见原文,下同)。
其次,在已全部回答的项目上,建立已全部回答的单位与未全部回答单位的“接近系数”,此接近系数反映在同一调查项目上已全部回答的单位与未全部回答单位的“接近“程度。
第三。在所有已全部回答的项目上,将上述“接近系数”综合起来,计算反映已全部回答的各单位与未全部回答的各单位两两之间的的“总接近”或“综合接近系数”,找出各未全部回答的各单位在“总接近”程度上最“接近”的已全部回答单位,即“最接近”单位。
第四,以”最接近”单位的数据替代未全部回答单位相应各空缺的无回答项目,作为该单位无回答项目的初始值。之所以作为初始值,是因为即使是最“接近”单位,也只是“综合”意义上的最接近,并不排除在具体无回答项目上仍然有较大的差异,这个差异有待于以下的调整。
第五,调整的基础是先找出相对于未全部回答的项目而言,已全部回答的各项目中与之相关程度最高的项目。再根据在该项目上,作为初始值的单位与待估单位之间的“单接近系数”构建一个调整值,对初始估计值进行调整,则可得到调整估计值。
三、调整模型的建立
设调查取得了一个包含n个单位的随机样本,f是回答了全部调查项目的单位数,g是只回答了部分调查项目的单位数,n=f+g。即不存在所有项目均无回答的单位(即只存在项目无回答,不存在单位无回答的情况)。
设全部调查项目有H个,其中已全部回答的调查项目为P个,未全部回答的调查项目为M个,即有H=P+M。
四、数例计算
某小区进行家庭收入调查,调查户共为6户(为简明计算),其各项指标如表3(表略)。
假定第5号和第6号家庭拒绝回答每月文化娱乐支出和家庭月收入数据,我们用上述调整估计法对其进行估计(括号内的数值为实际数据,现假定为本知数据,作对比分析使用)。由虚线划分的四个部分的意义见表1、表2。
首先,计算各已全部回答家庭与未全部回答家庭在已全部回答项目上的“接近系数”。
第1、2、3、4号家庭与第5号家庭的各接近系数为:
第1、2、3、4号家庭与第6号家庭的各接近系为
可计算出各总接近系数如表6(表略)。
由表6可见,。
即第3号家庭为第5号家庭的最接近单位,第2号家庭为第6号家庭的最接近单位。
前三个已全部回答项目与后两个未全部回答项目之间的相关系数矩阵为
由调整估计模型可计算出:
=3500-727.44×0.3544=3242.20(与真实值也相差很小)
类似地,可计算第6个单位的空缺值:
由总接近系数可见,与之最接近的单位是第2号单位,则首先将第2号单位的文化娱乐支出260元/月作为第6号单位的初始值,可计算其调整值为
=260-110.15×0.3544=220.96(待估真值为220)
同理可计算出第2号单位的家庭收入估计值为:
=1800-727.44×0.3544=1542.20(待估真值为1600)
可见均与实际值相差甚微,且对直接替代值作了很好的调整。亦即估计效率较之于用初始值直接替代有了十分明显的提高。