抽样测量系统误差的估计偏差分析_样本容量论文

抽样调查的系统性误差中估计量偏差的分析,本文主要内容关键词为:抽样调查论文,误差论文,偏差论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

抽样调查已成为我国统计工作中的主要调查方式,但抽样调查事实上始终受着系统性误差的影响,致使抽样调查的结果多少存在问题,而抽样调查实践中估计的偏差这种系统性误差对估计结果的影响,人们的认识还不全面,本文试对此作出分析。

抽样调查的误差,是样本的某一估计值与总体对应参数真值的差距,这个差距的大小直接关系到该估计值对总体参数估计的准确程度。根据形成误差的原因,抽样调查中的总误差分为随机误差和系统性误差两部分,前者是不可避免的,它是由样本结构与总体结构的随机差异导致产生的,通常所计算的抽样误差就是这部分随机误差。后者主要是受人为因素的影响而产生的,在抽样调查的实践中亦难以避免,它具有难以预测和非随机性等特点。

根据各类误差产生的原因,可以将抽样调查的总误差用下图表示:

┌随机误差

│ ┌设计误差

总误差┤ │估计量的偏差

│系统性误差┤

│ │调查误差

└ └编辑误差

显然,估计量的偏差是系统性误差的组成部分,对这部分误差一般的认识是,理论上可以对其进行有效测量,但事实上,在抽样调查的实践中所形成的这部分估计量偏差有时是难以计量的,这一点通常不被人们所认识。

进而破坏了估计量的无偏性准则而形成的系统性误差。这种系统性误差的存在对抽样调查结果的准确性的影响方式可以用下图直观地表示出来:

A表明,样本估计值分布集中,随机误差少,估计精确度高,分布的中心与总体真值重合,表明不存在系统性误差, 估计的准确度高;B表明,样本估计值分布不集中,随机误差大,估计精度低,尽管分布的中心与总体的真值重合,不存在系统性误差,但出于随机误差大,故总误差亦较大,估计的准确度低;C表明,样本估计值分布较集中, 随机误差小,但分布的中心偏离总体真值,存在偏差,估计的精确度虽然高,但出于这种系统性误差的存在,使总误差增大,故估计的准确度较低,但若这个分布的偏离程度较少,由于其估计精度较高,尽管存在系统性误差的估计,由于总误差可能亦较小,这个估计仍是可取的。D 表明,样本估计值的分布较分散,随机误差大,且估计值的分布偏离中心,存在系统性误差,故较大的随机误差和系统性误差的存在,使总误差很大,估计的准确度很低。

从理论上讲,在偏差存在的情况下,干扰估计的准确度的量是偏差B对总体标准差σ的比率B/σ,例如,偏差对于估计的误差范围大于1.96σ的影响的概率见下表。

B/σ左尾概率右尾概率 总和

0.02 0.0238 0.0262 0.0500

0.04 0.0228 0.0274 0.0502

∶∶ ∶ ∶

0.10 0.0197 0.0314 0.0511

0.20 0.0154 0.0392 0.0546

∶∶ ∶ ∶

1.00 0.0015 0.1685 0.1700

1.50 0.0003 0.3228 0.3231

从上表可以看出,对于估计的误差范围大于1.96σ的概率,若存在偏差,且偏差小于1/10的标准差,那么偏差的影响也很小。 当偏差等于标准差的1/10时,总的概率是0.0511, 而不是在无偏估计情况下的0.05;若偏差进一步扩大到等于标准差时,则总的概率为0.17,偏差的干扰就比较严重。所以,判断一个有偏差影响的估计是可以接受的量的标准是B/σ<0.10,这可以作为抽样实践中的一条工作规则。但是,在抽样调查实践中,只有在使用具有有偏性质的估计量时方可在数学上找到比例B/σ的上限,而存在其他偏差干扰的情况下, 则难以找到一个可靠的数量标准。因此,有必要进一步分析各种产生偏差的原因和处理办法。

估计量的偏差是指对某一目标量(或参数)的估计,假设在没有其他系统性误差存在的情况下,该估计量的期望与对应目标量的真值存在一定的偏误,即破坏了优良估计量的标准之一——无偏性。严格地讲,这部分系统性误差,是出于对同一目标量可选择不同的估计量而造成的。在不同的估计量中,有的估计量是有偏的,即

,这个偏差部分就构成了抽样调查中的系统性误差。根据偏差形成的原因,笔者认为偏差的形成大致可分为三种情况。

1.使用了具有偏性质的估计量而导致偏差出现。

这部分系统性误差的最大特点就是可以计量,即可以给出这部分偏差的计量模型。便如,使用非常多的比率估计量和回归估计量,就是有偏的估计量,且均值的比率估计量的偏差为

这种偏差是因对某一目标量使用不同的估计量(实则是不同的估计方法)致使这种估计具有无偏的性质,对这种偏差的研究理论上已比较成熟,大都能给出偏差的计量模型,已被大多数人所认识。

2.因保证无偏性实现的条件被破坏而导致出现估计偏差。在抽样调查实践中,有时即使做了无偏的设计,也因在调查的实施过程中保证无偏性实现的条件被破坏致使出现偏差。我国的农产量抽样调查,事实上总是导致这类偏差的存在。我国的农产量抽样调查,是按多阶段对称等距抽样为其抽样方式,样本的抽取过程是按平均亩产量排序,以播种面积为辅助变量进行的一种不等概率抽样,平均亩产量的估计是按算术平均的方法进行估计

其中,S[,i]为抽样框中第i个单位的播种面积;S[,0] 为抽样框中的总播种面积;Q[,i]为调查年份第i个单位的实际播种面积;Q[,0] 为调查年份调查总体的总播种面积;

为调查年份的第i 单位的平均亩产。

这种偏差在抽样调查的实际中,特别是在大型的抽样调查中,由于客观条件的变化,破坏了原有保证无偏性实现的条件,使原来本为无偏估计的设计出现了有偏估计的情况,对这种偏差,非训练有素的抽样调查专业人员难以察觉,更难得出其偏差的计量模型。

3.因错误地使用了估计公式导致出现估计偏差。在抽样调查实际中,常常出现不严格、准确地使用估计公式的情况,致使估计出现偏差。例如,在分层抽样中,抽样设计是按最优分配方式分配各层的样本单位抽取样本,而在计算均值的估计量时,却用各层的样本容量进行加权平均,其估计结果必然产生偏差;在不等概率抽样设计中,样本的抽取按不等概率原则进行,但在计算估计量时却不用对应的估计公式,这种情况下,其偏差必然产生。这种偏差的出现通常难以计量。

对于估计量的偏差,笔者认为可用两种方法处理:一是接受偏差。若该类偏差的存在对总体目标量估计的准确性的影响不大,则可以直接使用此估计量。二是纠正偏差。为避免估计量本身的偏差对估计效果影响,重新设计无偏的估计量或偏差较小的估计量。如此对率估计量,常见的这类估计方法就有: Hartly—Ross法,Mickey 法, Lahiri 法,Midzuno法,刀切法(Jacknife method),Beale法和Time法等。 以上方法大致可分为两类:一类是改进估计量,使其无偏或偏差减小。另一类是改进抽样方法,主要是将不等概率抽样应用到抽样程序中去,使通常意义的比率估计量成为无偏的或偏差较小的估计量,这种方法为Lahiri法,和Midzuno法。

其他纠正偏差的估计方法,都可能造成估计量和估计量的方差的计算更复杂的情况,同时,尽管可能消除或减小偏差,但还可能形成一个较大的估计量的方差,因此,在实践过程中使用这些方法时应慎重。

标签:;  ;  ;  ;  

抽样测量系统误差的估计偏差分析_样本容量论文
下载Doc文档

猜你喜欢