如何计算不同人口和样本量中比例的置信区间_置信区间论文

不同总体量和样本量时如何计算比例的置信区间,本文主要内容关键词为:体量论文,区间论文,样本论文,比例论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:F224.7文献标识码:A

引言

(一)计算比例(百分比)置信区间的问题

在抽样调查时,一个经常遇到的问题是计算一些比例的区间估计。但这个常见的看似课堂作业似的问题却在实践中给人以不少烦恼。不知是为了回避这个问题还是有什么别的考虑,某些重要的全国性调查报告所列举的近6000个比例(百分比)无一例外地都没有给出样本量和置信区间。这些成百上千个比例究竟有多少有意义?没有人给出回答。

在学生进行的各项调查中,由于资源的限制,样本量通常都较小,总体也较小;虽然这些同学多数选过抽样调查课,但如何做出各种比例的置信区间还是经常困扰着他们。他们或者不会估计,或者在毫不察觉的情况下得到错误的结果;向教科书或老师请教也不一定都能得到满意的回答。笔者觉得有必要借此机会说明总体和样本大小对计算抽样调查比例置信区间的影响。由于着重点在于小规模随机抽样,我们在计算置信区间时,不考虑只有复杂抽样才考虑的设计效应。

(二)调查问卷的设计必须服务于实际需要

在进行大型问卷调查时,一些人希望借一次调查来得到尽可能多的信息。他们在问卷中列举了大量的问题;有些问卷的问题总数达到400多个。由于大家所知道的原因,这些问卷的设计几乎全部是没有统计训练的外行所为。众所周知,这些冗长的问卷会使答卷人因厌倦而产生虚假的回答。但人们往往没有意识到的是,无论样本量多大,这些问卷在理论上可以形成的天文数字的比例(或百分比)绝大部分不存在(空集),而绝大部分可计算比例(固定宽度,比如6%)的置信区间的置信度都小得可怜,以至于毫无用处[1]。更严重的是他们并不理会这些比例是否有意义就将它们发布,这至少在客观上误导了公众。一个负责任的统计工作者,绝对不能靠搭乘顺风车来获得侥幸的结果。必须对于总体中所感兴趣的子集在设计抽样框时予以考虑,使之有充分大的样本量。总之,问题数目多的问卷,不但使得答卷人没有耐心认真回答问题,而且会产生大量的既无用又误导世人的比例。

另外,例如在校园中进行有关调查时,总体很小,样本量也不大。这时,问卷中的问题数目就更不能太多。

一、在各种总体量和样本量时如何计算置信区间

问题的提出:假定总体由N个个体组成,具有某种感兴趣性质的个体数目为未知的k。抽取样本量为n的一个样本,其中感兴趣的个体有x个。计算总体中感兴趣个体的比例k/N的置信度为(1-α)的置信区间。

对于这个问题,再举一个数值例子来讨论:

假定在共有N个学生的校园中进行学生对某现象认可与否的调查。记总体中认可的人数为未知的k。调查了n=50学生之后,结果仅有x=1人满意。那么,问题是:总体中认可比例p(=k/N)的置信度为(1-α)=95%的置信区间如何估计?记观测的比例为x/n(这里是1/50=0.02)。

(一)用正态近似求置信区间可能失败

对于这个问题,通常用二项分布的大样本正态近似公式:

显然,这个区间是不合理的,至少因为这个区间包含了负数。但为什么呢?这是因为大样本的要求不满足。是否为大样本的一个近似的必要的条件是区间应该完全在(0,1)区间之内;而对于此数据,可得到:

它包含了(0,1)区间的左端点0,所以不可以用大样本近似来求置信区间。当然,这个对大样本条件的核对应该在计算置信区间之前计算,如果不合适,就不必要继续计算上面的置信区间了。注意,如果这个近似必要条件不满足,即使计算出的置信区间不包含0或1,也是不可靠的。

这里的样本量问题不是绝对的,而是相对的。如果观测的比例x/n比较接近于0或1,则需要更大的样本来做这种近似计算,但这并不是笔者在此要强调的。作为一个统计工作者,必须明白统计模型的本质。实际上,这里的正态近似是对二项分布模型的近似,而二项分布模型又是对最根本的超几何分布模型的近似。

(二)原始的模型是超几何分布

抽样调查中求比例的问题大都应该属于超几何分布,这是因为在调查中的抽样均属于不放回抽样。由于一切统计模型都是近似模型,超几何分布也不例外。它要求总体中每一个个体有同等机会被抽到,而这不可能在实践中完全做到。作为超几何分布,就应该有直接计算其置信区间的精确方法。按照该方法[2],这个置信区间应该从求k的(1-α)=95%的置信区间(k[,1],k[,2])着手,该区间的上限k[,2]应该为满足不等式:

P(N,n,k,x)≤(α/2)

的最小的k;而区间(k[,1],k[,2])的下限k[,1]应该为满足不等式:

P(N,n,k,x-1)≥1-(α/2)

的最大的k;这里P(N,n,k,x)≡Pr(X≤x)的参数为N,n,k的超几何分布的累积分布函数为:

max[0,n-(N-k)]≤x≤min[k,n]

有了区间(k[,1],k[,2])之后,除以N就可以得到比例k/N的置信区间了。对于例中的数据,对于不同的总体量N=100,500,1000,5000,10000,50000,100000,500000,1000000,5000000,10000000,及对于固定的样本量50,得到对于k和p=k/N的95%置信区间(见表1)。

表1 置信区间表

总体数目 k的下限

k的上限p的下限 p的上限

100 09 0 0.09

500 052 0 0.104

1000 01050 0.105

5000 25310.0004 0.1062

1000051063

0.0005 0.1063

5000025

5322

0.0005 0.10644

100000

50

10645 0.0005 0.010645

500000

253 53233 0.000506

0.106466

1000000 506 106468 0.000506

0.106468

5000000 2531 532346 0.0005062 0.1064692

10000000 5062 10646940.0005062 0.1064694

从这个结果可以看出,当总体量变化时,区间也在变化。这个计算方法在刚刚诞生时很不好计算,但现在只要两行计算机程序就解决问题了。

(三)二项分布模型是在总体量大的时候对超几何分布模型的近似

当总体很大时,不放回抽样和放回抽样差别不大。因此,超几何分布模型可以用二项分布来近似。注意,这里总体很大,并不意味样本量也很大;因此不能根据总体量大就决定对二项分布进行正态分布的再近似。这时,在二项分布模型的假定下,可以求比例p的精确的置信区间(p[,1],p[,2])。该方法表明[3,4],其上限p[,2]则为应该满足:

的p。据此容易算出所需要的置信区间为(0.000506228,0.10647)。可以看出,这个结果和当总体量很大时在超几何分布模型下用精确方法计算的结果差不多。前面(一)小节中对此二项分布模型进行的正态近似则得到很不合理的(-0.0188,0.0588)区间,这也说明对二项分布模型的正态近似只有在样本量很大时才可以进行。

三、总结

根据前面所述,在进行抽样调查时,尽量根据主要研究目标或需要来设计问卷。问卷中的问题不要太多,对于所关心的总体子集,要在设计抽样框时考虑到。

在得到抽样数据之后,为了计算比例的置信区间,先看总体量是否很大。如果总体量比较小,则用超几何分布计算精确置信区间;如果总体量比较大,则可用二项分布模型来近似;在小样本时,可对二项分布模型求精确解(注:实际上,在目前计算机普及的今天,使用超几何分布精确计算,或者是近似的二项分布的精确计算,都不费事。);在大样本时,可对二项分布模型求正态近似解。

注意,在概念上,如果抽样时总体中所有个体的等可能性可以保证,则按超几何分布计算的精确区间可被看成为精确模型的精确解。而在总体量大时按二项分布计算的精确区间为近似模型的精确解。如果总体量比较大,同时样本量也比较大(至少核对前面的近似必要条件),才可以用二项分布的大样本近似未置信区间,这时的解为近似模型的近似解。

(摘自《统计与信息论坛》(西安),2005.5)

标签:;  ;  

如何计算不同人口和样本量中比例的置信区间_置信区间论文
下载Doc文档

猜你喜欢