总体比例置信区间的确定,本文主要内容关键词为:区间论文,总体论文,比例论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、现行的确定方法及存在的问题
在抽样调查中,总体比例的估计往往是一个重要的内容。如人口抽样调查中,男性或女性人口比重的估计;产品质量检查中,合格率的估计等等。在进行这种估计的时候,人们不仅需要给出总体比例的一个估计数值,而且往往还需要在一定的置信概率保证下估计出该总体比例估计的抽样误差范围,即给出该总体比例的置信区间。从某种意义上来说,总体比例置信区间的给出具有更加重要的作用。
众所周知,样本比例是总体比例的优良估计量。设总体中共有N个个体,具有人们所需要考察特征的个体有M个,则总体比例为:
P=M/N
又设来自该总体的一个容量为n的随机样本中含有m个具有人们所要考察特征的个体,则样本比例为:
p=m/n
这是总体比例P的一个无偏估计量,且具有一致性、有效性等优良性质。
比例是一种特殊的算术平均数。无论是在总体中还是在样本中,若将具有所考察特征的个体的标志值记作1,不具有所考察特征的个体的标志值记作0,则这些标志值的算术平均数就等于总体或样本比例,而总体和样本的方差则分别为:
σ[2]=PQ=P(1-P)
s[2]=pq=P(1-p)
因此,作为总体比例的估计量的样本比例,在有放回的简单随机抽样方式之下,其方差为:
而在不放回的简单随机抽样方式下,其方差为:
要在一定的置信水平之下给出总体比例的精确的置信区间,需要用到二项分布或超几何分布。但由于二项分布和超几何分布数值表常不易找到,所以当总体容量N较大时一般都用正态分布近似计算确定。利用正态分布计算,需要用到估计量样本比例的方差。由于总体比例P是未知的,总体方差σ[2]=PQ当然也未知,所以通常只好用样本方差s[2]=pq来代替计算。记给定置信水平之下正态分布的双侧分位数为u,则对于有放回抽样,总体比例P的置信区间的上下限通常表示为:
这种计算方法虽然简便易行,但却存在着下列两个问题:
(1)样本方差s[2]=pq并不是总体方差σ[2]=PQ的一个优良估计,它是有偏的;
(2)即使是使用总体方差σ[2]=PQ的一个无偏估计,也并不能消除方差估计中的误差,这一误差必然会带进所计算得出的总体比例的置信限中,影响区间估计的精度和可靠程度。
因此,通常确定总体比例置信区间的方法可能会导致较大的误差,降低估计的效果,应当加以改进。
二、置信区间确定方法的改进
若顺着改善方差估计量的思路,则需要寻找总体方差的无偏估计量,然后利用此无偏估计量来估计样本比例的方差,建立总体比例的置信区间。
仔细观察这两个式子中的随机事件,即括号中的不等式,容易发现在样本已给定的条件下这两个不等式中都只含有一个未知数即总体比例P。因此,只要求解这两个不等式,就可以得到总体比例P的无需估计样本比例方差的置信区间。
对于有放回抽样,将上述表示随机事件的不等式两边平方,则有关系式:
这两个总体比例的置信区间虽然计算都比较麻烦,但是出于避免了估计总体方差,从而排除了这方面的估计误差,使得计算出的置信区间更加准确可靠。若再考虑到利用正态分布的近似性,则也可采用类似科克伦的方法对上述区间的置信限加以校正。对于不放回抽样,校正后的置信区间的下下限为:
为了对上述各种置信区间的精确程度有一个直观的了解,假设有一个容量为500的总体,用不放回抽样方式抽取了一个容易为100的简单随机样本,其中具有所考察特征的个体有37个。由此可得N=500;n=100;m=37;p=37%,在给定置信水平为95%之下,利用钟和德卢里(Chung and Delury)给出的超几何分布置信限数值表可得出总体比例P的精确置信区间为【28.5%,46.2%】。若用现行通常的确定方法,则此置信区间为【28.5%,45.5%】;若用总体方差的无偏估计,则此置信区间也为【28.5,45.5%】,若用科克伦的校正公式,则此置信区间为【28.0%,46.0%】;若利用本文给出的未校正公式,则此置信区间为【29.0%,45.7%】;若利用本文给出的校正公式,则此置信区间为【28.5%,46.2%】。由此可见,上面最后给出的校正公式所得到的置信限与其精确数值的误差不到千分之一,这说明该公式是相当精确的。