分层抽样中最优分配法的应用探讨,本文主要内容关键词为:最优论文,分配论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分层抽样是最常采用的一项抽样技术。当层间差异显著时,它可以大大缩小抽样推断的误差,从而提高推断的精度,这已是统计上的常识。
在以分层所依据的标志将总体划分为若干“层”(也称“子总体”,它实际就是总体所分成的各个组)后,首先面临的问题在于如何将既定的样本容量按某个原则分配于各个层,这也就是如何确定在总体各个组中应抽取的单位数。
设容量为N的总体被划分为R组,各组的容量
这意味着,各组的抽样比n[,i]/N[,i]均等于既定的常量n/N,即它们均等同于总体抽样比。以上这种使样本总容量在各组的分配只取决于该组本身容量大小的作法,称为比例分配抽样,它简便易行,也为常识所可接受,因而在我国的抽样实践中被普遍采用。
但是,不能认为比例分配抽样已经令人满意。实际上,更为科学的方法是最优分配抽样,采用这一方法时,样本总容量在各组的分配称为内曼分配(Neymanallocation),它的精确公式为:
其中的б[,i]为各组的标准差。
由于N[,i]通常都很大,上式中的根式几近于1,从而内曼分配所表明的确定各n[,i]值的原则为:n[,i]与其相应组的N[,i]б[,i]成正比。可见,最优分配抽样不同于比例分配抽样之处在于:样本总容量在各组的分配不仅考虑该组本身容量N[,i]的大小,还要考虑该组数据变异量б[,i]的大小,其目的在于使所抽的每个单位能最充分合理地发挥其代表性效能。可以理解,增加“数据变异大的组要多抽,数据变异小的组可少抽”这一因素,无疑是符合统计逻辑的。
据此原理对原式进行调整后,可得内曼分配的实际应用公式如下:
最优分配抽样的推断精度高于比例分配抽样,这表现在它的标准误(standard error,以下简写为SE,国内有些统计著作称之为抽样平均误差)较小,而SE正是抽样推断误差的标准计量单位。
采用比例分配抽样时,其SE的实际应用公式可表达为
当采用比例分配抽样确定各子样本容量n[,i]之值时,只要掌握各组容量N[,i]就行了。当采用最优分配抽样确定各子样本容量n[,i]之值时,由式一可见,还需要掌握各组的s[,i]。可是,此时抽样尚未进行,根本不存在s[,i],这就给最优分配抽样的应用造成了障碍。在我国的抽样实践中,迄今尚未见过最优分配抽样的例子。
其实,克服上述障碍并不困难。
一个简单的办法是,可将已经取得的比例分配抽样的样本稍加扩充,就能改造成为更科学的最优分配样本。下面举例说明。
设拟通过抽样调查来研究某城市的职工在烟酒消费方面的支出状况,并有理由认为企业的职工此方面的支出更加突出,因而将全市职工划分为“企业职工”与“非企业职工”两组,以进行分层抽样。已知该市共有职工10万人,其中40%为企业职工,60%为非企业职工。所规定的抽样比为1%,即n=1000。现已采用比例分配抽样,在企业职工中抽出400人调查其烟酒消费支出,即n[,1]=400,并据调查所得资料计算出该子样本的标准差为50元,即s[,1]=50;在非企业职工中抽出600人,即n[,2]=600,并计算出该子样本的标准差为25元,即s[,2]=25。于是,按照式二可求得该比例分配抽样的SE如下:
那么,此时既已掌握各s[,i]之值,就能以此为据将原来的样本扩充转换为最优分配抽样。由于s[,1]=50,s[,2]=25,按最优分配原则,n[,1]与n[,2]之比应等于N[,1]s[,1]与N[,2]s[,2]比,即
n[,1]∶n[,2]=N[,1]s[,1]∶N[,2]s[,2]=(0.4×50)∶(0.6×25)=4∶3
于是,当非企业职工调查600人时,企业职工应调查800人,现在已从企业职工中抽取了400人,只要再补抽400人,即可与600人的非企业职工构成一个最优分配样本了。由于方差的稳定性,补充后的企业职工这一子样本的标准差只会有较小的随机变动,因此按照式三,该最优分配样本的SE可以预计为
由于增大了样本容量(由1000增到1400),它与原来比例分配抽样的1.17不能直接相比。但可以计算一下,若将n增为1400而仍采用比例分配抽样时,则n[,1]应为560,而n[,2]应为840,从而其SE可预计为
可见,采用最优分配抽样的推断精度明显高于比例分配抽样,因它的SE只有后者的94%(0.928/0.984=94%)。
有时,由于受了某种条件(如费用之类)的限制,既定的样本容量n不宜突破。但是,这仍然限制不了最优分配抽样的应用。我们可以先按比例分配的原则抽取一个较n为小的预抽样本,以取得所需的s[,i]资料,再以此为依据对样本总容量n在各组进行最优分配,求得所需的n[,i],将此n[,i]与预抽样本中各组已抽的单位数相比,对其不足之数加以补充抽取,就可最终实现最优分配抽样。
仍就上例而言,当已确定抽样比为1%并不宜突破时,我们可以先按比例分配原则抽一个只包括0.5%职工的预抽样本,即抽出企业职工200人与非企业职工300人。设其s[,i]仍为50与25,则按式一可得
于是,只要在企业职工中补抽371人(571-200=371),在非企业职工中补抽129人(429-300=129),即可得到所需要的最优分配样本,其SE可预计如下:
它和前面n=1000的比例分配样本的1.17相比,同样只有其94%(1.10/1.17=94%),即推断的精度明显要高些。
上面所推荐的方法虽然增加了一道补抽单位的步骤,但抽样推断的质量最终表现为精度,因此,为了提高推断精度而增加一个步骤,应该仍然是明智的。