分层抽样样本量最优分配问题新探,本文主要内容关键词为:样本论文,最优论文,分配论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、问题的提出
在分层抽样中涉及到样本量最优化分配的问题,样本分配是分层抽样研究的一个重要方面。一般来说,一个恰当的分层的原则是这样的:确定各层的样本容量,使样本容量的分布趋于总体分布,以保证样本具有充分代表性,抽样估计准确度不断提高。为遵循这个原则,我们在分层抽样中所采取第一种方法是,按比例缩小来确定样本单位数结构,这是最简单可行的分配方式。但大多数人认为除遵循样本与总体单位数结构一致性外,还必须考虑总体不同层次方差的差异,满足抽样估计量方差的最小化要求。简而言之,就是指在有限资金、时间或其他与每层的样本分配量相关的条件限制下,分配每层的样本量,使估计量方差最小。这就是本文要研究的样本量最优化分配问题。
本文引入以下记号:
设总体分为1层,以h表示层的编号,h=1,2…,l。
最优化分配问题研究历史可以溯到上世纪初,1923年楚波罗(Tschuprow)提出了分层随机抽样本量n固定的情况下,如果:
则达到最小值,可惜在当时并未引起重视,直到1934年奈曼(Neyman)重新给出证明时这一结论才受到重视。这就是著名的奈曼分配公式。80年后的今天我们仍在使用这个结论,但是该结果的局限性是显而易见的——只考虑了一个约束条件(资金限制)。在实践中,一项工作只受单一条件的制约是极为罕见的。本文引入最优化方法试图解决这一问题。
二、非线性规划下的最优分配
首先我们仍来考虑一个约束条件下的情况。假设在一定的费用约束下,求v的最小值。即考虑以下非线性规划:
特别要注意的是,所谓的最优分配是这样一种情况:如果为了达到最大精度而不得不使用最大费用C的话,那么这时所抽取的样本量n是确定的,反之,如果确定了n,那么为了达到最小样本量方差这个抽样所需要的C也是确定的,至于C与n的反比关系可以由式(1)推得。
另外,在运用Cauchy-Schwarz公式解决该问题时所涉及的常数为最优分配下的样本抽取量。
但是就像我们在文章开头提到的那样,现实中一项抽样工作只受一个条件约束的情况是很少的。运用同样的方法,我们考虑在多个约束条件下v的最小值的问题。我们仍先考虑最简单的情况——线性约束。例如条例2为时间限制——每抽第h层的一个样本,要花费th的时间,总时间T为一定的。那么上述问题化成:
我们都注意到,这是一个两个变量的方程组,是可以解出来的。最简单的方式就是运用插值法计算,求出之后推出
这样就得到了在两个条件下的最优分配及样本总量。
我们注意到是一个严格的凸函数,所以无论是怎样的约束条件,我们都可以用KT的方法进行计算。如果方程过于繁琐可以用插值法进行试算,得到参数。
如果多个约束中有非线性条件存在,那么可采用相应的非线性规划解决,或者运用泰勒级数将其线性化。
三、目标规划下的最优化分配
在实践中单纯追求最优化有时候是不现实的,因为在实现某一目标的过程中要求这一目标满足所有约束的最优化结果有时是难以达到的。所以人们转而追求最满意目标。即将约束条件按轻重缓急分类,优先满足那些最严格,最重要的约束,尽量满足那些弹性比较大的约束,以得到最满意结果为目标。受这一思想的启发,我们在寻求最优化分配不可得的时候,可以寻求最满意分配。而且在大多数情况下,最满意分配才是最合理的。
假设我们要求在一定的时间和费用的限制下,估计量的方差不超过V。其中对估计量方差的要求最高,就是说要尽量满足这个条件;对费用的要求其次;对时间的要求再次,那么我们可以得到以下的目的规划:
四、实证分析
下面我们给出实例分析。
某地区工厂的基本情况见表(表略,见原文)。
在全部资金422单位,计划用时356单位的约束下进行分层抽样,要求进行最优分配。根据前面得到的结论:
即:
如果我们要求V不大于300,那么以上最优解不能满足,因为这样解得的V=423.56>300。所以,我们要采用非线性目标规划来解决这一问题。
这是一个有36个变量的目标规划,可以用专门的软件来解。比如Qm win。
综上所述,传统的样本量最优化分配只能解决比较简单的问题,在实际工作中我们会遇到的各种问题,破坏了传统方法应用的前提。特别的,多个约束条件下样本量最优化分配问题是十分普遍的。为了解决这些问题本文借助了非线性规划和非线性目标规划等最优化方法,试图解决实际中遇到的问题,希望能起到抛砖引玉的作用。
标签:分层抽样论文;