改进的PPS抽样设计效果的蒙特卡罗模拟_简单随机抽样论文

改进PPS抽样设计效应的Monte Carlo模拟,本文主要内容关键词为:效应论文,PPS论文,Carlo论文,Monte论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、抽样设计效率与设计效应

抽样调查的目的是以尽量低的成本对调查总体进行尽量精确的估计。为了实现这一目的,一项抽样调查应该准备几套不同的设计方案,经过比较,从中选出一个最优的方案进行实施。评价某个方案是否为最优方案的基本原则是:估计精度一定的条件下使得调查费用最小或者费用一定的条件下使得估计精度最高。常用的评价指标包括抽样效率和设计效应。复杂抽样设计抽样效率和设计效应是评价抽样方案的主要标准,因此抽样设计效应的计算显得非常重要。

为了表述的方便,首先引入一些记号。

设计效应这个概念是由基什(L·Kish,1965)提出来的,主要目的也是为了对不同抽样设计的效果进行评价。它是指对于同一个目标量,调查单位相同时,复杂抽样设计估计量方差与简单随机抽样估计量方差的比值,即

其中为所考虑的复杂抽样设计估计量方差,为相同样本量的简单随机抽样估计量方差。

设计效应可以用来评估所考虑的复杂抽样设计的效率。Deff<1,表明所考虑的复杂抽样设计优于简单随机抽样设计;Deff>1,简单随机抽样设计较优。此外,还可以利用Deff,通过简单随机抽样的的样本容量来估计复杂抽样设计的样本容量,所以它的计算很重要。梁小筠、陈亮(2000)对一些常见抽样方法的设计效应的计算进行了概括。本文主要分析PPS抽样及改进的PPS抽样的设计效应的计算和模拟。

二、PPS抽样与改进PPS抽样

概率与规模成比例(一般简写为PPS,Probability Proportion to Size)抽样是一种常见的有放回的不等概抽样方法。因为总体中各抽样单元的规模差别可能很大,造成各自抽样单元的地位不平等。此时,若继续采取简单随机抽样的方法,会产生很大的抽样误差。例如城镇居民收入调查,若以居委会为抽样单元,各个抽样单元的规模差别可能很大,所以一般采用PPS抽样调查方法。

要讨论改进的PPS抽样,我们首先从一个实际问题入手。现有纽约商品期货交易所(NYMEX)每日交易的原油期货价格的历史资料,我们试图从中找出价格变化是否具有某种规律,并且还想通过这些历史数据的规律性对未来的价格发展情况进行外推预测。如果经济现象的发展变化路径不发生重大变化,也就是经常所提到的在所谓路径依赖的情况下,根据历史数据对未来的最好预测就是按照“历史可以重演”假设,从过去的升降变化过程中按照某种方法来推断未来的发展变化情况。

具体的,我们假设已知过去一年以来的历史数据,据此可以计算出过去各期的发展速度(这里指环比发展速度)。在已知上半年的资料的情况下,假设这种变化特征今年下半年不发生重大转变。怎样对下半年的发展趋势进行预测呢?按照一般的思路,我们可能采用时间序列分析中的各种方法,通过建立回归模型或趋势分析、季节变动等方法来进行预测。我们是否可以依据抽样理论,通过某种数据生成方法来进行随机模拟呢?

从表面上来看,这种抽样方法很难与概率与规模成比例的随机抽样方法相联系。我们首先必须对原始数据进行适当的整理。根据社会经济发展数据的特点,一般情况下,很多这类数据都具有因时而变的时变波动性,也就是说,由于发展阶段的不同,数据的波动特征也有所区别。具体来说,比如我们考察股市数据,会发现股市数据呈现有一段时间大涨,而另一段时间大跌的特点;再比如说,如果考察人民币对美元的汇率,也会发现有持续上涨或者持续下跌的时候,其特征非常明显,另外,涨跌幅也可能出现簇生情况,涨上加涨,跌了又跌的情况经常发生。此时,我们首先可以对原始数据按照某种分类标准进行分组,使得组内数据具有某种共同特征。进一步计算出每组的频数,通过对组内数据和组间数据的关系研究,来预判未来现象的发展变化情况。

对于已经进行分组的数据,将每组频数看作该组的规模变量,按照概率与频数成比例的方法来抽取样本,这是概率与规模成比例的抽样方法的一种变形,所以我们可以把它称为一种改进的PPS抽样。改进的PPS抽样与一般的PPS抽样的最主要区别是,其辅助变量一般是人为构造的,并且抽样单元的取值经常表现为相对数,这导致这种抽样方法的统计量的计算有许多特别之处,不能直接采用一般的PPS抽样使用的推断总体总量的计算公式。

对于上面提到的NYMEX石油期货价格的例子,我们作进一步的分析,来研究改进的PPS抽样设计的一些特点。现在已知2007年1月3日至2008年7月29日共396个交易日每一个交易日的美国纽约商品期货交易所Oklahoma一号轻质原油期货价格的数据(数据来源:http://www.eia.doe.gov/)。首先对原始数据进行整理,这里通过观察和进一步分析,根据这段时期原油期货价格的走势将所要考察的数据划分为23个时间段,这23个时间段对应的起讫时间分别是各个时间段内价格的相对最高点和最低点。这样划分的依据是试图尽量找到价格变化的因时而变的特点,而不过多关注详细的中间变化过程,也就是抓住这些变化的本质特征。整理结果如表1所示。

表1 NYMEX原油期货价格各个时期平均发展速度

表1中的天数是指每一个上升或下降所经历的实际交易日的天数,节假日等非交易日除外。平均发展速度的计算公式为:

上式中,k表示每个阶段所包含的交易日的天数,表示每一阶段最后一个交易日的交易价格,表示每个阶段第一个交易日的交易价格。该计算公式实际上可以看作是定基发展速度的几何平均数。

若想利用表1中的数据进行抽样模拟,对2008年下半年的价格走势进行预测。我们可以采用所谓的改进的PPS抽样方法。具体做法就是,首先将各个时间段进行编号,将每个时间段的交易天数看作是该样本单元的规模。抽取的样本容量不妨就取5(一般情况下,期货交易一周进行5天),采取有放回的抽样方法,也就是说这种抽样仍然是一种有放回的不等概抽样,其抽样比例正比于其规模。对抽取的5个样本不能从总量上去计算,可以采取简单算术平均的方法计算所要预测的交易日的发展速度,根据预测的发展速度计算预测的交易价格。如此进行下去,直至得到需要进行预测的所有交易日的价格。

三、改进PPS抽样的设计效应

沿用前面的记号,设,其中。记X为某个虚拟总体,x为虚拟总体中的变量。从而有,即虚拟总体中变量的总体平均数就是原来总体调查变量y的总体总值。对所要调查的目标变量的总体总值Y的估计就转化成对辅助变量x的简单随机抽样的估计。于是,按辅助变量的简单随机抽样对的简单估计量为:

对于改进的PPS抽样来说,由于采用的是简单算术平均数的计算方法,所以其无偏估计量的计算与一般的PPS抽样的总体算术平均数的无偏估计量的计算类似。不过在实际问题中,由于辅助变量的选取方式不同,计算结果会发生改变。实际的计算非常复杂。我们后面将对实际问题采用Monte Carlo方法来进行模拟计算。

从上面的分析可知,有放回的PPS抽样的均方误差和相应的规模辅助变量的简单随机抽样的均方误差相等,所以其抽样设计效应为1。但是,由于改进的PPS抽样原来是没有辅助变量的,所以其估计量的均方误差小于相应的对原始数据进行简单随机抽样的均方误差。也就是说,改进的PPS抽样设计效率得到了提高,其Deff<1,该抽样设计要优于简单随机抽样设计,对此我们将作进一步的分析。

四、改进PPS抽样设计的Monte Carlo模拟

回到表1所引述的实例,我们深入一步进行具体分析,采用代码法进行抽样模拟。将23个时间段看作是23个抽样单位,分别按序号i(i=1,…,23)进行编号,并设第i个抽样单元上的辅助变量值为,这里有,按照向上累计法计算各单元的累积频数。并赋予各组相应的代码,结果如表2所示。从1~396中利用随机数发生器任取5个随机数字,随机数字在哪个代码范围内,该代码所对应的单位就是被抽中的抽样单位。

表2 模拟抽样代码编制表

根据Monte Carlo模拟的基本思路,必须通过对某种随机现象进行大量观察或试验,得到一系列模拟数据,才能从中掌握其统计规律性。将上面的模拟试验重复进行,每次模拟抽取5个抽样单位,也就是5个时间段,求出这5个时间段的平均发展速度,这里采用的是简单算术平均数的方法,即

如果采用加权算术平均数,会导致改进的PPS抽样的辅助变量重复计算。所以我们没有采取加权算术平均数的方法计算各时间段的平均发展速度。此处k=5,由于考察问题的视角发生变化,可以通过改变抽样单元个数来达到不同的抽样效果。根据所要预测的时间的长度,选择需要重复进行模拟的次数。我们这里选择模拟100次。

为了进行对比分析,并模拟计算改进的PPS抽样的设计效应,采用另外两种抽样方法同时进行抽样模拟。也同样是通过随机数发生器产生5个随机数字,重复模拟100次。一种抽样方法是从表1的数据中,通过简单随机抽样,抽取各个时间段,而不是采取改进的PPS抽样方法按照规模进行抽取,利用公式(12)计算所抽取的5个时间段的平均发展速度,我们称之为分组简单随机抽样。另外一种方法是直接从未分组数据,也就是从原来的交易日中按照简单随机抽样的方法每次抽取5个交易日,对所抽取的5个交易日的发展速度根据公式(12)求出简单算术平均数。

通过模拟计算结果,改进的PPS抽样、分组的简单随机抽样、未分组的简单随机抽样这三种不同的抽样方法计算出的样本估计量方差差异很大。改进的PPS抽样方差最小,其次是分组的简单随机抽样,估计量方差最大的是未分组的简单随机抽样。对抽样设计效应的多次重复Monte Carlo模拟近似得出,改进的PPS抽样设计效应Deff≈1/8,分组的简单随机抽样设计效应Deff≈1/5。也就是说改进的PPS抽样设计效应得到了极大的改善。

为了进行深入分析,以2008年7月29日为基准日,根据三种不同抽样方法模拟出未来100个交易日的发展速度,据此来计算各个交易日的预测价格,计算公式为:

其中表示根据模拟结果预测出的第t期的价格,是根据公式(12)计算出的平均发展速度,基准日的价格为当天的实际收盘价:美元,以后各个交易日的预测价格由公式(13)递推计算得出。预测结果如图1所示,横轴表示预测未来的天数,纵轴表示预测价格(单位:美元)。

图1 三种抽样方法模拟未来价格趋势预测图

从图1可以进一步看出,三种抽样预测方法相比较,改进的PPS抽样波动性最小,未分组的简单随机抽样波动性最大。这进一步说明,改进的PPS抽样设计确实能够提高抽样设计效应。而且随着样本容量的扩大,也就是每次随机抽取的变量个数的增加,复杂抽样设计较简单抽样设计更能减少估计量的方差。进一步还有,当规模测度严格正比于样本变量的取值时,可以使得改进的PPS抽样的方差趋向于0。

五、结论与思考

以上我们主要讨论了PPS抽样和改进的PPS抽样设计效应的计算,并且结合具体实例对改进的PPS抽样的设计效应进行了Monte Carlo模拟。需要说明的是,本文提到的改进的PPS抽样实质上也是一种按辅助变量的简单随机抽样的改进。因此,其抽样估计量的方差与按辅助变量的无放回简单随机抽样设计估计量方差相同。其实,要应用改进抽样设计进行抽样模拟,关键还在于分组变量的选取和规模测度的计算。尤其是分组变量,也就是辅助变量的选取,可以直接改进抽样设计的效应。但是,改进的PPS抽样设计在具体应用过程中最少还存在如下几个亟待解决的问题。

首先,如果要从原始时间序列中构造辅助变量,各个阶段怎么划分。本文中采用的自然的持续增长和持续下降的一段时期来进行阶段的划分。这种划分实际上主观性太强,而且中间的大量信息丢失。怎样科学地对各个阶段进行划分,划分的标准是什么。弄清这些问题,显然意义非常重大,也是结论合理与否的关键所在。

其次,规模测度的计算。选取不同的辅助变量,会导致不同的规模测度。上文中是以各个时期的间隔天数作为规模测度的,实际模拟结果也证明这种方法确实能起到降低方差的作用。如果辅助变量是连续性随机变量,或者规模测度不是整数应该怎么处理。这时候当然也可以采用随机模拟的方法抽取样本,但具体的模拟方法与本文所讨论的情形有所区别。

最后,模拟次数的选择也是一个主观性很强的问题。本文选择的是每次抽取5个样本,重复模拟100次。这并不是一个定律,也算不上经验规则。如果模拟次数过多,差异会逐渐消除,导致每次的模拟结果基本相同,这显然不能揭示问题的本质。模拟次数过少,又不能体现事物发展变化的规律,造成以偏概全。

当然,本文对改进的PPS抽样方法仅仅是一个尝试性的探讨,理论方面还有许多需要完善之处。最主要的是,这种抽样方法虽然与PPS抽样有许多共同之处,然而其均值的无偏估计量和方差的无偏估计量在计算的过程中与一般PPS抽样差别还是比较大的,所以我们也仅仅采用Monte Carlo方法对抽样设计效应和抽样方法进行了模拟。另外,还有许多细节性的内容有值得探讨之处,尤其是将这种方法运用于对经济时间序列的预测,显然还过于机械。怎样不断完善预测效果也是一个重点需要解决的问题。历史数据的模拟只给出了一个数据生成的路径,这种路径如何刻画,用数理模型经常无法解决。从这个角度来说,本文对路径依赖的经济系统的数据预测提出了一种新的思路。当然,具体应用效果还有待在实践中进一步检验。

标签:;  ;  ;  ;  ;  ;  

改进的PPS抽样设计效果的蒙特卡罗模拟_简单随机抽样论文
下载Doc文档

猜你喜欢