非平稳时间序列的EMD组合预测及其应用_时间序列论文

非平稳时间序列的EMD组合预测及其应用,本文主要内容关键词为:组合论文,序列论文,平稳论文,及其应用论文,时间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

0 引言

自2010年10月以来,消费者物价指数(CPI)增幅快速攀升,月环比增幅达到4%以上,这表明通货膨胀已经来临。较高的通货膨胀率意味着货币在一定程度上贬值,其现实购买力也会受到影响。因而投资者会选择对不同的投资产品进行投资。其中,黄金属于较热门的投资品种。黄金不仅具有商品属性,它还具有货币属性。一方面,其价值贮藏功能使其成为与外汇、股票、债券等类似的一种金融投资产品;另一方面,对于普通百姓来讲,随着经济全球化加快带来的不确定性和风险的增加,黄金的抗通膨保值或增值的作用是不可替代的。因此对金价的适应性分析及预测就显得尤为重要。

在黄金价格波动及预测方面国内外学者已做了大量研究,主要分为定性模型和定量模型。在定性模型中,提到了政策因素和供需平衡因素。在政策因素的讨论中,如博韬(1999)[1]认为各国中央银行对黄金储备态度的变化以及由此引起的心理预期效应是导致1999年黄金价格巨幅波动的最直接原因。在供需平衡因素的讨论中,M.H.Govett,G.J.S.Govett(1982)[2]讨论了黄金的供需结构,以及新黄金的生产模式对20世纪80年代西方金矿黄金价格的可能影响。在定量模型中,许立平、罗明志(2011)[3]对伦敦现货黄金月度价格建立ARIMA模型并进行短期预测,得到了短期国际黄金价格仍将上涨的结论。Edel Tully,Brian M.Lucey(2006)[4]研究发现,APGARCH模型比基于正态分布的GARCH模型能更好地描述黄金价格的波动。Antonino Parisi,Franco Parisi,David Díaz(2008)利用ANN对黄金价格进行预测,结果表明滚动式神经网络比递归式神经网络和前馈神经网络的效果要好。

Norden E.Huang[6]于1998年提出了一种旨在处理非线性、非平稳时间序列的方法——经验模态分解EMD(Empirical Mode Decomposition)。这种方法是一种基于数据的直观、直接、事后及自适应的方法。它基于系统中许多重要的参数,如各种内在时间尺度的相关能量的直接提取,将复杂的数据集分解成有限且数量不多的内在本征模态函数imf(in trinsic mode function)和一个残余量。起初运用在工程领域的EMD方法近些年来逐渐在经济领域中得到运用。刘会玉、林振山、张明阳(2005)[7]利用EMD对我国粮食产量波动及其成因进行了多尺度分析。Xun Zhang、K.K.Lai、Shou-Yang Wang(2008)[8]使用加入白噪声的EMD方法(EEMD)对美国西德克萨斯轻质原油现货价格进行了分析。谢赤、郑林林、孙柏、张在美(2009)[9]结合EMD和Elman网络的方法对人民币汇率进行了时间预测。王文波、费浦生、羿旭明(2010)[10]运用EMD和神经网络的方法对我国股票市场进行预测。但迄今为止,鲜有学者将EMD和神经网络算法融合用于金价预测。

本文拟将EMD和神经网络融合进行金价预测。黄金价格是一个非平稳的时间序列,文章使用EMD将金价序列分解为若干个imf,每个imf都是时间序列。这些时间序列相对金价序列具有明显的模式可以挖掘,通过聚类分析我们把相近模式的imf放在一起。然后使用神经网络分别预测这些时间序列。文章的实证结果表明模型的效果良好。

1 EMD组合预测模型

1.1 经验模态分解EMD理论

Norden E.Huang等人为imf做了严格的定义,imf必须满足以下两个条件:(1)在整个数据集中,极值点的个数和零交叉点的个数必须相等或者最多相差一个;(2)在任意点,分别由局部最大值和局部最小值产生的包络线的均值为零。概括的讲,imf是一种均值接近于零,且没有明显趋势的时间序列。imf所具有的性质恰好符合传统时间序列分析的需要,所以非平稳的时间序列可以经过EMD分解得到一系列imf,并对此进行分析。对于非平稳的时间序列,EMD分解产生的残余量一般含有一定的趋势,故我们称之为趋势项。趋势项体现原时间序列的总体趋势,它消除了微小事件和短期的影响。

EMD过程就是寻找imf的过程,其实现步骤如下:

①确定时间序列x(t)的所有极大值和极小值;

②通过三次样条插值来构造其上下包络线,分别为

③根据上下包络线逐点计算均值m(t),有

④将时间序列x(t)中减去均值m(t)的差值定义为d(t),有

d(t)=x(t)-m(t) (2)

⑤检查d(t):如果d(t)是一个imf,则用d(t)来表示第i个imf,然后用残差r(t)=x(t)-d(t)来代替x(t)。通常将第i个imf表示为,其中i是其指数;如果d(t)不是一个imf,则用d(t)来代替x(t)。

⑥重复上述步骤直到残差满足某种终止筛检条件。

通常采用统计量SD作为终止筛检条件,有

在一些实证中,一般取SD为0.2~0.3。即前后两次筛检结果的SD值取得达到阈值时,筛检过程终止。

提取每个imf的过程也称为筛检的过程,筛检有两个作用:一是消除截波,二是使振幅变得对称。正如上面所描述的,筛检过程可能需要很多次重复才能实现。

此时原始的时间序列就可以表示为所有imf分量与一个趋势项的和:

其中q是imf的个数,r(t)是趋势项。

EMD分解基于若干假设,其中一个假设是序列至少有两个极值点,一个极大值,一个极小值。如果序列极值点不明显,那么它需要通过若干次差分来发现其极值点。经济时间序列都符合这些假设,因此可以进行分解。

1.2 基于EMD的两阶段神经网络模型构建

时间序列经过EMD分解会产生一系列的imf序列和一个趋势项。这些时间序列都有明显的自身特征,便于进一步分析。本部分主要包含以下内容:首先构建神经网络预测时间序列模型,并扩展至两阶段神经网络时间序列预测模型,神经网络的时间序列预测是组合预测的主体部分。

(1)神经网络预测时间序列。人工神经网络以生物的神经传导原理为基础,它分为输入层、隐藏层和输出层。通过不断的学习ANN能够很好的拟合数据,即该方法是一种从数据出发的模型。大量的研究表明,ANN方法在金融时间序列预测方面优于传统的时间序列预测。假设时间序列,如果使用神经网络预测,需要设定几个重要的参数。第一,输入层的个数n。第二,预测的窗宽width。第三,隐藏层的个数和节点的个数。时间序列预测中输出层通常只有一个节点,本文默认输出层只有一个节点,即神经网络只进行一期外推预测。一般而言,时间序列的预测之前需要将原始序列Y转化为一系列的输入变量和输出变量。若原始时间序列的长度为N,而输入层的个数为n,那么会产生N-n个训练模式。输入变量和输出变量如下:

(2)两阶段神经网络模型。两阶段神经网络包含两个神经网络,主神经网络和次神经网络。主神经网络和次神经网络是相互联系的两个网络,主神经网络的输入变量是原始的神经网络,而次神经网络的输入变量是主神经网络预测误差值序列。以下介绍两阶段神经网络外推一期预测的过程。

两阶段神经网络的次神经网络需要主神经网络的预测误差作为输入值,所以该模型需要的时间序列长度大于一般的模型。

时间序列预测的主要工作在于从过去的序列中挖掘某种模式,并以此外推预测。现实中的时间序列特别是金融时间序列受很多因素影响,我们很难从中挖掘模式。无论是先前的EMD还是现在的两阶段神经网络,它们都是为了更加精简时间序列,使时间序列更加具有规律性。两阶段神经网络在实际应用中存在一些问题,一方面它需要时间序列的跨度足够长,这样神经网络才有足够的样本训练模式。另一方面,两阶段神经网络使用于较为复杂的时间序列预测,模式清晰的时间序列没有必要使用两阶段预测。对于一般的时间序列强制使用两阶段神经网络预测的效果未必好,因为用于预测的时间序列之间必须存在某种关联。若主神经网络得到的残差是白噪声过程的话,那么次神经网络就不能提取更多的信息,因此我们就没有必要使用次神经网络。

2 黄金价格的EMD组合预测

2.1 数据来源及研究方法

本文使用上海交易所Au9995从2002年11月1日至2011年4月15日的周收盘价格序列作为研究对象。数据来自于万得数据库客户端下载,该交易品种为现货交易。本文主要研究非平稳时间序列预测方法,最经典的时间序列预测方法为Box-Jenkins预测。但是上世纪90年代新兴的机器学习和人工智能蓬勃发展,它们被广泛的应用于时间序列预测。其中以人工神经网络(ANN)最具代表性。本文主要对比Box-Jenkins、神经网络和两阶段神经网络的效果,同时分别以原始序列和EMD分解后序列为建模对象。本文的所有分析计算均由R软件(2.12.2版本)完成。

2.2 描述性统计

Au9995自上海黄金交易所运行以来,从2002年11月1日的84.45元/克到2011年4月15日310.41元/克,趋势持续上升,增长了267.57%,平均增长率为0.30%。

首先,对黄金价格序列进行描述性统计分析,其基本特征见表1。

由以上分析,初步认为黄金价格序列是一个非平稳的时间序列。其次,为了进一步验证其平稳性,对序列作ADF检验。经检验,检验t统计量值是-2.45,大于显著水平为10%的临界值。所以,在90%的置信度下不能拒绝原假设,因而认为原始序列是非平稳的。最后,需要对价格序列进行EMD分解,以便进行后续的研究。

2.3 EMD技术及聚类分析

2.3.1 EMD技术。对样本序列进行EMD分解后,产生5个imf分量和一个趋势项(如图1所示)。其中每个imf分量曲线都呈现出了围绕零均值线、局部极大值与局部极小值基本对称的振荡形式。5个imf分量的周期由短到长,即频率由高到低。趋势项一定程度上反映了原序列的非平稳性,其趋势是上升的,这与对原序列的观察结论是一致的。

分别计算各个imf分量、趋势项与原序列的Pearson相关系数以及方差。表2列示imf分量和趋势项的一些统计量。在95%的置信水平下,imf4、imf5、趋势项和原序列的相关系数是有效的;趋势项的方差对原序列的方差贡献率最大,这表明趋势项可以反映原序列的基本波动情形。在5个imf中,imf4和imf5的方差贡献率较大。

2.3.2 KMEANS聚类。分解出imf和趋势项之后,经过对imf序列的初步分析,imf之间存在一定的关联性。直接用于神经网络预测的效果并不好。EMD从工程学的角度分离出这些imf,它们对于工程上的分析有很大帮助。但是在经济学领域未必适用,神经网络模型有很大的主观性和随意性。如果对于每个imf序列建模,不仅工作量巨大,效率不高,而且建模效果有很多不确定性。因此我们有必要重新整合imf。根据每个imf分量的周期和趋势,将所有imf分量进行聚类分析,使得特征相似的分量归为一类。

这里采用的KMEANS聚类法是以距离的远近亲疏作为标准来进行聚类的。具体算法步骤是:首先,将所有样本初步分为K个类别,分别计算每个类别的类中心;然后,通过计算欧式距离将所有的样本重新分类,原则是将样本归到离中心最近的类别中,并重新计算新的类中心;最后重复第二步直到所有样本都不能再归类为止。

在R软件中调用KMEANS聚类法分析,将所有imf分量聚为两类:第一、二、三个imf分量为一类,其余第四、五个imf分量为另一类。显然,这里的分类结果进一步证实了表2的分析结果。将类内的imf序列相加,可以得到两个新的序列,称之为cimf1和cimf2(comprehensive imf)。到现在为止,我们将黄金价格序列分解为三个序列:cimf1、cimf2和一个趋势项,这三个序列的和仍然等于原始序列。对这三个序列分别建模,并整合所有模型的结果,进而可以预测黄金价格。

2.4 模型预测及对比

目标时间序列共包含432个时点,本文选取最新的40期(大约总期数的10%)作为测试集。神经网络预测需要事前选取参数,本文选取n=6,width=50[11]。窗宽是用于神经网络训练的模式数目。单个神经网络和两阶段神经网络均采用相同的参数。评价模型预测的标准有多种指标,比如平均绝对离差MAD(mean absolute distance)、误差平方和SSE(sum of squared error)、均方误差MSE(mean squared error)、根均方误差RMSE(root mean squared error)。本文使用MSE、RMSE作为模型评价的标准。,其中是预测值与真实值之间的差,即预测误差。

在众多的金融交易中,预测时间序列的走向和预测时间序列值同样重要,在很多时候时间序列的数值难以预测,而预测时间序列的走向更加实际也更加准确。时间序列的走向分为上升和下降两种情形。若当期序列值大于上期的序列值我们称之为上升走向,若当期序列值小于上期序列值我们称之为下降走向,同时忽略两期序列值相同的情形。表3列示三种模型的预测结果及走向预测结果。

表3的结果包含两种情形的对比,一种情形是EMD对三种模型的影响,另一种是同种序列下三种模型的对比。从表3可以看出,无论从哪个角度对比Box-Jenkins都处于劣势,尤其是走向预测正确率甚至没有达到50%。这充分说明传统的Box-Jenkins预测方法在处理非平稳时间序列时的缺陷,它要求使用新的方法来处理该类时间序列。下面重点对比神经网络和两阶段神经网络的效果。很显然,EMD分解对于模型的预测精度影响巨大,但是对走向预测没有大影响。EMD分解之后的时间序列更加具有规律性,更加方便神经网络挖掘时间序列的模式。两阶段神经网络的优势在于走向预测,它比单个神经网络预测精度提高10个百分点。

虽然MSE和RMSE是最常用和最有效的评价模型的指标,但是它不能显示预测残差中的野值。即预测中的野值被平均分散在所有的预测值中,使得不能够清晰的了解残差的结构。本文选取绝对离差的一些分位点刻画残差序列的结构特点。这里仅选取六个分位点:0.95、0.9、0.85、0.8、0.75、0.7。表4列示几种模型的预测残差结构。

由表4可以看出,三种模型在处理未经过EMD分解的时间序列时显现出一定的特点:一是神经网络并没有展示出其优于Box-Jenkins方法的地方,它们的残差结构并没有太大的差别。在某些分位点Box-Jenkins甚至优于神经网络。二是三种模型的残差都比较大,这说明非平稳性给模型带来了不小的麻烦。在处理经过EMD分解之后的时间序列时,三种模型展现出另一番特点:Box-Jenkins方法基本没有改善,而神经网络却有大幅度的改善。改变最大的单个神经网络,它的残差结构迅速降低并优于两阶段神经网络残差结构,这个改变十分显著。

表5列示三种模型预测的绝对误差率。表5的结论与表4一致,三种模型在EMD分解之后的预测精度都有所提高。其中两阶段神经网络的预测精度大幅度提高,这在一定程度上说明两阶段神经网络模型不具有稳健性,它的参数设定有很大的主观性。表5表明在EMD分解之后,三种模型的预测绝对误差率都可以控制在5%以下。有90%以上的预测绝对误差率控制在2%以内,所以该模型的预测精度极高。

总之,EMD分解为时间序列分析带来巨大改变,它可以大幅度提高模型的预测精度,也可以提高走势预测的精度。神经网络在处理复杂时间序列上比Box-Jenkins方法更具有优势。两阶段神经网络可以进一步提高时间序列分析的精度,它在处理复杂的时间序列上更具优势。EMD技术实质上已经把时间序列分为几种模式各异的时间序列,所以两阶段神经网络在本文中的影响不明显。同时两阶段神经网络需要设置更多参数,它更容易受主观经验影响。

3 结论

本文将工程学中主要针对信号序列分解的EMD技术应用于时间序列分析中。在分析非平稳的时间序列时,经EMD分解转化为一系列imf分量和趋势项。将分解后的序列进行聚类后用于神经网络建模中,构建两阶段的神经网络模型预测时间序列。本文的实证结果表明,EMD分解对于非平稳的时间序列分析有重要的影响。根据均方误差和根均方误差的评价标准,两阶段神经网络模型明显优于传统的Box-Jenkins模型。而两阶段神经网络模型和单阶段神经网络模型在很多方面相近,它并没有体现出明显的优势,在某些指标上甚至不如单阶段神经网络模型。但是EMD分解对于后续的神经网络建模确实提供了很多帮助,EMD分解把时间序列的各种模式清晰的分离出来,以便于神经网络建模。

本文首先使用两阶段神经网络模型预测黄金价格,实证结果表明模型的预测精度很高。模型的RMSE为1.91,由误差结构可知少数野值的预测误差较大,但是模型绝对误差率控制在2%以内。然后使用两阶段神经网络模型预测时间序列的走向,这在当今的金融交易中有重要作用。比如,在套利交易中,如果投资者可以正确地预测某种金融资产的价格走向,那么他就可以完成一系列的操作套利。该模型在金融风险控制中同样有重要作用,大部分金融风险控制的目标为5%,那么我们的模型完全可以满足风险控制的目标。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

非平稳时间序列的EMD组合预测及其应用_时间序列论文
下载Doc文档

猜你喜欢