面向农产品期货价格预测的改进LSTM方法
刘锦源
(南京农业大学,江苏南京 210095)
摘要: 期货市场在金融领域具有重要的地位,而期货价格走势的预测对投资者和决策都十分关键。目前,期货价格走势预测模型使用的方法较为单一,且预测模型的精度不够理想。文章以农产品期货价格预测为研究对象,围绕数据预处理、模型构建、集成决策等展开相关工作,针对农产品期货价格具有的典型时序性特征以及其非线性、非平稳等特点,提出一种基于LSTM模型的改进LSTM预测方法。该改进方法引入EEMD方法,先对原始期货价格序列进行分解,再对分解所得的每个子序列进行建模、预测、叠加子序列预测结果以得到最后的预测结果。实验结果表明,该改进方法与LSTM,SVR等传统的机器学习预测模型相比,精度明显提升。
关键词: 农产品期货;价格预测;长短期记忆
0 引言
我国作为农业大国,农产品期货在我国期货市场的交易中占有绝对优势[1]。其中,大豆作为一种重要的农产品,其期货交易历史悠久,具有很强的代表性,适合作为农产品期货的研究对象。大豆产量与价格受自然与非自然因素影响较大,尤其是近几年,在国内外经济不稳定的背景下,大豆期货价格变动较大,不稳定性加剧,价格风险日益增加[2]。据了解,由于价格不稳定性带来的巨大压力,我国各省大豆种植面积呈逐年递减趋势,这对我国大豆产业的健康与可持续发展造成巨大冲击[3]。由此可见,及时准确的大豆期货价格短期预测对于大豆生产者与经营者有很大的指导价值。
农产品期货价格预测主要分为两种。传统的预测基于统计学预测方法,包括回归分析法与时间序列法,例如应绍桦[4]使用ARIMA模型对沪铜1803合约进行时间序列分析预测,梅志娟[5]使用ARMAGARCH模型对沪铜1001合约进行建模。但是,由于农产品期货价格具有典型的非线性、非平稳的特点,传统预测法往往无法很好地进行预测。基于机器学习的智能预测方法得到工业界和学术界的普遍重视,例如杨潇[6]使用SVR方法对中国黄金期货进行预测研究,李科嘉[7]使用LSTM模型对玉米期货主力合约进行预测建模,相关实验结果均表明智能预测方法的预测准确度高于传统预测方法。
本文基于LSTM神经网络,应用集合经验模态分解法(Ensemble Empirical Mode Decomposition,EEMD),提出一种改进LSTM方法,对农产品期货价格进行预测,并应用于大豆期货的价格预测。
王振辉表示,希望通过京东物流高品质的服务,为千家万户,为亿万消费者带来真正的高品质的享受,这是京东物流对个人业务市场的推进的初衷,我们的理念是“不止多一种选择”,就个人业务具体来说有三个特点:
1 研究方法
1.1 RNN与LSTM
循环神经网络(Recurrent Neural Network,RNN)作为一种特殊的神经网络,与普通BP神经网络最大的不同之处在于:普通的BP神经网络每个节点的更新只与上一层节点的输出有关,而RNN中的节点更新时,不仅接收上一层节点的输出,还会将本节点上一个状态的数据作为输入,即节点的下一个状态与其上一个状态之间存在直接的联系,这一特性使得RNN可以很好地处理时间序列数据[8]。RNN的网络结构如图1所示。其中x表示输入,U,V,W表示各层之间的权重,s表示隐含层的输出,o表示输出。
图1 循环神经网络(RNN)的网络结构
然而,实际使用中发现,RNN对于时间序列的记忆长度十分有限。随着时间序列的增长,RNN会丧失对较远的信息的记忆能力。为了解决该问题,1997年Sepp Hochreiter和Jurgen Schmidhuber提出长短期记忆模型[9-11]。作为一种特殊的RNN模型,基于长短期记忆(Long Short-Term Memory,LSTM)模型设计了独特的记忆与遗忘模块,可以记住长期的输入信息,很好地解决长期依赖问题。
(2)对imfi,以过去p天的数值作为输入,未来1天的数值作为输出,训练LSTM模型,记作Mi。
图2LSTM神经元结构
图2 中ct为t时刻该结点的状态,xt与ht分别为t时刻的输入和输出。正是因为LSTM网络的特殊构造,其在处理时间序列数据时很有优势[12],因此本文选择LSTM模型处理农产品期货价格数据。
1.2 EMD与EEMD
(3)对imfi,选择要预测的日期前p天的数值xi,输入Mi模型中,获得预测值yi。
其中imfi(t)为不同频率的IMF,rn(t)为残余分量。由于该方法不需要设定任何的基函数,因此该方法具有自适应性,适合处理复杂的非线性、非平稳信号。
治疗前,2组的INF-γ、IL-4水平和INF-γ/IL-4差异无统计学意义(P>0.05);治疗后2组的INF-γ水平和INF-γ/IL-4高于且IL-4水平低于治疗前(P<0.05)。治疗后观察组的INF-γ水平和INF-γ/IL-4高于且IL-4水平低于对照组(P<0.05),见表3。
星载天线展开机构属于空间三维展开机构,是空间可展开机构中结构最复杂、功能最重要的部分,其发射时折叠为一个可以接受尺寸的系统(收拢状态),而在达到预定轨道后通过展开机构按设计的方式解锁、展开、锁定,展开成为天线(展开状态)。可展开机构有效口径和形成的型面精度决定了卫星通信的频率波段和质量。随着航天技术的发展,星载天线形成了大口径、高精度、轻量化的发展趋势。但是考虑火箭搭载能力有限以及搭载发射的成本,对大型可展开天线提出了较高要求的收纳比。
针对EMD方法出现的模态混叠问题[14],Wu等[15]提出了EEMD方法。该方法通过在原始信号中添加频率均匀分布的白噪声,之后进行全体求平均免除添加的白噪声对原始序列的影响,成功避免了EMD可能出现的模态混叠问题。因此,本文使用EEMD方法对大豆期货价格时间序列进行分解。
1.3 改进的LSTM方法
为了提高LSTM方法的预测精度,本文提出改进的LSTM方法。改进LSTM方法首先使用EEMD分解大豆期货价格时间序列为若干IMF,再分别对每一条IMF使用LSTM进行预测,最后叠加各IMF预测结果作为最终的预测结果。改进LSTM方法的流程图如图3所示。
图3 改进LSTM方法流程
改进方法的算法步骤如下:
(1)使用EEMD对输入的价格时间序列进行分解,得到n条IMF,记作imfi。
问卷设计包含三部分内容:第一部分为企业概况。第二部分为企业价值共创体系价值创造能力的测量题项,问卷对测量题项采用Likert7级量表打分(最低分1为非常差,最高分7为非常好)。考虑到企业一般不愿意透露其真实的财务状况,财务指标的数据是通过真实数据情况和Likert7级量表数据相互印证的方式,核对后确认取值的。第三部分为被调研者的开放性建议。
LSTM网络与RNN结构相似,其主要的差别在于LSTM神经元并非RNN中简单的tanh函数,而是一个复杂的元组结构,通过输入门(input gate)、遗忘门(forget gate)和输出门(output gate)控制更新内部记忆单元(cell)以及输出。LSTM神经元结构如图2所示。
笔者在实践中经常采用小组合作教学法、情景模拟教学法等多种教学方法实施历史教学,经过实践检验,学生的参与度不仅大大提高,学生的历史学习能力也得到了有效的提升。
经验模态分解方法(EmpiricalModeDecomposition,EMD)是由黄锷(N.E.Huang)等[13]在1998年提出的一种处理非线性非平稳信号的方法。该方法分解原始信号序列,得到一系列的本征模函数(Intrinsic Mode Function,IMF)分量以及一个残余分量,即可将原始序列x(t)分解为:
(4)叠加每条IMF的预测值yi,最终的预测值
其中yi′和yi分别为大豆期货价格的预测值和实际值,n为预测数据的个数。RMSE越小,MAPE越小,模型的预测精度越高。
2 实验
为了测试改进的LSTM模型的预测效果,本文选择具有代表性的期货时序数据作为建模对象,对时序数据进行预处理后应用EEMD进行分解,之后选择好训练参数后再进行实验测试,选择之前所提到的输入维度参数p的最优值,完成改进模型的构建。最后,将训练好的模型预测结果与其他模型预测结果进行分析与比较。
2.1 数据说明与预处理
大多是教师都是从学校毕业马上到学校任教,极少数是在企业或者事务所有实践经验的经历。这些教师理论知识专业知识比较扎实,但是讲课缺乏实践经验的话对同学们的讲解就没有这么深入和理解,更多照着书本讲。
图4 期货1809合约原始交易数据和归一化处理后的数据
2.2 评价标准
本文选用均方根误差(RMSE)和平均绝对百分误差(MAPE)来对模型的预测效果进行判断,计算公式分别为:
企业创新、产权性质与组织冗余..................................................................................................................曹文文 李 健 潘 镇(78)
Laparoscopic surgery for colorectal cancer is increasing rapidly, particularly among elderly patients. However, neither the safety nor the effectiveness of laparoscopic surgery in this demographic has yet been determined.
实验选择大连商品交易所(http://www.dce.com.cn)的黄大豆1号期货1809合约作为研究对象。该期货合约的历史交易数据在交易所网站上获得。经过初步筛选整理,获得有效交易日的交易收盘价数据352条。为了提高LSTM网络的预测精度,需要先对原始数据做归一化处理。归一化处理后的数据如图4所示。
2.3 改进的LSTM模型构建
首先使用EEMD分解归一化处理后的期货价格时间序列,分解结果如图5所示。图5中最上面的线为原始数据,之后的线为EEMD分解得到8条IMF,从上到下依次记为imf1至imf8。
图5 EEMD分解结果
基于以上分解结果,对每一条IMF分量使用LSTM进行建模。基于Google TensorFlow,使用试错法进行调参后,建立隐层包含24个LSTM神经元的神经网络,配置参数batch_size为24,epochs为100进行训练,得到预测模型,记作Mi。使用测试集数据进行测试,将每一个预测模型Mi的预测结果进行叠加,即得到最终的预测结果。
2.4 参数选择
为了获得最佳的预测效果,需要确定训练输入数据的维度p,即选用过去p天的价格来预测未来1天的价格。实验数据如表1所示。
由表1可得,RMSE在p值为11时收敛到极小值,RMSE在p值较小时在0.2左右波动,随后逐渐增大。由此可知,p取11时,本改进模型在预测该期货合约的价格趋势上精度最优。
2.5 模型比较
这里选择LSTM模型、SVR模型作为对比模型进行比较。选择测试集的数据进行测试验证,使用不同的模型进行预测,绘制出预测价格序列与真实价格序列之间的对比图,对比结果如图6所示。可以看到,Improve LSTM模型预测曲线与true data真实数据最为契合,而LSTM模型预测曲线与SVR预测模型预测曲线随着天数的增长,其与true data的契合度越来越低,即其模型的预测误差越来越大。
表1 不同p值下的改进LSTM模型预测精度对比
模型精度对比如表2所示。可以看到,改进LSTM模型相比LSTM模型,RMSE降低了49.61%,MAPE降低了63.39%;相比SVR模型,RMSE降低了57.29%,MAPE降低了67.40%。综上分析,改进LSTM方法对于大豆期货价格短期预测有较好的预测效果。
3 结语
本文提出了一种改进LSTM方法,该方法使用EEMD分解原始数据为IMF后对各分量分别进行LSTM预测建模,将预测结果叠加作为最终的预测值,并将该方法应用到大连商品交易所黄大豆1号期货1809合约的价格预测上。经过与LSTM模型和SVR模型的对比,改进LSTM预测模型具有较好地处理非线形非平稳信号的能力,预测精度脱颖而出,具有较为理想的预测效果。
除了大豆期货外,本改进方法还可以应用到其他农产品期货的预测中。考虑到影响期货价格的因素的复杂性与相关数据收集的难度,本实验仅选择交易价格作为训练模型的数据,实现了单步预测,中长期的预测将在数据充分的基础上完善。
图6 不同模型预测对比
表2 不同模型预测精度对比
参考文献
[1]程文晓.我国大豆期货价格的预测分析[D].兰州:兰州大学,2014.
[2]吴桐桐,王仁曾.国际大豆期货对中国大豆期货价格的影响研究[J].价格理论与实践,2018(6):105-108.
[3]梁静溪,邰银平.基于EGARCH-EWMA模型的我国大豆期货价格预测[J].科技与管理,2014(2):58-62.
[4]应绍桦.基于ARIMA的价格时间序列分析与预测——以沪铝1803合约为例[J].经贸实践,2018(10):159.
[5]梅志娟.ARMA-GARCH模型的期货价格预测比较研究[J].经济研究导刊,2010(34):73-74.
[6]杨潇.中国黄金期货价格的SVR智能预测研究[J].会计之友,2017(17):50-53.
[7]李科嘉.基于长短期记忆模型的期货价格预测[D].合肥:中国科学技术大学,2018.
[8]RUMELHART D E,HINTON G E,WILLIAMS R J.Learning representations by back-propagating errors[J].Cognitive Modeling,1988(3):1.
[9]BENGIO Y,SIMARD P,FRASCONI P.Learning long-term dependencies with gradient descent is difficult[J].IEEETransactionsonNeuralNetworks,1994(2):157-166.
[10]GREFF K,SRIVASTAVA R K,KOUTNIK J,et al.LSTM:A search space odyssey[J].IEEE Transactions on Neural Networks and Learning Systems,2016(10):2222-2232.
[11]GERS F A,SCHRAUDOLPH N N,SCHMIDHUBER J.Learning precise timing with LSTM recurrent networks[J].JournalofMachineLearningResearch,2002(8):115-143.
[12]HUANG N E,SHEN Z,LONG S R,et al.The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proceedings of the Royal Society of London.Series A:Mathematical,Physical and Engineering Sciences,1998(1971):903-995.
[13]WU Y X,WU Q B,ZHU J Q.Improved EEMD-basedcrudeoilpriceforecastingusingLSTMnetworks[J].Physica A:Statistical Mechanics and Its Applications,2019(516):114-124.
[14]HUANG N E,SHEN Z,LONG S R.A new view of nonlinear water waves:the Hilbert spectrum[J].Annual Review of Fluid Mechanics,1999(1):417-457.
[15]WU Z,HUANG N E.Ensemble empirical mode decomposition:a noise-assisted data analysis method[J].
Research on the improved LSTM method for agricultural futures prices forecasting
Liu Jinyuan
(Nanjing Agricultural University,Nanjing 210095,China)
Abstract: Considering the significance of futures market in the financial field,the forecasts of futures price movements is critical to investors and policy makers.At present,the method of futures price trend prediction model is relatively single,and the accuracy of the prediction model is not ideal.Taking the prediction of agricultural product futures price as a research sample,this paper focuses on data processing,model construction,integration decision-making,etc.and proposes an improved LSTM based the price forecasting method considering the typical characteristics of time series featured by futures price series,such as nonlinearity and non-stationarity.In this improved method,EEMD method is introduced.Firstly,the original futures price sequence is decomposed,and then each subsequence is modeled,predicted and superimposed to obtain the final prediction results.The results of experiments show that the accuracy of this improved method is significantly promoted when it’s compared with the traditional machine learning prediction models such as LSTM and SVR.
Key words: agricultural product futures;price forecasting;long short-term memory
中图分类号: TP391
文献标志码: A
作者简介: 刘锦源(1998—),男,江苏南京人,本科生;研究方向:数据挖掘与机器学习。