基于集成预测模型的集装箱吞吐量预测研究
郭 雪 (上海大学 管理学院,上海 201800)
摘 要: 本文综合运用ARIMA预测模型和LSSVR预测模型,提出了一种集成预测模型,并将该模型应用于上海港的集装箱吞吐量预测研究中。此外,采用不同的参数估计方法估计ARIMA模型的参数,得到了两种ARIMA预测模型。研究表明,集成预测模型可以提高预测模型的准确性,不同的估计方法也会影响模型的预测表现。
关键词: 单整自回归移动平均模型(ARIMA);最小二乘支持向量回归(LSSVR);LS估计;ARCH估计;集成预测
0 引言
20世纪70年代,中国海上集装箱运输正式启动。自20世纪80年代以来,中国集装箱运输的增长速度始终以远远超过世界平均增幅的水平发展,随着经济全球化的深入和国际贸易的频繁交换,集装箱运输在减少运输时间和贸易成本方面发挥了重要作用。近年来,我国港口的集装箱吞吐量快速增长,如何科学地预测吞吐量的数据成为港口运营商管理的重要内容。准确预测港口的集装箱吞吐量数据,不仅可以为港口自身提供决策支持,而且对国家的可持续发展至关重要。因此,加强对我国港口集装箱吞吐量预测的研究对我国港口的发展具有重要意义。
至今为止,国内外学者已经对港口集装箱吞吐量预测做了大量研究并取得了丰硕的研究成果。但是,对于如何科学地捕获集装箱吞吐量的历年变化规律和趋势,以及如何获得比较精确的预测结果仍然没能找到一个普遍适用于各种时间序列的方法。目前,用于集装箱吞吐量预测的方法和模型主要涉及到两大类:定性预测和定量预测。定性研究主要依赖于人的主观意识,预测结果具有很大的不确定性[1]。学术研究一般更倾向于定量预测,其中定量预测可以分为单一模型预测和组合模型预测。在单一预测模型中,单整自回归移动模型(ARIMA)、最小二乘支持向量机(LSSVR)、灰色模型等得到了大量的运用,如Mark和Yang[2]、刘雷丽等[3]、薛俊强[4]、田雪等[5]、朱念等[6]、Peng和Chu[7],结果发现这些预测模型的预测精度具有不确定性。近年来,组合预测模型得到了越来越多的关注,其可以结合各单项预测模型的优势,往往会在预测中展现出较大的优势,如:鲁博等[8]、Xie[9]、施泽军和李凯[10]、赵尚威和周建红[11]、许利枝汪寿阳[12]、梁小珍[13]等均采用集成预测模型进行了研究,而且得到了更高预测精度的效果。
根据以往研究表明,LSSVR预测模型具有良好的数据特征提取效果,模型的预测精度比较高,本文将LSSVR模型作为集成预测模型法的单项模型。在ARIMA建模时,难点是关于参数P 、D 、Q 的确定,这三个参数直接关系到所建模型预测性能的好坏。建立ARIMA模型时,大量的研究表明LS估计具有很好的作用,但是,本文提出用自回归广义异方差估计(ARCH)法建立的ARIMA模型对提高最终的预测结果起到了关键性作用。
本文首先详细介绍了用到的模型和方法以及论文的研究思路、论文框架;然后进行实例研究,将提出来的模型用于上海港集装箱吞吐量的预测,并与ARIMA、LSSVR等单一模型以及运用LS估计和ARCH估计等不同预测模型的预测结果进行了对比;最后阐述了本文的研究结论。
1 理论基础与模型框架
1.1 单整自回归移动平均模型(ARIMA)
单整自回归移动平均模型(ARIMA)是Box和Jenkins提出来的一种能够高效捕捉时间序列中的线性成分规律的计量模型,而对序列中的非线性的复杂成分难以保障其效果。ARIMA模型是实际应用中最常用到的模型,是由RIMA模型扩展而来的,被广泛应用于非平稳时间序列的分析,即:先将非平稳的时间序列经过d 阶差分转化成平稳的时间序列,然后对新序列建立ARIMA模型。ARIMA(p ,d ,q )的数学表达式可以写成:
其中:Δd 是d 阶差分算子,p 和q 分别是模型子回归与移动平均的阶数,Øi 和θj 是模型的待估参数,本文采用不同的估计方法得到了不同的ARIMA模型。εt 是t 时刻的误差,且为白噪声序列,即εt~N (0,σ2)。
最小二乘支持向量回归(LSSVR)是支持向量回归(SVR)的改进,即将SVR中的不等式约束转化成了等式约束,成功的将求解二次规划问题化为求解线性方程组问题,从而达到简化计算的目的。
针对非线性回归估计问题,SVM利用非线性映射Φ(·)将训练数据非线性地映射到一个高维空间,从而使非线性函数估计问题转化为高维特征空间中的线性函数估计问题,设该估计问题的最优决策函数为:
1.2 最小二乘支持向量回归(LSSVR)
其中:f (* )是估计值,Φ(*)为映射函数,x 为输入向量,ωT 和b 的估计过程可以转化成如下的规划问题:
其中:ξi 和分别表示上界和下界偏差的松弛变量,γ为惩罚常数,通常是大于0的数,ε为最大误差。而LSSVR则将原问题化为:
由表1可知,该时间序列的T 统计量值大于临界值,显然原始时间序列不具有稳定性。故对原数据进行一次差分,将其转化成平稳序列。同理得到其T 统计量的值为-3.414611,小于临界值-3.140847。所以,在90%的条下可以认为一节差分序列为平稳数列,即符合运用ARIMA模型的条件。
第一,采用最小二乘估计法确定ARIMA模型,并运用该模型得到2018年1月至2018年11月的集装箱吞吐量预测值;
ii
为了解决上述问题,通过引入拉格朗日乘子并建立Lagrange方程,以及KKT条件,最终得到最小二乘支持向量回归模型:
2.2.1 实验设计
首先,与传统胶片相比,数码照片以马赛克形式存在,更加容易修改而不易察觉,更加可操控而成为作者的同谋。这给传统摄影致命一击——真实性或客观性受到广泛质疑。里奇不无担忧地写道:
其中:k (* )是核函数,即映射过程。常用的核函数有高斯径向基核函数、多项式函数、RBF核函数和线性函数等。本文中用RBF和函数作为LSSVR的核函数。
“专题询问的目的是为了推动问题的解决,不是让政府‘难看’,更不是‘鸡蛋里挑骨头’,而是要让政府感到‘压力’,激发‘动力’,进而改进工作推动发展。”谭坊镇人大主席苏传亭说。
1.3 集成预测方法
本文将原始时间系列分解成若干个子序列,然后运用预测模型对每一个子序列进行预测,得到单项预测结果,为了得到最中的预测结果,需要把每一项的结果以科学的方法进行集成,以实现预测值与实际值误差最小的目的。本文采用最简单的简单平均法(SA)得到最终的预测结果。其数学表达式为:
我的家乡如果也是漂泊的船,一定是大海苍茫的一片木板,不能和俄罗斯大地母亲制成的方舟相比。那是可以在上帝的神罚里幸存的希望之船。而且在我的记忆里,说到漂泊首先想起的景色和《圣经》中四十日四十夜的大雨也完全不同——那是我得知我考上大学的那个暑假,那个终于没有了衔接班、补习班的假期,百无聊赖到只能在空调房中听着蝉鸣,构思自己想写的小说。那时的高中毕业生都大抵觉得自己应该能写出什么传世名作,最不济的“青春伤痛”也能卖成畅销书。他们或许以国内某作家为偶像,或者以弗朗索瓦斯·萨冈为榜样。殊不知弗朗索瓦斯·萨冈能写《你好犹豫》而名声大躁,也仅仅因为她十八岁而已。
(3)注重系统的稳定性与开放性。平台依附于企业级服务器,系统稳定运行的情况下,尽可能减少和杜绝系统漏洞,在此基础上丰富系统功能,全面改进稳定性,形成客户端技术层面上的与用户需求相贴合的体验。
基于上述各模型的基本原理,本论文提出了一种可以有效预测集装箱吞吐量的集成预测模型,本框架主要步骤如图1所示,可以归纳如下:
1.4 模型框架
其中:yt 为第t 时刻模型的预测值, 为在第t 时刻第n 个预测模型的预测结果。
其中:e 是近似误差,取代了原SVR中的ξ和。
第二,采用自回归条件异方差法确定ARIMA模型,并运用该模型得到2018年1月至2018年11月的集装箱吞吐量预测值;
第三,运用LSSVR预测模型得到2018年1月至2018年11月的集装箱吞吐量预测值;
第四,运用SA集成方法将ARIMA模型和LSSVR模型的预测值进行集成,得到最终的集装箱吞吐量预测值。
图1 基于经验模态分解的集成预测模型框架
2 实证研究
2.1 数据描述与评价准则
选择上海港集装箱吞吐量为样本数据,以2001年2月至2018年11月为样本区间,共计214个数据,其趋势图如图2所示(样本来源于宏观经济数据库万德数据库)。为了验证本模型的有效性,将样本数据分成训练样本(2001年2月至2017年12月,共计203个数据)和测试样本(2018年1月至2018年11月,共计11个数据)。从图中可以发现,该时间序列具有某种上升趋势,此外,还有很大的波动性,即该时间序列不平稳。
图2 2001年2月至2018年11月上海港集装箱吞吐量趋势图
为了对比模型的预测效果,本文选用的评价预测模型的指标包括平均绝对误差(MA E )和平均绝对百分比误差(MAP E )。
其中:yi 和 分别表示带i 期的实际值和预测值。MAE 和MAPE 的值越小代表预测值与实际值的差距越小,模型的预测性能越好,预测效果越好。
数据具有平稳性是运用ARIMA模型的前提,故在运用ARIMA模型进行集装箱吞吐量预测时,首先检验数据数列是否具有此特征。若原始时间序列不具有平稳性,可以采用差分法将不平稳序列转化为平稳序列,通常情况下,进行一次或者两次差分就可以将不平稳数据转化成平稳序列。数据平稳性检验可以通过单位根检验来实现,常用的单位根检验是Augmented Dickey-Fuller(ADF)检验。根据ADF检验原理,可以得到上海港集装箱吞吐量的单位根检验结果,如表1所示:
2.2 预测结果及分析
第四,方案④不但在精度上是最高的,而且在工作量上也适中,既保证了精度,同时又提高了作业效率,所以就本试验来看,按照航带布设像控点,沿航向每隔8个基线布设一个像控点,旁向每隔1个航带布设像控点(根据测区实际情况可以适当改变基线以及航带相隔数量)是最佳的像控点布设方案,为实际生产地形图提供了理论依据。
第二步,打开翻浆冒泥病害区域底界坐标控制点数据文件,编辑离散的翻浆冒泥病害区域底界控制点的坐标值C(X,Y,Z),如下表1所示。其中:Z为控制点的深度值,轨顶值为0,值不变;X为控制点在某测线的里程值,值不变;Y为垂直X方向(即铁路线路横向)的坐标值,一般定义铁路线路方向最左或最右的测线的Y坐标为0,按测线间距编辑设置每条测线的Y值。
1.5 统计学处理 采用SPSS 19统计软件分析数据,实验结果以表示,采用独立样本t检验或Wilcoxon秩和检验进行组间比较,检验水准(α)为0.05。
秀容川已确然无疑,自己就是秀容月明的儿子。妈妈的模样已记不清了,但他记得一位姓芦的姑姑,把他抚养到了十岁。那姓芦的姑姑,就是乔瞧吗?他不知道。
在运用ARIMA模型时,最关键的是确定p 、d 、q 三个参数的值,根据自相关偏自相关图以及差分次数,运用LS估计和ARCH估计分别建立了ARIMA(3,1,4 )和ARIMA(2,1,4 )两种不同的模型。
运用LSSVR模型时,选择嵌入维度为10,即用前十个数据预测第十一个数据,以此类推。在预测时采用滚动预测,即将每次的预测结果加入训练集,进而得到下一个预测值。
表1 ADF检测结果
2.2.2 模型预测结果与评价
根据2.2.1中对各种预测模型的设计,得到了最终的预测结果。为了验证本文提出的预测模型的有效性,本文也给出了单独运用ARIMA模型和LSSVR模型的预测结果。
图3 采用LS估计时不同预测模型的预测结果对比图
图4 采用ARCH估计时不同预测模型的预测结果对比图
表2 采用LS估计时各预测模型的MAE 和MAPE
表3 采用ARCH估计时各预测模型的MAE 和MAPE
图3、图4分别展示了用不同的估计方法估计ARIMA模型时得到的单项模型和集成预测模型烦人预测结果,除了2月和9月外,这些模型都能取得良好的效果,为了说明论文所建模型的优越性,表2、表3展示了各种预测模型的MAE 和MAPE 。
由表2、表3可知,若以MAE 作为评价预测模型的指标,(1)不管以哪种方式估计ARIMA模型的系数,SA集成预测的预测效果都要高于单一预测模型的预测效果,表明了集成预测模型的优势;(2)最小二成支持向量回归LSSVR的预测效果要优于单整自回归移动模型ARIMA的预测效果;(3)采用ARCH估计ARIMA模型的参数可以提高模型的预测精度,而且可以使得其对应的集成预测模型的预测效果得到改善。而且以MAPE 作为评价预测模型的指标,虽然LSSVR模型的预测误差要小于LS估计ARIMA模型时对应的集成预测模型的误差,但是其误差要大于ARCH估计ARIMA估计时对应的集成预测模型的预测误差,这就说明选择合适的参数估计方法可以提高预测模型的表现。
3 结 论
本文以上海港2001年2月至2018年11月的集装箱吞吐量数据为研究对象,综合利用ARIMA和LSSVR模型,从LS估计和ARCH估计的角度,分别建立了一套适用于该港口集装箱吞吐量预测的集成预测模型。研究发现,LSSVR和ARIMA预测模型都具有良好的预测精度,但是集成预测方法保留了这两种预测模型的优势,得到的整体误差比单一模型的预测误差更小。而为ARIMA模型选择合适的参数估计方法可以显著提高模型的预测表现。
考虑到港口市场竞争激烈,提高集装箱吞吐量的预测精度可以为港口运营商提供决策支持,使得港口运营商做出更利于自身发展的决定。基于此,本论文从提高预测模型的预测精度出发,为建立预测港口集装箱吞吐量的模型提供了新的思路。
疗效观察。(1)Visia检测结果。口服鳕鱼皮胶原低聚肽后,受试组的皮肤皱纹、纹理、毛孔、红色区、紫质、水分、油脂都有明显改善,与试食前及对照组比较有显著性差异(P<0.05);斑点、紫外线色斑、棕色斑略有改善,但与试食前及对照组比无明显差异(P>0.05);对照组实验前后皮肤各项指标无明显改变(P>0.05)。
参考文献:
[1] 刘钰.基于VMD-ARIMA-HGWO-SVR组合模型的港口集装箱吞吐量预测[D] .兰州:兰州大学(硕士学位论文),2018.
[2] Mak K L,Yang D H.Forecasting Hong Kong's Container Throughput with Approximate Least Squares Support Vector Machines[J] .World Congress on Engineering,2007(1):7-12.
[3] 刘雷丽,蒋惠园,张栓柱.基于数据预处理GM(1,1)模型的深圳港集装箱吞吐量预测[J] .水运工程,2009(2):83-86.
[4] 薛俊强.宁波港集装箱吞吐量预测模型的选择[J] .华东经济管理,2013,27(5):169-172.
[5] 田雪,王丹丹,王锐月,等.基于灰色模型的港口吞吐量预测研究——以曹妃甸港口为例[J] .数学的实践与认识,2018,48(4):280-284.
[6] 朱念,陈东升,何昌勤,等.基于灰色GM(1,N )模型的广西北部湾港口物流预测研究[J] .数学的实践与认识,2017,47(23):303-310.
[7] Wen-Yi Peng,Ching-Wu Chu.A comparison of univariate methods for forecasting container throughput volumes[J] .Mathematical and Computer Modelling,2009,50(7):1045-1057.
[8] 鲁渤,杨显飞,汪寿阳.基于情境变动的港口吞吐量预测模型[J] .管理评论,2018,30(1):195-201.
[9] Gang Xie,Shouyang Wang,Yingxue Zhao,et al.Hybrid approaches based on LSSVR for container throughput forecasting:A comparative study[J] .Applied Soft Computing Journal,2013,13(5):2232-2241.
[10] 施泽军,李凯.基于灰色模型和指数平滑法的集装箱吞吐量预测[J] .重庆交通大学学报(自然科学版),2008(2):302-304,332.
[11] 赵尚威,周建红.中国港口集装箱吞吐量预测:基于组合时间序列[J] .系统科学与数学,2018,38(2):210-219.
[12] 许利枝,汪寿阳.集装箱港口预测研究方法:香港港实证研究[J] .管理科学学报,2015,18(5):46-56.
[13] 梁小珍,乔晗,汪寿阳,等.基于奇异谱分析的我国航空客运量集成预测模型[J] .系统工程理论与实践,2017,37(6):1479-1488.
A Container Throughput Prediction Model Based on Integrated Forecasting
GUO Xue (School of Management,Shanghai University,Shanghai 201800,China)
Abstract: By using ARIMA prediction model and LSSVR prediction model,this paper proposes an integrated prediction model,and applies it to the prediction of container throughput of Shanghai port.In addition,parameters of the ARIMA model are estimated by different parameter estimation methods,and two ARIMA prediction models are obtained.The research shows that the integrated prediction model can improve the accuracy of the prediction model,and different estimation methods will also affect the prediction performance of the model.
Key words: autoregressive integrated moving average model(ARIMA);least squares support vector regression(LSSVR);the LS estimate;the ARCH estimated;integrated forecasting
中图分类号: U169.6
文献标识码: A
文章编号: 1002-3100(2019)06-0098-06
收稿日期: 2019-03-08
作者简介: 郭 雪(1993-),女,山东聊城人,上海大学管理学院硕士研究生,研究方向:预测方法及其应用。
标签:单整自回归移动平均模型(ARIMA)论文; 最小二乘支持向量回归(LSSVR)论文; LS估计论文; ARCH估计论文; 集成预测论文; 上海大学管理学院论文;