基于灰色关联分析的LS-SVM高铁客流量预测
赵 盼 1 ,张浩伦 1 ,耿立艳 1 ,张占福 2
(1.石家庄铁道大学 经济管理学院,河北 石家庄 050043; 2.石家庄铁道大学 四方学院,河北 石家庄 051132)
[摘 要] 文章结合灰色关联分析(GRA)和最小二乘支持向量机(LS-SVM),构建基于GRA的LS-SVM高铁客流量预测模型(GRA-LS-SVM)。将高铁客流量的影响因素初步设为17项,利用灰色关联分析从中选取主要影响因素,并将其作为输入变量,构建LS-SVM。以我国高铁客流量数据为例,验证GRA-LS-SVM的有效性。结果显示,GRA-LS-SVM不仅简化了模型结构,而且提高了高铁客流量预测精度。
[关键词] 高铁客流量;灰色关联分析;最小二乘支持向量机
1 引言
随着各种交通工具的发展,客运市场竞争加剧,消费者对于出行的需求正在发生着变化。作为我国传统的交通工具——铁路运输业面临着前所未有的挑战,满足旅客的出行要求是保持运输市场份额的重要条件。同时人们对于出行的成本、时间、服务质量等多方面提出了更高的要求,因此我国高速铁路旅客运输量在客运总量中所占的比例逐年增加,高速铁路已经逐渐成为人们出行的一种必要选择方式。随着高铁数据的涌现,如何通过对数据的深层次挖掘,提升高铁客流量预测精度,是一个亟待解决的重要课题。
6月22—24日,黎川县洵口镇降雨量406 mm,县预警平台发布准备转移预警信息和实施转移信息13 080人次。全县倒塌房屋27间,损毁房屋67间,由于预警及时,提前转移群众1 543人,成功避免了人员伤亡。22日16时,西城乡新桥村薛道飞家5口人,23日22时,洵口镇白沙村山安村小组艾义华家4口人,24日15时,厚村乡三源村郑友根家4口人、郑友孙家5口人,接到预警信息,及时实施转移,转移不久,房屋就被山体滑坡压塌。
高铁客流量在多种影响因素作用下呈现非线性的变动,且较为复杂,为了提高预测精度,刘强、陆化普(2011)等针对区域铁路客运量数据样本少的问题,构建了基于支持向量机(SVM)的区域运量滚动预测模型,通过实例分析证明该模型的预测精度优于传统预测方法[1],夏国恩等(2010)提出的加权SVM,通过赋予惩罚因子不同的加权系数,获得了比SVM和BP神经网络更优的预测效果[2],张蕾、孙德山(2018)将灰色关联分析方法与支持向量机预测方法相结合预测铁路货运量,预测较为准确[3]。可见,SVM是预测客运、货运量的重要方法。文章将SVM的改进形式最小二乘支持向量机(LS-SVM)与灰色关联分析相结合,预测高铁客流量的预测,期望为高铁的修建、管理及运营提供理论与方法指导。
2 LS-SVM
2.1 LS-SVM算法
支持向量机最适合于小样本的学习环境。它的关键在于要找出所有的支持向量,从这些支持向量就能得出最优分隔超平面了。这一做法让人联想到普通信号的处理。对于一个信号,其结构都是真实信号加上各种噪声。做信号处理时,目的就是为了削弱噪声的影响,从而得出真实的信号值。支持向量机与信号滤波有相似之处,在样本里,除了支持向量的那些点就像是信号里的噪声,支持向量恰对应于信号中的真实成分,支持向量机里寻找最优超平面恰好就是信号处理时要极大化削弱噪声的影响。
喷墨打印纸质量预测模型F=WXj,Xj为对应的喷墨打印纸的表面性能,可得出4种喷墨打印纸样的质量评价模型分别为:
where gm was the transconductance, Cg was the gate capacitance given by the following expression:
文章所采用的最小二乘支持向量机便是一种被最为广泛采用的方法,其对非线性问题的处理有较好的准确度及精度提升。与人工神经网络比,它能克服训练时间长、训练结果存在随机性以及过学习的不足。
设样本为n 维向量,其中1个样本及其值表示为(x 1,y 1)…(x i ,y i )∈R n ×R
首先用非线性映射ψ (x )把样本从原空间R n 映射到特征空间ψ (x )=(φ (x 1),φ (x 2),…,φ (x i ))。在这个高维特征空间中构造最优决策函数y (x )=ω ·φ (x )+b ,非线性估计函数就转化为高维特征空间中的线性估计函数。根据风险最小化原则,设其中‖w ‖2控制模型的复杂度,c为正规化参数,R emp 为误差控制参数,也即ε 不敏感损失函数。常用的损失函数有线性ε 损失函数,二次ε 损失函数,huber损失函数。选取不同的损失函数可构造不同形式的支持向量机。最小二乘支持向量机选用的损失函数为误差ξ i 的二次项,故优化问题为:
(1)
s.t:y i =φ (x i )·w +b +ξ i ,i =1,…,l
用拉格朗日法求解这个优化问题:
(2)
定义核函数K (x i ,x j )=φ (x i )·φ (x j ),K (x i ,x j )是满足Mercer条件的对称函数。根据(4),优化问题转化为求解线性方程:
县级异地防汛会商视频会议系统的建成,实现了国家、省、市、县四级防汛抗旱指挥部门的异地视频会商,充分发挥了协同指挥和调度功能;同时,卢氏、栾川、南召等8个县的异地防汛会商视频会议系统延伸到了乡镇。异地防汛会商视频会议系统已成为各级水利部门召开视频会议、进行防汛会商的主要平台。2012年7月3日,河南省防办对山洪灾害防治非工程措施项目建设的县级防汛视频会商系统进行了应急演练,并对防汛工作进行了安排部署;平顶山等市随即召开了所辖县视频会议,对迎战7月4日的强降雨进行了紧急部署;省、市、县三级防汛视频会商系统为应对此次强降雨提供了有力支撑,效果显著。
(3)
可得:
(4)
w ·φ (x i )+b +ξ i -y i =0
其中a i ,i =1,…,l 是拉格朗日乘子,根据优化条件:
有研究表明,更年期会使女性体内雌激素水平下降,导致骨细胞被吸收的速度快于产生速度,引起骨质不断流失。女性在绝经后的数年内,骨密度或可减少20%,这使得30%的老年女性面临骨质疏松症风险。近日,美国一项研究发现,豆类食物及豆制品可以壮骨,对更年期前后女性的骨骼起到保护作用。
(5)
最后得到方程:
(6)
2.2 LS-SVM核函数
灰色关联分析是对影响系统的多个因素进行比较,分析因素与因素之间、因素与系统之间的关联程度[5],步骤如下:
3 灰色关联分析
常用的核函数有线性核函数、多项式核函数、高斯核函数等,线性核函数适用于线性可分数据,多项式核函数的参数较多,计算复杂度高,而高斯径向基函数是一种局部性较强的核函数,该核函数是应用最广的核函数,无论对大样本还是小样本均具有很好的学习性能[4]。由于影响高铁客流量的非线性因素较复杂,并且样本较少,文章采用高斯核函数进行最小二乘支持向量机的预测。
ξ i (k )=
(2)无量纲化处理数据。由于各因素列的数据因量纲不同导致不易比较或得出错误的结论,因此,在计算关联度时需要将数据进行无量纲化处理。文章采用初值化处理方法,获得的数据序列称为原始数据序列的初值像,计算公式为:
将参考数据序列为高铁客流量、比较数据序列为17项影响因素。按照式(7)对数据进行无量纲化处理,得到初值像,计算关联系数时取分辨系数ρ =0.65,将各因素的8个关联系数取平均值得到关联度,计算结果见表1。
(7)
(3)计算关联系数。求出参考数据序列Y 0(k )与初值像Y i (k )差的绝对值的最大值、最小值,按下式计算关联系数:
(1)确定参考数据序列和比较数据序列。确定反映系统行为特征的参考数据序列和对系统产生影响的比较数据序列。这里将参考数据序列设为X 0={X 0(k )|k =1,2,…,N },比较数据序列设为X i ={X i (k )|i =1,2,…,m ;k =1,2,…,N }。
(8)
从线上推广的曝光效果到小程序限时店的销售转化,爱彼品牌对此次在中国市场的数字化尝试给予了积极反馈,也为希望在中国市场尝试“触电”的奢侈腕表品牌们提供了新思路。据Audemars Piguet(爱彼)的首席执行官 Francois-Henry Bennahmias表示,今年该公司的全球销售额将超过 10亿瑞士法郎,其中中国市场份额上升,中国奢侈品的需求也正在回暖。
(9)
其中,r i ∈(0,1]。r i 的值越接近于1,说明影响因素与系统的关联性越大;反之,则两者的关联性越小。
(4)计算关联度。关联度是该序列各关联系数的平均值,计算公式为:
(5)关联度排序。按照关联度的大小,可对影响因素进行排序,说明影响因素与系统之间的关联程度。
智慧商圈围绕传统商业能力提升和模式创新,以商品营销和品牌服务为核心,以商业企业为主体,以商业集聚区为载体,通过信息化提升商圈的整体服务水平。
4 实证分析
4.1 高铁客流量影响因素
选取2008—2015年高铁客流量及其17项影响因素数据(数据来源于国家统计局网站和《中国统计年鉴2016》)。17项影响因素由外部、内部、其他三类影响因素构成。外部影响因素指标由国内生产总值(GDP)、全社会固定资产投资、总人口数、社会消费品零售总额、城镇居民人均可支配收入、居民消费水平、货物进出口总额共7个二级指标构成;内部影响因素指标包含公路客运量、水运客运量、民用航空客运量、高铁营业里程、高铁营业里程占铁路营业里程比重、高速公路里程、定期航班航线里程共7个二级指标;其他影响因素指标包含国内游客数、入境游客数、铁路固定资产投资共3个二级指标。
4.2 灰色关联分析过程
肩袖撕裂是由肩关节外伤或慢性病变导致的以肩关节持续疼痛和活动功能受限为主要临床表现的一类疾病[1],其中肩袖撕裂大小、脂肪浸润程度以及肩袖撕裂后脂肪变性、肌腱分层改变是影响手术疗效的重要因素[2-4]。随着对肩关节解剖和生物力学研究的不断深入,以及肩关节技术的不断发展,关于肩袖分层撕裂的报道逐渐增多。尽管目前对于肩袖分层撕裂的原因尚不清楚,但是已有部分文献报道分层肩袖的存在对肩袖愈合和功能恢复造成消极影响[4,5]。但是对于如何准确的理解肩袖分层撕裂的生物力学和修复方式的选择至今尚未达成共识。因此,本文拟就肩袖分层撕裂的生物力学、治疗现状及研究进展作一综述。
表1 高铁客流量与影响因素的关联度
由表1得到关联度排序:入境游客数<总人口数<公路客运量<货物进出口总额<水运客运量<定期航班航线里程<城镇居民人均可支配收入<高速公路里程<居民消费水平<国内生产总值<国内游客数<民用航空客运量<社会消费品零售总额<铁路固定资产投资<全社会固定资产投资<高铁营业里程占铁路营业里程比重<高铁营业里程。
从关联度排序可知,高铁营业里程与高铁客流量的关联程度最强,关联度达到了ρ =0.7367,其次是高铁营业里程占铁路营业里程比重,关联度ρ =0.7271
全社会固定资产投资与铁路固定资产投资也对高铁客流量有较大的影响,其他13项影响因素与高铁客流量的关联程度均在0.68~0.69。
4.3 LS-SVM预测
将全部数据样本分为两部分:前7组数据即2008—2014年的数据样本用于训练LS-SVM,后1组数据即2015年的数据样本用于检验LS-SVM的预测性能。
根据灰色关联分析结果,将高铁营业里程、高铁营业里程占铁路营业里程比重、全社会固定资产投资、铁路固定资产投资共4项影响因素作为输入变量,以高铁客流量作为输出变量,构建LS-SVM,用于预测高铁客流量。
为验证文章方法的有效性,基于相同的数据样本集,将高铁客流量的17项影响因素作为输入变量,构建LS-SVM预测高铁客流量。最后将两种方法的预测结果进行比较,结果如表2所示,其中,GRA-LS-SVM代表以灰色关联分析选取的4项影响因素作为输入变量构建的LS-SVM。
由表2可知,GRA-LS-SVM的2015年高铁客流量预测值为81237万人,相对预测误差为0.1550;而LS-SVM的2015年预测值为80319万人,相对预测误差为0.1645。GRA-LS-SVM的预测值更接近于实际值96139万人。这表明,GRA-LS-SVM的预测值更接近于实际值,预测精度更高。由此可见,利用灰色关联分析进行影响因素的筛选,不仅减少了LS-SVM输入变量,而且一定程度上提高了LS-SVM的预测精度。
表2 两种方法预测结果比较
5 结论
将灰色关联分析与LS-SVM结合预测高铁客流量。结果表明,通过灰色关联分析选择影响因素后,LS-SVM的结构更为简单,其高铁客流量预测精度有所提高,预测结果更接近于真实值。
2 不同营养成分食物合理搭配 把几种营养价值较低的蛋白质混合食用,其中的氨基酸相互补充,可以显著提高营养价值。例如,谷类蛋白质含赖氨酸较少,而含蛋氨酸较多;豆类蛋白质含赖氨酸较多,而含蛋氨酸较少。这两类蛋白质混合食用时,必需氨基酸相互补充,接近人体需要,营养价值大为提高。再比如,单纯食用玉米的生物价值为60%、小麦为67%、黄豆为64%, 若把这3种食物按比例混合后食用,则蛋白质的利用率可达77%。
参考文献:
[1]刘强,陆化普,王庆云,等.基于支持向量机的区域运量滚动预测模型[J].哈尔滨工业大学学报,2011,43(2).
[2]夏国恩.客户流失预测的现状与发展研究[J].计算机应用研究,2010(2).
[3]张蕾,孙德山,张文政,等.基于灰色关联分析的支持向量机的铁路货运量预测研究[J].经济数学,2018(2):62-65.
[4]王定成.支持向量机建模预测与控制[M].北京:气象出版社,2009.
[5]耿立艳.物流需求的智能预测方法[M].北京:科学出版社,2016.
[DOI] 10.13939/j.cnki.zgsc.2019.31.014
[基金项目] 2018年度大学生创新创业训练计划项目“高铁客流量智能预测方法及实证研究”(项目编号:201810107005);国家自然科学基金青年项目(项目编号:61503261)。
[作者简介] 通讯作者:耿立艳(1979—),女,天津人,教授,博士。
标签:高铁客流量论文; 灰色关联分析论文; 最小二乘支持向量机论文; 石家庄铁道大学经济管理学院论文; 石家庄铁道大学四方学院论文;