基于梯度回归树的化工品价格预测
逄勃 王涛 齐彦伟 李德华 赵光娟(石化盈科信息技术有限责任公司,北京 100080)
摘 要: 提出一种基于GBDT(梯度回归决策树)的化工品价格预测方法。通过宏观分析、微观分析和上下游产业链分析,确定相关影响因素,构造特征向量。根据深入业务分析,对影响因素特征进行扩充,提高模型的VC维。模型的性能指标分析表明,该算法的预测精度具有较高的预测精度,能够帮助企业实现动态成本控制;合理安排生产计划和库存配置。
关键词: 回归预测;集成方法;化工品价格;渐进梯度回归;迭代决策树;价格预测
随着大数据应用技术的发展,GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法作为机器学习算法的一种,已成为众多研究机构和学者积极推荐的预测分析算法。相比较于传统的时间序列和多元线性回归,该算法可以有效地过拟合,同时其模型兼具了较强的解释性,能够帮助使用者更好地理解各变量对于结果的影响,可以结合目前流行的大数据并行计算工具,快速地得到预测结果,并在各行业得到广泛应用。
1 GBDT算法简介
GBDT的基学习器一般使用CART进行分类和回归,当用于回归时可称之GBRT(Gradient Boost Regression Tree),即为渐进梯度回归树。此算法的具体步骤如下。
Ø对于rmi ,利用CART方法,拟合一颗回归树hm ()x =
Ø更新fm (x ):
Henning Wallentowitz教授在“电气化、自动化、互联化:未来汽车的需求和概念”为题的主旨报告中指出,各种影响驱动之下的未来出行方式中,电动化、自动驾驶和网联化将是主要趋势,为此,他特别展示了很多新的汽车设计概念以及在电驱动、底盘等方面的最新研究成果,是对未来美好出行的积极响应。
近年来,虽然我国已开始重视社会工作和志愿服务的人才队伍建设,但是与之相关的培养制度、监管制度等都处在不完善的阶段。首先,大多数资源还是掌握在政府手中,因此社会工作想要发展就必须依靠政府获取有关资源,但是政府在这一方面的支出还远远不够,对社会工作和购买社会服务的财政支出都还非常有限,大部分是社工机构自己提供的服务。其次,我国没有针对考核社工和监督社工的专门的机制,以及各类工作能力评估、人力培养、激励等制度。另一方面,不仅仅是社工单方面的制度缺乏,社会工作与志愿服务的联动的有关制度也缺乏。正因为如此,社会工作和志愿服务的联动才缺乏专业的制度支持和指导,很多方面都不完善,甚至存在问题与纰漏。
通常牲畜在患病后,会出现精神萎靡、食欲不振、呼吸困难、便稀以及神经紊乱等症状[3]。此外,这种状况通常难以通过用药或者注射药剂得到有效的改善,且出现这种状况的牲畜通常会在几天内死亡。
表1 1~7天预测模型的性能指标
2 应用案例:化工品价格预测
2.1 数据特征工程
本项目选取的训练集为2009年—2018年4月之前的数据,共2312条,203组维度。包括低密度聚乙烯华东地区市场价格,以及特征工程建立的相关的影响因素数据。2018年4月至10月的数据,共129条,作为测试数据。根据预测要求,分别建立预测1~7天后价格的七个预测模型,同时,还将对一周内价格均价的预测结果进行评估。
·宏观经济指标:布伦特原油期货、WTI原油期货、美元指数、EIA库存、标普500指数等。
·国内生产厂商的相关数据:如开工率、产能、产量、供求关系等。
在确定了分析方向后,利用网络爬虫、数据抽取等技术,从石化企业内部数据仓库及外部数据网站获取了50余个低密度聚乙烯市场价格的初始影响因素。
由于化工品的价格变化往往滞后于原油等重要原材料的价格变化,同时其价格本身历史数据波动也往往和当前价格有一定的相关性,因此将低密度聚乙烯市场价格和WTI、布伦特原油等价格数据,以及计算低密度聚乙烯的同类产品线性低密度聚乙烯(LLDPE)价格、高密度聚乙烯(GDPE)等化工产品价格数据的3天内、7天内、14天内、30天内、60天内、90天内的最高值、最低值、平均值数据作为扩充维度。最后,经过扩充,共得到203个特征维度。
为了防止模型过拟合,通常在更新迭代时,加入学习速率Lr ,以便缩减每个基学习器对最终结果的影响:
·产业链上下游关系:上游原料如轻油、乙烯等产品的产量、开工率和价格,以及下游以低密度聚乙烯为原料的工业领域,如家电外设、食品容器、医疗用具等产品的消费量。
l到回归树:
1.1 对象 2011年10月选择上海市长宁区6所2级医院,按主管护师:护师:护士为1∶4∶5比例采用分层抽样法中抽取护理人员200名。纳入标准:具有国家规定的护士执业证书;在临床护理中能接触到静脉治疗。200名护理人员中,职称:主管护师21名,护师79名,护士100名;学历:中专54名,大专115名,本科及以上31名。护龄:0~4年92名,5~9年36名,10~14年27名,15~19年14名 ,20年以上31名。
2.2 预测结果
综合分析各种因素对化工产品市场价格的影响,从如下几个方面寻找相关影响因素数据:
预测模型采用GBDT,迭代次数设定为3000步,学习步长为0.05,树模型设置为3层。
广泛性焦虑(generalized anxiety disorder,GAD)又称慢性焦虑症,主要表现为与现实不相符的持续痛苦、担忧,患者警惕性增高易发脾气,过分关注周围环境或自身健康而不能放松下来。GAD的发病机制尚无确切的结论,遗传因素可能是GAD的重要发病机制之一,有研究显示广泛性焦虑障碍患者和正常人的一级亲属患病风险率分别为19.5%和3.5%。对双生子的研究也显示,在同卵双生子中,该病的共患率明显高于异卵双生子。
在未做特征扩充工作时,其预测准确度为99.16%。在进行维度扩充后,预测一天后价格的准确率为99.40%,较之初始维度建立模型的准确率有所提升。
同时,对1~7天内及7天内均值的预测模型性能指标见下表。可看出,7天均值的预测准确性为99.33%,能够满足化工企业制定相应的生产和销售计划的需求。同时可以看出,预测性能随着预测时间间隔的增加而有所降低,但各模型的准确率基本能够达到99%以上。(见表1)
3 结语
文章介绍了一类利用GBDT算法预测化工品价格的方法。通过研究化工品市场价格的宏观、微观及上下游影响因素,利用数据仓库建模和网络爬虫等方式,获取了初始特征数据,并在深入业务分析的基础上,对初始特征进行扩充工作,更加精准地进行数据特征构造。最后,经过预测结果分析,可知该模型在短期预测方面具有较高的准确性。
参考文献:
[1]张燕萍.神经网络技术在煤化工行业产品价格预测中的应用[D].复旦大学,2008.
[2]刘德顺.化工产品价格预测和管理系统的开发[D].上海交通大学,2010.
[3]基于改进的GBDT算法的乘客出行预测研究[D].大连理工大学,2016.
标签:回归预测论文; 集成方法论文; 化工品价格论文; 渐进梯度回归论文; 迭代决策树论文; 价格预测论文; 石化盈科信息技术有限责任公司论文;