关键词:多历元平滑;随机森林;用电量预测;Spark
Research on the forecasting method of enterprise electricity consumption based on random forest
ZHANG Yang
( Harbin Youren Human Resources Service Co., Ltd,Harbin 150030,China)
Abstract: The electricity consumption of enterprises is closely related to the economic situation of enterprises. It is of great significance to use the historical electricity consumption data to predict the future electricity consumption of enterprises. Traditional power consumption forecasting methods have the disadvantages of low accuracy, large error and slow operation speed. For this reason, this paper proposes a method that can improve the accuracy of power consumption prediction and computing efficiency of enterprises. Taking random forest as the basic modeling method to predict power consumption of enterprises, it adopts the method of multi-calendar smoothing to model the data. Aiming at the problems of slow machine modeling speed and slow parameter adjustment speed, spark technology is adopted to calculate the data in parallel.
Keywords: Multiepoch smoothing; Random forest; Electricity consumption forecast; Spark
0引 言
目前企业用电量预测方法众多,比较典型的预测方法有时间序列[1]、灰色预测模型、回归预测模型[2]。时间序列预测模型主要通过历史数据预测未来趋势,对样本需求量较低[3],目前主流的时间序列方法主要包括平滑类方法和自回归类方法。邓聚龙于1982年提出灰色预测理论[4],当数据量较少时,使用数学模型建立灰色系统,从部分已知或部分未知的信息和趋势中提取有价值的信息。还包括神经网络、支持向量机以及随机森林等智能预测方法。其中比较典型的模型是随机森林模型。
1新型企业用电量预测方法
本文以传统的随机森林预测模型为基础模型,提出一种新型企业用电量预测方法,极大的提高了预测精度和预测效率,其工作流程为:
1)构建原始随机森林预测模型,并整理用于训练模型和测试模型数据;
2)通过原始数据训练随机森林模型,根据训练结果与原始数据相比较求出平均绝对误差;
3)搭建hdfs集群环境,同时搭建spark集群,数据处理方式采用分布式文件储存方式,模型训练和模型调参采用spark实时分布式计算方式;
4)对当前历元结果与当前最近的四个历元结果进行平滑,得到最终训练模型;
5)利用新数据对新模型算法进行测试验证。
图1 单历元时刻初始预测结果
步骤1)和步骤2)中整理初始训练数据和初始测试数据,并搭建随即森林模型,将预测出的数据与真实数据相比对,求出平均绝对误差,如图1所示,具体工作步骤为:
1)首先收集样本数据,有k条数据;
2)利用train_test_split方法将数据中25%作为测试样本,75%作为训练样本;
3)将训练样本输入到模型中,并调整模型参数,得到初始随机森林模型;
4)将测试数据输入到模型中得到预测数据,并与原始数据进行比对,得到平均绝对误差。
图2 spark分布式计算流程
步骤(3)中搭建hdfs集群和spark集群如图2所示,具体步骤为:
1)首先分析原始数据,设有k条数据,则数据可分成k!-1组数据;
2)搭建hdfs集群,搭建spark集群,设有m台计算节点,将数据转换为RDD后分为m个分区;
3)编写spark中算子代码,如图2所示,则需n个算子代码;
4)最后输出计算结果。
将计算出的结果进行多历元结果平滑处理,如图3所示,具体工作流程如下:
1)根据预测结果求出每一个历元时刻绝对平均误差,并将结果进行储存;
2)判断当前历元时刻与最近的4个历元时刻,是否包含3个或3个以上该历元预测结果的绝对平均误差小于初始预测结果的绝对平均误差,如果包含,则将该历元时刻对应的五个数据集进行储存;
3)获取收集到的储存数据,标记该数据对应模型算法。
图3 多历元预测结果平滑处理工作流程
2算法实验验证
下面对基于随机森林的新型企业用电量预测方法进行实验验证,实验验证次数为20次,然后取出均值,实验条件为:实验数据有黑龙江省A公司所属行业信息,A公司1992年至2015年企业用电量数据, A公司企业历年营业收入详细列表,A公司历年企业人数;模型调参选择GridSearchCV进行网络搜索。
图4展示了传统随机森林算法模型与多历元平滑后的算法模型预测效果比对,新型的多历元平滑方法预测误差明显变小。
图4 传统随机森林算法模型与多历元平滑后算法模型
预测效果比对
3结 论
针对传统随机森林预测模型存在的预测精度低、运算时间长问题,本文提出基于随机森林的新型企业用电量预测方法。在数据建模计算方面,采用spark大数据分布式实时计算技术,充分利用多台服务器硬件资源,减少运算时间;在提高企业用电量预测精度方面,提出多历元时刻平滑方法,该方法极大提高预测精度。
参 考 文 献:
[1]ANDRE K, STEFAN K, TEFFEN N. Recursive analysis and forecast of su-perimposed generation and load time series[C].IEEE International ETG Congress 2015, Bonn, Germany: IEEE,2015: 1-6.
[2]SONG K B, BAEK Y S, HONG D H. Short-term load forecasting for the holidays using fuzzy linear regression method[J]. IEEE Transactions on Power Systems, 2005, 20(1): 96-101.
[3]颜伟,程超,薛斌,李丹,陈飞,王顺昌.结合 X12 乘法模型和 ARIMA 模型的月售电量预测方法[J].电力系统及其自动化学报,2016,28(05):74-80.
[4]邓聚龙.灰色控制系统[J].华中工学院学报,1982(03):9-18.
论文作者:张阳
论文发表刊物:《科学与技术》2019年第19期
论文发表时间:2020/3/16
标签:模型论文; 用电量论文; 数据论文; 方法论文; 森林论文; 企业论文; 误差论文; 《科学与技术》2019年第19期论文;