LightGBM 算法和ARIMA 算法在人口流动预测应用的性能的比较
王建成 蔡延光
(广东工业大学 自动化学院 ,广州 510006)
摘要: 人口普查是政府在各个时期获取人口资料、掌握国情国力的一种最基本的调查方法。即使在现在科技发达的社会,人口普查也是非常耗时耗力的。自中华人民共和国成立,只进行过6次全国性的人口普查。在这个数据爆炸式增长、科技快速进步的时代,通过人工智能技术并借助大数据来估算城市人口,可以节省大量的时间成本和人力消耗,能够让人口普查工作更为高效。甚至有实现对人口的实时动态预测。运用LightGBM算法和ARIMA算法分别对人口流动情况进行预测,比较两个算法在人口流动预测应用方向的准确率,得出了LightGBM算法在人口流动预测上的准确率比ARIMA算法的准确率高,同时ARIMA算法的计算时间是LightGBM算法计算时间的7至10倍,甚至更多倍数。
关键词: LightGBM算法;ARIMA算法;人口流动预测
当今世界的数据量呈爆炸型增长,大数据的出现提供给分析者更多的信息,机器学习作为研究大数据挖掘的重要方法之一,其在各行各业的应用就显得尤为重要。人口普查是政府在各个时期获取人口资料、掌握国情国力的一种最基本的调查方法。但人口普查是非常耗时耗力的,自中国人民共和国成立以来只进行过6次全国性的人口普查。在数据爆炸式增长、科技快速进步的时代,通过人工智能技术并借助大数据来估算城市人口,节省大量的时间成本和人力消耗,能够让人口普查工作更为高效,甚至有可能实现对人口实时动态预测。
介绍LightGBM算法相关理论基础[1]、ARIMA算法相关理论基础、数据分析以及模型建立的步骤[2];比较LightGBM算法和ARIMA算法在人口流动预测方向的准确率和计算时间。
1 LightGBM 模型简介
1)Gradient Boosting。Boosting是用一系列子模型的线性组合来完成学习任务的,它分为两种类型:AdaBoost和Gradient Boosting,LightGBM属于Gradient Boosting的一种。Gradient Boosting的思想是:一次性迭代变量,迭代过程中,逐一增加子模型,并且保证损失函数不断减小。f i (X )假设为子模型,复合模型为:
世有君子,亦有小人。子曰:“君子坦荡荡,小人长戚戚。”小人者,心狭窄、善嫉妒,不修自身。如此,我们该如何对待小人?
F m (X )=∂0f 0(X )+∂1f 1(X )+…+∂m f m (X ),
(1)
损失函数为L [F m (X ),Y ],每一次加入新的子模型后,使得损失函数不断朝着信息含量次高的变量的梯度减小:
L [F m (X ),Y ]<L [F m-1 (X ),Y ] .
(2)
2)决策树。决策树(Decision Tree)是一种分类和回归的方法,实际研究中大多用于分类。决策树的结构呈树形结构,大多运用的是二叉树,在每一个叶子节点上,根据某一判断条件,输出“符合条件”和“不符合条件”两类,不断重复向下输出(如图1)。可以把决策树理解成众多if-then规则的集合,也可以认为是定义在特定空间与类空间上的条件概率分布。决策树的创建包括3个主要步骤:特征选择、决策树的生成和决策树的修剪,该方法具有可读性高、分类速度快的优点。
表4中的数值为相应的特征的流动人数。
在国内重力方法技术理论已经很成熟了,对于复杂地区数据解释却存在很多问题,定量解释方法大多数是针对水平地表、单一规则均匀体建立的,解释之前需要进行曲化平处理,同时判断异常体形态,且只能对较简单的异常体和表达式异常分量进行直接定量解释,许多较复杂的地质异常体和表达式异常分量不能直接定量解释。
图1 决策树结构
按叶子分裂的学习方法是指在分裂的过程中要不断地寻找分裂后收益最大的节点,对其进行进一步的分裂,其他非收益最大化的结点不再继续分裂,以此规则生长这棵树。该做法的优点是可以使算法更加快速有效;缺点是会忽略掉那些被舍弃的叶子上的信息,导致分裂结果不够细化。图2描述的就是按叶子分裂的过程。
图2 按叶子分裂的决策树学习过程
按层分裂的学习方法与按叶子分裂的学习方法不同(如图3),不需要挑选收益最大化的节点,每一层的每一个结点都要进行分裂,也就是说每次迭代都要遍历整个训练数据的所有数据。优点是每一层的叶子可以并行完成,具有天然的并行性;缺点是这样会产生很多没有必要的分裂,需要更多的计算成本,同时,也会占用较大的运行内存[4-5]。
温衡知道那是他们小时候看一本威尼斯画册时说过的玩笑话,原来他一直都记着并且当了真。他们决定回那座属于他们的小城,温衡看着一望无际的草原感慨。
图3 按层分裂的决策树学习过程
3)GBDT。GBDT(Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型。
习近平总书记在考察云南时提出,“云南要坚持可持续发展的思路,把保护好生态环境作为生存之基、发展之本,牢固树立绿水青山就是金山银山的理念,坚持绿色、循环、低碳发展,在生产力布局、城镇化发展、重大项目建设中充分考虑自然条件和资源环境承载能力,为子孙后代留下可持续发展的绿色银行,成为生态文明建设的排头兵。”
GBDT拥有着Gradient Boosting和Decision Tree的功能共同特性,具有训练效果好、不易过拟合等优点。GBDT的工具主要包括XGBOOST、Pgbrt、Sklearn、R.GBM等。GBDT在工业界应用广泛,通常被用于点击率预测,搜索排序等任务。GBDT也是各种数据挖掘竞赛的致命武器,据统计,Kaggle上的比赛有一半以上的冠军方案都是基于GBDT[1]。
2 ARIMA 模型简介
ARIMA(autoregressive integrated moving average)模型简称差分自回归移动平均模型,是1970年Box和Jenkins所提出。该模型对扰动项进行建模分析,使模型同时综合考虑 预测变量的过去值,当前值和误差值,从而有效地提高模型的预测精度。这种预测方法着重分析时间序列自身的随机性质,而不是着眼于构造方程模型,其优势是短期预测精确,例如:股票价格、GDP、CPI以及流行性疾病发病率等等[3]。
2 .1 自回归模型AR
自回归模型描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测。自回归模型必须满足平稳性的要求。
自回归模型首先需要确定一个阶数p,表示用几期的历史值来预测当前值。p阶自回归模型的公式定义为:
y t =μ +∑i=1 p γ i y t-i +ε t ,
(3)
2)时间序列数据必须具有平稳性;
其次是建立声学模型。在所有的Kaldi的测试运行中,使用预定义培训脚本,这些脚本仅针对输入数据进行了调整。在测试运行中,在实验语料库中使用具有LDA+MLLT+SAT+fMLLR的GMM模型之上的DNN。
自回归模型有很多的限制:
沪大剧社的男女合演西剧《值得登广告》曾经公演过两次。都很受人欢迎,得着社长陈春波君力量不少。现在他们又选定三月二日假座爱普卢影戏院作第三次的公演。据说,这部戏剧情很是曲折,言辞也很滑稽,加这几位戏里的名角,都是几个美于色长于辞的社员所任,一经粉墨登场,莫不有声有色。今该社已将座券开始发售。上海交际花如唐瑛,闺秀如夏璐敏、陈皓明等均已预定座位。预料那天爱普卢中又有一个无形的时装展览会了。[11]2
1)自回归模型是用自身的数据进行预测;
事实上:GBDT=Gradient Boosting+Decision Tree,即若Gradient Boosting 中的每一个子模型都是一个Decision Tree,这样的模型就是GBDT。
改革开放40周年,让我们停下脚步来重新审视过去取得的成就,然后,带着前人的智慧与坚持,加快迈向未来的步伐。
其中是常数项μ ,p 是阶数,γ i 是自相关系数,ε t 是误差。
当前,我国校园足球发展面临着前所未有的有利政策环境,但不可否认的是,校园足球的政策与执行效果之间仍然存在一定的差距,政策执行部门的责、权、利划分不清晰、政策执行主体与目标群体利益存在差异等都是影响校园足球政策执行效果的突出问题[4]。如何化解这些矛盾有待于校园足球政策实施的进一步深化和完善。
3)自回归只适用于预测与自身前期相关的现象。
2 .2 移动平均模型MA
移动平均模型关注的是自回归模型中的误差项的累加,q 阶自回归过程的公式定义如下:
综上所述,改良直接侧路椎间融合术治疗腰椎退变性侧凸安全、有效,可同时纠正的冠状面和矢状面失稳并增加椎管容积,能有效缓解临床症状及改善功能,二期后路固定到达360°的稳定,提高远期疗效。
y t =μ +∑i=1 q θ i ε t-i +ε t ,
(4)
移动平均法能有效地消除预测中的随机波动。
2 .3 自回归移动平均模型ARMA
自回归模型AR和移动平均模型MA模型相结合,得到了自回归移动平均模型ARMA(p ,q ),计算公式如下:
y t =μ +∑i=1 q θ i ε t-i +∑i=1 p γ i y t-i +ε t
(5)
2 .4 差分自回归移动平均模型ARIMA
将自回归模型、移动平均模型和差分法结合,得到了差分自回归移动平均模型ARIMA(p ,d ,q ),其中d 是需要对数据进行差分的阶数。
总之,我们在解读文本的同时,也要解读文本中一幅幅精美、有趣的插图,认真揣摩编者的意图,让每一幅小小的插图都“动”起来,最大限度地发挥其作用。只有这样,才能在小小的图片中了解精彩的世界,使插图亲近文本,亲近孩子,亲近我们的语文课堂。
1)单位根检验原始序列的平稳性。当原始序列不平稳时,多采用差分变换或对数差分变换使其满足平稳性条件。
2)确定ARMA(p ,q )模型的阶数。通常采用自相关(ACF)系数和偏自相关(PACF)系数来确定模型的阶数p 和q 。
3)估计模型的未知参数,检验是否具有统计意义,以及模型的合理性。
4)诊断分析。检验残差序列是否为一个白噪声序列。
3 数据来源
利用2018年京东人口预测大赛数据来进行测试LightGBM算法和Arima算法的预测的性能。
3 .1 数据介绍
人口流动数据。
表1 数据说明
其中流入、流出和驻留的定义如下:
流入(flow_in):如果用户 user1, 第T天从其他区县来到A区县,则A区县的流入量加1;
流出(flow_out):如果用户 user1, 第T天从A区县去到其他区县,则A区县的流出量加1;
驻留(dwell):如果用户 user1, 第T天的早上及晚上在A区县,则A区县的驻留量加1。
例如,假设用户 user1 在第 T 天依次到过区县 A→B→C→A,则各区县的人口流动数据如表2所示。
表2 流动规则
3 .2 数据分析
1)一个区县278 d人口流动数据情况,分别如图4、图5、图6所示。
图4 居留人口流动情况
图5 流入人口流动情况
图6 流出人口流动情况
从图4、5、6可以看出3个特征的波动情况相似,同时具有许多的波峰和波谷,具有一定的季节性特征,所以需要设置合理时间周期性参数。
2)图7为2017年6月1日至2018年3月1日总流动情况。
图7 城市流动密度图
从图7中可以得到city5这个城市具有很大的人口流动情况,需要对其进行归一化处理。
4 模型建立
4 .1 LGB 模型的建立
1)特征选择。
①输入特征。时间这个特征对于人口流动有着很大的影响,因此选取时间为训练的输入特征,将时间进行处理[6-7],处理结果部分表示如表3所示。
表3 输入特征
②预测目标。预测目标为flow_in, flow_out, dwell三个特征,如表4所示。
表4 预测特征
决策树的分裂方法分为两类,一类是按叶子分裂的学习方法(Leaf-wise Learning);另一类是按层分裂的学习方法(Level-wise Learning)。
建立ARIMA模型的一般方法:
③模型参数设置。
经过对以往地铁车站渗漏现象的深入研究,总结出主体结构渗漏包含以下因素:(1)材料因素:车站在施工期间,防水混凝土的配比、抗渗指标都没有达到试验配合比的要求,同时,在修建期间,防水材料变化多样,采用了多种防水卷材,具体渗漏表现形式没有规律性,导致车站内出现大面积渗漏问题;(2)施工因素:在车站施工期间,防水及混凝土工程施工的主体结构易出现混凝土漏振、振捣不密实、过振现象,同时,浇筑前期,没有严格对钢筋网内部进行杂物清理,存在保护层厚度不足等问题,最终在混凝土中形成过水通道。
num_leaves=50,learning_rate=0.05,max_depth=6,n_estimators=1000,feature_fraction=0.9, bagging_fraction=0.5。
4 .2 ARIMA 模型的建立
1)特征选取。
ARIMA模型为单变量模型预测,所以输入特征分别为flow_in, flow_out, dwell。
2)预测目标。
预测目标同样也是这3个特征flow_in,flow_out,dwell。
3)模型参数设置。
此模型使用的是auto_arima()来自动计算出最优的p, q的值。
start_p=1, max_p=11, start_q=4, max_q=12, max_d=6,start_P=1, max_P=11, start_Q=4, max_Q=12, max_D=6,seasonal=True,stepwise=True, parallel =False, approximation=False, stationary=False。
《意见》要求选取典型的婚姻、赡养、抚养纠纷,以及邻里间相邻权、人身侵权、借贷、劳务等案件,主动深入到纠纷所在的村寨公开开庭审理,邀请乡村干部、人民调解员、当地村民等参加旁听,庭审后就地宣讲法律知识和道德文化,以生动的案例弘扬尊老爱幼和邻里互帮、守望相助、诚实守信的乡邻美德,把社会主义核心价值观融入到具体案件审理过程中,转化为乡村群众的情感认同和行为习惯。
5 实验结论
因为是多变量进行预测,误差取每一次特征的预测值的均方根差。
图8 LGB模型误差图
图9 ARIMA模型误差图
图8所有误差的平均值:0.062 4;图9所有误差平均值:0.157 1。
通过LightGBM算法和ARIMA算法,根据258 d的数据进行预测未来15 d的人口流动情况,将由这两种算法生成的预测值与真实值之间的rmsle误差图进行比较(如图8,图9),从中可以得到,LightGBM算法比ARIMA算法在人口流动预测方面,误差要小得多,并且误差变化相对稳定,并且在时间上,LightGBM算法运行时间为10 min,ARIMA算法算法运行时间为150 min,由此看出LightGBM算法要比ARIMA算法要快的多。因此,在人口流动预测方面,LightGBM算法和ARIMA算法相比,其LightGBM算法具有更好的准确度和稳定性,所需时间成本更少。
广西社会工作服务机构参与城市社区治理的过程可以理解为城市社区居民表达需求、社工提供专业服务的过程。机构中的社会工作者在具体的服务实践中通过提供个人和群体服务、社区动员和社区资源整合来解决社区居民生活中的问题与不同需求,以提供社会工作专业服务为重点,调动社会力量多元化主体有序参与为特色,主要提供青少年发展、孤寡老人帮扶、残疾人助残、社会救助、心理疏导、矛盾纠纷调解、少数民族社会融入、群众各类精神文体活动引领等多种服务。最终使得社会工作者成为社区和谐稳定发展的重要力量,改善了居民的居住环境,提升了城市社区居民的生活质量。
参考文献
[1] 马晓君,沙靖岚,牛雪琪.基于LightGBM算法的P2P项目信用评级模型的设计及应用[J].数量经济技术经济研究,2018,35(5):144-160.
[2] 任慧.ARIMA模型在中国人均GDP预测中的应用[J].科技经济市场,2018(11):69-70.
[3] 杨蕾,吴文华,任泉,等.ARIMA季节乘积模型在儿童肺炎门急诊人次预测中的应用[J].实用预防医学,2019,26(1):33-36.
[4] 沙靖岚.基于LightGBM与XGBoost算法的P2P网络借贷违约预测模型的比较研究[D].大连: 东北财经大学,2017.
[5] 张丹峰.基于LightGBM,XGBoost,ERT混合模型的风机叶片结冰预测研究[D].上海: 上海师范大学,2018.
[6] ZHAO L T, WANG Y, GUO S Q, et al.A novel method based on numerical fitting for oil price trend forecasting[J].Applied Energy, 2018, 220(2):154-163.
[7] MININATH B , RAMCHANDRA M.Time series decomposition and predictive analytics using MapReduce framework[J].Expert Systems with Applications, 2018,146(8):102-108.
Comparison of Performance of LightGBM Algorithm and ARIMA Algorithm in Population Flow Prediction
WANG Jiancheng CAI Yanguang
(School of Automation, Guangdong University of Technology, Guangzhou 510006, China)
Abstract The census is the most basic survey method for the government to obtain population data and master the national strength of the country at various times.The census is very time-consuming and labor-intensive.After the founding of New China, China has only conducted six national censuses.In this era of explosive data growth and rapid advancement of data technology, the use of artificial intelligence to estimate urban population through big data can enable census work to be completed more efficiently.This will save a lot of time and manpower, and it is even possible to achieve real-time dynamic population projections.In this paper, LightGBM algorithm and ARIMA algorithm are used to predict the population flow respectively, and the accuracy of the two algorithms in the application direction of population flow prediction is compared.It is concluded that the accuracy of LightGBM algorithm in population flow prediction is better than that of ARIMA algorithm, and the calculation time of ARIMA algorithm is 7 to 10 times or even more than that of LightGBM algorithm.
Key words LightGBM algorithm; ARIMA algorithm; population flow forecast
中图分类号: TP39
文献标识码: A
文章编号: 1009-0312(2019)05-0027-06
收稿日期: 2019-07-05
基金项目: 国家自然科学基金(61074147);广东省自然科学基金(S2011010005059);广东省教育部产学研结合项目(2012B091000171,2011B090400460);广东省科技计划项目(2012B050600028,2014B010118004,2016A050502060);广州市花都区科技计划项目(HD14ZD001);广州市科技计划项目(201604016055);广州市天河区科技计划项目(2018CX005)。
作者简介: 王建成(1995—),男,湖南永州人,硕士生,主要从事数据预测研究,Email:1561585776@qq.com。