(上海师范大学,上海市 200030)
摘要:在股票市场上,每时每刻都在产生大量数据,还有一些常用的技术指标,如何更好的利用这些数据,结合机器学习算法,对股票第二天的涨跌进行预测,以减少投资者的风险,从而给投资者带来更多的收益,便成为一个非常值得研究的问题。随着计算机技术的快速发展,与其相关的应用领域的研究也迅速建立,其中机器学习方法就是一种被学者们运用到股市预测的计算机领域的先进技术。该类方法能够自适应与自增长,能够实现联想记忆,鲁棒性较强,能够很好的拟合非线性系统,从而弥补了传统方法的很多不足,从而预测精度有所提高。
关键词:股指;XGBOOST;预测
一、绪论
自股票市场诞生之日起,对股市涨跌的预测方法就层出不穷。就中国市场而言,基本面分析及技术分析是主流方法,但预测的效果并不十分理想,吸引中国学者对股市走势预测的研究兴趣。
随着计算机技术的快速发展,与其相关的应用领域的研究也迅速建立,其中机器学习方法就是一种被学者们运用到股市预测的计算机领域的先进技术。该类方法能够自适应与自增长,能够实现联想记忆,鲁棒性较强,能够很好的拟合非线性系统,从而弥补了传统方法的很多不足,从而预测精度有所提高。但是单个的预测模型自身也存在缺陷,影响其推广能力。因此,寻求更好的研究方法,建立更加精确的预测模型成为了机器学习领域的热门研究问题。
二、研究的意义
由于股票预测问题具有重要的意义,它引起了国内外学术界的广泛关注,并提出了多种股票市场预测方法。这些方法主要分为投资分析、时间序列分析和非线性系统分析三大类。近年来,随着机器学习的兴起,越来越多的学者开始使用机器学习方法来预测股票市场,包括支持向量机和BP神经网络两种算法。
准确预测股票市场的运行情况,包括股价指数和股票价格,可以监控和引导股票市场的稳定运行,降低市场风险,加强政府的宏观管理,促进实体经济的健康、稳定增长。在投资时,投资者将得到与它所承担的风险相对应的回报。预期收益率与风险之间存在正向的互动关系。因此,认真分析股票市场和个股可以降低投资风险,实现投资回报。对于投资者而言,这一算法得出的预测结果对其做出有效的投资策略有着很好的参考价值,这样可以在一定程度上减少股票市场中盲目投资的现象,减少投资者的损失,降低他们的决策成本,对于提高股票市场中投资者的理性程度有很高的现实意义,也满足了市场上的一大需求。
三、XGBOOST理论
XGBoost是由陈天奇先生提出的一种提升方法。它对代价函数进行了泰勒展开,同时用到了一阶和二阶导数。XGBoost在代价函数里加入了正则项,用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来看,规则项减少了模型的方差,使得学习模型更简单,并且防止过拟合,这也是XGBOOST优于传统GBDT的一个特点。XGBoost借鉴了随机森林支持列抽样,不仅降低了过拟合,还减少了计算。对于缺失值的样本,XGBOOST可以自动学习其分裂方向。它还支持并行。XGBOOST的并行性取决于特征粒度。在训练XGBOST之前,将数据排序并保存为块结构。该结构在随后的迭代中被重用,从而大大减少了计算量。这种块结构也使得并行化成为可能。当节点划分,每个功能的增益需要计算。最后,采用最大增益的特征选择要分割,然后每个功能的增益可以通过多线程计算。当分割树节点时,需要计算每个特征的每个特征点的相应增益,即贪婪算法枚举所有可能的分割点。当数据不能在内存中或在分布式情况下被加载到内存中时,贪婪算法的效率将变得非常低,因此XGBOST还提出了一种并行近似直方图算法,用于高效地生成候选分割点。
XGBOOST就是一个监督模型,对应的模型就是一堆CART树,将每棵树的预测值加到一起作为最终的预测值。
模型的目标函数,如下所示:
这个目标函数同样包含两部分,第一部分就是损失函数,第二部分就是正则项,这里的正则化项由K棵树的正则化项相加而来。
四、相关文献综述
石涛(2018)以企业主体在多方面留下的行为足迹信息构建训练集,基于不同的足迹行为数据分别使用XGBoost算法构建预测模型,并使用线性加权融合多个模型,以企业在未来两年是否会退出市场为目标变量进行预测。结果表明,在现有数据的基础上,该模型可以有效预测企业的经营风险,相比于传统的方法,精度更高。王重仁,韩冬梅(2017)针对互联网行业的客户流失预测问题,提出了一种社交网络分析和机器学习相结合的客户流失预测方法。考虑到社交活动对用户流失的影响,首先采用社交网络分析方法从用户社交数据中提取特征,然后使用XGBoost算法来进行客户流失预测,最后将该方法与其他机器学习算法(Logistic回归、支持向量机和随机森林)进行比较。实验结果表明,所提出的社交网络分析和XGBoost相结合的客户流失预测方法优于传统方法。谢冬青,周成骥(2017)将XGBoost算法应用到商品购买预测中,并使用Bagging集成学习方法对单一算法进行改进,以提高预测的准确性。最后通过实验证明,采用Bagging集成学习方法的XGBoost算法模型整体效果上明显优于单一算法的模型。
五、总结
XGBOST是一种大规模并行提升树工具,它是目前最优秀的开源树工具包,比普通工具包快10倍。在数据科学中,大量的KAGLE玩家选择它进行数据挖掘竞争。XGBoost的预测效果要好于其他算法的预测效果,这跟XGBoost的原理有关,它将决策树作为基模型,运用XGBoost算法对其提升,使其效率和准确率都有了很大的提高。
参考文献
[1]石涛.基于XGBoost的企业倒闭风险预测[J].无线互联科技,2018,(第8期).
[2]王重仁,韩冬梅.基于社交网络分析和XGBoost算法的互联网客户流失预测研究*[J].信息技术与网络安全,2017,(第23期).
[3]谢冬青,周成骥.基于Bagging策略的XGBoost算法在商品购买预测中的应用[J].现代信息科技,2017,(第6期)
作者简介:孙娇杨(1996.07—),女,山东省烟台人,上海师范大学金融工程专业,本科生。
论文作者:孙娇杨
论文发表刊物:《知识-力量》2018年11月上
论文发表时间:2018/10/29
标签:算法论文; 方法论文; 模型论文; 股票市场论文; 机器论文; 正则论文; 社交论文; 《知识-力量》2018年11月上论文;