数据挖掘技术在股票市场预测中的应用_股票论文

数据挖掘技术在股票市场预测中的应用_股票论文

数据挖掘技术在股市预测中的应用,本文主要内容关键词为:股市论文,数据挖掘论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数据挖掘(Data Mining),也称为知识发现,目前成为许多使用者从浩如烟海的数据中提取有用信息,并赢得竞争的第一号秘密武器。简言之,数据挖掘是指在对大量的历史数据进行探索后,揭示出其中隐藏着的规律,并由此进一步形成模型化的分析方法。

在金融系统的预测研究中,股票预测是一个热门课题,并且已有许多运用于股票预测的优秀算法。现在研究较多的是传统统计方法和人工神经网络方法。与前者相比,人工神经网络作为一种大规模并行处理的非线性系统,依据数据本身的内在联系建模,具有良好的适应性和自学习能力,以及较强的抗干扰能力,在股票价格的短期预测中已取得较好的成绩。

本文主要介绍一个用神经网络预测股票价格的实际应用,旨在用案例说明数据挖掘技术如何进行股票价格预测。

人脑是由上千亿个生物神经元组成的复杂网状结构,人脑的思维过程是由这些神经元相互作用而形成的。人工神经网络以此为基础来研究人类的思维过程,其组成的基本单位是人工神经元,它是对生物神经元的简化抽象,简称神经元。由多个神经元互相连接形成的一个网络结构即人工神经网络。简单地说,人工神经网络可以看作是一个计算模型。例如,后向传播型神经网络模型(Back Propagation,简称BP模型)一般由输入层、输出层和若干隐含层组成,同层各神经元互不相连,相邻层的神经元通过权重连接,而且这种连接方式只能是从输入层到隐含层,再从隐含层到输出层,中间没有反馈。BP型神经网络描述的是输入和输出之间复杂的非线性关系,而这种关系能够通过大量的训练样本(历史数据)来获得,而不是通过以前的人工获取方式。我们利用它建立一个智能模型,来获取现在的股票价格与以往的股票情况的关系,以预测未来的价格变动。

股市中各支股票每天的行情数据,即开盘价、收盘价、最低价、最高价、成交量等,可从网上直接获得。在这些数据的基础上还可计算出每支股票的移动平均、RSI、%K、%D等其他技术指标。利用这些股票行情数据,借助于BP神经网络模型,可以估算出历史股票行情数据与未来收盘价之间的一个函数关系,并根据训练出的模型,对股价进行预测。我们采用三层BP型神经网络,即一个输入层,一个隐含层,一个输出层,用来训练出输入层与输出层之间的函数关系。

由于我们的目标是预测未来股票的价格,输出层应为未来股票价格的绝对值,然而实践表明,直接预测价格水平本身非常困难,通常采用的办法是预测价格的变化或价格的移动平均以消除市场的扰动,因此,我们的输出层采用未来价格(收盘价)移动平均的变化。

对于输入层,各个神经元应反映对价格发生影响的因素。从技术分析的角度来预测股票价格的变化,预测基础是以往股票的价格和成交量。我们采用如下变量作为神经网络的输入:(1)前5天收盘价的移动平均的变化。对于第t天来说,分别表示为ΔEMA(t),ΔEMA(t-1),ΔEMA(t-2),ΔEMA(t-3),

ΔEMA(t-4);(2)第t天的RSI;(3)第t天的DIF;(4)第t天的MACD。

因此,输入层由以上8个神经元组成,即前5天收盘价的移动平均变化以及第t天的RSI、DIF和MACD。输出层由一个神经元组成,即第t+1天的移动平均的变化,记为ΔEMA(t+1)。隐藏层所包含的神经元个数可自行设定,这里设为8个。模型设定如下:

EMA(t)=L×P[t] + (1 - L) × EMA(t-1)L = 2 / (1 + N)

其中:Pt表示第t天的收盘价;L称为平滑因子;N表示平滑期;EMA是收盘价的指数移动平均的缩写。

因此有:

P[t] = P[,t-1] + (ΔEMA(t) - ΔEMA(t-1) / L + ΔEMA(t-1)

ΔEMA(t) = EMA(t) -

EMA(t-1)

ΔEMA(t-1) = EMA(t-1) - EMA(t-2)

也就是说,如果预测出来第t+1天的收盘价的移动平均变化ΔEMA(t+1),即可计算出第t+1天的收盘价,达到股票价格预测的目标。

我们利用历史股票行情数据训练我们所建立的BP神经网络,直到网络稳定。这时该BP神经网络包含的权重,就包含从输入层到输出层的映射关系,也就是说若给定了前5天的收盘价的移动平均变化、前一天的RSI、DIF和MACD(均可通过股票行情数据计算出来),就能通过训练好的神经网络计算出当天收盘价的移动平均的变化,进而算出当天的收盘价。

在数据处理中,将每个公司的数据分为两部分,一部分用于学习,即学习神经网络的权重;一部分用于测试,即根据学习得到的网络的权重计算预测值,然后与实际值进行比较,以测试神经网络的性能。在训练过程中,要使网络完全收敛是非常困难的,特别是BP型学习算法往往容易陷入局部最优,故当训练样本的均方误差不再变小时就停止训练。下表中给出了部分测试结果。

公司名称

训练样本个数

测试样本个数

测试样本的均方误差

预测成功率

中川国际

570

50

0.00515

78%

深宝恒A

700

50

0.01526

74%

深能源A

700

50

0.01636

72%

兰生股份

600

50

0.01481

68%

天津磁卡

640

50

0.0116

74%

渤海化工

280

50

0.0156

72%

天津劝业

600

50

0.01466

82%

武凤凰A

690

50

0.0137

70%

深纺织A

490

50

0.0158

76%

在大多数研究中,神经网络性能的评价多是用测试样本的均方误差来衡量。实际上对于一个复杂系统而言,其影响因素是多方面的,往往很难考虑到所有的因素,因而预测值与实际输出值完全拟合是非常困难的,一般只要大致反映其趋势即可。

除了神经网络技术之外,数据挖掘的其他技术也越来越广泛地应用于股票分析、投资分析等领域。例如,用聚类方法发现股票的板块关系,用关联规则发现不同股票间价格在时间上联动关系,用遗传算法进行投资策略选择,用决策树方法辅助风险投资等等。总之,随着数据量的增加,以及人们对金融风险控制意识的增强,数据挖掘技术等智能算法将越来越多地应用于经济、金融、社会等各个领域,帮助人们实现智能化的决策支持。

标签:;  ;  ;  ;  ;  

数据挖掘技术在股票市场预测中的应用_股票论文
下载Doc文档

猜你喜欢