基于神经网络的股指预测模型及实证分析_garch论文

基于神经网络技术的股指预测模型及实证分析,本文主要内容关键词为:实证论文,股指论文,模型论文,网络技术论文,神经论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

股市是一个复杂的非线性系统,股票价格涉及许多不确定因素,且各个因素之间的相关关系错综复杂。随机游走理论认为股价波动完全是随机的,但大量事实表明,股价波动存在某种规律性。20世纪90年代以来,国外利用神经网络对股票价格预测方法层出不穷,国内一些学者也开始利用神经网络的方法对中国股市的股票价格进行预测。[4~9]另外一些人工智能的方法,如遗传算法、模糊理论和粗集,也陆续在股票市场中得到一些应用。

二、基干神经网络技术的股指预测模型

(一)BP神经网络模型

BP神经网络模型是目前神经网络学习模型中最具代表性、应用情况最普遍的模型。BP神经网络架构是由数层互相连结的人工神经元所组成,通常包含了输入层、输出层及若干隐藏层,各层包含了若干神经元。神经网络便依照学习法则,透过训练以调整连结链加权值的方式来完成学习目标的收敛。

尽管神经网络具有自我学习的功能,但相对要求输入的资料需具有一定的可用性,为避免输入神经元过少,使得网络无法配适完成,以下采用前5天的收益率r[,t-1]、r[,t-2]、r[,t-3]、r[,t-4]及r[,t-5]作为推论当天收益率r[,t]的输入神经元。这样,所使用的神经网络,其网络架构为5-7-4-1,输入层有5个输入神经元、有7个隐藏神经元的第一层隐藏层、4个隐藏神经元的第二层隐藏层以及包含1个输出神经元的输出层。其网络架构如图1。

输入层第一层隐藏层

第二层隐藏层

输出层

图1 BP神经网络模型网络架构

(二)GARCH-BP模型

BP神经网络所使用的输入神经元仅考虑前5天的对数收益率,并未将收益率的波动程度考虑进来,因此,除了使用前五天的对数收益率作为输入神经元外,另外使用GARCH时间序列模型,将所估计的条件变异数作为第六个输入神经元,以比较在考虑了收益率波动后的BP神经网络,对于时间序列资料的估计与预测上是否较其它模型来的要好。

在建立了条件变异数GARCH模型后,将所得到的条件变异数作为BP神经网络的第六个输入神经元,而网络架构也形成6-7-4-1,即具有6个输入神经元的输入层、7个隐藏神经元的第一层隐藏层、4个隐藏神经元的第二层隐藏层及1个输出神经元的输出层。

三、模型绩效评定方法

(1)MSE准则

均方误差(Mean Square Error)是计算实际值与预测值的预测误差后取平方并加以平均。MSE的公式如下:

其中,T代表总样本数,T[,1]代表估计样本的数目,r[,t]代表实际值,r[,t]则为模型的估计值或预测值。

(2)MSPE准则

均方比例误差(Mean Square Percentage Error)是计算实际值与预测值的预测误差占实际值的比例后取平方并加以平均。MSPE的公式如下:

使用MSPE的优点为考虑了误差对于实际值所占的比例,而不会皆给予相同的权重。

(3)MAE准则

平均绝对误差(Mean Absolute Error)考虑了误差的绝对距离。其公式如下:

(4)MAPE准则

平均绝对比例误差(Mean Absolute Percentage Error)类似于MSPE的观念,在MAE中每一误差皆除以实际值,以便给予不同的权重。

(5)AMAPE准则

不对称平均绝对比例误差(Asymmetric Mean Absolute Percentage Error)更进一步地考虑在使用MAPE法时,在相同的误差下,由于不同实际值大小所产生的不对称性现象。因此做一修正,AMAPE的公式如下:

(6)符号正确率(Correct Sign Ratio;CSR)

CSR并不衡量误差的大小,而是仅衡量预测与实际的符号是否正确,由于在收益率估计与预测上的准确度并不高,因此若仅考虑了模型所估计或预测的值与实际值间的符号是否相同,亦可比较出模型的好坏,若CSR低于50%时,则代表此模型对于收益率符号的预测能力还不如随机猜测的50%来的佳。其公式如下:

其中,Z[,t]为一逻辑变量,当实际值与估计值相乘后,其值大于0时,代表符号正确,则Z[,t]为1;反之则为0。

(7)Strategy

Strategy为CSR所衍生出的另一种衡量方式,其概念为通过模型的预测符号而进行投资策略。当模型预测为正收益率时,则予以买进,所获得的收益率为当日股市的实际收益率;若模型预测为负收益率时,则予以放空,同样地可获得当日股市的实际收益率。但先前假设为预测符号与实际符号相同才可成立,若符号相反时,则收益率应转为损失。虽然CSR可以得知模型的在预测符号的能力,但透过Strategy可以更清楚地知道若是采用模型的预测符号进行投资策略时,所获得的收益率会是多少。其公式如下:

在前述7个绩效评定方法中,大致分类为两种。第一种为预测误差的衡量,此部分为衡量各模型在估计或预测误差的绩效,包括有MSE、MSPE、MAE、MAPE、AMAPE等。第二种为符号准确度的衡量,此部分不看预测值的大小,只针对预测的符号是否与实际值相同,包括有CSR检定以及利用预测符号进行投资策略的Strategy。

图2列示了如何运用神经网络进行股票市场指数收益率样本数据的预测分析过程。

图2 股票指数收益率神经网络预测过程

四、实证结果分析

以下选取深证成指为研究对象,数据来源于香港理工大学和深圳国泰君安公司联合开发的《中国股票市场交易数据库(2003)》,时间范围为:2001年7月3日~2002年12月31日,共259个日收盘指数数据。

BP神经网络的建构是前述研究方法对样本进行训练及测试程序。参数设定值中输入层为5,第一隐藏层为7,第二隐藏层为4,输出层为1,训练函数为TRAINGDX,自适应学习函数LEARNGDM,训练次数为500,训练精度要求0.025,学习率0.01,下降学习率为0.7,上升学习率1.05。其中训练次数为500次,而训练函数采用结合适应性学习速率与动量的算法。在训练222次后,训练结果如图3。

图3 BP神经网络训练结果图

GARCH-BP神经网络的建构也采用前述的参数设定方法对样本进行训练及测试程序。在训练102次后,训练结果如图4。

图4 GARCH-BP神经网络训练结果图

在估计样本的绩效分析中所采用的准则包含了MSE、MSPE、MAE、MAPE、AMAPE、CSR及Strategy。在建立好模型后,估计的收益率与实际收益率相比较后的结果如表1。

表1 估计样本估计误差分析表

MSE MSPE

MAE MAPE AMAPE

BP 神经网络

4.1724

60.58990.0016

2.1424

0.9329

GARCH-BP

神经网络 4.1698

57.49260.0016

1.4161

0.8719

注:MSPE、MAPE及AMAPE其单位为%且MSE为反归一化后的实际MSE值。

在MSE准则下,估计样本中BP神经网络模型的MSE值大于GARCH-BP神经网络模型的,不过差距仅为0.0026。说明尽管GARCH-BP神经网络模型有利于降低估计样本的估计误差,但效果不是非常地明显。MSPE是考虑了估计误差相对于实际值的权重。在BP神经网络模型中MSPE为60.5899%,而在加入GARCH(1,1)的BP神经网络中,其MSPE为57.4962%,小于未加入GARCH的BP神经网络,也说明了加入GARCH后确实可以改善神经网络的估计误差比重的问题在MAE准则中,其估计误差并未直接加以平方,而直接采用绝对值,透过绝对距离的概念而决定。如表1所示,这两个模型的MAE值皆相同,代表估计时所采用此种收敛方法并不会影响模型的优劣。MAPE类似于MSPE的概念,同样地在MAE中考虑了估计误差的权重问题。在表1中,BP神经网络的MAPE值为2.1424%;而加入GARCH的BP神经网络的MAPE值为1.4161%,在MAPE与MPSE绩效准则中皆小于未加入GARCH的神经网络与进化神经网络,代表在考虑估计误差的权重概念上,加入GARCH变量的BP神经网络比BP神经网络模型来的有效。AMAPE修正了MAPE中估计误差不对称性的问题。在表1的AMAPE准则中,加入GARCH的BP神经网络,其AMAPE依旧比未加入GARCH的神经网络来的小,代表即使考虑了估计误差的不对称性,BP神经网络模型应考虑采用较有效的变量,而非使用较复杂的模型。

前面所叙述的准则为考虑估计值与实际值的差距,由于单纯的仅以时间序列做预测时,其效果通常不是很好。近来较为常用的应用是只考虑预测的符号准确性,并应用于投资策略上。因此,后续的两个准则则为采用预测值的符号与实际值是否相同的概念而做一延伸。

在CSR中,其概念为实际值与预测值符号相同的比例。由表2可知,GARCH-BP神经网络的正确率较高,其CSR有59.14%,而BP神经网络模型为57.19%。代表GARCH-BP神经网络不仅在预测误差上优于BP神经网络,且在符号的准确性上也相对较佳。但两个模型的预测准确度皆大于50%,代表使用模型加以预测的准确度比涨跌各占50%的随机猜测要好。

表2 估计样本的符号准确性及投资策略绩效表

CSR Strategy

BP神经网络 0.5719 0.6854

CARCH-BP神经网络0.5914 0.6637

在先前的CSR准则中,虽然得知各模型的符号预测性较随机预测来的高,但若实际投入于股市中,其绩效却无法得知,因此,采用投资策略的准则来判断何种模型较佳。在表2中,其收益率较高的模型为BP神经网络,其收益率达68.54%;而较差的模型为加入GARCH的BP神经网络模型,其收益率为66.37%,显示BP神经网络对于较大的收益率具有较佳的捕捉能力。

在测试样本的绩效分析中,所采用的准则同样包含了MSE、MSPE、MAE、MAPE、AMAPE、CSR及Strategy。模型的好坏不仅比较估计样本内的结果,亦需针对样本外的资料作一预测或检定,以确定模型并非只能应用在估计样本上,在样本外的预测也可获得良好的绩效。因此,本研究对取得的样本分成估计样本259笔与测试样本80笔。

在预测误差的比较中,对预测值与实际值间的预测误差进行分析,并与先前估计样本中的结果作一对照。

在表3的MSE准则中,表现较佳的为GARCH-BP神经网络,其MSE为4.2385,且小于BP神经网络,显示通过加入GARCH波动项的神经网络不仅在估计上有良好表现,在预测的能力上也比其它模型来的佳;BP神经网络的MSE为4.2833,显示BP神经网络确实有可能造成过度配适的问题,导致样本外的预测结果有较大的偏误。在MSPE准则中,MSPE较小的是GARCH-BP神经网络的229.8423%,较大的是BP神经网络的248.8856%。显示在考虑预测误差的比率上,单纯的BP神经网络本身可能就可修正这个问题,而加入GARCH变量会进一步进行修正。在直接考虑估计误差的绝对距离的MAE中,结果与估计样本中相同。在MAPE中考虑估计误差的权重问题时,表3的MAPE法中,表现较好的是加入GARCH变量的BP神经网络,其值为2.7674%;较差的则是单纯的BP神经网络。修正预测误差不对称性的AMAPE法中,表3中加入GARCH的BP神经网络,其AMAPE依旧比未加入GARCH的神经网络来的小,这一点与估计样本的分析结果是一致的。

表3 测试样本预测误差分析表

MSE MSPE MAE MAPE AMAPE

BP神经网络 4.2833 248.8856 0.0016 2.8523

2.0624

GARCH-BP

神经网络

4.2385 229.8423 0.0016 2.7674

0.9707

通过观察并分析前述预测误差可以发现,由于单纯使用收益率作为估计变量较为薄弱,对于预测的效果并无法彰显。因此,若忽略其数值大小,仅考虑其预测的符号,观察其与实际收益率的符号是否相同。另外,并根据预测值进行投资策略,观察是否可以得到超额收益率。其结果列于表4。

表4 测试样本符号准确性及投资策略绩效表

CSR Strategy

BP神经网络 0.5407 0.1843

GARCH-BP神经网络0.5531 0.1863

在预测符号的准确性上,表4的CSR显示预测值与实际值符号相同准确度较高的为GARCH-BP神经网络,达到55.31%;BP神经网络的CSR为54.07%。整体来说,两个模型的CSR皆大于50%,但与估计样本中的CSR值相比较小,显示利用这两种模型进行预测收益率符号时,在估计样本中的表现要好于测试样本,说明在预测过程中仍然存在许多的未知因素需要进一步地研究与发现。具体的测试样本与实际指数收益率之间的关系可以用图5显示。

图5 股票指数收益率的预测分析

五、结论

通过上述分析可知,GARCH-BP神经网络模型在对股票指数收益率估计样本和测试样本的误差分析方面均优于BP神经网络,在预测符号的准确性方面GARCH-BP神经网络模型仍然优于BP神经网络,但从整体上说,利用这两种模型进行预测收益率符号时,在估计样本中的表现要好于测试样本,说明在我们的预测过程中仍然存在许多的未知因素需要我们进一步的研究与发现。

因此,神经网络技术不仅能够解决股票指数或股票价格的时间序列预测问题,还能解决其他复杂的非线性经济问题,具有广阔发展空间和实际应用价值。这其中就需要不断的深化对股票市场的认识,进一步提高神经网络技术在实证金融领域的应用水平。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于神经网络的股指预测模型及实证分析_garch论文
下载Doc文档

猜你喜欢