基于模糊关联规则的股票市场交易规则抽取,本文主要内容关键词为:股票市场论文,交易规则论文,模糊论文,规则论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:F823 文献标识码:A
随着数据库技术的不断发展,数据库中存储的数据量急剧增加,然而目前蕴含在数据库中丰富的、有价值的信息远远没有得到充分的挖掘和利用。近年来,在数据极为丰富的金融领域,数据挖掘的方法,如神经网络、模糊逻辑、粗糙集、支持向量机等,正在得到越来越广泛的研究与应用[1~5],使得“从海量数据中提取或识别有效的、新颖的、潜在有用的并最终可理解的模式”成为可能。
当前,股票数据挖掘的研究主要集中在4个方面:相似序列匹配、股票价格预测、交易规则抽取以及时间模式发现。Wang将模糊关系模型分别与粗糙集和灰度理论相结合,对股票的高频交易数据进行了预测和分析[2,3],随后又通过模糊微分预测模型建立了股票价格的实时预测器[5]。
由于上市公司存在直接或间接的合作、竞争等关系,因此某些股票价格在一定时间内会出现相似或相反的趋势。挖掘这些数据可得到股票之间的内在关联关系,有利于投资者了解各种股票的走势及股票之间的关系,进一步分析上市公司的政策和方案,从而做出正确的投资决策。
本文在已有相关研究的基础上,将模糊数据挖掘技术应用于股票市场的交易规则抽取,对数据库属性处理不采用区间划分法,而采用模糊概念对其进行抽象概括,使得最终挖掘出的规则表示自然、简明、易于理解。本文以模糊集理论为基础,首先根据股票时间序列本身特性以聚类方法为基础对模糊集属性域进行离散化,根据聚类将属性域划分后构造正规模糊集的支集及核,产生模糊集的隶属函数,提出适合股票交易规则提取的模糊关联规则算法FARS。最后本文将算法应用于沪深股市A股股票的规则预测,并进行了检验。结果显示,本文所得规则较原有传统关联规则挖掘出的规则能很好地反映股票的实际情况,并且能获得更多有用信息。
一、基于模糊概念的关联规则
关联规则是当前数据挖掘研究的主要领域之一。自从1993年美国IBM Almaden研究中心的Rakesh Agrawal等提出在交易数据库中挖掘项集间的关联规则问题后[6],学者们对关联算法进行了大量的讨论和研究,提出了很多算法,如Apriori[6]、TreeProjection[7]、FP-Tree及其改进算法[8~10]等。大部分的关联规则挖掘算法使用支持度—置信度标准,即支持度(Support)和置信度(confidence)。对于规则,Support=P(A∪B),Confidence=P(B|A)尽管使用最小支持度和置信度阀值排除了一些“无趣的”关联规则的探查,但仍然会产生一些对用户来说不感兴趣的规则[11]。
由于客观世界的多样性和复杂性,许多事物需要借助模糊概念进行表示。模糊理论是Zadeh于1965年提出的,是当前描述模糊现象的一种最主要的数学方法[12]。模糊概念的数学表示就是模糊集合论,其不明确的内涵与外延用隶属函数定量描述,模糊概念实际上是在一定论域中的一些模糊集合。
利用模糊概念表示的关联规则也称为模糊关联规则,Chan等提出了算法P-APACS[13],即采用一个有意义的客观的度量方法决定规则兴趣度,使得该算法在发现实际数据库中的规则非常有效,但其仅仅只能发现两个模糊项的关联规则。Kuok等将模糊关联规则定义为“如果X是A,则Y是B”的形式,其中X和Y是互不相交的属性子集,A和B是分别对应于X和Y中属性的模糊集集合[14]。这样的规则形式对股票规则中多维关系的发现具有很大的帮助。以下是模糊关联规则定义及其兴趣性度量方法。
二、模糊集算法构造
(一)聚类方法的选择
对原始数据库中数据进行预处理后,文中选用聚类方法对量化属性值进行离散化,求出各聚类中心,然后进行隶属函数的构造。使用聚类方法对预处理后的数据进行离散化,可以缩短后续算法中的计算量,降低复杂性,也能更好地构造隶属函数。最常用的聚类方法有k-Means、k-Medoids、BIRCH、 CURE、DBSCAN等。本文根据股票行情数据库大小,以及存在噪声和例外数据的情况选取k-Medoids聚类算法作为进行离散化的聚类方法。
k-medoids聚类算法的基本策略就是首先通过任意为每个聚类找到一个代表对象(medoid)而首先确定n个数据对象的k个聚类(也需要循环进行);其它对象则根据它们与这些聚类代表的距离分别将它们归属到各相应聚类中(仍然是最小距离原则)。而如果替换一个聚类代表能够改善所获聚类质量的话,那么就可以用一个新对象替换老聚类对象。这里将利用一个基于各对象与其聚类代表间距离的成本函数来对聚类质量进行评估[15]。
k-medoids聚类算法如算法1所示。
算法1 (k-med) 根据聚类的中心对象(聚类代表)进行聚类划分的k-medoids算法。
输入:聚类个数k,以及包含n个数据对象的数据库。
输出:满足基于各聚类中心对象的方差最小标准的k个聚类。
处理流程:
①从n个数据对象任意选择k个对象作为初始聚类(中心)代表;
②循环③~⑤直到每个聚类不再发生变化为止;
③依据每个聚类的中心代表对象,以及各对象与这些中心对象间距离,并根据最小距离重新对相应对象进行划分;
(四)模糊集构造算法
根据上述对聚类算法的选定和模糊集支集、核及隶属函数的构造,下面给出模糊集的构造算法2。
算法2(FKM):模糊集构造算法
输入:聚类算法k-med,属性值集X,聚类数目k,相邻模糊集边界的重叠率p%
输出:模糊集
算法:
Preprocess the data set X;//数据的预处理
Run the clustering algorithm k-med for data set X to produce k cluster centers r;//对数据进行聚类,求出聚类中心
for (i=1; i+ +;i<=k) {//构造模糊集的支集及核
if (i<k)determine Bi;
elsedetermine bi;
}
Bi=max {x|x∈X}
hi=min {x|x∈X}
for (each x∈X){//产生模糊集的隶属函数
for (each ri∈r) {
compute the corresponding membership function (ri、x)
}
}
三、模糊关联规则挖掘算法
根据以上分析构造,最后得出适合股票市场的模糊关联规则。由频繁模糊概念模式生成基于模糊概念关联规则的算法采用Agrawal在文献[16]中给出的算法,具体如算法3。
算法3(FARS):规则挖掘算法
输入:数据库D,模糊概念集N及对应的模糊集和隶属函数,最小支持度minsup
输出:频繁模糊概念模式L
算法:
for(record d∈D)
for(each fuzzy concept pattern p∈N)
p.sum+=Degree(p,d);
四、应用研究
本文选择中国证券交易市场1999~2004年间部分股票的数据进行模糊关联规则的抽取,原始数据包括交易日期、开盘价、收盘价、当日最高价、当日最低价、涨跌幅、成交量等属性。从实验中得到的数据分析,可以看到很多股票交易过程中的彼此关系。
(一)数据预处理
表1 股票行情的数据结构
名称日期开盘价 收盘价 当日最高价 当日最低价 涨跌幅 成交量
类型
日期型实数实数 实数实数 实数实数
为了便于研究,将股票数据库中的日期型变为数值型,然后根据涨跌幅阈值对股票事务集进行预处理,此处涨跌幅范围设为[-0.1,0.1]。当用户指定了时间区间、最小时间间隔后,即可以对股票数据进行预处理。
(二)隶属函数
对原始数据进行预处理后,便可利用聚类方法对股票行情中多个属性进行离散化处理,以得到模糊集的核、支集以及隶属函数,这里以属性涨跌幅为例进行求解。
(三)规则抽取结果分析
文中利用算法3(FARS)对选择的股票数据进行规则抽取,在此设置minsup=0.1,minconf=0.8。得到的实验结果如表3所示。
表3 部分实验结果
f 标准(s)交易天数规则个数支持度信任度
>0.01
1256 256
0.15 0.81
>0.02
1049 340
0.10 0.80
2 >0.02
1049 23
0.22 0.83
>0.03866 151
0.12 0.81
>0.03866 12
0.23 0.82
<-0.01 1521 780
0.22 0.80
<-0.02
8197251
0.16 0.80
1 <-0.02
819 642
0.22 0.81
<-0.03
451 539
0.15 0.82
<-0.03
451 352
0.23 0.81
从表3中可以看出,实验结果中提取了大量的有用规则,很多股票交易过程中存在彼此关联关系,能帮助挖掘出不同行业股票之间的涨跌关系。例如,可得到{20041105-20041125,金属业,>0.03}{机械制造业,f=2}(0.23,0.81)形式的有用规则,这样的规则对于股票市场的大方向预测起到积极的作用,这种形式的规则用传统的关联规则方法是无法直接得到的,说明了模糊关联规则用于股票市场规则抽取的正确性。本文可由以上得到具体的规则:在指定时间区间内,涨幅>0.03时,可得出“中黄金常林(0.23,0.81)”的规则。两只股票是属于不同行业的,但金属与机械制造行业必定会有密切联系,所以这样的规则是有用的,这说明模糊关联规则能挖掘出更多有用规则。
由实验结果表明这一阶段股票市场大势总体普遍呈现下降趋势,说明应用模糊关联规则对股票市场进行规则提取不仅能提取更多有用规则,还能正确的反映股票市场的大势行情,如果进一步选取合适的属性进行聚类分析,相信能够得到更多有用并能对股市进行预测的规则。
五、结论
本文主要对股票市场的规则抽取进行了研究,利用模糊关联规则挖掘股票市场中的有效和实用的规则,从而在一定程度上指导投资者进行合理决策。文中对模糊关联规则进行了改进,使其能更好的适应股票市场规则抽取工作。从目前的实验研究可以看出,模糊关联规则对股票市场规则抽取及预测工作有很大的实用空间,本文的下一步工作将在原有基础上选取不同的股票属性,利用模糊关联规则在时间维度上及股市预测方面挖掘出更多的有用信息。
标签:股票论文; 关联规则论文; 聚类论文; 模糊聚类分析论文; 模糊理论论文; 模糊算法论文; 模糊神经网络论文; 数据抽取论文; 股票市场论文;