基于数据仓库的证券业数据挖掘解决方案_数据挖掘论文

基于数据仓库的证券业数据挖掘解决方案_数据挖掘论文

基于数据仓库的数据挖掘在证券行业的解决方案,本文主要内容关键词为:数据仓库论文,数据挖掘论文,解决方案论文,证券论文,行业论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、数据仓库、OLAP与数据挖掘

数据仓库(DW)的概念是由美国W.H.Inmon博士在20世纪90年代初提出来的,至今仍不断发展完善。他将数据仓库(DW)定义为:“数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策过程”(高洪深,2002)。数据仓库是原始的操作数据从历史的角度组织和存储数据的处理过程,它把各个信息源中与决策支持有关的数据,经过提取、转换、过滤、集成,按主题存放起来,可以使最终用户在数据仓库的基础上进行数据的深层挖掘、多维数据分析、动态查询和报表等。数据仓库是为决策者提供服务的。

OLAP是指一系列交互的查询过程,在查询过程中需要将数据从不同层次、不同阶段进行分析处理,从而获得高度归纳的信息,OLAP是一种验证型的分析工具,是在数据仓库的基础上进行自上而下,不断深入的数据分析。OLAP是获得关键信息以支持决策分析的主要手段之一。

数据挖掘是一种决策支持过程。作为一种挖掘型工具,它主要是基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘一些潜在的模式进行预测,帮助高级管理人员做出正确的决策。

二、证券行业数据仓库的需求分析

目前,国内证券行业的外部经营环境发生了较大变化,证券市场由卖方市场变为买方市场,市场开始细分,国内券商竞争激烈,从业务角度看,经纪业务是目前国内券商竞争的焦点,它仍是券商利润的主要来源,据统计从事经纪业务获得的收入占各主要券商利润来源的80%以上,而中小证券公司90%的利润主要来自证券营业部。故营业部较关心的问题是“如何抓住有效客户”和“营业部利润”。据营业部的需求,该主题的具体分析如下:

建立数据仓库来存放对全体客户、预定义客户群、某个客户的信息和交易数据,并通过对这些数据进行挖掘,实现面向主题的信息抽取。

对客户的需求模式和盈利价值进行分类,找出最有价值和盈利潜力的客户群,以及他们最需要的服务,更好地配置资源,改进服务,牢牢抓住最有价值的客户。

通过对客户资源信息进行多角度挖掘,了解客户各项指标(如资产贡献、忠诚度、盈利率、持仓比率等),掌握客户投诉、客户流失等信息,从而在客户离开券商之前,捕获信息,及时采取措施挽留客户。

三、系统结构和模型设计

(一)系统结构设计

(1)数据量的估算。节点仓库数据量近似估算公式:

节点仓库数据量=单位时间动态数据量在仓库中存储时间(数据冗余因子)用户增加的余度+静态数据量(数据冗余因子β)(α,β通常取1~1.2)

单位时间动态数据量=客户数量单位时间交易次数单条记录的字节数

(2)系统硬件结构/软件结构选择。根据数据量的估算,我们选择相应的软硬件配置:①硬件平台的可扩展性。②软件的跨平台性。③软件模块之间的接口问题。④软件的可用性。⑤软件系统的可靠性。

(二)数据仓库模型的设计

(1)可利用的数据。要进行客户分析,下列信息是必须的:客户基本信息表;客户账户信息表;客户交易信息表。

(2)粒度的确定。在数据仓库设计中,最重要的步骤是确定数据的粒度。对于客户基本信息表,属于增长较为缓慢的信息(随着客户数量的增长,客户信息的变更表会增长),可以使用单一的粒度。

对于客户交易数据是数据量最大的部分,对于一个客户的一次交易,交易表中将增加一次记录,因此数据量非常庞大,可以采用双重粒度来记载交易数据。对于近几个月的细节数据,可保留在数据仓库中,并定期聚合成按周、按月综合表,然后将细节数据到出至磁带设备,为新的细节数据腾出空间。

(三)OLAP模型设计

OLAP模型设计的思路是先分析问题中可能涉及的所有维度(总体维度分析),针对每一个主题确定其需要的维度和度量变量,然后为每一个主题定义关系模式,从而形成一个星型结构,在此基础上,生成多维数据表,建立多维数据库。

项目涉及的维度分析:静态维度;动态维度;目标维度。

根据客户主题的需要,分析客户发展的维度设计,对应的星型结构见图1(图略,见原文)。

(四)数据装载/数据综合模块

从源数据库往数据仓库中加载数据时,源数据库中的数据格式不一,确定数据仓库的信息需求后,首先进行数据建模,然后确定从源数据库到数据仓库的数据提取、清理、转换、汇总和加载。

数据提取:从综合数据库中取出“客户”主题需要的客户信息、账户信息、交易数据。

数据清洗:数据清洗是整个数据仓库的数据入口,通过数据清洗将获取有效的数据。典型的数据清洗任务有:数据验证(剔除不符合检验条件的数据);数据映射(使数据源的数据在进入数据仓库之前各项数据属性具有统一的标准)。

数据转换:由于数据仓库中各个主题中的数据是按照前端应用的需求存放的,因此在数据清洗后必然存在一个数据整理和转换的过程,这一过程需要对数据进行变形,使之适应前端应用的需要,如行列转置。

数据加载:在经历了数据提取、清洗、整理和汇总后,需要将所获得的结果载入数据仓库中,这个过程应该定时进行,并且不同主题的数据加载任务有各自不同的执行任务。

目前,ETL转换工具很多,根据性价比比较,我们选用SQL中的DTS转换将数据导入到数据仓库中,同时选用SQL中的analysis services进行OLAP模型的实现。

(五)数据挖掘宽表设计和生成

(1)确定同目标变量相关的数据。要进行数据挖掘,需要将所有能够收集的对分析有用的信息组织成一张非常“宽”的数据表,有时成为数据宽表。4个目标变量(客户信用度、客户价值、客户流失概率和挽留价值)能得到的信息相关数据有客户交易信息、账户信息、基本信息。但对于客户的账户信息、基本信息,客观上存在种种困难,我们只能获得一部分信息,客户的账户、收入、资产等信息涉及客户的隐私权,这些信息通常不容易得到。

(2)准备训练集合与验证集合。在数据宽表准备好后,我们准备训练集会和数据验证集合,需要如下工作:

①数据质量的检验。②如果宽表的数据量很大,需要选择合适的抽样方法。③为目标变量附上初值。④根据算法需要,对表中变量,特别是目标变量的形式进行转化。

客户价值=本年总投资×0.50+上年总投资×0.25+上上年总投资×0.25+0.50×(本年投资增长量+上年投资增长量)

(3)确定分析次序。当目标变量具有相关性,就需要确定分析次序,如客户挽留价值,通常是具有很高的客户价值又具有很大流失概率的客户。挽留价值=客户价值流失概率,显然需要最先分析客户价值、客户流失概率,再分析挽留价值。

(4)变量选择。在准备好数据训练/验证集会后,需要将同目标变量具有强相关性的变量去除。变量选择后,我们就可以将训练/验证集合作为输入数据,利用数据挖掘工具/算法进行建模。如果采用聚类,它将告诉我们哪些客户具有类似的特征;如果用关联规则,它将给出客户可能会同时购买哪些股票;如果用回归模型,它将给出各因素对目标变量影响的权重信息;如果用决策树,它将告诉我们具有哪些特征的客户是高价值客户。

(5)模型的维护和完善。数据挖掘模型的建立不是一劳永逸的事。随着时间的推移,模型的建立需要更新。另外,随着数据仓库的不断发展,数据仓库可以为数据挖掘提供更完善的数据,因此还需要将新的数据补充进数据宽表,以建立更好的模型。

四、界面展现设计

根据我们的需要考虑界面系统需要展现的内容包括:

各主题对应的多维数据库,这是需要展示的主要内容。定义用户经常需要观察的角度/钻取层次,方便用户观看OLAP的结果。

挖掘结果的展现,如近期具有高价值客户的名单,具有挽留价值的客户,这些结果对营业部具有参考价值。

对数据的预测结果,比如根据近几年客户的增长趋势,预测今后几年客户发展情况。

最终用户的动态查询。比如查询上一年投资额超过10万的客户有哪些。

随着证券市场的逐步规划和发展,我国的证券市场达到一定的规模,用于事务处理的信息系统较为成功,但决策分析的信息系统较落后,这不利于营业部留住原有客户和发展新的客户。因此,目前国内券商,都在着力建立自己的数据仓库系统,在此基础上进行深层次分析。可以预见,数据仓库和数据挖掘必将在提高券商核心竞争方面扮演很重要的角色。

标签:;  ;  ;  ;  ;  ;  ;  

基于数据仓库的证券业数据挖掘解决方案_数据挖掘论文
下载Doc文档

猜你喜欢