数据挖掘概述,本文主要内容关键词为:数据挖掘论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、数据挖掘的概念
随着数据库技术的飞速发展以及数据库管理系统的广泛应用,许多企业和部门建立了自身的数据库管理系统,经过长年努力,已经积累了越来越多的数据。于是,人们开始渴望通过对这些庞大的数据分析得到更多的有助于决策的信息。虽然,目前的数据库系统可以高效率地实现数据的录入、查询、统计等功能,但由于数据量庞大以及数据库系统中分析方法的严重缺乏,使得它无法发现数据中隐藏的相互联系,更无法根据当前和历史的数据去预测未来的发展趋势。因此,出现了所谓“数据多,知识少”的现象,造成了严重的资源浪费。
建立在数据库系统之上的计算机决策支持系统出现,为进行高层次的数据决策分析提供了良好的思路和方法。但由于决策支持系统在数据的采集、分析方法上的灵活性等方面存在局限性,使得人们不得不寻求更有效的途径去开拓数据决策分析的思路。计算机人工智能为此作出了巨大贡献。人工智能经历了博奕、自然语言理解、知识工程等阶段,已经进入了机器学习的热点阶段。机器学习能够模拟人类的学习方式,通过对数据对象之间关系的分析,提取出隐含在数据中的模式,即知识。
正是由于实际工作的需要和相关技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知识发现(KDD:Knowledge Discovery in Databases)。其中,数据挖掘技术便是KDD中的一个最为关键的环节。
1995年,在加拿大蒙特利尔召开了第一届知识发现和数据挖掘国际学术会议,数据挖掘一词被很快流传开来。人们将存储在数据库中的数据看作是形成知识的源泉,形象地将它们比喻成矿石。数据挖掘(DM:Dat Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,近年来受到各界的广泛关注。
统计学与数据挖掘有着密切的联系。数据挖掘的出现为统计学提供了一个崭新的应用领域,也给统计学的理论研究提出了新的课题,它无疑会推动统计学的发展。同时,虽然统计学不可能给出数据挖掘所有问题的答案,但它可以为数据挖掘提供非常有参考价值的框架,能够极大地丰富数据挖掘的方法。
二、数据挖掘的主要步骤
数据挖掘一般分为以下几个主要步骤:
1.数据收集
大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。
2.数据整理
数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。
3.数据挖掘
利用各种数据挖掘方法对数据进行分析。
4.数据挖掘结果的评估
数据挖掘的结果有些具有实际意义,而另一些没有实际意义,或是与实际情况相违背,这就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。
5.分析决策
数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。
总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。
三、数据挖掘的主要任务
数据挖掘技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。数据挖掘一般有以下四类主要任务:
1.数据总结
数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。
最简单的数据总结方法是利用统计学中的传统方法,计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等。
利用OLAP(On Line Processing)技术(即联机分析处理技术)实现数据的多维查询也是一种广泛使用的数据总结的方法。
2.分类
分类的主要功能是使用一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。
分类应用的实例很多。例如,我们可以将银行网点分为好、一般和较差三种类型,并依此分析这三种类型银行网点的各种属性,特别是位置、盈利情况等属性,并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。
3.关联分析
数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。简单关联,例如;购买面包的顾客中有90%的人同时购买牛奶。时序关联,例如:若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%。它在简单关联中增加了时间属性。
关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,即便知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。
关联模型的一个典型例子是市场菜篮分析(Marketing Basket Analysis)通过挖掘数据派生关联规则,可以了解客户的行为。
采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。
4.聚类
当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。
统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
四、数据挖掘的主要方法
目前,国外有许多研究机构、公司和学术组织在从事数据挖掘工具的研究和开发。这些数据挖掘工具主要包括决策树、相关规则、神经元网络、遗传算法,以及可视化、联机分析处理等。另外也采用了传统的统计方法。
1.决策树(Decision Tree)
决策树是建立在信息论基础之上,对数据进行分类的一种方法。首先,通过一批已知的训练数据建立一棵决策树。然后,利用建好的决策树,对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程。因此可以认为,决策树实现了数据规则的可视化,其输出结果也容易理解。例如:在金融领域中将贷款对象分为低贷款风险与高贷款风险两类。通过决策树,我们可以很容易地确定贷款申请者是属于高风险的还是低风险的。
决策树方法精确度比较高,结果容易理解,效率也比较高,因而比较常用。
2.神经网络(Neural Network)
神经网络建立在自学习的数学模型基础之上。它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。
神经网络系统由一系列类似于人脑神经元一样的处理单元组成,我们称之为节点(Node)。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确实数据模式的工作。神经网络由相互连接的输入层、中间层(或隐藏层)、输出层组成。中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析的执行结果。例如:我们可以指定输入层为代表过去的销售情况、价格及季节等因素,输出层便可输出判断本季度的销售情况的数据。
3.相关规则
相关规则是一种简单却很实用的关联分析规则,它描述了一个事物中某些属性同时出现的规律和模式。例如:超级市场中通过POS(Point Of Sell)系统收集存储了大量售货数据,记录了什么样的顾客在什么时间购买了什么商品,这些数据中常常隐含着诸如:购买面包的顾客中有90%的人同时购买牛奶的相关规则。
相关规则分析就是依据一定的可信度、支持度、期望可信度、作用度建立相关规则的。
4.K-nearest邻居
邻居就是彼此距离很近的数据。依据"Do as your neighbors do"的原则,K-nearest邻居方法认为:邻居数据必然有相同的属性或行为。K表示某个特定数据的K个邻居,可以通过K个邻居的平均数据来预测该特定数据的某个属性或行为。
5.联机分析处理(On Line Processing)
联机分析处理(OLAP)主要通过多维的方式来对数据进行分析、查询和报表。它不同于传统的联机事物处理(Online Transaction Processing,OLTP)应用。OLTP应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄系统等等,通常要进行大量的更新操作,同时对响应时间要求比较高。而OLAP应用主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。
6.数据可视化(Data Visualization)
对大批量数据的展现也是数据挖掘的重要方面。就数据可视化系统本身而言,由于数据量很大,很容易使分析人员面对数据不知所措,数据挖掘的可视化工具可以通过富有成效的探索起点并按恰当的隐喻来表示数据,为数据分析人员提供很好的帮助。
数据可视化工具大大扩展了传统商业图形的能力,支持多维数据的可视化,从而提供了多方向同时进行数据分析的图形方法。有些工具甚至提供动画功能,使用户可以“飞越”数据,观看到数据不同层次的细节。
五、数据挖掘的主要应用
目前,数据挖掘应用主要集中在以下几个领域:
1.金融
数据挖掘在金融领域应用广泛,包括:金融市场分析和预测、帐户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件进行分析预测。而数据挖掘可以通过对已有数据的处理,找到数据对象的特征和对象之间的关系,并可观察到金融市场的变化趋势。然后利用学习到的模式进行合理的分析预测,进而发现某个客户、消费群体或组织的金融和商业兴趣等。
2.市场业
市场业应用是利用数据挖掘技术进行市场定位和消费者分析,辅助制定市场策略。
由于管理信息信息系统和POS系统在市场业的广泛普及,人们很容易得到顾客购买情况的数据。利用数据挖掘技术,如:相关规则、模糊推理及统计方法等,通过对顾客历史数据的分析,可以得到关于顾客购买取向和兴趣的信息,无疑为商业决策提供了可靠的依据。
3.工程与科学研究
数据挖掘技术可应用于各种工程与科学数据分析。
随着先进的科学数据收集工具的使用,如观测卫星、遥感器、DNA分子技术等,面对庞大的数据,传统的数据分析工具无能为力。数据挖掘技术以其强大的智能性和自动性,在工程和科学研究中得到广泛应用。
数据挖掘在天文学和生物学中都有极为成功的案例。例如:在天文学应用中,Jet Propulsion实验室利用决策树方法对上百万天体进行分类,效果比人工更快、更准确。这个系统还帮助发现了10个新的类星体。
4.产品制造业
制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
例如:HP公司的工程师使用Angoss Software的Knowledge Seeker来进行HPⅡc彩色扫描仪的生产过程分析。他们基于大约200个参数建立了一个自动数据收集系统,产生了难以手工处理的大量数据。
5.司法
数据挖掘技术可应用于案件调查、诈骗监测、洗钱认证、犯罪组织分析等,可以给司法工作带来巨大收益。
例如:美国财政部使用NetMap开发了FAIS系统。这个系统对各类金融事务进行监测,识别洗钱、诈骗等。该系统从1993年3月开始运行,每周处理约20万个事务,针对超过1亿美元并可能是洗钱的事务产生了400多个调查报告。
六、数据挖掘的主要工具
在数据挖掘技术发展的同时,许多数据挖掘的软件工具也逐渐面世。
数据挖掘工具主要有两大类:一类是应用于特定领域的专用数据挖掘工具,另一类是应用面较广的通用数据挖掘工具。
专用数据挖掘工具针对特定领域的问题提供解决方案。在算法设计方面,充分考虑到数据、需求的特殊性,并进行优化。例如:IBM公司的Advanced Scout系统,针对NBA数据,帮助教练优化战术组合、上文提到的各种应用工具等。
通用数据挖掘工具处理常见的数据类型,采用通用的数据挖掘算法,提供较为通用的处理模式,如:分类模式、回归模式、时间序列模式、聚类模式、关联模式等。例如:IBM公司的QUEST系统、SIG公司的MineSet系统、加拿大Simon Fraser大学的DBMiner、美国Business Objects公司的Business Miner系统、SAS公司的SAS EM(Enterprise Miner)系统等。
SAS EM在SAS数据仓库和数据挖掘方法论的基础之上,采用图形化界面、菜单驱动方式,为用户提供了一个数据挖掘的集成环境,集成了数据获取工具、数据抽样工具、数据筛选工具、数据变量转化工具、数据挖掘数据库、数据挖掘方法等。SAS EM提供了多种形式的回归工具(线性回归、Logistic回归)、为建立决策树的数据剖析工具、决策树浏览工具(决策树基本内容和统计值的汇总表、决策树的导航荆览器、扶策树的图形显示、决策树的评价图表)、人工神经元网络(可处理线性模型、多层感知模型MLP、放射型功能RBF)、数据挖掘评价工具等。
七、数据挖掘的发展
数据挖掘的研究正方兴未艾,其发展前景在已经在国际上得到了确认。目前,国内外很多大学、研究机构和公司都已经在这个方面进行了实质性的研究和产品开发。今后研究的焦点可能有:研究专门用于知识发现的数据挖掘语言;研究Internet上的数据挖掘方法;对各种非结构化数据,如:文本数据、图形图象数据、多媒体数据的挖掘;研究数据挖掘与数据仓库相结合的方式,数据挖掘与数据仓库一体化的研究等。
标签:数据挖掘论文; 决策树论文; 大数据论文; 数据挖掘算法论文; 关联分析论文; 文本挖掘论文; 分类数据论文; 类对象论文; 聚类论文;