国外数据挖掘应用研究与发展分析,本文主要内容关键词为:数据挖掘论文,国外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
目前“数据挖掘(Data Mining,简称DM)”这一术语在学术界还没有一个公认的、权威的定义,但我们一般可以简单的认为数据挖掘是从海量数据中发现趋势或模式的过程。尽管有些人不愿承认数据挖掘与统计学的内在联系,但不可否认的是早期的数据挖掘的确脱胎于统计学,因此也可以说数据挖掘是利用统计学和机器学习技术创建预测行为的模型。需要强调的是数据挖掘的过程是一个“发现”的过程,而不是“发明”的过程。换句话说,数据挖掘所探寻的模式,是一种已有的、只是隐藏在数据中、暂时没有被发现的知识。世界上对数据挖掘的正式研究始于1989年8月举行的第一届KDD国际学术会议,数据库中的知识发现(Knowdge Discovery in Database,KDD)在该次会议上被提出。数据库中的知识发现是一个可与数据挖掘互换的、使用频率很高的术语,数据库中的知识发现是数据挖掘科学方法的应用。
数据挖掘真正引起人们的普遍关注应该起始于该技术在各种行业领域中的应用,近年来数据挖掘技术在金融、电信、零售、医疗、科研等行业领域内发挥了巨大的作用。很显然,在今天浩如烟海的数据中淘金,仅靠人力是无法做到的。因此,一些世界著名的厂商也纷纷致力于数据挖掘工具的开发,这其中既有统计软件界元老SAS、SPSS,也有数据库巨头Oracle、IBM。技术内核也在经典的统计、近邻、聚类等基础上发展出决策树、神经网络、规则归纳等新技术。数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力,且这种趋势正在以前所未有的速度继续向前发展。到目前为止,KDD国际研讨会的研究重点逐渐从发现方法等理论研究转向系统应用研究,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。本文主要从商业机构和非营利组织两大领域出发,针对国外近年来数据挖掘技术应用的相关问题进行分析和总结。
一、数据挖掘在商业领域中的应用
在如今市场相对饱和,厂商之间的竞争已经由市场份额之争转移到利润份额之争的环境下,数据挖掘技术应用于商业领域能够产生巨大的商业利润。在国外关于数据挖掘应用的相关文献中涉及商业领域的为数颇多,这类问题的研究大多集中在零售、金融、电信等方面,也是数据挖掘技术应用发展比较成熟的地方。
(一)数据挖掘在零售领域中的应用
数据挖掘在零售业中的应用主要涉及客户细分和交叉销售等方面。Alex.Berson等人从客户关系管理的角度入手,阐述了零售业中利用决策树和聚类技术进行客户细分和利用关联技术进行交叉销售的应用研究。George M.Marakas对基于关联技术的购物篮分析十分推崇,认为它是最常见、最广泛的数据挖掘应用,并将其总结为“市场购物篮分析算法”,称之为数据挖掘算法之王。Jiawei Han和Micheline Kamber认为,零售数据挖掘可有助于识别客户购买行为,发现客户购买模式和趋势,改进服务质量,取得更好的客户保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。
(二)数据挖掘在金融领域中的应用
在金融业方面,数据挖掘的应用突出表现在信用评估和防止欺诈等方面。Paolo Giudici和Olivia Parr Rud对利用神经网络、logistic回归和决策树方法进行信用评估的相关问题进行了阐述。Robert Groth从防止金融欺诈的角度论述了数据挖掘的应用问题以及利用神经网络技术进行股票预测的问题。Michael J.A.Berry和Gordon S.Linoff则从金融产品的交叉销售和保险精算两个角度对数据挖掘在金融业的应用进行了探讨。
(三)数据挖掘在电信领域中的应用
数据挖掘在电信业最突出表现是其在客户保持方面的应用,Alex.Berson和Michael J.A.Berry等人分别阐述了CART、CHAD、Entropy和Gini等相关技术在此方面的应用问题。此外,Michael J.A.Berry和Gordon S.Linoff还提出了利用数据流程技术处理电信业“海量”数据的思想。
(四)数据挖掘在电子商务领域的应用
近年来数据挖掘技术被大量地应用电子商务的领域,基于Web的数据挖掘技术正在飞速发展。Gordon S.Linoff和Michael J.A.Berry从点去流分析入手,对电子商务环境下在线销售、数字销售、网络广告、客户关系管理等诸多方面进行了较全面的论述。
(五)数据挖掘在工业生产领域的应用
科技往往是应生产的需要而产生,数据挖掘也同样如此,因此这一技术在工业生产领域中应用已经十分广泛和成熟。早在1984年,Westinghouse的研究人员Leech就开始将决策树技术应用于核电厂生产中预测氧化物粉末小颗粒的质量,其后又对新数据进行归纳学习获得了更加准确的规则。这一应用提高了产量、降低了库存,为西屋公司每年增加一千多万元的销售额。Ryszard S.Michalski等人总结了多个数据挖掘在工业生产中应用的具体领域,包括决策树技术用于提高化工过程控制中的产量,用归纳算法进行机械设备故障诊断,用归纳方法监测卷轧冷钢过程中旋转乳液的质量,利用结构化归纳改善炼油厂油气分离质量,利用规则归纳预防电力公司变压器故障,利用决策树归纳实现钢厂调度自动化等。
二、数据挖掘技术在非营利组织中的应用
数据挖掘由于其与统计学之间的内在联系,从诞生之日起就被应用到生物、医学等广泛应用统计技术的领域。随着数据挖掘技术的不断成熟,近年来数据挖掘在许多非营利性组织中开辟了新的应用领域。
(一)数据挖掘技术在生物与医学领域中的应用
作为数据挖掘前辈之一的统计学,早就有着非常出色的应用于生物医学领域的传统,因此数据挖掘诞生后在生物医学领域同样有着广泛的应用。NeuroMedical系统公司采用神经网络技术进行油性流质食物辅助诊断;Vysis采用神经网络技术为药品开发进行蛋白质分析;Rochester大学癌症中心和牛津移植中心采用基于决策树技术的KnowledgeSEEKER辅助他们的研究工作:南加州大学脊椎病医院利用Information Discovery进行数据挖掘。目前数据挖掘技术已经应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、泌尿学、甲状腺病例诊断、风湿病学、craniostenosis综合病症诊断、皮肤病诊断、心脏病学、神经心理学、妇科医学、产科医学等众多医学领域。Jiawei Han和Micheline Kamber从异构和分布式基因数据库的语义集成、DNA序列间相似的搜索和比较、同时出现的基因序列的识别、发现在疾病不同阶段的致病基因等方面阐述了数据挖掘在DNA数据分析领域中的应用问题。他们认为、数据挖掘中的数据清理和数据集成方法将有助于基因数据集成和用于基因数据分析的数据仓库的构造;频繁序列模式的分析在基因序列相似与非相似分析中至关重要;关联分析可用于帮助确定在目标样本中同时出现的基因种类,有助于发现基因组和对基因间的交叉与联系的研究;路径分析则会在遗传研究中起到重要的作用。Muggleton等人提出利用归纳逻辑编程根据氨基酸序列信息预测蛋白质第二结构。Igor Kononenko等人认为,在机器学习的帮助下,医师诊断病人的正确率将会提高。他们从医学诊断的角度阐述了统计或模式识别方法、符号法则的归纳学习、人造神经网络三类机器学习算法在医学领域中的应用问题。Miroslav Kubat等人针对医学检测中心电图、脑电图等生物医学信号的分析,提出使用决策树来初始化神经网络可以大大提高对测试样本的分类准确率。Robeit Groth则对聚类技术在患者术后康复问题分析的应用进行了阐述。
(二)数据挖掘在天文与气象领域中的应用
天文学中的有些问题是人力所不能及的,其获得的数据往往是GB级的。1995年Fayyad等人采用归纳技术处理天体对象的分类问题,取得了符合科学数据分析标准的高准确率。1996年Mukherjee等人描述了数据挖掘的几种科学应用,包括天空图象分析、金星上的火山定位和地震的侦测。1998年Mukherjee等人又利用统计聚类分析发现了来自太阳系外的第三类γ射线爆。数据挖掘在气象学中的应用也有着较早的历史,1985年Zubrick和Riese介绍了决策树归纳方法在预测严重暴风雨方面的应用。
(三)数据挖掘在地理与环保领域中的应用
数据挖掘技术几乎被应用于当前所有热门的领域。美国Byrd Polar研究中心的Paleoclimatology小组将数据挖掘方法应用于构建水网地图。等人介绍了数据挖掘应用于生态环保领域,利用规则归纳解决若干有关水质生物分类问题,Walley等人利用贝叶斯推理,而Ruck等人利用神经网络来完成河流水质生物分类。Kompare等人还利用机器学习技术解决海藻在湖和礁湖中生长的建模问题,并从测量数据归纳出差分方程模型。
(四)数据挖掘的其他应用
由于数据挖掘可以解决视频图像序列中的动作识别问题,因此也被应用于安全反恐领域。Ryszard S.Michalski阐述了在检查行李X光图像中的引爆雷管问题的数据挖掘解决方案。此外,相关的应用还包括利用规则归纳处理直升机叶片的修理问题,利用结构化归纳方法进行航天飞机引擎的测试,利用决策树归纳配置建筑物中的防火设备,以及将数据挖掘技术应用于体育比赛和运动员训练、电视娱乐、新闻出版等。随着数据挖掘技术的不断成熟,数据挖掘的应用将越来越广泛。
三、近五年国外数据挖掘应用情况与发展趋势分析
最近五年是数据挖掘技术应用发展最快速的时期。表1是根据Kdnuggets公司(KD stands for Knowledge Discovery)2001年至2005年关于数据挖掘技术应用于各领域比重的调查数据整理的结果。
由于数据挖掘技术的迅猛发展,每年都会出现很多新的情况。这使得每年统计调查的种子量不同,口径也有出入。根据Kdnuggts公司网站提供的数据表明,表中第二行数据2001年为生物学和遗传学,2002年增加了蛋白质学,2003年和2004年为生物信息学和生物技术,2005年为生物学和基因学。表中2001年的数据为2001年以前至2001年的情况,表中2005年的数据为近三年的数据。尽管这不是一个精准的统计结果,但表中数据还是有助于对近年来数据挖掘应用的情况和发展趋势进行总体上的把握和分析。
(1)传统领域应用发展平稳。在最近的五年中,数据挖掘技术最普遍的应用仍然是银行、保险、零售、直销、反欺诈等传统商业领域,其中传统商业领域中股票投资、电子商务和电信业的应用比重呈缩小趋势,而新兴起的客户关系管理(CRM)方面的应用被强化,2005年的统计调查报告中将其单独作为一项指标进行调查,并占有较大比重。医药、生物、科研等非营利机构中的应用发展平缓。
(2)应用领域多元化。这是近五年来数据挖掘应用发展的最显著的趋势,2001年之后,随着数据挖掘技术在文本、Web、视频、音频等方面的不断成熟和处理复杂事务数据的能力增强,数据挖掘技术的应用领域呈现多元化趋势。除传统的领域外,数据挖掘技术被广泛的应用到娱乐业、制造业等更为广泛的领域,原本不被看好的政府行政、康复、反垃圾邮件等带有公益性色彩的事业也开始应用数据挖掘技术,由此带来的是数据挖掘所面对的数据也由原来的相对单纯变得更为纷繁复杂。
(3)应用领域人文化。尽管数据挖掘是基于统计分析和机器学习的自然科学范畴的技术,但随着神经网络。遗传算法等技术的成熟,数据挖掘被越来越多的应用到人文社会科学层面的事务处理决策中。由上表中的数据可以看出,2001年后数据挖掘被应用到与人类行为、性格、心理密切相关的博彩、娱乐、传播、人力资源、客户关系管理等领域。
(4)应用方向热门化。数据挖掘的新应用往往是人类社会比较关注的领域,“911”事件后,安全和反恐成为人们的主要议题,数据挖掘很快被应用到这一领域。数据挖掘的其他新的应用,如反垃圾邮件、客户关系管理、信用评估等都是近年来比较热门的话题。
可以看出,随着数据挖掘技术应用范围的不断扩展,人类社会的方方面面几乎都会被数据挖掘涉足。尽管数据挖掘原本是作为一项技术出现的,但由于数据挖掘本身独有的理念给人们处理解决各类问题都提供了一个新的思路和方法,在这一点上数据挖掘一定程度上等同于一种方法论,在未来的一个时期里必将对人类生产生活产生重大影响。
表1 数量/比重(%)
附图