正在兴起的数据挖掘技术,本文主要内容关键词为:数据挖掘论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
数据挖掘这个词被大家熟悉不到十年,但它已作为一个重要领域引起工业界数据库利用者和研发人员的重视,正在成为竞争激烈的商业界不可缺少的决策工具。
那么何为数据挖掘呢?所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中识别有效的、新颖的、潜在有用的以及最终可以理解的模式过程。以前我们更多地是收集数据,但在数据的利用方面却不是那么有判断力或特别明智,我们收集的数据超过了我们用已存在的方法利用它们的能力。在数据库发展的早期,因为数据量不大,查询型应用和操作型应用的区别还不太明显,但随着数据库规模的逐渐增大,人们希望利用已有的数据从多个不同角度来观察目标,从而找出这些事物之间的关系的愿望越来越迫切,然而这要求人们有超人的智能——即人类不可能拥有的进行大量计算的能力,靠人力进行挖掘我们很难走更远了,信息革命正产生出山一样的数据,譬如花样繁多的信用卡交易、网上信息流、空间科学和人类基因研究,等等;随着科技的进展,越来越快越来越便宜的存储技术使网上的数据越来越庞杂,数据挖掘和知识发掘方面的研究人员正开发新的更自动的方法以适应二十一世纪发掘知识的需要,不管是在商业系统还是科研部门对数据分析的需求将会持续升温。
第一代数据挖掘系统产生于二十世纪八十年代,这一时期的挖掘工具强调的是一般的数据分析,要求使用者必须精通一些专业技术知识。数据挖掘商开发出的第二代数据挖掘系统出现于1995年左右,这些工具使知识挖掘过程从多个类型的数据分析进行,大多是在数据挖掘和数据预处理方面进行努力,例如:SPSS的Clementine、Silicon Graphics的Mineset、IBM的Intelligent Miner 、 SAS Institute 的EnterpriseMiner,它们可以使客户完成多方位的挖掘任务, 还可支持数据转换和可视,Clementine开发的GUI 先进到可使用户看到知识挖掘的全过程,第二代数据挖掘系统虽然能够进行数据分析,但它要求用户有专业的统计学理论知识。在九十年代末期商务用户需要第三代数据挖掘系统以解决特殊的商务问题,应市场需要数据挖掘开发商开发出了新一代挖掘系统,譬如HNC Software的falcon(猎鹰)用于识别信用卡欺诈;IBM 的Advanced Scout(高级侦察员)用于篮球比赛分析;NASD Regulation的Advanced-Detection System (高级侦查系统)等都是这一方面的例子。
现在数据挖掘系统主要被商业界所应用。财产保险和伤亡保险领域的大公司的保险精算部门根据他们获得的数据资料和他们在这一领域多年积累的数以万计的政策规定来进行保险规划,通过对数据的分析,保险公司评估风险水平,来确定收取的固定资金,给投保人的保费等。数据挖掘系统还被用于航空运输业,以前大量失事飞机产生的数据用过之后就被闲置于仓库中,现在研究人员可以通过对这些飞机传感器产生的数据进行分析来预测飞机部件的坏损程度,这可使飞机部件在坏掉以前得以更换,避免空难的发生。同样的技术可用于火车、船只、汽车等交通工具以及一些复杂的工业设备。
数据挖掘系统在科研领域将会有更为广阔的应用前景,例如DNA 的生物编码纷繁复杂,用人工对这些数据进行分析是根本不可能的,同样的还有基因识别、基因分类以及基因的比较,然而数据挖掘技术可以使研究人员自动高效地获得准确的数据。数据挖掘系统还可用于医疗卫生事业,通过处理数据库中大量的病人资料找出其中蕴含的、未知的、有用的规律和模式,从而找出新的病因和治疗方法。
好的数据挖掘系统要求能适应于广阔的领域;能提供易理解的知识和充足的相关数据;适应不断变化的环境;拥有理想的挖掘方法;短时间内不被新的技术所淘汰;提供正确的决策使用户赢得利益。当然数据挖掘结果的好坏还与被挖掘数据的数量和质量息息相关。
收稿日期:2001—1—8