数据采掘技术与信息服务,本文主要内容关键词为:信息服务论文,数据论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]1207.23 [文献标识码]A [文章编号]1008—1763(2000)02—0092—06
在人类历史的进程中,信息技术正以惊人的速度改变和影响着人类生活的各个领域:人的工作和生活方式、思维方式、价值观念等等。回顾历史,可以发现:在农业时代,土地成为经济的核心资源,社会中最有势力的就是地主;在工业时代,资本是该时代的核心资源,相应地,资本家就成为社会的权势者。以此推论,在未来的信息社会中,核心资源就是信息,因而信息的掌管者和信息富翁便将形成而成为未来社会的位高权重者。这就意味着信息技术正将改变着一个时代、一个社会。
信息社会将会具有几大特征:其一,信息技术的发展速度迅速。不论是硬件技术还是软件技术、网络技术,其发展几乎是日新月异;其二,信息资源丰富,信息量呈爆炸趋势,信息传递及检索手段也很便捷;其三,信息渗透在社会各个领域中。信息技术在社会的方方面面都起着很重要的作用,与各行各业的发展都密切相关,众多的技术革新在各个领域脱颖而出。
随着信息数据的增长、信息量的庞大,现在信息服务已很难再象从前那样利用手工检索按图索骥就能达到目的,而必须利用一种有效的工具从大量的数据中找出规律,根据规律进行分析而形成决策从而达到服务目的。因此,必须提供一种新的工具和方法,去检索发现隐藏于大量数据之中的规律及关系。这就是本文所介绍的数据采掘技术,它能为信息服务提供智能的、自动化的辅助手段进行决策指导分析。
一 数据采掘技术的过程、方法及工具
(一)数据采掘的概念
数据采掘,是一个从大型数据库的浩翰数据中抽取隐含的、从前未知的、潜在有用的信息或关系的过程[1]。 它是从大量的数据中提取出可信的、新颖的、有效的,并能被人理解的模式的高级处理过程。数据采掘也称KDD(Knowledge Discovery in Database)即数据库中的知识发现,由于现实世界数据库本身所固有的特性,加之数据库中的数据并非专门为数据采掘而收集的,因此KDD 工具必须能够处理大规模的海量数据、含噪音和不完备的信息数据。理想的KDD 系统是一个自治的学习、自动的收集有用的和令人感兴趣的信息,并以适当的形式报告其发现结果的智能系统。
(二)数据采掘技术的几种模式及过程
模式1:本模式的处理过程如图一所示[2][3]
图1 数据采掘模式之一
(1)数据准备过程。首先要充分了解KDD及相关领域的有关情况,熟悉与各种数据有关的背景知识,并且需充分弄清楚数据采掘最终的目的与要求。
(2)数据选择与确定KDD的目标。根据数据采掘最终的目的与要求从数据库中提取与KDD相关的数据,确定KDD 是发现何种类型的知识, KDD将主要从这些数据中进行知识提取,在此过程中,KDD会根据不同的要求采用不同的知识发现算法。会利用一些数据库操作对数据进行处理。
(3)数据预处理。主要是对数据选择产生的数据进行再加工, 检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方法进行填补。
(4)数据缩减。对经过预处理后的数据,根据KDD的任务对数据进行再处理以精减数据库中数据量而得到最具价值的数据。
(5)模式解释。根据KDD确定的目标对数据进行模式解释,在此过程中,为了取得更为有效的知识,可能会返回到前面处理步骤中的某些步骤反复提取,从而提取出更有效的模式解释。
(6)数据采掘。根据提取出的模式, 选择合适的知识发现算法,选取合适的模型和参数,并使得知识发现算法与整个KDD 的评判标准相一致。运用选定的知识发现算法,从数据中提取出KDD 的发现的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。
(7)KDD评价。将发现的知识进行评测,以适用于知识需要,并不断调整各过程的KDD参数,且对发现的知识进行检查, 以确信本次发现的知识是具有价值的新知识。
(8)在对数据采掘出知识进行评测后, 根据结果可以决定是否重新进行某些处理过程,在处理的任意过程都可以返回以前的过程进行再处理。
模式2:本模式处理过程是强调数据采掘与专家分析共同参与[3]
(1)课题的理解和定义。数据采掘人员与领域专家合作, 对课题进行深入的分析,以确定可能的解决途径和对学习结果的评测方法。
(2)相关数据收集和提取。根据课题所需收集有关的数据, 并充分利用数据库的功能提取相关数据。
(3)数据清理。对提取出的数据进行相关性检查, 并清理含有错误的数据。
(4)数据加工。对数据进行再加工,主要是冗余属性剔除, 从大量数据中选择具有代表性的数据以减少学习量以及对数据的表述方式进行转换以适于学习算法等。
(5)模式与算法选择。根据数据和所要解决的问题, 确定数据采掘的模式,选择合适的算法。
(6)数据采掘。 根据选定的知识发现算法对经过处理后的数据进行模式提取,决定如何利用模式在这些数据上使用该算法进行数据采掘。
(7)结果的评价。对学习结果的评价依赖于需要解决的问题, 由领域专家对发现模式的新颖性和有效性进行评价。
(8)优化。 根据对结果的评价可能需要对处理过程的某些阶段进行优化。在此过程中,领域专家的参与非常重要,可根据专业知识给出很好的改进意见。优化包括对问题的再定义及相关数据的进一步处理。
模式3:该模型是以用户为中心, 在进行数据采掘过程时通过对用户的工作方式分析,在设计KDD 系统时更注重于用户对整个数据采掘的全过程提供支持[3][4][5]。过程如图二所示。
图2 数据采掘模式之三
(1)任务定义。通过与用户或用户集体的多次交流, 确切了解需要处理的任务。任务定义是为了明确需要发现的知识的类别及相关数据。
(2)提取数据。 了解任务所涉及的原始数据的数据结构及数据所代表的意义,依据任务定义从数据库中提取相关数据。
(3)数据清理。 对用户的数据进行清理以使其适应于后续的模型数据处理。这需要用户的背景知识,同时也应该根据实际的任务确定清理规则。
(4)确定模型。通过对数据的分析选择一个初始的模型。 模型定义一般分为三个步骤:数据分隔、模型选择和参数选择。
(5)数据分析。 包括四个处理阶段:对选中的模型进行详细定义,确定模型的类型及有关属性;通过相关数据的计算,计算模型的有关参数,得到模型的各属性值;通过测试数据对得到的模型进行测试和评价;根据评价结果对模型进行优化。
(6)输出结果。数据分析的结果一般都比较复杂, 很难被人理解,利用相应的转换工具将结果以文档或图表形式表现出来则易于认识。
(三)数据采掘技术的典型方法
在数据采掘领域里,有许多实现数据采掘的方式与算法,其中大部分都是基于机器学习、模式识别以及统计学等领域中的方法。下面介绍的是几种常用的典型的实现方法[6][7]。
(1)神经网络(Neural Networks)
神经网络建立在可以自学习的数据模型的基础之上。它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。
神经网络系统由一系列类似于人脑神经元一样的处理单元组成。我们称之为节点(Node)。这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。
神经网络的处理过程主要是通过网络的学习功能找到一个恰当的连接加权值来得到最佳结果。 其比较典型的学习方法是回溯法(Back—propagation),它通过将输出结果同一些已知值进行一系列比较, 加权值不断调整,得到一个新的输出值,再经过不断的学习过程,最后该神经网络得到一个稳定的结果。
(2)决策树
决策树是通过一系列规则对数据进行分类的过程。其逻辑结构如图三:
图3 决策树逻辑结构图
它集成所需要的基本模型(来自模型库)进行计算,所需要的数据(来自数据库)进行处理,所需要的知识(来自知识库)进行推理,并进行人机对话,通过各部件之间的接口形成有机的、统一的决策支持系统。
采用决策树,可以将数据规则可视化,其输出结果也容易理解。决策树方法精确度比较高,系统构造过程比较快。
(3)回归分析
利用回归分析的方法产生一个将数据项映射到一个实值预测实量的函数,发现变量或属性间的依赖关系。
(4)聚类
识别出一组聚类的规则,将数据分成若干类。主要采用可能性稠密度计算法。
(5)简约
给出一个数据子集,寻求对它的简致描述,可以采用关联规则、可视化技术以及商用图表等来描述。
(6)构造依赖关系
构造一个描述变量之间函数依赖关系或相关关系的模型。
(7)变化和偏差分析
偏差包括很大一类潜在有趣的知识,如反常实例、模式的例外、观测结果对期望的偏离以及变量值随时间的变化等等。
(8)关联规则
关联规则是描述数据库中数据项(属性、变量)之间所存在的(潜在)关系的规则。目前已经从单一概念层次关联规则的发现发展到了多个概念层次的关联规则的发现。这个方法是从一般到具体,一层层逐步深化所发现的知识的过程。
(四)数据采掘工具
数据采掘工具一般分为三大类[6]:
(1)通用单任务类。这类工具主要采用了决策树、神经网络、 基于例子和基于规则的方法,所用的发现任务大多属于归类范畴。在具体应用中,主要用于知识发现的数据采掘步骤,而且需要相当工作量的预处理和后处理。
(2)通用多任务类。 这类工具可以执行多个领域的知识发现任务,一般集成了归类、可视化、聚类和简约等多项发现策略。
(3)面向专门领域类。用于专门领域的知识发现, 这类工具是针对专门领域而开发研制的专用数据采掘系统,具有很强的专业特性。
二 信息服务分析
(一)信息服务的流程
信息服务的目的是要利用广泛的数据库资源,有针对性、目的性地向用户及时提供准确的、翔实的、可靠的数据。在以往的手工检索时代,信息服务常以题录、文摘形式提供给用户信息,速度很慢、效益很低,而且信息数据很难全面地、准确地收集起来,要达到全面准确的收集数据,需要花费很大的人力、物力。随着计算机技术的发展,检索技术有很大的提高,现在不但能进行全文本的任意词检索,而且正向多媒体检索方向发展。智能的检索技术促进了信息服务的发展,在数据检索方面,不但能揭示数据的分布情况,而且还能够通过数据的检索搜寻出数据的规律、趋势,更好地为决策信息服务。这就需要采用数据采掘技术。数据采掘技术能对多维数据库、数据仓库、网络数据进行分析处理,而且能自动发现数据中隐藏的规律,这些正是信息服务的关键所在。
图四、图五是信息服务中利用手工检索和利用采掘技术的流程图。从中可看出采掘技术吸取了手工检索的方法,将手工检索中的整理、提炼、分析等进行了计算机智能处理,并用在处理同时采用与用户提问分析的方式,从而大大提高了检索的可靠性、准确性,有效地排除了手工检索的误检和漏检率高的情况。
(二)数据采掘为信息服务提供了高科技手段
数据库经过三十余年的开发与研究,现已成为相对成熟的计算机软件技术,特别是近几年来,多媒体技术、网络技术的迅猛发展,对数据库也提出了新的挑战,数据采掘技术便是这一形势下成长起来的。
数据采掘对信息服务的重要性是不言而喻的。以往,对文献数据的分析、提炼,二次文献的编汇甚至到科学技术发明创造等一系列活动,也可以说是一种数据采掘的过程,这些无一不是以大量的数据积累,依靠自身力量直接对所搜集的数据进行处理而达到知识再创造的目的。现在,随着计算机技术的广泛应用,尤其是人工智能技术的发展,为信息服务深层次发展提供了高科技手段。
数据采掘在信息服务的运用上也大致可分为两个层次[8]; 验证驱动层次与发现驱动层次。验证驱动层次是利用现有数据库系统的查询、检索、报表与多维数据库统计相结合,进行在线分析处理(OLAP),从而得出可供决策参考的统计分析数据。发现驱动层次则是利用采掘技术从大量的数据记录中发现隐含的、前所未知的知识。这两个层次在信息服务中都起着非常重要的作用。具体的采掘技术和方法在上面已介绍。
(三)信息主管使信息服务水准提高
现在的信息服务不再是一种被动的服务,不再是一种简单的查询、检索,它需要从分散到集成,从零乱到规范,从配角到主角。不论电子商务、企业资源规划、组织重整等,信息技术均起着重要的作用。信息主管(CIO,Chief Information Officer)的地位、作用日渐被认识和接受。CIO是那些拥有技术能力和管理经验等综合才能, 能适应技术的不断更新,并懂得运用技术提高竞争力的管理人才[9]。
CIO是一种“技术+管理”型的综合人才。在信息服务中, 他能将信息处理由服务参考上升到战略决策,能统筹管理人、财、物,能用经济与市场来平衡技术, 实现信息技术与商业利益的无缝集成。 因此,CIO信息主管的形成使信息服务提高到了一种新的服务水准, 信息服务依赖于技术但又超越了技术。
在科技竞争的时代,企业需要的是懂商业、懂流程,知道如何用技术开拓市场、降低成本的信息主管。现在的信息技术决不是花钱买软硬件就够了,企业流程必须同时更改,甚至重新设计。决定成功与否的关键不在软硬件而在顾问。随着企业对信息依赖的日益加深,CIO 在企业中的作用与地位也将随之增强。
(四)信息服务的发展方向
信息服务随着采掘技术的发展而向深度、广度发展。特别是人工智能技术更促进了信息服务的深层次揭示,由简单数据演绎出隐含的知识甚至科学发现,是数据采掘技术的发展方向。信息服务的发展,不再是停留在查询一般问题上,而是一种进行知识创造的过程。从信息中采掘知识,再将知识变成社会财富,这便是信息服务的方向。
数据采掘技术的研究开发,将涉及数据库系统、决策支持系统、人工智能与计算机智能、知识工程、分布式异形处理、多媒体网络技术、计算可视化等多种理论与技术。特别是数据采掘的目标是要从数据库发现隐藏在大量数据中的未知知识,这种知识发现实际又是人工智能所面临的难题之一。所以数据采掘作为一项新兴的高新技术,有许多面临的理论上或技术上的难点,但这项技术已形成一个方兴未艾的国际前沿研究开发的新领域。信息服务有更尖端的数据采掘技术支持,相信将来的信息服务是一种技术的竞争,是一种理论的竞争。
[收稿日期]1999—12—30