数据挖掘技术与用户知识获取,本文主要内容关键词为:数据挖掘论文,知识论文,用户论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 数据挖掘技术概述
随着信息技术的迅速发展,数据库的规模不断扩大,从而产生了大量的数据。为给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(Knowledge Discovery in Database)中的重要技术,它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。
2 数据挖掘的常用技术
机器学习、数理统计等方法是数据挖掘进行知识学习的重要方法。数据挖掘算法的好坏将直接影响到所发现知识的好坏,目前对数据挖掘的研究也主要集中在算法及其应用方面。统计方法应用于数据挖掘主要是进行数据评估;机器学习是人工智能的另一个分支,也称为归纳推理,它通过学习训练数据集,发现模型的参数,并找出数据中隐含的规则。其中关联分析法、人工神经元网络、决策树和遗传算法在数据挖掘中的应用很广泛。
1)关联分析法。从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能将一组数据项和另一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。关联分析法直观、易理解,但对于关联度不高或相关性复杂的情况不太有效。
2)人工神经元网络(ANN),是数据挖掘中应用最广泛的技术。神经网络的数据挖掘方法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明性,因为其无法解释结果是如何产生的,及其在推理过程中所用的规则。神经元网络适合于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。
3)决策树(DT)是一种树型结构的预测模型,其中树的非终端节点表示属性,叶节点表示所属的不同类别。根据训练数据集中数据的不同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适于对记录分类或结果的预测,尤其适用于当目标是生成易理解、可翻译成SQL或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是CART(回归决策树)方法。
4)遗传算法(GA)是一种基于生物进化理论的优化技术。其基本观点是“适者生存”原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。
3 数据挖掘技术在用户知识获取中的应用
网络的发展为用户提供了多种新的信息服务,因特网以其丰富的内容、强大的功能以及简单的操作,在各种信息服务方式中脱颖而出,成为未来信息服务的主要方向。但当前因特网信息服务中更多的是单向、被动的服务模式,而网上用户信息需求的挖掘,可以改进因特网与用户的交互,使因特网与用户真正融为一体,不再是操作与被操作的关系。数据挖掘技术的应用,使因特网能根据用户的需求采取更主动、更有针对性的服务。并且可以建立一种个性化的信息服务系统,针对不同用户的信息需求,提供不同的信息服务。而个性化服务系统的建立,则依赖于用户信息需求的挖掘。
3.1 用户知识概述
用户知识包括用户的身份、目标、兴趣、系统经验和用户背景知识等。它可通过用户模型来描述,用户模型可以模型化用户的特点、背景知识和经验,使用特定知识获取方法识别和描述用户的各种特征。用户模型可提高人机交互能力,解释和评价系统的执行,使系统发挥主动作用;改进整个系统的执行性能,如帮助识别用户的信息需求;增强系统的灵活性,适用于各类用户。
3.2 用户知识获取方法
用户知识获取有3种基本方式:通过观察获取信息,即观察用户与系统交互中的行为、使用的系统命令和参数;从观察到的事实进行推理,获得未知的信息;从已知实例集合,执行基于实例的推理,激发原型库中的模型,推导出当前用户的初始模型。随着数据挖掘技术的应用,有以下几种常用的知识获取方法。
3.2.1 用户知识的关联分析 对用户数据的挖掘有两方面的内容:一是如何提取用户的信息需求;二是获得用户需求的数据后,如何利用数据挖掘技术对这些数据进行处理,以获取潜在知识及为用户所用。关联分析法的一个主要应用是在零售业,比如在超级市场的销售管理中,条码技术的发展使得数据的收集变得更容易、更快捷,从而存储了大量交易资料。关联规则就是辨别在这些交易项目之间是否存在某种关联关系。例如:关联规则可以表示“购买了项目A和B的顾客中有95%的人又购买了C和D”。这种关联规则提供的信息可以用作商品销售目录设计、商场布置、生产安排,进行有针对性的市场营销。在搜索页面的设计中也可运用用户的点击率、内容及相关页面,了解用户的偏好和习惯,并用关联分析的方法来获取潜在用户知识,这有助于决定搜索页面的设计和相关知识的链接。
3.2.2 组合分析法 由于用户的兴趣是时常变化的,用户行为信息所反映的用户信息需求往往是多条线索混合在一起,这给识别信息需求带来了很大的困难。这种问题的解决,一般需要预先指定一个主题,但这就增加了用户的负担,而且仅用关联法也很难全面获得用户相关信息。人工神经元网络和决策树的方法结合起来能较好地从相关性不强的多变量中选出重要的变量,并从中分析出用户的需求偏好,服务器可根据用户的需求偏好进行主动信息推荐。
3.2.3 分类填表法 用户知识可以由用户主动填写表格来获取,用户设定信息需求可以通过设定关键词或主题词来完成。分类填表法可将用户的信息需求较客观地表达出来。表格的设计可以采用预先分类的方法,将用户的记录分配到已定义好的类中去,从而构造出用户信息的分类模型,利用此模型可将用户数据库中的数据映射到相应的子集中,进行数据预测。这是一种简单实用的方法,但不足之处是难以制作一个完整的分类调查表,将用户的真实意图全部表达出来。
3.2.4 智能代理方法 现在常用的浏览器中,有一个历史菜单栏,当用户在地址栏中输入网址进行浏览时,系统会自动将这个网址记录下来,作为上网的历史记录存放在系统中,方便用户以后使用。这些浏览历史反映了一定时期内用户在网上的信息利用情况,是用于分析用户的信息偏好,确定用户信息需求的一个很好的依据。
利用智能代理(Intelligent Agent)监视用户信息查询过程,是自动获取用户信息需求的一种方法。其方法是在用户的终端上运行一个监视的信息代理(Information Agent),信息代理将用户和浏览时的相关信息不断传送给远端的服务器,服务器将信息进行数据取样和数据调整,利用强大的搜索能力和遗传算法反复学习找到最优解,使得用户信息的提取更加量化,问题更加明确。利用用户在浏览器上存储的书签(Bookmark)获得用户信息需求的方法属于“监视用户”类。在Bookmark中存储的信息往往是用户最关心的,需要记录下来以便以后再读。用户还可以对Bookmark进行多级目录管理,不同的目录反映其不同的兴趣。相对浏览历史记录而言,Bookmark对考查用户的信息需求更有价值。如果说浏览历史只是一种对上网情况的“自然”记录的话,那么Bookmark却是用户对历史记录进行比较、筛选后的结果,是用户眼中的网址精华,因而能更有效、更准确地反映用户的需求,而且它的组织性要比浏览历史好得多,更便于进行有效的分析。Bookmark系统采用HTTP协议实现信息的自动搜集。系统通过监测用户信息记录获得信息需求,信息分类器对搜索来的信息进行自动分类,装入信息数据库;信息过滤器根据用户提出的信息推荐请求,对数据库中的信息进行过滤并将合适的信息提交给用户;信息评价器根据用户对推荐信息作出的评价对系统进行优化。运行结果表明Bookmark系统具有良好的信息记录、推荐和共享功能。
4 结束语
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。