文本挖掘及其在信息检索中的应用_自然语言处理论文

文本挖掘及其在信息检索中的应用,本文主要内容关键词为:信息检索论文,文本论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

文本是信息最常见的表现形式。统计表明,一个组织80%的信息是以文本的形式存放的,包括WEB页面、技术文档、电子邮件等。如何从庞大的文本信息中获取人们所感兴趣和需要的信息,己成为智能信息处理领域的热点问题。由于整个文本集合并非结构化数据,处理数量巨大的文本变得非常困难。人们迫切需要能够从大量文本集合中快速、有效地发现信息资源和知识。在这样的需求驱动下,文本挖掘技术应运而生,它的目标就是帮助用户在日益增多的文本信息中自动发现新的概念,并自动分析它们之间的关系,使之能够真正做到信息处理的自动化。

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。文本挖掘是一个多学科混杂的领域,涵盖了多种技术。

随着互联网信息的爆炸式增长,用户可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。结构挖掘、内容挖掘、使用挖掘成为WEB挖掘的三个重要组成部分。广义的文本挖掘涵盖了分析和挖掘网页等相关的数据,包括文本、链接结构和访问统计等。

1 文本挖掘系统结构与技术

文本挖掘是一种智能化的工具。它能够使人们免于陷入信息的汪洋之中,从大量冗余的信息中迅速发现对自己有用的信息,同时,还在一定程度上揭示信息与信息之间的关联,产生出用户以前未曾意识到的有用信息。而传统的信息检索软件所查询的信息可能仅仅从字面上符合查询要求,并不是人们真正需要的信息。文本挖掘技术能够根据用户的实际需要挖掘相关联、有价值、以及用户以前未曾注意的有用信息。

一个文本挖掘系统通常包含以下四个过程,如图1所示。

图1 文本挖掘系统一般流程

(1)文本数据预处理过程。对文本进行预处理操作、抽取代表其特征的元数据。这些特征可以用结构化的形式保存,作为文档的中间表示形式。

(2)文本数据的知识发现过程。利用不同层次的文本模式可获得反映事物的共性或本质的规律。通过模式操作来形成文本分类挖掘、聚类挖掘、相似发现等算法以发现事物内在的本质或规律。

(3)文本模式的评价过程。文本模式的评价方法将构造特定的评价指标,该指标的选择应该符合评价的主客观标准。

(4)文本模式的解释与呈现过程。文本挖掘系统最终挖掘出来的模式能够用可视化的方式进行展示和发布,同时对用户提供概念导航机制的功能。

1.1 文本数据预处理过程

文本挖掘是从数据挖掘发展而来,但并不意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘,还需要做很多准备工作。文本挖掘的准备工作由文本收集、文本分析和特征选取三个步骤组成。

(1)文本采集:需要挖掘的文本数据可能具有不同的类型,且分散在很多地方。需要寻找和检索那些所有被认为可能与当前工作相关的文本。一般地,系统用户都可以定义文本集,但是仍需要一个用来过滤相关文本的系统。

(2)文本分析:与数据库中的结构化数据相比,文本具有有限的结构,或者根本就没有结构;此外文档的内容是人类所使用的自然语言,计算机很难处理其语义。文本数据源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上,需要对文本进行分析,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。其目的在于从文本中扫描并抽取所需要的事实。

(3)特征选取:使用以上文档表示法时,表示文档的特征向量会达到数10万维的大小。如此高维的特征对将进行的分类机器学习未必是重要有益的,而且高维的特征可能会大大增加机器的学习时间而仅产生与小得多的特征子集相近的学习分类结果,因此文本特征至关重要。特征选取一般是构造一个评价函数,对特征集中的每个特征进行独立的评估,这样,每个特征都获得一个评估分值,然后对所有的特征按照其评估分值的大小进行排序,选取预定数目的特征子集。选取多少个最佳特征以及采用什么评价函数都需要针对具体问题通过实验来决定。通过特征选取,就可以得到代表文档集合的有效的、精简的特征子集,在此基础上可以开展各种文档挖掘工作。

1.2 文本数据的知识发现过程

经数据预处理之后,可以开展数据文本挖掘工作。从目前文本挖掘技术的研究和应用状况来看,从语义的角度来实现文本挖掘的还很少,目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。

文档聚类:首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。

文本挖掘中的聚类可用于:提供大规模文档集内容的总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。

聚类方法通常有:层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法、基于概念的文本聚类等。

文档分类:分类和聚类的区别在于:分类是基于已有的分类体系表的,而聚类则没有分类表,只是基于文档之间的相似度。由于分类体系表一般比较准确、科学地反映了某一个领域的划分情况,所以在信息系统中使用分类的方法,能够让用户通过一个等级分类体系来找到自己需要的信息,达到发现知识的目的,这对于用户刚开始接触一个领域想了解其中的情况,或者用户不能够准确地表达自己的信息需求时特别有用。传统搜索引擎中目录式搜索引擎属于分类的范畴,但是许多目录式搜索引擎都采用人工分类的方法,不仅工作量巨大,而且准确度不高,大大限制了其作用的发挥。

另外,用户在检索时往往能得到成千上万篇文档,这让他们在决定哪些是与自己需求相关的信息时会遇到麻烦,如果系统能够将检索结果分门别类地呈现给用户,则显然会减少用户分析检索结果的工作量,这是自动分类的另一个重要应用。

文档自动分类一般采用统计方法或机器学习来实现。常用的方法有:简单贝叶斯分类法,矩阵变换法、K-最近邻参照分类算法以及支持向量机分类方法等。

1.3 文本模式的评价过程

文本挖掘过程一个重要环节是挖掘模型的评估,通过评估可以改进文本挖掘的知识发现过程。所以评估文本挖掘系统是至关重要的,一般评估办法和标准有:

分类正确率:通过计算文本样本与待分类文本的概率来得出分类正确率。

查准率:查准率是指正确分类的对象所占对象集的大小。

查全率:查全率是指集合中所含指定类别的对象数占实际目标类中对象数的比例。

支持度:支持度表示规则的频度。

置信度:置信度表示规则的强度。

1.4 文本模式的解释与呈现过程

互联网上的文本信息、机构内部的文档及数据库的内容都在成指数级的速度增长,用户在检索信息的时候,可以得到成千上万篇的返回结果,其中许多是与其信息需求无关或关系不大的,如果要剔除这些文档,则必须阅读完全文,这要求用户付出很多劳动,而且效果不好。

文本呈现的一个重要技术是自动文摘。它能够生成简短的关于文档内容的指示性信息,将文档的主要内容呈现给用户,以决定是否要阅读文档的原文,这样能够节省大量的浏览时间。简单地说自动文摘就是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。

自动文摘具有以下特点:(1)自动文摘应能将原文的主题思想或中心内容自动提取出来。(2)文摘应具有概况性、客观性、可理解性和可读性。(3)可适用于任意领域。

按照生成文摘的句子来源,自动文摘方法可以分成两类,一类是完全使用原文中的句子来生成文摘,另一类是可以自动生成句子来表达文档的内容。后者的功能更强大,但在实现的时候,自动生成句子是一个比较复杂的问题,经常出现产生的新句子不能被理解的情况,因此目前大多用的是抽取生成法。

2 文本挖掘技术在信息检索系统中的应用

基于内容检索:由于仅用几个关键词难以充分描述具有丰富内涵的信息,而且关键词的选取也有很大的主观性,文本挖掘技术采用区别于传统检索手段的基于内容检索技术。尽管目前基于内容检索技术还很初级,只能利用一些相对简单的特征来进行检索,但随着研究的深入,必将可以从文本信息抽取一些更为详细的、经过特殊加工的特征信息,大大提高检索的全面性和准确性。

信息智能代理:主要为在分布式信息网络环境下的信息的查询服务,信息智能代理使用户可以不知道所要检索信息的具体形式,存储于何处,何种介质中,只需要用户提出查找要求即可。文本挖掘技术会自动把各种信息源中各种形式的相关信息检索出来,供用户使用。使用户可以立即获得较为满意的检索结果。

信息过滤:根据用户需要,通过对多个不同信息集之间的比较,进行信息过滤,产生适量的、合乎用户需求的信息。

文本信息文摘:用包括题目和具有代表性关键词(字),进行抽取、计算和表达,自动选择重要的句子,产生文本信息摘要。

信息表现:信息挖掘技术关心的是信息的方方面面,从多角度表现信息的本质和特征,文本挖掘技术能动态地、实时在线地表现信息的相关属性,使用户及时发现信息,及时更新信息和及时地发现信息的演变方向。

从上面所叙述的内容可以看出,传统的信息检索系统,通常是用户从信息库中找他想要的信息,而应用文本挖掘技术则可以智能地从信息库中检索出符合用户需求的信息。

3 结束语

随着WEB数据的迅速增长,文本挖掘技术在WEB检索信息中得到成功应用。例如:在搜索引擎上对文档进行自动分类。在此基础上人们利用数据挖掘技术自动生成便于用户使用的网页分类系统,从而大大降低组织整理文档耗费的人力资源;帮助寻找用户感兴趣的新闻或其他信息;对用户的检索结果实现更友好的人机接口,以一种超链接组织的层次方式提交给用户,防止无关信息。

利用文本挖掘技术处理大量的文本数据,无疑将给企业带来巨大的商业价值。因此,目前对于文本挖掘的需求非常强烈,文本挖掘技术应用前景广阔。

收稿日期:2004-08-11

标签:;  ;  ;  ;  ;  

文本挖掘及其在信息检索中的应用_自然语言处理论文
下载Doc文档

猜你喜欢