信息检索技术研究与实践,本文主要内容关键词为:技术研究论文,信息检索论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
信息检索领域所涉及的范围很广,包括信息的表示、存储、组织和获取。网上信息具有数量大、形式多、内容广、专业性不强等特点,给信息搜集、分类、检索等工作带来了新的问题和挑战。如何充分利用网上的信息资源正在成为信息科学研究者所关注的热点。信息检索技术就是根据互联网信息的特点而发展起来的一种检索方式。
1 信息检索技术概述
信息检索技术主要研究信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到网络化、智能化检索等多个发展阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新更快、分布广泛、管理松散的WEB内容。[1]信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。[2]信息检索系统应该为用户提供一个非常简单的方法来访问他所关心的信息。为了查询到自己感兴趣的信息,用户必须将信息需求转化成一个查询式,这个查询式是可以被信息检索系统所识别的。在当前的大多数系统中,这个查询式是由一组关键字所组成。检索系统根据这些关键词从大量的数据库中获取用户感兴趣的信息,并组织成用户便于使用的方式返回给用户,这就是信息检索系统的工作原理。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。
2 搜索引擎中存在的问题
虽然现有的搜索引擎在一定程度上缓解了人们在浩瀚的INTERNET信息海洋中获取信息困难的问题,能够为用户查找到一定的有用的资源。但相对于整个INTERNET来说是极不全面的,其在资源覆盖率、检索精度以及检索结果可视化、可维护等诸多方面,效果还远远不能够令人满意。总的来说,当前的搜索引擎主要有以下几方面的不足:
(1)服务的个性化能力太差。由于不同用户的兴趣爱好各不相同,即使是对同一个查询关键词,不同用户的查询侧重点也可能不尽相同。而现有的搜索引擎对所有用户都是一种模式,查询相同的关键词,得到的结果是完全一样,不参考用户的背景知识、兴趣特征,不具有对单个用户的浏览模式和浏览行为进行分析的功能,因而不具有提取用户兴趣的能力,也不具有适应用户兴趣变化的能力。
(2)返回结果的显示方式过于简单。现有的搜索引擎对于用户提交的每一个查询请求,返回的检索结果中一般只有简单的包含文档的URL在及标题、摘要等少量附加信息。用户要在众多的检索结果中找到自己所需要的信息,必须逐个进行浏览,这是一项极其费时费力的工作,这就是所谓的“信息过载(Information Upload)”。
(3)用户与系统的交互较为简单,没有考虑用户的反馈,并不是所有的用户一开始都有一个较为明确的查询目标。
(4)没有有效的适应信息源变化的机制。由于INTERNET的开放性及其动态新的信息在不断增加,旧的信息也在不断更新变化,而现有的搜索引擎对其索引数据库的更新和维护都难以跟上信息源的变化,死链接或不可得到的网页链接经常出现在检索结果列表中。
(5)机器无法理解当前WEB数据所表达的含义,不利于WEB信息的查询。当前WEB通信及数据交换标准为HTML格式。HTML表达的信息是面向人类的,它使用元素标记来标识有限的文档结构,在WEB浏览器中规范内容的显示效果,向人们显示信息如文本、图像,许多功能的实现必须借助于插件和专用浏览器,而且这些工具并不能完全控制文档的结构,对多种格式数据的描述并没有统一标准,因而WEB上大多数据是非结构化、半结构化数据,使得机器自动化处理WEB数据的能力较差。针对这种情况,在SGML的基础上,W3C又发布了一个简单、灵活的WEB技术规范XML——一种高度结构化的语言,为WEB数据通信和交换提供了统一的格式,在数据的通信和交换过程中,实现了数据和显示的分离。但是XML只是表示了信息标签的含义,并没有表达信息本身的含义,它只是进一步提高了机器自动化处理WEB信息的能力,仍不能满足WEB上多个用户或团体大范围的信息共享。
(6)传统的信息检索技术以关键字符匹配为基础,参与匹配的是字符的外在形式,而不是它们所表达的概念语义,所以经常出现检索不全、答非所问的结果,降低了同义词、多义词间查询的精确度。
针对信息检索的不足,专家学者开始研究智能信息检索技术。智能信息检索是把人工智能的技术与方法引入到信息检索系统,使信息检索具有智能特征,在更高的层次上完成其功能。智能化信息检索的目的是使信息检索系统“理解”文件包含的信息内容和用户的信息需要,使用户获得更精确、更丰富的信息。
3 智能信息检索的概念及特点
针对传统信息检索系统的种种缺陷,智能信息检索得以快速发展,但是仍然处于不成熟研究阶段。理想的智能信息检索应该达到如下目标:提供友好的用户检索交互界面;基于自然语言或者实例的查询;依据用户浏览和检索的习惯信息,熟悉用户的兴趣爱好,建立一定的用户描述,主动向用户提供用户的信息;针对用户查询请求自动向用户提供相关文档页面,不需用户重复发现知识;综合利用个性化检索和集中浏览的优势;检索速度快,能够快速地返回查询结果;高查全率和高查准率。
智能信息检索可以代替人来完成繁杂的信息收集、过滤、聚类等任务,它在对内容的分析理解、内容表达、知识学习、推理机制,决策等基础上实现检索的智能化。具体地说,智能信息检索具有如下特点:
(1)智能信息检索是建立在大规模的知识库基础之上的,能够处理自然语言文本。它利用知识库的有关知识进行语法、语义分析,从内容上真正理解并准确描述文献所论述的主题。
(2)智能信息检索可以在知识库中使用语义网络、框架等各种知识表示方法来充分体现各主题概念和标识之间的分、属、交叉的复杂关系。
(3)智能信息检索系统能理解、分析用户的自然语言提问,检索过程中用户和计算机之间可以不断地进行自由、充分、多方面的反馈交流,具有较高的人机交互水平。
(4)智能信息检索系统中的检索结果是用户可以直接加以利用的信息,而且系统可以将部分文献内容以知识形态存放于目标知识库中,通过对知识库的搜索和推理,得出用户能够直接加以利用的信息。
(5)智能信息检索系统的智能特性还体现在提问模型的形成过程中,即由用户对问题的描述,系统可借助于知识库里的有关知识,推断出用户的真正需求,产生合适的提问模型。
4 智能信息检索系统框架
智能信息检索系统一般由知识库、文本处理和智能接口三部分组成。图1是智能信息检索系统的框架图。知识库是智能检索的核心,它又由知识库系统、数据库系统和检索推理系统三个子系统构成;文本处理系统就是利用计算机自动处理自然语言形式的文本输入,它利用知识库中的语言学知识、科学知识和其他知识,对文本进行语法、语义分析界定,从内容上理解文献所论述的主题,并把它们表示成知识库中的知识单元和数据库中的数据元素,不断的丰富知识库和数据库;智能接口部分:智能接口是用户与系统之间的通道,主要功能是对自然语言进行查询和处理,并作为智能终端建立用户兴趣档案,加工提取结果。智能信息检索系统采用客户—服务器模型,由用户接口、领域知识库、查询扩展、检索引擎、用户相关反馈等模块组成。
图1 智能信息检索系统的框架图
5 基于本体的智能信息检索方法
智能信息检索的实现可采用不同的方法,这些方法主要有统计方法、文本分析方法、知识表示和处理的方法、基于自然语言处理的方法、语料库方法等。本文主要论述基于本体的智能信息检索方法。
5.1 领域本体建模
在领域本体的构建中要考虑系统的清晰性(Clarity)、一致性(Coherence)、可扩展性(Extendibility)、编码偏好程度最小(Minimal Encoding Bias)、本体约定最小(Minimal Ontology Commitment)等方面。领域本体(Domain ontology),是专业性的本体,提供了某个专业学科领域中概念的词表以及概念间的关系,或在该领域里占主导地位的理论。本文在构建智能信息检索系统本体知识库的过程中,通过借鉴其他本体的建立模式,提出了一种新的领域本体建模方法,该方法具有很强的逻辑性和可操作性。其基本流程可以用下图2来表示。
图2 构建领域本体的知识工程方法流程
这种方法在现有本体的基础上给出了一些新的见解。基本构建流程符合人类的思维认知,逻辑性比较强,具有很强的可操作性和可拓展性。
(1)确定本体的领域和范围。明确要构建的本体将覆盖的专业领域、应用目的、作用以及它的系统开发、维护和应用对象,这些在领域本体的建立过程中有很大的关系,所以应该在开发本体前注意。对于特定的专业领域的一些特殊的表达法和特定的详细内容的注释应当明确。
(2)列举领域中重要概念术语。尽可能列举出系统想要陈述的或要向用户解释的所有概念。这上面的概念和术语是需要声明或解释的,而不必在意所要表达的概念之间的意思是否重叠,也不要考虑这些概念到底用何种方式(类、属性或实例)来表达。
(3)建立本体。虽然列举了领域中大量的概念,但却是一张毫无组织结构的词汇表,这时需要按照一定的逻辑规则把它们进行分组,形成不同的工作领域,在同一工作领域的概念,其相关性应该比较强。另外,对其中的每一个概念的重要性要进行评估,选出关键性术语,摒弃那些不必要或者超出领域范围的概念,尽可能准确而精简地表达出领域的知识,从而形成一个领域知识的框架体系,得到领域本体的框架结构。在本体框架建立过程中,有两个辅助步骤必须考虑:设计元本体和重用现有本体。
(4)定义领域中概念及概念之间的关系。在建立起的本体框架中,概念需要被精确定义,尽可能准确而精简地表达出领域的知识。除了概念,还要定义概念之间的关系。这些关系不仅涉及同工作领域的概念,不同工作领域的概念也可以相关,只是这些关系总是属于某一个工作领域。在创建的概念中,很大部分属于类,对类及其层次、类的属性、属性值等要重点定义并创建类中的实例。
(5)领域本体编码、形式化。选用合适的本体描述语言对上述建立的领域本体进行编码、形式化。本体模型的形式化可以提供比自然语言更严格的格式,可以增强机器的可读性,进行自动翻译以及交换,便于本体模型自动进行逻辑推理及检验。
5.2 本体知识库表示
领域本体的建模、形式化表示以及对信息资源的语义描述是整个基于本体的智能化信息检索系统的基石,它属于知识库系统的开发。构造领域知识本体的起点在于首先通过对领域知识的系统整理,确定出智能应用所需要的核心概念以及这些概念之间的关系,进而确定概念的实例和公理等,模型完成后,采用一种机器可读的文法(XML)和机器合一理解的描述框架(RDF)将模型序列化以方便存储、传输和应用程序处理。
建立本体的目的是为了便于人们进行信息检索,提高信息检索时的效率。对知识库而言,其内部存储的知识要满足“事实—概念—规则”的表示体系。整个本体知识库由四个层次组成:知识模型层、模型子层、基本信息层和关联信息层。其中,知识模型层针对相应的知识模型本身的组成信息,即知识模型的根元素,进行高度概括性描述,主要由相关的索引信息组成,如指明知识模型的索引、对应相关模型子层的索引信息等;对于不同的知识模型,根据需要分为不同的模型子层,它们存储了基本信息层的索引信息,通过这些索引信息可以方便地找到相应的基本信息(事实或概念等);基本信息层包含了对知识原子的定义,如事实、概念、属性以及概念之间的关系等信息;关联信息层主要存储了不同模型之间的关联信息,如不同概念、关系之间的引用、参考等约束信息。
由于目前软件开发领域在建模时,通常采用UML等面向对象的软件建模和开发工具,因此,构造领域模型可以借助一些现有的面向对象的建模工具如Rational Rose,以一种面向对象的风格来设计领域知识本体。设计完成后,通过XML映射成所需要的知识本体语言,这种方式可以大大减少开发知识本体的难度,但这种方法的缺点是目前还不支持对知识本体开发过程中的一致性检查。
5 结束语
在多数情况下,用户很难简单地用关键词或关键词串来忠实地表达他所真正需要检索的内容,表达困难导致检索困难。另外,人类的自然语言中,对同一概念的检索,不同的用户可能使用不同的关键词来查询。这两个问题造成的直接结果是返回大量的无关信息,用户必须从结果中进行筛选。造成上述检索结果原因的实质在于传统的搜索对要检索的信息仅仅采用机械的关键词来实现,缺乏知识处理能力和理解能力,也就是说搜索引擎无法处理在用户看来非常简单的常识,更不能处理随用户不同变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。人们强烈呼唤新一代的智能检索技术的出现,因此,结合人工智能技术的网络搜索引擎给人们描绘了一个非常美妙的网络新世界,把信息检索从目前基于关键词层面提高到基于知识(或概念)层面,这是解决问题的根本和关键。
收稿日期:2007-12-27