国外概念检索实现研究综述_信息检索论文

国外关于概念检索实现方法的研究综述,本文主要内容关键词为:概念论文,国外论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着Internet的迅猛发展,各种信息正在以几何级数的方式增长。这固然可以使用户得到更全面的信息,但同时也使得用户在网上查找所需的信息如同“大海捞针”。目前,网上搜索引擎基本都采用基于关键词匹配的全文检索技术,但由于用户的词语表达准确度和一词多义等现象,很大程度上影响了搜索引擎的查准率和查全率。因此,增强搜索引擎的知识处理能力和理解能力,发展知识化、智能化的搜索引擎,已成为搜索技术未来发展的目标与趋势。

1 概念检索理论依据

概念是关于具有共同属性的一组对象、事件或符号的知识。它可能是具体的,也可能是抽象地刻画、定义一个对象类的特征,通过描述元素表达出来。同一个概念可以用多个抽象元素来表达,这些描述元素在此概念的约束下构成了同义关系,它们在此意义上可以等同起来。

概念检索(Concept-Based Retrieval)就是在检索时将描述元素自动归并为同一概念,因而不仅能检索出包含某个具体词汇的结果,还能检索出包含那些与该词同属一类概念的词汇的结果。也就是说,概念检索利用词条在概念上的相关性,检索出那些并不包含用户指定的词条,却包含其同义词或下位词的文档[1]。

概念检索是人工智能和信息检索相结合的一个方面,是实现智能信息检索的重要方式之一,它突破了机械式匹配局限于表面形式的缺陷,从词所表达的概念意义层次上来认识和处理用户的检索请求,提高了检全率。国外学者都认为概念检索是一种高级的信息检索方式,是传统信息检索技术的继承和发展,符合当前社会用户信息检索的需求。

2 国外关于概念检索实现方法的归类

概念检索的内容主要包括两个方面,即同义词扩展检索和相关概念联想检索,前者能够提高检索的查准率,而后者能够加强系统与人的交互,使其具有一定程度的智能。它的实现方法多种多样,可采用人工智能中的专家系统构造技术,通过创建专家知识库实现特定领域的概念检索;也有基于概念库的搜索引擎,它借助数据字典扩展搜索条件,通过模式的提取和识别抽象化搜索条件与文档之间的关系。

2.1 基于规则的计算机信息检索及其改良方法

由于检索用户知识水平差异和自然语言本身存在的模糊性等限制条件,用户的实际信息需求和他们在查询过程中所使用的关键字和词有很大的差距,而且计算机也很难真正理解用户的实际意图。为弥补这一差距,很多学者提出了建立基于技术的专家系统,这种做法的中心思想是在一个系统中引入基于规则的计算机信息检索(Rule-Based Information Retrieval by Computer),使用生产规则(production rules)获取用户查询的概念或者话题,并用AND/OR树的形式来表达。

2.1.1 基于规则的计算机信息检索(RUBRIC)

在RUBRIC中,用户的查询采用两步自顶向下的概念细化策略[2]。第一步是用一个单一的概念来表达某一特定的需求,第二步的工作是完善初步构想,把初始的概念分解成一系列相关的组成部分,它们可以用一个整体概念来表达,也可以是一个单独的索引词,并用AND/OR树中的逻辑运算符来表示它们之间的关系。第二步的分解过程中,不同层次要采用不同的抽象概念,并且用户根据当前组成部分与查询概念相关度的大小对各个级别的组成部分进行权值的指定。以概念Violent-act的分解为例,见图1。

图1 Violent-act的AND/OR树

2.1.2 RUBRIC的改良方法

基于规则的计算机信息检索是以AND/OR树生成检索结果所需时间,作为查询话题析取范式中连词的指数,但由于AND/OR目标树生成结果较慢,为了优化检索过程Alsaffar等[3]提出用概念层次模块和搜索引擎相互作用来计算检索输出。这种方法包括预处理规则和计算在线查询评估复杂度等。预处理规则可以通过将检索话题的基础规则转换成有明确连接词的析取范式(disjunctive normal form)即最小项集(MTSs)来加快检索进程,如表1、图2。同时,Alsaffar他们也采用实例,证明了当文件中的词语都是采用二进制表达时,用户使用最小项集来选择符合要求的查询话题,检索结果相对于采用AND/OR树方法更为精确。但这种方法要求在最小项集中包含所有的检索词,这对于信息检索系统则提出了一个很高的要求。为了解决这个问题Alsaffar等人又在Salton[4]等人提出的扩展布尔检索模型基础上,将基于P-norm的扩展布尔检索模型纳入到MTSs评估的过程中,用来处理文件权值和查询条件都是非二元的情况,这种方法进一步提高了AND/OR树的检索功能。

针对以上问题,Minkoo等[5]考虑到词语的相关性,在普遍向量空间模型(GVSM)的基础上,提出将GVSM与RUBRIC结合。在GVSM中构建查询向量,但它本身不提供类似RUBRIC的概念查询。GVSM的主要目标就是将布尔代数中的向量元素合并到一个向量空间,在这个映射当中,词语都是用线性的向量集合表示,它们与其他元素的关系是两两正交。在GVSM中Minkoo等[6]又提出了一个系统的方法直接计算词语的相关性,作为自动检索过程的整体部分,换句话说也就是在自动检索过程中,词语的结合是作为一个整体来计算的。同时他们做了一些初步的实验,指出将RUBRIC与GVSM结合得出的结果取决于布尔加权运算符的赋值方式。

Lu Fenghua和Thomas等[7]使用基于概念的信息检索模型,解决用户在互联网上搜索信息时很难运用布尔逻辑运算精确地表达查询意图,并且查询结果没有分类的问题。这里的概念是通过一系列的生产规则(production rules)来定义的,用基于规则树(rule-based tree)来表示。基于布尔检索模型建立的系统虽然易于设计和实现,但是它不能根据用户检索的需求来定义检索词的权值,而且也不能根据用户的有用性评价排列检索结果,这方面的缺陷在互联网时代表现得更为明显。为了解决这方面的问题,他们设计和实现了一个用于概念检索的原型系统CS3,通过递交最小项集产生的概念到现有的搜索引擎,并依据MTSs的重要性对返回的结果重新排列,与现存的布尔检索搜索引擎进行对接,从而提高网络搜索引擎的检索性能。

Minkoo等[8]指出用RUBRIC来缩小用户查询语言与文献中所用标记词汇之间差距,这种方法的检索结果对权值的分配过于敏感。针对这种情况他们开发了一种神经网络模型,可以根据用户的相关反馈对规则中的权值进行调整。

神经网络模型中采用的是基于P-norm的布尔扩展检索方法,它不仅有很好的理论基础并且非常适合映射成为一个神经状网络模型,可称为多层感观。Minkoo等提出的方法与以往的网络模型在两个方面有所不同:①利用权值来处理概念之间的关系和布尔表达;②以往的方法都是推出自己新建的网络模型,将检索问题映射到神经网络主体中,Minkoo他们则是按照检索问题的表征,利用已有的网络模型,根据图1提供的检索词汇,可以构建得出Neural Network Structure。如图3,作者可以利用近似函数(approximation functions),根据用户的反馈对权值进行调整。

图3 神经网络模型

2.1.3 对RUBRIC的评价

使用RUBRIC来缩小用户查询语言与实际信息需求之间的差距,这种方法能够给用户带来方便的同时也存在着一些弊端[9]。

优势:

(1)RUBRIC中用基于规则树即AND/OR树来描述组成部分之间的关系,能帮助用户更准确地表达检索要求。

(2)使用者可以凭借不同的规则根据自己的喜好来构建查询需求,也容易被其他用户理解。

(3)为每个概念计算MTSs,这样就能够通过MTSs使用户从现存的查询课题中找到最适合的检索表达方式,方便用户找到更易于理解的替换概念。

(4)AND/OR树能够被用户和专家共享,专家按照知识库的形式来构造规则树,用户则通过AND/OR树获取概念间以及概念与检索词间的关系。

弊端:

(1)构造AND/OR树来获取用户查询概念的方法很难确定。

(2)检索性能对AND/OR树赋予的权值过于敏感。

(3)在AND/OR树中如果没有明确的表达,布尔加权表达式便会忽略词语间的相关性,用户的查询语言与其真正的检索需求仍然存在差距。

(4)在Retrieval Status Value(RSV)的评估过程中,如果一个文献满足不止一个MTSs,其RSV将是所有MTSs中的最高值。

(5)由于AND/OR树忽略了词语间的相关性,检索文献如果不是在每个它所符合的MTSs中都有索引词,即使缺失的索引词以另外一种方式出现在文献中,RSV的值都将为0。

2.2 构建背景环境

Ian和Cvan[10]指出大量理论证明用户的表达方式取决于背景环境,用户和信息检索系统要在以往经验的基础上进行互动,系统须试图得到一个用户表达其意图的背景环境,来解释用户对于当前搜索的反馈。文中具体讲解了如何建立描述有关信息检索的模型,并且通过这种方式生成的背景不仅能被系统所使用,也便于用户提供对当前检索的反馈情况。

2.3 结合推理假设

Osmar等[11]提出从网上和候选文件中进行概念检索的一种方法——在检索过程中结合假定的前提条件和相关推理,利用自然语言分析、概念提取和面向领域分类等方法指导系统中的推理,以帮助确定哪些文件与查询是语义相关,而不是简单的关键词匹配。

2.4 形式概念分析

Christian[12]提出采用形式概念分析方法,允许快速增量搜索,提供强反馈给用户,并且按照概念确定最初的非结构化组成部分。形式概念分析中的每个部分都是指派任意数量的关键字,然后将组成部分和关键字分组,就可以得到后续检索的相关概念,形成完备的上下位概念网络,它可以为检索用户的查询指定一系列的关键词,用户不仅可以从这些指定的关键词中选择组成部分,还可以从提供重要关键词的列表中选择增量关键词,每个被选择的关键词都可以精化和缩小查询结果集合,直到一个非空的成分子集,也即用户可以具体指定非空集合的组成部分。

2.5 概率扩展查询模型

Qiu Yonggang和Frei[13]在扩展查询的基础上提出了一个基于自动构建相似词库的概率扩展查询模型。相似词库是根据词语之间的相似性构成的一个矩阵,作者利用扩展查询解决选择和附加搜索词的权值问题。与以前的方法相比,概率扩展查询模型增加的是与查询概念相似,而不是简单的与查询词相近的词汇来扩展查询。实验表明,这种方法用回收的精度和效用来衡量,可以提高检索效能大约20-30%,提高的幅度虽然比使用相关反馈信息要少很多,但这种方法的优势是完全自动的,并且在没有可获得的相关信息时,也可以运行信息检索系统。

2.6 基于概念的相关反馈

Chang和Hsu[14]认为利用基于关键词的信息检索模型在网络上检索信息虽然方便有效,但是当用户提供的检索词较少时这种方法就不是很适用了。因为利用传统的搜索技术,当用两三个词进行检索时,大量的文献都被认为是符合查询要求的,这样就检索出了大量的无用信息。为了弥补信息检索环境下基于关键词检索的这个缺点,弄清用户的真实需求,他们提出了一种网络信息检索的基于概念的相关反馈(concept-based relevance feedback for web information retrieval),主要使用文献聚集与扩展查询两种技术,首先运用聚类技术进行查询,然后用概念群组来组织原始文献,这样用户可以在最少的时间内获得查询检索的概况,减少使用简短查询词的浏览工作。

基于概念的信息检索首先将初始结果分组,这样就加快了用户浏览的速度,用户可以利用二分法对相关和不相关的聚簇进行反馈,这种设计对涵盖大量信息的简短查询有明显的效果,它能帮助用户在传统检索方式上,经过两到三次的信息反馈后,对自身的查询需求有更明确的了解,并能够提供更精确的检索词。简单地讲就是,用户首先辨别哪个组是与查询的相关性比较大的,之后再在这个组中进一步查询。作者在此基础上又提出了进一步的查询改进方法:①构建聚簇索引;②消除聚簇界限,搜索结果根据文献的相关性分成相关与不相关两个子集。

2.7 基于概念的检索工具——合作网(the cooperative web)

互联网是一个庞大的文献资源库,然而机器的作用仅限于传输和布局加工,对于文献的内容很难有所涉猎。因此,目前互联网上的信息检索仍然是一个艰巨的任务,许多检索结果相关性很小。语义网就尝试着利用新的技术建立本体与诠释文献的语义,努力实现自动本体架构和语义注解,然而这样的任务需要人密切的管理,并且网站的大小和异质性也阻碍了本体的发展,很难通过网络作一个整体的转变。Daniel等[15]则提出了一种与语义网相对应的方式被称为合作网,它在自由文本自动提取概念的基础上,以自动分类的方式建立一个文件系统,同时他们将用户因素和另一系统因素进行综合,把相关因素分成不同的概况,提取对文本有价值的信息。这种做法将能够从网站上提取语义信息,并提供更好的信息检索机制,扩大了语义网的适用范围。

2.8 其他

Nicola和Claudia[16]提出了利用内核方法的概念检索,内核方法(Kernel methods)是一个高效率的统计学习算法组合,其中包括应用广泛的支持向量机(SVMs)。Peng Dunlu等[17]和Claudio等学者[18]都提出了形式概念分析和概念格技术,前者是用来检索已给网络的最优替换服务,后者则指出形式概念分析的主要优点是不仅能提高检索效率而且能够推动内容挖掘。Tamotsu和Naomasa[19]阐述了使用配置空间机制的概念检索。Bjoern[20]提出了一种新的在网络上获取信息的方式,利用Fooca来进行概念性知识检索,在背景和概念层次上改进网络搜索引擎的结果。Fooca用构成题目的元素、简短描述和URL建立背景和适当的概念层次,其中采用单线图来检索和分析数据可以更好地构建概念层次,先前背景也可以反复探索和提高。Martin和Li Fang[21]提出了一个新的算法即根据概念重新排列网页内容,这种算法利用关联规则、数据挖掘技术从网页中获取概念。初步实验表明与基于超级链接的算法排名相比获取结果有效性更高。

3 结语

综上所述,国外关于概念检索的研究已取得了一定的进展。研究者对概念检索的概念已基本达成共识,概念检索的实现方法也是多种多样,但是大部分方法的应用都处于实验探索初级阶段,需要进一步地完善。概念检索已经引起了大量学者的关注,成为新一代的研究热点。

标签:;  ;  ;  ;  

国外概念检索实现研究综述_信息检索论文
下载Doc文档

猜你喜欢