基于检索相关性转移的本体论检索系统,本文主要内容关键词为:本体论论文,相关性论文,检索系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号 G354文献标识码 A文章编号 1007-7634(2003)02-0194-04
情报检索是情报学中最重要的分支学科之一。可以这样说,情报学理论的深入发展同作为普遍现象的情报检索的深入探讨有着极为密切的联系,尤其是当今基于互联网的信息查寻与检索问题。我们知道,情报检索的实质是用户需求和情报集合之间的匹配比较。在现存的大量检索系统中,它们不是比较用户需求和情报集合的匹配关系,而是比较它们的转化形式,即情报标识集合与用户需求表达式之间的匹配。很显然,这种匹配方式与用户需求同信息集合的匹配有很大的差距,这使得检索结果相关性的判断成为一种必然。本文试图通过相关性的深入分析,以本体论的基本思想建立一种新型检索系统,改变传统检索系统的相关性判断过程,进一步减轻用户使用检索系统进行相应检索时由于相关性判断给用户带来的负担。
1 情报检索的相关性转移
情报检索的相关性探讨是一个亘古的话题。相关是一个多层次、多维度概念。从不同的层次和角度来看,相关表达了不同的内涵。
从情报检索的产生机制可以看到,用户清晰完整的情报表达必然经过下列转换过程:情报客观需求→情报意识→情报主观要求→情报要求的语言表达。通过这一转换过程,模糊、多变的情报需求得以固化,但这一过程是以牺牲用户信息需求的固有模糊性来实现的。情报需求是由决策的对象来决定的,由于用户的知识异常才产生相应的信息需求。由于对决策问题认识的不完全性,因而要用一个准确客观的情报需求量来表达用户决策所需的情报量,即是用一个准确的量来描述一个不准确的量,这本身就是一种近似与模拟。
在上述需求转换的嬗变过程中,用语言表达出来的情报需求和情报的客观需求存在一定程度的差距是必然的。在这个模糊基础上的,表达出来的需求用系统使用的语词系统进行相应概念的规范并组成相应的表达式来进行检索,这进一步使检索的不确定性增加。要判断检索结果对用户情报需求的满足程度,就产生了情报检索过程的相关性问题。对于任何一个以自然语言表达的情报需求用系统语词进行概念分析并用一定规范化的语词所表达出来的情报检索表达式,检索系统给予的响应是完全满足的,如果不满足的话,检索系统不会予以输出(当然有一假定条件,即情报组织是完全的、准确无误的,情报用词是匹配需求概念的,语词的逻辑关系反映了情报需求的实质),即任何一个检索响应肯定满足形式上的相关,这里的形式是指检索用词同相应的逻辑符号组成的逻辑表达式。但这种结果不一定完全满足用自然语言表达出来的情报需求,我们把这种检索结果同主观情报要求的匹配称之为语义相关。语义相关不仅反映了检索结果同主观情报需求的匹配程度,而且反映了检索词表的质量。但检索结果并不是为了仅仅满足主观情报需求,而是为了满足用户的决策需要。我们把检索结果同决策需要所决定的客观情报之间的这种相关称之为语用相关。由前面可知,由决策需求而产生的客观情报需求是一个模糊的、变动的量,因而检索结果同这一模糊、变动的量之间的比较是一个较为复杂的问题。但这一问题恰好是情报检索最本质之所在,也是检索系统应该完成的最为基本的职能。
从上面的分析可知,情报检索的相关的一个复杂的概念。从决策所需客观情报到情报检索式的形成,经历了语用需求到语义需求再到形式需求的转移:从检索结果对用户的满足来说,则经历了形式满足到语义满足再到语用满足的嬗变。这一往复过程使检索的相关性判断变得非常复杂,但不论其复杂程度如何,任一检索结果的相关性判断最终以满足用户的需求为标准是不会发生变化的。上述相关性分析,我们可以用图1来予以表达:
图1 情报检索相关性转移
从图1可以看出,现行多数检索系统仅能够解决形式相关问题,其他的语义相关与语用相关都留给用户来完成,这无形中增加了用户的负担。而且,如果用户发现检索结果同实际决策需求相去甚远的话,只有通过新的需求表达来进行新一次检索,这无疑增加了使用检索系统的时间与费用的支出。为了改变上述状况,我们应寻求其他的技术与理论的帮助,建立新的检索系统,使检索结果直接与语用相关对应。这样的系统更能方便用户的使用,体现用户为中心的原则。下面我们借用本体论的基本思想来尝试建立新的检索系统。
2 基于检索相关性转移的本体论情报检索系统
2.1 本体论概念
本体论是对概念化对象(conceptualization)的明确表示与描述。任何一个概念化对象C可定义为:C={D,W,R},其中D是一个领域,W是该领域相关事物的状态集合,R是领域空间{D,W}上的概念关系集合。从这个定义可以看到,任何一个给出的概念,都可以在相应的领域中确定应有位置,并和其他的相关概念建立语义联系。也就是说,给出的任何一个领域本体论都应该包含该领域中的所有可能术语、术语的定义和术语之间的语义网络关系,同时还应该包含关于同义词的描述。目前很多领域都设计了不同形式化程度的本体论,如WorldNet,CYC,TOVE,Enterprise等。一般来说,形式化程度越高,越有利于计算机的自动化处理。
定义的任何领域的形式化本体论至少有以下两方面的作用:(1)自动分析文档的领域属性。一般来讲,被检索的大多数文档都列出了关键词和内容摘要,将这些信息结合文档主要内容,在本体论知识的协助下,可以判断该文档属于哪个领域,并以此对文档进行分类。经过这一步处理,事实上可以过滤掉不相关领域,得到所有可能与该文档相关的领域。而且,还可以根据近似语义网络相关匹配,使某一领域的相关文档按其相关程度进行排序。这样不仅可以使文档的分类自动进行,使信息的查寻不再是遍历扫描,同时检索所得的结果排序输出,可以大大节省检索的时间开销和加快用户对检索的语用相关性判断。(2)智能化规范和显化用户的查寻信息。由于用户对信息需求认识的模糊性,应该通过一定的手段使模糊的信息需求在检索的初始阶段得以显性化和清晰化。对于用户给出的查寻关键词,在本体论知识的协助下,可以有效地判断其所属的可能领域,然后分别将该领域及其属下的相关概念与定义罗列给用户,用户据此进行相应的选择,一方面通过这一选择过程帮助用户明确其信息需求,把未意识到的、未清晰表达的客观情报需求进一步显性化,另一方面让系统了解用户所关心的领域,为检索过程提供更为精确的信息,有利于在客观上使相关性的判断向语用相关靠近和转移。
2.2本体论情报检索系统的构建
(1)本体论情报检索系统的结构。
利用本体论的基本思想,结合文献[4~8],我们设计了基于本体论的情报检索系统,其基本构成如下:
图2 本体论情报检索系统基本结构
基于本体论的情报检索系统的各组成部分的功能具体描述如下:
①检索界面主体。检索界面主体的主要功能是同用户进行交互。当用户提出检索要求时,界面主体利用本体论来显化和规范用户的检索信息,并将规范后的检索请求提交给检索管理主体;当检索响应完成后,检索界面主体把检索结果返回给用户。
②用户偏好主体。用户偏好主体的主要功能是用来存贮和核查用户信息需求的基本特征和属性。对用户来讲,当其输入的检索请求为检索管理主体接收后,由管理主体把接收的信息提交给偏好主体,查验以前是否有相似的检索请求以及使用的检索本体论领域与检索表达式,如果有,可将该存贮结果返回给检索界面让用户予以甄别;如果没有,则可将相应本体领域的相关概念罗列给用户,使其在本体知识库的支持下完成信息需求的最大限度的表达,同时在用户偏好主体数据库中对这一新的偏好需求予以记录。这样,对于每一个使用该系统的用户的偏好需求和最终拟定的检索表达式都存贮在用户偏好主体中,形成用户检索过程的历史记录和相似于后控词表的检索机制。
③检索管理主体。检索管理主体是整个检索系统的核心和控制中心,在整个检索过程中是联系和沟通其他主体的枢纽,负责协调整个情报检索与获取过程。
④情报重组主体。情报重组主体的主要功能是对未进行本体论组织和处理的信息按照本体论的要求进行重新组织。它既包括对本地数据库按本体论进行重组,也包括对通过移动搜索主体获得的远程数据按本体论进行重组,使整个检索过程都置于相同规则的控制之下,并且把检索结果按统一的格式予以输出。
⑤移动搜索主体。移动搜索主体的主要功能是扩展本体论情报检索系统的搜索范围,使远程相关数据亦置于本检索系统的控制之下。在实际检索过程中,当用户发出检索请求后,管理主体通过本体论分析确定用户需求后,一方面从经过情报重组主体重组过的本地数据库获取所需信息,另一方面要求移动搜索主体到远程相关数据库搜索相关信息以满足用户的信息需求。
(2)本体论情报系统的运行机制。
从上面系统的基本组成分析可以看到,基于本体论的检索系统的运行机制主要包括两方面的内容:一方面是根据信息用户提交的信息需求进行相应的检索过程;另一方面是对检索结果的获取过程。
①情报检索过程。情报检索过程主要包括两部分:一是用户提交检索请求;另一个是检索信息。用户提交检索请求是指检索系统根据用户检索需求创建一个适合用户需要的个性化界面,并引导用户在本体论的指导下完成检索式的构建。这一过程是在本体论的强大的信息导引能力基础上来完成的。其基本程序是:A.用户提交检索请求,即用户以一定形式的语言来表达自己的情报需求;B.检索界面主体提供特定界面与用户进行交互,根据用户提供的检索请求,系统依据本体论知识库,罗列出相关本体的域及相应关键字的含义,并同用户偏好库进行匹配比较确定是新检索课题还是已存在的检索课题,并把相应结果返回给检索管理主体;C.用户根据反馈提供的域集和关键字含义集选择适合信息需求的域和含义,并在本体论强大的信息导引能力下明确和显化用户的信息需求,最大限度地完成形式需求向语用需求的转移;D.检索界面主体根据用户选择的域与含义用本体论加以规范后提交给检索管理主体。然后进入检索信息阶段。检索管理主体接收到界面主体提供的信息后,一方面通知情报重组主体进行本地数据库的检索,把检索到的索引或文摘返回检索界面主体;另一方面要求移动搜索主体到远程相关数据库进行搜索,将检索的结果以索引或文摘的形式交给界面主体带回,供用户查看并选择。
在上述检索过程中,对于任何一个实时的远程搜索过程,其时间的开销都是非常大的。为了减少用户费用。在移动搜索主体中可采用智能化的适应学习方式。即检索管理主体在系统服务较少时,整理统计用户偏好主体数据库的内容,把各个用户关心的信息或大多数用户关心的信息提交给移动搜索主体,由移动搜索主体在网络闲暇时进行信息查寻,把相关信息带回交给情报重组主体,由重组主体按系统本体论的要求进行领域确认与划分、格式统一并按重要程度进行排序,并把相应结果存贮在本地数据库中。
②情报获取过程。用户通过对返回界面主体的文摘或索引进行评价与鉴别,从中选取适合自己需求的信息,然后再将选择的结果提交给界面主体,请求界面主体提供相应文档。界面主体再通过检索管理主体从主文库里提取完整文档。由于远程数据在本地只以索引或文摘形式存在,因而还应通知移动搜索主体到远程数据库提取相应的完整信息返回本地数据库,供用户提取使用。
3 结束语
从上面的过程可以看到,基于检索相关性转移的本体论检索系统同传统的检索系统相比较具有以下特点:
(1)本系统是一个智能化的检索系统,它利用本体论对本地数据库资源和远程数据库资源进行领域分类,并用同一方式规范用户检索提问,同时在检索初始阶段由于用户的大量介入,使整个检索过程在概念的理解和满足用户决策需要的匹配上一致性较高。
(2)本系统的检索结果相关性判断是一种语用相关的判断,使检索结果直接满足用户的信息需求,可以有效减少用户在语用信息甄别上时间消耗与精力支出。
(3)本系统能最大限度地节省用户的检索负担。首先通过本体论将信息进行分类并只给用户提供其所关心的领域信息;远程数据库信息通过提供的文摘或索引,只有当用户确定为所需文档才进行整体下载,可节省网络使用费用;用户偏好主体可以使检索历史成为一种可资利用的资源,节省用户对相似问题进行检索的时间支出;用户不必熟悉系统使用的词表的特性,不必对检索要求写出构造精妙的检索表达式,也不必了解系统的运行机制,可以最大限度地减轻用户学习使用系统的负担。
(4)情报重组主体可将不同格式的文档转化为统一的文本格式,使网络环境下各种异构文档都能为本系统所使用,扩大了本系统可支配信息资源,可较大程度地吸引用户对该系统的使用。
当然本系统还存在着一些不足,如用户偏好的准确提取,对文档基于本体论的域分析,界面主体对不同用户的特殊性的满足等。这些问题是我们以后进一步研究的方向。
标签:数据检索论文;