知识检索研究,本文主要内容关键词为:知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
目前数字资源的组织依旧停留在信息层面上。由信息组织机制直接引发的信息检索的弊端是显而易见的,基于关键词匹配的信息检索技术无法达到对知识的检索与利用。尽管一些数字资源检索系统引入了主题词典或概念词典,但其描述知识的能力非常有限。由此导致的结果是,众多的数字资源系统依然是异构、多源和分布的,数量巨大的数字资源与人们有效接收能力之间的矛盾不仅没有缓解反而日益突出。为此,创新信息检索理论方法与技术,从信息检索走向知识检索势在必行。本文从知识检索概念、知识检索基础、知识检索模型、知识检索的呈现和知识检索系统几方面,对知识检索作一个初步的梳理。
1 知识检索概念
知识检索是为了适应知识组织的发展趋势,以解决信息检索机制检索效率低下的弊端而提出的一种新的检索理念。知识检索是指在知识组织的基础上,从知识库中检索出知识的过程,是一种基于知识组织体系,能够实现知识关联和概念语义检索的智能化的检索方式。
需要指出的是,知识检索不等于基于知识的信息检索。基于知识的信息检索是指在信息检索的框架下,通过一些智能化手段,改善检索效率和效果的一种方式。目前学界所提出的“概念检索”、“语义检索”、“智能检索”都是基于知识的信息检索的表述形式。
较之信息检索,知识检索具有两个显著特征,一是基于某种具有语义模型的知识组织体系。知识组织体系是实现知识检索的前提与基础,知识检索则是基于知识组织体系的结果。二是对资源对象进行基于元数据的语义标注。元数据是知识组织系统的语义基础,只有经过元数据描述与标注的资源才具有长期利用的价值。以知识组织体系为基础,并以此对资源进行语义标注,才能实现知识检索。
从理论上说,知识检索的提出给20世纪中期以来形成的信息检索理论带来根本的变革与挑战;从实践上看,知识检索的应用使数字资源有效的获取与利用成为可能。
2 知识检索基础
2.1 知识组织
知识检索必须以知识组织为基础。知识组织即是在信息组织的基础上,依靠专门的技术,按照知识的本质属性组织知识、建立知识系统的方法和手段。对知识及知识间的关联进行揭示和组织是知识组织的核心内容。
相对于信息组织,知识组织的显著特征表现为整体性和关联性[1]。所谓整体性,是指知识组织系统内部的不可分割性和有机关联性,整体性是建立知识组织系统的重要依据。关联性是整体性的延续,主要体现在3个方面:一是要体现知识概念的关联性,以保持学科知识体系的完整性和系统性;二是要体现不同知识系统间的关联,以保持人类知识体系的整体性;三是要注意知识系统与信息环境的关联,以促进社会大环境中的知识的共享和交换。
2.2 知识组织体系
知识组织的表现形式是知识组织体系。知识检索必须依赖于知识组织系统;没有知识组织系统的支撑,知识检索就无法实现。所谓知识组织体系,是对资源内容概念及其相互关系进行描述与组织的机制(工具)[2],是用以定义并组织知识的一套概念和符号的集合,是资源语义模型的形式化,能够支持对资源对象按照知识内容进行组织和描述,并支持基于语义和推理的知识检索。
目前图书情报界公认的知识组织体系是主题词表和分类表。也有学者根据对词义和词间关系的控制程度,将知识组织体系分为词单类(可选词单、词汇/字典、同义词环)、分类与归类类(图书分类法、知识分类表)和关联组织类(知识本体/实用分类法、叙词表等)3种类型。这3类系统对词汇的控制是一个由简到繁、由弱到强的控制过程。词单类侧重于词义消歧和同义词控制,分类与归类类侧重词汇等级关系的控制,关联组织类则侧重于词间各类关系的控制。
知识组织体系的形式和能力在相当程度上决定了知识检索的能力。笔者认为,作为知识组织表现形式的知识组织体系应具备以下基本功能要素:①具有一套从领域知识中抽象出的概念体系;②能够精确描述概念语义和多维关系;③可用形式化方式表示概念体系并可随时扩充概念层次和结构;④支持公理定义和语义关系的推理;⑤支持资源对象基于语义层面的标引;⑥可用知识网络/概念地图的方式展示知识结构。
满足上述基本功能要素的才可称之为知识组织体系。如果一部反映知识的词表/词典缺少对概念及关系的多维和全方位的描述,没有形式化,不能实现语义层面的资源标注,对所组织的知识不能以知识网络或概念地图的方式显示,是难以称为真正意义上的知识组织体系的。由此可见,词单类和分类/归类类均难以归入知识组织体系;关联组织类中的叙词表(也包括知识分类表)也只能称之为组织知识的语义词典(词汇表、语料库)。鉴于上述体系一直被作为组织知识的工具,我们以为,称之为基于知识的信息组织体系比较合适。
与主题词表(分类表)不同的是,知识本体是领域知识规范的抽象和描述,可以构造丰富的概念间的语义关系,能够准确描述概念含义以及概念之间的内在关联;形式化能力最强,同时具有高度的知识推理能力,能通过逻辑推理获取概念之间的蕴涵关系。因此,知识本体是一种知识组织体系。以知识本体作为知识组织的技术和方法,才能实现基于语义的知识检索。
3 知识检索模型
3.1 传统的信息检索模型与基于知识的信息检索模型
目前,信息检索已经形成了一些成熟的检索模型,它们依据不同的理论对检索要素进行不同的描述、分析和推算,经典的信息检索模型包括布尔检索模型、向量空间模型和概率检索模型[3]。布尔检索模型基于布尔逻辑和布尔集合论,利用关键词(或特征项)描述文献,以关键词的布尔逻辑组配表达检索需求,系统采用精确的关键词匹配返回检索结果。布尔检索能将较复杂的检索提问按逻辑关系描述,运算简单易行。向量空间模型基于统计理论,将N个关键词看作一个N维空间,文献与检索提问用空间中的向量表示,用相似性度量方法计算信息向量与提问向量之间的相关性,并依相似度对文献进行排序,提交检索结果。概率模型基于相关性原理,计算信息对象与检索间的相关性概率和无关性概率,如果相关性概率大于无关性概率,而且相关性概率还大于一个指定的阈值,那么就认为该信息对象是检索的结果。目前大多数检索系统往往综合上述各种模型,以达到最佳的检索效果。
传统信息检索模型的不足是显而易见的。在文献的组织与描述上,都采用词切分和单汉字或两者结合对文献进行索引,都将关键词作为描述文献的基本元素,文献之间没有关联,是相互独立的、无结构的集合。在检索操作上,都是基于关键词的无结构查询,难以反映词语间各种语义联系,查询能力有限,误检率和漏检率很高,检索结果的真实相关度较低;计算查询和文档之间的相似度的方法也有局限。在模型约束方面,那种要求索引项之间独立性的要求并不符合实际情况。
此外,面临网络巨量信息,传统信息检索模型虽经不断完善,也难以从根本上适应。由此,知识检索应运而生。一些学者从不同角度提出了基于知识的检索模型,如分类检索模型、多维认知检索模型、分布式检索模型[4]、概念检索模型[5] 等。特别是概念检索模型克服了以往检索模型中以词及其权值为中心建立相关性而忽略了语义关联的缺点,以概念词典为辅助,采用人工智能技术,增强搜索引擎概念分析理解能力,从概念层面上来处理用户的查询请求,从而实现特定领域的概念检索。但笔者认为,上述检索模型由于没有知识组织体系的支撑,没有实现对检索对象的语义标注,没有对其语义进行解析,依然是一种信息检索模型,充其量是一种基于知识的信息检索模型。
3.2 基于知识本体的知识检索模型
知识检索模型基于知识本体。在资源对象的组织、描述、表示、检索和模型约束等方面,知识检索模型都具有不同于信息检索模型的显著特征。主要表现为:
1)以知识本体作为组织领域知识的语义模型(基础)。在检索对象的组织上,知识检索模型利用领域本体作为组织资源的基础。以领域本体为基础来组织领域知识,首先要构建一个涵盖相关领域概念及概念间关联的领域本体库作为资源描述和知识表示的工具和模型。目前广泛使用于各个学科领域的主题词表/分类表可以作为领域本体库的构建基础,在此基础上确定领域知识本体的主要概念,概念间的各种关系,构筑领域本体的概念模型。
2)以知识本体的概念集对资源进行语义标引。在检索对象的描述上,知识检索模型借助语义标引工具,按照领域本体的概念及关联,对资源对象进行概念分析、分类、标引、描述和处理,形成机器可以理解的带有语义信息的元数据。以领域本体的概念模型作为资源元数据的规范描述标准,可使目前相对独立、没有语义的领域信息形成具有语义关联的知识组织系统,也是实现基于知识、语义检索的基础。
3)以基于本体的知识语言标示、检索领域知识。知识语言包括知识描述语言和知识检索语言。知识描述语言是描述本体的语言工具,是对本体概念形式化的标准语言。OWL是W3C推荐的知识描述语言的标准,RQL是W3C推荐的知识查询语言的标准。这些语言,不仅使检索模型具有强大的语义表达和推理能力,同时可以实现不同领域本体之间语义的兼容和互操作。本体概念的优化检索依赖于本体检索语言的功能[6]。在支持本体检索的诸如RQL,DQL,OWL-QL,SquishQL,RDFQL,RDFPath和Versa等知识语言中,RQL支持采用OWL描述本体的结构化查询,能够执行语义层的检索,是目前描述能力最强的知识检索语言。以RQL作为知识检索模型的检索语言,可以充分满足知识检索的需要。
4)以自然语言实现概念查询。自然语言易用性强但自由度高,如果不加以控制,就不能精确理解语义,实现知识检索[7]。知识检索模型提供了特定领域可控的概念语义体系,并建立与概念体系相对应的具有层次结构的自然语言术语体系,能对自然语言提问和本体概念库的术语进行语义的理解、分析和匹配,依据本体概念间的语义关系,实现知识检索。
5)在模型约束上,不像信息检索模型那样要求索引项之间是正交的,知识检索模型的约束比较少,但要求概念和关系构成一个有向图,关系必须是有方向的;另外,要求每一个概念/实例都需要有一个唯一的标识。
4 知识检索的呈现
4.1 基于领域本体的知识检索呈现要求
基于领域本体的知识呈现,是指通过一定的知识表示技术,将领域知识本体按照一定方式,清晰有序地在一个统一的界面上展示出来,以供方便地查询与获取知识。也就是说,一个基于领域本体的知识检索系统,其知识的提供和知识检索的结果是以怎样的形式显示的。
资源的显示方式取决于资源的组织方式。信息组织线性的、无结构的方式,决定了信息的提供与获取是以关键词和分类目录及索引等途径来实现,检索结果显示的是一组基于关键词层面上的没有语义的文献集合。而知识组织基于领域本体,是对概念关联的组织,所以知识检索显示的应是反映知识内容和概念关联的知识网络(或称知识地图)。简单说,知识网络是对领域知识本体结构的展示,是对已获取的知识以及知识之间的关系的可视化描述。
基于领域本体的知识网络具有3个特征:其一是定位知识。给出任何一个概念,都可以显示该概念在知识体系中的位置。其二是揭示知识关联。知识网络不仅要确定概念的位置,还要揭示此概念和其他概念间的语义联系,描述知识网络中各种关联。其三是可视化展示。通过直观、形象的模式、模型、图形、图像等方式,展现知识地图。
4.2 基于领域本体的知识检索呈现方式
下面以中国人民大学数据库与智能信息检索实验室研制的“经济学学科知识检索系统”为例,来说明知识检索的呈现方式。该系统是一个基于经济领域本体的知识检索系统。经济本体的构建以分类/主题一体化词表为基础。由于分类和主题表达的对象都是主题概念,两者之间存在着隐含的概念对应关系。所以系统以分类概念作为本体概念网络的主体结构,主题概念作为概念网络的各级概念节点,将具有对应关系的领域概念组织成本体概念网络。
经济本体概念网络的显示以及对知识的获取,是通过概念浏览和概念检索实现的。无论是浏览方式还是检索方式,都可实现基于概念、基于语义的知识检索;其结果都是以可视化形式展现知识层次的网状结构,便于用户循着知识网络方便地获取知识。
1)页面布局。用户界面主要由概念检索区、概念网络显示区和资源显示区3部分组成。概念检索区位于上方,提供自然语言检索途径,实现概念检索功能;概念网络显示区位于中部,展现由分类概念和主题概念组成的具有对应关系的知识网络,左边为分类概念显示,中间为主题概念显示,右边为关键词(同义词)显示;下方是资源显示区,即浏览和检索的结果。
2)概念浏览。概念浏览主要实现经济本体概念的分类导航和主题导航,可循着学科等级和概念间的语义关系进行浏览,起到知识导航作用。分类导航可对领域本体的分类知识树进行逐次浏览,选择一个分类概念,即可同时显示与该分类概念对应的主题概念关系,包括等同关系、等级关系和相关关系。反之亦然,可通过音序对领域本体的主题概念树进行层层浏览,选择一个主题概念,即可同时显示与之对应的学科类目(可以是一个类目或多个类目)。例如,在“分类导航”目录树中选择“金融危机”,主题概念显示区便显示“金融危机”概念关系,下方资源显示区显示属于金融危机概念的文献实例(见图1)。
3)概念检索。概念检索可通过自然语言检索经济本体概念及关联。如果检索词是本体概念,即显示该概念及其概念间关系,同时显示与之相关的学科分类类目,以实现语义的扩展检索和关联检索。对于本体库中没有的检索词,由于系统建立了与本体概念对应的自然语言术语库,在主题概念显示区即显示与该检索词对应的主题概念及关系,分类概念显示区显示与之对应的分类目录。例如,在检索框输入“经济政策”,主题概念显示区显示“经济政策”的概念关系,“分类导航”目录树中显示与之对应的类目(世界各国经济概况:政策、规划;世界金融—银行:政策;中国金融—银行:方针政策及阐述);关键词浏览区显示与之对应的关键词(经济政策学、差异性经济政策、优惠经济政策等);文献概览区显示与“经济政策”相关的文献(题名或关键词含有“经济政策”的文献)。
由于受本体有关技术发展的限制,目前该系统仅提供对概念语义的检索,怎样加强本体的推理功能,实现更复杂的推理检索,还需要进一步研究试验。
5 知识检索系统
知识检索系统是处理知识和检索知识的系统。其结构应由知识组织、知识检索和知识显示这3个相互影响、相互作用的要素组成(见图2)。
图2 基于领域本体的知识检索系统结构
知识检索系统各主要组成部分功能如下:①本体概念模型。获取学科领域基本概念,构建领域本体概念模型,提供描述领域知识的规范和知识表示的工具。②本体加工与语义标注。收集信息源,借助本体概念模型对信息源进行语义分析与标注,形成具有语义关联的资源元数据集合;根据应用的需要,支持本体的学习与进化。③基于本体的知识库。存储与管理标注后的资源元数据,支持对本体知识库的并发访问与快速查询,支持对多用户协同编辑本体,以及对多版本进行有效的归纳、控制和管理。④知识检索机制。分析、处理检索请求,对查询术语进行语义解析,确定检索请求与本体概念及关系的对应,支持概念推理,实现语义检索,生成检索结果。⑤知识检索显示与服务。展示知识检索界面,向系统发出检索请求并接受系统的服务。包括提供查询与浏览的途径与方式,可视化显示已获取的知识以及知识之间的关系,提交检索结果;实现与用户的交互,接受并反馈用户信息,为用户和应用程序查询本体库知识提供服务。
6 结语
有什么样的组织方式就有什么样的检索方式。知识检索是知识组织的逆过程。实现基于概念语义的知识检索有赖于知识组织系统的支撑。基于知识的信息检索不等于知识检索。作为组织知识的概念词典、分类表、主题词表等是一种基于知识的信息组织体系;通过这些工具和技术改善检索性能,提高检索效率,也是一种基于知识的信息检索。知识本体作为领域知识的语义模型,其功能体现在知识组织和知识检索两方面。只有以基于领域本体的知识组织体系为基础,才能真正实现基于语义的知识检索。