语义网格环境下数字图书馆知识组织理论、方法与过程研究_数字图书馆论文

语义网格环境下数字图书馆知识组织理论、方法及其过程研究,本文主要内容关键词为:语义论文,网格论文,数字图书馆论文,过程论文,理论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

修回日期:2007-06-01

〔分类号〕G250.76 TP393

1 引言

当前,数字图书馆的研究已成为热点和建设的重点。随着数字图书馆应用技术的演变,数字图书馆知识组织正从Web环境→语义Web环境→网格环境→语义网格环境渐进,其研究与实践正从文献信息的描述转向知识描述,从静态知识和绝对知识的描述转向动态知识和相对知识的描述,知识描述的本体论抽象反映了数字图书馆知识组织由表及里的变化过程。

2 Web环境下、语义Web环境下、网格环境下数字图书馆知识组织的比较研究

基于Web的数字图书馆属于技术主导型,凸显数字图书馆的关键技术[1];基于网格的数字图书馆属于资源主导型,凸显数字图书馆分布异构的资源整合;基于语义Web的数字图书馆属于服务主导型,凸显数字图书馆服务集成和共享以及实现数字图书馆服务的增值功能。

2.1 理论体系的比较

2.1.1 基于Web的数字图书馆的知识组织 基于Web的数字图书馆的知识组织以信息集成作为理论指导。在集成的理念下,基于Web数字图书馆的研究与实践正在信息级、系统级和应用级三个层面展开,通过松散整合的方法无缝和动态集成跨Web不同的分布数字图书馆系统[2]。

2.1.2 基于网格的数字图书馆的知识组织 基于网格的数字图书馆的知识组织以信息构建为理论指导。信息构建是一门组织信息和界面的艺术和科学,在信息构建理念下,数字图书馆知识组织包括组织系统、标识系统、导航系统和搜索系统。组织系统决定内容如何分组,是内容分类的途径。标识系统决定如何称呼和调用哪些分组内容,并创建一致的标识方案。导航系统决定用户如何浏览和检索分组内容,通过精心制作不同的导航路径(如导航条和知识地图),帮助用户游历和浏览内容。搜索系统帮助人们制定与相关文档相匹配的检索表达式,以满足用户的信息需求。在信息构建理论指导下,网格环境下的数字图书馆屏蔽了信息资源的来源、信息资源的不同结构、信息资源储存差异,最终形成统一的信息访问平台。

2.1.3 基于语义Web的数字图书馆的知识组织 基于语义Web的数字图书馆的知识组织以知识构建为理论指导。知识构建是在传承信息构建精华后又吸收了知识管理理论而形成的[3]。从信息构建到知识构建,就其本源来说,则对应着从信息到知识的转化;就其管理机制来说,则对应着从信息管理到知识管理的发展;就其服务体制来说,则对应着从信息服务到知识服务的进化。基于语义Web的数字图书馆的知识组织以知识元为起点,进行知识描述、知识标引,通过知识链提示知识的逻辑关系,挖掘隐性知识,提供知识服务。在知识构建的理念下,数字图书馆的知识构建更加重视用户需求的范畴分类和界面设计,使之更具个性化和可视化。在内容方面,重视知识与信息的转化、知识元的抽取与标引、基于知识元链接的知识网络的形成与应用、知识结构的学科分类与完整性以及知识仓库和知识元数据库的建设与应用,从而为数字图书馆知识服务营造一个和谐的知识生态环境[4]。

2.2 组织方法的比较

基于Web、网格与语义Web的数字图书馆知识组织方法如图1所示:

图1 数字图书馆知识组织方法

基于Web的数字图书馆的知识组织方法在宏观上采用搜索引擎和网络资源分类导航方法。在微观层面主要分为两大类:传统的文献组织方法,包括主题法、分类法;网络信息组织方法,包括数据库、主题树、超文本、搜索引擎。依知识组织的语言学原理,属于语法组织方法。

基于网格的数字图书馆的知识组织方法在宏观采用虚拟组织方法,即构造虚拟运行环境,将可能跨越异构、地理分布的多个运行环境的资源虚拟组织在一起,而这一虚拟运行环境为客户端提供相同的访问接口。在微观上采用网格体系结构的设计方法,即根据元数据、资源、服务、协议等概念的不同形成不同的概念空间,根据这些概念之间的关系形成网格体系结构,这一结构的层次结构不是十分清晰,各部分的关系形成一个网状图,它强调的是各部分在概念上的关联[5]。

基于语义Web的数字图书馆的知识组织方法在宏观上采用知识表示、知识重组、知识聚类、知识存检、知识编辑、知识监控方法[6],在微观层面主要采用一阶谓词逻辑,面向对象数据库,利用语义网络、专家系统和人工智能进行数据挖掘。依知识组织的语言学原理,属于语义组织方法。

2.3 技术工具的比较

基于Web、网格与语义Web的数字图书馆知识组织工具如表1所示。

基于Web的数字图书馆的知识组织方法利用DC、MARC等元数据对数据进行描述和标引,利用关系数据库、面向对象数据库和多媒体数据对原始数据、管理数据、描述数据等进行存储,利用基于关键词和基于内容的检索技术提供信息服务,利用对象管理集团OMG的CORBA、Microsoft公司的COM/DCOM、Sun公司的JavaBean等中间件技术进行系统集成。形成体系结构以Interspace原型、Infobus和UMDL最为典型[7]。

基于网格的数字图书馆的知识组织方法通过网格实现技术实现资源管理、数据管理、信息管理、通信与安全。具体表现为利用IDL(Interface Definition Language)、RDF(Resource Description Framework)、JDL(Job Description Language)、GGRD(Generic Grid Resource Description)、RSL(Resource Specification Language)、WSDL(Web Service Description Language)语言对网格中的接口、任务、计算资源、数据资源和服务资源进行描述[8-9],通过结构化数据进行数据的管理,数据的结构化通常会采取关系型数据模型或者采用XML技术,通过网格信息服务结构和组成协议(网格信息协议GRIP和网格注册协议GRRP)为高度分散的信息提供者提供专门的聚合目录服务。网格信息服务在信息索引完整性的程度、信息查询的开销和信息更新的维护这三者上不可避免地会有权衡和调节。使用元数据时间戳和信用评估可以知道保存在索引里信息的更新频率,信息传送的“推”模式和“拉”模式都可以用来将信息从提供者转移到目录[10]。目前,常用的网格体系有:以协议为中心的五层沙漏结构和以服务为中心的开放网格服务结构(Open Grid Services Architecture,OGSA)[11]。基于网格的数字图书馆采用这两种体系结构构建。

基于语义Web的数字图书馆的知识组织方法利用有效的知识标识语言(RDFS、DAML+OIL、OWL、Loom、OKBC、TM、CycL等),对知识库和用户需求表达进行语义描述,利用主题图技术和ontology技术对数据进行组织,并构建包含事实库和规则库的知识库,通过概念地图(Concept Map)、认识地图(Cognitive Map)和思维导图(Mind Map)[12] 等工具进行知识的可视化组织,利用协作学习方法选择新词进行查询扩展[13],通过增加语境分析选取特定域的集合来增强相关性、反馈性能,从而提高查准率,利用集合依赖性知识规模进行查询扩展[14],本体模型可以有效地辨析来自于自由文本句子的词义,本体是表达和限制语境的方法之一[15],采用以本体形式存在的集合非依赖性知识模型进行查询扩展[16],这些基于语境的查询扩展技术提高查全率和查准率,基于语义Web的数字图书馆在体系结构中增加了知识导航层,用于知识编辑、知识导航、知识查询。

3 语义网格环境下数字图书馆的知识组织

语义Web和网格技术在数字图书馆建设中的重要性已被业界所普遍关注。基于UDDI、WSDL和SOAP技术的Web数字图书馆信息资源抽象描述难以支持机器理解语义信息,于是出现了把语义网技术应用到数字图书馆建设的动向,语义Web能够对数字图书馆信息资源进行基于语义的标注,提供基于语义的资源浏览与检索,实现数字图书馆信息资源在语义层面上的全方位互换,并在此基础上,为实现更高层的、基于知识的智能应用提供了可行性。网格技术应用于数字图书馆建设,为实现整合数字图书馆分布、异构、自治的数字资源,获得资源透明调用的能力提供了可行性。但从数字图书馆知识组织要求基于语义的资源整合来看,上述两种技术各有其局限性。数字图书馆知识组织的实现需要一个新型的技术基础,这个基础应充分支持虚拟资源体系的语义资源集成,充分支持知识语义析取和语义描述,为实现虚拟资源体系的语义映射、语义导航、语义查询以及推理机提供可行性。

语义网格技术的出现,打破了网格、语义网和Web服务各自独立发展的限制,体现了三种技术在数字图书馆建设中走向融合的趋势,体现了下一代数字图书馆的发展方向,为数字图书馆实现语义资源组织提供了良好的基础。语义网格技术可以为数字图书馆构建一个中间的环境:一方面能够形式化地描述知识,使其负载的语义能够为机器所解析和认识;另一方面使数字图书馆中的知识实现负载平衡与松散耦合,从而将知识、服务和用户有效地整合起来。

3.1 目标内容

基于语义网格的数字图书馆知识组织以知识服务为前提,以知识管理为依托,将所有信息和服务进行有效的组织,而且能够非常显明地表示其意义,达到信息可理解[17],达到计算机和用户互操作。

3.1.1 组织目标 将数字图书馆从集成的中央控制系统跃到可动态进行资源体、服务体联邦配置的虚拟组织,解决分布式异构信息资源和服务提供者的组织问题[18]。具体目标包括:①知识获取与知识表示的理论、模型、方法和机制;②知识可视化和创新;③在动态虚拟组织间进行有效的知识传播和知识管理;④知识的有效组织、评估、提炼和衍生;⑤知识关联和集成。

3.1.2 组织起点——知识元 知识元是知识的最小功能单元,知识元是构造知识系统的核心。知识元的独立性、拓扑性与知识元的链接性是进行语义网格环境下数字图书馆知识组织的出发点。通常由知识元、知识单元组成的知识资源被认为是不含语境的。但是Ruthven I指出知识资源在产生语境当中是有用的[19],知识资源基于它们如何被创建以及为什么被创建也是带有一定的语境的,而且对于特定领域的数字图书馆来说,语境是由包含专业领域信息的数据库暗示的,同时在特定领域内用户的信息需求和信息查询行为也由于用户知识背景的不同而有所不同。这就需要从知识库中抽取用户需求表达中的知识元。

3.1.3 组织内容 语义网格环境中数字图书馆的知识分为两种类型:一是网格外在知识或称为网格应用知识;二是网格内在知识或称为网格基础设施知识。前者是同一语义网格平台下数字图书馆的知识生产者发布到该网格上的知识;后者是关于该语义网格本身或数字图书馆本身对知识的运作,比如网格服务的可用性、服务目的、服务配置方式以及网格服务的发现、调用和动态变化。前者是语义网格数字图书馆知识管理的内容和对象;后者是语义网格环境下数字图书馆知识管理的技术基础。知识组织不仅要组织网格外在应用知识还要组织语义网格对数字图书馆的管理方式和方法。语义网格环境中存在两种分别被人和计算机理解的知识,共同理解的途径是通过元数据和Ontology对知识进行形式化,即语义注释和概念扩展。

● 语义注释

在语义网格环境下,数字图书馆中的网格外在知识和网格内在知识要求具有语义性来适应数字图书馆上层的应用。语义Web技术用来自领域本体的语义信息注释网格外在知识和网格内在知识,最终产生具有机器互操作标记的资源。考虑到互操作,一个具有良好定义的语义的数据和服务是确保使用者确实能够共享(同时理解)并使用资源的前提。语义注释远远不止我们所熟悉的关于资源内容的文本注释,语义注释正式地确定了概念以及资源中概念的关系,为机器提供使用。

● 概念扩展

Ontology支持下的概念扩展,核心任务是一系列语义推理——同义扩展、语义蕴含、外延扩展及语义相关联想。语义网格环境中数字图书馆的概念空间建立在关联复杂的领域本体上。在扩展概念时,应全面权衡概念间的各种关联,综合语义相似度和相关度两种指标,作为概念词汇在意义上相符合的统一标准[20]。

在语义网格环境中,网格外在知识和网格内在知识都应该得到体现[21]。

3.2 组织方法

从宏观上看,语义网格环境下的数字图书馆采用虚拟组织方法,因为语义网格是以支持e-Science为目标的网格基础设施,是一个开放的环境,可以兼容各种不同虚拟组织中不同的系统。从微观角度来看,基于语义网格的数字图书馆需要对上述提到的网格应用知识和网格基础设施知识进行组织,需要本体技术。利用本体确定知识术语范围以及关系,利用本体描述网格计算资源的有关概念。图2[11] 表明本体是这一结构的特殊层级。用户查询可到达模型的本体部分。本体组件利用元数据和语义视图组件获得计算资源相关信息。元数据和语义视图组件有助于本体获得用户查询答案。元数据模块直接从资源和数据文件中获得信息,而语义视图构件与元计算字典服务(Metacomputing Directory Service,简称MDS)进行联系,MDS提供一个分布式路径到达网格结构和系统组件相关信息。

图2 基于本体的网格环境

图2说明在网格环境中,一个数据流通过使用本体方法获得含有语义的信息。

通过本体的属性来描述计算资源,包括构建数据字典、概念分类树、类属性、实例表和属性分类表。图3是计算资源的本体概念树,对计算资源语义分析,并利用本体编辑工具(protégé-owl)建立本体。

图3 计算资源的本体概念树

对于网格应用知识的组织,需要语义注释,构建本体及多系统之间的本体映射,以支持语义网格环境下数字图书馆的异构和分布。

3.3 组织过程

通过知识发现→知识获取→知识抽取→知识建模→知识注释→知识推理过程完成知识组织,组织过程如图4所示。

图4 语义网格环境下数字图书馆知识组织过程及技术工具

4 结语

Web环境→语义Web环境→网格环境→语义网格环境渐进,数字图书馆的知识组织在语义描述、空间定位、数据转换、互操作性等各个方面发生了质的变化。语义网格环境下数字图书馆知识组织面临着大量的技术挑战,需要在虚拟组织机制、Ontology服务机制、知识发现、知识获取、知识建模、知识注释、知识推理等领域进行深入的研究和探索。

标签:;  ;  ;  ;  ;  ;  

语义网格环境下数字图书馆知识组织理论、方法与过程研究_数字图书馆论文
下载Doc文档

猜你喜欢