一种新的基于本体的ODL数字图书馆:_数字图书馆论文

ODL:一种基于本体的新型数字图书馆,本文主要内容关键词为:本体论文,数字图书馆论文,ODL论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

数字图书馆是网络环境下一种非常重要的应用系统,它包含了大量的结构化和非结构 化格式的数据。但完全从头开始构造数字图书馆是一项十分费时、费力的事情,尽可能 实现过程自动化并利用已有资源是很有必要的。虽然因特网是可以利用的海量数据仓储 ,但它的异质性、分布性和动态性的特征给计算机的自动化处理带来诸多困难,而且信 息提取、加工和理解的任务都留给了用户。“信息过载”与“信息迷失”状况日益严重 。更强大的智能型信息服务工具已成为广大用户的迫切需要。

在目前的数字图书馆研究中,大都是基于Internet/Web来构建数字图书馆体系,主要 采用基于简单的关键词索引、关系数据查询等技术,该体系缺乏知识或语义级的支撑[1 ,2]。同时由于Internet/Web的资源分散性、缺乏统一管理等先天不足,使得信息资源 体系和信息服务体系的建立变得十分困难或质量效率不高。同时,从用户的需求来看, 他们希望数字图书馆系统能灵活地识别信息、处理信息、提炼知识,通过围绕用户信息 活动和用户信息系统来有效地组织集成数字信息资源和信息服务,从而方便、快捷、有 效地支持用户检索、处理、利用各类信息资源。

为此,有必要引入人工智能领域中的本体(Ontology)技术[3,4]。它是不同领域、不 同应用系统之间进行交流、协定并可以共享理解的表示。这种协定有助于对内容意义的 精确、高效通信,同时又反过来促使系统的交互式操作、重用和共享等一系列的性能得 以提高。目前涉及数字图书馆的关键计算机技术主要包括:数字资源的采集技术(直接 生成、数字化转换);信息访问和查询技术(分类、索引、异构信息的一致性检索);数 字资源的存储与管理技术(信息组织、数据压缩、信息安全);面向特定用户的个性化服 务。

新一代数字图书馆的许多功能都要依赖于本体[1],本文采用本体技术,对数字图书馆 中的信息采集、信息组织和用户服务进行较为全面的探讨。

2 系统框架

本体是一种新型的元数据,其目标是捕获相关领域的知识,提供对该领域知识的共同 理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词 汇间相互关系的明确定义,由此实现知识重用。为此,本文的研究思路如下:首先在

W3C标准的基础上,对网络信息的本体表示进行研究,然后设计核心本体(Core

Ontology)和应用本体(Application Ontology),最后提出一种基于本体的数字图书馆( Ontology Digital Library,ODL)的理论模型,见图1,并开发基于该理论模型的试验系 统。

(1)网络环境下信息系统的本体表示机制。

根据W3C对Web本体语言(OWL)的草案,本研究对现有的标准进行扩展,形成一个分层的 、语法简便、实现互操作和支持多语种的本体表示方案,设计面向数字图书馆的本体语 言。同时为了给数字图书馆的资源提供一个全局可扩展的规范模型,进行系统框架及核 心本体的设计。

(2)基于本体的数字图书馆信息集成和内容组织。

根据本体将数字化信息(如数据库、文档)按学科领域进行分类和索引,并丰富其语义 ;建立本体驱动的分布式学科信息门户。为支持对学科信息的有效搜寻、组织和检索, 构造在分布环境下组织学科信息门户并支持它们的互操作和动态集成,分析、定义和组 织支持分布管理和个性化定制的学科信息门户的信息架构和系统结构,并定义其组织要 求、描述机制、实现技术原则和管理维护原则等,为分布学科信息门户技术平台的建设 和分布式多层次学科信息门户体系的建设提供基础。

资源建模/维护技术与软件模块,支持Web应用的多种粒度的抽象、封装、重用及导航 ,提供自治信息源的优选建模和维护支持。

(3)基于本体的网络信息搜索技术与机制研究。

主要研究网络数据抽取功能、基于本体的文档分类、基于本体的检索匹配机制等;为 支持对网络信息的智能化检索,开发智能化网络检索的技术及其算法,包括基于本体的 协作信息过滤、基于本体的网络数据挖掘与知识发现等。

(4)本体驱动的个性化数字图书馆研究。

提出基于本体的数字图书馆信息过滤模型,研究用户兴趣模型的自动学习及存储,通 过用户角色和个人偏好的明确定义或者学习用户选择的内容、显示的风格建立不同用户 的兴趣模型,提取用户偏好、用户需求、用户形象的本体描述;基于概念匹配的信息检 索和信息推送,将数字图书馆中语义相关的信息主动推送给用户,为用户提供快捷准确 的信息导航和交互环境。

在对本体的研究过程中,万维网联盟(W3C)逐步建立起了关于本体的一系列标准和规范 ,如RDF模型和语法规范、RDF词汇描述语言1.0以及2004年初作为推荐标准的Web本体语 言(OWL)1.0等。这些标准和规范对本体的内容和表现形式进行了限定,包括本体中涉及 到的相关领域概念、概念之间的关系以及有关这些概念和关系的规则和公理等。

在我们的语义模型中,本体被用于知识表示以及知识库的管理,作为描述对象的语义 载体来保证用户查询请求的语义完整性不受到破坏,同时能够辅助信息检索引擎对潜在 目标对象进行选择和判断。本文采用Stanford开发的工具组件Protégé来管理和维护本体知识库。

在经过了语义模块的处理之后,搜索引擎得到的请求不仅仅是关键词的列表,而是对 用户查询意图的描述,在一定程度上对用户查询进行了扩展,以便在检索时更明确用户 查询的目的。此外,搜索引擎同样也是基于本体知识库的,在对Web信息检索的过程中 ,引擎对每个语义段落进行分词和分析,统计出其中的有效信息,并根据本体库中该领 域知识架构来获取该语义段落所描写的主要内容,从而判断其与用户查询请求的相关度 以作出取舍。

3 关键技术

3.1 基于本体的内容组织

在数字图书馆中,与传统图书馆相比,信息内容形式、信息资源形态、信息利用方式 等都在发生巨大变化,从而对信息组织的一些根本观念提出了挑战,必然导致信息组织 本身的性质、内容、作用和工具发生巨大变化。

本体是一个关于一些主题的清晰规范的说明。它是一个规范的、已经得到公认的描述 ,它包含词表(或称概念、术语表),词表中的术语全是与某一学科领域相关的,词表中 的逻辑声明全部是用来描述那些术语的含义和术语间关系的(它们是怎样和其他术语相 关联的)。因此,本体提供了一个用来表达和交流某些主题知识的词表(Terms),还包括 一个关系集(Relationship),关系集表示了词表中这些术语间的联系。

本体的主要组成是一整套对某一领域里的知识进行表述的词和术语,知识工程师根据 该领域的结构将这些词和术语组成分级层次,并应用面向对象的方法给一些类目加以更 细的定义(包括属性、约束、推理规则等)。本体与传统知识表示的一个根本区别就是系 统中的概念、属性、约束条件等内容都是“机器可理解的”,因而本体中的知识定义可 以,被直接再利用。例如,“主题”是“元数据框架”中的一个元素,在“元数据”的 本体中,“主题”可以单独成为一个类目。与此同时,“资源”也是一个类目。资源这 个类目除了“标题”、“责任者”等特性之外,还有“主题”的特性。因为“主题”作 为一个类目已经在系统中被定义过了,于是在定义“资源”的特性时,只需在系统中说 明使用“主题”类目的定义即可。

一般来说,领域(或任务)本体(Domain Ontology)构成了该领域知识信息系统的核心。 本体从不同的方面支持信息交换过程,面向数字图书馆的本体的作用包括:不同数字图 书馆系统之间的通信;基于语义的Agent通信;基于知识的检索;内容的语义级理解; 统一表示格式;语法互操作;语义互操作。开发一个本体包含以下四个基本步骤:

(1)定义本体中的类;

(2)定义类与类之间的层次关系(子类和超类);

(3)定义类的属性,并且说明对于属性值的限制;

(4)将实例(Instance)的属性值填入。

本体可以应用于数字图书馆不同的领域及应用层面,例如:Agent系统、知识管理、自 然语言处理和网络信息搜索抽取等。然而,在此之前必须先让计算机看得懂人类专家所 建构的本体,因此需要一种计算机所能理解的语言来转换描述本体,以便计算机了解本 体所想表达的语义性概念。近年来,已经出现了许多本体语言,有些是基于XML语法, 例如XOL、SHOE和OML,还有由W3C所制定的RDF和RDFS。另外,还有建置于RDF基础上的

OIL与DAML + OIL,以改善和加强RDF功能特点之不足。

W3C正在就应用于万维网的本体语言和技术作出推荐[5]。目前得到一致公认的本体语 言是DAML + OIL和OWL,本研究采用DAML + OIL标记语言来描述本体。

3.2 基于本体的信息集成

数字图书馆中的数据具有半结构性、异构性和分布性等特点。综合来看,造成语义异 构的因素主要包括:(1)不同的信息源使用多种术语(词汇)表示同一概念;(2)同一概念 在不同的信息源中表达不同的含义;(3)各信息源使用不同的结构来表示相同(或相似) 的信息;(4)各信息源中的概念之间虽存在着各种联系,但因为各信息源的分布自治性 ,这种隐含的联系不能体现出来。

目前分布式异构信息集成的方式主要有两类:结构方法和语义方法。采用结构方法的 著名项目是TSIMMIS系统,采用语义方法的著名项目有MOMIS系统。结构方法的特点是实 现比较简单、信息源相对比较固定。其缺点是扩展性差,不提供语义级的检索。语义方 法的主要特点是扩展性好、自适应动态信息源、支持语义级查询、使用本体作为语义层 集成手段。其缺点是实现比较复杂,牵涉到本体的创建。本体的创建牵涉到领域专家建 模、概念提取、概念分类等相关的处理。

因特网上的数据所固有的异构性、分布性、增长性和变化性决定了结构方法不适合Web 信息集成。语义方法成为当前Web信息集成研究的重点。语义层集成主要有两种方式: 自顶向底和自底向顶。自顶向底方法是在领域专家参与下,建立本体,由本体来统一底 层各信息源的语义。自底向顶方法首先提取底层各信息源局部数据模式,其次在局部数 据模式上抽取局部概念模式,最后在局部概念模式上构造全局概念模式(即本体)。

在基于本体的集成方法中,本体可用作信息源语义的显性描述,但具体采用本体的方 式各不相同。一般来说有三种形式:单一本体方法、多本体方法、混合策略。图2为三 种主要形式的示意。

(1)单一本体方法:采用一个全局本体为语义的说明提供一个共享词汇表,所有信息源 都与某一全局本体关联。代表系统是斯坦福大学的SIMS项目,它的应用领域模型包括一 个层次术语知识库,每一资源简单地与全局领域本体相联。全局本体也可为几个专门本 体的结合,该结合体由本体表示形式化所支持。

(2)多本体方法:每一信息源由其自身本体所描述。例如,在OBSERVER中信息源的语义 是由单独的本体所描述。“源本体”可以是多个其他本体的结合,而且不同的“源本体 ”并不共享相同的词汇表。其优点是它并不需要对某一全局本体的公共最小化本体进行 约束,每一个源本体的开发也不用顾及其他信息源或其本体。这种本体架构可简化集成 任务,并支持源的变化。但另一方面,公共词汇表的缺乏使不同源本体的比较变得困难 。

(3)混合策略:它综合了前两种方法的基本特征以克服它们的不足之处。如多本体方法 一样,每个信息源都有自己的本体,但本地本体是在一个全局共享的词汇表下开发的。 共享词汇表定义了领域内的基本术语,在本地本体中这些术语可以组合起来表达复杂的 语义。混合策略的优点是新的信息源可以方便地添加而无需修改,它也支持本体的获取 和进化。共享词汇表的应用使得源本体兼容并避免了多本体方法的不足。但其缺点是已 有本体的重用不方便,必须从头开发。

3.3 基于Web的本体学习

像在语义Web中一样,为了实现ODL,需构建大量的本体来满足其需求[6]。本体建造是 一个非常复杂的过程,它需要多个领域的专家参与。虽然目前本体工程(Ontology

Engineering)工具已经较为成熟,但本体的手工构造仍是一项繁琐而辛苦的任务,并最 终导致所谓的知识获取瓶颈。在语义网初期,要构建大量的本体领域本体以满足语义网 的需要,大量的本体主要是通过对因特网上各专业领域中大量的HTML网页进行抽象分析 得到。因此,需要一种简单可靠的本体的提取方法,即一种高效快捷的本体构造方式。

从目前本体工程的实践来看,本体的构建和维护主要存在如下问题:第一,在构建的 初期和维护阶段需要花费大量的人力,其中主要有两项任务:一是构建实际的分类体系 (Taxonomy),二是将某一特定内容与分类体系中的节点关联起来。例如,在Yahoo或

DMOZ开放目录中包括分层目录和与某一目录相关的站点。第二,分类体系中俘获的知识 是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,本体不能像 字典一样以手工方式构造,否则它在发布之日就已过时。第三,分类体系具有领域相关 性,特定学术或商务领域有其自身的词汇表和技术术语,因此构造合适的通用本体或分 类体系需要大量的修剪和编辑时间。第四,分类体系反映了客观世界的某一特定观点, 它反映了构建者个人或机构的观点。第五,本体作为一种共享概念模型,通常很难以某 种特定的方式来对客观世界分类。

本体学习(Ontology Learning)技术可以说是当前的一个热点。其目的是开发能够实现 本体自动构建的机器学习技术来协助知识工程师构建本体,基本原理如图3所示。本体 的自动构建是一项挑战性任务。尽管本体工程已经有近十年的历史,但是到目前为止完 全自动化的本体学习技术还不存在,采用自动化方式的全面构造本体的方法也非常少。 Maedche等提出了一个半自动化的需人工干预的本体学习框架[7],采用平衡的协作建模 方式来构造语义网中的本体,这个框架用半自动化的本体构造工具对典型的本体工程环 境进行扩展,在这个框架中本体的建模周期由5个步骤组成:本体引用、抽取、剪枝、 精炼和评估。这个框架将能够为本体工程师提供丰富的本体协作建模工具。

最原始的方法是从领域专家那里取词汇或表示本体的概念,但是这种方法至少存在两 点缺陷:首先,专家的时间是非常珍贵的,在一个机构中,能够将他们全部召集起来探 讨本体的设计成本比较高、难度比较大。其次,这种方法不利于本体以及系统的进化, 系统管理人员并不知道工程实践中的概念是不是已经发生变化;或者说即使知道这种变 化,也很难确定一种机制不断地修改本体。

本文旨在实现从Web页面中自动抽取数字图书馆中的领域本体(Web based Ontology

Learning,WebOntLearn),从Web页面数据中找出本体语义概念的模式;采用信息抽取(

IE)和机器学习技术来确定概念对之间的语义关系。从Web上进行数据内容的抽取,这一 领域已有大量的研究,但对于Web数据底层概念模式的抽取关注较少。Web本体学习拟通 过分析同一应用领域Web页面集来半自动化地抽取Web本体。我们假定每一Web页都有一 个底层的概念化结构,即使该结构并不明显。因此,我们可将Web页面结构看成是应用 领域模式的一部分。本体元概念就是以扩展实体关系(EER)为基础建立的。这些概念分 为实体类、关系和属性。

本体学习的主要任务包括:本体中领域概念的识别和获取;如何定义概念之间的关系 ;确定自然语言文本之间的关系。本体学习任务主要包括:(1)本体获取:包括本体创 建、本体模式抽取和本体实例抽取。(2)本体维护:包括本体集成和导航、本体更新以 及本体扩充。

4 结论

在过去的十多年中,研究人员就数字图书馆的概念、特征、实现等问题进行了广泛的 讨论和研究,一些重要的关键技术研究则需要用最先进的计算机应用技术去实践和实现 。综合目前的研究来看,数字图书馆的技术虽然能够实现文献信息的初步处理,但是在 网络信息的有效组织、信息的高效检索、元数据的自动生成及个性化服务等方面尚需要 进一步完善。语义Web的提出为数字图书馆的发展提供了很好的契机,它为网络信息提 供底层的语义级支持。本文提出了基于本体的数字图书馆模型,并就其实现的关键技术 进行了讨论。

本文就本体在数字图书馆中的应用作了些探讨,需要进一步做的工作有:基于本体的 信息检索(包括从文献到事实的查询,从信息到元数据,基于上下文的检索)和基于本体 的个性化信息服务等。

标签:;  ;  ;  ;  ;  

一种新的基于本体的ODL数字图书馆:_数字图书馆论文
下载Doc文档

猜你喜欢