基于ontology的数字图书馆互操作机制研究——清华同方知网(北京)技术有限公司协办,本文主要内容关键词为:同方论文,清华论文,技术有限公司论文,北京论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
互联网出现之前,信息资源的相对匮乏导致图书馆运行管理模式以信息资源组织为核心,信息服务以文献检索和传递为核心,互联网出现之后,一方面,用户可以方便地获取大量信息,另一方面,用户又很难获得真正需要的信息。在这种情况下,以有效利用互联网信息资源为背景的数字图书馆,其运行管理模式必然以知识组织和服务集成为核心[1],最终目的是整合网络环境下的分散、异构、海量信息,为用户提供个性化服务。
众所周知,同一概念可能有多种表达形式,因此,为获取与某一概念相关的所有信息,就必须收集与该概念所有表达形式相关的信息,这样,客观上就需要一个知识组织体系来准确描述概念等级体系以及概念之间的关系。一方面辅助用户准确规范地表达信息需求,另一方面解决信息资源的互操作问题,进而对分散信息资源进行整合。因此,作为一种能够准确描述概念及其语义关系的新兴技术,本体论在近几年备受关注。
1 数字图书馆互操作问题和本体论技术简介
1.1 数字图书馆互操作问题
所谓数字图书馆互操作问题是指数字图书馆内部各组件之间或数字图书馆之间交换与共享文档、查询和服务的能力[2]。具体分为系统互操作、语法互操作和语义互操作三种类型,其中,语义互操作解决术语及其含义的不一致问题,实现跨领域的词汇切换,即在分属不同的概念空间、具有相应语义的术语之间进行映射[3],主要包括使用相同名字表示不同概念和使用不同名字表示相同概念两种情形。
1.2 本体论技术
本体论原是一个哲学概念,用于描述客观世界的真实存在,后来被引入到信息科学和计算机领域,用于对概念模型进行显式说明,即描述概念层次结构和概念间关系,通过概念间关系描述概念语义。一般而言,本体分方通用本体、领域本体和应用本体三个层次[4]。
2 基于通用本体的元数据互操作机制
2.1 ABC本体模型
ABC本体模型是由国际数字图书馆协作项目 Harmony开发的旨在简化不同领域元数据互操作问题的通用概念模型,该模型整合了众多元数据本体中通用的实体和关系,为理解和分析现存元数据本体和实例、实现元数据本体的自动匹配提供了概念基础[5]。
具体而言,ABC模型是一个带有时间和实体语义的通用元数据模型,核心内容是对实体的整个生命周期进行建模,描述、记录并区分实体生命周期中的事件,通过“事件”来描述实体变化,建立诸如责任人、时间、位置等通用描述概念之间的联系,进而实现表达概念的元数据记录之间的匹配,即通过“事件”将“输入”、“输出”实体及相关元数据描述关联起来,最终实现诸如“谁在何时、何地,做了何事”的复杂语义查询。
2.2 基于ABC本体模型的元数据互操作机制
基于ABC本体模型的元数据互操作机制就是通过将ABC本体模型提供的通用语义扩展到特定领域的元数据中,实现不同元数据之间的多对多互操作[6],通过对包含特定元数据的事件及其变化进行建模,将实体的整个生命周期转化为一个事件及其变化集合,通过建立事件的属性将分布在不同元数据描述中的实体信息关联起来,即通过事件在元数据描述的属性之间建立联系,具体如图1所示。
图1 基于ABC模型的元数据互操作机制[3]
在图中,大圆圈表示实体在一系列事件中的变化情形,正方形表示事件,例如,事件1创建实体1,转换事件2将实体1转换为实体2,其它依次类推;矩形表示特定元数据描述,包括部分实体或事件生命周期的椭圆形表示特定元数据关注的内容,例如,大椭圆是元数据描述1关注的内容,小椭圆是元数据描述2关注的内容;矩形框中的小圆圈表示具体元素和属性,虚线箭头表示事件和元数据元素之间的链接,比如元数据描述1的元素与三个事件相关联,此外,元数据描述1和2中共有两个元素与事件3相关联,这样便可以通过事件3实现元数据描述1和2的概念匹配。
2.3 例证
通常,著作从作者最初写作到最终流行需要经过形成初稿、出版、再版等一系列过程,如果是经典著作,还可能被改编为电影,录制成磁带,翻译为其它语言版本。这期间会涉及到众多责任者,如作者、译者、录制人员、出版社、电影公司等,也会涉及到众多事件,如写作、出版、再版、改编、翻译等,有些事件又包括众多活动,如录制磁带就会涉及到播讲、磁带制作等活动,这其中又会涉及到磁带制作者、播讲者等责任者。由此可见,著作生命周期中的关系错综复杂,但传统元数据方案只能描述具体信息资源,无法揭示实体整个生命周期的变化情况。如元数据记录——罗尔德·达尔《查理和巧克力工厂》(Knopf Press,1985)只描述了该著作的作者、书名、出版社、出版时间信息。很明显,如果用户想了解该著作的详细信息就必须找到多条元数据记录,这样就需要一种描述元数据记录之间复杂关系的机制,ABC本体模型就是这种概念模型,下面以著作《查理和巧克力工厂》[5]为例来说明(如图2所示)。首先通过领域专家会识别出著作生命周期中的重要事件,如写作、出版、再版、改编等,然后在元数据记录中获取事件属性,如发生时间、责任者、最终表现形式等,最后将具体元数据元素与概念和事件建立联系,以描述信息资源整个生命周期的变化情况。这样,只要用户给出著作名称,就可以获得该著作的所有信息。
图2 用ABC本体模型描述的著作(查理和巧克力工厂)
在图中,罗尔德·达尔在1964年撰写了手稿形式的《查理和巧克力工厂》,Knopf出版社在1985年出版了该书的精装本,其中包括了手稿的所有内容,普封(Puffin)出版社于1998年再版了该著作的平装本,后来美国凯德蒙出版社将其以磁带形式进行发行,由罗伯特·鲍威尔播讲,其它依次类推。
3 基于Ontology的数字图书馆互操作机制
数字图书馆的语义互操作主要通过元数据的有效使用和共享知识本体来实现。其中,元数据是基础,用于描述信息资源在特定情形下的微观结构,知识本体通过描述不同元数据方案在微观结构上的差异以及信息资源之间的复杂关系来实现元数据的语义互操作,从而为分散信息资源的整合与管理提供模型与方法[9]。
3.1 基于本体论的数字图书馆语义互操作机制
通过分析,我们认为:基于本体论的数字图书馆体系结构分为资源层、元数据层、知识本体层和表示层,具体如图3所示。其语义互操作机制包括元数据管理和基于通用本体的元数据互操作两部分,前者首先通过专业元数据方案来建立信息资源的微观结构,比如,DC、MARC标准等,然后通过元数据收集协议来采集元数据,比如OAI、ZING协议等,这一部分相对容易实现。后者主要通过诸如ABC本体模型来实现元数据方案之间的互操作,这一部分难度相对大一些,具体过程如下:首先,用户在知识本体的辅助下通过调整检索策略来准确表达信息需求;然后,利用知识本体将用户需求转换为一系列概念,利用领域专家建立的通用本体(比如ABC本体模型)整合采集到的元数据记录,即在事件属性和元数据记录的属性值之间建立联系;最后,进行格式转换并以实体生命周期的形式提供给用户,同时提供相应的信息资源。
图3 基于本体论的数字图书馆体系结构及其互操作机制
3.2 技术实现
从技术角度讲,实现基于本体的数字图书馆互操作需要解决元数据构建、采集,通用本体构建等问题,目前各个领域已经有建立了大量的专业元数据方案,如DC、MARC、EAD、GLIS、CDWA、VRA Core、CIMI、GEM等[10],OAI和ZING协议可以解决元数据收集问题,其中,OAI协议主要针对DC和MARC格式元数据, ZING[11]协议是Z39.50在网络环境下的扩展,主要针对MARC格式元数据,因此,元数据的构建与采集是可行的。通用本体的构建则可以通过领域专家和信息工作者合作完成,领域专家通过构建具体领域的通用实体及其生命周期变化中的事件,并确定事件的主要属性,形成该通用本体库的概念等级体系,最后将具体元数据记录的元素作为事件属性的实例添加到通用本体库中,这样便可以构建完整的通用本体库。目前,本体构建工具proté gé和KAON已经得到推广,本体描述语言RDF[10]和OWL也得到了广泛应用,尤其是应用本体语言来描述具体领域的元数据[10],所有这些均为实现基于本体的数字图书馆互操作机制提供了良好的基础。
4 结束语
本文主要分析了基于本体论的数字图书馆语义互操作机制。具体而言,利用专业元数据方案描述微观层面的信息资源,利用元数据采集协议采集元数据,利用ABC本体模型实现元数据记录的互操作,最终实现分散信息资源的整合。
收稿日期:2007-01-24