元数据与知识本体_元数据论文

元数据与知识本体,本文主要内容关键词为:本体论文,知识论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

元数据在国内依然是一个热门概念,然而很多图书馆员可能没有意识到,制定和应用元数据规范,虽然最终是为人服务的,但实际上是在为机器打工——为了在分布式网络环境下实现机器与机器之间的语义理解而制定规则。元数据方案能够做到这一点,除了必须采用标准的属性元素集之外,还得益于采用标准的编码语言(例如RDF)进行编码(又叫置标),将各种具体的约束(例如数据类型、是否必备、是否可重复等等)进行明确地定义,这个过程在计算机语言中叫做“形式化”。只有经过形式化的元数据方案才能保证具体的查询请求在联网的资源库之间“拷贝不走样”,从而能够使人在整个网络中获取全面而准确的信息。

但是要全面实现数字图书馆的功能,仅仅依靠元数据方案的形式化是不够的,还必须借助知识本体的作用。同样地,为了计算机能够处理,知识本体也需要进行严格“形式化”。对于“知识本体”进行形式化和应用的研究已经是计算机界的一个“热门”领域,很快也会成为图书情报界的一个热门概念,因为对于知识的分类和管理历来是图书馆员的本行,而元数据的发展历程说明,计算机界没有必要“重新发明轮子”。

数字图书馆究竟有什么特别的功能需要知识本体来实现?什么是知识本体?与元数据的关系是什么?本体又如何进行形式化?形式化的本体能够起到怎样的作用?它又是如何起作用的?本文试图对上述问题进行简要的讨论。

数字图书馆功能需求

解决分布式网络环境下系统或资源间的互操作问题是数字图书馆技术的核心内容。“异构”是指系统或资源在结构上的不同,互操作是指系统或资源之间的兼容性或关联关系。万维网是目前最大的开放的分布式网络,可以看成由无数三层结构应用(注:三层结构应用指由“浏览器-Web服务器-数据库服务器”组成的应用体系,俗称动态网页技术,相对于将所有发布内容均以html文件形式存放于Web服务器的B/S两层结构而言。)组成的大型资源库群(repositories)。这些资源库群是彻底异构的,从数据结构、操作系统,到数据库系统,到应用系统;从命名方式,到数据格式,到结构模型,到用户界面,都有可能完全不同,目前没有多少标准规范能够对这个各个层次的异构进行适当的约束,数字图书馆在这个方面尚缺乏完整的解决方案,而且解决方案也不是唯一的。从体系结构上来看,“语义万维网”和“Web服务”技术正在形成一套异构系统互操作问题完整的解决方案。

元数据提供了数字图书馆的语义基础,使资源有了基本的微观结构,但是元数据并不能完全解决信息系统的语义异构问题,包括资源采用不同元数据方案所造成的微观结构的异构问题以及资源对象之间存在的复杂的关联关系,知识本体在某种程度上可以看成是“元”元数据,信息系统中不同实体对象可能采用不同的元数据方案,不同的实体对象之间的关联关系非常复杂,知识本体能够对这些情况进行很好的描述,从而为信息的组织、管理以及检索、查询提供模型和方法。

异构是普遍存在的,元数据对于资源描述的特殊性和一般性的矛盾与生俱来,是其本身无法克服的。或许随着标准化的进程,DC元数据等少数元数据格式将占据主导地位,然而永远不可能统一到仅有少数几种格式。许多专业或专门领域仍然会有大量的元数据方案,这些元数据方案可能局限于一个狭小的领域,其本身就是一种领域本体,但是只有专业的元数据对于专业的应用才是最合适的,与学科外其他领域的互操作性考虑是次要因素。在网络环境下要联接这些“信息孤岛”,必须有某种程度的互操作解决方案,而且最好是标准的解决方案,这就需要在元数据之上再建立某些机制,来灵活地实现信息系统之间的互操作。知识本体的本质就是领域知识的共享和重用,标准化和形式化的领域本体能够为信息系统之间的高层互操作提供很好的工具。

什么是知识本体?

知识本体(Ontology)被赋予了太多的含义,从抽象的哲学思辨,到实用的计算机推理。牛津英语辞典里对“Ontology”的解释是“对于存在的研究或科学(the science or study of being)”,人工智能领域经常引用Gruber在1993年的定义“概念体系的规范”(specification of conceptualization)(注:见:http://www-ksl.stanford.edu/kst/what-is-an-ontology.html(2004/4/24)),1998年Studer等人在这个定义的基础上对于本体的特点给出了一个较为明确的解释:“知识本体是对概念体系的明确的、形式化、可共享的规范说明”(见参考文献)。直观地,我们可以把知识本体看成是“领域知识规范的抽象和描述,表达、共享、重用知识的方法。”

如果把每一个知识领域抽象成一套概念体系,再具体化为一个词表来表示,包括每一个词的明确定义、词与词之间的关系(例如用代属分参关系)以及该领域的一些公理性知识的陈述(例如“所有的期刊论文都是出版物”)等,并且能够在这个知识领域的专家之间达成某种共识,即能够共享这套词表,所有这些就构成了该知识领域的一个“知识本体”。最后,为了便于计算机理解和处理,需要用一定的编码语言(例如RDF/OWL)明确表达上述体系(词表、词表关系、关系约束、公理、推理规则等)。在这个意义上,知识本体已经成为一种提取、理解和处理领域知识的工具,可以被应用于任何具体的学科和专业领域。实际上图书馆领域很早就在进行类似的工作了,主题词表、分面分类的思想即是初始的萌芽,今天能够通过严格的形式化之后借助计算机的强大处理能力,可以说对网络知识的“整序”已经呈现出令人激动的曙光。

对某个知识领域每个人的认识从内容到形式都可能是不一样的,通用的高层知识本体(Common Ontologies)常常从哲学的认识论出发,其概念的根节点往往是时间、空间、事件、状态、对象等抽象术语,而且不一定需要形式化;领域本体(Domain Ontologies)专注于解决领域知识的抽象,较为具体,容易进行形式化和共享;术语本体(Terminology Ontologies)常常表现为一个词表,概念关系的抽取较为随意和简单,不严格要求,甚至可以没有概念定义,例如著名的WordNet本体;形式本体(Formal Ontology)对于概念术语的分类组织要求较为严格,需要按照一定的分析原则和标准,明确定义概念间的显性、隐性关系,并明确各种约束、逻辑联系等,这类本体常常由术语本体发展而来,但却与术语本体没有截然的界限;另外还有表现本体、任务本体、方法本体、混合型本体等。

如上所述,某个具体领域的知识本体不可能是唯一的,形式化方式手段也可以不同,但是不同的知识本体必须通过某种机制进行交换,形式化的方式也需要标准化,这就是知识本体语言的作用。

知识本体的作用

知识本体对于数字图书馆有多方面的作用,从宏观上说,知识本体能够:

·对于领域知识进行分析、明确,并使其形式化;

·在人、机器(表现为软件代理)以及人与机器之间共享对于信息及结构的共同理解;

·实现一定程度的领域知识的重用(例如以一个专业叙词表为基础的知识本体在专业领域中的重用);

·使领域公理得到明确描述从而达成共知。

一个应用了知识本体和元数据的数字图书馆系统,资源的组织在微观层面都是依据各种规范的元数据方案,资源之间的宏观联系依据知识本体所形式化的联系模型,知识本体使各类元数据方案联系成一个立体的知识网络,并能使资源按照知识网络中的不同属性,或同一种属性的不同编码体系,呈现出规范有序的知识地图,供浏览或检索。并且还可以通过开放某些标准的元数据接口,或提供某些可供各式转换的映射表,向某些登记系统(例如UDDI)进行注册,从而达到更大范围的互操作。

简要总结上述应用,可以看到知识本体在数字图书馆中可以有如下作用:

·提供资源库领域知识的规范描述;

·提供描述型元数据有关语义描述的知识地图;

·提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议的一部分;

·提供智能代理与信息环境之间基于语义的理解机制;

·跨平台、跨系统之间的通信中介;

·分布环境下查询请求的语义理解、自动分发;

·提供计算机支持的协同工作(CSCW)的能力;

·用于数字图书馆中的数据挖掘。

针对上一节提到的元数据标准规范的问题,知识本体正好从某种程度上弥补了元数据的不足:

·元数据方案不具有普遍适用性。无法克服特殊性与一般性的矛盾,而形式化的知识本体可以提供一种在元数据方案之间自动映射的机制,通过语义Web服务的体系架构进行实现;

·元数据应用难以实现元数据方案本身的进化,而知识本体可以提供信息系统的其它视图,只需要通过自动或半自动的手段应用新的元数据方案;

·元数据方案自身难以对不同知识体系、不同“粒度”的资源进行描述,而知识本体正是起到这个作用,从而实现异构资源和系统之间的语义联系;

·单纯的元数据方案对于数字资源的整个生命周期的描述非常困难,而采用以诸如FRBR模型为基础的知识本体,这个问题便迎刃而解,不同生命周期的知识产权属性也非常易于描述;除此之外,知识本体同时也在一定程度上解决了诸如灵活性和可扩展性问题,以及在资源集合层面的整合的难题。

知识本体如何实现功能?

知识本体作为数字图书馆语义模型的形式化,主要功能体现在信息资源的组织和信息检索查询两个方面,见P52图1所示:

图1

数字图书馆的资源不论是虚拟的还是实在的,不论涉及单个还是多个信息系统,其涉及的实体类型往往不可能是单一的,这些类型之间也往往具有复杂的关系,因此很难用一套平面的元数据方案进行数据组织。例如傅雷翻译罗曼·罗兰的作品《约翰·克利斯朵夫》,曾经有译林出版社2002年、哈尔滨出版社2000年、中国友谊出版公司2000年、河南人民出版社1998年、安徽文艺出版社1990年......平明出版社1952年等数十家出版社几十个版本,并且还有翻译手稿、有声读物、衍生电影、戏剧剧本和声像资料、英文原版著作等相关资料,以及傅雷和罗曼罗兰生平资料等等,这些信息不论是否存在于分布的信息库中,都应该通过一定的方法进行有效的映射和描述,但显然现有的平面的元数据方法是无法实现的,但是利用本体模型(例如用ABC本体模型,见图2所示(注:本例的资源对象关系分析把傅雷的译作当作对原作的再创作,作为具有翻译关系的“作品”(WK1)。))却能清晰准确地揭示这些资源对象的各类属性及相互关系,这种描述方式对音像出版物等多媒体资源所涉及的复杂责任关系和版权关系特别有帮助。知识本体模型原本就是对领域知识的归纳和形式化,目的就在于共享和重用,因此特别适合作为信息模型对知识系统进行描述、表达和呈现。

图2 ABC本体模型描述傅雷翻译作品《约翰·克里斯朵夫》

如果我们把图书分类法看成一种基本的简单的知识本体,一个书目数据库就可以按照分类法的层次结构组织成一个庞大的树,每一片叶子就是一本书。这样可以形成一个简单的、一维的知识导航地图。当我们同时采用分类主题词表或其它分面分类方法对资源的内容从不同的“本体”角度进行揭示,整个资源库(数字图书馆)就有了多维的导航机制。更进一步,通过不同知识本体的映射可以动态建立从一个信息库到另一个信息库的语义连接,这种连接并非预先设立的,而是“后组”的。并且如果有本体注册服务中间件或代理进行自动的翻译、映射服务,就能从很大程度上解决知识的跨库提取、动态浏览展示以及异构系统的动态勾连等问题,实现数字图书馆彻底解决异构信息检索的目标也就为期不远了。

对于查询请求来说,知识本体的应用能够实现许多以前无法实现的查询请求,例如基于多种关联关系的查询:“何时何地何人做了什么”。并且基于查询处理中介或代理的帮助,查询提问式可以智能地处理成复合不同资源集合的规范词或者表达式形式,自动分发到不同的资源站点进行查询,同时还可以对返回结果进行基于本体的排序处理,将最终结果返回给用户。

知识本体的创建

知识本体有多种形式。元数据方案本身可以看成是知识本体的一种形式,或者一类简单的本体。元数据方案的制定是对一个应用系统相关的实体进行分析并提取属性的过程,如果在此基础上继续对所涉及的各种实体类型的关联关系进行详细分析,最终就能导出本体模型。元数据方案的制定过程就是一种知识本体的建立过程。

除此之外,许多叙词表和分类表等本身就是领域知识的概念体系,包含丰富的关系,虽然许多关系可能不是非常严密,但它们也都可以看成是一类知识本体。上述两种知识本体的初级形式经过规范化和形式化之后,都可能成为计算机可以操作的本体工具。

目前支持本体开发的工具多达数十种,功能各不相同,对于本体语言的支持能力、表达能力、逻辑支持能力以及可扩展性、灵活性、易用性等都相差很大,其中较著名的有Protégé-2000、OntoEdit、OilEd、Ontolingua等。Protégé-2000是目前较活跃的本体工具,是可以免费获得的开放软件,目前的版本是2.0.1版,已经有16500多注册用户使用。它用Java语言开发,通过各类插件支持多种本体格式,甚至已经能够支持刚刚发布的,也是目前最有前途的W3C的OWL格式。

图3 知识本体的建立和应用

与元数据标准规范一样,本体的价值在于共享和重用,而且是基于机器之间进行语义理解的共享和重用,因此形式化是非常重要的。形式化语言经过数年的发展目前已基本定位到了W3C主导的OWL语言,因此对于图书情报界来说,我们目前应该更多地关注图书情报学长期积累的许多“知识体系”,是否能够应用新的模型、采用新的方法进行新的分析,经过规范化之后转化为计算机可以理解的本体形式,应用到数字图书馆建设中去。

标签:;  ;  ;  ;  ;  

元数据与知识本体_元数据论文
下载Doc文档

猜你喜欢