聚焦信息组织研究的前沿——面向网络信息组织的本体开发,本文主要内容关键词为:组织论文,信息论文,本体论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 “本体热”:现象与分析
1.1 学界动态
近来一些情况表明,本体研究成为国内信息组织研究领域的一个前沿热点。
(1)近两、三年来图书馆学情报学核心期刊(其认定以北京大学图书馆等单位主编的《中国核心期刊要目总览》第四版为依据)上以本体为主题的论文数量成逐年增长趋势。经粗略统计,2003年相关文章不过零星数篇,2004年达20篇左右,而2005年截止到8月份已逼近30篇。这些文章以介绍、引进国外研究成果为主,内容大体包括本体基本理念,本体与传统检索语言的比较,本体开发程序、描述语言和编辑工具,以及本体在信息检索、数字图书馆、Web服务、企业集成等领域的应用等。但必须指出的是,总结、交流国内自主开发本体的实践经验的文章尚难得一见,规模较大、基本成形的本体也鲜见报道。就国外同类研究的发展轨迹来看,此类基础性研究成果恰是本体应用所必需,理应先行。可以认为,国内本体研究文献尽管总体数量已渐趋丰富,但深度仍是有限。
(2)一些新近出版的信息组织专门教材已吸纳本体研究的现有成果作为教学内容。如戴维民先生主编的《信息组织》就在其“网络信息组织”一章中专设一节,从语义网研发的大背景入手,对本体概念的历史演变,网络本体语言的发展、构成原理、开发方法及应用领域等,作了较为系统的梳理与介绍。从我们掌握的情况来看,这可能是国内同类教材中首次将本体知识内容整合入课程体系。无独有偶,由周宁先生主编的一部同名教材,也在2004年修订时在其“知识组织”一章的“知识组织工具”一节中补充了本体的一些知识内容。两位学者的不谋而合,反映出学界对本体理论与方法在信息组织领域应用前景的肯定与关注。
另外,围绕本体展开的研究主题近来还屡屡出现于一些基金项目、研讨会及博、硕士学位论文的选题中。
1.2 理性解读
追溯本体发展历史,可知早在上世纪90年代伊始,本体即成为包括知识工程、自然语言处理和知识表示在内的诸多研究领域的热门课题。十余年后,信息组织界的这轮本体研究热潮,实质上发端于“万维网之父”蒂姆·伯纳斯·李(Tim Berners-Lee)的“语义网(Semantic Web)”理念。基本设想是通过本体论对领域知识的概念化建模和形式化编码,为Web提供计算机可理解且体现自然语义的语义基础架构,促进人与机器间的理解和协作,为人类社会提供范围广阔的智能化Web服务。伯纳斯·李还提出了语义网基本技术框架[1]。
单就理论上而言,信息组织界最为关切的语义检索问题在此新一代Web中似可迎刃而解。也就是说,“语义网”计划的提出为改善备受诟病的网络信息检索现状提供了新的技术思路。这正是当下信息组织界对本体研究抱以如此热忱之初衷所在。目前Web上的信息主要以搜索引擎方式予以组织、检索。该工具的检索方式,基本上基于串匹配手段,即都是属于“关键词检索”的范畴。然而由于众所周知的原因,在查全率和查准率这两项指标上,基于“串匹配”的关键词检索,其检索质量恐怕很难再有提升[2]。“串匹配”检索思想实际上是囿于Web在信息表达与组织方面的缺陷而不得不采取的权宜之计。而Web在信息表达与组织方面的缺陷又是其为达到今天这一普及性所不得不选择的技术发展路径的“后遗症”。因此就信息组织的视角来看,“语义网”变革实质上是Web在结束以“数量扩张”为中心的高速增长期、迈入以“质量建设”为中心的成熟发展期之后,对自身信息组织范式的转型。
这一转型的目标是以本体为核心的语义基础结构的“生产与供给”,它正从句法和语义两个层面展开:
(1)句法层面。句法层面的变革,始自上世纪90年代初期XML(eXtensible Markup Language,可扩展标记语言)的出现。早期的HTML语言,具有简单、灵活的优点,但其设计目标仅是用来表示数据显示的布局,主要面向用户直接阅读,没有将信息的表现形式、内在结构和表达内容相分离,因而非常不利于计算机直接阅读和处理。正是XML的诞生将数据的内容与布局区分开来,从内容表达上为网络信息检索中的自动分析处理提供了可能性。尽管当前Web语言还是以HTML为主(毕竟HTML仍然拥有许多优点),但XML作为Web上结构化文档和数据的统一语言,已成为未来的Web语言和数据交换的标准[3]。
(2)语义层面。W3C最初推荐使用RDF(资源描述框架)构建起一个关于资源和它们之间关系的语义数据模型。后来又发展了RDF(s)(资源描述框架结构表)来解决语义的互操作问题。现在则通过大力发展本体描述语言来进一步完善Web的语义机制,弥补RDF(s)语义表达能力的不足,更好地支持机器自动推理。目前最值得关注的研究进展是网络本体语言(OWL)标准规范体系的发布。该体系由以下6个文档构成:《网络本体语言概述》(OWL Web Ontology Language:Overview)、《网络本体语言指南》(OWL Web Ontology Language:Guide)、《网络本体语言参考》(OWL Web Ontology Language:Reference)、《网络本体语言语义与抽象句法》(OWL Web Ontology Language:Semantics and Abstract Syntax)、《网络本体语言测试用例》(OWLWeb Ontology Language:Test Cases)及《网络本体语言应用案例和需求》(OWL Web Ontology Language:Use Cases and Requirements)[4]。
2 面向网络信息组织的本体:功能与原理
2.1 本体的定义与基本用途
本体的定义尚无定论,林林总总,反映出其作为新兴知识领域的特征。得到较广泛认同的是1993年Gruber给出的定义:“本体是概念模型的明确的规范说明”[5]。1997年Borst将之稍作修改,提出:“本体是共享概念模型的形式化规范说明”[6]。1998年Studer进一步完善为:“本体是共享概念模型的明确的形式化规范说明”。最后一个定义揭示了本体的四层含义,即:(1)概念模型(conceptualization),指通过抽象出客观世界中一些现象的相关概念而得到的模型,其表示的含义独立于具体的环境状态;(2)明确(explicit),指所使用的概念及使用这些概念的约束都有明确的定义;(3)形式化(formal),指本体是计算机可读的;(4)共享(share),指本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体[7]。
通俗地讲,本体的目标就是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇相互关系的明确定义。由此构建的本体,具有知识重用与共享的基本用途,可以作为人、机间通讯、互操作及系统工程的基础。
2.2 本体的“世界观”
可以看出,当前的本体本质上是人类在自身认识领域的一种知识建构,只不过更加的面向机器、依赖机器。尽管在理论层面上,对本体的认识尚未统一,故而具体的方法与技术层面也呈现出多元化局面,但在以下看待、诠释世界的抽象原则上,却存在着基本共识:(1)世界存在着对象(Object);(2)对象可以抽象出类(Class);(3)对象具有属性(Property or Attribute),属性可以赋值(Value);(4)对象之间存在着不同的关系(Relation);(5)对象可以分解成部分(Part);(6)对象具有不同的状态(State);(7)属性和关系随着时间(Time)的推移而改变;(8)不同的时刻(Instant)会有事件(Event)发生;(9)事件能导致(Cause)其他事件发生或状态改变,即产生影响(Effect);(10)在一定的时间段上存在着过程(Process),对象参与到过程当中[8]。
2.3 本体的构成与分类
就理论层面而言,可以认为本体由概念(Concept)、属性(Property)、公理(Axiom)、取值(Value)及名义(Nominal)这五要素构成。其中,概念分为“原始概念”(属性是必要条件而非充要条件)和“定义概念”(属性是充分必要条件);属性是对概念特征或性质的描述;公理是定义在概念和属性上的限定和规则;取值是具体的赋值;名义是无实例(Instance)的概念或者是用在概念定义中的实例[9]。
根据本体不同方面的属性可以对其进行不同的分类。如根据形式化程度,可以将其分为高度非形式化的(highly informal)、结构非形式化的(structured-informal)、半形式化的(semi-formal)和严格形式化的(rigorously-formal);而根据研究对象层次,则可以将其分为顶层本体、领域本体、任务本体、应用本体;另外还可按本体的主题划分等,不再赘述。
2.4 本体在网络信息组织中的地位与作用
本体在网络信息组织中的地位与作用,以前文提及的伯纳斯·李在2000年提出的语义网标准体系结构(如图1所示)来做诠释,是再清晰明了不过了。
附图
图1 语义网构成的标准体系结构
(来源:http://www.w3c.org/2000/Talks/1206-xm12k-tbl/slide10-0.html)
该标准最底层是统一资源标识符(URI)和统一字符编码(Unicode)。这一层解决的是语义网中资源的定位和跨地区字符编码的标准格式的问题。语义网标准的第二层是可扩展标记语言(XML)、域名系统(Namespace)以及可扩展标记语言结构表(XML Schema)。第三层是资源描述框架(RDF)和资源描述框架结构表(RDF Schema)。这两层相结合,人们就可以建立各自的“语义网”。但要让计算机相互理解对方的语义,需要有一套共同的概念体系,这就是第四层本体语言词汇表(Ontology vocabulary)。“XML+RDF(s)+Ontology”就构成了计算机间相互理解的基础,也就是改造万维网、建立起语义网信息组织范式的三大核心技术。在本体层上要进一步做一些逻辑推理工作,这就是第五层逻辑(Logic)。接下来就是保证信息是可信赖的,这就是其余两个层次,即论证(Proof)和诚信(Trust)。
从信息组织的视角来看,其关键层次是本体语言词汇表,如同过去检索语言在文献信息组织中的地位和作用。其区别在于本体是机器可理解的,它支持机器的逻辑运算与自动推理,从而有望实现“智能化”的语义检索。
3 面向网络信息组织的本体的开发:方法与手段
如前所述,本体开发已经有十多年的历史,积累了不少开发方法,发展了不少本体描述语言以及计算机辅助开发工具。面向网络信息资源组织的本体开发可以从这些积累中获得众多有益资源。
本体开发本质上属于工程建设范畴,工程思想的核心有两点:标准化的表达方式和规范化的工作步骤。考虑到国内尚未有成熟的开发方法、描述语言及软件工具问世,下面对国外已有成果作一概要梳理,以求对国内相关研发有所参考。
3.1 开发程序
本体开发的标准化程序是一个颇受关注的问题。目前还没有比较完善的通用标准产生,但1995年Gruber提出的5条准则是非常有影响力的指导标准,即:(1)清晰性(Clarity)、明确性和客观性,即本体应该用自然语言对所定义的术语给出明确、客观的语义定义;(2)完全性(Completeness),即所给出的定义是完整的,完全能表达所描述的术语的含义;(3)一致性(Coherence),即由术语得出的推论与术语本身的含义是相容的,不会产生矛盾;(4)最大单调可扩展性(Extendibility),即向本体中添加通用或专用的术语时,不需要修改已有的内容;(5)最小承诺(Minimal ontological commitment)和最小编码偏好(Minimal encoding bias),即对待建模对象给出尽可能少的约束[10]。
下面介绍3种发展于具体的本体开发项目的方法[11]。
(1)英国爱丁堡大学智能应用研究所的“骨架法”(Skeletal Methodology)。包括:①确定本体的目的和范围;②构造本体,包括本体捕获、本体编码及本体集成;③本体评价;④文档化,指有关的方针性的建议;⑤每阶段的指导准则。
(2)加拿大多伦多大学企业集成实验室的“评估法”(Enterprise Modeling Methodology,又称TOVE)。包括:①背景和需求描述;②非形式化的能力问题描述;③用一阶谓词逻辑形式化术语;④形式化的能力问题描述;⑤用一阶谓词逻辑形式化公理;⑥确定完备性定理。
(3)马里兰大学的METHONTOLOGY方法。包括:①规格说明书;②知识获取,即确定本体的来源及获取技术;③概念化;④集成;⑤用任何一种形式化的语言编码实现本体;⑥评价,包括正确性(verification)和有效性(validation);⑦文档化。
3.2 描述语言
本体描述语言可以分为基于AI(人工智能)的描述语言和基于Web的描述语言这两大类。考虑到W3C在业界的实际影响力,我们认为可以把基于Web的描述语言这个研究领域按W3C的OWL标准规范体系的发布时间划分为两个时期。预计未来的面向网络信息组织的本体开发将越来越多地采用这一标准,开发工具也将自觉地向这一标准“靠拢”,至少保证与OWL的兼容性。我国的有关开发也理所当然地应在OWL的基础上层开。在OWL之前,其他基于Web的本体描述语言主要有SHOE(Simple HTML Ontology Extensions)、XOL(Ontology Exchange Language)、RDF及RDF(s)、OIL(Ontology Inference Layer/Ontology Interchange Language)、DAML(DARPA Agent Markup Language)等。
OWL称得上语义网发展过程中的一个里程碑。它是针对各方面需求,从DAML+OIL的基础上发展起来的,因此它既要保持对DAML/OIL/RDF(s)的兼容性,又要保证强大的语义表达能力,还要保证描述逻辑(Description Logic)的可判定推理等。诸多的功能需求决定了OWL只是多方面妥协和折中的产物。也因此OWL由以下三个子语言组成:
(1)OWL Lite。适用于只需要一个分类层次以及简单推理的用户。优点在于它易于被用户掌握,同时易于被实现。缺点也显而易见,在于其表达能力的有限。
(2)OWL DL。适用于要求较大的表达能力,但同时又要求保持计算完整性的用户。OWL DL包括了OWL语言的所有组成部分,但要求它们只能够应用于特定环境之中。例如,在OWL DL中,尽管允许一个类可以是许多类的子类,但明确要求一个类不能是另一个类的实例(instance)。OWL DL的优点在于它完全基于描述逻辑,能够提供有效的推理支持。缺点在于它与RDF不完全兼容,为了让一个RDF文件成为一个合法的OWL DL文件,需要在某些方面进行扩展。
(3)OWL Full。适用于那些需要在没有计算保证的语法自由的RDF上进行最大程度表达的用户。优点在于能够提供最大的表达性,在语法及语义上都能够与RDF兼容,一个合法的RDF文件同时也是一个合法的OWL Full文件,并且一个合理的RDF(s)文件同样是一个合理的OWL Full结论。这一优点直接造就了其最明显的弱点,即OWL Full的表达性是如此之强,以至于目前没有任何一款软件能够完全支持OWL Full的所有特性[12]。
3.3 软件工具
支持本体开发的软件工具很多,比较著名的如Ontolingua、OntoSaurus、WebOnto、Protégé系列、WebODE OntoEdit、OilED等。尤其是后四个工具,它们独立于特定的语言,可以导入/导出多种基于Web的本体开发语言。这其中,除了OntoEdit是一个单独的本体编辑工具外,其他的都是一个整合的本体开发环境或一组工具。它们支持本体开发生命周期中的大多数活动,并且因为都是模块化构造,所以具有良好的可扩展性。
值得推介的是斯坦福大学医学信息学院开发的Protégé-2000。它是一款开放源代码软件,提供了本体开发的基本功能,并具有使用简单方便、模块划分清晰、提供完全的API接口等优点,因此是众多研发机构的首选。但Protégé-2000不支持合作开发,这在网络环境下显然是一个极大缺憾[13]。
4 结束语
国外本体研究领域发展得很快,而且随着OWL标准规范体系的发布,将逐步走上标准化建设的道路。我国应立足中文特点,面向国际交流,发挥“后发优势”,加快基础理论、方法与工具的研究,并尽快发布“中文网络本体语言”规范及“网络本体开发”规范等国家标准。总之,我国的本体开发应早日走上“实用化、商品化、产业化”的道路,为中文网络事业的繁荣与发展作贡献。