数字图书馆领域本体建设研究--以数字参考领域为例_数字图书馆论文

数字图书馆领域本体构建研究——以数字参考咨询领域为例,本文主要内容关键词为:领域论文,本体论文,为例论文,数字图书馆论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着图书情报界对知识管理研究的深入,数字图书馆的知识管理渐成热门话题。数字图书馆知识管理活动中,一个重要的环节是业务领域的隐性知识显性化。这一方面要靠知识工作者将零散的知识整合起来形成知识地图或知识库,另一方面要通过设计一种管理机制,用信息技术工具支持员工的业务交流活动,并在交流过程中自动完成隐性知识显性化。这种对领域知识的显性的形式化描述,就是知识表示。

目前,国内文献大多介绍和探讨领域本体构建的基本方法,对具体领域本体的构建研究十分鲜见。数字参考咨询领域是数字图书馆中非常重要的用户服务部门,咨询馆员业务工作中的知识交流较为密集,对知识的共享需求比较迫切。因此,本文拟以数字参考咨询领域为例,探讨领域知识表示的新兴理论和工具——本体以及领域本体构建的必要性、一般方法、实现工具和应用等相关问题。

1 知识管理中领域本体构造的必要性

当前最流行的本体定义是:“本体(英文为Ontology,中文主要译为“本体”、“本体论”、“概念集”等,本文以“本体”来指称。)是共享概念模型的明确的形式化规范说明”[1]。一个领域的概念模型概述了一个领域的知识,而对领域知识“形式化规范说明”的过程就是知识表示的过程[2]。

本体的作用之一是领域知识的共享和知识的复用。在传统图书馆工作中,知识共享活动早已存在,最典型的例子就是图书馆员们使用同一种分类法和主题法。有学者认为分类主题法就是本体,这种说法并不准确:一方面,本体是对领域知识的形式化定义,“形式化”意味着是人和机器都可以理解,而分类主题法目前主要面向图书馆员,只为图书馆员所理解;另一方面,分类主题法可以向本体转化,还需要“对分类主题法作一定的改造”[4]。

分类主题法已经为图书馆员提供了领域知识共享的方式,为什么又要构建领域本体呢?从实际调研来看,分类主题法对领域知识的表示比较粗糙。比如《中国图书馆图书分类法(第四版)》中,“参考咨询”的分类号为“G252.6”,其下仅有“咨询解答工作”、“定题服务”、“书目工作”和“图书馆利用法”类目,领域术语简单笼统且术语之间的关系也没有揭示。《中国人民大学图书馆图书分类法(第六版)》,对于“咨询”仅有一个相关条目“791514咨询学”。《汉语主题词表》中,只有“参考咨询”、“参考阅览室”和“咨询服务”三个词目。《中国分类主题词表》中,也仅有“参考咨询”、“图书馆工作—咨询服务”、“图书馆工作—定题服务”和“图书馆—利用—方法”四个条目。

显然,要深入揭示领域知识,依据学科性质很浓且主要用于书目检索和藏书组织的分类主题词表是远远不够的,而形式灵活、易于维护的本体则是一个较好的选择。

2 构建领域本体的知识工程方法

由于各自学科领域的特点和具体工程的应用不同,构建本体的过程也不尽相同。李景等人分析了7种构建本体的方法体系,包括TOVE法、METH本体法、骨架法、KACTUS工程法、SENSUS法、IDEF5法、七步法[5]。任何一种构建本体方法都由一个总体的流程和各步的操作规则构成,只有设计出科学合理的流程和准确、可控的操作细节及原则,才能更好地揭示领域知识。我们以Gruber在1995年提出的5条规则[6] 作为选取领域本体构建方法的主要依据,这5条规则分别为明确性和客观性、完整性、一致性、最大单向可扩展性、最少约束。事实上,除了遵循这5条规则外,一个优良的本体构建方法还可以通过流程设计和操作规范的制定来有效地保证领域知识在面向特定应用时的完备性,使得所需知识基本“够用”。

七步法能够比较有效地遵循Gruber的5条规则,也比较符合图书情报界编制分类主题词表的惯例,因此本文选取七步法作为构造数字参考咨询领域工程方法。关于七步法,McGuinnes等人有详细论述,总结如下[7]:

①确定本体的专业领域和范畴

确定专业领域和范畴是开发领域本体的起点,这个过程应该明确本体所覆盖的专业领域、应用本体的目的、本体应该能回答哪些类型的问题以及它的系统维护者与应用对象等。

②复用现有的本体

复用是软件工程和知识工程都用到的方法。如果系统需要和其他的应用平台进行互操作,而这个应用平台又与特定的本体或受控词表关联在一起,那么复用现有的本体是行之有效的方法。

③列出本体中的重要术语

创建一份列出所有术语的清单,这上面的术语是需要声明或解释的,而且需要一份最全的术语清单,而不要担心概念间会有属性及表达上的重复。

④定义类和类的等级体系

建立一个等级体系有几种可行的方法。自顶向下法:由某一领域中最大的概念开始,而后再通过添加子类将这些概念细化。自底向上法:由最底层、最细小的类的定义开始,然后将这些细化的类组织在更加综合的概念之下。综合法:首先定义很多非常显而易见的概念,然后分别将它们恰当地归纳和细化。无论选择哪种方法,都要从定义类开始。

⑤定义类的属性插件(Slots)

除了定义类外,还必须描绘概念间的内在结构。例如,确定哪条术语是描述哪个类的属性,这些属性会成为依附于类的属性插件。通常“内在的”属性(Intrinsic Properties),“外在的”属性(Extrinsic Properties)都能成为本体中的属性插件。任意类的所有子类都继承了该类的属性插件。一个属性插件应该被附加在拥有该属性的最大的类上。

⑥定义属性插件的分面(Facets)

属性插件可以有不同的分面(Facets)来描述赋值类型(Value Type)、允许的赋值(Allowed Type)以及赋值的基数(Cardinality),属性插件可以接受的赋值的其他特征。总之,可以通过定义分面对属性作进一步的限定。

⑦创建实例

定义某个类的一个实例需要确定其所属的一个类,创建类的一个实例和添加属性插件的赋值和分面值。在面向对象程序设计中,创建实例就是创建对象,一个类可以有多个对象。同理,本体中一个类有多个实例。

3 数字参考咨询领域本体的设计与实现

3.1 数字参考咨询领域本体的设计

本体设计是领域本体构建的关键。一旦在脑中或纸上绘出了本体的蓝图,用任何工具来形式化表达都是相对简单的过程。在本小节中,笔者主要叙述如何按照“七步法”来设计数字参考领域的本体。

第一步,明确领域及其覆盖范围。数字参考咨询服务是目前图书馆界研究的热点,有大量的文章来探讨这个课题,同时也有代表性的著作问世,如中科院文献情报中心初景利博士的《图书馆数字参考咨询服务研究》[8]。通过调研这些文献,对数字参考咨询领域有了较为全面的认识,从而为后几步的工作打好了基础。

第二步,复用现有本体。首选的途径是《中国图书资料分类法》、主题词表和分类主题词表等。正如前文所言,这些原有的“本体”并没有提供一个数字参考咨询领域的详细的概念框架,不过可以借鉴其中的一些线索。

第三步,列举本体中的重要术语。这在第一步的调研文献过程中已经同步完成。在这一步中,构建数字参考咨询领域的5个顶层概念:人、信息源、咨询内容、 咨询工具和咨询制度。

第四、五、六步是领域本体设计中“慢功出细活”的工作,也是最为关键的环节。在前一节中笔者介绍了这三个步骤的主要工作,但是要做好这些工作还需要遵守一些原则。比如在定义类和类的等级体系的时候,要考虑分类等级体系的合理性、多重的继承关系等等;在定义类的属性插件及其分面时,要处理逆反属性和缺省值等问题,此外还有类、属性的命名等都有约定俗成的规范。这三个步骤的工作通过深入研究数字参考咨询领域知识中类与属性、类与类及其属性与属性来完成。

第七步,创建实例。一方面,在现有参考咨询工具书中已经提供了一些可以利用的实例;另一方面,通过第一、二步中的文献提供的线索,查阅各个网站来进一步完善实例。

笔者构建的数字参考领域的本体框架如图1所示:

图1 数字参考领域本体框架

3.2 数字参考咨询领域本体的实现

完成了本体的设计,就可以实现人与人知识的共享和重用了。不过,这不是本体设计的初衷,本体更侧重于机器(程序)间知识的共享。要实现这个目标,要用一种形式化的语言来表示本体,笔者选择OWL语言。2003年,W3C组织在XML和RDF的基础上提出了描述本体的语言——OWL(Web Ontology Language)[9]。OWL最新的标准版本是2004年2月10日发布的。

OWL可以清楚地表达每一个词条的语义信息以及各个词条之间的联系。在表达网页中的机器可理解的语义信息时,OWL比起XML、RDF、RDF-S有着更多的优势,因为它是以描述逻辑为基础的,能够表达更丰富的语义。同时,OWL是Semantic Web(语义网)语言栈中最为重要的组成部分, 也可以把它引申到其他知识系统的领域概念及其语义关系的描述中去。

目前,OWL语言包括OWL Lite、OWL DL、OWL Full三类子语言。考虑到对数字参考咨询领域语义表达需求较高的需要,笔者选择OWL DL。如果熟悉OWL语法,那么直接用OWL编写和表达领域知识是完全可行的,不过这无异于有了Dreamweaver等网页制作工具之后还用HTML语言来写网页一样。选择一个可视化的OWL编写工具往往可以事半功倍。Protégé是目前较为流行的RDF、OWL的编辑工具[10]。它是斯坦福大学医学信息研究所研制开发的开源的基于Java的本体开发工具,可以免费下载。笔者选用此工具来完成数字参考咨询领域本体的实现。

最后,用Protégé编辑的“数字参考咨询领域本体”类层次结构如图2所示。

图2 数字参考咨询领域本体的Protégé截图效果

4 总结

本体建模作为一项知识工程,和软件工程中的数据库建模和业务流程建模区别很大,需要注意以下四个方面的问题。

①软件工程中的信息建模和业务流程建模是在用户需求的框架内对领域信息世界的一个低层次描述,而领域本体建模力图对领域知识给予揭示。知识工程中,系统或者用户的需求较难明确,很难把握哪方面的知识是本体建模的重点。领域本体应该尽可能揭示领域知识,但是“尽可能”只是一个定性的描述,现在还无法证明领域知识建模的完备性。不过,这并不影响领域知识在面向特定应用时的“局部完备性”,事实上通过选取有着科学的流程和准确、可控的操作规范的本体构建方法就能实现这样的目标。同时,本体在知识表示上的可扩展性和逻辑性也使得“局部完备性”可以灵活方便地实现。

②要处理领域本体和通用本体的关系。如图1所示, 对于人的基本属性的描述是通用本体的内容,在国外的本体系统如Cyc[11] 中对“人”、“动物”等都有一般化的描述。因此,可以在已有的通用本体的基础上新建子类或者子属性,这样就可以让领域本体跟通用本体“融为一体”,这样既提升了工程效率也能提高本体的通用性。

③领域本体是对领域“存在”的揭示。随着人们对领域认识的深入和扩展,新知识不断涌现,本体的维护和演化就成了很重要的问题。一方面,本体的维护和演化是在设计本体工具和本体库时要考虑的问题;另一方面,本体的维护恰恰又能体现本体的优势,对数据库维护来说,信息需求的变化往往会导致数据库模式的变化,而本体因为其知识表示的灵活性,不需要做底层数据结构的改变。

④本体构建需要多方面专家和用户的参与。领域本体库就是专家知识库,只有专家的参与才能保障知识的权威性、准确性和完整性;同时,多方面的专家和用户的参与,可以为基于本体的应用系统提出多方面需求,也能为底层本体的设计提供参考。而本文的数字参考领域本体期待更多专家的检验和评价。

收稿日期:2006年2月23日

标签:;  

数字图书馆领域本体建设研究--以数字参考领域为例_数字图书馆论文
下载Doc文档

猜你喜欢