关于知识组织体系的若干理论问题_语义分析论文

关于知识组织体系的若干理论问题_语义分析论文

关于知识组织体系的若干理论问题,本文主要内容关键词为:体系论文,理论论文,组织论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

(来稿时间:2006-07-07)

分类号 G254

CLASS NUMBER G254

知识组织体系伴随着数字资源的知识组织而出现的一个新的研究课题。知识组织是资源有效利用的前提。但是怎样有效地组织知识,如何有效地提供与获取知识,知识组织面临诸多挑战。而知识组织体系则是解决这些问题的关键所在,在组织知识的活动中具有至关重要的作用。本文将对知识组织体系的几个相关理论问题作一探讨。

1 知识组织体系的概念

1.1 知识组织

知识组织的基本概念是“知识”(从可呈现角度来讲,知识包括隐性知识和显性知识,这里主要指后者)。简单说,知识是抽象化、系统化、理论化的信息,关联是知识的本质属性。所谓知识组织,就是在信息组织的基础上,研究知识的获取、描述、整理、表达、控制、共享等整个知识组织过程的理论与方法,知识组织的精髓在于对知识及知识间的关联进行揭示和组织,知识获取、知识处理、知识表达和知识共享是知识组织研究的重要内容。

以知识结构为描述对象,是知识组织有别于信息组织的典型特征。知识结构不是线性的、等级式的,而是呈网状的,概念是知识结构的基础要素;知识结构的表现形式就是具有各种关系的概念群;知识组织就是要将文献中反映知识结构的概念关系揭示出来。而要实现知识结构的描述与组织,必须依赖于知识组织体系。

1.2 知识组织体系

知识组织的基础是知识组织体系。知识组织体系是对资源内容概念及其相互关系进行描述与组织的机制[1]。所谓体系,一般指若干有关事物(或某些意识)互相联系而构成的一个整体,机制意指一个工作系统的组织或部分之间相互作用的过程和方式,体系内涵于机制之中。作为对资源内容概念及其相互关系进行描述与组织机制的知识组织体系,即是指实现知识组织的内在方式和途径,它既指知识组织的过程,也指调控知识组织的方法和手段。知识组织体系不仅仅指一套概念体系(概念体系是知识组织体系的核心),还应包括支持资源概念进行描述与组织的相关功能,如能实现资源语义概念模型的形式化,能支持资源对象的知识标引,具有知识推理能力,并支持基于语义的概念检索等。有了这套完整的机制,才能称其为知识组织体系,才能真正实现知识组织的功能。

2 知识组织体系的特点

从性质和功能上看,知识组织体系有以下特点:

(1)具有一套从领域知识中抽象出的概念体系(概念模型、语义模型、概念集合)。概念是知识的基本单元,任何领域的成果,都要以概念的形式固定下来。任何概念都不是孤立的,都处在和周围概念的一定逻辑关系中(例如等同关系、属分关系和相关关系等)。通过逻辑关系联系起来的概念的集合,就形成概念系统。概念、概念关系及对概念与关系的精确描述与规范定义是构成知识组织概念体系的基石。

(2)这一概念体系是被精确定义的。概念由内涵和外延组成。概念内涵即概念的涵义,反映概念的本质属性;概念外延是概念所反映对象的范围,表现为概念间的关系。概念体系中的概念应有严格精确的逻辑定义,概念间的逻辑关系应有规范化的描述,以便每一概念在概念体系中有确定的位置和相应的范围。精确性或明晰性是概念体系的重要特点。对概念体系的明确定义和规范描述是知识组织体系成为普遍有效的严密体系的基础。

(3)支持概念体系的形式化描述。形式化是一种依靠数学模型来描述、规范、设计和验证计算机系统的方法,也称为形式化分析方法和规格说明方法,包括各种基于数学的表示法、规范语言以及对应的工具[2]。概念体系的形式化描述即是用基于描述逻辑的知识表示语言(如OIL、DAML、DAML+OIL、OWL)对概念体系进行编码,使知识组织体系具有强大的知识表达和推理能力,为计算机理解和处理语义提供可能,从而有利于Web环境下知识组织概念体系的共享、交换和高效检索。

(4)以语义标引为中枢。语义标引(或知识标引)是知识组织体系的核心。元数据是知识组织系统的语义基础,借助语义标引工具,按照知识组织体系的概念及关联,对资源对象进行概念分析、分类、标引、描述和处理,形成机器可以理解的带有语义信息的元数据。对资源对象进行基于元数据的语义标注,可使相对独立、没有语义的信息集合形成具有语义关联的知识网络,也是实现基于知识、基于语义检索的基础。

(5)支持概念体系的知识展示。知识展示是通过一定的知识表示技术,以直观、形象的方式揭示概念体系的语义联系,展现反映知识内容和概念关联的知识网络。知识组织体系是面向知识检索的,所谓知识检索,是基于知识组织体系、能够实现知识关联和概念语义检索的智能化的检索方式[3],是知识组织所要达到的最终目的,也是知识组织体系最根本的应用。支持以知识网络的方式展现概念体系,实现知识的有效获取,是知识组织体系的重要功能特征。

3 知识组织体系的结构

知识组织体系的精髓即是对概念及概念间关系进行描述与揭示。根据对概念及关系的揭示程度,它大致包括概念类聚体系和概念关联体系两个层次。

(1)概念类聚体系强调概念间层级聚类和类别聚类。分类表和主题词表是最具代表性的概念类聚类体系。

分类表,也即分类法。分类表是按学科内容组织概念的分类系统。以等级结构显示文献主题概念间的关系,按学科体系排列类目,是分类表的特点。分类表提供了从学科专业检索文献的途径,满足族性检索的需求,具有较强的系统性。

主题词表,也包括叙词表。主题词表是按事物性质组织概念的主题系统,是一定领域规范化的主题词及使用规则的概念集合体。它以表达文献主题内容的词语作标引对象,按主题词的字顺序列组织文献,并用参照系统显示概念之间相互关系。主题词表提供按事物名称检索文献的途径,满足特性检索需求,有较强的专指性和集中性。

由于分类表和主题词表都是从内容角度组织资源的方法,两者表达的对象都是资源的主题概念,本质上都是一种主题概念的标识系统,所以两者之间存在着隐含的概念对应关系[4]。分类主题词表即是分类表和主题词表有机结合的产物,可满足对资源分类组织与主题组织的需要。

(2)概念关联体系不仅强调组织概念,更注重概念关联的组织。词网(Word Net)、概念图、主题图、本体等是典型性的概念关联类体系。其中本体是最能体现知识组织体系特点的技术和方式。

词网是一部在线词典检索系统,侧重对英语词汇及其关系进行描述,是基于英文的词汇语义网络系统。目前包含大约95600个词条,由其名词、动词、形容词和副词组织成约70100个词义或同义词集,每一个集合表示一个基本的词汇概念,并在这些词汇概念间建立了多种语义关系。

概念图强调以图的方式描述并展现知识,包括概念(concepts)、命题(propositions)、交叉连接(crosslinks)和层级结构(hierarchical frameworks)的四个图表特征,其结构由节点、连接和标注构成。概念图是表示概念和概念之间相互关系的空间网络结构图。

主题图侧重以可视化方式表示知识概念间的相互联系,通过由主题(Topic)、关联(Association)和呈现(Occurrence)三个核心概念组成的主题图数据模型来描述主题、主题间的关联性以及主题与资源实体之间的关系,并联结与其相关的资源。主题图是利用XTM标记语言表达数据模型的,XTM基于IS013250标准,定义了用XML描述和标记主题图的方式,可开放地标记、存储和传输主题图数据。通过主题图可以展现资源的知识结构。

本体是通过领域知识的逻辑抽象而构筑起来的体现概念及关系的概念系统,是面向领域的通用概念模型。本体对概念及概念间关系的描述是规范的、明确的、形式化的,可共享的。目前多采用基于描述逻辑的知识表示语言(如OIL.DAML、DAML+OLL、OWL)来对本体概念体系进行编码,从而为计算机理解和处理语义提供可能。通过本体可将资源组织成具有语义关联的知识网络。

4 知识组织体系比较分析

4.1 概念类聚体系是较低层次的知识组织体系

由于分类/主题词表不强调组织概念关联,没有实现语义层面的资源标注,因而无法准确、完整地显示资源的知识结构,所组织的知识也不能以知识网络方式显示。因此,从以分类/主题词表构建的资源系统中获得的还是文献(信息)的集合,而不是知识的集合。严格说,分类/主题词表难以归属真正意义上的知识组织体系,称之为基于知识的信息组织体系比较合适。因其一直被作为组织知识的工具,可以视为较低层次的知识组织体系,或者称其为传统知识组织体系。不过值得注意的是,2005年问世的《中国分类主题词表》电子版注重了概念关联处理,加强了概念成族和概念的结构化,为参照系统中的每个主题词建立语义系统架构的节点,形成了语义结构图[5],为应用于Web环境下资源的知识组织与整合奠定了基础。

4.2 概念关联体系体现了知识组织的精髓

与概念类聚体系相比,概念关联体系更注重概念关联的组织,是较优的知识组织体系。词网、概念图和主题图有相似之处,都是用节点和关联(弧线、连接)表示概念及概念之间的关系,主题图与概念图在以图形的方式展现知识结构和组织信息资源方面也非常相似。但主题图不仅能定义概念,展现概念关联,实现词网和概念图的功能,而且其功能更优。例如主题图具有灵活定义概念间关系类型的功能,用范围(scope)定义了某个概念或者概念之间的有效关系范围;重要的是,主题图采用显示(occurrence)来指向包含这个概念的资源,将主题领域和资源领域链接起来。同时,主题图定义了不同的主题和主题图之间的合并,这就有利于主题图的扩展和重复利用[6~7]。

4.3 本体是新型的知识组织体系

在概念关联体系中,本体与主题图都具有较强的描述资源概念及概念间相互联系的功能,但本体优于主题图之处在于,本体能更规范、准确地描述概念含义以及概念之间的内在关联,可以构造丰富的概念间的语义关系,形式化能力最强,同时具有高度的知识推理能力,能通过逻辑推理获取概念之间的蕴涵关系。这些都是主题图逊色的地方。所以本体是一种适应知识组织与知识整合需要的新型知识组织体系,特别是本体在Web上的应用,导致了语义网的诞生,并成为语义网结构的主干和核心。

4.4 本体与其他知识组织体系有本质区别

由于描述概念关系是本体的基本属性,所以学界有一种看法,即凡是有关联的概念集合都称之为本体。如计算机界一般将词网当作典型的本体[8],图书情报界则多将分类表/主题词表作为简单的本体(或轻量级本体)[9]。本体具有泛化的倾向。

虽然词网、分类/主题词表都是包含词及词间关系的词表,特别是词网较重视词间关系的揭示,但它们与本体最大的区别在于:不能揭示更深、更广的语义关系(尤其是分类/主题词表中的词间关系有限,词语和词间关系的精确程度不高),没有自身的知识表示语言,不能实现形式化编码,无法支持资源的知识标注和知识检索,所以在描述、处理知识方面具有很大的局限性。因此,本体与词网、分类/主题词表等在性质和功能上有着本质差异,之间不能简单地画等号。但这并不意味着它们是相互排斥的,在应用目标一致的情况下它们可以相互补充、相互融合。因为,本体的基础是概念系统,而领域概念及关系的获取既是本体构建的关键,也是一个难点,分类表、主题词表、词汇表、术语词典等完全可以作为构建初始本体的基础。目前国内外已经关注分类/主题词表与本体的融合、转换[10~12]。

5 作为新型知识组织体系的本体

利用本体组织资源的理论依据来源于哲学本体论。本体论的核心是采用逻辑方法来推论概念或范畴间的相互关系,是从现实实在中通过逻辑抽象而构筑起来的体现概念及关系的原理系统[13]。它对寻求知识组织方法的人们予以启示。近些年国外学者对本体论概念的界定[14~16],都不同程度地借鉴了哲学本体论的精神内涵、概念及关系的抽象表述;对本体的开发与应用,也正是以哲学本体论为理论依据,循着哲学本体论构造“是”和“所是”的概念体系的思路,来组织信息资源这一“现实世界”中的知识,通过形式化手段来抽取、描述反映知识的概念体系。哲学本体论对当前本体的研究与开发有指导意义。

5.1 本体概念的基本内容

根据有关文献[17~19] 对本体概念的介绍和目前本体的开发应用,可以归纳出本体概念的基本内容:

(1)本体是反映特定领域知识结构的概念体系。概念和关系是构成本体的基石。

(2)本体是精确定义的概念体系。表现为对概念外延和内涵规范、明确的表述,对概念间的逻辑关系的规范化描述以及该领域一些公理性知识的明确陈述。

(3)本体是形式化描述的概念体系。本体采用基于逻辑描述的知识表示语言对概念体系进行描述与处理。

(4)本体是支持知识标引和知识检索的概念体系。采用本体标引工具对资源进行语义标注,满足知识检索的需要。

(5)本体是共享的概念体系。本体概念体现了相关领域中共同认可的知识,是领域约定的“范式”。

综上所述,我们可以这样来理解本体:从理论上说,本体是领域知识的逻辑抽象而构筑起来的体现概念及关系的概念系统(“概念化”或“概念模型”)。从方法上看,本体是一种明确定义、规范描述和共享领域知识的方法和手段。

5.2 本体的主要类型

国外对本体的分类有:Guarino的四分法:顶级本体、领域本体、任务本体和应用本体;Perez、Benjamin的十分法:知识表示本体、普通本体、顶级本体、元(核心)本体、领域本体、语言本体、任务本体、领域-任务本体、方法本体和应用本体[20]。上述分类有内容上的交叉性和概念上的模糊性。

本体分类应立足于以下两点:首先,本体是面向应用的,不存在脱离应用的本体;其次,本体是特定应用领域的本体。由此,本体可大致分为领域本体和通用本体两大类。

(1)领域本体。领域一般指学术思想或社会活动的范围,所以领域不仅指学科活动领域,也包括各种社会活动的领域;领域本体是对领域知识的规范描述。领域本体有三个特征:①面向应用;②针对某一特定学科领域或某一特定社会活动领域;③描述了某一特定学科领域或某一特定社会活动领域中的概念、概念的属性和概念间的关系以及某些需要遵从的规则。

(2)通用本体。通用本体是若干不同领域的共享本体,处于各领域本体的顶层。通用本体是具有普遍意义的概念集合,普适性是其基本特征。通用本体中定义的概念是在一定领域范围内普遍使用的概念,可以是抽象概念,也可以是具体概念;通用本体和领域本体概念间存在不同程度、不用层次的映射关系。在整合各领域本体使多个领域本体成为一个有机整体的过程中,通用本体发挥着整合器的重要作用。

5.3 本体的基本功能

本体既是一种新型知识组织体系,也是资源知识整合的重要方式。基于本体的知识整合的主要功能表现为:

(1)本体的构建为实现资源一体化的知识整合奠定基础。基于本体的知识整合可应用于网络资源、异构资源系统及信息门户的资源整合等多种领域,其基本思路都是一样的,即是在资源集合的上层构建一个反映资源知识结构的本体概念模型。如果针对不同领域的信息集合建立起相应的领域本体,在此基础上,通过不同本体的语义映射实现异构资源和系统之间的语义联系,即可将各个相对独立的领域本体资源联系成一个立体的知识网络,人类所拥有的资源就呈现出具有完整结构、规范有序的知识地图。

(2)本体的构建使得领域知识可以重用和共享。共享是本体的重要特征,即指本体概念体现的是共同认可的知识。这如同美国哲学家托马斯·库恩提出的被某一科学共同体所公认的“范式”[21]。可以说,本体概念体系是一种公约。由于本体反映的是相关领域中公认的概念,所以如果一个组织构建了专业领域本体,如法学本体、经济学本体等,其他组织可以共享和复用。基于本体的资源整合能够真正实现领域知识的共知、共识和共享。

(3)在本体的支撑下实现基于语义的知识检索。实现知识检索是本体的重要应用之一。本体作为领域知识的语义模型,其主要功能体现在知识组织和知识检索两方面。知识检索是知识组织的逆过程。实现基于概念语义的知识检索,必须有赖于知识组织体系的支撑。只有以基于本体的知识组织体系为基础,以领域本体的概念模型作为资源元数据的规范描述标准,才能真正实现基于语义的知识检索。

6 本体与语义网

目前的万维网是数据网、信息网。语义网的实质是提供具有语义的知识网络。其基本思想是在万维网信息中加入计算机可以理解的具有语义的元数据,使计算机具备更强的处理数据的能力,便于人和计算机之间的交互,从而将万维网中一个个信息孤岛发展成一个巨大的具有语义关联的数据库[22]。

语义网基于万维网,是万维网的扩展,但在资源的组织方式和显示方式上与万维网有着本质的不同:以元数据作为资源的描述标准,以XML作为置标语言,以RDF作为描述资源语义的通用框架,通过本体赋予资源数据以语义。元数据用以描述数据的特征、属性,提供了资源对象的语义基础,使资源有了基本的微观结构,为资源的发现与管理奠定了基础;XML通过DTD描述文献的内容与结构,为组织文献元素提供了一个整体框架,其置标的形式化,使文献表示与系统和处理无关,有利于信息的交换与多种应用;但XML只具有语法功能而不具备语义描述能力。RDF作为一种标准化的元数据语义描述规范,提供了资源语义描述的手段,解决XML的语义局限。XML和RDF的结合,虽然建立了描述层的格式与语法环境,可以实现数据基于语义的描述,但这两个层次都不能赋予数据以语义。本体则提供了资源的语义模型,实现了资源语义的描述,最终解决资源的语义异构,使万维网由数据网、信息网进化到知识网。

简言之,本体在资源知识组织中的作用是在资源集合的上层构建一个反映资源知识结构的本体概念模型,对资源进行基于语义的标注,从而将资源组织成知识网络,实现知识检索。本体在语义网中就是起着知识组织体系的作用。以本体知识组织体系为基础,将网络资源组织成一张巨大的知识网络,可以实现网上信息资源在语义层上的全方位的互联,实现对异构、分布的网络信息的有效检索和访问。也就是说,语义网的核心是本体,没有知识组织体系的支撑,基于语义关联的新一代万维网就无法实现。

需要指出的是,语义网实际上是对人类知识整合的一个大环境,是人类知识的一个宏观网络,它需要各个领域许许多多的微观和中观本体的构建才能得以实现。从学科领域本体的角度说,“经济学本体”、“法学本体”可以看作是学科领域的微观本体,“社会科学本体”则是学科领域的中观本体。微观是中观的基础,中观是宏观的基础。没有微观本体为基础,也就难以进行中观层面的本体整合,宏观层面的语义网的知识整合也就无法实现。所以,各个领域本体的构建对于语义网的实现至关重要。

标签:;  ;  ;  ;  ;  

关于知识组织体系的若干理论问题_语义分析论文
下载Doc文档

猜你喜欢