基于元数据的信息组织与基于本体论的知识组织,本文主要内容关键词为:组织论文,本体论论文,知识论文,数据论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
元数据和本体论都是伴随网络信息处理发展起来的新方法,它们诞生于网络时代,以庞大的网络资源作后盾,可以构筑成具有特定功能的系统,这就使元数据和本体论成为当前研究的热点之一。同时,由于信息管理与知识管理在产生背景、内涵、研究内容等方面有所不同[1],正好可以分别用基于元数据和基于本体论的视角来划分。
1 元数据概要
近年来,元数据是图书馆学界特别关注的一个涉及数字图书馆和数字资源管理的理论问题[2]。简单地说,元数据(Metadata)就是数据之数据,或描述原始数据的独立数据。实际上,元数据的精神应该是用尽可能少而精的数据反映对象尽可能多而全的信息。从纯粹理论上考虑,能用尽可能少的元数据反映尽可能多的原始数据信息,是简化问题的一种追求。
现有元数据标准据统计有25个之多[3],下面以有代表性的网络元数据标准集DC(Dublin Core)为代表进行说明,DC包含15个元素:Title,Creator,Subject and Keywords,Description,Publisher,Contributor,Date,Resource Identification,Language,Rights,Resource Type,Relation,Source,Coverage,Format。其中后4个元素被认为是具有特色的元素。
基于元数据的信息组织的本意是用尽可能少的元数据反映尽可能多的原始数据信息,因此元数据已经成为各个领域信息资源的组织方式。由于DC元数据的发展背景是Web文档,其适用格式主要是HTML文档、XML文档或其他类型的超文本文档,致使DC元数据在描述其他领域的信息资源时存在着较大的局限性,以文献类电子资源为例,用DC元数据进行描述时存在着类目或元素不足、信息真实性混乱等局限性。因此为适应本领域信息组织的要求,许多领域的组织机构纷纷建立各自的元数据标准,这些标准的形成方式主要有两种:一是在DC元素的基础上,或重新定义务元素的含义,或对DC元素进行必要的扩展,如DC-LIB[4]。二是制定自身的元数据标准,如CDWA、VAR、FGDC、GILS、EAD、TEI等[5]。由于DC元数据以追求“建立一套简洁而有弹性,且非专业图书馆人员也易掌握和使用的资源著录格式”为发展目标,使得DC元数据发展到现在,仍然只有15项元素。但是DC元数据本身也在不断地发展与完善,为使其能适用于更多类型的信息资源,近期Dublin Core的发展着重于修饰词和著录控制表的制定[6],但这样一来相对增加了著录者的负担,发展到一定程度时,著录者恐怕也要进行相当的训练和依赖著录说明才能完成资料的著录。
元数据的产生和发展,为网络信息资源的组织提供了重要手段。在文献信息处理中,元数据主要关注文献的外在形式特征,因而适用于组织信息。
特别值得指出的是,元数据是针对网络信息标引发展起来的,它以Web页作背景,通过元数据将Web信息组织起来,构成基于元数据的有序信息系统,其主要学术意义和应用价值在于信息处理。
2 基于元数据的信息组织
在图书馆界,元数据被定义为:“元数据是一种用来描述数字化信息资源,特别是网络信息资源的基本特征及其相互关系,从而确保这些数字化信息资源能够被计算机及其网络系统自动辨析、分解、提取和分析归纳(即所谓机器可理解性)的一整套编码体系。[7]”从元数据的定义来看,基于元数据的信息组织主要用于实现两个功能:一是较为准确地描述信息资源的原始数据或主题内容;二是能够实现网络信息资源的发现,即实现计算机网络定位、自动辨析、分解、提取等功能,将网络信息资源的无序状态变为有序状态。
2.1 元数据描述
格式正规的元数据被定义为一棵简单的树形层次结构形式,而且只有一个根结点,也称之为“根元素”,根元素下面的节点称之为“子元素”,整个结构如下图1所示。
图1 元数据描述结构图
就目前而言,元数据描述存在两种方式:一是采用XML语言进行描述;二是采用HTML语言描述,这里选取Dublin Core元数据为例,分别采用XML和HTML语言进行描述。
2.1.1 XML语言方式
正规的XML文档本身被定义为一棵简单层次结构树形式,而且仅有一个根节点,称之为文档实体或者文档根,文档根可以由三个部分组成:序言、主体和尾声,其中主体是必须包含的,序言和尾声部分则属于可选。
2.1.2 HTML语言方式
所谓HTML语言方式,就是指采用HTML语言的META标记来描述元数据,META标记是HTML标记的一部分,可以用它将元数据信息放在WEB页中。
2.2 网络信息资源发现实现过程
元数据能够较为准确地描述信息资源的原始数据或本质数据,但是仅仅对其进行描述并不能改变网络信息资源的无序状态,而只有通过发现、提取、分析这些元数据,并创建一个索引词汇表,才能真正实现将网络信息资源从无序状态变成有序状态,真正有利于网络信息资源的组织与检索。要实现这个过程要依赖于网络搜索引擎的“索引生成器”,这个索引生成器的实现过程如图4所示。整个过程可划分为三个主要部分:(1)发现HTML或XML文档;(2)提取META标记(HTML)和Xpath(XML)信息,生成索引页面数据;(3)生成主索引页面。这三个部分则分别通过三个独立运行的程序来实现:蜘蛛、索引类/程序和索引生成器。
图2 索引生成器实现过程图
2.2.1 发现HTML或XML文档
目前互联网上流行的各大搜索引擎普遍有一种称为“蜘蛛”(Spider)的应用程序,它可以读取WEB页面(或者其他超文本文件),并且能够跟踪它所发现的链接使其能够读取更多的WEB页面。
2.2.2 提取META标记(HTML)和Xpath(XML)信息
索引类/程序根据“蜘蛛”获取到的HTML、XML或其他的超文本文件后,记录文档中的〈META〉标记信息(HTML文档)和Xpath信息(XML文档),通过分析这些信息输出一个索引页面对象的文件,这个文件主要由以下数据组成。
(1)WEB文档的URL;
(2)在一个或多个〈META〉标记中找到的属于该WEB文档的首选词汇表;
(3)在其本身的〈META〉标记中找到的索引标题和文档类型。
2.2.3 生成索引页面
索引生成器一般需要两种基本的数据类型:词汇表和索引页面数据,其中词汇表是一种单独的对象模型,索引页面数据则由“索引类/程序”生成。通过索引生成器可建立网站或网络信息资源的主索引页面和索引词汇页面,网络用户可以通过主索引页面和索引词汇页面或通过检索索引表即可链接到网站或网络信息资源。
3 本体论概要
基于本体论的知识组织是一个新兴领域,其基础是形式本体论的研究及其在信息处理领域的应用[7-9]。
形式本体论是针对特定领域的知识处理发展起来的,它以特定领域的知识资源作背景,通过某领域的形式本体论将该领域的知识组织起来,构成基于本体论的知识研究系统,因而在知识组织与知识处理中具有特别的学术意义和广泛的应用价值。
在哲学意义上,本体是存在的本质抽象,本体论是关于存在及其本质的理论。一种本体论规定了一种哲学的基元或元结构,是所谓第一哲学(first philosophy),一元论、二元论、多元论等由此产生。
胡塞尔现象学是形式本体论的主要哲学渊源,在胡塞尔看来,现象学的问题主要有两类:本体论的问题和形而上学的问题。相应地,现象学的方法主要也有两种:本质还原的方法和先验还原的方法。“本体论”和“形而上学”这两个概念在胡塞尔那里有特别的用法:本体论指先天观念的整个系统,它包括形式本体论和实质本体论。形式本体论研究形式的范畴和规律(如形式逻辑和纯数学的范畴和规律);实质本体论研究存有的分类(从最上层的存有的区域如自然、人、历史到最下层的事物的种属和类型)及范畴(如物性、空间性、因果性等)。因此,可以说本体论是一种研究本质、本质的规律和结构的科学。现象学的本质还原的方法就是用来发现本质、本质的规律和结构的方法,也就是“现本体之象”。先验还原的方法则用于解决形而上学有关终极关怀问题,其中特别涉及到意识和存在的关系问题、主体和客体对象的关系问题等。这样,导源于胡塞尔哲学的形式本体论与怀特海哲学和蒯因哲学等相结合后,在计算机科技中逐渐发展成一种新的方法论,即基于形式本体论构造系统的方法。
在文献信息处理中,本体论主要关注文献的内在内容特征,因而适合用于组织知识。
相对于信息而言,知识具有稳定的内容结构;相对与知识而言,信息具有动态的价值功能。这一区别构成了组织信息适用元数据而组织知识适用本体论的局面。
4 基于本体论的知识组织
基于元数据的信息组织通常以类似编目的形式实行,实际上,AACR和MARC等编目规范就是印刷信息时代的元数据,而今天的元数据只不过是针对网络信息尤其是Web信息标引提出的概念,两者在本质上是同类,因而具有类似的实现技术。
基于本体论的知识组织则首先需要构建一个形式本体论,也就是能进行形式化表达的本体论模型,然后用计算机软件形式表达出来,其一般构造方法可以设计成三段法[10]:
4.1 概念化:就是确定某一领域的元概念。概念之间的关系可以包括同义关系、反义关系、属种关系、交叉(相交)关系、全异(相离)关系等。这与分类法和主题表有一定类似,但却没有分类法和主题表体系固定的限制,也不像分类法和主题表那样庞大。
4.2 模型化:就是用图示法将某领域的元概念和元关系表示出来,构筑成形式本体论的关系模型。这与元数据有一定类似,但却可以不是树型结构而多用网型联络。
4.3 软件化:就是用适当的软件工具将本体论模型转化为能在计算机上运行的软件。
这样构造的形式本体论是一个动态系统,其概念、关系和软件均可根据发展的需要而不断更新。下面就是用上述方法针对文献信息处理研制的一个形式本体论原型系统。
(1)概念化:元概念选择如下,可以根据需要扩充或增减。以这些元概念为核心,再根据信息的学科内容和表现形式进一步分类,就很容易与实际存在的信息或知识相连通。
0文献本体(Documentonto)
1 内容(contents)
1.1 科技(science & technology)
1.2 社科(social sciences)
1.3 人文(humanities)
2 形式(form)
2.1 图书(book)
2.2 期刊(periodical)
2.3 特种文献(special document)
3 语言(language)
3.1 英语(English)
3.2 汉语(Chinese)
3.3 其他语言(Others)
4 载体(carrier)
4.1 纸介质(paper)
4.2 磁介质(disc)
4.3 光介质(CD)
5 处理(processing)
5.1 标引(indexing)
5.2 检索(searching)
5.3 分析(analysis)
(2)模型化:元关系模型构造如图3所示。
图3 文献本体论模型示意
与普通树型数据结构的元数据不同的是,形式本体论容许各级概念之间的交叉渗透,并允许用实例(instance)进行支持。
(3)软件化:将上述元概念以及元关系模型编制成软件界面。
由于形式本体论可以软件化,故适合用计算机处理,这是其特点和优点。一旦确定了本体论模型,就可以用程序设计语言将形式本体论表示出来,制成软件界面。而通过该软件界面就可以将全世界所有与该领域相关的信息资源、知识资源和研究资源联络起来,构筑成具有特定功能的系统。
5 基于元数据的信息组织和基于本体论的知识组织的差别及其融通
基于元数据的信息组织具有如下特点:
(1)元素恒定:元数据的基本元素是通过标准规定下来的,具有恒定性,不能任意增减。
(2)树型结构:元数据体系通常是严格意义上的树型结构,各元素在概念上没有交叉渗透。
(3)客观性:元数据是科学思维的产物,具有科学实证所要求的客观标准,使基于元数据的信息组织具有客观性。
基于本体论的知识组织则有下列特点:
(1)关系稳定:本体论在概念选择上没有严格约束,但一般应选本质性概念,一旦概念确定,则概念间的相互关系也就稳定下来。
(2)网型结构:本体论各级概念间可以相互交叉渗透,因而其概念关系一般都是网型结构。
(3)主观性:本体论源于哲学,哲学与主观认识的不可分离性决定了基于本体论的知识组织具有主观性,每个人对某领域的本体认识可能不同,可以导致不同的本体论体系。
因此,元数据方法和本体论方法存在明显的差别,分别适用于网络信息组织和网络知识组织。但这只是各有侧重而已,基于元数据的信息组织和基于本体论的知识组织也可相互融通,需要时,用元数据组织网络知识或用本体论组织网络信息并非不可,二者在实际应用中可以相互借鉴、共同发展。
6 小结
综上所述,元数据是针对网络信息标引发展起来的,它以Web页作背景,通过元数据将Web信息组织起来,构成基于元数据的有序信息系统,其主要学术意义和应用价值在于信息处理。本体论则是针对特定领域的知识处理发展起来的,它以特定领域的知识资源作背景,通过某领域的形式本体论可将该领域的知识组织起来,构成基于本体论的知识研究系统,因而在知识组织与知识处理中具有特别的学术意义和广泛的应用价值。二者结合,构成当今网络信息处理的两类主流方法,具有各自不同的发展前景,但可以在信息和知识的集成处理中获得统一。