语义Web技术对知识组织理论与实践的影响研究_web技术论文

语义Web技术对知识组织理论和实践的影响研究,本文主要内容关键词为:语义论文,组织论文,知识论文,理论和论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

修回日期:2006-04-04

〔分类号〕G350 G203

1 引言

随着知识经济社会的来临,图书馆学情报学的理论范式经历了从重视文献到崇拜信息再到崇尚知识的过程,并由此引发了图书馆学情报学基础理论的一系列变化和发展[1]。文献组织→信息组织→知识组织就是学者们随着这一进程嬗变不断进行研究的重点和热点。从文献组织到信息组织,信息资源的范围在不断地拓展,是学者们从广度上展开的组织研究;从信息组织到知识组织,即从对信息载体的组织上升到信息内容、知识本身的组织,是学者们从深度上展开的组织研究。顺应信息化向知识化转变的趋势,不仅仅是概念名称的变更、组织范式的变革,而且还有研究内涵的创新和研究深度的探索。当前,所面临的技术环境是语义Web(semantic Web)技术和本体(ontology)技术,语义Web技术致力于开发“以计算机可处理形式表示信息含义的语言”,以在资源之间建立起机器可处理的语义联系;本体的目标则是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义[2]。从Berner-Lee提出的语义Web7层体系结构中可以看出,本体位于底层的Unicode字符集和XML语法结构之上,位于逻辑层和验证层之下,是基于XML为语义的逻辑推理和验证功能,提供基础的语义网的最关键部分。从在知识组织中的意义来看,本体的作用和地位正如过去信息组织中的检索语言。在以本体为核心的语义Web技术的驱动下,凸显了知识组织由观念与理论探讨全面转向实际应用的契机[3]。

2 语义Web技术对知识组织基础理论的影响

2.1 对知识组织概念的新拓展

英国著名分类学家H.B.Bliss最早于1929年提出“知识组织”概念,此后国内外不同领域的学者结合领域特点对“知识组织”进行了解释。国际知识组织学会德国分部“知识组织与网际网络”工作小组Alexander Sigel认为“知识组织是将含有知识的集合物加入信息价值的一种跨学科领域的文化活动,以便为用户群提供最好的相关信息体系”[4]。我国最早使用“知识组织”的是著名文献情报学专家袁翰青教授,他在1964年指出“文献工作是组织知识的工作”。后来郭星寿同志在《社会科学文献学》讲义中又有所发展:“文献工作是以特定的文献为工作对象,采用科学的方法搜集、评价和选择文献,并通过书目索引、主题索引、文献题录、文献综述或述评等多种途径,以传递社会科学知识为目的,来满足广大读者和研究工作者对社会科学情报和资料以及文献检索方法等的要求的一系列的活动”。J.D.Anderson认为“知识组织是有关文献的描述、内涵、特色、目的及将前述这些活动予以组织,以利于使用者的寻找。知识组织包含了索引、摘要、编目、分类、记录管理、书目以及相关文献信息的产生和检索用的书目数据库”[5]。这个时代是以文献单元作为知识组织的对象,认为知识组织就是文献工作。

20世纪80年代末,丰成君等学者认为,知识组织的对象发生了变化,除知识内容本身组织化外,还要通过语言组织化和载体组织化来实现知识组织化[6]。马费成先生认为,知识组织系统的基础应从文献单元→数据单元→智能单元进行转变[7]。到90年代,知识组织这一概念在学者们的研究下逐渐清晰,如贾同兴认为,“所谓知识组织,是指对事物的本质及事物间的关系进行提示的有序结构,即知识的序化”[8];王知津将其定义为“对知识进行整序和提供”[9];蒋永福认为,“知识组织是指为促进或实现主观知识客观化和客观知识主观化而对知识客体所进行的诸如整理、加工、引导、揭示、控制等一系列组织化过程及其方法”[10];储节旺等认为,知识组织是按照知识的内在逻辑联系,运用一定的组织工具、方法和标准对知识对象进行诸如整理、加工、表示、控制等一系列的序化、系统化的活动[11]。纵观知识组织理论研究的历程,不同学者对“知识组织”从不同角度进行了描述,尽管目前还没有统一权威的定义,但学者们已对“知识组织”的本质特征有了相同的认识,即用一定的方法和手段对知识的各种要素加以组织,以便知识传播、提供和利用;同时,“知识组织”概念随着技术进步不断发展完善,呈现与时俱进的特点。

语义Web环境下,知识组织工具不再仅仅局限于传统的分类法、叙词表、编目规则,出现了能够更好地适应数字环境的新型知识组织工具——概念地图(concept map)、语义网络(semantic network)、以本体为核心的语义Web技术和语义网格(semantic grid)等。知识组织方法相应发生了一系列革命性的变化,从单纯的语法处理转变为语义处理,从语义处理发展到语用处理。由于语义Web技术的引入,知识组织消除了含混性和歧义性,其传递的语义直指语用,能更好地为用户提供易于理解、准确无误的语用服务。因此,图书情报领域研究者对“知识组织”概念的内涵会有更为清晰和丰富的认识。

在知识组织活动的具体实践中,语义Web驱动下的知识组织方法和形式不仅保留了文本秩序的分类、编目、关键词、索引、主题标引,增加了Web环境下的搜索引擎、网络分类体系、数据库、主题树、超媒体,而且已经发展到语义Web知识库、语义门户、基于语义Web的数字图书馆等更多种类、更多形式,知识组织活动更加多样、灵活和便捷。基于语义Web的知识组织进行了知识库语义描述,实现知识库的语义互联和语义互操作;对用户需求进行语义描述,实现用户需求语义上的忠实、无差异表达;将用户需求与知识库进行语义匹配,实现用户需求与知识库的互理解;优化利用数字图书馆中的知识资源,提供知识化的服务,从而提高资源的利用率。从理论研究层面看,显而易见,“知识组织”概念的外延已经有深远意义的拓展。

2.2 对知识组织原则的新要求

Hjorland在1997提出了9项知识组织的原则[12]。付小红以知识保障和用户保障两大原则为基点,将知识组织的原则展开为10个方面:全面性、客观性、充分性、有序性、标准化原则和用户可近性、经济性、逻辑性、思想性、发展性原则[13]。盛小平根据数字图书馆中知识的特点、资源的分类、数字图书馆建设使用的标准,提出了数字图书馆的知识组织原则,即科学性、系统性、标准化、共享性、效益性、特色性、安全性原则[14]。语义Web技术构筑的环境不同于数字图书馆环境,语义Web技术更关注网络结构和语言的设计,目的是使数据、程序、页面以及其他网络形式具有明确的语义表示,从而使机器能够理解自然语言。它对知识组织原则提出了新的要求,主要体现在以下几个方面:①以人为本的原则。即以用户的需求为知识组织的出发点和落脚点。语义Web技术的出现,使得知识表达和知识组织从物理层次上的文献单元,上升到认识层次的知识单元,从单纯的语法处理(主题法、分类法)转变为语义处理(如专家系统、语义网络表示法),从语义处理到“模拟个体知识记忆结构”的基于语境的处理方式。语义Web技术的最终目标是使机器理解人类的自然语言[15]。因此,基于语义Web技术的知识组织的首要原则是以人为本,即模拟人的记忆结构组织知识单元,再理解人类的自然语言提供知识服务。②效率优先原则。目前的网络以词的匹配程度(通过词频加权和词序加权)提供给用户大量的、零散的、杂乱无章的信息,用户需要再利用大量的时间选择、分析、理解和综合这些信息;语义Web技术驱动下的知识组织,应更注重准确和效率,无需现在Web环境下用户得到信息后的后期处理。③个性化原则。个性化信息服务要求根据不同用户的不同特点和需求为用户提供特定的信息服务,这要求知识组织对知识内容的揭示兼具深度和广度,内容清晰、针对性强,具有很好的开放性和广度的柔性。这正是语义Web技术和本体技术的优势所在。④可重用原则。语义Web技术要求人和机器都理解信息的含义,这要求知识组织必须遵循标准化、可重用原则。语义Web的关键技术本体是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。本体通过概念的严格定义和概念与概念之间的关系来确定概念的精确含义,表示共同认可的、可共享的知识。基于本体进行知识组织更易标准化、更易重用。⑤互操作性原则。本体有许多不同的定义,但是从内涵上看,研究者的认识是统一的,即本体是领域(可以是特定领域、特定主题,也可以是更广范围)内部不同主体(人、机器等)之间进行交流(对话、互操作、共享等)的一种语义基本,本体提供了一种共识,是一座架在“语义鸿沟”上的桥梁。在语义Web中,本体是解决语义层次上网络信息共享和交换的基础。未来语义Web环境中的知识组织是基于标准化的本体,使得知识组织的过程和知识组织系统具有互操作性。

2.3 对知识组织的目标和任务的新深化

知识组织的目标是对知识存贮进行整序和提供知识,任务是提供文献、评价科学文献、系统表达[16]。这一观点得到大多数人的认可。由于语义Web技术的出现以及对语义Web关键部分本体的深入研讨,带动了知识组织的目标和任务的新深化。知识组织是知识的序化,是基于知识的组织。知识是信息的一部分,是人类主观世界对客观世界的反映与认识的结晶。知识本身具有多重属性,包括模式(显性与隐性)、类型(描述性、过程性和推理性)、认识环境(域、关系和自身属性)、可应用性(地方性和全球性)、可获取性(公共知识和个体知识)、即时表现性(激活的知识和隐伏的知识)、消逝性(迅速消逝的知识和无消逝性知识),等等。知识属性如图1所示[17]。

图1 知识属性网

语义Web技术的出现为知识组织的目标和任务注入了新内容。语义Web体系结构的第2层(XML+NS+XMLs)允许用户在文档中加入任意结构而无需说明其含意,并负责从语法上表示数据的内容和结构,通过使用标准语言将网络信息的表现形式、数据结构和内容分离[18],极利于从各个角度充分描述知识属性;第3层(RDF+RDFs)建立了一种供多种元数据标准共存的框架,使描述资源的元数据信息成为机器可理解的信息,大大提高了信息检索的准确率,从而弥补了基于词条匹配的全文检索知识服务机制的弱点;第4层在RDF(s)基础上利用“概念、类、关系、函数、公理和实例”六要素定义概念及关系,描述领域知识,将已经得到充分描述的知识属性组织成网状结构;第5-7层负责提供公理和推理规则。这样的语义网具有描述知识的全面性、知识组织的立体多维性、知识语义的机器理解性、知识检索的智能推理性,这些特性使得语义Web技术驱动下的知识组织目标和任务进一步深入,目标是实现主观知识客观化和客观知识主观化,任务也不再停留于提供文献、评价科学文献和系统表达等信息服务的层面,而是提供知识服务,即提供以用户需求目标驱动的、面向知识内容的、融入用户决策过程并帮助用户找到或形成问题解决方案的增值服务。

3 语义Web技术对知识组织实践的影响

3.1 实现知识组织方法的新跨越

知识组织方法有很多种,例如王知津依知识的内部结构特征,将其分为知识因子组织方法和知识关联组织方法[19];蒋永福依知识的不同存在形态,将其分为主观知识的组织方法和客观知识的组织方法;还有学者依知识组织的语言学原理,将其分为语法组织方法、语义组织方法和语用组织方法。这些知识组织方法理念受到大多数学者的认同。但是一方面,由于知识的描述、揭示、表达和组织十分困难,人们对知识的认识水平还比较粗浅,不能准确地描述和表达知识;另一方面,由于当时的技术手段也不能支持知识的揭示与组织[20],使得这些方法仅仅停留在理论构想的层面,究其原因,主要是理念一直超前于技术。而现在,语义Web技术的出现,改变了技术落后于理念的局面。信息资源可以利用本体表示语言进行标注,它主要能提供如下基本功能:①为本体的构建提供建模元语;②为本体从自然语言的表示格式转化成为机器可读的逻辑表达格式提供标引;③为本体在不同系统之间的导入和输出提供标准的机读格式;④形式化语言表示,利用机器可读的形式化表示语言表示本体,可以直接被计算机存储、加工、利用,或在不同的系统之间进行互操作[21]。依据本体进行标注后,其语义特征才能够为知识组织系统所识别,知识组织系统将自身所获得的语义信息存储在知识库中,并利用知识库中的知识搜索引擎对语义内容进行重构,形成关于某个特定学科领域的全面的知识网络,完全可以达到对知识语义层面的组织。同时由于语义Web技术是基于语境(context)产生并不断发展的,该技术使得知识组织系统和用户可以相互理解,为知识的语用服务提供平台。在语法规则、语义表示和语境分析的综合作用下,知识组织消除了含混性和歧义性,其传递的语义直指语用,基于语义Web的知识组织达到了语用境界,更好地为用户提供易于理解、准确无误的语用服务,可见语义Web技术的发展必将实现知识组织方法“语法-语义-语用”的新跨越。

3.2 对知识组织工具的新丰富

知识组织是用户检索获取信息的基础,知识组织的工具随着信息技术的发展不断变化,一方面为了适应数字环境,传统的适应文本秩序的信息组织方法——分类法和主题词表不断进行改造;另一方面数字环境的复杂境况,又迫使产生新的适应数字秩序的组织工具。尤其是语义Web的出现,使得知识组织工具不再仅仅局限干传统的分类法、叙词表,而且产生了能够更好地适应数字环境和数字秩序的新型知识组织工具——概念地图、语义网络、以本体为核心的语义Web和语义网格。知识组织工具的比较见表1。

表1 知识组织工具比较

知识组织起源代表产品提出的领域 目的与功能

方法 应用范围

工具类型时间和提出者

《美国国从词汇选择、

通过一些分、

会标题表》 词形控制、词

属、代、参、

(LCSH),义控制、词间

用等关系关联

检索工具构建

叙词表 1959年 《医学主题 美国杜邦公司关系控制等方

起来成为一个

的依据和基础

词表》 面指引用户形

完整的知识体

(MesH) 成统一的词汇

表达

A Classifi-采用数字和字

cation and 母相结合的标

Subject In-识号码系统表

图书馆分类目

dex for

示类目之间的

录的建立与管

Cataloging 图书馆界提出资源组织与管

从属、同一、

理,近年来扩

分类1876年 and Ar-者:Melvil 理 交叉等相容关

展到网络上的

ranging the Dawey 系和并列、矛

电子资源管理

Books and 盾等不相容关

Pamphlets 系

of a Library

图书馆主题、

《英美编目条 作者、题名等

例》联合指 资源组织与管 目录的建立与

编目[25]1876年 《英美编导委员会提出理 编目规则

管理,近年来

目条例》者:Charles

扩展到网络电

Ammi Cutter

子资源的管理

搜索引 IT领域创始

擎[26] 1994年 Lycos

人:Michael 信息检索

计算机软件(网 网络上的电子

Mauldin络爬虫等) 资源

52位来自图书

都柏林核馆情报界

综合上述分类

心集(OCLC)、IT 信息资源的描

编目与搜索引

元数据[27] 1995年 (Dublin 领域(NCSA) 述、表达、组

擎的方法,但

数字图书馆

Core)

的专家共同研织与检索

状态仍在变化

究产生 与发展中

人工智能领

域、知识工程实验研究、发

以主题、关系

领域、教育技展设计课程、

实例、关联性

概念地 1984年 术领域提出 评量概念的理

形成核心概念

数字信息资源

图[28] 者:康奈尔大解、教学与学

以达成知识的

学的诺瓦克博习 结构与关联性

士Novak,J.D.

心理学领域、

TLC系统 人工智能、知

以节点、标 数字信息资

语义网 (Teachable 识工程领域提

签、弧表现知

源、知识表

络[29] 1968年 Language出者:奎连 知识组织

识的结构与关

Comprehen- (M.R.Quilian) 联性

der)西蒙(R.F.

Simon)

W3C、人工 用声明、公 数字信息资

WordNet系

智能领域、知知识组织与检

理、概念、属

源、语义网

本体[30]1993年 统、Fram-

识工程领域、索、语义网的

性、函数和实

web)建设

eNet项目图书情报界提建立

例组织某一领

出者:Gruber, 域的知识

T.R

人工智能领域

构建中间的环

语义网 提出者:英国

境,使负载的

格[31] 南安普敦大学提供资源内容

语义能够为机

网络数字信

2001年 e-Science

电子与计算机(信息)共享能

器所解析和认

息资源

科学系的力 识,使知识实

DAVID DE 现负载平衡与

ROURE 松散耦合

● 当传统信息组织工具分类法在用于数字环境时,抛弃了极为科学、严格、规范的类目设置,并不在意同位类之间不交叉的要求,而把重点放在信息内容本身的揭示上,通过不同的角度和入口引导普通用户找到所需的信息,从而能更好地揭示内容上的参照、交叉关系。

● 利用传统主题词原理产生的搜索引擎,没有采用严格规范的科学用词,也没有采用主题词中的入口词规范原则,而是利用关键词查寻相关信息,显示了快速定位的优点,但在查准率上显得力不从心,从而导致网络产生新的知识组织和知识发现方法。

● 概念地图和语义网络的最大特点是将知识结构化,并发展出语义的描述机制以及着重表现知识关联性[22]。

● 本体继承了主题词表在规范用词上的优势,将同义词组织成同义词集,同时扩展了主题词表原有的“用、代、属、分、参、族”等简单语义关系,并在知识组织中,将传统主题词表的静态列举式的结构改变为展示人类知识创造的动态逻辑过程;将主题词表一维、线性地展示知识点拓展为以本体的网状形式展示知识点;本体是语义Web的基础,基于本体构建的互联网将是机器和人都可以理解的。

● 网格(grid)技术是通过高性能计算环境实现全球分布资源的共享、管理、协同和控制[23]。语义网格(semantic grid)通过语义Web技术与网格(grid)技术的结合,提供资源内容(信息)共享能力,即信息系统的语义互操作能力。一方面,网格是Web在计算能力上的提升,而语义网格是网格在语义能力上的扩展;另一方面,语义Web是在现有Web上增强了语义能力,而语义网格是语义Web对计算能力的扩展[24]。值得注意的是“语义”是从下到上弥漫在整个网格中而不是仅仅增加了一个语义(知识)层。使用语义网格技术可以为广域网中的数字资源构建中间环境,一方面能够形式化地描述知识,使其负载的语义能够为机器所解析和认识;另一方面使数字图书馆中的知识实现负载平衡与松散耦合,从而将知识、服务和用户有效地整合起来。

人类知识原本是一个有机联系的整体,不能因为海量、分布、动态的数字外在形式而割裂内部的联系,因此当知识载体从文本环境走向数字环境,从第一代语法字面匹配的Web环境走向第二代语义Web环境,知识组织工具不断丰富和发展,使数字信息资源体现出人类知识体系的整体性和关联性。

3.3 对知识组织体系的新影响

知识组织体系(knowledge organization systems,KOS),是各种对人类知识结构进行表达和有组织地阐述的语义工具(semantic tools)的统称,包括传统图书馆建立在文献单元基础上的分类法、标题表、叙词表以及更泛指的情报检索语言、标引语言,也包括网络时代建立在概念单元或知识单元基础上的概念地图、语义网络、本体等[32]。对知识组织体系发展影响最大的理念就是本体和语义Web。本体使知识组织体系从传统的树型结构向网状结构进化,为各类不同知识体系的结构和结合方式提供理论基础,很可能会极大地促进信息/知识检索和导航功能的更新换代[2]。语义Web将改变传统互联网只是实现计算机硬件和网页的连接,而数据和信息资源零散分布在各个网站的情况,对信息进行解释、交换和处理,更关注网络结构和语言的设计,可使分布于全球的成千上万的独立数据库融合,最终使用户独立运用Internet上庞大的信息资源。这种知识组织体系是采用自下而上的方式形成的,与文本秩序中的组织体系是自上而下的方式不同。这种组织不是从整个知识领域入手,而是从专门的知识领域开始的,创建一个个较小的块,最终形成一个更大的、更综合的结构[33]。

4 结语

语义Web技术的理论和实践研究日益为图书情报界所关注和热衷。在语义Web技术的驱动下,知识表达和知识组织从物理层次上的文献单元上升到认识层次的知识单元,从单纯的语法处理(主题法、分类法)转变为语义处理(如专家系统、语义网络表示法),从语义处理发展到“模拟个体知识记忆结构”的考虑语境的语用处理方式,从而使知识组织的理论和实践都发生了巨大的变化,使其本身具有更大的发展空间和更强的生命力。特别是在知识组织的原则、方法和技术等方面,语义Web技术必将显示出巨大的优势和强大的驱动作用,需要图书情报界给予持续关注和不断深入的研究。

标签:;  ;  ;  ;  ;  ;  ;  ;  

语义Web技术对知识组织理论与实践的影响研究_web技术论文
下载Doc文档

猜你喜欢