网络数字环境下知识组织体系的发展现状及未来趋势,本文主要内容关键词为:现状及论文,体系论文,趋势论文,未来论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 知识组织体系概述
1.1 知识组织体系的定义和类型
知识组织体系是对内容概念及其相互关系进行描述和组织的机制,可对各信息对象按照知识内容和知识结构进行描述、连接和组织,包括词汇表、分类体系、语义网络和知识本体等[1]。
根据知识组织体系的结构、功能及对概念关系的揭示程度,可将知识组织体系分为三个层次:
(1)词汇表。强调对概念的定义和解释,一般不涉及复杂的语义关系和结构,是形式最简单、最低层次的知识组织体系。主要包括:地名表(Gazetteers)、术语表(Glossaries)、字典(Dictionaries)、规范文档(Authority Files)、同义词环(Synonym Rings)等。
(2)分类聚类体系。强调概念间的层级聚合和类别体系,重点在于揭示概念间的等级关系,是目前应用最广泛、发展最为成熟的知识组织系统。主要包括:标题表(Subject Headings)、大致归类类表(Categorization Schemes)、知识分类表(Taxonomies)和图书分类法(Classification Schemes)等。
(3)关系列表。强调表现概念之间的各种关系,对概念关系的揭示更复杂、更细致,除了传统词表中的等同、等级、相关关系外,还可以有整体——部分、蕴含、因果等语义关系,以及一定的规则和推理。主要包括:叙词表(Thesauri)、概念地图(Concept Maps)、语义网络(Semantic Networks)、本体(Ontologies)等。
1.2 知识组织体系的功能
在网络数字环境下,知识组织体系通过有效地组织和管理因特网的信息,为用户构建高质量、易使用的知识空间。知识组织体系在用户的信息需求与信息资源之间起着桥梁的作用,是解决因特网信息服务中信息有效链接的工具,其所支持的基本功能包括:
(1)描述:对网络信息资源内容以及内容的语义关系进行有效描述和组织。
(2)浏览:对网络信息进行分类显示和浏览。
(3)检索:支持基本的关键词检索、词表辅助检索、跨语种检索、语义检索甚至智能检索。
(4)整合:通过知识组织体系的互操作能实现不同应用系统间的数据交换、转换、复用和综合。
1.3 知识组织体系的主要应用领域
目前,知识组织体系的主要应用领域包括:图书馆(包括数字图书馆)情报领域、科研教育领域、商业领域以及门户网站、搜索引擎、学科信息门户等。
2 知识组织体系发展现状
知识组织体系的研究可分为应用模式、体系构建、实现工具和技术、标准规范等几个方面。本文作者主要从上述几个方面综合考察了传统知识组织体系(如分类法、标题表、叙词表、术语表、字典等)及新型知识组织体系(如本体、语义网等)在网络环境下的发展现状,认为当前知识组织体系的研究和建设主要具有以下的特点。
2.1 传统知识组织体系的电子化、网络化及其在网络信息组织与检索中的广泛应用
2.1.1 传统知识组织体系的电子化
随着人类信息活动由纸制环境向网络数字环境转移,长期以来用于组织图书馆馆藏的传统知识组织体系有了新的发展空间。传统知识组织体系为适应网络环境的要求,实现电子化、网络化,其主要表现为:各种分类法和主题词表将Web作为展示窗口,在印刷版的基础上推出了电子版、网络版,并通过HTML网页提供基本的浏览、查询功能。在澳大利亚昆士兰科技大学(Queensland University of Technology)信息技术系的网站上[2],列出了至少上百种可以通过网络访问的分类法和词表,如杜威十进分类法(DDC)、国际十进制分类法(UDC)、数学主题分类表(MSC)、美国教育资源词表(ERIC)等。传统知识组织体系的电子化、网络化是其在网络环境下应用的主要形式之一。
2.1.2 传统知识组织体系在网络信息组织与检索中的广泛应用
传统知识组织体系还广泛应用于网络信息的组织与检索中,积极向联机数据库、网络搜索引擎、学科信息门户等新的领域拓展,其主要特点是:
(1)传统分类法的实用性、易用性改造。传统文献分类法DDC、UDC、LCC等已广泛应用在网络资源的组织中。DDC已被多个著名的Web服务站点所采用,其中有Cyber Dewey、Canadian Information by Subject、Renardus等;UDC也被多个学科信息门户网站如BUBL Link、SOSIG、OMNI等用来组织和分类各种网络资源,构建分类浏览体系。传统的文献分类法为适应网络信息分类的多维性要求,对自身的体系结构、聚类方式、类名术语等方面作出不同程度的调整与改造,如建立知识领域完整而又重点突出的分类体系、适当调整类目、控制类目等级、加强类下说明等。经过改造的传统文献分类法成为组织网上学术性知识内容的主要应用模式。
(2)分面分类组织方式的发展。分面分类是一种灵活而实用的网络资源组织方式,它吸收了传统的分面分类法的基本原理,从网络资源对象的属性出发,揭示对象的多个属性面,通过简单主题概念的组配,可以确切地表达各种主题概念。许多网站已出现了一种可选词单(Pick List)的检索形式,词单中的词可以按照年代、国别、字顺、大小或其他逻辑顺序排列,这种在分面结构中采用可选词单的检索形式实质是一种实用的分面分类和后组式检索模式。此外,一些学科信息门户网站也对资源进行分面处理,最常见的分面是将资源按主题和资源类型进行组织[3]。例如Artifact门户将资源类型分为学术机构、期刊、图书、论文、新闻、软件等,用户可以按资源的主题内容和资源类型进行组配检索。
(3)传统文献分类法用于信息资源的自动分类组织。在自动分类领域,探索利用传统文献分类法组织数字信息资源成为研究热点。美国OCLC的“蝎子计划(Scorpion Project)”是其中成果显著的项目之一。“蝎子计划”探索了以标准的分类法,如DDC、LCC对网络资源和其他数字电子文献进行自动分类的研究,为此项目组建立了以DDC、LCC为基础的知识库,开发了自动分类软件“Scorpion-1.0.tar.gz”,并对自动分类系统进行优化,使其接近人工分类效果。
(4)利用叙词表增强网络检索系统的功能。叙词表在网络环境下的使用一般有两种类型:一种是联机叙词表,仅供选择词汇使用,不直接链接资源,是独立于检索系统而存在的网络信息检索工具,如Mesh 2007、UNESCO Thesaurus等。二是叙词表嵌入检索系统之中,充当检索系统的后控制词表子系统,用户浏览与检索词表后,可直接选用检索词链接相关资源,如CAB Thesaurus、AGROVOC Thesaurus等。这些叙词表的主要作用在于词表内超文本导航、利用叙词表的语义关系帮助用户建立检索提问,控制检索范围,提高检索效率。
2.2 多语言词表构建和知识组织体系互操作成为研究的重点
多语言词表构建和知识组织体系互操作成为研究的重点,也是目前知识组织体系建设的主要内容。
2.2.1 多语言词表构建
互联网使各种语言的信息充斥网络世界,应用多语种词表来实现跨语言检索已成为网络时代的一种需求。2005年IFLA起草的《多语言叙词表指南》(Guidelines for Multilingual Thesauri)对于建立多语言叙词表具有指导和促进作用。《多语言叙词表指南》介绍了3种多语种叙词表的构建方法[4]:一是从一种语言开始创建新的叙词表,然后增加其他语言;二是合并现有叙词表,可合并两种或多种现有的叙词表成为一种新的多语言检索语言,或将现有叙词表相互链接;三是将一种叙词表翻译成一种或其他语言的叙词表。多语种叙词表的运用扩大了网络叙词表的使用范围,使叙词表向国际化发展。
目前正在进行的多语种词表项目有:国际粮农组织FAO的多语种农业叙词表AGROVOC、欧洲的GEMET和Eurovoc、Merimee,荷兰的MACS等[5]。
2.2.2 知识组织体系互操作
知识组织体系互操作是指不同知识组织体系之间的兼容互换,主要包括不同分类法之间、不同主题词表之间以及分类法与主题词表之间的互操作。知识组织体系互操作是实现分布式资源集成检索以及交叉浏览的有效方法,因此,互操作成为知识组织体系领域重点研究的主攻技术,相关的研究项目有欧盟的DESIRE Ⅱ、欧洲HILT项目和Renardus项目、美国国家医学图书馆的一体化医学语言系统UMLS等[5]。
知识组织体系互操作主要解决异构系统和多语言映射问题,其实现的技术概括如下:
(1)推导/建模(Derivation/Modeling)。以现存的综合性词表为模型,建立专业的或简化的词表,如Mesh、FAST的创建。
(2)翻译/转译(Translation/Adaptation)。从其他语言的词表翻译、改编形成自己的词表,如DDC已被翻译成30多种语言。
(3)映射。包括直接映射和共现映射。直接映射(Direct Mappping)是基于不同知识组织系统自身体系结构建立的映射,具体是指不同的受控词表之间或词表与分类号之间建立等同词联系,包括人工建立映射和计算机辅助实现两种方式,如DDC与LCC、DDC与MeSH、DDC与NLMC采用了直接映射方法。共现映射(Co-occurrence Mapping)是根据同一元数据或编日记录中同时出现的来自不同体系的术语建立连接关系,如OCLC的LCC与LCSH采用了共现映射的方法。
(4)链接(Linking)。将词汇与其他词汇根据语义关系,而不只是概念的等价性链接起来创建的知识组织体系[4],如CAMed。
(5)转换(Switching)。主要借助一个中介词典或称转换语言来实现不同知识组织体系的转换,如欧盟的Renardus项目。
2.3 新型知识组织体系本体的研究和建设成为热点
语义网是当前万维网的延伸,被称为下一代Web的语义网通过获得词汇的语义使得Web的应用不但能够表示信息,而且能够理解信息,还可以在此基础上依据一定的规则对信息进行推理。在语义网中,本体(Ontology)具有非常重要的地位,是解决语义层次上Web信息共享和重用的基础。实现语义网的核心是本体的开发与应用,本体是网络环境下一种新型的知识组织系统,用于支持智能代理进行资源组织、智能查询、知识发现等活动[6]。本体因其对概念及其语义关系揭示的明确化、模型化、机器可读等优点而成为语义网环境下不可或缺的组织工具,受到了知识工程、信息管理、机器翻译、人工智能等多个领域的关注,各个领域都掀起了对它的研究热潮。对本体的研究与建设主要集中在以下几个方面。
2.3.1 本体构建工具
本体构建工具又称本体编辑工具,主要指用于本体的构建、编辑、维护与开发的软件系统。目前人们已研制开发了90多种本体编辑工具,这些本体编辑工具在格式、插件、描述语言、推理机制等方面各有特点,但工具间互通性与互操作、标准化及易用化与实用化等方面还存在问题。较为成熟的本体编辑工具有:OilEd、OntoEdit、Ontolingua、Protégé2000、Webonto、Ontosaurus等。
2.3.2 本体表示语言
本体表示语言是语义网基础结构的组成部分,是本体功能实现主要依赖的技术,其作用是为构建本体提供建模元语,为本体由自然语言表达形式转化为机器可读的逻辑表达形式提供工具[4]。目前,经常被使用的本体表示语言大都以框架模型、谓词演算或两者相结合为基础,最具代表性的有KIF、Ontolingua、CycL、Loom等,另一种是用概念图来表示本体,典型的例子是WordNet;还有一些适合于Web的描述语言如SHOE、XOL、RDF(S)、OIL、OIL+DAML、OWL等。其中OWL是W3C推荐的网络本体语言标准。
2.3.3 本体的构建方法
构建知识本体的方法是本体研究中的热点问题,主要有两种模式。一种是完全按照本体的内涵和各项要求,构建新型的知识体系。目前,本体的构建研究尚处于发展阶段,尚无一套标准的本体构建方法,国外开发的几种常见的本体构建方法有:七步法、METHONTOLOGY法、IDEF5法、TOVE法、骨架法、SENSUS法、KACTUS法等。另一种是以传统的知识组织体系为基础,吸收其中的概念、词汇,参考其体系结构,将传统知识体系改造转化成新型的知识组织体系,目前最常见的是将叙词表改造成本体。国外许多学术团体相继进行了利用现有叙词表转换建立本体的尝试,已经有十多种叙词表被用各种方法转换为本体。如联合国粮农组织的AGROVOC叙词表转换为农业本体的项目,阿姆斯特丹大学信息科学系利用艺术和建筑叙词表(AAT)转换本体的项目。在叙词表向本体的转换研究中,学者们尝试了许多方法,常用的转换方式总结起来有以下几种[7]:(1)用XML Schema构建叙词标记语言。(2)用RDF Schema表示叙词内容和关系,大多数叙词表采用该种方式转换,如AAT的转换。(3)用DML+OIL、OWL表示叙词关系。
2.3.4 本体的应用
本体的应用主要集中在网络检索系统、数字图书馆、博物馆等领域。目前本体用于信息检索的项目有:KIM Platform、(Onto)Agent、Onto broker、SKC等。
2.4 各种新技术在网络知识组织体系的表示和实现中的应用
XML/RDF描述体系、人工智能、知识表示、自然语言处理等前沿技术已被广泛地应用于词表的生成与构建中[5]。使用XML、RDF、OWL构建本体,自动分类标引、自动网页标注,知识组织体系的可视化、智能代理等应用受到极大重视。
2.5 知识组织体系的标准规范建设不断完善
在网络数字环境下,遵循一定的标准规范构建、表示和应用知识组织体系,是实现知识组织体系互操作的重要保证。国际标准化组织ISO、W3C、NISO(美国国家标准化组织)等有影响的国际组织,颁布了一系列的技术标准和规范,并在全世界范围内推广。目前针对术语表、叙词表、分类表、主题图、本体等不同的知识组织体系类型有适应各自特点的可参考遵循的描述标准规范,例如叙词表可以应用ISO 2788-1986(E)单语种叙词表编制修订指南,Z39.50词表描述模型(ZThes),词表标记语言(VocML),支持多语种的ISO5964-1985(E)等标准规范;主题图可以参考遵循的标准规范包括:ISO/IEC 13250:2003、ISO/IEC 13250-2:2006、ISO/IEC 13250-3:2007,以及XML Topic Maps(XMT)[3]。2004年W3C发布SKOS(简单知识组织系统)推荐标准,它是一个基于语义网技术表示受控词表及其他知识工具的概念框架,具有简洁、通用、易扩展以及与语义网及传统图书情报领域联系紧密的特点,对于促进受控词表在网络环境下的使用具有重要意义[6]。
3 知识组织体系的发展现状分析
通过上文对知识组织体系的定义、类型、功能和发展现状的概述,可以得出以下结论:
(1)虽然知识组织体系的类型越来越多,功能也越来越完善,但无论是在传统环境还是在网络数字环境下,分类法和主题法都是最基本的两种知识组织方式。传统知识组织体系为适应网络数字环境的要求,逐渐在宏观结构上进行了易用化、分面化、领域内兼容化改造。
(2)由于知识组织体系本身决定了它对技术的依赖,相关技术的研究始终是知识组织体系研究的主要内容,这也使得该领域的研究大都集中在体系构建、实现的工具和技术上,研究的内容也较为深入,对互操作、本体、语义网等最新技术的探讨取代了传统的分类法与主题法的研究,成为关注的热点。
(3)在应用模式的研究方面,涉及的领域和知识组织体系的类型也较少,只有分类法、标题表、叙词表这些传统的知识组织体系的应用机制、模式比较完善、成熟。对于本体、语义网这些新型的知识组织体系,其应用方面的开发才刚刚起步[3]。
(4)相关标准、规范的制定和推广为知识组织体系在网络环境下的应用起到积极的推动作用。
4 知识组织体系的发展趋势
在网络时代迈向下一步互联网——语义网的过程中,知识组织体系的发展和应用再一次走向高潮。知识组织体系主要朝着数字化与网络化、语义化、标准化、互操作化和可视化等方向发展。未来知识组织体系的研究和应用的若干关键方向是:
(1)知识组织体系在数字图书馆体系结构中的集成。如何集成不同类型的知识组织体系,如叙词表、分类系统、地名辞典、知识分类表、本体等,应用于数字图书馆和语义Web中。
(2)知识组织体系互操作。支持跨系统检索与浏览的多类型、多语种的知识组织体系互操作,术语映射,传统知识组织体系与本体的映射,语义互操作的实现等。
(3)制定和更新相关标准。制定和推行基于语义Web技术的网络知识组织体系表示与服务标准[6],更新相关的标准,如OWL、RDF、NISOZ39.19以及其他ISO和W3C的相关标准。
(4)以用户为中心的设计。以用户为中心的基础上设计和研究新技术,探讨如何使概念和术语的描述更易理解,以及如何揭示并表达概念与术语的关系[4]。
(5)开发能够完全显示知识组织体系中丰富语义关系的可视化工具。
收稿日期:2008-12-12