知识组织系统的描述与评价浅析,本文主要内容关键词为:评价论文,组织论文,知识论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 知识组织系统的提出
1998年,在美国计算机学会数字图书馆国际会议上,网络知识组织系统研究小组(Network Knowledge Organization System/Service,NKOS)首次提出“Knowledge Organization Systems”(知识组织系统,简称KOS)这一术语,用来统称各种对人类知识结构进行表达和有组织阐述的语义工具,它试图囊括所有组织信息和促进知识管理的模式和方法,并将其融为一体[1]。
“知识组织系统”产生于网络环境,它融合并扩展了传统情报检索语言的类型和功能。之所以用其来取代“情报检索语言”,主要原因在于[2]:
(1)随着信息环境、信息数量、信息需求的变化,越来越多的知识组织工具不断涌现,如语义网络、概念图、主题图、本体等,名称越来越多而区别越发不明显。
(2)随着信息资源的激增,为了能够获取到真正想要的知识,人们对信息揭示的要求越来越高。人们发现,单独使用任何一种工具都难以组织和揭示好信息,必须多个知识组织工具配合使用,才能发挥组织的最佳效能。
(3)超文本链接、标记语言、可视化等计算机网络技术,被大量引入检索语言之中。二者的结合,使以往以类表、词表形式出现的检索语言,名不副实,不得不改名。
(4)网络环境既对多种知识组织工具的集成使用提出需求,也为其创建及应用创造条件,KOS的发展离不开网络环境以及网络环境中发展起来的各种信息技术,因此,为了与传统的知识组织工具区分,往往将情报检索语言称为传统KOS,而网络环境下发展和应用的知识组织工具称为NKOS。
“系统”一词在《现代汉语词典》中定义为“同类事物按照一定的关系组成的整体”。因此,用“知识组织系统”来取代检索语言,反映了网络环境下多种知识组织工具集成构建与应用的趋势,某种工具独行天下或各自为政的局面逐渐消亡。
2 知识组织系统的特征
自KOS被提出以来,受到了OCLC、JISC、W3C等组织的普遍关注,并在历届JCDL、ECDL、DC等国际会议上设有相应的专题,研究主题涉及KOS的界定与分类、KOS的表示与注册、KOS互操作与应用等等[3]。2004年起,曾蕾、张甲、秦健等在国外从事KOS研究的华裔学者到国内讲学,把国外KOS领域的研究成果介绍给国内同行,这无疑带动国内的KOS研究,张晓林[4]、司莉[5]、王军[6]等学者在KOS描述、KOS互操作、从检索语言向NKOS转化等方面做了有益的理论和应用尝试。
总的说来,对于KOS的界定和研究范围越来越清晰,网络环境中发展起来的KOS不应是传统检索语言的简单重复或改良,而是质的飞跃。真正意义上的KOS应具有机器可处理和可理解、集成化、网络化、可视化、智能化、社会化等特点。
(1)机器可处理和可理解。情报检索语言是为标引者和检索者之间的信息沟通而建立的一个共同的概念表达语言。但随着计算机信息管理系统的发展,信息管理对信息技术的依赖性加强,计算机系统成为信息组织与检索的主要工具,成为人与信息资源之间沟通的桥梁,信息检索转变为人机交互的过程,这就要求计算机能够理解人对信息资源和信息需求的表达,也就催生了面向机器使用的KOS。KOS并非传统检索语言的简单电子化,除了融合更多类型的语义工具外,还应实现这些语义工具的机器可处理和机器可理解。因此,KOS要被计算机系统所识别、读取、处理和理解,它的核心在于构建概念及其属性的形式化描述以满足信息处理和知识组织的功能需求[7]。
(2)集成化。网络环境中KOS的构建融合了多种知识组织工具及方法,是多种语义工具的互操作和集成。比如,本体融合了分面分析、等级分类、概念逻辑、面向对象等原理和方法,是一种实用分类系统,也是一个词汇集或概念集。
(3)网络化。KOS的网络化体现在两个方面:一方面,网络环境是其构建、展示和应用的主要环境,因而其构建、展示和应用都应放在网络环境中,通过网络平台实现协同构建、联机展示和web服务等;另一方面,KOS的结构也应突破线性结构,采用网状结构,纵横交错,多维揭示,以网状KOS组织人类知识网络,真正实现“以网对网”的知识组织。
(4)可视化。可视化是将KOS中的语词、概念和关系转化为图形、图像等直观的视觉形式。可视化增强了KOS的可读性、可理解性,目前广泛应用在概念图、本体中的各种可视化手段已被逐步应用到各种数字化叙词表、分类法的概念或结构显示上。
(5)智能化。传统检索语言一般采用基于语词的建模方式,而KOS则要求采用基于概念的建模方式。后者要求形成概念及其关系的形式化表示,基于这种形式化的概念表示,可实现智能化信息服务,包括自动分类与自动标引、语词扩展、机器翻译、知识发现等。此外,KOS智能化还体现在其构建与更新手段的自动化上,实现KOS的机器构建与自动丰富是其在网络环境得以实用化的基本要求。
(6)社会化。社会化是web2.o时代的鲜明特点,即用户参与和协同编著。比如,基于用户Tag形成的一种大众分类法是基于用户参与而形成的一种KOS。KOS的构建、应用应考虑web2.0环境下用户参与的价值,建立协同构建平台,实现KOS资源的共建共享。
综上所述,KOS虽传承于传统情报检索语言,但它的构建、管理与应用环境已大不同于传统信息环境,因此,无论是从传统分类表、词表转换抑或是重新构建,KOS与传统检索语言应有明显的不同。
3 知识组织系统的描述
KOS是实现知识组织和知识服务的重要支撑工具,因此,不同国家、不同组织机构花费大量人力、物力和财力来构建各种各样的KOS,有的应用广泛,蜚声国际,譬如DDC、LCSH等;有的仅内部使用,从未见诸报端。对这些KOS资源进行管理应列入国家信息资源储备,具有重要意义。国外有一些专门的组织机构或企业展开了这类注册管理服务,如道琼斯公司2001年建立的Taxonomy Warehouse,管理了670余部词表、分类法资源,涉及73个领域,39种语言[8]。基于这样一个注册管理,能够实现资源共享,避免重复建设,降低建设成本。目前,国内KOS资源管理明显不足,没有专门机构负责,有多少中文KOS资源,有多少术语词汇、涉及哪些领域,由谁拥有和修订维护,存在何处,怎么获取,向谁咨询都是未知,这成为我国KOS资源建设面临的最大障碍。因此,非常有必要建立KOS资源注册管理机制,交由专门机构负责统计管理。
KOS描述模型是实现其注册管理的依据,KOS的注册管理一般分为四个层次:元数据体系注册、术语注册、服务注册及数据标准注册[7]。因此,KOS的描述也可从资源整体描述、单个术语概念描述、服务描述、数据标准描述四个方面展开。
3.1 知识组织系统整体描述
KOS资源整体描述是将一个分类法、一个词表或一个本体等作为一个整体资源来描述,是为实现对各种具体KOS的管理。2001年,OCLC依据DC元数据的核心元素集,提出了KOS注册元数据草案(目前为第3版),从整体上描述每个KOS资源,见表1[9]。
该描述模型分别从宏观和微观两方面整体描述了KOS的内容、结构和相关信息,基于此可实现KOS的初步注册和管理,从而便于KOS的发现、评价、共享、复用和协作。当然,该草案只提供了KOS资源整体注册元数据的核心元素,在具体的注册管理系统中还可以仿照DC通过限定词、修饰语等方式建立更详尽的KOS整体描述元数据体系,同时要针对部分元素建立一些元素取值专用词表。
3.2 术语概念描述
除了KOS资源整体描述外,从应用角度出发,更应对其实体单元(语词或概念)进行描述,即目前深受关注的术语注册服务(Terminology Registry)。W3C推荐的简单知识组织系统(Simple Knowledge Organization System,SKOS)标准,是一种基于概念建模的KOS形式化表示框架,可作为KOS概念描述模型。其中的SKOS Core提供了一套RDF词汇表(如表2所示),可作为术语概念及其属性关系以及与具体KOS资源之间关联的描述模型[10]。
当然,除了采用SKOS格式表示,还可以采用MARC、Zthes等标准格式来描述,其基本描述元素大同小异。对KOS中的术语概念进行注册,目的是将表达概念的词汇、体系及关系转换成机器可处理、可理解的关联数据资源(linked data),使其成为语义网中的一部分资源,从而实现术语概念的注册、管理、查询浏览、链接和匹配[7]。
3.3 知识组织系统的服务与数据标准描述
KOS服务注册是对KOS所能提供的各种web services的描述,包括提供给用户的检索、链接、浏览和识别服务以及提供给机器用户的各种web services及其API、web services的类型、访问协议、检索与获取方式、可用格式等,KOS服务注册实现了其应用的共享。
KOS数据标准注册主要是对KOS的数据字典、数据模型、体系和编码集的描述,将有助于KOS的标准化、规范化,推动其复用、共享与互操作。
目前,KOS的描述,尤其是其元数据体系注册和术语注册受到了OCLC、JISC、W3C等多个组织机构的关注,从列席在JCDL、ECDL及DC等国际会议上NKOS Workshop讨论中可知,一方面这些机构正在制订各种描述规范,另一方面已开始提供各种注册系统和注册服务来管理和描述现有的各种KOS资源。
4 知识组织系统的评价
为了对现有各种KOS资源的构建和应用水平做出客观公正的评估,提高KOS构建、管理、维护和应用水平,有必要对KOS评价进行深入研究。
对于分类法、主题词表这类传统KOS的评价研究较多,一般从结构和内容(类目或词汇评价)两方面评价,亦即宏观评价和微观评价[11]。韩露盈[12]、侯汉清、戴维民[13]等对分类法、叙词表的分别评价做过细致研究,针对分类法提出了类目数量、类级、交替度、参照度、清晰度、更新周期等评价指标,针对叙词表分别从结构、内容和功能三方面提出了结构模式,总词量、入口率、先组度、参照度、关联比、专指度,网罗度等定量和定性指标。但对于网络环境下KOS的总体评价暂未见报道。
国外对于KOS的总体评价也是近年才开展,Dagobert Soergel提出应从其构建目的、概念和语词的主题范围、概念分析和概念结构、先组度、获取和显示形式、更新情况等方面描述和评价[14];Gail Hodge提出应从内容、结构、用户和功能4个方面进行评价[15];而英国格拉摩根大学的Douglas Tudhope则从实体概念、概念关系、应用等方面提出一个更为精细的描述和评价模板[16]。分析这些学者的研究可知,KOS的总体评价标准一方面可继续沿用传统检索语言的评价方法,另一方面应结合网络环境下KOS构建、管理和应用的特点增补一些新的评价指标。
4.1 功能评价
出于建立领域知识框架、提供信息存储与检索服务、辅助用户文献理解、辅助翻译和语言学习等不同目的可选择构建不同类型的KOS,但描述、定义、转换和导航是其最基本的四大功能[17]。这些功能的实现依赖于KOS的内容与结构,故其功能评价可通过其内容与结构评价来揭示。
除KOS自身的功能评价外,其功能评价还体现在管理维护系统上。作为网络环境下建立的知识组织工具,KOS一般都拥有一套计算机管理系统,管理系统的健壮性、自动化程度、易用性、易获取性、协作性、互操作性、用户类型等也应作为KOS功能评价的参考。
4.2 内容评价
内容评价是KOS评价的核心,主要从实体(语词或概念)层面做微观评价,包括主题覆盖度、专指度、概念新颖性、语词颗粒度、语词组配性能、概念清晰度、关联度、形式化程度等影响因素。
(1)主题覆盖度和专指度,反映了KOS覆盖学科领域的宽度和深度,是衡量其主题完备性和专指性的重要指标,一般采用总词量或总概念数作为定量指标,但这受其所包含的学科范围、文献数量、先组度等诸多因素的制约。
(2)概念新颖性。网络时代日新月异,一个不更新或更新缓慢的KOS是无法跟上时代脚步的。因此,采用更新频率或周期来衡量其概念的新颖性。
(3)颗粒度。颗粒度反映了KOS揭示概念的细化程度级别,粒度越小,细化程度越深。比如,可以用字、词素、词、词串定性或用平均词长、平均词素数定量评价词表的颗粒度,粒度越小,组配性能越强但专指性越低;而类表中类目的颗粒度可以用平均类级数来表示,当然这会受到学科主题范围的影响,综合性和专业性的分类聚类体系不能单纯采用类级绝对值来比较。
(4)语词组配性能,多采用语词先组度,即固定组合概念占总概念数的比值。
(5)概念入口度,反映同一概念不同语词表达形式的揭示程度,可参考同义术语的个数、是否多语种表达等指标。
(6)概念清晰度,通常以是否提供定义或各种注释的多少或平均长度来衡量。
(7)概念关联度,主要通过计算概念之间(语词之间)关系数量和关系类型来衡量,关系越多,揭示程度越好;类型越丰富,揭示深度越精细。
(8)概念形式化程度,KOS要实现机器可处理和可理解,必须采用形式化的概念描述方式,因此形式化程度的高低也是衡量KOS内容的一个重要指标,本体是目前形式化程度最高的KOS。
4.3 结构评价
KOS结构化程度与其受控程度和功能密切相关,主要包括宏观结构和微观结构。宏观结构反映了KOS显示形式的多样性,如字顺显示、分类显示、词族显示、分面显示以及是否提供了各种可视化途径、各种显示形式之间的联动等。微观结构主要反映了概念或语词之间的关系形式,主要指标有:
①概念结构体系的类型,是平面、二维还是多维结构,结构维数越多反映了概念揭示程度越细致。
②层级关系类型,是单层次关系,还是多层次关系,即是否允许一个概念拥有多个父类,多层级等级关系能更加真实地揭示概念关联,体现知识获取的多途径、多入口。
③结构原理的类型,是列举式还是分面式,从结构性能和概念形式化表示角度来说,分面式性能更优。
④实体单元形式,是基于语词单元还是基于概念单元,新型KOS应以概念作为知识单元。
上文简要阐述了KOS通用的评价模型,而针对具体类型的KOS在实际应用中应形成更专业、更具针对性的评价指标。如对于分类法的内容评价应增加类目交替度的评价,对于叙词表的应用还可增加概念网罗度(即专指标引记录数占总标引记录数的比重),对于本体还可从复用性、推理性等方面评价等等。
KOS作为网络环境下发展起来的更高层次的知识组织语义工具,再次证明了网络环境中信息组织以及各种组织工具存在和发展的必要性和必然性。随着信息技术的发展,信息资源的丰富,专业化的信息组织需求依然不容忽视,并且向智能化、精深化、专业化的方向发展。
收稿日期:2009年7月2日