传统知识组织工具管理软件的发展与评价,本文主要内容关键词为:管理软件论文,传统论文,评价论文,组织论文,工具论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】G254
1 传统知识组织工具及其管理软件
知识组织系统(Knowledge Organization Systems,KOS)在具体的应用中表现为各种知识组织工具,包括传统知识组织工具,如分类表、主题词表、叙词表、规范文档等和基于网络的知识组织工具,如面向领域概念空间架构的知识本体(Ontology)、面向概念检索的主题图(Topic Map)、面向网页检索的主题网关(Subject Information Gateway)等。很多观点[1-4]认为,基于网络的知识组织工具的出现和形成,其重要内容和基础即传统知识组织工具的数字化、网络化和集成化,而在这一过程中,特别是从手工阶段向电子化、视窗化飞跃的阶段,用于各类词表编制、维护、管理的软件系统的研制和应用起到了至关重要的作用;在网络化环境下,有助于传统知识组织工具增进互操作和集成整合能力的软件系统,也起到了非常重要的作用。
1984年美国OCLC研制了电子编辑支持系统(Editorial Support System,ESS)系统,专门用于杜威十进分类法(Dewey Decimal Classification,DDC)的编辑维护系统,使得DDC从此开始了电子化的路程,于20世纪90年代,完成了DDC电子版和视窗电子版(Dewey for Windows);1996年,OCLC提出蝎子计划(Scorpion Project),在ESS的DDC视窗版数据库的基础上,研究开发用DDC、LCSH对数字信息资源进行自动分类和自动赋予主题词的软件系统,并在网络信息资源合作联机编目(Cooperative Online Resource Catalog,CORC)系统中应用,建立了DDC网络数据库和DDC网络浏览器,于2000年首次推出WebDewey。我国在20世纪80-90年代,开发了《中国分类主题词表》视窗编辑管理系统,在此管理系统上完成《中图法》机读数据库的建设,2001年研制出版了《中图法》视窗电子版,2005年研制完成《中国分类主题词表》视窗电子版,在《中图法》基础上设计出用于网络信息组织的《中图法》的搜索引擎版[2]。
因此,在知识组织系统成为面向创新的图书馆知识管理和知识服务的重要研究课题的同时,相关软件系统的研究、分析、对比、评价也成为十分有意义的研究内容。
传统知识组织工具的管理软件系统(以下简称词表软件),承担的任务和具备的功能主要包括[5]:
(1)知识组织工具的构建和管理,如各类词表的创建、编辑、查询、更新、维护等;
(2)知识组织工具的交换与共享,如标准化的输入和输出等;
(3)知识组织工具的互操作,如分类主题一体化、多词表映射的实现等;
(4)知识组织工具的集成与整合。
词表软件大致可分为两类[6]:一类是数据库系统集成的词表模块(Modules of Database Packages),其优势是与应用系统有很好的集成性,如STAR[7]和Oracle的Thesaurus Manager[8],后者是《Oracle临床数据与临床试验管理套件》的词表管理系统,用于自动控制其他4个软件在生命科学临床研究管理过程中的术语规范和一致性;另一类是独立的词表管理软件(Standalone Software),主要由词表编制机构使用,用于编制专业或通用词表,注重知识组织工具的构建、编辑和管理功能,目前又呈现出注重互操作、开放和整合的新特点。据美国标引学会(American Society for Indexing)[9]网站统计和相关文献、网站[5,10]报道,该类词表软件约有40多种,其中部分软件应用较广、具有代表性和突出特色,本文主要介绍和分析此类软件。
2 常见词表管理软件的典型分析
2.1 a.k.a.词表软件
a.k.a.软件(http://a-k-a.com.au/aka_classification/)支持的词表类型比较全面,包括ISO所定义的基本类型,如分类法、主题词表、受控列表、规范文档、同义词环、术语表等的构建和管理。
(1)a.k.a的编辑功能主要通过“Records Class”所提供的各种字段实现款目元数据的深层揭示,包括Basic导卡上的描述性字段和其他导卡提供的管理元数据字段。a.k.a.软件支持各种词间关系的构建功能,其编辑器中有专门的导卡,用于引导用户构建各种词间关系,在标准的词间关系基础上,a.k.a.还能够支持一对多或多对多的词间关系,并在显示、检索、管理等过程中,提供基于词间关系的链接。
(2)a.k.a.有多种形式的词表显示和报表生成功能,允许用户自定义词表显示和报表输出层级,以PDF、RTF、TXT和HTML形式输出。系统提供的标准报表包括:字顺表、功能表、树状等级表、受控词表、分类表、选用词表、术语表、变化词表等。用户除可选择输出打印的形式外,还可以自定义选择输出词表的等级级别,而词表的级别也可以在参数管理中预先指定。a.k.a.提供的词表输入的格式选项有ASCII,Hierarch,Objective,PowerDOCS(Hummingbird),RecFind,TRIM Context和Captura等,词表可输出为CSV文件。
(3)a.k.a.提供词表的Web出版功能,实现方式包括:将词表以HTML文件发送到指定目录;在创建页面的过程中可清除以前的页面文件;可生成页面文件的独立压缩包;提供等级列表浏览和字顺列表浏览功能,款目显示内容包括款目词、参照和注释;提供全字段检索功能。
2.2 MultiTes软件
MultiTes软件的词表构建规模没有限制,包括款目数、关系类型数、等级层数等,只受计算机性能的限制,不受软件实现的限制,支持多个多类型词表的同时构建,允许用户管理术语列表、叙词表、标题表、分类表、多级叙词表、范畴索引和多语种叙词表等[11]。
MultiTes支持ANSI/NISO标准所规定的标准词表关系类型,如用、代、属、分、参,也支持一些比较复杂的多等级关系,还可由用户自定义词间关系或分类、语种、注释/说明等字段。系统提供词间关系的检查和校验机制,也可自动生成具有双向特点的词间关系。同时,提供了快速录入和导入词表的功能:
(1)Quick Data Entry以一定的文本格式录入词及关系,省略了在各个文本框中的切换;
(2)Paste Term Record合并其他词表中的数据,前提条件是两部叙词表中的关系代码相同,且处于同一计算机的同一个文件目录下;
(3)导入已有词表或新增部分。
MultiTes可以按字顺、词族索引、等级列表、轮排索引的方式排列,可输出字顺表(Alphabetical)、带等级关系的字顺表(Hierarchical)、词族索引(Top Term)、范畴索引(Subject Categories)、分类表(Classified)、轮排索引(Rotated Index)等。MultiTes提供多种输出格式(TXT、CSV、HTML、XML),允许用户对词间关系进行选择,也可对显示格式进行设置[14]。MultiTes提供词表网络化输出和基本的建站功能,通过输出词表的HTML,创建词表的网络站点,提供所见即所得的显示模板选项,也可利用CSS更改显示样式。
MultiTes支持多语种兼容词表的构建。主要有两种方法:
(1)通过“词间关系向导”,在不同语种的款目之间建立等价或等级关系;
(2)可通过快速录入功能和相应格式的剪贴板粘贴实现,形如:“Orange,SPA:Naranja,FRE:Orange”的文本格式。
这两种方法首先都要在系统参数中增加相应的语种代码,将语种作为一种特殊的等价词间关系来实现。利用这种功能和对多类型多词表的支持,能够在一个系统中实现不同语种词表间的映射[12]。
2.3 WebChoir功能分析
WebChoir软件包括4个产品:ConceptChoir、ViewChoir、LinkChoir和SeekChoir。每个产品可独立运行和升级,也可以通过相互间的整合,构成无缝、集成的词汇控制系统,在应用上表现为三层结构,如图1所示。
图1 WebChoir的功能结构层次
(1)第一层为创建与转换层(Build & Transform),由ConceptChoir组件实现词表构建和已有词表的导入。在词表的创建、编辑、导入、查询、显示等方面,与其他同类软件功能大同小异,利用其框架结构上的优势,设计了基于Web的应用,可将款目词及其上位词、下位词、相关词直接在网络中检索,或在网络中收集备选词收入备选库等,并且完全支持Unicode,几乎支持所有的语言录入和显示[13]。
(2)中间层为增强和标引层(Enhance & Index),由ViewChoir和LinkChoir组成。ViewChoir用于检索,可视为ConceptChoir的只读版或电子出版工具,通过ViewChoir实现对ConceptChoir构建的词表和其他基于XML词表的检索和浏览,支持逻辑组配其上、下位词、相关词、同义词等,同时支持向ConceptChoir提供备选词。LinkChoir主要提供给标引人员使用,是一个连接ConceptChoir和外部应用系统的中间组件。标引人员可在书目系统或标引系统中,通过API、JavaScript等无缝集成LinkChoir,由于链接基于词的唯一标记符,所以能够保证与词表系统同步和自动更新。这种中间关联也是双向的,标引人员也可将标引过程中发现的一些新词提供给ConceptChoir作为备选词[14]。
图2 内嵌词表工具的编目系统
(3)第三层为查询与检索(Search & Retrieve)层,由SeekChoir系统组成。相当于具有词表辅助功能的增强型搜索引擎,既可对词表本身进行各种方式的检索,也可以利用所选中的主题词或其组配对各类信息资源进行检索。检索所依据的词表可以是一个或多个,与上述工具相同,只要是基于XML而不依赖数据库的词表形式,通过ConceptChoir或WebChoir的转换工具处理后即可使用。对于所检索的对象,可以是网络资源,也可以是支持ODBC或JDBC的各类数据库,通过SeekChoir数据库配置向导,可无限制增加检索目标[15]。
3 词表的构建标准与软件评价
3.1 知识组织工具构建的相关标准与规范
(1)国际标准
《ISO 2788:1986,单语种叙词表的创建和维护指南(Guidelines for the Establishment and Development of Monolingual Thesauri)》,提出了单语种受控词表在内容、显示、构建、护维、管理等方面的指南和惯例,重点是受控词表在知识组织系统,包括主题词表、同义词环、词汇列表、知识分类表中对内容对象的表达。
《ISO 5964:1985,多语种叙词表的创建和维护指南(Guidelines for the Establishment and Development of Multilingual Thesauri)》,应与ISO 2788配合使用,可视为单语种指南的扩展,词表构建的通用部分如词语的形式、基本的词表关系和管理操作等部分与ISO 2788等同,区别是不同语种的叙词和非叙词部分。
(2)美国标准
《ANSI/NISO Z39.19-2005,单语种受控词表的构建、格式和管理指南(Guidelines for the Construction,Format,and Management of Monolingual Controlled Vocabularies)》,是目前关于知识组织工具最主要的标准,充分考虑了标引非传统纸质文献的要求,也提出了在网络环境下的显示要求。
(3)英国标准
《BS 8723-1:2005,BS 8723-2:2005,BS 8723-3:2007,BS 8723-4:2007,用于信息检索的结构化词表指南(Structured Vocabularies for Information Retrieval-Guide)》,替代ISO2788-1986英文版BS5723:1987和ISO5964-1985英文版BS6723:1985的使用,其中第4部分为词表互操作指南,计划中的第5部分为词表与信息存储和检索系统的交互指南。它是目前最注重传统知识组织工具数字化、网络化的标准,充分考虑了词表互操作的协议和格式等问题,提供了对电子词表的功能设计、词表管理软件、在网络环境下的显示和分面分析等诸多规范和建议[3,16]。
3.2 词表软件的评价标准
(1)结构定义能力(Structural Definitions)
结构定义能力是指决定词表构建能力和复杂程度的软件特性,是一项非常重要的词表软件的评价标准。主要包括两个指标:词和词属性的定义能力;词间关系的定义能力。
①词和词属性的定义能力是指软件所设计或能定义的用于词表元数据的描述能力。各种款目词的描述字段应尽可能详尽,字段的长度应可变长或允许用户定义。以叙词表为例,其词表元数据应包括:款目项、参照项和各种标注项,如定义注释、范围注释、历史沿革注释、范畴号等。对于多种语种词表来说,应有相应的语种和同义词字段。此外,如果支持多种类型的知识组织工具构建,应相应地设置工具类型字段或提供支持各类知识组织工具的全部字段,供用户选择或定义。如许多软件支持等级结构的词表构建,但不提供相应的范畴号或标注符号字段,限制了只能用于主题词表的构建而不能作分类法的构建,或不能实现主题词的分类范畴索引。
②词间关系的定义能力,是指软件所能支持的词间关系类型的定义能力。按照上述各类国际标准,知识组织工具的词间关系主要有3种标准类型:等同关系(Equivalence Relationship)、等级关系(Hierarchical Relationship)和相关关系(Relatedness/Associative Relationsship)。词表软件应支持这种标准关系类型的实现,比较理想化的设计还应支持用户的自定义关系类型[17,18]。
(2)一致性控制能力(Consistence Control)
关系结构和术语的一致性控制是词表最重要的基本功能。任何词表构建和维护的软件都应确保通过一致性检查,避免词表术语和结构的非法特征,一致性控制主要表现为以下4个方面:
①唯一性控制:词表软件应保证词表构建过程中词或关系的唯一性,提供词和关系的查重和去重功能,避免同种类型或不同类型词间关系的重复建立。系统可提供专门的检查模块,也可以进行实时检查,例如在词和关系的录入、导入、修改、保存时进行查重检查和提示,预防违反唯一性的错误数据进入系统。
②互逆性控制:标准的词间关系类型具有互逆的特点。例如,上位词和下位词之间,具有“分”和“属”的对应关系和互斥关系。互逆性控制体现为:一是支持词间关系的自动生成,根据“代”、“属”、“参”的词关系属性,自动在其相应的对照词的关系属性上生成其反参照——“用”、“分”、和反“参”项;二是具有自动校验的功能,在录入、修改或导入时,对违反互逆特点的关系或链接给予检查和提示。
③完整性控制:标准的词间关系具有双向的特点,例如,有“分”必有“属”,有“属”必有“分’,两者缺一不可。完整性控制主要是检查不完整的、缺少回路的词间关系,如从一个词到另一个词只有单向关系,缺少回路,又例如先组词(Compound Term)与其析出的概念之间缺少双向指向关系等,都需要系统能够给予校验和提示。
④越级关系控制:主要通过系统检查违反逻辑一致性的非法关系,如除了非叙词和叙词间之外的同义关系,等级层次之间的越级关系等。
(3)输出与共享交换能力
输出功能是词表软件的重要功能,包括屏幕显示、报表(文件)输出和打印输出,是易用性和人性化的重要表现。在网络环境下,显示和输出越来越多地通过Web化的形式来体现。主要表现在Web化出版和数据的共享交互能力方面。
Web化出版是知识组织工具电子化、网络化的重要特征之一,词表软件应具备Web网站建站的基本功能:
①以HTML形式显示全部词表,包括等级列表(Hierarchical List)和字顺列表(Alphabetical List)方式的浏览功能;
②除显示词条的各种描述信息外,能够以链接的形式,提供基于词间关系的浏览;
③提供各种途径的检查和定位功能;
④支持Web建站功能,如创建词表网站、支持词表的更新发表、提供页面的维护功能等。
除HTML之外,词表软件还应能够提供标准的词表数据格式,与其他系统进行文件交换,即支持标准格式词表数据的导入和输出,这是衡量系统共享和交换能力的重要因素。目前常见的词表交换格式主要有:MARC、Dublin Core、SKOS-Core、Zthes、MADS、Topic-Map(XTM 1.0)、SiteMap 0.8等。
(4)互操作支持能力
知识组织工具的互操作是当前知识组织工具发展的重要特征,即从单一知识组织系统的独立建设向各类知识组织系统的整合发展、从各学科的局部建设向跨领域的集成发展、从单一语种的构建向多语种对照和映射发展。即便是传统知识组织工具,也存在由于版本升级、不同语种对照和不同类型整合(如分类主题一体化等)等问题需要相应的词表管理软件支持和解决。因此,互操作的支持能力成为评价词表软件的一项重要指标。目前,词表管理软件的互操作支持主要表现为多知识组织工具的兼容与互换,其评价包括:
①知识组织工具数量与类型的定义能力,即软件系统提供用户可构建知识组织工具的数量和类型。如是否能支持分类、主题等不同类型的知识组织工具同时构建的词表数量等,这是实现不同知识组织工具兼容与互换的基础;
②支持词表翻译或多语种词表转换。首先应支持用户自定义不同语种代码,能够构建不同语种的词表,其次,对不同语种的相同款目,应提供等价关系建立的功能,并在相应显示、检索、输出等功能体现多语种对照的特点;
③支持知识组织工具间的映射。按照SKOS的《词表映射规范(Mapping Vocabulary Specification)》,概念间映射关系主要包括完全相等、(exactMatch)、大部分相等(majorMatch),小部分相等(minorMatch)、包含(broadMatch)、包含于(narrowMatch)等关系。软件系统应支持这些标准映射类型关系的建立或允许增设或自定义映射类型关系[19]。
④支持微词表(Micro Thesauri)的构建,即支持将各专门化的类表作为一个上层综合类表的卫星表,在这个综合类表的基础上,从不同的角度出发,编制各种专业词表[20]。
(5)开放性与整合能力
词表软件的开放性与整合能力,是指通过词表软件系统的各种开放接口或标准协议,不受平台或系统的限制,实现词表管理系统与其他应用或管理系统之间的动态、实时的交互与应用整合,从而扩大和提升词表的应用范围和实用价值。从词表软件的发展趋势来看,开放性与整合能力日益成为词表软件评价的重要指标。
目前的词表软件通常有两种开放和整合的应用方式:
(1)与各种标引、资源管理系统或搜索引擎、检索工具整合,提供开放接口如API或通过Web Services供这些应用系统调用,实现对词表的无缝查询、浏览和数据引用;
(2)与资源数据库或网络资源整合,通过对各种数据库通用接口和标准协议的支持,词表管理系统提供一定的配置功能,从词表软件向各类资源库进行无缝访问,实现对资源进行基于词表的检索或收集词表更新的候选词。
4 结语
早期的词表软件注重词表结构的构建和编辑功能的完善,目前,随着网络和数字图书馆的发展,词表管理软件出现了新的发展态势:注重不同知识组织工具间的交互和互操作的支持,以从不同的层次实现信息的一致性和有序化控制;强调软件架构的开放性与集成能力,以扩展和强化知识组织工具在数字图书馆中的作用,相应地,对这些新型词表软件的分析、比较、评价和选择的标准,在原有注重结构定义、一致性控制的基础上,应更多地关注其在整合、集成和互操作方面的发展。
收稿日期:2008-06-23
收修改稿日期:2008-07-08