叙词表国际标准的修订及其对基于知识组织的术语服务的影响,本文主要内容关键词为:词表论文,国际标准论文,其对论文,术语论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2012-09-05
1 叙词表与基于知识组织的术语服务
叙词表是一种受控的结构化的词表,其作用在于指导标引人员和检索人员选择同样的优选词或其组合来表示既定的主题[1]。叙词表是在特定信息系统框架内规范专业词汇的词表,它反映该领域所使用的术语,而且可根据术语发展情况定期或不定期地对其进行增补。此外,叙词表具有规范性、开放性的特点,它不要求使用者放弃其习惯的术语,而只是推荐使用系统中已收录的术语。作为内容准确、描述规范的术语集,叙词表已经成为当前基于知识组织的术语服务的主要数据源。
基于知识组织的术语服务是用于展示和应用词表中的词、概念及关系的一系列服务,包括受控词表和非受控词表,以提供检索、浏览、发现、翻译、映射、语义推理、主题标引和分类、获取和提示等服务[2]。目前比较有代表性的术语服务系统有:①美国国立医学图书馆的UMLS在线术语服务[3]:涉及158个医学知识组织体系,以UMLS的概念骨架为一个语义网络,其他医学知识组织系统(如MeSH)向这个语义网络进行映射;②OCLC术语服务[4]:涉及DDC(《杜威十进分类法》)、《美国教育资源数据库叙词表》、《个人作品主题检索指南》、《美国国会图书馆分类法》、《美国国会图书馆标题词表》和《美国国会图书馆儿童标题词表》等多种知识组织体系,主要采用直接映射和同现词映射的方法实现;③英国高级叙词表项目(High-Level Thesaurus,HILT)[5]:涉及《杜威十进分类法》、LCSH(《美国国会图书馆标题词表》)、UNESCO叙词表和MESH(医学标题词表)等,基于WordMap系统实现分类体系和主题词表之间的映射。这些术语服务呈现出三个特点:①术语服务的内容,主要仍以用于信息检索的各类知识组织体系为主,特别是分类表和叙词表。从OCLC术语服务的定义也可一见端倪:OCLC术语服务可以理解为涉及各种类型知识组织资源(包括规范文档、主题词表系统、网络分类、分类表等)的Web服务。②术语服务的实现主要是基于各种知识组织体系之间的映射。③不同术语服务系统的核心知识组织体系有所不同,导致其所采用的映射方法以及映射类型各不相同。
作为对叙词表的编制及其应用予以规定的规范性文件,叙词表标准可以确保叙词表之间的兼容性,以促进不同信息服务机构之间的数据交换。因此,叙词表标准的修订在很大程度上影响着基于知识组织的术语服务的发展方向。本文拟对叙词表国际标准的最新进展进行剖析,并结合基于知识组织的术语服务的现状,分析该标准内容对基于知识组织的术语服务未来发展的影响。
2 叙词表国际标准的修订
2.1 发展历程
叙词表国际标准起源于联合国教科文组织(UNESCO)于1970年和1971年相继出版的《用于信息检索的单语种科技叙词表编制规则》[6]和《用于信息检索的多语种科技叙词表编制规则》[7],经过ISO/ TC46的第5工作小组与UNESCO的共同努力,《ISO2788:1974单语种叙词表编制规则》[8]和《ISO 5964:1985多语种叙词表编制规则》[9]分别于1974年和1985年出版。叙词表国际标准经历过两次修订(见图1),叙词表国际标准最新的修订始于2007年,最后将形成ISO 25964系列标准该标准。该标准由两部分组成:①《ISO 25964-1:2011用于信息检索的叙词表》[1]——主要涉及单语种和多语种叙词表的编制问题,标准内容已于2011年8月正式发布;②《ISO25964-2与其他词表的互操作》——主要涉及其他类型词表的特征描述及其与叙词表之间的映射问题。这部分标准目前处于制定国际标准草案阶段(DIS),2011年12月已发往各成员国进行为期5个月的投票,标准内容已基本成形[10]。
图1 叙词表国际标准的制定与修订进程
2.2 新增技术内容
ISO 25964系列标准是对原来的单语种和多语种叙词表标准内容进行逻辑归并、整合并加以补充,修订的幅度非常大,见表1。
从表1中可以看到,ISO 25964系列标准除了保留叙词表编制方面的条款以外,新增了大量与基于知识组织的术语服务密切相关的内容,具体可分为以下三个方面:
2.2.1 叙词表数据的交换
当前基于知识组织的术语服务往往涉及多个叙词表,实现术语服务的首要条件是叙词表数据可以在不同的系统之间成功地进行交换。ISO 25964-1:2011从三个方面对叙词表数据的交换进行了规范:①界定了叙词表的数据结构模型。主要是针对数据的逻辑结构,基于这一模型,可以发送或接收电子版的叙词表数据。②推荐了叙词表的数据交换格式。不同计算机程序间的互操作要求有一个统一的词表数据交换格式,ISO 25964-1:2011中罗列了MARC、SKOS、Zthes和DD 8723-5这4种较常用的格式,同时也提及了用于定义术语领域计算机应用的术语标记框架[11]。考虑到这些交换格式难以满足数据结构模型的所有要求,ISO 25964-1:2011推荐了一种用XML定义的词表抽象模型。③给出了叙词表的协议。这是确保叙词表在不同网络环境下得以应用的通信工具,ISO 25964-1:2011中同样列举了多个专门用于叙词表的协议和通用的协议,并建议根据需求,特别是应用目的和软件环境来选择和应用这些协议。
2.2.2 词表之间的映射
为了方便对不同环境、不同目的和用于不同用户群体的信息资源的访问,词表之间的映射是重要的,它是在异构环境中实现语义互操作的一个关键需求,也是当前基于知识组织的术语服务要致力解决的问题。针对这一问题,ISO 25964系列标准作出了以下4个方面的规范:①界定映射类型。主要包括等同映射、层级映射和相关映射,同时还指出,在涉及其他知识组织体系(如本体)时,还需要考虑到其他关系的映射。②提出了用于映射的三种结构模型:一是统一结构模型(structural unity),适用于概念之间层级和相关关系结构完全一致的词表之间的映射;二是直接关联模型(direct linked model);三是中心模型(hub model),后两种模型适用于结构不一致的词表之间的映射。③基于对叙词表和其他知识组织体系的语义要素的对比,对多个叙词表之间以及叙词表与其他知识组织体系之间的映射给出具体的建议。④映射后的词表的显示。这部分标准内容所规范的词表显示并不是面向最终用户的,而是为了便于词表映射的构建与维护。考虑到没有任何一种显示方式能够满足所有可能的需求,因此,标准中只是给出了一些基本的原则。从以上4个方面的内容来看,应该说,ISO 25964系列标准对词表之间的映射进行了全面的规范,涵盖了映射中所涉及的各方面问题。
2.2.3 其他知识组织体系的基本描述
除了叙词表以外,术语服务中还涉及许多其他类型的知识组织体系。然而,目前尚未制定关于这些知识组织体系的标准。为便于叙词表与其他知识组织体系之间进行映射,ISO 25964系列标准也设立了多个条款对此提出具体的建议;对不同知识组织体系的主要特点进行简要的描述,并对照叙词表来分析其语义要素,揭示叙词表与这些知识组织体系之间的互操作需求,为下一步的映射建议奠定基础。但是,标准内容并不涉及这些知识组织体系的编制。ISO 25964系列标准中所涉及的知识组织体系的范围非常广泛,大致可以分为两类:①用于资源分类或标引的知识组织体系。这是该标准中优先选择的体系表,如分类表(Classification schemes)、用于文件管理的分类表(Classification schemes used for records management)、主题分类表(Taxonomies)、标题表(Subject heading schemes)和命名规范列表(Name authority lists);②其他用途的知识组织体系,如ISO 25964系列标准主要列出了本体(ontologies)、术语集(terminologies)和同义词环(synonym rings)。同时,指出这些知识组织体系在信息检索中的辅助作用。
2.3 国际标准修订的特点
2.3.1 致力于规范知识组织体系之间的互操作
为了满足用户对互联网上多种异构资源的无缝检索的需求,实现一站式检索,必须实现多个层面上的互操作,具体包括:词表编制软件与其他应用软件之间的互操作;不同语种的知识组织体系之间的互操作;不同类型的词表或知识组织体系之间的互操作[12]。在ISO 25964系列标准中,其新增的标准内容主要就是针对这些互操作问题:叙词表数据交换格式和数据模型的标准化是为了解决知识组织体系编制软件与其他应用软件或应用环境之间的数据交换问题;对叙词表之间和叙词表与其他知识组织体系之间的映射类型以及结构模型进行规范,则是为了解决不同语种、不同类型知识组织体系在语义层面的互操作问题。
2.3.2 首次明确术语集对叙词表编制的作用
术语集是指由某一主题领域内的一套命名所构成的集合。作为反映特定专业领域术语的词汇表,叙词表在其编制过程中往往会或多或少地纳入一些术语集,如术语标准或词典等。但是,在以往的标准内容中未曾提及。在ISO 25964系列标准中,明确指出术语集对于叙词表的构建与维护非常有用,它们不仅可以作为概念和语词的来源,还有助于提供范围注释,指导优选词的选择,提供款目词的定义。该标准同时指出在应用术语集时应注意的问题。考虑到术语集中的语词一般是用来反映特定主题领域的需求,当这些语词应用于其他环境时,必须要作出一定的调整。因此,在选择相关概念和语词时,应仔细地进行筛选,给有多重含义的术语加上限定词。
2.3.3 体现与术语工作相关标准的协调与融合
在叙词表的编制中,所处理的对象物是专业词汇单位——术语,就这一点而言,它与传统的术语整理工作是一致的。因此,叙词表编制标准的内容与术语工作相关标准的内容是有所交叉和重叠的。为了保持与术语工作相关标准的协调性和一致性,ISO 25964系列标准在内容撰写中采取了以下举措:①在关键概念上,直接引用相关的标准,避免同一个术语在不同标准中的不一致,如“术语集”,ISO 25964系列标准中同时给出了定义及其出处。②对不同标准中的类似内容进行比较,以便于人们更加清楚地了解这些内容的异同。如将ISO 25964系列标准的数据模型要素与《ISO 30042:2008术语、知识和内容管理系统——术语库电子交换(TBX)》[13]的数据模型要素进行对比。③在同一个类目下,同时列出叙词表编制和术语工作所涉及的内容,如词表数据交换格式中,同时列出了术语标记框架。④在标准修订中,广泛参考了术语工作的相关标准,如《ISO 704:2009术语工作——原则与方法》[14]、《ISO 1087-1:2000术语工作—词汇——第1部分理论和应用》[15]。
3 对基于知识组织的术语服务的影响
如前所述,叙词表国际标准在其修订中,新增了大量与术语工作以及术语服务相关的内容。这些规范条款对基于知识组织的术语服务的未来发展将产生深远的影响。
3.1 推动基于知识组织的术语服务的规范化发展
当前基于知识组织的术语服务是依据各种知识组织体系之间的映射来实现的,但是不同的术语服务系统在具体的映射方法和类型方面有所不同。而ISO 25964系列标准对知识组织体系之间的映射作出了全面的规范:从宏观层面上来看,它涵盖映射类型和用于映射的结构模型等原则性问题;从微观层面上来看,它涵盖了不同知识组织体系之间具体的映射建议;从映射的全过程来看,它还涵盖了词表映射之后的显示问题,对映射的构建和维护起到了支持的作用。ISO 25964系列标准的推出,使得今后的术语服务有了可以依据的标准,术语服务也将得到规范化的发展,为今后术语服务之间的互操作奠定了基础。
3.2 促进术语集在基于知识组织的术语服务中的应用
术语集是术语工作者对大量词汇进行搜集、记录、整理和控制所获得的,其表现形式可包括术语数据库、术语标准、词典或其他出版物。术语集源于术语工作领域,主要用于翻译服务和规范使用,很少用于信息检索时,所以,在当前基于知识组织的术语服务中,很少将术语集涵盖其中。然而,术语集中包含丰富的术语及相关信息,如德国夫琅和费研究院和中国科学院软件研究所合作研制的GLOT-C中文术语数据库中,列出了每条术语的索引号、中文术语、对应的英文术语、中文术语的概念类别、中文同义术语、中文多源术语等信息[16];中国标准术语数据库中,列出了每条术语的中文定义、汉语拼音、中文同义词以及各种附属信息,并标有相对应的英文术语、英文同义词等[17]。将这些信息纳入术语服务中,对信息检索是非常有用的。
ISO 25964系列标准中明确指出:在检索应用方面,术语集和叙词表可以相互补充。当被检索的文献没有经过分类或标引,或者现有的元数据不足以进行检索时,如果通过映射将叙词表和术语集结合起来,就可以支持全文检索[10]。此外,ISO 25964系列标准还将术语集和叙词表的语义要素进行了对比,并给出具体的映射建议。这些内容将促使人们将术语集纳入到基于知识组织的术语服务中去。
3.3 促进基于知识组织的术语服务与术语工作的协调发展
叙词表的编制工作与术语标准化以及传统的术语词典工作的对象物均为同样的专业词汇单位——术语。但是,由于这些工作有着一定的差别,而且其目的有着明显差异——前者是为了信息检索,后者是为了术语使用的一致性,所以一直以来,这两项工作一直处于相互脱节的状态,而这种脱节在一定程度上也延续到基于知识组织的术语服务中。基于知识组织的术语服务是图书情报界提出的,主要用于信息检索;而术语工作中所涉及的术语服务主要是面向最终用户的翻译或咨询服务,以确保用户能查找到特定术语的含义,确保术语使用的一致性。
在ISO 25964系列标准的修订过程中,鉴于其中涉及大量与术语工作相类似的概念和过程,ISO/TC46信息与文献标准化技术委员会的工作组与ISO/TC37术语标准化技术委员会开展了密切的合作,讨论相关事宜。ISO/TC37的专家对ISO 25964系列标准中涉及术语集的内容提供了有建设性的意见[18]。此外,ISO 25964系列标准广泛地参考了术语工作的相关标准,确保了ISO 25964系列标准与术语工作相关标准的协调性和一致性。标准的制定是为了在一定的范围内获得最佳秩序,ISO 25964系列标准的出现也将促进基于知识组织的术语服务与术语工作的协调发展。
4 结语
经过修订的叙词表国际标准在叙词表编制与术语工作之间建立了联系,这势必将对基于知识组织的术语服务产生重要影响。我国在基于知识组织的术语服务方面的研究及实践探讨也越来越多,如中国科学技术信息研究所将依托基于《汉语主题词表》建立的基础词库来提供术语服务。对于从事术语服务研究与实践的研究人员来说,密切关注叙词表国际标准的进展,一方面可以及时地将相关的规范条款应用到术语服务研究与实践中去,吸收标准内容中所蕴含的先进经验,避免走弯路;另一方面,也可以在标准制定过程中的特定阶段,及时地发表对标准内容的意见,以便于将自身研究与实践中所积累的先进经验和成果反映在标准内容中,提升其科学性。