用于信息检索的叙词表编制标准,本文主要内容关键词为:词表论文,信息检索论文,标准论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 新版叙词表编制标准修订的背景 叙词表是我国信息组织和检索领域较为成熟的知识组织工具之一。自20世纪70年代以来,我国编制了众多综合性叙词表和专业叙词表,在文献信息组织和检索中得到广泛应用。叙词表发挥作用的内核机制是规范控制,网络信息环境下其主题规范控制的重要价值在某些领域(如科研、教育、生产等)日益凸显,使其成为信息序化及开发利用过程中必不可少的重要工具。叙词表编制国家标准,是对叙词表的编制予以规定,并由国家标准机构批准的规范性文件。它对于促进叙词表编制的规范化和词表之间的数据交换与共享,起着重要作用[1]。 在新标准GB/T 13190.1-2015[2]实施之前,我国叙词表编制的国家标准包括:GB/T 13190-1991《汉语叙词表编制规则》[3](基于ISO 2788:1986《文献工作——单语种叙词表编辑和修订准则》[4]编制)和GB/T 15417-1994《文献多语种叙词表编制规则》[5](基于ISO 5964:1985《文献工作——多语种叙词表编辑和修订准则》[6]编制)。这两部制定和颁布于20世纪80年代末到90年代初的标准,虽然多少考虑到计算机检索系统的需求,但基本内容还是立足于满足手工编制和管理印刷型词表、人工主题标引的应用需求。 网络信息环境下,计算机技术、数字化技术、网络技术已经普遍应用于信息组织和信息检索各个领域。叙词表的应用环境、用户群体以及整个信息环境和检索机制方面的变化,引发了叙词表编制、维护、管理、应用等方面的变革需求。旧的标准亟待修订,以满足新信息环境下信息组织和检索的新需求。我国叙词表编制的最新指导、规范性文件——《信息与文献 叙词表及与其他词表的互操作》正是应对这一变革的产物。 该标准由两部分组成。第一部分用于信息检索的叙词表(GB/T 13190.1-2015),已于2015年5月15日正式发布,2015年12月1日起正式实施;第二部分内容是关于与其他词表的互操作(修订中)。本文仅就第1部分GB/T 13190.1-2015展开阐述,以下简称《新标准》。 2 GB/T13190.1-2015《新标准》修订的基本思路 2.1 《新标准》修订依据 我国标准制定一贯坚持国际化视野,积极借鉴国际标准的先进经验。《新标准》修订组持续跟踪研究了同阶段发布的多个国外叙词表编制标准,包括美国的ANSI/NISO Z39.19-2005《单语种受控词表的结构、形式和管理指导方针》[7]、英国国家标准BS 8723-5-2008《信息检索的结构化词汇指南》[8]、《IFLA多语种叙词表编制指南》[9]和ISO 25964-1:2011《信息与文献叙词表及与其他词表的互操作》[10]等。《新标准》修订组一致认为ISO 25964-1:2011与ISO 25964-2(当时尚未出台)构成了关于叙词表修订编制、维护、管理、应用的完整体系,其基本内容仍然以BS 8723为主,可以视为是对ISO 2788:1986和ISO 5964:1985的直接继承,它将成为世界范围内叙词表编制标准的主导,对我国叙词表编制标准的修订具有重要的参考意义。因此,《新标准》修订组最终确定使用重新起草法,在ISO 25964-1:2011的基础上进行修订,并确定了修订指导原则,即原则上遵循并采用ISO 25964-1:2011(包括结构、章节、行文、语句等),在此基础上增加满足汉语叙词表编制的特定内容,包括:增加汉语语词的举例或注释说明;增加对应的常用汉语标记符;当涉及多语言的语词、符号时,英语与汉语分别集中编列规则;增加汉语叙词表的例图等,以适应汉语叙词表的编制和应用需要。 2.2 以概念为核心的基本原则 情报检索理论中有一个基本假设,即任何语词都是概念的表征。概念是抽象、唯一的基本知识单元。一个概念可以有一种或多种语词表达形式,一种表达形式即一个术语表示,一个术语也可能代表多个概念。表达概念的语词可以是单元词、复合词。在叙词表中,某一概念的既定语义范围通常由其上位概念和下位概念构成的等级关系所提供的上下文来限定,但当上述方式仍不足以充分明确表达预期范围时,可以采用附加的措施(如限定词、范围注释)来明确概念的边界。叙词表的主要应用是支持以概念搜索为目的的信息检索,因此,概念逻辑是叙词语言的基础,概念和概念间关系的表示是检索语言要解决的关键问题。《新标准》从术语入手,以概念化为导向,以自然语言词汇为基本单元,以概念为核心,通过优选控制(词量、词类、先组度)、规范化控制(词形、词义)、结构化控制(词间关系)等规范控制手段实现词汇术语的整合,从而实现以概念为核心的语义网络的构建。 2.3 回归叙词表后控制信息检索的主要应用 叙词表的主要功能是支持信息检索。在印刷型词表和手工标引环境下,常出现叙词表的编制与应用相互脱节的现象,编表归编表、标引归标引、检索归检索。实际上,编表——标引——检索这三个环节息息相关。在信息检索过程中,叙词表主要应用于两个阶段:标引和检索。作为检索系统的核心模块,标引和检索均会涉及词汇的选择与控制问题。 叙词表主要应用于后控检索系统。从目前的检索机制和信息环境来看,叙词表作为检索中介与语义控制词典的作用越加明显[11]。因此,应用于后控检索系统的叙词表的编制开发,是《新标准》编制规则规定的核心。同时,《新标准》也可以应用于网络导航系统、浏览主题目录以及分类法等先组(先控)检索系统。 以往的叙词表主要面向信息专业人员用于标引和检索,而网络环境下的叙词表则要适应普通用户更直观的信息检索需求,甚至机器用户的自动标引和检索。因此,网络环境下叙词表设计的基本原则应从适应普通用户和机器用户的应用环境和需求出发,叙词表的编制应更加关注词汇控制模式上的变革,包括叙词表的自然语言化、控制机制的智能化(“无形化”),以及与互操作的结合,与其他应用(标引、检索等)系统数据的无缝交换和集成。 2.4 兼顾融合单语种与多语种 近年来,为了更好地适应网络多语言环境、开发利用外文信息资源,多数叙词表根据用户的使用特点、检索文献的语言种类,呈现出双语种或多语种的特点。另外,跨语种叙词表间的映射、翻译已经成为非常重要的多语种叙词表编制方式。为网络环境下多语种叙词表的编制、维护、管理和跨语言互操作映射提供的规则和指南,是叙词表编制标准中不可或缺的组成部分。《新标准》实施之前的两部叙词表编制标准(GB/T 13190-1991和GB/T 15417-1994)是单语种和多语种相互独立,自成体系。事实上,作为GB/T 13190-1991和GB/T 15417-1994修订基础的ISO 5964:1985和ISO 2788:1986遵循同样的规则,只是将这些规则应用到多语言环境中。ISO以英国国家标准BS 8723为基础,将ISO 2788:1985和ISO 5964:1986更新、扩展为ISO 25964,涵盖了单语种和多语种叙词表编制规则。《新标准》也采纳这一做法,将GB/T 13190-1991与GB/T 15417-1994融为一体,兼顾了单语种和多语种的处理,以避免大量交叉、重叠的阐释和规定。 2.5 充分运用计算机技术编制和管理叙词表 叙词表的编制与管理是一件耗时耗力、智力依赖型工作,人工编制难度大,更新滞后缓慢,无法满足信息时代的需求。目前,网络环境是叙词表构建、展示和应用的主要环境,叙词表的编制和管理更多地借助于信息技术和网络技术,但领域专家的智力依然不可或缺。 在叙词表构建和管理过程中,一方面,应充分利用各种自然语言处理技术,从海量语料库中收集、提取概念术语和词汇,并利用计算机的计算速度和智能程度获取概念间关系,加快知识的智能处理进程;另一方面,应当基于网络平台,开发或选择叙词表编制管理软件,应用于叙词表构建、管理、存储、维护中的各种事务性工作,以节省人力和时间成本,实现从“人编机助”向“机编人助”[11]的方向发展。 3 GB/T13190.1-2015《新标准》的特点 相对于GB/T 13190-1991、GB/T 15417-1994而言,《新标准》GB/T 13190.1-2015在标准的编制风格和内容方面呈现出许多适应数字网络技术环境、应用环境、汉语的新特点。 3.1 标准编制风格 3.1.1 内容全面、详尽,涉及词表编制与应用的各个方面 《新标准》内容详尽的特点主要表现在,除了对叙词表传统的核心机制——词汇、词间关系控制之外,在叙词表概述和目标、分面分析、显示与布局、叙词表的构建与维护管理等方面也都做了详细的规定,同时对叙词表编制管理软件和词表的互操作(包括数据模型、与应用系统的集成、交换格式和协议)做出了指南性建议和规定。 3.1.2 实用性强,充分考虑各个环节、各种细节 《新标准》一改以往词表编制标准只做出原则性规定的不足,新版在做出原则性规定的同时,还做出了进一步的说明或规定,大大提高了词表编制的可操作性。例如: 12.1.2 显示样式综述 当以屏幕形式或印刷版形式提供给用户使用时,叙词表可以通过如下方式显示: a)单条记录是最基本的显示形式,它显示优选词或非优选词本身以及(可以选择)附加于它的任意一种或全部关系、编码和注释; b)按字顺排列显示,可以从用户最初表达的语词指引到概念,在印刷版叙词表中它可起索引功能,而计算机显示中它能够补充直接查找功能; c)以BT/NT关系为基础的等级序列显示,能够帮助扩展或限制被标引或检索的概念; d)分类序列显示,可以实现在一个学科或主题领域中的浏览,引起对相关概念的关注; e)图形显示,可以用图形化的形式展示语词和它们的关系; f)轮排显示,可以帮助找到那些嵌入在复合语词中的单词、词素。 这些不同的显示彼此互相补充。按字母顺序获取是最基本的,应该提供直接查找或提供b)中描述的按字母顺序排列的序列。c)和d)中至少应该提供一种来给出体系序列的一个总览。有关每个概念的附加信息,如范围注释、和其他概念的关系,可以……在看待不同序列的相对重要性和功能方面,还有……叙词表可以有很大的差异…… 3.1.3 “刚性”弱,“弹性”强 “刚性”是指硬性规定,“弹性”是指可以根据不同的情况进行变通。可以说,“刚性”弱,“弹性”强是本次修订的显著特点。 由于叙词表是一种典型的人工语言,带有强烈的“人为性”,针对不同的检索系统、不同的用户群,很难说哪种“人为性”最佳。因此,在具体规定上,《新标准》通常根据具体的应用情况,弹性地给出不同的推荐选项,而这正是叙词表编制中的灵魂和精髓。也正是由于这个特点,《新标准》看起来并不像传统意义上刚性规定的“标准”,而更像是参考性、可操作性强的“教科书”。下面是《新标准》中的一些弹性表述(画线部分)。信息检索同义词库编译标准_信息检索论文
信息检索同义词库编译标准_信息检索论文
下载Doc文档