信息检索同义词库编译标准_信息检索论文

用于信息检索的叙词表编制标准,本文主要内容关键词为:词表论文,信息检索论文,标准论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 新版叙词表编制标准修订的背景

      叙词表是我国信息组织和检索领域较为成熟的知识组织工具之一。自20世纪70年代以来,我国编制了众多综合性叙词表和专业叙词表,在文献信息组织和检索中得到广泛应用。叙词表发挥作用的内核机制是规范控制,网络信息环境下其主题规范控制的重要价值在某些领域(如科研、教育、生产等)日益凸显,使其成为信息序化及开发利用过程中必不可少的重要工具。叙词表编制国家标准,是对叙词表的编制予以规定,并由国家标准机构批准的规范性文件。它对于促进叙词表编制的规范化和词表之间的数据交换与共享,起着重要作用[1]。

      在新标准GB/T 13190.1-2015[2]实施之前,我国叙词表编制的国家标准包括:GB/T 13190-1991《汉语叙词表编制规则》[3](基于ISO 2788:1986《文献工作——单语种叙词表编辑和修订准则》[4]编制)和GB/T 15417-1994《文献多语种叙词表编制规则》[5](基于ISO 5964:1985《文献工作——多语种叙词表编辑和修订准则》[6]编制)。这两部制定和颁布于20世纪80年代末到90年代初的标准,虽然多少考虑到计算机检索系统的需求,但基本内容还是立足于满足手工编制和管理印刷型词表、人工主题标引的应用需求。

      网络信息环境下,计算机技术、数字化技术、网络技术已经普遍应用于信息组织和信息检索各个领域。叙词表的应用环境、用户群体以及整个信息环境和检索机制方面的变化,引发了叙词表编制、维护、管理、应用等方面的变革需求。旧的标准亟待修订,以满足新信息环境下信息组织和检索的新需求。我国叙词表编制的最新指导、规范性文件——《信息与文献 叙词表及与其他词表的互操作》正是应对这一变革的产物。

      该标准由两部分组成。第一部分用于信息检索的叙词表(GB/T 13190.1-2015),已于2015年5月15日正式发布,2015年12月1日起正式实施;第二部分内容是关于与其他词表的互操作(修订中)。本文仅就第1部分GB/T 13190.1-2015展开阐述,以下简称《新标准》。

      2 GB/T13190.1-2015《新标准》修订的基本思路

      2.1 《新标准》修订依据

      我国标准制定一贯坚持国际化视野,积极借鉴国际标准的先进经验。《新标准》修订组持续跟踪研究了同阶段发布的多个国外叙词表编制标准,包括美国的ANSI/NISO Z39.19-2005《单语种受控词表的结构、形式和管理指导方针》[7]、英国国家标准BS 8723-5-2008《信息检索的结构化词汇指南》[8]、《IFLA多语种叙词表编制指南》[9]和ISO 25964-1:2011《信息与文献叙词表及与其他词表的互操作》[10]等。《新标准》修订组一致认为ISO 25964-1:2011与ISO 25964-2(当时尚未出台)构成了关于叙词表修订编制、维护、管理、应用的完整体系,其基本内容仍然以BS 8723为主,可以视为是对ISO 2788:1986和ISO 5964:1985的直接继承,它将成为世界范围内叙词表编制标准的主导,对我国叙词表编制标准的修订具有重要的参考意义。因此,《新标准》修订组最终确定使用重新起草法,在ISO 25964-1:2011的基础上进行修订,并确定了修订指导原则,即原则上遵循并采用ISO 25964-1:2011(包括结构、章节、行文、语句等),在此基础上增加满足汉语叙词表编制的特定内容,包括:增加汉语语词的举例或注释说明;增加对应的常用汉语标记符;当涉及多语言的语词、符号时,英语与汉语分别集中编列规则;增加汉语叙词表的例图等,以适应汉语叙词表的编制和应用需要。

      2.2 以概念为核心的基本原则

      情报检索理论中有一个基本假设,即任何语词都是概念的表征。概念是抽象、唯一的基本知识单元。一个概念可以有一种或多种语词表达形式,一种表达形式即一个术语表示,一个术语也可能代表多个概念。表达概念的语词可以是单元词、复合词。在叙词表中,某一概念的既定语义范围通常由其上位概念和下位概念构成的等级关系所提供的上下文来限定,但当上述方式仍不足以充分明确表达预期范围时,可以采用附加的措施(如限定词、范围注释)来明确概念的边界。叙词表的主要应用是支持以概念搜索为目的的信息检索,因此,概念逻辑是叙词语言的基础,概念和概念间关系的表示是检索语言要解决的关键问题。《新标准》从术语入手,以概念化为导向,以自然语言词汇为基本单元,以概念为核心,通过优选控制(词量、词类、先组度)、规范化控制(词形、词义)、结构化控制(词间关系)等规范控制手段实现词汇术语的整合,从而实现以概念为核心的语义网络的构建。

      2.3 回归叙词表后控制信息检索的主要应用

      叙词表的主要功能是支持信息检索。在印刷型词表和手工标引环境下,常出现叙词表的编制与应用相互脱节的现象,编表归编表、标引归标引、检索归检索。实际上,编表——标引——检索这三个环节息息相关。在信息检索过程中,叙词表主要应用于两个阶段:标引和检索。作为检索系统的核心模块,标引和检索均会涉及词汇的选择与控制问题。

      叙词表主要应用于后控检索系统。从目前的检索机制和信息环境来看,叙词表作为检索中介与语义控制词典的作用越加明显[11]。因此,应用于后控检索系统的叙词表的编制开发,是《新标准》编制规则规定的核心。同时,《新标准》也可以应用于网络导航系统、浏览主题目录以及分类法等先组(先控)检索系统。

      以往的叙词表主要面向信息专业人员用于标引和检索,而网络环境下的叙词表则要适应普通用户更直观的信息检索需求,甚至机器用户的自动标引和检索。因此,网络环境下叙词表设计的基本原则应从适应普通用户和机器用户的应用环境和需求出发,叙词表的编制应更加关注词汇控制模式上的变革,包括叙词表的自然语言化、控制机制的智能化(“无形化”),以及与互操作的结合,与其他应用(标引、检索等)系统数据的无缝交换和集成。

      2.4 兼顾融合单语种与多语种

      近年来,为了更好地适应网络多语言环境、开发利用外文信息资源,多数叙词表根据用户的使用特点、检索文献的语言种类,呈现出双语种或多语种的特点。另外,跨语种叙词表间的映射、翻译已经成为非常重要的多语种叙词表编制方式。为网络环境下多语种叙词表的编制、维护、管理和跨语言互操作映射提供的规则和指南,是叙词表编制标准中不可或缺的组成部分。《新标准》实施之前的两部叙词表编制标准(GB/T 13190-1991和GB/T 15417-1994)是单语种和多语种相互独立,自成体系。事实上,作为GB/T 13190-1991和GB/T 15417-1994修订基础的ISO 5964:1985和ISO 2788:1986遵循同样的规则,只是将这些规则应用到多语言环境中。ISO以英国国家标准BS 8723为基础,将ISO 2788:1985和ISO 5964:1986更新、扩展为ISO 25964,涵盖了单语种和多语种叙词表编制规则。《新标准》也采纳这一做法,将GB/T 13190-1991与GB/T 15417-1994融为一体,兼顾了单语种和多语种的处理,以避免大量交叉、重叠的阐释和规定。

      2.5 充分运用计算机技术编制和管理叙词表

      叙词表的编制与管理是一件耗时耗力、智力依赖型工作,人工编制难度大,更新滞后缓慢,无法满足信息时代的需求。目前,网络环境是叙词表构建、展示和应用的主要环境,叙词表的编制和管理更多地借助于信息技术和网络技术,但领域专家的智力依然不可或缺。

      在叙词表构建和管理过程中,一方面,应充分利用各种自然语言处理技术,从海量语料库中收集、提取概念术语和词汇,并利用计算机的计算速度和智能程度获取概念间关系,加快知识的智能处理进程;另一方面,应当基于网络平台,开发或选择叙词表编制管理软件,应用于叙词表构建、管理、存储、维护中的各种事务性工作,以节省人力和时间成本,实现从“人编机助”向“机编人助”[11]的方向发展。

      3 GB/T13190.1-2015《新标准》的特点

      相对于GB/T 13190-1991、GB/T 15417-1994而言,《新标准》GB/T 13190.1-2015在标准的编制风格和内容方面呈现出许多适应数字网络技术环境、应用环境、汉语的新特点。

      3.1 标准编制风格

      3.1.1 内容全面、详尽,涉及词表编制与应用的各个方面

      《新标准》内容详尽的特点主要表现在,除了对叙词表传统的核心机制——词汇、词间关系控制之外,在叙词表概述和目标、分面分析、显示与布局、叙词表的构建与维护管理等方面也都做了详细的规定,同时对叙词表编制管理软件和词表的互操作(包括数据模型、与应用系统的集成、交换格式和协议)做出了指南性建议和规定。

      3.1.2 实用性强,充分考虑各个环节、各种细节

      《新标准》一改以往词表编制标准只做出原则性规定的不足,新版在做出原则性规定的同时,还做出了进一步的说明或规定,大大提高了词表编制的可操作性。例如:

      12.1.2 显示样式综述

      当以屏幕形式或印刷版形式提供给用户使用时,叙词表可以通过如下方式显示:

      a)单条记录是最基本的显示形式,它显示优选词或非优选词本身以及(可以选择)附加于它的任意一种或全部关系、编码和注释;

      b)按字顺排列显示,可以从用户最初表达的语词指引到概念,在印刷版叙词表中它可起索引功能,而计算机显示中它能够补充直接查找功能;

      c)以BT/NT关系为基础的等级序列显示,能够帮助扩展或限制被标引或检索的概念;

      d)分类序列显示,可以实现在一个学科或主题领域中的浏览,引起对相关概念的关注;

      e)图形显示,可以用图形化的形式展示语词和它们的关系;

      f)轮排显示,可以帮助找到那些嵌入在复合语词中的单词、词素。

      这些不同的显示彼此互相补充。按字母顺序获取是最基本的,应该提供直接查找或提供b)中描述的按字母顺序排列的序列。c)和d)中至少应该提供一种来给出体系序列的一个总览。有关每个概念的附加信息,如范围注释、和其他概念的关系,可以……在看待不同序列的相对重要性和功能方面,还有……叙词表可以有很大的差异……

      3.1.3 “刚性”弱,“弹性”强

      “刚性”是指硬性规定,“弹性”是指可以根据不同的情况进行变通。可以说,“刚性”弱,“弹性”强是本次修订的显著特点。

      由于叙词表是一种典型的人工语言,带有强烈的“人为性”,针对不同的检索系统、不同的用户群,很难说哪种“人为性”最佳。因此,在具体规定上,《新标准》通常根据具体的应用情况,弹性地给出不同的推荐选项,而这正是叙词表编制中的灵魂和精髓。也正是由于这个特点,《新标准》看起来并不像传统意义上刚性规定的“标准”,而更像是参考性、可操作性强的“教科书”。下面是《新标准》中的一些弹性表述(画线部分)。

      

      3.2 标准内容的新特点

      3.2.1 提供了更为清晰的分面分析应用指南

      分面分析具有多维视角组织揭示和呈现检索结果的优异性能,是Web信息架构的重要组织模式和检索方式,在网络环境中广泛使用。分面分析法使叙词表从树型结构向网络结构发展,使叙词表在导航组织、检索、呈现等方面具有非常好的应用前景。该方法的重要性在《新标准》中也得到了体现。《新标准》将分面分析单独列为一章,并提供了清晰的应用指南。《新标准》指出:分面的选择可根据叙词表主题领域的不同而有所变化,但在更高层级上,不同领域的叙词表可使用一些基本的类,如对象、材料、机构、行为、地点、时间等来进行分面[1]。

      3.2.2 规定了灵活多样的叙词表组织和显示方式

      《新标准》兼顾了屏幕形式和印刷版形式的叙词表,规定和展示了灵活多样的叙词表组织和显示方式来适应当前的现实和未来的发展。

      在屏幕版本和在线网络环境下,分面分析法充分展示了其在叙词表微观结构组织和呈现中灵活、动态、多维、全面地显示词间关系的优势性能。除了字顺显示、等级显示等传统叙词表组织方式外,《新标准》还着重给出了分面组织的等级显示、按学科主题的分类组织显示、学科主题加分面的组织显示,以及多语种叙词表的显示与布局等示例和具体指南,并以资料性附录的方式补充了国外和国内一部分已经以印刷或在线方式出版的叙词表显示样式,并说明每一种显示样式的特点。《新标准》为叙词表编制中微观结构的组织和显示方式的选择,以及在特定环境中可选择采用哪些(或哪种)类型提供了直观的参照依据和指南。

      3.2.3 规定了叙词表管理软件的一般特征和功能要求

      叙词表管理软件主要用于叙词表的编制和管理。在实际应用中,叙词表管理软件的功能设计应以待编制的叙词表项目的要求为依据。《新标准》给出了叙词表管理软件开发的指导原则,包括一般的特征和功能(见表1)。

      

      表1中对指导原则的描述满足了叙词表管理软件应该具备的导入、导出、编辑、校验、输出、显示、统计等主要功能,保证了叙词表管理软件的三项特征:逻辑完整性、操作方便性、数据安全性。当选择叙词表管理软件时,只要循着表1所列特征和功能及其他需求,就可以对市场上的现有软件产品进行评估,或者为定制或开发新的软件提供原则性指南[12]。

      3.2.4 增加了叙词表编制中互操作的相关技术内容

      叙词表往往需要整合到一定的信息系统或软件环境中才能得到应用,因此,需要解决叙词表与软件之间的互操作,或数据交换问题。对此,GB/T 13190.1-2015给出了相对全面的解决方案。一方面,叙词表数据交换格式和数据模型的标准化是为了解决知识组织体系编制软件与其他应用软件或应用环境之间的数据交换问题;另一方面,对叙词表之间和叙词表与其他知识组织体系之间的映射类型以及结构模型进行规范,则是为了解决不同语种、不同类型知识组织体系在语义层面的互操作问题。叙词表互操作方面的规定,体现了将叙词表的应用从以人为主向“人”“机器”都能识别的方向转化,适应了网络环境下知识组织领域的发展。

      3.2.5 新增了大量与基于知识组织的术语服务密切相关的内容

      术语学是情报检索语言的三大基础之一[13]。网络环境下,叙词表的功能与用途被冠以“术语服务”(Terminology Service)这个具体称谓[14]。作为内容准确、描述规范的术语集,叙词表已经成为当前基于知识组织的术语服务的主要数据源[15]。面向知识发现与利用的知识组织服务系统是叙词表当前和未来的发展趋势。《新标准》除了保留叙词表编制方面的条款以外,还新增了大量与术语服务密切相关的内容。

      《新标准》首次明确指出术语集对叙词表的构建与维护非常有用,它们不仅可以作为概念和语词的来源,还有助于提供范围注释,指导优选词的选择,提供款目词的定义。该标准同时指出在应用术语集时应注意的问题。

      术语服务的基本要素之一就是术语集合的形式化表征,因此,叙词表的形式化表征已经成为其网络应用服务的基本技术要件。《新标准》提出的关于互操作中的数据交换格式、网络环境下的应用协议等方面的建议,实际上也涉及了叙词表形式化表征和网络化应用的内容。

      4 GB/T13190.1-2015《新标准》的不足与展望

      4.1 《新标准》的不足

      任何标准的产生都是由需求推动的,任何标准一经诞生,在应用实践中又会产生新的完善、修订需求。标准经常是平衡和妥协的结果。十全十美、一成不变的标准是没有的。

      《新标准》只对叙词表的编制给予规定,对于叙词表以外的其他词表仅描述一般性特征,并侧重于解决它们与叙词表之间的互操作问题。

      《新标准》是在ISO 25964-1:2011的基础上修订完成的,有关与其他叙词表互操作的“15数据模型”“16叙词表及其应用程序的集成”“17交换格式”“18协议”等部分仅做了原则性内容阐述及规定,可操作性不足。这些内容有待于在下一阶段对《新标准》“第2部分:与其他词表的互操作”(基于ISO 25964-2:2014)[16]的修订工作中做进一步的阐释和规定,从而与第1部分构成一个整体配合使用。

      《新标准》还存在其他一些不足之处和需要不断完善的地方。例如,在词族的设计和编制等方面,指导性的规定较薄弱;常用汉语标记符号仍然承袭原来的“YDSFCZ”,更为细分的关系符号需要借用“英语标记符”,这对于汉语叙词表编制的本体化发展无疑将是一个制约。另外,由于遵循ISO 25964-1:2011的阐释、行文风格,该标准的语句部分存在“欧化”的瑕疵。

      但作为计算机化、数字化、网络化条件下的词表编制标准,《新标准》与GB/T 13190-1991和GB/T 15417-1994相比,有了质的飞跃,它的发布和施行,必将极大地推动我国检索语言的发展和应用。

      4.2 《新标准》展望

      在《新标准》修订的这个周期,国内外知识组织领域的发展异常迅猛,除了叙词表适应网络应用的改造外,关系模式层次的知识组织系统还发展出了概念图、主题图、语义网络、本体等新型语义组织模式;知识组织系统的形式化语义描述(XML/RDF/SKOS/OWL),关联数据的形式化发布成为必须;语义词表的应用样式不断丰富和拓展,术语服务成为必然。

      近年来,图书馆界在未来书目控制方面的努力,包括书目功能需求FRBR模型(及其对规范记录与主题的扩展FRAD和FRSAD)、基于FRBR模型的实践——新的编目内容标准RDA,以及直指革命MARC的基于关联数据的新书目数据格式模型BIBFRAME等,与互联网领域的语义化WikiData、知识图谱(Knowledge Graph)的发展,无不彰显着网络规范控制的重要价值。规范控制、取值词汇集成为RDA、BIBFRAME功能目标实现和网络环境下信息开发利用必不可少的重要基础和工具。名称规范数据集、主题规范数据集的网络编制和应用,已然成为知识组织界的热点和焦点。

      一度被唱衰和质疑的传统受控词表,正经历着网络适应性改造和变革的过程,并迎来新一轮的发展契机和研究热潮。《新标准》的制定为我国传统叙词表的网络知识组织适应性改造和新叙词表的编制,及其在机器世界中的应用提供了指南和方向。

      (致谢:感谢华东理工大学陈树年老师的支持与帮助。)

标签:;  ;  

信息检索同义词库编译标准_信息检索论文
下载Doc文档

猜你喜欢