分类表编制技术标准发展态势研究,本文主要内容关键词为:技术标准论文,态势论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G254.12 [文献标识码]A [文章编号]1005-6610(2008)02-0030-06
1 引言
分类法的标准化指分类表的编制与使用逐步从多元化、个性化过渡到统一化、标准化的过程。从微观层面上讲,它要求在一个国家或地区或者一个行业范围内制订出统一的分类标引和检索体系。从宏观层面上讲,是指在国际上建立一种通用的分类标引和检索体系。标准化是文献信息分类发展的必然趋势,可以为文献信息资源的共建、交流与共享创造便利的条件。
国内有学者认为,国际标准化组织已制订出两种文献分类法编制标准[1],即《ISO/R1149:1969 Layout of multilingual classified vocabularies》(多语种分类表的版面设计)、《ISO/R919:1969 Guide for the preparation of classified vocabularies(example of method)》(分类表编制指南:方法示例)。实际上这是把以分类编排的词汇表(classified vocabularies)错译成分类表。尽管分类法的标准化一直是国际图书馆界关注的一个问题,但令人遗憾的是至今未见国际通用的分类法编制与修改的专门技术标准。
近年来,美国和英国在修订叙词表编制与修订的标准时,把其他受控词表(包括词单、同义词表、分类表)也收录进来,并把新的技术标准的使用对象扩大为用于信息检索的一切结构化词表或受控词表,因此这些标准中就包含了有关分类表编制与修订的有关内容,这是近年来出现的最大变化。国内有关机构和研究人员也积极跟踪有关动态,在分类表编制与修订标准化方面取得了一些进展。现将其主要进展择要简介如下,以飨各位同仁。
2 国内研究概况及发展态势
2.1 概况
20世纪80年代以来,我国加快了文献工作标准化研究和制订的进程,提出了系列标准草案和送审稿[2]。根据这一背景,全国情报文献工作标准化技术委员会第五分会等组织于1989年10月底在成都召开了全国分类法与主题法标准化研讨会,讨论了有关分类法、主题法的4项国家标准(送审稿):1)《文献叙词标引规则》(修订送审稿);2)《文献分类颜色标识规则》(送审稿);3)《文献分类规则》(送审稿);4)《中图法》(送审稿)。到目前为止,除了第一项标准已经正式颁布以外,其他三项分类技术标准皆未获批准,而被搁置起来。
另外国家标准局还颁布了以下几项信息分类编码方面的标准,实际上均与分类表编制技术有关,具体标准如下:
●GB/T 7027《信息分类编码的基本原则和方法》
1986年发布,目前使用的是其2002年版本。
●GB7026—1986《信息分类编码标准的编写规定》
一般按下列内容和顺序编写:①分类原则;②编码方法;③分类与代码表(或代号表);④代码表索引。
根据GB/T 7027和GB7026—1986,我国有关部门陆续编制了若干信息分类编码标准,如GB/T13923—1992《国土基础信息数据分类与代码》、LD/T75—1995《劳动防护用品分类与代码》、SL01—1997《水利水电技术标准编写规定》、SL213—1998《水利工程基础信息代码编制规定》等,其中大多数都对分类编码的原则和要求进行了总结。比如2006年3月制订的《煤炭营销信息化标准(修订版)》要求编码具有唯一性、合理性、简单性、适用性、保密性、科学性、系统性、实用性等特性。[3]
●GB20001.3—2001《标准编写导则第3部分信息分类编码》
确立了标准的结构和编写规则,适用于信息分类编码国家标准、行业标准、地方标准的编写。企业标准的编写可参照使用,非信息分类编码标准中含有信息分类编码内容的章、条也可参照使用。
●GB/T10113《分类与编码通用术语》
1988年发布第一版GBl0113—1988,最新版为GB10113—2003。
2.2 主要发展态势
2.2.1 关注国外最新研究进展
对国外最新进展情况及时加以报道和评述。如中国科学院图书馆的陈胜芳于1985年就全面介绍了Z39标准[4],对于了解国外Z39标准的有关情况大有裨益。近几年来图情界关注的程度就更高,比如,2005年《中图法》第七届编委会特邀曾蕾博士就“美国国家标准(Z39.19)的最新版”、“英国国家标准(BS 8723)进展情况”、“IFLA多语种叙词表编制指南”分别作专题介绍。[5]国内学者也分别撰文介绍有关情况,比如胡钺芳等介绍“ANSI/NISO和受控词汇新标准”[6]、刘华梅等介绍检索语言互操作研究进展[7]。此类资料散见于网络和报刊杂志,此处不再赘述。
2.2.2 加速编制相关技术标准
分类法标准应用的大量实践是制定分类表编制技术标准的重要前提,而目前大陆地区尚无专门的分类法标准且两岸四地情况不同。面对这样的情况,要编制统一的分类法编制技术标准应该说存在不小的难度,所以,从与分类法编制的相关标准(如信息分类编码标准)入手,逐步向核心逼近当是可行之法。
2.2.3 参照国外标准完善现有分类表
因为我国现代图书馆事业起步较晚,所以目前国内的主要标准和规范基本上是参照ISO、IFLA等国际组织以及美英等国标准编制的。虽然目前我国还没有制定专门的分类表编制技术标准,但是相关的努力却一直在进行,比如《中图法》编委会就曾多次研讨国外标准的最新进展情况,并准备在《中图法》新版加以实施和运用。[5]实际上《中国分类主题词表》电子版在相当程度上就运用了国外相关标准的成果。
2.2.4 探索网络分类表编制技术
关于网络信息分类的研究一直是研究的热点,尽管未能制定出一部网络分类法编制技术标准,但是国内有关单位和个人的探索却一直没有停止过。我国信息产业部专门成立了网络信息组织标准工作组,并委任标杆公司为组长单位。首批成员由北京大学、清华大学、华南理工大学、国家图书馆、中科院、医科院、农科院等近二十个单位组成,负责我国网络信息组织技术应用领域的标准制(修)订工作。陈树年先生提出了网络分类系统的基本结构与编制方法,认为应该包括如下要点:有一个涵盖各知识领域、结构清晰、层次简明、能满足网上信息组织需要的分类体系;采用等级结构展示知识的系统联系,构成枝干分类的主题树或脉络清晰的地图;应采用对用户最有利的排列次序等,并提出了中文信息分类大纲。[8]马张华教授则对分类搜索引擎的类目体系进行了较为全面的分析,仔细地研究了类目结构的编制依据。[9]另外尚有多位学者,如陈梅华[10]、黄晓倩[11]、洪漪、梁树柏[12]等诸人对此进行了相关研究。无疑这样的研究均为网络分类法编制技术标准的编制奠定了坚实的基础。
3 国外研究概况及发展态势
3.1 概况
关于受控词表的编制标准的研究与编制,英美等国一直走在世界各国的前列,制定了一系列标准。比如美国ANSI/NISO Z39.19—2005《单语种受控词表编制、格式与管理规则》(后文简称Z39.19)、英国BS 8723—《用于信息检索的结构化词表指南》(后文简称BS8723)以及IFLA起草了《多语种叙词表编制指南》(后文简称IFLA指南)等。上述两种标准和一种指南是目前业界广泛采用的规范,代表了目前国外受控词表编制标准研究的最新成果。
Z39.19于1974年出版,大约每五年修订一次,曾经先后于1980、1988、1993、1998、2003年出版过多个修订版,英文题名为《Guidelines for the construction,format and management of monolingual controlled vocabularies》。[13][14][15]2005版是完全的新版,所以修改幅度很大,2003版只有81页,而2005版却有184页。2005版全文共分11个部分,各章名称分别为:①引言、②范围、③参考标准、④术语定义、缩略语和首字母缩写词、⑤受控词表:目的、概念、原则和结构、⑥术语的选择、范围说明与格式、⑦复合词、⑧词间关系、⑨受控词表显示、⑩互操作、(11)词表编制、测试、维护和管理系统。另有7个重要的附录。
BS8723,其英文名称为《Structured vocabularies for information retrieval:Guide》。2005年已经出版的第一和第二部分的内容可以替代BS5723标准,即将出版的第三、四、五部分的内容有一部分与BS6723标准所覆盖的范围相同,大部分是全新的内容。因为后面三部分的内容较新,所以花费的时间较长,出版一再推迟。
此标准计划由5个部分组成,据介绍[16],其第二部分名为“叙词表”。第三部分名为“叙词表以外的其它词表”。目前第三和第四部分正在征求意见,部分工作还没有完全完成。有相当多的内容直接与分类表编制相关。第四部分则详细说明了受控词表之间的互操作。包括:①同一语种不同方言区叙词表互操作;②单一语种不同叙词表之间的互操作;③叙词表和其它结构化词表(比如分类法)的互操作;④具有同样结构和功能的词表之间的互操作。其中③④论述了分类法与其他词表、分类法与分类法之间的互操作。第五部分主要说明受控词表(包括分类法)和其它信息存储与检索系统间的互操作规范。
IFLA指南[13],原文名为《Guidelines for Multilingual Thesauri》,是由IFLA分类与标引分会起草并于2005年在全球范围内征求意见。IFLA起草此指南的目的非常明确,在于增加最新资料以完善ISO—5964标准。
3.2 主要发展态势
3.2.1 重新诠释基本概念
新修订的标准重新诠释了基本概念,对于各自的范围、作用、特性给出了相关说明。
●词单(pick list):是一组词汇,全部为首选词,通常在网站的下拉菜单或者列表中出现,是一种简单有效的词义消歧的方法。
●同义词环:用于检索意义相等的一组词汇列表,大多数是同义词或者准同义词。不强行要求是正式词,每一个词的地位都是平等的,可随时建立并逐步完善。
●知识分类表(taxonomy):按等级结构组织起来的一组受控词汇,在分类表中每个词汇属于一种或者多种等级结构关系。是一种帮助用户找到更合适更专指的概念的有效结构。
●图书分类表(classification scheme):根据预先建立的原则组织信息的一种方法,以符号系统和条目间的等级关系为其主要特征。
●叙词表(Thesauri):对词汇进行全面控制的一种受控词表,大量的入口词能够帮助用户从自己的词汇出发找到正确的描述资源的叙词。
不同类型的受控词表对词汇控制的程度不同,从词单、同义词环、分类表到叙词表,其词汇控制的程度越来越高(见图1)。
图1受控词表词表词汇控制程度图
作为一种受控词表,分类表应该实现如下功能:1)翻译:将自然语言转换成方便标引和检索使用的分类语言;2)一致性:保证格式和应用的一致;3)关系揭示:显示类目间的语义关系;4)标示与浏览:在导航系统中提供一致的、明晰的类目关系;5)检索:充当文献检索的辅助工具。
3.2.2 倡导分面分析方法
分面分析由印度著名图书馆学家阮冈纳赞先生提出,并由英国分类法研究小组进行了完善和推广,目前已经成为一种十分有效的知识组织方式,在分类表的编制中有着广泛的应用。分面分析在受控词表中的应用相当广泛,Z39.19—2005第五部分专门进行了论述。分面分析主要用于以下几个方面:新领域、跨学科领域、受控词表、电子文档归类。主题、形式(如文本、图像、声音等)、受众(读者对象,如儿童、成人等)、文化程度(如儿童读物、普及读物、专业期刊等)等属性均可以作为组面使用。
是否需要进行分面分析在很大程度上取决于分类表的规模。如果类目在一百个以下,一般不需要进行分面分析。如果类目成千上万,按照分面组织是相当有益的。《艺术与建筑叙词表》(简称AAT)设置了7个分面:对象面、材料面、行为面、施动者面、样式面、周期面、物理属性面、相关概念面。编制分类表时可参考AAT做法进行分面分析。
3.2.3 强调科学选择类目
选择类目时应该考虑如下四方面的因素:1)应用的学科或领域;2)文献保证、用户保证和组织保证;3)类目词的专指度或者粒度;4)与其他相关受控词表的关系。国外新修订的标准还特别强调,类目设置要重视文献保证、用户保证和组织保证等三个因素。
类目设置的目的在于实现对相关专业文献的标引,所以类目的设置必须由一定数量的原始文献来保证。同时,还应参照相关的参考工具书,比如词典、术语表和百科全书等,另外,利用受控词表、索引和文摘刊物亦相当有益。机构用户对类目选择的倾向性也应该在类目设置时得到充分的反映。当然,最终用户的意见也同样不可忽视。
3.2.4 界定和处理等级关系
3.2.4.1 概述
是否显示等级关系是分类表、叙词表与词单、同义词环的重要区别之一,所以界定等级关系在分类表编制技术标准中十分重要。在平面型分类表中,只能显示单级上下位关系;而在新型分类表中,则可以显示多级上下位关系。目前主要通过树形结构或者图形来表示这种关系。上位类和下位类必须表示同一事件、同一行为、同一属性,否则二者之间不存在等级关系。
3.2.4.2 类型
等级关系包括以下三类:
1)属种关系(the generic relationship)通常采用“A部分是B,而B却全部是A”的判别式进行关系判别,图2中左侧不是属种关系,右侧则是属种关系。
图2 属种关系判别图
2)实例关系(the instance relationship)具有这种关系的两种术语,其中一个是通用名词,另一个是专有名词。如《灰姑娘》、《侏儒怪》与“神话传说”就是实例关系。
3)整部关系(the whole-part relationship)这种关系涉及的范围最广,主要有三种形式:
生物机体的整体与器官,如神经系统与中枢神经系统、中枢神经系统与大脑之间;
地理位置的大小,如加拿大与安大略省、安大略省与多伦多市之间;
公司、社会、政治组织中的等级关系,如陆军与军部、军营与团之间。
3.2.4.3 多重等级关系的处理
一般来说,如果一个类拥有多个上位类,则此概念具有多重等级关系。在现实中既有基于属种关系的多重等级关系,也有属于整部关系的多重等级关系。比如钢琴既属于弦乐器,也属于打击乐器,钢琴与弦乐器、打击乐器之间就存在属于属种关系的多重等级关系。生物化学既属于生物学,也属于化学,是基于整部关系的多重等级关系的特例。
另外,还存在一种属于多种关系的多重等级关系。骨头和头骨属于属种关系,而头和头骨属于整部关系。
3.2.4.4 等级关系中的分面标头
有时一个上位词包括大量的下位词,为了显示同一词族中词汇间的关系,可以通过分面标头来实现。分面标头不能作为标引词使用,一般用斜体或者中括号表示。比如汽车可以按动力和用途分为不同的种类,其中的“按动力分”和“按用途分”,就是分面标头。
3.2.5 推广类目注释
范围注释(SN)和历史注释(HN)是两种很有用的类目注释方法。范围注释主要用途为:1)限制或者扩展类目的使用范围;2)区分在自然语言中意义重叠的类目;3)给标引人员或者检索人员提供使用类目的建议。如果在不同的版本中类名的范围注释不尽相同,则可以通过历史注释(HN)来揭示和补充说明。另外范围注释交互参照也十分有用。一旦某一类名发生变化或者删除,则相关类名必须也进行相应调整。
3.2.6 重视显示方式
显示方式将影响用户对分类表的使用。一般来说,分类表显示应包括编制凡例、显示方式、发行方式、使用手册四个部分。分类表编制应该充分考虑分类表维护人员、标引人员和专业检索人员、普通用户等三类用户的不同需求,并分别提供内务型、精细型、操作指南或者屏幕指导型显示方式。同时分类表也应该编制或发行不同的版本,如普通用户使用的简化本或者节略本、标引人员或者专家型用户使用的全功能版。印刷型、电子型、联机交互型、独立软件包四种载体形态均可以考虑,在目前条件下应该优先考虑后两种形式。