数字环境下的书目权威控制,本文主要内容关键词为:书目论文,权威论文,环境论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G257 [文献标识码]A [文章编号]1003-2797(2006)04-0034-04
权威控制(Authority Control),也称为规范控制,是一种重要的书目控制手段。它特指书目工作中为确保标目在检索款目及书目系统中的唯一性和稳定性,建立并维护权威档及各种参照关系的活动。为了区别于“规范化”及“规范化控制”等模糊概念,本文按照英文字面意思,参照我国港台地区的惯例,采用“权威控制”的译法。进入数字信息时代后,随着数字信息资源组织与揭示的深入,权威控制也开始向数字资源管理和控制领域发展,一方面受到来自数字信息技术的极大推动,另一方面也面临很多新的挑战。
1 数字化对权威控制工作的影响
信息技术的发展为权威控制的开展提供了优越的技术支持,同时也推动了权威控制工作的数字化、网络化。为了满足数字资源书目控制的需要,权威控制工作不断做出调整。
1.1 权威数据和权威档的计算机化和网络化
权威数据是指编目人员在编目过程中编制的权威款目、参照款目和说明款目等,权威档就是由这些款目按照一定的原则组织而成的文档系统。自从20世纪初卡特首次提出“权威控制”概念以来,权威数据和权威档的创建和维护工作长期处于手工编制卡片阶段。
但是,随着计算机编目的出现,权威控制也开始走向计算机化。20世纪70年代,美国国会图书馆建立了权威控制的计算机处理系统;1971年,美国纽约公共图书馆也开始实行自动化权威控制;此后各国图书馆纷纷开始编制和采用计算机化的权威数据和权威档。其标志是,机读权威格式和标准的采用。与文献著录一样,要进行计算机权威控制,就要采用相应的机读格式和标准,如《UNIMARC/权威:通用权威格式》、LC的《权威记录:MARC格式》和我国的《中国机读规范格式(试用本)1990》等,都为自动化权威控制奠定了基础。
在计算机编目发展到联机联合编目阶段之后,由于书目数据交换和共享的需要,权威数据和权威档也开始向网络化方向发展。权威数据和权威档实现了创建、维护、传输和使用的网络化,为地区级、国家级和国际级权威数据交换创造了可能。
近年来,在IFLA的积极倡导与推动下,计算机权威档的建立为提高联机检索效率、促进国际书目联机交换、实现资源共享开辟了现实途径。目前,各国的权威档无论是在格式、内容及管理方式等方面都在向计算机化、网络化和国际统一标准化方向发展,其最终目的就是实现包括权威档在内的书目资源的国际共享[1]。
1.2 权威控制的国际合作和共享
计算机和网络技术使国际水平的共享与合作成为权威控制的发展趋势。和分散编目一样,权威控制工作的各自独立会造成工作重复和资源浪费;在一国范围内甚至是国际范围内开展权威控制的合作和共享,将大大降低其工作成本。
然而,实现世界级的权威控制或权威记录的共享还面临很多新的问题。首先,编目规则存在一定的差异,所面向的用户需求也不同;其次,是语言和文字上的差异;最后,就是技术上的问题,即不同系统具有的不同的数据格式,尤其是多种“MARC”格式(如MARC21,UNIMARC,RUSMARC及XML格式)的存在,给权威记录访问和显示带来严峻的挑战。
目前,世界范围内已开展多项权威控制的合作计划:英美名称权威合作计划(NACO)、AUTHOR计划、LEAF计划和中国香港的HKCAN计划等。以AUTHOR为例,它是由欧盟支持的一项计划,从欧盟中的7个成员国的权威记录中进行取样,然后转换为同一的通信格式UNIMARC。
虚拟国际权威档(VIAF)是目前权威控制合作共享的最新设想,由IFLA主持开展。它与AUTHOR计划的不同之处在于,该项目不会创建UNIMARC格式的包含多个国家权威档的交换记录的数据库。而是通过Z39.50协议将现有联机权威档联接起来,同时支持检索。它将探索横跨多个权威档的互操作方法,通过现有的记录号码联接表示同一实体的多个权威记录,同时还支持权威标目多语种转换。作为该计划的第一步,IFLA的MLAR(Minimal Level Authority Records)工作组和ISADN(International Standard Authority Data Number)工作组公布了“强制性最低标准数据元素(recommendations on the mandatory minimal set of data elements)”,权威记录必须出现其中的所有元素。IFLA的另一个工作小组FRANAR(Functional Requirements and Numbering for Authority Records),则致力于考察权威记录的编号方式和功能需求方面的问题[2]。
1.3 权威控制的跨领域合作
因特网上的书目实体(人物、机构团体、作品/表达、概念、对象、事件和地点等)权威记录储备,不仅可以满足图书馆及其用户的需要,还可以在其它领域发挥更大作用[3]。随着网络资源组织发展和元数据的广泛应用,权威控制已经跨越了多个领域,许多非图书情报部门也参与到权威控制范围中来,并且都认识到图书馆机构在其中的重要地位。文献信息检索中所遇到的标目不一致、含义模糊等问题,在数字信息组织和检索中同样存在。而与此同时,出版机构、档案馆、博物馆、知识产权管理组织、Web搜索引擎公司和企业等也都意识到,在它们各自的领域中不必在权威控制领域进行重复开发,与图书馆合作,是最经济、最方便和最可行的途径。目前,权威控制的跨领域合作正逐步展开。在欧洲许多国家,图书馆正在和档案馆、博物馆、知识产权管理机构等一起,作为文化“记忆机构”[4],进行整体建设。例如,〈Indecs〉和INTERPARTY计划就是在图书馆、博物馆、档案馆和知识产权管理机构之间实现权威信息共享的跨领域合作计划。权威控制正在从单一机构、单一领域的权威档,甚至从联机权威档,朝着所有领域都能共享和重用的权威档的目标推进,在数字环境下提供受控的信息访问和确保更精确的检索结果。
要实现为异构的网络信息系统提供同步的、无缝的访问,权威记录的跨领域共享是前提之一。计算机网络的发展和数字信息资源的激增,突出了原有包括权威控制在内的知识资产在信息管理实践中的价值。数字化的跨领域合作还可以在更大范围内降低权威控制的成本,使书目权威控制受到更广泛的认同。只有突破了传统图书情报领域,数字化权威控制才称得上是适用于Web的权威控制。
1.4 数字权威控制系统的性能扩充
权威档的数字化、网络化使其性能也得到很大的提高和扩展,所提供的服务也更适应网络环境的需要。
首先,与联机书目数据挂接,实现权威数据和书目数据同时建立、同步维护。这样做可以使标目和参照的维护更加简化,只需要在权威记录中进行更新,所有相关联的书目记录就都可以正确地显示。例如,中国国家图书馆于2003年引进了以色列编目软件ALEPH500系统,实现了权威数据与书目数据的挂接,结束了权威数据与书目数据分别建档、长期割裂的局面。在自动化检索系统中运行,必要时可随时显示权威档的内容及知识正确的检索途径。在对权威记录进行维护时,一旦对权威记录中的某个检索点进行修改后,与之相联的书目记录中的有关标目也会自动得到修改。
其次,权威档具备容纳多种语言和文字的能力。手工编制权威档时期,使用文献原始的文字和语言转录信息很容易实现,但是在联机编目早期,该性能被削弱。只到出现了统一编码等新技术后,容纳多语言、多文字的性能才逐渐恢复。香港的大学和研究型图书馆曾开展一项实验,目的就是在提供中文权威标目的同时,还并列提供LC的罗马字顺的权威标目,即可以提供权威记录的多语种访问。
再次,可在多语言和文字的前提下,提供权威记录的显示转换和定制服务。在相对自由的网络环境中,用户总是倾向于看到以本国文字显示的标目,使用本国语言表示作品名称,甚至使用熟知的但可能并不符合编目规则的人名或机构名称形式。数字化的权威档除了可以为用户提供默认的标目形式外,还可以为用户提供自选标目。许多系统的名称权威款目都是文本串形式,可以为之添加相应的权威记录号码,如ISADN(International Standard Authority Data Number),可代替文本串所代表的实体。通过文本串或记录号码的联接,我们就可以在不同国家的、不同语言的、不同编目规则的权威记录中转换,显示我们所选择的标目形式。
此外,数字化权威档还可直接向终端用户开放,并允许因特网访问,成为其他图书馆员、从事信息职业的专家甚至是终端用户的实用参考工具。
2 数字资源组织中权威控制面临的新课题
在互联网编目(Internet Cataloging)环境下,权威控制的方式和对象发生了很大的变化。1995年,OCLC召开了“21世纪的规范控制邀请会”,对数字图书馆的权威控制以及数字环境下的权威控制的发展趋势进行了探讨。搜索引擎、元数据(Metadata)等新的网络信息资源组织方法和手段都对权威控制提出了新的要求。
2.1 元数据管理和权威控制
数字环境下元数据的编制和使用范围日益扩大,各个领域的元数据应运而生。MARC格式是一种广义上元数据方案的一种,对MARC书目记录的权威控制因此也突破图书情报领域,将应用到其它领域的元数据当中。
首先,权威控制可改善元数据编制和管理质量,提高网络信息检索利用效率。网络信息往往带有很大的主观随意性和无限制性,新的“不规范”词汇大量增加,造成同义词大量并存、资源分散多处、词间关系不明确。与MARC书目记录不同,元数据中的编制在形式上和内容上灵活性大,包含大量的自由文本数据,元素中存在的名称和词汇的模糊性和不确定问题十分突出。因此,对元数据实施权威控制就刻不容缓。以DC为例,DC元数据的目的是为了提供有用的信息以提高因特网搜索引擎的索引。编制元数据的网页制作者不可能理解权威控制,然而许多DC元素比如题名、创建者以及主题在图书馆书目记录中是受权威控制的,目前还没有强制DC数据形式或内容遵循任何特定的权威控制规则或指南[5],因此,以DC元素作为检索点,其检索效果不容乐观。
其次,权威控制可促进元数据的互操作。不同的信息团体根据其用户需求发展出不同的元数据体系,要在信息系统中整合和利用多种元数据体系,主要还是依赖各种元数据间的兼容和互操作。互操作的实现与元数据的数据结构有很大关系,XML、RDF为元数据结构的规范化铺平了道路,但仅仅依靠技术还无法为数字资源检索提供机器可理解的逻辑结构和语义值,语义互操作是元数据管理的新课题,也就是说互操作的实现还与元数据的内容及质量有关。目前,元数据内容层面的整合和互操作还必须沿用传统方法——使概念模型更加具有横断性,即可交替使用不同系统的表示法,使数据来源更加可靠和稳定[6]。这就是书目权威控制和描述控制的范畴。
2.2 数字资源权威控制对象和新元素的增加
权威控制的对象是包含在书目记录中的检索点(或标目),即名称、题名和主题,但是随着数字资源组织和检索实践的发展,权威控制需要增加新的控制元素。举例来说,数字资源的统一资源定位器(URL)、永久统一资源定位器(PURL)及一些命名装置,如数字对象标识符(DOI)和统一资源名称(URN)等,已经成为定位数字资源的重要信息和检索点,其作用相当于馆藏文献的排架地址和索取号,这些标识符理应成为数字资源权威控制对象的一部分。从1998年起,法国Mediathèque at the Citédes Sciences项目就对CD-ROM书目著录进行了更新,在对拥有URL的CD-ROM进行编目过程中,建立了大量的以URL为控制对象的权威记录。通过其所使用的GEAC/GLIS系统平台将URL作为权威记录元素收录进来[7]。根据2001年UNIMARC Manual:Authorities Format,UNIMARC格式也正式做出了相应的修改,将URL批准为权威记录的控制元素。
随着数字信息资源数量和利用的增长,相应的权威控制元素还有增加的趋势。例如在某些专业领域,经常可以看到,因为一些惯例和需要,研究者们习惯于交流信息并公开自己的工作单位和通信地址,这种信息在专业期刊比较常见。以电子邮件地址为例,同URL一样,在数字环境下,电子邮件地址也可以成为重要的权威控制元素。一旦它同文献正文一起被出版出来,就会成为一种公共财产,具有一定的信息价值,也就应当得到记录和控制。
2.3 权威档动态性与稳定性之间需要平衡
权威档本身可看作是一个庞大的词表系统,包含了大量的概念和术语,权威档维护即是对这些概念和术语进行补充、修改、剔除、合并、解释等操作。同时,权威档中还揭示了这些概念之间的关系,因而还具有自身的逻辑结构,其逻辑结构的正确性和完整性也必须得到保证。
权威档的编制及其质量直接关系到数字资源的检全率和检准率,目前搜索引擎等网络信息组织工具的索引编制多由智能“机器人”自动完成,元数据的提供也由网页制作者负责,网络资源编目工作的重点应该逐渐转移到权威控制上来。图书馆权威档的数字化和网络化为其扩展至数字资源权威控制领域打下了基础。但由于数字资源具有高度的动态性,网络新名称、主题、术语的消长瞬息万变,参照关系也变得更加复杂,编目过程中权威档的更新和维护频率也会随之提高,难度也更大。
对数字资源进行书目控制的目的除了要确保其检索和利用,还在于对文化成果的记录和积淀。数字资源目录也应该像文献目录一样具有回溯检索和记录亡佚的功能,因而作为文化积累的数字资源目录和权威档必须保持相对的稳定性,保留以往检索点的可用性。因此权威档动态性和稳定性之间的平衡就成了数字环境下权威控制所面临的新问题。
2.4 国际权威控制与语义网建设
国际权威控制有可能成为未来“语义网”的构成部分之一,这也是图书馆参与未来的网络基础构建的一个重要契机。
语义网(Semantic Web)是对WWW的扩展,与当今的基于超文本的信息表达不同的是,它是基于本体和元数据的语义与知识的表达,实现网上信息资源在语义层上的全方位互联。语义网背景下信息组织方法体系的一个重要核心就是本体(Ontology)[8],它包含一个领域中各类标准术语词汇,并对这些术语词汇进行标准定义,以及明确这些术语间的各种关系[9]。图书情报界已经在众多权威档中形成了受控词汇系统,它将是语义网本体(Ontology)层的重要组成部分。
数字环境下的权威工具既可以与书目资源相联系,也可以与数字信息资源挂钩,在多个领域帮助用户提高检索精确度。无论是搜索引擎还是未来其它面向数字资源的组织工具,都将建立其权威控制系统。权威记录将作为资源指南、电话目录、文摘和索引等参考资源的面向内容的工具,而不仅仅是作为一种书目数据。权威记录必将成为语义网的关键组成部分和基础构件[10]。
权威控制的对象转向数字信息资源是一个必然的趋势,但在这个过程中,新的问题和研究课题的出现也不可回避。权威控制应该摆脱过去只是维护标目一致性、建立标目之间参照关系的目标模式,转而针对数字资源的特点,依靠信息技术的支撑,开创出全新的数字资源权威控制模式。