未来图书馆编目技术,本文主要内容关键词为:编目论文,图书馆论文,未来论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 “编目”概念外延的拓宽与“元数据”概念的引入
应用环境产生了需求,需求推动技术发展。这一观点一直被验证着。对编目技术来讲也是如此。
什么是我们必须面对的环境?因特网。因特网资源的开发和利用是图书馆界必须面对的一个重要课题。与原先面对的以印刷技术为支撑,以纸介质或缩微介质等实体介质为载体的环境不同,图书馆现在面对的是以网络技术为支撑,以电子—数字化信息为表现形式的虚介质为载体的环境,之所以说环境介质具有虚的特性,主要是因为可以不必拥有资源就能提供服务。图书馆在整个社会中扮演的角色正逐步从文献收藏者变成信息中介者(Gateway)[1]。
作为图书馆组织信息用于检索的主要手段, 现代描述性编目(Descriptive Cataloging)的理论与实践已经发展了近150年, 环境的巨变,实际上正在动摇这些编目理论和实践存在的基础,这些理论和方法正在变成一种传统的理论和方法,人们必须重新评价它们在网络环境下的适用性和有效性。例如,在因特网未被广泛使用的时候,图书馆的OPAC处于信息世界中介的中心位置。但现在,OPAC完成的检索与搜索引擎完成的检索相比,数量上可能只相当于后者很小的一个部分[2]。
在网络环境下,具体来讲,在因特网环境下,图书馆面临两个战略性目标。一个是在提供其他馆藏的同时,无差别地提供重要电子资源的服务,另一个是高效地进行编目。这方面的话题是国外图书馆界最热门的话题,这个领域则是新思路新做法不断涌现的一个领域。
人们发现把原有的图书馆编目工作与现在和将来的工作(可能已经不能称为编目工作)联系起来形成一个整体的一种简单办法,那就是逐步放弃“书目数据”(Bibliographic Data)这样一个狭隘的概念,转而使用“元数据”(Metadata)这样一个较为模糊、能为更多人员使用的概念。“编目”(Cataloging)的外延被拓宽,把以因特网资源为代表的电子资源的描述和组织纳入编目的范畴之内[3]。 图书馆界拟定了很多的计划,仅以OCLC为例,先后有InterCAT、NetFirst和CORC三项因特网资源编目计划。
从最广泛也是最简单的意义上来讲,元数据就是“关于数据的数据”[4]。根据这样的描述,我们看到传统编目工作中广泛使用的MARC 也是一种元数据。稍微具体一点可以认为元数据是描述资源属性的数据,即这是“一种与对象相关联的数据”,其作用在于“能够减轻潜在用户预先获取有关对象的存在或特性方面完整知识的困难。”[5]
2 普通元数据与图书馆编目数据
资源空间非常之大,对网络化信息的有效管理越来越依赖于对元数据的有效管理。但是元数据有着多种不同格式,各种格式的元数据的属性和实现方法都不相同,产生这么多种元数据的一个重要原因是为了不同的需求。许多团体在进行资源描述工作时,投入大量的精力去开发适合特定范围需求的一些特殊结构[6]。因此参考文献[4]认为:“就某种具体元数据格式而言,它不可能适用于所有情况”。因而笼统地谈论元数据没有实际的意义。参考文献[5 ]的第二部分花了很大的篇幅来描述1996年被使用或者正被开发的20 多种元数据格式。 元数据记录(Metadata Record)是一种编目记录(Cataloging Record),但是准确地说,它们并不都是图书馆编目记录,而且大多数这样的记录并不打算成为图书馆编目记录,尽管有些元数据的标准正在积极地向某些图书馆编目的标准靠拢。在本文中我们需要把这两种元数据区分开来,因此我们使用编目记录和普通元数据记录这两个术语分别表示它们是否为编目的目的而被使用,并且用普通元数据格式来表示除MARC等图书馆元数据格式之外的其他元数据格式(例如都柏林核心(DC)和文本编码和交换(TEI)头标(Header)等)。
下面我们讨论这些并非为图书馆编目而产生的元数据记录是否能够用于图书馆编目记录,以及这些元数据格式是否能够帮助图书馆实现在网络环境下面临的那两个战略性目标。
2.1 传输语法层的转换工作
目前被人们广泛注意的是普通元数据与图书馆编目数据在传输语法(即外在格式)层上的转换,例如普通元数据格式与MARC格式间的转换。这种转换又被称为映射(Mapping)或通道(Crosswalk)。详细情况参见表1[7]。尽管各种元数据格式差别很大,应该说格式之间的转换仍是比较容易的。
表1 普通元数据格式与MARC格式间转换的情况
相关地址
DC到USMARChttp://lcweb.loc.gov/marc/dccross.html
http://www.oclc.org:5046/~emiller/DC/
crosswalk.html
DC到UNIMARC
http://www.ukoln.ac.uk/metadata/inter-
operability/dc_unimarc.html
DC到FINMARC
http://linnea.helsinki.fi/meta/dcficross.
html
DC到danMARC2 http://linnea.helsinki.fi/mela/dcdancr.
html
TEI头标到 http://etext.lib.virginia.edu/~ejs7y/tei-
USMARC
marc.html
http://firth.natcorp.ox.ac.uk/ota/public/
publications/metadatat/tei_marc_dc.html
LAFA/ROADS模 http://www.ukoln.ac.uk/metadata/inter-
版到USMARCoperability/iafa_marc.html
GILS核心元素 http://www.usgs.gov/gils/prof_v2.html#
到USMARC annex_b
单位
DC到USMARC 美国国会图书馆
美国联机计算机图书馆中心
DC到UNIMARC英国图书馆和信息网络办公室
DC到FINMARC赫尔辛基大学图书馆
DC到danMARC2
Danish图书馆中心
TEI头标到 弗吉尼亚大学图书馆
USMARC曼彻斯特大学
LAFA/ROADS模
英国图书馆和信息网络办公室
版到USMARC
GILS核心元素
美国地质测量局
到USMARC
但是格式间的转换只能解决表面问题。由于它们彼此不同的概念模型间的差异,例如普通元数据还不具备图书馆编目数据语义层或内容层的一致性和标准化的要求,某个数据元素可以映射到USMARC格式中去,它却未必能满足英美编目规则(AACR2)这样的编目规则的要求。 因而普通元数据记录很难成为图书馆编目数据库的一个成部分。尽管如此,就某个局部的图书馆系统而言,经常需要把普通元数据记录和图书馆编目记录融入单一的系统之中,在不同的平台上操作。
2.2 OCLC的因特网资源编目计划
我们从OCLC计划的进展情况了解到国外同行的一些最新动向。上文曾提到OCLC有3项计划,都是对因特网资源进行编目, 但做法却很不相同。作为OCLC的WorldCat数据库的一个组成部分,InterCAT的记录(目前约50 000条)采用USMARC , 具体来讲是利用USMARC 的 856 字段。InterCAT已经结束,后继的CORC提出要把新型的普通元数据和MARC集成到一起,并将针对Web提供多种输出格式(例如HTML或RDF)[8]。
2.3 CC:DA的研究成果
1998年8月结束的由隶属于图书馆搜集和技术服务协会(ALCTS)的编目:描述及存取委员会(CC:DA)进行的“元数据与编目规则研究”(Task Force on Metadata and the Cataloging Rules)( http://www.lib.virginia.edu/ccda/)以DC和TEI头标为例, 就普通元数据作为编目源(Source of Cataloging)的情况作出评估。
DC作为一种普通元数据格式出现于1995年3月, 人们最初的想法只是让Web资源的作者利用它生成描述信息。在3年多的时间里,来自图书馆、计算机网络以及博物馆等方面的专家学者对DC的元素定义、语义、语法和结构等多方面的问题进行了讨论和研究,围绕着核心元素集形成了国际性的、跨学科的一致性意见。DC核心元素集的正式定义参见“都柏林核心元素的描述”(Description of Dublin Core Element)[9]。
DC由15个核心元素构成,这些元素根据其存储的信息而粗略地分为3个组,分别与内容(Content)、知识产权(Intellectual Propetry)和实例(Instantiation)有关,见表2[10]。
表2 DC的核心元素
分组 核心元素
内容 标题、主题、描述、来源、语言和关系
知识产权 创建者、出版者、投稿者和权限
实例 日期、类型、格式和标识
DC的设计目标即其最显著的特征是简便性和灵活性,其核心元素大都具有一个容易理解的语义,这样即使是非编目人员也能使用。
CC:DA进行评估的方法是检查普通元数据满足各项用户任务的情况。IFLA的一个专门工作组把这些用户任务描述成一个实体—关系模型 [11]。在这个模型中,基本用户任务有4项,即发现(Find )、标识 (Identify)、选择(Select)和获得(Obtain)。DC不同程度地支持这4项用户任务,但由于没有建立规则和过程来控制数据元素的内容、 元素集明显简单以及所有元素都是可选的这3个原因,DC 元素数据的可靠性低于编目数据的可靠性。编目数据的情况恰恰相反,它们可以用元数据不能期望的方式进行优化,特别是使用受控词表以及规范控制(AuthorityControl )来增强用户发现资源的能力,
运用抄录(Transcription )原则和版本的概念来提高用户识别和选择所需资源的能力[12]。总而言之,编目工作对原始数据进行了增值处理,这些增加值有助于用户完成发现、识别、选择和获得这4项任务。
该项研究得出6点结论,我们认为其中最重要的3点是[12]:
1)普通元数据在专门针对其用途而设计的系统中效率最高, 但在图书馆目录系统中的效率并不是最高。
2)不符合AACR的普通元数据进入图书馆目录的时候, 总是需要图书馆编目人员对其进行严格审查。
3 )绝大多数普通元数据标准没有提供足够的信息以区别相似的资源或者不同版本的同一资源。
由于其简便性,普通元数据的主要提供者可能不仅有图书馆的编目人员,还包括其他单位或个人,例如DC一直把网页的编写者作为主要的对象。这样,资源组织者多元化的格局已经形成,但图书馆界希望最有效的资源组织工作仍由图书馆编目人员完成,其基本手段是借助较为成熟的受控词表或分类方法。在OCLC的NetFirst计划中,就使用LC标题词以及杜威十进制分类法。
3 结论
同网络环境带来了信息提供者的多元化相类似,信息组织者的多元化也已经出现。图书馆仍然将完成主要的工作,但其他单位、团体甚至某些个人的工作也日益重要。各种单位或团体因为不同目的开发和使用元数据,这些元数据在专门针对其用途而设计的系统中效率最高,但在图书馆目录系统中的效率不是最高。就某种元数据而言,在大多数情况下并不能直接用于其他目的。例如,尽管其他格式的元数据记录可以与MARC记录相互转换,但转换形成的这些MARC记录一般不能直接用于图书馆目录。
尽管网络环境已经给图书馆编目工作带来了严峻的挑战,但能够与之相适应的未来图书馆编目技术还有待进一步的发展。目前大家关注的一个问题是把各种新型普通元记录数据集成到原有的基于MARC的OPAC系统中。我们认为,解决这个问题的关键在于怎样把普通元数据和图书馆的受控编目体系结合起来,这可能与许多普通元数据的设计初衷相矛盾。而普通元数据的“规范化”工作可能只能由有经验的图书馆编目人员来完成。
限于篇幅,本文没有讨论编目技术中分类这个重要领域。