USMARC与DC在网络信息资源书目控制上的比较研究,本文主要内容关键词为:信息资源论文,书目论文,网络论文,USMARC论文,DC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1. 网络信息资源的特点
网络信息资源又可称为因特网信息资源(Internet Information Resources),其定义多种 多样,到目前为止,国内还没有统一。但如下几点是为大家所认可的:第一,网络信息资源 是以电子形式存储在光、磁等非纸质的载体中的文字、声音、图像、动画等信息;第二,它 利用计算机技术、通信技术及多媒体技术在网络上发布、传递,并且在网络终端得以再现; 第三,需要强调的是,并非所有在因特网上发布的信息都是网络信息资源,其中能满足人们 需 求的那一部分信息才是信息资源。网络信息资源的特点是:
1)信息数量大,增长快:网络信息资源丰富和浩瀚的程度,远远超出了人们的想象。有人 曾估计,因特网每天发布的新信息总量约为450MB,这虽然不是准确数字,但网络信息资源 之海量,由此也可略现。
2)信息内容杂:1994年以来,因特网发展日渐迅猛,由于它的开放性,世界任何地方的个 人或单位都可以随时与网络连接,信息的发布没有经过任何控制措施,任何人、任何机构只 要拥有一台联网的计算机,都可以在网上发布或者传递信息。
3)信息散布广:因特网是由分布于五大洲的许多大小网络系统所组成的一个全球计算机网 络系统,它有丰富的信息资源,信息覆盖面广,涵盖了各学科领域,信息种类繁多,科技、 经济、商业、人文等各领域信息均可在因特网上查到。
4)更新迅速:因特网的信息每天甚至每小时都在不断更新,有人把它与连续出版物联系起 来,然而,历史上有哪一种出版物的更新速度能与因特网相比?
可见,网络信息资源不同于传统信息资源,因此,网络不同于图书馆,它不能支持信息的 有组织的传播和检索;此外,网络信息用户的受教育程度差别很大,知识结构和储备不同, 对同一概念、事物的内涵与外延理解也不同,用户上网的目的和利用信息的种类也不同。面 对这种复杂的情况,如何采用行之有效的网络信息资源组织和管理方式,使用户能快速、准 确地找到所需的相关信息,成为亟待解决的重要课题。
2. 信息资源的书目控制
书目控制最基本的含义是全面记录并保存人类所有的文献,通过记录达到对文献的有效检 索和广泛利用。在书目工作实践中,它期望用最小的人力、物力、时间和空间的消费,最大 程度地提高文献交流的速度和文献的利用率,从而实现资源共享。因此,书目控制是资源共 享的先决条件,资源共享是书目控制的出发点和目的。传统图书馆的书目控制,方便了读者 对所需要文献的检索和传递。那么对网上的电子资源属性进行描述(编目),进行书目控制, 是提高网上信息检索的有效性的根本方法。
然而,网络信息资源的组织管理是一个相当复杂的工作,目前许多难点还有待解决,诸如 新陈代谢快、信息不稳定、积累与保存困难,以及标准化问题等。因此对网络信息的组织应 采用多种技术手段。随着网络信息组织管理经验的积累,技术手段的多样化,图书情报工作 者努力尝试将印刷品的技术加工手段运用于网络环境,并将多种载体信息资源融合,共同服 务于社会。“书目控制”这一基础性文献管理技术事实上已被应用于网络资源的组织与管理 。
近年来OCLC开始进行“给因特网编目”(Cataloging the Internet)的研究计划,应用USMA RC格式和AACR2对网络信息资源进行标准化编目。目前首列的对象为网上电子期刊,许多期 刊出现双版制,即在出版印刷版的同时又出版电子版。据最新统计网上电子期刊数量已接近 6000种。OCLC这项编目计划在弗吉尼亚大学Aloderman图书馆已经开始实施,并已形成有关 工作标准,国会图书馆出版了有关它的一系列实用规则。
但是,对于任何类型的网络信息资源来说,对其进行编目的标准格式还没有完全定论。国 外应用于网络信息资源描述的格式主要有:USMARC格式、DC(都柏林核心数据)、VRA核心类 目、艺术作品著录类目(Categries for the Description of Works of Art)、REACH著录单 元集合(REACH element set)等。其中,以USMARC和DC最具有普适性。
3. USMARC与DC的映射
3.1 USMARC与DC简介
MARC(Machine Readable Catalog)是用于描述、存储、交换、控制和检索的一套机读书目 数据的标准。USMARC由美国国会图书馆于1966年研制成功,1971年美国国家标准局正式批准 USMARC为美国国家标准。当时,USMARC陆续出版了专著、连续出版物、档案与手稿资料、视 觉资料、乐谱和地图等资料类型的文件,80年代后将其合并成活页本,以便不断更新。英国 、瑞典、意大利、比利时、挪威、丹麦、尼日利亚等国也依据它,先后制定了本国的机读目 录格式。90年代,美国国会图书馆为了加强USMARC兼容网络资源的能力,先是在USMARC格式 上定义了新的字段——856:电子资源地址与检索,记录与本记录实体内容相同或相关的电 子资源的相关信息。
DC始于1995年,由OCLC(联机计算机图书馆中心)和NSCA(美国超级计算机应用中心)联合发 起,其第一次研讨会在美国俄亥俄州的Dublin召开,这次研讨会确定了DC的12项著录项目, 在1996年9月的第三次研讨会上又新增了两项,即Description和rights management,形成 了如今的15项著录项目(或称元素)。DC的15个元素分别是:题名、创建者、主题、说明、出 版者、其他责任者、日期(资源创建日期)、类型(资源的特征与类型)、格式(资料的媒体形 式、大小等)、标识符、来源、语种、关联(本资源与其它资源的关系)、覆盖范围(地名、时 间段等)、权限(包括知识产权、版权等)。这15个元素,在USMARC格式上都能找到对应的定 义 字段。(参见DC与USMARC的映射表)
3.2 USMARC与DC的映射说明
(1)题名项(Title):是由著者或出版者提供的资源的正式名称。“题名”对应于USMARC:2 4 5$a标识的正题名,正题名的信息源是题名屏幕页或其他可视读信息。如果没有可视读信息 时,题名才能从文件的其他内部信息中获得,如文件的头标,所以在确认元数据的“题名” 是正题名之前,通常与可视读题名进行比较。如不同,则元数据的“题名”记录为“变体题 名(Variant Title)”,对应于USMARC:246$i。
(2)著者项(Creator or Author):信息资源的创作者。“著者项”分别对应于主要款目标 目或附加款目标目,USMARC:100(主要款目—个人名称)或110(主要款目—团体名称)或者70 0(附加款目一个人名称)。目前,个人或团体名称的识别导致了映射的困难,无论选择哪个 字段都可能产生一定比例的不正确映射。
(3)主题和关键词项(Subject or Keywords):描述信息资源内容的关键词、句子。可映射 为USMARC:650(主体附加款目—主题词)依据国会标题词表或其他受控词表;050国会图书馆 分类号或653(标引词—非控关键词)。这样,在使用受控标题词和分类号的目录中,非控关 键词则不如受控标题词和分类号有用。
(4)描述项(Description):信息资源的内容描述,包括文摘、目次表、内容图示参照或者 自由文体的记述。映射为USMARC:520(摘要注释),DC的“描述”元素的内容可直接使用, 其有用性取决于文摘或摘要的质量。
(5)出版者项(Publisher):信息资源的出版组织,如出版社、大学院系或其他团体。映射 为USMARC:260$b,其他信息来源优先考虑可视读信息,其次是HTML源码中的信息。
(6)其他参与者项(Other contributor):对资源内容作出贡献的个人或组织,其贡献仅次 于著者,如编者、译者、插图者。映射为USMARC:700或710(附加款目—个人名称或附加款 目—团体名称)。
(7)日期项(Date):出版日期,特指信息资源的产生或可获得的日期。在USMARC书目格式中 定义了许多日期,在DC中只考虑了出版发行日期,即USMARC:260$c(出版发行日期)。
(8)资源类型项(Resource type):包括描述内容的通用范畴、功能、风格等,可以是小说 、诗歌、工作报告、散文、字典。一般情况下可映射为USMARC:655,但这一元素也与字段U SMARC:256、500(一般性注释)有关。
(9)格式项(Format):信息资源的载体类型或所属范畴,包括资源的媒体类型、大小、格式 ,可以用来确定显示或操作资源所需的软件、硬件或其他设备,如大小包括尺寸和耐久性。 在USMARC Crosswalk中映射为USMARC:856的子字段;但在AACR2中,这一元素映射为USMARC : 516(属性和范围注释)或538(系统要求注释)。
(10)资源识别符项(Resource Identifier):唯一标识信息的标志,符合一个正式识别系统 ,用来鉴别资源的字符串或数字,如ISSN(International Standard Serials Number)、URL (Uniformal Resource Names)、ISBN(International Standard Book Number)、DOI(Digi tal Object Identifier)等。针对不同的识别符映射为不同的字段:USMARC:010(LC 控制 号 )、020(ISBN)、022(ISSN)、024(其他标准识别符)、856$u(URL)。
(11)来源项(Source):信息资源与元文件的联系,也即资源的出处,当前资源可以从来源 资 源中获取。可映射为USMARC:786(数据来源款目)或776(其他载体形式款目)。
(12)语言项(Language):信息资源所采用的语言。可映射为USMARC:041(语言代码)或546( 语言注释),如使用字段546,在008/35-37以编码形式给出语种代码。
(13)关联项(Relation):相关资源的参照,是指这一资源与其他资源间的关系。可映射为U SM ARC:7—连接款目块。
(14)时空范围项(Coverage):信息资源所涉及的时间和空间。其空间位置可映射为USMARC :034(编码图片数据)或255(图片数据);时间期限可映射为USMARC:045(内容的时期)。
(15)权限管理项(Rights management):控制资源的权限信息,包括资源的权限声明,知识 产权和其他各种产权。可映射为USMARC:540(控制使用和复制注释)。
4. USMARC与DC在网络信息资源书目控制上的比较
4.1 USMARC用于网络信息资源编目的特点
USMARC应用于网上资源组织有许多优势:
(1)成熟性。USMARC是各界经历多年辛苦工作和不断修改、完善的结果。极具严密性和科学 性。另外,USMARC著录的信息是经过编码员过滤和筛选的信息,其可靠性、完全性和精确性 都得到了保证。经过三四十年的发展,USMARC现在已经成为一种成熟的信息著录格式,具有 完整性、著录的详尽性。DC作为网络信息资源的著录格式,其著录项目的基本框架已经成熟 ,然而,对每一子项目怎样著录没有做出规定,完全是根据网页制作者对DC的理解和喜好赋 值,著录内容的主观随意性大。著录的不规范特别是对主题项与关键词项、描述项的不规范 会直接影响到DC的使用效率,各著录子项的标准化问题是DC迫切需要解决的问题。
(2)表达性和著录深度。DC是一种简单的架构,不包括详细描述内部结构的信息,不易表现 资源之间关系,在表达性方面不如USMARC,对于网上那些相对稳定、地位重要的信息,利用 USMARC进行著录比利用DC进行著录详细,更能表达信息资源的内涵。USMARC数据结构严密, 能很好地描述电子信息,还可以对信息客体的复杂和微妙关系进行反映。如它允许编目员在 编目项内采用参照关系和顺序关系,这样用户可以将信息客体和所有与它相关的客体相连。
(3)方便数据交换。USMARC著录格式严格遵守AACR2的有关规定,尤其是对检索点的选取原 则,能确保其数据元素的组成具有统一性,能最好地保证现有书目数据库的兼容。USMARC是 一个普遍的元数据标准,出版者、书商、自动化系统的提供者和图书馆都采用它,进行资源 的交换和资源共享。
(4)易检性。USMARC允许对信息内容进行分析,从而强有力地支持检索和描述,其规范档可 以成功地支持检索。
当然,USMARC应用于网上资源的组织也存在许多不足。如其信息质量的高低受编目员知识 水平、专业技术水平和实践经验的影响;元数据的产生不如其他元数据标准快。如何克服其 不足,还有待进一步研究和探索。
4.2 DC用于网络信息资源编目的特点
DC的创建,是通过电子资源提供者对Web资源属性信息的描述,粗略地对资源内容进行编目 ,来帮助人们尽快地在网上发现所需要的资源,因此可以把都柏林核心集资源描述方案称为 网 上资源的编目。DC用于网上信息资源编目具有如下特点:
(1)简单性。DC是从非专业层面提出的,其目的之一就是为网页制作人员提供一种网络信息 的著录格式,以供用户查找与定位所需信息。DC只有15个元素,且都具有一个能够普遍理解 的语义,与USMARC格式相比,格式简单,易于理解。
(2)灵活性。DC的每一著录项目都是可以选择的,也是可以重复的,网页制作人员可以根据 网页的内容与特征选择需著录的项目。
(3)扩展性。DC还没有最后定型,允许网页制作者为了特定的目的、特定学科、特定网页中 增加一些必须著录的信息,例如,在数据库检索的使用期内,可以著录登录数据库的口令与 公用密码等。
(4)适应性。传统图书馆的MARC著录格式为了实现对网络信息资源的著录,增加了856字段( Electronic Location and Access,电子资源地址与检索),可以对网络信息资源的主机名 、URL、URN、路径、口令等进行著录,并实现了超文本的链接。然而,其复杂的著录格式以 及依靠编目人员对信息进行描述,不能适应网络信息资源不稳定、更新快、类型多样的发展 趋势。DC的著录信息是由网页制作者提供的,其著录的项目与网页的信息相吻合,并适应网 络信息不断变化发展的趋势。
(5)兼容性。这表现在两方面:一是网页制作软件、浏览器都提供对DC的支持:一是DC与现 存的其他元数据兼容,可以作为结构化元数据进行编码、转换的模块化基础结构。通过内嵌 在HTML语言中来实现其对Web资源的描述,由于HTML已经成为一种通用超文本标记语言,各 种通用的浏览器都支持对它的解释。
(6)通用性:不针对某个特定的学科或领域,支持对任何内容的资源进行描述。增加了跨学 科的语义互操作性的可能。
当然,DC用15个元素描述所有的资源有些过于简单。要满足不同学科的需要和实际需求, 增强不同体系之间的互操作能力,DC必须提供能够扩展描述的方法,即限定词的使用。1997 年3 月的第四届都柏林核心集研讨会正式确定了三个限定词:模式体系、语言种类、类型,即所 谓的“堪培拉限定词”。目前有关限定词和子元素的研究正在发展中。
4.3 USMARC与DC在网络信息资源书目控制上的前景
总的来说,USMARC格式由于其格式的完整性、著录的详尽性,经过三四十年的发展,现在 已经成为一种成熟的信息著录格式。DC是一种简单的架构,不包括详细描述内部结构的信息 ,不太容易表现资源之间的关系,在表达性方面不如USMARC,对于网上那些相对稳定、地位 重要的信息,利用USMARC进行著录比利用DC进行著录详细,更能表达信息资源的内涵。DC是 一种结构化的元数据,可以实现各种元数据之间的转换,而且,DC是针对网络信息资源的特 性创建的,作为电子信息资源描述的解决方案具有更广阔的前景。图书馆可以利用DC作为中 介,实现对重要网络信息资源的USMARC格式编目。
随着计算机技术的发展、网络的普及,网络信息资源迅速增长,数字图书馆是图书馆发展 的必然趋势。数字图书馆最显著的特征就是它提供网上的电子信息服务。传统图书馆将自己 收藏的文献资源逐步放到网上提供服务,是向数字图书馆方向发展的一个必然过程。充分利 用已经建立的馆藏资源的编目信息,对电子型的馆藏信息资源进行描述,发挥各资源描述体 系的优势,是非常必要的。因此对都柏林核心集的研究,既要关注它在数字图书馆的应用, 也要研究它与传统图书馆编目体系之间的关系。目前,国际及国内主要图书馆的传统编目工 作基本上都遵循MARC标准,因此都柏林核心集与MARC之间的相互转换是一个重要的课题。国 际 上已经有了一些都柏林核心集转换到MARC的实用工具软件。国内还处于研究与试验阶段, 国家图书馆、北京大学图书馆、清华大学图书馆等都成立了元数据研究的机构和小组,网络 信息资源书目控制前景可瞻。
标签:元数据论文;