西藏农牧学院 索郎德吉
摘要:本文分别对MARC和DC的发展和特点进行了详细的阐述,并比较分析了其不同点。在此基础上说明了当今社会MARC、DC并存的的意义
关键字:MARC、DC
元数据的编写是有标准的, 对于不同领域一般都会根据需求来定义一个标准或几个标准。标准的设定是为了实现领域中的数据信息交换和共享, 为研究和生产服务。MARC和DC 就是其中的两种标准。
1.MARC和DC的起源
1.1 MARC的发展概述
1965 年, 美国国会图书馆开始研究机读目录, 其目的是探索以机读形式产生目录数据的可行性。1968年英美两国合作研制出更好的机读格式,即MARCII, 继MARC之后, 各国开始开发本国机读目录。为了防止失控和方便国际交换, 国际图联于1977 年研制出/ Universal MARC For2 mat0 ,简称UNIMARC。我国针对汉字特点, 在UNIMARC 基础上开发了CNMARC ( 中国机读目录通讯格式) , 并与1991年发布。
1.2DC的发展概述
1995年3月由OCLC和NCSA(National Center for Super computing Applications)主持在美国俄亥俄州的都柏林(Dublin)召开了第一届元数据研讨会(OCLC/NCSA Metadata Workshop) ,由OCLC着手进行有关工作 ,会议产生了一个适用于网络信息资源组织和管理的元数据 ———都柏林核心元数据元素集(Dublin1. Core Metadata Element Set) ,包括13 个元素。之后项工作在 OCLC 等机构的参与下有条不紊的进着,到2000年底共召开了8 次DC元数据研讨会,其中1996 年9 月在美国俄亥俄州举行的第三次研会上 ,对Dublin core Metadata Element Set 进行了补和修订,增加了两个元素,共确定了15个著录项1997年10 月在芬兰赫尔辛基召开的第五次研讨上 ,明确了DC 元数据格式的主要功能是对网络息资源的著录和描述 ,而不是评价 ,较好地解决网信息资源的发现、控制和管理问题。2001 年10 月日本东京(Tokyo) 召开了 DC 元数据应用国际会(International Conference on Dublin Core and Metadata Applications) ,使DC元数据进入应用阶段。
1.3 MARC的基本定义:MARC的全称是机器可识别和阅读的目录( Machine Readable Catalogue) 。它是将文献数据以代码的形式和特定的格式结构记录在计算机存储载体上, 以便能够被计算机识别并编辑输出书目信息的目录形式。MARC是一种复杂格式的元数据 , 具有严格的语义规则和完整的信息描述手段, 有严格的格式规定和详尽的手段, 能准确、完整地描述信息资源。它是全球范围认同的成熟的传统机读编目格式,是专供图书馆界专业从事文献分编工作的研究馆员们使用的。
1.4DC的基本定义:DC是 1995 年在都柏林召开的第一次元数据会议上被提出的。它的目的是生成一个简单的、并且在网络中为各个拥护团体所接受的标准化元数据元素集。DC能较好地解决网络资源的发现、控制和管理问题
2.MARC和DC的著录格式
2.1MARC的结构
MARC的基本信息单元是MARC记录, 1条记录是1条文献相关特征的集合。包括头标区、目次区、数据区和分隔符。
头标区是固定长的字段, 包括24个字符位, 位于每条记录的起始位置, 存放该记录的有关控制信息, 如记录长度、状态、基地址等等。例如字符位置5 代表的是记录状态, 可能是修改过的记录、删除的记录等等。字符位置7代表的是书目级别, 可能是专著分析型、连续出版物、合集以及子集等。
目次区包含若干目次项以及结束符, 每一目次项对应一个字段。目次区长度固定, 均为12个字符位。前3位代表数据字段的标识符, 中间4 位代表字段长度, 后5 位代表该字段相当于数据区第1 个字符的位置。
数据区有若干数据字段组成。数据字段分为3 种类型:记录识别字段(001) , 保字段( 010~ 999) 。记录结束分隔符代表记录的结束。
2.2 DC的结构 把其15种元素分为3类: (1)资源内容的描述; (2)知识产权的描述; (3)外部属性的描述。元素可选择使用, 也可重复使用, 元素顺序可以任意排列。因此DC简单灵活, 易于使用, 著录者和用户都不需要专门的培训。
(1)资源内容描述类元素
Title(题名) :资源的名称 ,是由资源的创造者或出版者提供的。
Subject(主题词) :揭示资源主题内容的关键词。
Description(描述) :对资源内容的文本描述 ,可以是文献类对象的文摘 ,或者是视觉作品的内容描述。
Type(类型) :资源本身的类型 ,如小说、诗歌、散文、homepage 等。
Source(来源) :资源的出处 ,表示该资源是从哪一作品中得来的。
Relation(关联) :该资源与其他相关资源的关系 ,该项目允许在相关资源描述间建立关联,例如节选自(is part of) 、格式转换自(is for mat of)等。
Coverage(覆盖范围) :资源内容所覆盖的时空特征。空间范围指物理地域 ,可用规范的地名表示 ,也可用坐标方式如经纬度表示;时间是指资源内容所涉及的时间段 ,而不是资源产生的时间。
(2)知识产权描述类元素
Creator(创建者) :对创建资源知识内容负主要责任的个人或机构,即资源的创造者或制作者,像文本文件的作者,视觉资源的创作者、摄影者等。
Publisher(出版者) :是指对目前资源形式制作负责的个人、机构或团体 如大学出版社、公司等。,
Contributo(合作者 其他贡献者): 是指在Creator中未列出的对资源的知识内容的创建作出重要贡献的个人、机构或团体 ,如译者、编辑等。
Rights : (权限), 即资源的产权管理 是指向资源产权管理陈述的标识 ,或者是指向资源产权管理部门的标识符。
Format(格式) :描述资源的数据格式及其大小等 ,用以识别用什么软件或硬件来显示和操作该资源。
(3)外部属性描述类元素
Date(日期) :使资源成为可利用或可获得状态的日期。采用 ISO8601 的格式来书写 ,如 1998 年 12月19 日应以“19 1998 - 12 - 19”的格式书写。
Format(格式) :描述资源的数据格式及其大小
Identifier(标识符):唯一识别资源的字符串或数字。对网络资源来说,URL(Uniform Resource Locator) ;对其他资源来说,如全球唯一性标识国际标准书号ISBN (International Standard Book Number )等。
Language(语言) :资源知识内容所使用的语言采用 ISO639 的格式书写 ,如 English 表示“EN”French表示为“FR”,Chinese 表示为“ZH”。
上述15 个元素构成了 DC 元数据的基本元素集 ,所有的元素都是可选择和可重复的。
3.MARC和DC的主要区别
元数据是关于“数据的数据”,MARC记录是图书馆的编目数据。编目数据是指依据一定的著录规则、协议和标准 ,以特定结构把表示文献特征的有关信息记录在载体上 ,可供识别和检索的数据 ,包括手工编目产生的目录卡片和计算机编目产生的MARC记录等不同形式 ,都是关于“数据的数据”,它们具有元数据的特征 ,可以看作是元数据 ,从这个角度讲 ,DC与MARC记录是有相似之处的。对图书馆员来说 ,DC元数据很容易被看作是一种简化的编目数据格式 ,认为编目数据及其他任何著录格式都是元数据。
期刊文章分类查询,尽在期刊图书馆虽然DC元数据和编目数据的描述功能和基本项目极为相似 ,都对资源内容、知识产权、外部属性进行了描述,但是DC元数据并不是编目数据,而是编目数据源,即编目记录各项目可依据的事实数据,所以编目数据可以认为是元数据,而DC元数据不是编目数据,二者之间有着根本的区别。
3.1数据单元的形式不同
MARC 采用字段与子字段作为数据单元, 对必备字段和可选择字段以及字段是否可以重复皆有严格规定和区分,对各字段与子字段之间的从属关系也都是严格限定的。在大多数字段中, 还采用标识符作更进一步限定和区别, 如此形成的结构非常严谨;由于数据单元之间存在一定的重复现象, 在某种程度上较为繁琐。
DC采用元素和限定词作为数据单元, 所有元素都是可选择、可重复和可扩展的, 限定词与元素之间的关系是不确定的, 限定词使用非常灵活, 结构较为简单、灵巧。
3.2 数据的形式不同
MARC格式主要由3部分组成: 头标区、目次区、数据区。头标区位于每条记录的开端, 共有24个字符长度,提供本记录的一些参数; 目次区是MARC记录中每个可变长字段的索引, 由一系列固定长数据项目组成, 包括每个可变长字段的字段标识符、字段长度和字段起始字符位置,每项12个字符位, 在终端上不显示; 数据区由多个可变长字段组成, 每个字段间由字段分隔符隔开, 是著录资料信息的具体体现。
DC 元素包括15个元素, 这15个元素不含子元素、命名域或其他限定词。它在应用中是可以选择、可重复和可扩充的。这15项可重复使用或有选择性使用, 还可以拥有子类型和子模式。
3.3标识的不同
MARC的字段采用三位阿拉伯数字作为标识,子字段采用一位英文字母或阿拉伯数字作为标识, 标识没有语义,不能直观表达; 而DC则采用单词或词组的形式作为元素的标识,语义明确,非常直观, 具有自我解释的功能。
3.4编码标准的不同
MARC的编码标准较为特殊,采用IS02709进行编码,但是为了数据共享,必须转化成标准文档;而DC以HTML作为编码标准, 而且正在向XML的方向发展, 著录时即可以使用HTML语言为输出结果的网络产品形式, 也保留了自己的著录标识和系统。
3.5记录的对象不同
由于MARC 是一种详细描述的元数据格式,且对内容著录的规定严格。因此, 一般须有经过专门培训的研究人员或图书情报专业人员依据一定著录标准, 进行著录, 记录本身来说有较高的权威性。DC元数据著录的基本特色就是简单明了、语义明确, 其设计意图就是使创建者和信息提供者可以无需经过培训就能自己进行资源描述。
3.6使用环境与范围不同
MARC 格式只限于在符合IS02709 编码标准的信息系统之间传递和交换书目数据,其使用环境主要限于图书情报机构和网上的公共查询目录; 即MARC 格式比较适用于传统的出版物、图象、缩微制品、视听资料、数据库等。随着文献类型的不断扩展, 经过不断的修订和补充。 DC 作为一种简单的资源描述格式, 提供一个基本的数据库, 通过在都伯林核心与其它元数据格式间建立映射关系, 因而使用范围非常广,DC 的设计原则中具有可扩展性、可选择性、可重复性和可修饰性的特征, 它提示的往往是数据化的对象,如电子图书、网页、数字多媒体等, 其描述重点是描述对象的内容, 内部结构或标准以及应用管理方面。DC是为网络资源或者说是数字资源的著录而制定的, 总体上讲, 其对象基本为电子资源。
3.7产生的途径不同
在 CORC系统中 , DC 元数据的产生主要有两种途径::
一种是通过OCLC网络编目办软件直接制作。在空白工作单中按DC著录规则, 填入每个字段的内容,或录入人员根据自己所熟悉的 MARC、MARC Text Area、DC Text Area、REF、DC HTML等方式输入数据,系统将这些格式的数据 自动生成DC元数据。另一种是通过过import的方式来获取。首先将记录从其他系统中按 ISO - 2709 通讯格式按纯文本输出 , 并粘贴到import 文本框中,然后转入 CORC系统。MARC记录则必须通过专用的编目软件,编目员要经过一段时期的严格培训,掌握了著录规则与软件操作方法后方可进行编目 , 且编目方法较DC元数据要复杂得多。
以上7种区别是从根本上反映了DC元数据与MARC记录本质上的区别 ,在传统
文献资源和现代的网络信息资源的组织上管理上是相互补充 ,不可相互取代的。图书馆界应重视和关注 DC元数据的发展和研究 ,制定中文元数据的解决方案 ,推进数字图书馆的建设。
4.MARC存在的问题
4.1 MARC是基于文本的数据输入。字段与子字段的划分主要考虑对数据的相对精确的划分。实际上, MARC 格式只是严格地用于书目数据。对于处理原始状态的评论、索引和音像文件则是它弱势。对于那些现在和将来目录中需要进一步强化著录的附加信息, 至今没有一个公认的便于交流的标准形式, 所以数据缺失是常见的现象。从其本质上讲, MARC格式是一个严谨的格式, 因为它设计的初衷就是为了生产印刷型目录卡片, 所以并没有去考虑不同图书馆系统之间的交互问题。MARC 格式在灵活性方面的缺失, 带来的是图书馆各种系统之间的交流障碍。大套书的MARC 格式著录行文,显得相当笨拙。尽管问题首先在于数据库系统本身, 但是MARC 在结构设计上原本就不支持连续文本。
由于MARC是以印刷目录为基础,那么执行MARC格式就意味着在卡片上或屏幕上对单个文档进行描述和揭示。换句话说, 如何将不同字段的数据关联起来是非常困难的。MARC在图书馆系统中推行并成为图书馆专用格式,但不适合与图书馆外部环境的直接交流。需要加强的一是封装技术问题, 二是字段构建问题。
4.2 MARC与外部功能的相互影响MARC是专为图书馆设计的,在实践中除了图书馆内部环境以外 , 无法与外部环境交流。以前这还不是个问题 ,但随着不同部门之间数据交流的提高 , MARC 格式与外部交流就成为突出的问题。每个图书馆不再是一个孤岛 , 图书馆与图书馆、图书馆与外界的交流与相互作用已成为基本的要求。一个大学图书馆必须能够与学校的行政系统相连接 , 但一个学校各部门的系统有着非常大的差别。
档案馆、博物馆、图书馆等机构之间开展合作有着非常重要的意义 , 大家使用相同的数据表示方法以便于相互交流。都柏林核是首选的描述语言 , 因为这种格式的整个结构更容易实现表达方式的同一性。再一个原因就是都柏林核不适合部门内部使用 , 因为它过于通用 , 不能应对专门化需要。选用都柏林核也存在一定的问题 , 因为它主要是处理web资源 , 所以格式相当简单。我们必须时刻牢记都柏林核的基本原则: 为检索而描述 Internet 上的资源。DC作为描述 Internet 资源通用格式的思想在某种程度上是成功的。但是直接用DC重塑MARC就会出现问题。
5.DC元数据与 MARC并存
在图书馆自动化的进程中扮演了十分重要的角色,其自身也随之发展得越来越成熟。当图书馆由自动化阶段过渡到数字化时代时MARC并不能立刻让位给Dublin Core等元数据。网络的高速发展和信息时代的到来,图书馆传统的书刊收藏、借阅的功能并没有丧失 只是功能和,服务的外延在不断扩大。DC等元数据是图书馆未来著录的大势所趋。但是这个过程是渐进的、稳定的,MARC 还有其存在的合理性和重要性。特别是DC等元数据都还没有发展成熟的时候马上进行MARC向DC的完整转换是十分危险的,我们还不能放弃对MARC 等传统格式的应用和利用。在国内进行元数据实践利用的图书馆中,大都采用MARC 、DC ,等多种元数据并存,用组配的方法形成自己的元数据应用方案。
结束语:
通过以上分析,我们可以得出结论:元数据与机读目录既有联系,又有区别,我们要发挥彼此的长处,不断改进完善,使二者做到共存互补。
论文作者:索郎德吉
论文发表刊物:《创新人才教育》2019年第1期
论文发表时间:2019/1/16
标签:数据论文; 字段论文; 资源论文; 编目论文; 格式论文; 元素论文; 图书馆论文; 《创新人才教育》2019年第1期论文;