MARC近40年的发展与未来_元数据论文

MARC近40年的发展与未来_元数据论文

MARC四十年的发展及其未来,本文主要内容关键词为:四十年论文,未来论文,MARC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

修回日期:2010-01-04

分类号G254.364

1 引言

20世纪50年代末,计算机从科学计算逐渐扩展到数据处理、事务处理及机构的信息管理,图书馆也开始探索计算机应用。美国国会图书馆(LC)是其中的佼佼者,1969年正式发行的计算机可读目录(MARC)磁带,将计算机应用扩展到整个图书馆领域。正如时任馆长L.Quincy Mumford指出的那样,“只有当机读形式的书目数据准确且以合理的价格发行,计算机技术才能在图书馆得到广泛应用。”[1]MARC的出现走出了图书馆全面自动化的重要一步,其后图书馆自动化系统逐渐发展并普及,成为图书馆计算机管理与服务的主要工具。机读目录的发展,也使书目提供方式从集中编目走向联合编目,加速了书目数据的获取,进一步促进了图书馆自动化系统的应用。

随着网络资源的快速发展,虚拟资源在图书馆服务中的地位日益上升,以MARC记录为核心的传统图书馆自动化系统(图书馆集成管理系统,ILS)已不再是图书馆唯一的计算机应用系统,但在对实体资源的利用与服务方面,ILS仍有着不可替代的作用,一些新的应用系统也常围绕ILS提供服务。在MARC作为一个产品问世40年之际,本文希望对其发展做一个概略的回顾与分析,并对其未来进行展望。

2 美国国会图书馆与MARC的开发[1]3-7

20世纪60年代初,应用计算机成为一种新的发展方向,吸引了一批有远见的图书馆开始尝试。当时LC希望利用计算机来打印该馆发行的集中编目卡片,该卡片产品始于20世纪初,是对北美乃至全世界图书馆界影响最大的产品。MARC研发的简单经过如下:

1964年开始调研卡片目录机读形式的可行方法;1966年推出MARC I格式,适用于英语专著类文献;1966年11月开始“MARC试验项目”,16所参与图书馆试用MARC I格式磁带;1967年10月开始修改MARC I格式,于1968年7月推出MARC II格式,也就是后来的USMARC,适用于所有资料类型;1969年初正式发行MARC II格式磁带,MARC作为产品走上图书馆自动化舞台。

在研发过程中,LC与美国图书馆界进行了充分的沟通,了解到图书馆更需要机读格式书目数据而不是打印出来的目录卡片,MARC的研发目标因而转向成为以数字形式交换书目数据的标准。

2.1 图书馆资源委员会和艾弗拉姆的贡献

在MARC发展史上,除了LC本身,不可不提的是图书馆资源委员会和亨丽埃特·艾弗拉姆(Henriette D.Avram,1919-2006)的贡献。

图书馆资源委员会(Council on Library Resources,CLR)是MARC开发的推动者,也是MARC试验项目的经费提供者。早在1964年,CLR委托Inforonics公司研究将LC目录卡片信息转换为机读形式的可能方法,公司提交了研究报告《以机器形式记录美国国会图书馆书目数据》,为MARC研发拉开序幕。从1965年到1967年,CLR一共资助LC及研究图书馆协会(ARL)举办了四次机读目录副本会议,为MARC研发确定了方向,如编码尽可能多的数据,以确保未来能够进行最有效的检索;与会者还针对MARC格式的细节提出建议,如包含定长与变长字段数据,又如书目数据所用字符集;会议讨论的问题甚或超出了MARC本身,如在图书馆界共享计算机程序规范的可行性,为图书馆自动化系统的发展做了准备。

MARC发展的核心人物艾弗拉姆曾经是美国国家安全局程序员,1965年进入LC任信息系统专家办公室的系统分析员。第一次机读目录副本会议后,她和两位同事一起,从计算机处理角度分析编目数据,于1965年6月提交《标准化机读目录记录建议格式》。报告提出了机读记录的内容、数据表达方式、定长与变长字段,成为设计MARC格式的基础。其后她开始领导MARC试验项目,MARC磁带正式发行后她又领导MARC发行部,并开始“回溯转换试验项目”。20世纪70年代,她担任国际图联内容标识符工作组主席,主持开发UNIMARC。为使MARC得到广泛采用,艾弗拉姆致力于使之成为标准,先后推动MARC成为美国国家标准Z39.2(1971年)和国际标准ISO2709(1973年)。艾弗拉姆2006年逝世,《华盛顿邮报》[2]、《纽约时报》[3]等美国主流媒体发表了纪念文章,称她为变革图书馆、使图书馆现代化者。

2.2 MARC长期发展的基础

MARC研发之初的计算机环境与今天完全不同:绝大多数参与MARC试验项目的图书馆甚至没有自己的计算机,完全依赖计算中心、按机时计费使用,数据录入使用穿孔卡,连打印输出大小写混合的字母都不是件容易的事。在信息技术产品日新月异的40年间,MARC这个古董级产品,顺应形势、不断修订与发展,保持着活力,经历了磁带、软盘、光盘直至互联网等发行介质的演变而使用至今,不能不说是一个奇迹。这一奇迹的出现,首先应该归功于MARC早期研发者们为它打下的坚实基础。从今天的角度看,我们认为MARC的下列特点功不可没:

(1)独立的元数据标识系统。MARC堪称元数据先驱,在普遍采用数据库定长字段的年代,采用了一套处理变长数据的标识系统。作为一种数据交换格式或称“通信格式”,MARC设计为不依赖于存储与传送媒介(如磁带),不限于特定的传送方式(如邮寄),适应各类硬件配置[4]。由于MARC独立于计算机软硬件系统,因而具有广泛使用的可能性。

(2)采用纯文本文件。计算机文档的最大隐患,在于其可能需要随硬件、操作系统及其他软件的变化而进行数据格式的转换,否则就无法访问。MARC由于采用了纯文本格式,可以用任何计算机进行处理,具有天然的长期保存功能。

(3)提供实用的产品。标准必须以应用为基础才能顺利推行。由于当时计算机尚未普及,机读化无法进入日常工作流程,需要根据目录卡片填写MARC表单,再转换成机读格式,完全是额外的工作,一般图书馆难以承担。1969年LC正式发行磁带后,书目记录覆盖率在学术图书馆达到70%-75%,在公共图书馆更高达95%[5],这为MARC的普及打下了坚实的基础。而MARC提供的标准使图书馆间得以合作与共享机读编目,进一步提高了书目数据的覆盖率。同时,在MARC设计时除输出卡片外,还考虑到当时通行的其他输出形式如书本式目录,并考虑到对记录排序和检索的进一步需求。

(4)吸收他馆经验,听取各方意见。在图书馆自动化领域,LC并不是最领先者,在MARC格式制订过程中,通过前述的多次会议及ALA年会等场合,LC广泛征求各方意见,吸收他馆经验。在确定MARC试验项目的参加馆时,LC选择不同类型、不同规模的图书馆,由各馆自行确定MARC磁带的使用方式,为MARC适应各类图书馆的各种应用打下了良好的基础。

(5)细致的成本分析。MARC试验项目实施过程中,对制作机读编目记录相关的费用,外包给专业公司进行成本分析,其费用模型、实施成本都精确到美分。这样做一方面是为了计算磁带的发行成本;另一方面,费用是决定系统能否实际应用的重要因素,比如最终放弃某些代码(如出版地)就是出于实施成本的考虑。新技术的应用说到底是一个经济问题,而不是“与时俱进”的理念问题。一项技术,如果不能实质性地改善图书馆的运营如提高工作效率或拓展新的服务,是无法得到广泛应用的。

3 MARC的发展及其国际化

随着图书馆自动化系统的发展,在最初的MARC书目记录格式外,陆续开发了与书目记录配套使用的规范记录、馆藏记录,以及分类、社区信息格式,构成了完整的MARC家族。由于书目数据格式最为常用,在没有特别说明时,一般论及MARC时,常常指其书目格式。

3.1 国际图联和UNIMARC

1966年LC开发出MARC I,随之很多机构根据本地需求开发自己的MARC格式。尽管所有称为“MARC”的格式都符合ISO2709标准,但是在数据元素标识和内容选取上,即便是亲缘关系最近的LC MARC(即USMARC)和英国BNB MARC(即UKMARC)之间也存在着显著的差别,使全球范围的书目数据交换成为一个非常严重的问题。20世纪70年代初期,国际编目界开始讨论开发一种超级机读书目格式(SUPERMARC)的可能性。这种书目格式作为各种书目格式交换的媒介,可以节省财力和人力,并进一步实现“全球书目控制”(UBC)理念[6]。

1972年IFLA布达佩斯年会上,IFLA编目委员会和自动化委员会共同成立了内容标识符工作组(IFLA Working Group on Content Designators),由MARC设计者艾弗拉姆担任主席。工作组的任务是制定一套标准的内容标识符,适用于所有类型的资源,使机读书目数据能够在不同机构的MARC格式之间进行交换。工作组意识到各国MARC格式存在严重的差别,所以它制定了建立国际标准的9条基本原则[7]。

尊重本地实践的考虑贯穿于UNIMARC格式之中。例如,UNIMARC结构的一个最大的特点是其对于等级关系的表达。对于分析著录内容,当时存在两种处理方法。一种像LC MARC那样,把相关信息放到一个字段里;另一种则像德国的MAB 1,采用多层数据结构,把分析信息著录在另外一条“子数据”里。工作组最后在UNIMARC中保留了这两种做法[8]。《UNIMARC:通用MARC格式》于1977年出版。

2008年,IFLA的UNIMARC核心活动(UCA)进行了一次全球范围内UNIMARC使用情况调查,对比1998年的调查,使用UNIMARC或者使用根据UNIMARC开发的本国格式的国家有所增加,从1998年的18+8个(把UNIMARC用作执行格式以及只用作交换格式)变成了2008年的23+10个[9]。

3.2 各国MARC格式

1969年美国和英国推出了各自的MARC II格式,1977年IFLA推出UNIMARC格式。当一个国家/机构决定开始使用机读目录,就面临着选择:是自己开发一种新的格式,还是采用一种现存的格式。这个选择会因各个国家/机构各自不同的编目实践、对于格式的功能需求、经济状况甚或是意识形态方面的考虑而有所不同。

总的来说,20世纪各国确定MARC格式时,更多地基于本国编目实践的独特性。USMARC、UKMARC以及UNIMARC是MARC格式设计的三种范本,除了少部分国家直接采用,大多数国家都根据这三种格式开发本国MARC格式。甚至某些具有较强民族意识的地区,在本国已有MARC格式后,还要设计本地区的MARC格式,如西班牙的加泰罗尼亚地区[10]。

下面列举的是部分国家和地区的书目格式与三种“范本”格式之间的关系,并就每一种格式的后续发展给出简单的说明。

(1)基于USMARC的书目格式。例如:法国格勒诺布尔大学图书馆开发的MONOCLE(1968)、加拿大CANMARC(1973;1999年与USMARC合并)、西班牙IBERMARC(1976)、韩国KORMARC(1978)、拉丁美洲MARCAL(1981)、巴西CALCO格式/IBICT格式(1981、1987)、印度尼西亚INDOMARC(1986)、匈牙利HUNMARC(1990年代)、挪威NORMARC、墨西哥、芬兰MARC21-Fin(2000)。

(2)基于UKMARC的书目格式。例如:澳大利亚AUSMARC(1973;1991年转用USMARC)、法国联合比利时等国INTERMARC(1974)、芬兰FINMARC(1976;2000年转用MARC21-Fin)、泰国THAIMARC(1976;1992年转用USMARC)、马来西亚MALMARC(1977)、意大利ANNAMARC(1978)、丹麦DANMARC(1979)、新加坡SINGMARC(1979;1996转用USMARC)、西班牙加泰罗尼亚地区CATMARC(1982)、印度INDIMARC(1985;2003年转用MARC21)、瑞典LIBRIS MARC和SWEMARC(2000年转用MARC21)。

(3)基于UNIMARC的书目格式。例如:捷克CSMARC(1980年代)、克罗地亚YU-UNIMARC(1980;2006年转用MARC21)、日本Japan/MARC(1981)、台湾地区CMARC(1981)、南非SAMARC(1980;1997年转用USMARC)、中国CNMARC(1991)、俄罗斯RUSMARC(2000)。

3.3 格式融合及MARC21的繁盛

在上述列出的各国MARC一览中我们发现一个很明显的现象,即1990年代之后,极少新的MARC格式问世,同时越来越多的国家开始放弃原有书目格式,转而使用USMARC以及后来的MARC21,如:澳大利亚(1991)、泰国(1992)、新加坡(1996)、南非(1997)、加拿大(1999)、瑞典(2000)、英国(2002)、印度(2003)、德国(2004)、奥地利(2004)、克罗地亚(2006)和芬兰(2008)。

就上述转用USMARC/MARC21的国家来说,他们的目的各不相同。泰国[11]和印度[12]是因为新的图书馆系统不支持原有格式;新加坡是因为导入WLN的USMARC数据[13];德、奥两国[14]及克罗地亚[15]最重要的原因是其国际化的需求;芬兰首要考虑的是整合国内书目格式,让各馆更方便地实现合作[16]。但无论如何,经济因素的推动和技术条件的允许,是其背后的重要原因。外部环境的变化,让各国图书馆界愿意放弃自己在编目实践上的独特性,增加书目数据的可见性与获取便利性,有效地降低编目及应用程序开发成本。

在这方面,始于1994年的美、加、英三国的“MARC融合”,为MARC21的繁盛做好了准备。1997年USMARC、CANMARC融合方案经美加两国MARC机构批准[17],1999年出版了新的MARC21书目、规范和馆藏格式。英国则在2002年签署协议,完全使用MARC21格式。

除了上述完全改用MARC21格式的国家,有些国家同时采用不同的MARC格式。俄罗斯有RUSMARC[18],但圣彼得堡的国家图书馆一直使用USMARC;我国中文数据普遍采用CNMARC,但众所周知的是,出于书目数据来源的考虑,外文数据以MARC21格式为多。

3.4 MARC的XML格式

作为一种元数据标准,MARC具有两个层面的含义。语义上MARC是元数据元素集,用于标记各种文献的书目信息,以及与书目信息关联的其他对象(规范、馆藏等);语法上,ISO2709是一种数据交换格式,编目界通称2709格式,这是所有MARC格式共同遵守的数据传递与交换标准。然而这种标准仅在图书馆领域使用。如果说互联网通用的数据格式是普通话,那么2709格式就是偏僻地区的方言,无法与外界进行交流。如前所述,2709格式文件是文本文件,可通过任何硬件及操作系统读取,但由于它采用头标区、目次区及数据区的顺序排列方式,作为元数据标识的字段名与字段数据分列在目次与数据区,要获取有意义的数据,需要专用软件进行处理。

1995年,LC开始尝试把2709格式的MARC数据转换为可直接在互联网上应用的数据,先后推出SGML DTD和XML DTD,2002年推出的轻量级应用MARCXML,是目前通用的XML格式MARC。MARCXML采用记录集—记录两个层次,一个XML文件可以包含多条记录,既可表达一般的检索结果集,也可表达FRBR(书目记录功能需求)关系。在推出MARCXML后,LC还提供了一套在MARC21记录与XML格式间转换的工具,便利MARCXML的应用。

在适用于MARC21的MARCXML推出之后,丹麦国家图书馆致力于开发MarcXchange,这是适用于各种MARC的XML格式。在由LC接任MarcXchange的维护机构后,2008年它正式成为国际标准ISO 25577。

4 MARC的未来

MARC历经四十年而长存,其间也伴随着种种质疑,质疑甚至在二十年前就已出现[19]。随着图书馆信息环境的变化,对MARC这一图书馆专用标准,质疑声浪越来越大,曾经在国内引起热烈讨论的“让MARC安乐死”就是集中体现[20]。

如前所述,MARC并非一成不变,而是一直在与时俱进,那么未来MARC会怎样,或者说,MARC有没有未来?一切都还没有定论,本文只能根据目前的状况做一些推测。

4.1 RDA没有抛弃MARC

讨论MARC未来时,不可忽视RDA。RDA于2005年开始编制,目的在于取代已有三十年历史的AACR2[21]。MARC作为一种数据结构标准,各著录项的内容,由如AACR2这样的编目规则规定。限于文章的篇幅,在前文中我们很少提到编目规则对MARC的影响,但AACR2对MARC、ISBD对UNIMARC的影响是不容忽视的。作为AACR2替代品的RDA,希望适应各种元数据方案,因此RDA研发被认为对MARC极为不利。

然而,RDA开发一波三折,发布时间一拖再拖。由于其应用前景不明朗,完整草案于2008年11月最后公示后又有一些改变。目前的附录中,包括MARC21书目数据格式(附录D)和MARC21规范数据格式(附录E)与RDA的对照表[22]。因此,RDA并未如一些人想象的那样唱响了MARC的挽歌,反而对MARC有相当好的支持。这或许从一个侧面说明,MARC仍有其生命力。

4.2 要求更丰富的可重用书目信息

MARC需要不断改进,但对MARC的质疑来自不同角度,有时看似互相矛盾,似乎难以成为改进MARC的依据。如一方面,对比亚马逊网上书店,基于MARC数据的OPAC被指过于简陋;另一方面,MARC格式又被指过于复杂,字段、子字段太多,而出版业通行的书目信息标准ONIX,其复杂程度相比MARC可谓有过之而无不及。由此观之,复杂并不是MARC格式面临的主要问题。

Andresen的总结或许指出了问题的真正所在:“MARC格式只允许严格的书目数据,如不能增加评论、原始形式的索引、图像和声音文件;用于强化目录的补充信息,不能按标准形式进行交换……不能直接用于图书馆环境之外的环境交流。”[23]未来的书目记录需要包容更多非文本信息。他的结论是:“互联网的发展意味着不同部门的数据比以往更可见、可访问,自然的结果是部门间边界被摧毁了。这同样适用于图书馆,必须向外部世界开放,与其他部门共享标准和数据。书目记录应当更易于重用——不但被图书馆,也被其他机构。”[23]

4.3 直接利用外部数据

在对MARC的质疑中,数据冗余也是一说。因为其中用到一些代码(如语种、出版国),同时在其他字段有用于显示的文字描述形式。早年使用这些代码是为了检索或限定检索,直到现在仍因为一致性高而被使用。MARC开发之初,还曾考虑过使用出版地代码,后来因为维护代码表成本高昂而作罢,而现在图书馆界可以不必自行维护代码表,因为网上有如geonames.org这样的地图服务可以利用。20世纪90年代初,MARC引入856字段提供外部链接,现在外部世界有更多可利用的资源,应该有更通用的方法在编目时直接使用。

MARC是机读目录,但到目前为止,却基本上是纯手工打造。书目来源多样化,是未来的趋势[24]。OCLC在2009年上半年推出的为出版社强化ONIX元数据服务,第一步就是直接利用出版业的ONIX数据,转换为MARC,然后以WorldCat大量书目数据分析为依据,由机器加入主题、分类、规范控制等,再转换回ONIX反馈给出版社。通过这一服务,OCLC可以同时获取大量新出版物的MARC数据。在未来很长一段时期内,直接利用外部数据转换为MARC将会越来越普遍。

4.4 XML格式

对MARC的很多质疑,其实都指向2709格式,因为其必须经过专门的转换程序,才能在网上利用。现在图书馆界已经有了基于XML这个互联网上资源编码、交换与处理方面事实标准的MARC格式,即MARCXML和MarcXchange。据笔者了解,目前新一代OPAC系统,普遍采用XML格式进行索引等处理,并直接呈现书目信息。

此外,LC还推出了MODS(元数据对象描述方案)和MADS(元数据规范描述方案),对MARC书目及规范格式作了简化,以自然语言标签如“title”等代替编目员熟悉的245$ a等字段名,在不少数字化项目中得到应用。

未来MARC采用XML格式是一种趋势,但究竟是如ISO 25577那样以更具有普遍性的数字、字母命名字段、子字段,还是用自然语言标签作元素名,目前仍不明朗。

4.5 书目记录的功能需求(FRBR)

IFLA于1998年出版《书目记录的功能需求》(FRBR),提出“作品——内容表达——载体表现——单件”概念模型,是对文献间衍生关系的深层揭示。表现这种文献间关系是对书目系统的新要求,目前所谓的“FRBR化”,是指通过转换书目记录集,使之符合FRBR的要求,单一书目记录本身不能实现FRBR显示。因为MARC书目记录基于“载体表现”,不能有效地表达其上位的“内容表达”及“作品”,仅仅把2709格式改成XML格式不能解决这一问题,需要对平面、线性的MARC做根本性的改变。

Tennant在2002年就说“MARC必须死”[25],但是他所提出的以FRBR为出发点、由LC和OCLC这样的机构承担、重新设计编码标准的设想,至今尚无实施的迹象。

4.6 回归书目数据交换格式

随着出版业的电子化进程,未来书目信息可以更多地通过机器获取,需要人工干预的内容将越来越少,MARC替代品的出现或将在那时水到渠成。

MARC当年是作为一种数据交换格式成为标准的,但后来常常直接被当作了元数据标准,今后或将回归到交换格式。由于MARC包含大量字段、子字段,语义丰富而明确,可以成为不同元数据转换的中介。LC曾经做过不少尝试,通过专门设计的样式表,一种元数据格式可以方便地转换为MARCXML,再转换为另一种元数据格式[26]。

5 结语

40年来,MARC曾经是图书馆人最引以为豪的作品,但任何产品或标准都有自己的生命周期,MARC也不例外。为了方便处理与发布书目数据,图书馆界最终彻底放弃2709格式是可以预期的,但MARC内容标识符的前景则不明朗。如果最终如MODS那样以文字标识代替数字字母标识,不再用UNIMARC的200或MARC21的245代表题名,MARC还是MARC吗?

无论是LCMARC还是UNIMARC,最初都是作为一种数据交换格式而开发的。MARC丰富的语义,作为一种基本无损的书目信息格式间交换中介,至今仍受到推崇。或许可以告慰艾弗拉姆的是,她所抽象出来的这套元数据元素集,作为数据结构标准,仍将长存于书目世界中。

标签:;  ;  

MARC近40年的发展与未来_元数据论文
下载Doc文档

猜你喜欢