荷兰国家图书馆对数字资源保存的探索,本文主要内容关键词为:国家图书馆论文,荷兰论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G250.76
随着信息时代的推进,人类积累的数字资源正在以几何级数增加,以纸本形式存在的资源也在逐步数字化。图书馆管理人员时常会遇到这样的问题,由于存在IT技术更新、计算机置换和断线故障等因素,一些数字资源极容易迅速损失。因此,如何长期保存这些海量数字资源,已成为目前国外图书馆学界研究和探讨的重要问题。面对数字资料有可能丢失的风险,荷兰国家图书馆(Koninklijke Bibliotheek,以下简称KB)是世界上最早作出反应的机构之一,它的实践对我们的数字资源保存工作有一定的借鉴意义。
一、数字资源保存的意义和挑战
数字资源的保存,就是找到维护人类数字遗产的方式。而这种遗产与其他遗产的一个重要的不同之处,是其存在的形式多种多样,包括电子杂志、数据库记录、网站、电子邮件、数字影像、视听材料、互动程序以及所有其他各种二进制的数据。
数字出版的优势是明显的:在任何地方可以方便地使用。学术期刊越来越多地以数字的形式出版。过去十多年里,期刊的出版越来越走向数字化,尤以科学技术和医学领域的出版物最为明显。越来越多的科学家正在利用提供数字出版物的电子服务。
但是,一种劣势也逐渐显示出来:数字出版使得研究信息永久性保存充满危险。数字出版物的物理载体比纸质或皮质出版物的失效速度要快得多。由于格式、硬件、软件和载体过时,不采取措施,数字信息可能会丢失,数字载体的格式可能会被毁坏或缺失,并可能无法恢复。或许在这种情况发生前,用来储存这种出版物的技术就可能已经过时了。另一个威胁是:如果要翻译、展示和利用那些数字载体中的信息,需要特定软硬件提供的功能,而这些功能也有可能会丧失。没有了这些功能,即便数字载体上的字节已经保存下来,信息也无法利用。因此,只有正视这些威胁,采取应对措施,才能成功地将数字出版物长期保存,以供未来使用。否则,人们迟早会失去数字资源或无法利用其中的信息。
数字出版的蓬勃发展,也正在促使出版者和图书馆的角色和职能发生转变。数字出版对科学研究记录的持续保存构成了严重威胁。过去,图书馆只是承担对图书、报刊的采集、编目、典藏和服务的职能。现在,对于数字资源,图书馆自己并不拥有出版物,只是拥有出版者的使用许可。保存数字出版物,需要图书馆在政策和实践方面进行重大改变。尽管人们已经采取了一些措施,但数字资料的保存和实施仍然处于初始阶段。图书馆将需要大量资金,用于数字文献基础设施的探索性研究和开发。各个图书馆之间也必须密切合作,以便对21世纪的数字资料长期保存工作进行成功而有效地组织。
数字出版不止影响到图书馆的典藏角色,也影响到出版者的出版角色。对出版者来说,数字出版使工作重点从出版物的制作和销售转向了数字资料的搜索、链接和检索。为了履行出版者保存科学记录的职责,仅仅制作、营销出版物已经不够,还需要为已出版的信息提供典藏方面的服务。一些科技出版商已经意识到了这一点。
数字信息的典藏要比纸本信息的典藏更复杂。印刷出版物是一种物体,而数字出版物只是储存在实物介质中的理论上的物体。人类可以直接阅读印刷出版物,而要阅读和观看数字出版物中的信息,需要有软硬件提供的特殊功能。
为了保证数字信息的永久利用,需要有各种解决方案,如迁移、规范化、仿真等。选择哪一种技术,既取决于数字出版物的性质(如格式是什么),也取决于使用者的要求(他们是仅仅浏览信息,还是要处理信息)。迁移(有时候指转换)是计算机科学中常用的技术,然而,迁移实质上是改变原状,意味着存在破坏信息的风险。如果实行一连串的迁移,风险就更大。规范化是在典藏接受信息之前,将信息迁移到某种特定的格式上,这种方法也可能造成数字信息的部分丢失及其特征的隐匿。仿真也是一种方法,目的是使数字信息尽可能地保真。通过仿真,技术过时的风险可以通过电脑的软件编程(仿真器)和实现硬件替换的方式来解决,有时候,可以结合仿真和有控制的迁移这两种方法来使用。
目前,关于数字资源长期保存要面对的挑战,人们在以下三点已达成共识:(1)需要处理的数字资源量极其庞大,而且在迅速增加;(2)数字材料具有暂时性,尤其是其格式正在迅速变化;(3)数字材料的处理和保存,需要进行大规模的机构变革,包括投入相关的费用。
二、荷兰国家图书馆的数字典藏实践
KB位于荷兰首都海牙,创立于1798年,目前工作人员约320人左右,近年来每年的预算约为3900万欧元。作为国家图书馆,为保存本国文化资产,该馆于1974年开始了版本收藏(deposit library)工作,专门收藏本国出版的各类出版物,如图书、期刊、报纸、学位论文和政府出版物等,目前该馆年入藏图书缴存本约4万册;1996年起又将本国出版的电子出版物纳入馆藏范围。目前馆藏的数字藏品主要包括两大类:国内出版商缴存本和本馆馆藏的数字化制品。根据该馆目前正在实施的《荷兰电子出版物保存计划》(Deposit of Dutch Electronic Publications,DDEP),需要保存的电子出版物包括:在线数据库、光盘数据库、电子期刊、电子图书等类,目前这些种类的藏品的入藏量正以每年12万件的速度增加。一般来说,国家图书馆储存出版物,或者是通过国家立法的形式管理,或者是资源缴存,即在协商一致的基础上,通过缴存协议这种不预先设定法律强制义务的民事法律行为来实现数字产品的缴存。在荷兰,国家图书馆对出版物的收藏主要是通过KB与国内外数据生产商之间的缴存协议来实现的。
1.开拓性的工作
20世纪90年代初,当KB收藏第一批电子出版物的时候,是把它们作为纸本出版物处理并码在书架上。它们是“离线的”或者说是“可触及的”数字出版物,依据出版包装上的信息进行编目。为了学习对数字出版物进行信息处理,KB不得不在多个领域做开拓性的新工作,图书馆人员也尝试开发全新的工作流程和学习新的技能。同时,KB也尝试与IT合作伙伴建立密切的合作关系,并获取专门的IT基础设施。此外,KB还与出版商建立起信任关系,共同进行数字出版物的典藏试验。由此,逐步组成了一种由图书馆、IT公司和出版者之间的三方合作关系,这就是后来KB参与和实施欧洲NEDLIB(网络化欧洲储藏图书馆)项目取得成功的基础。为了获得更多的实际处理出版物的经验,KB还着手利用Elsevier和Kluwer Academic等出版机构提供的电子期刊样本,进行收藏在线数字出版物的试验。
在荷兰国内,Elsevier出版公司一直参与KB自1993年以来的典藏试验。1995年,KB与Elsevier一道探讨了收藏荷兰语电子出版物的可能性。1996年,双方签订初步协议,由Elsevier,先着手收藏、储存其出版的电子杂志。1999年,KB又与荷兰出版商协会(Dutch Publishers Association)作出了类似的安排,收藏数字出版物的做法延伸到了一般的荷兰出版商。到了2003年,荷兰各大学联合启动了“数字学术知识库”(Digital Academic Repositories,DAR)项目,建立各自的知识库。这些机构建立的知识库所发表的数字信息由KB负责典藏,并确保其连续性和一致性。这一项目已经成为KB后来成功运行e- Depot的核心。
在开发新的数字典藏措施的同时,KB对典藏Elsevier所有电子杂志所需承担的更大责任进行了调研。为此,KB向所属的荷兰政府教育、科学与文化部汇报了这个计划,并获得批准。2002年,经过对合作伙伴的共同兴趣和各自的能力作出细致考察之后,KB与Elsevier签订了一项协议,典藏Elsevier的所有电子杂志。这份协议的目的主要是:(1)建立正式的典藏关系,确保出版物的永久性保存;(2)保证数字信息的完整性,确保这些出版物的永久性使用。
在与Elsevier签订协议之后,KB又与Kluwer、BioMed Central、Blackwell、Taylor and Francis、牛津大学出版社、Springer、Brill等多家国际出版商签订了协议。在这些典藏协议中,关于KB典藏的数字出版物的使用,作出如下规定:(1)这些出版物的元数据可以纳入到KB的网上公共目录和荷兰的《国家文献目录》(National Bibliography)当中;(2)出版物只允许在KB馆内使用和经过KB许可的人使用;(3)如果属于开放利用的出版商和非营利性出版商,这种馆内使用限制则不适用;(4)对于得到许可的KB人员,允许馆内使用和远距离使用;(5)典藏出版物可以供荷兰国内馆际互借时用于复印或复制;(6)不允许以任何手段向馆外发送或转移这种电子文档。
2.安全场所战略
通过数年的试验及与合作伙伴的合作,KB设计了一种称为“安全场所策略”(safe place strategy)的典藏方法。它由三个步骤构成。第一步是建立一种能够容纳所有必藏出版物的典藏环境。这种典藏环境的技术核心是一个与图书馆的实物书架有着同样功能的存储系统(deposit system)。这种典藏环境为电子出版物的存储、维护和管理提供了特定的受控条件。第二步是组织并执行对数字对象的“完美”复制,以备对存储介质的更新。这一步骤必须在旧的存储介质状况恶化或技术上过时之前完成。由于收藏的出版物不断增加,复制量巨大,因此复制并不是一件小事。第三步也是最复杂的一步,是确保这些出版物在将来继续使用。因此,必须对解读数字信息的功能进行登记、保存和更换。这些作业都需要不断进行研究和开发,因为信息技术正在不断快速地发展。
为了管理在线数字出版物,KB认识到需要有一种特殊的计算机系统,因此着手寻找愿意提供一个试点系统的IT合作伙伴。1995年,KB开始与AT&T公司及其贝尔实验室组成一个团队。AT&T为KB提供了一个称为“Right Pages”的系统,该系统的设计是为了处理一定数量的电子期刊文章。除了建立在线数字出版物工作流程之外,KB和AT&T共同研究了Right Pages系统升级的潜力,以便管理数量越来越大的数字出版物。
虽然KB和AT&T的合作项目取得了良好进展,但AT&T在1997年关闭了其开发和营销Right Pages系统的欧洲分部,KB被迫另寻合作伙伴。在经过对可选用产品进行一番搜寻之后,IBM的“数字图书馆”(Digital Library)被选定为替代者。KB建立数字图书馆,KB和IBM公司需要作出巨大努力,该公司于1998年1月开始运行这个试点系统。系统的规模比以前的要大得多,包含了处理和管理数字出版物的基本功能。该系统称为DNEP系统(DNEP是“荷兰电子出版物存储库”,即Depot voor Nederlandse Electronische Publicaties的简称),包含了约1.9Tb的存储能力。DNEP系统不仅用来下载和维护数字出版物,而且为图书馆工作人员和读者提供了利用数字内容的途径。
也是在1998年1月,一个称为“NEDLIB”的国际项目开始启动,它的目的是确定可运行电子存储系统的功能、技术和组织要求。NEDLIB是“网络化欧洲储藏图书馆”(Networked European Depository Library)的缩略语,该项目的目的是定义和测试获取、保存、利用数字出版物所需要的基本设施和程序。NEDLIB项目是由在欧洲国家图书馆大会(CNEL)建立的多国国家图书馆合作组织CoBRA+发起的。该项目由欧盟委员会提供部分资金,历时3年,总预算176万欧元,参加者有8个国家图书馆、1个国家档案馆、两家IT机构和3家科技出版商。KB负责项目的协调和管理。NEDLIB为电子出版物存储系统的总体设计方案开发出一种功能格式,并处理长期保存和长期利用的问题。在此过程中,还要对电子出版物存储系统作出技术说明,并提供一个原型。
在NEDLIB提出电子出版物存储系统最初原始模型的第一个草案的时候,国际标准组织的《开放档案信息系统参考模型白皮书》(OAIS Reference Model White Book)也于1998年发布。经过将NEDLIB模型与OAIS模型相对照,NEDLIB决定采纳OAIS模型,同时致力于对其进一步开发,将其运用到国家图书馆和国家档案馆中。NEDLIB项目的最终成果是发表了6个系列研究报告,这些报告又为KB的电子存储系统的开发和实施提供了非常有价值的参考。通过NEDLIB项目,欧洲各国国家图书馆得以开发符合国际标准组织OAIS典藏标准的储存系统。
3.存储系统的研发
根据试验性的存储系统的经验和NEDLIB项目的研究成果,KB提出了电子出版物存储系统的要求。1999年,通过对IT市场的考察,KB决策者认为存储系统可以购买到,当时IT市场也正对设计和开发存储系统表现出浓厚的兴趣,因此,1999年年底,KB决定对存储系统进行招标。
在招标前,KB认为,电子出版物存储系统的总体要求是,它应该提供一种受控的典藏环境,应该能够支持对数字出版物的维护,不丢失数据或不使数据残缺,能保证现在和将来都能利用。在KB的招标书中,归纳了这方面的要求:(1)存储系统的设计,应能处理不断增加的电子出版物的种类和数量;(2)系统应是耐用的,技术上能够不断更新,同时不影响典藏流程的可靠性,不危及已经典藏的内容;(3)存储系统的功能设计,应该符合国际标准组织的OAIS典藏标准;(4)存储系统应是一个独立的系统,但其界面应与提供传统功能如编目、检索等的数字图书馆基础设施的界面相通;(5)进入其环境的界面应当友好,易于维护;(6)系统应尽可能采用经过检验的技术和现成可用的模块来建造。
KB与IBM公司于2000年10月签订了合同。合同谈判期间要解决的主要问题是,KB要建立一个可运行的、全面的、符合OAIS的存储系统,包含保存数字资源的全面功能(规划、管理和永久使用)。但在当时,KB尚未能对保存功能的要求作出确切定义,因此无法提出明确要求。为了解决这个问题,合同分为两个部分:可运行存储系统的开发和交付;定义长期保存和永久使用要求的补充研究。这种补充研究作为“长期保存研究”项目来实施,与建立存储系统同时进行。IBM将这项研究的结果用于“数字信息典藏系统”(DIAS)的设计和开发,研究的结果也在2002年12月以6份报告的形式发表。在进行合同谈判时,KB同意IBM公司对这种典藏系统享有完全的知识产权。KB希望,这样做可以鼓励IBM公司将这种典藏系统作为一种产品,冠以品牌进行营销并不断更新。
尽管“数字信息典藏系统”是IBM与KB一起开发的,但它并不是特地针对KB的,甚至也不是专门为图书馆设计的系统,而是一种一般意义上的数字典藏解决方案。根据要求,“数字信息典藏系统”依据的是NEDLIB公布的“电子出版物存储系统”模型,这使它的建立成为OAIS参考模型的第一次具体应用。符合OAIS典藏标准,表明“数字信息典藏系统”包括以下功能:(1)缴送和提取,即从出版商那里接受数字出版物,检查其质量,制成“缴送信息包”(Submission Information Packages,SIPs),并向收录部门演示服务和功能;(2)收录,即检查和接收“缴送信息包”的服务和功能;(3)典藏存储,即存储、维护和检索“典藏信息包”(Archival Information Packages,AIPs)的服务和功能;(4)数据管理,即保存、维护和利用已收藏的出版物和其他管理数据的描述性信息的服务和功能;(5)管理,即控制日常运行的服务和功能;(6)保存,即规划、监督和执行保存策略和措施的服务和功能;(7)使用,即定位和检索已典藏的信息并制成“传播信息包”(Dissemination Information Packages,DIPs)的服务和功能;(8)打包和交付,即对已打包进入“传播信息包”的信息进行前期处理,并检查交付给用户的服务和功能;(9)监管和记录,即对浏览和使用行为进行注册和报告的服务和功能。
IBM利用现成的组件以及为建设“数字信息典藏系统”特地开发的组件以实现各种功能。
现有“数字信息典藏系统”已经包含了保存功能。然而,KB和IBM为“数字信息典藏系统”又开发了一个“保存子系统”,它将支持技术元数据(technical metadata)的注册并提高电子资源保存所需要的其他功能。这个子系统由三个部分构成:(1)保存管理器,是用于注册技术元数据的组件;(2)永久利用工具箱(PATbox);(3)保存处理器,用于执行保存操作。
保存技术元数据,是长期保存电子出版物的一个关键部分,其中的一个重要方面就是元数据的提取。每种已典藏的数字出版物,都必须注册元数据。NEDLIB将“开放档案信息系统”的“再现信息”概念进一步开发成一种保存层次模型。为了实际应用这个分层模型,IBM进一步将其开发成“保存层模型”(Preservation Layer Model,PLM)。“保存层模型”是保存子系统注册、维护和管理技术元数据时使用的模板结构。用于某种特定数据格式的具体“保存层模型”,被称为“浏览路径”。
4.e- Depot的成功运行
电子资源长期保存功能的核心组成部分,是支持技术元数据管理的保存管理器(preservation manager),它登记了每一种数字出版物的浏览路径并监测其可行性。保存管理器由IBM公司新近研发,并经过了KB的测试。目前,它已经被集成到新一代的“数字信息典藏系统”之中。具体来说,保存管理器的目的是:支持元数据登记和管理,监测信息利用功能的完好性等。
e- Depot是KB用于典藏数字出版物的基础设施和组织的名称,国内有学者称之为“电子资源保险箱”。它包括处理和典藏数字出版物的工作流程,即数字资源的采集、标引、保存研究和管理等业务流程工作。e- Depot这个名称也适用于KB提供数字信息的生产者和使用者的典藏服务。e- Depot基础设施的核心是提供常见数字图书馆功能的“数字信息典藏系统”,并附带有较小规模的支持系统及其他系统。
目前,在KB内部,有三个部门共同负责e- Depot服务的运行和e- Depot基础设施的发展。(1)采访编目部(Acquisitions and Processing Division)负责获取、检查和下载出版物(包括元数据)的日常业务;(2)信息技术部(Information Division)负责e- Depot基础设施的技术维护。这项工作包括“数字信息典藏系统”的维护,以及扩展其存储容量、保证备份、提供介质迁移等。这个部门还负责管理将存储系统集成到总体数字图书馆基础设施之中;(3)研究发展部(Research and Development Division)负责进一步开发e- Depot功能的研究和试验。这些活动通常是与前面两个部门共同进行的项目,并经常有外部技术合作伙伴参与。该部门还组织或参与国际性的活动,如制订标准、保存研究、项目合作、举办会议等。
由于建立e- Depot是一项具有战略意义的活动,对KB的政策和组织有着巨大影响,因此为了协调这方面的活动并制定与e-Depot有关的政策,KB还建立了一个e-Depot管理委员会(e- Depot Steering Board)。除了前面提到的三个部门之外,用户服务部也是这个委员会的参与者,它负责按照与出版商签订的典藏合同所规定的条件为用户服务。
KB的目的是将e- Depot发展成为一个“可信赖的数字知识库”(Trusted Digital Repository,TDR)。这一概念是2002年世界两大信息组织——研究型图书馆集团/联机图书馆中心(RLG/OCLC)的数字档案属性工作组(Working Group on Digital Archive Attributes)提出的。在这个工作组的报告中,对“可信赖的数字知识库”作了如下定义:“可信赖的数字知识库是一种在目前和将来,以使目标社区能可靠、长期使用可控数字资源为使命的知识库。”
2002年10月,IBM公司将“数字信息典藏系统”正式移交给KB。该系统执行和处理数字出版物的工作流程和程序到位之后,开始了数字出版物的下载工作。原来的试验性系统——荷兰电子出版物存储系统(DNEP)于2004年年底关闭,因为其所有功能都已经被e- Depot所接替。
几年来,e- Depot正常运行并且越来越完善,为广大读者特别是科学研究人员带来了极大的便利。