图书馆数字资源的长期保存与迁移技术分析_图书馆论文

图书馆数字资源长期保存迁移技术分析,本文主要内容关键词为:图书馆论文,数字论文,资源论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 概述

数字资源长期保存是近年来图书馆界讨论与研究的热门话题,并已发展成为图书馆技术的一个新的研究领域。国家图书馆是记载人类文明的基地,承担着文献收藏和保护的职责。因此,必须将大量记载着人类文化遗产的数字资源进行长期保存,使数字资源得到持续利用和保护,以便将来人们所使用。长期保存所面临的一个很重要的挑战就是逾越随时间的变迁而产生的技术障碍,以满足对数字资源的保存和呈现需求。长期保存的技术实现方式很多,传统方法有迁移、封装、技术保持、重整/数据恢复/数据考古等。按照OAIS(The Reference Model for Open Archival Information Systems)的长期保存规划,为维护数字对象的长期可生存能力、可呈现能力和可理解能力,迁移被认为是一种有效的保存策略。

美国CPA/RLG工作组(the Commission on Preservation and Access and the Research Libraries Group)是这样定义数字迁移的:数字迁移是指随技术变化定期地转换数字资源的一种处理过程,它使数字资源从一个硬件、软件的配制向另一个硬件、软件配制转换,或是从旧的计算机技术向新一代的计算机技术转换,这一套定期的整体行为能使数字资源适应技术更新,不断地被转移,使数字资源在将来也可以被存取。传统的迁移方法有存储介质迁移、文件格式迁移等,这些迁移方法虽已被广泛应用,但在保证迁移过程中的数据安全性、稳定性和真实性等方面均有不足。随着技术的进步和需求的演化,长期保存的迁移实现方式也不断发展,在传统策略之上又有一些新的技术实现方式,如按需迁移的保存策略等,但尚不成熟,且迁移过程复杂。本文主要针对上述长期保存迁移技术进行分析研究。[1]

2 迁移风险分析

数字资源长期保存的最大阻力是格式过期和软件/硬件过期。不论是何种迁移方式,从实现过程或技术角度来看,都存在着一定的风险,以下将对迁移过程中的风险进行分析,以保证迁移后的资源忠实于原始文件。

通过以上的分析,我们可以得出,迁移过程需要保证资源在结构、内容、背景等信息上的完整性,需要加强对长期保存元数据的保护,特别是描述元数据、结构元数据等信息。此外,对数据库需要严格保证数据库间关联关系的完整性。迁移质量控制是迁移系统必须具备的能力,如应具有读源文件并分析它与目标格式异同的能力;对软件、硬件错误或过期现象进行预警;识别并报告源与目标间匹配错误的风险点;正确地完成从源到目标的转换;详细记录迁移过程文档等。由于在进行迁移时需要大量的人力、财力且转换时间很长,特别是由于中文编码复杂,且数字对象之间的语意关联复杂,因此,即使有相应的质量控制手段,为防止在迁移过程中出现疏漏,必须辅以人工检验。

3 图书馆迁移对象模型分析

被保存内容作为数字资源保存活动的主体,决定长期保存迁移过程中所采取的方法和策略。以下我们将对图书馆迁移数据对象模型进行分析,以明确图书馆保存迁移活动的主体对象构成,如图1所示。

图1 图书馆数字对象模型

图书馆数字资源复杂多样,既有外购数据库、电子刊物等带有系统平台的资源;也有自建的图书、地方志、古籍、学位论文等图像资源;音视频等视听资源;同时还不乏新兴的网页资源等。从资源结构分,既有完全结构化资源也有完全无结构资源,同时还有网页资源等半结构化资源。这无形中必然增加数字图书馆数字资源长期保存系统建设的难度。由于数字图书馆长期保存系统应面向图书馆所有类型的待保存资源,完成资源的长期保存任务,因此,我们在考虑数字对象模型时,应当可以涵盖和支持所有资源类型。基于以上考虑,我们采用复合数字对象模型,将各种类型的信息资源有机组织和结合起来,并完成对相关行为方法和元数据的有效关联和保存,以保证数字对象资源有效的呈现力。

每一个数字对象都应当是图书馆数字馆藏的一部分,数字对象的集合有机构成了图书馆数字馆藏。每一个数字对象构成了一个独立的信息体,它具有相应的元数据、对象数据(包括原始信息和版本变化后信息)、相关技术文件、说明文件、权限信息、许可协议、服务对象、表现形式等信息。它应当具有自包含、自描述、独立性等特性,就像一个容器,可以承载该数字对象的所有信息,同时可以包含或关联其他数字对象。通过该数字对象模型,可以承载表示数字对象内容的数据流;通过结构元数据、资源命名规则控制文件、对象数据存储结构控制等手段,有效体现数字对象的结构信息;基于资源分类和权限信息、许可协议的不同可以建立不同的控制域,定义不同的应用场景;通过数字对象相互之间的关联关系可以有效体现其各种资源对象关系,并实现资源的有效组合和复用。

针对资源模板(如封包架构等)和相关的Schema文件等公用重要文件,应当在系统的公共区和归档对象内部均进行定义,这样不但可以提高可靠性、系统性能,同时每个数字对象可以实现自定义、自解释。当公共区域出现问题时,数字对象利用内部的manifest.xml等文件仍可以完成对已归档对象数据的利用。

以图书馆中文图书资源为例,首先我们将保存颗粒度设为一本单册馆藏中文图书,唯一标识符系统会赋予其一个全馆的唯一标识,同时迁移系统自动分配一个唯一标识给该数字对象。根据传统文献编目的MARK记录;文献数字化加工系统产生的数据标引记录(即:目录信息、摘要及内容简介、图书版权信息、图书插页信息、图书缺页信息、图书结构信息、加工信息等)以及相关说明文件;数字资源组织系统产生的深度标引信息组合形成XML元数据文件,系统自动增加相关验证信息(如校验码等)以保证信息的真实性。目录存放规则以册为单位,存储结构以加工流水号为目录命名规则,对象数据文件为单页图书的TIFF扫描文件。许可协议中可以存放著者或出版单位的授权信息,技术文档中存放相关软硬件环境信息,如加工环境信息(加工设备、加工软件、相关参数等)、保存环境信息、呈现环境信息等。通过数字资源组织系统产生的深度标引信息,可以定义其相关域信息、应用场景信息等,并可将资源对象进行重新组合复用。该数据模型可以通过创建基本资源对象和域管理策略,完成对迁移对象的描述和管理,从而建立复杂的数据关系和依赖关系并实现自我描述。

在长期保存迁移中,需要考虑保存的数字对象绝不仅仅是简单“1”和“0”代码的存储,还需要考虑到文件的长期有效性,即文件经过长期存储后不但要保证保存质量,同时还要考虑在长期保存后资源的使用价值,如保持数字对象的视觉外观形态和总体展现形式等。例如,单册中文图书中单页对象的描述信息,单页对象与章节、封面、插页等文件对象的逻辑组织结构,能否以自然阅读次序恢复该中文图书的自然阅读次序。此外,在恢复自然阅读次序时,需要同时恢复和调用大量的管理数据、保存、描述等方面的元数据。因此,在迁移过程中需要时刻考虑到忠实于原始对象资源的组织关系和历史状态、文件间的逻辑结构关系和语意框架以及所涉及的元数据、对象数据和相关处理程序,并具有良好的质量保证措施。而该数字对象模型,通过具有自包含、自描述、独立性等特性,可以承载该数字对象的所有信息,同时包含或关联其他数字对象,使迁移过程中的复杂数字对象的安全管理成为可能。[2]

4 图书馆数字资源长期保存迁移模型

4.1 迁移策略分析

就目前的实践情况来看,数字迁移主要有三种类型:物理迁移(存储介质迁移)、逻辑迁移(数字资源文件格式迁移)、按需迁移。

(1)存储介质迁移。存储介质的迁移主要是将数字资源从不稳定的介质上转换到更可靠的介质上,以进行数字资源长期保存的一种迁移策略。目前,由于存储介质的质量问题,这种方法是保证存储介质稳定、可靠的一种途径。但是,在进行存储介质转换过程中,有时会导致数字对象存储格式、存储结构信息的变化或丢失,如分布式关系数据库中,各个库表的关联关系等。另外,一些数字信息的存储格式,如光盘的物理存储格式受到光盘数据类型、数据块大小、错误校验码等方面的影响,在数据迁移时,将会导致存储格式的变化,甚至导致数据丢失或不可用。因此,在进行存储介质迁移前,应该对迁移风险进行严格评估,选择最佳的迁移途径。

(2)文件格式迁移。英国DCC(Digital Curation Center)在其《数字保存指南》(Digital Curation Manual)中,专门针对文件格式问题指出:格式是数字对象的基本特征,它在很大程度上决定了数字对象的有效性。没有适当的格式,无法识别数字对象的内容,数字对象就是一组无意义的比特流。文件格式迁移是指当个人或数字保存机构可以明确判断保存数字对象已经过期时,将已保存的资源周期性地迁移为新的格式,以保证资源的有效性。目前针对不同文件格式,已有一些比较成熟的迁移工具,如微软公司的Microsoft Conversion Tools,针对PDF文件的PDF/A Converter,针对图像文件的GIMP等。由于格式迁移工具针对性较强,因此需要不断更新和完善,以保证迁移工具的时效性。

(3)按需迁移。按需迁移指将迁移的实施推迟到用户或保存机构需要存取已过时的文件时进行,且每次迁移都是以原始文件为中心,完成数字对象的迁移。该迁移方式的主导原则是以原始文件为中心,永久地保存原始文件及保存元数据,仅在需要的时候迁移到目标格式。目前LOCKSS(Lots Of Copies Keep Stuff Safe)项目已经采用这种方式开发了一个概念验证POC(Proof Of Concept)系统,用于后期迁移GIF格式到PNG格式,以支持网页内容的存取[3]。

文件格式的迁移有以下优势,如可以降低迁移的复杂度,每次迁移都是基于上一次的迁移结果;保存格式比较单一,同类型数字对象均采用统一的文件格式。但是这种迁移方式的缺点是迁移频度较大,随着保存数字对象格式的不断过期,需要不断对保存对象进行迁移;随着资源量的增加,会使迁移成本和系统负荷增加;且随着迁移次数的增加,迁移风险也不断增加。所以,这种方式的实施目前还需要有效的工具来支持。而按需迁移可以保留原始文件及其元数据;通过减少迁移频度,有效降低迁移负荷和迁移成本;当有迁移需求时,只需在迁移服务中增加新的工具,就可以实现从原始版本到新版本的一步式迁移。但是,其也有缺点,迁移过程复杂,对迁移文件的存取延迟较大。

由此可见,图书馆可以根据迁移需求,综合使用以上三种迁移策略。在数字对象保存的生命周期中,迁移原因各异,如介质过期或损坏可采用存储迁移策略;由于原格式非标,需要向更加标准化的格式转换,可采用按需迁移策略;数字资源保存系统资源摄入前需要对资源进行统一转换,可采用批量格式迁移策略;格式过期,有无法读取的风险等,可采用格式迁移策略或按需迁移策略。就目前看,由于按需迁移尚不成熟,建议对保存级别较高的资源,同时采用文件格式迁移和按需迁移两种方式,既可避免由于迁移过程中失真的多次累加,文献失效,又可避免从原始文件迁移时,无法提供有效的迁移工具,导致迁移失效。这样,一方面能完好地保存文件的原始格式,另一方面可将存取文件的格式不断迁移到最新的格式中去,实现保存和存取的双重目标。

4.2 迁移模型分析

图书馆资源种类丰富,涉及长期保存的资源对象包括:馆藏所有元数据(书目数据、规范数据、分类主题数据、馆藏数据)、馆藏数字化的特色资源数据库、重要的中文网络资源,授权永久保存的中文资源数据库,以及国外重要的工具性数据库等。在建立迁移系统时应充分考虑对不同类型数字资源的兼容性,并结合各图书馆对数字资源长期保存格式的约定,将元数据、对象数据等文件转换为图书馆规定的迁移目标格式。一般迁移目标的选取应考虑以下因素:格式或介质生命周期、是否开放、是否是公开广泛采用的标准、是否易于转换和迁移。目前图书馆的自建资源主要采用图像方式进行存储,大部分图书馆均采用TIFF格式进行存储,因为其有很好的分辨率,其标准又公开,适用于Windows、Linux、MAC等多类操作系统;由于其占用空间大,部分小形图书馆也开始采用PDF/A(Portable Document Format/Archive)格式。因此,只有考虑到以上因素,才能保证资源的长期可访问性。

由于迁移系统集成和开发的成本高、难度大,对系统的性能和时效性要求较高。此外,随着资源量和资源种类的增加其难度和成本也会大幅度增加。因此,建议图书馆可采用联合建设的方式,选取较为大型且有实力的图书馆,建立基于服务的迁移网络模型,由部分馆为全国图书馆提供专业、集中、标准的迁移服务。各保存机构或个人可调用Web service执行迁移服务,本地资源占用量很少,如图2所示。

图2 资源对象迁移模型

该迁移模型是以Web service技术为基础,其主要功能是以分散的计算资源和存储资源为基础,将各种迁移规则、迁移工具进行集中整合。其优点在于可以提供基于Web的专业化、集中化的迁移服务;采用Web迁移方式符合软件设计的代码重用理念,遵循服务共享的原则;采用微服务技术,使系统灵活,随着迁移需求的变化,迁移系统可以弹性增减,理论上它可以支持各种文件格式和媒体类型的转换。该模型的主要组成部分包括:控制服务器、迁移服务器、迁移规则引擎几个部分。

用户提交申请,控制服务器审核通过后,可通过SOAP(Simple Object Access Protocol)向迁移服务器提交待迁移的文件。控制服务器完成对整个迁移系统的跟踪和控制,迁移服务器完成对本地所迁移文件的跟踪与控制。迁移服务器可横向扩展,根据迁移量和资源种类可增加或减少迁移服务器的数量。控制服务器完成任务分配,当客户端提交的迁移需求通过后,将迁移任务分配给当前空闲的迁移服务器,完成迁移工作。迁移规则库中的规则分成两类:系统级迁移规则和使用级迁移规则。系统级迁移规则主要包括迁移服务的自动化管理,如服务的管理、监测、授权、审核、使用统计等。系统级迁移规则引擎安装在控制服务器上。使用级规则引擎在客户端运行,其负责具体的资源对象迁移任务。使用级迁移规则属于工作流类型的规则,它容许客户端请求控制服务器代表用户执行一系列的操作或调用一系列的微服务。系统级规则引擎可提供对提交资源迁移需求的分析能力,判断所属迁移类型,并制定迁移途径。使用级规则引擎应根据迁移类型和迁移路径选择合适的迁移策略和工具。如格式迁移,应完成对格式的分析(如技术元数据抽取、格式类型和版本判断等)、新格式注册、格式迁移、迁移过程质量控制等。可以采用基于WEB的体系架构,客户端与控制服务器之间采用简单对象访问协议(SOAP,Simple Object Access Protocol),以提高系统的传输和数据处理能力。资源对象迁移流程示意,如图3所示。

图3 资源对象迁移流程示意图

在对迁移工作服务器进行设计时,需要考虑诸多方面的内容,如格式转换迁移需对文件格式的多样性有良好的支持能力,仅以图像格式为例,应支持主流的图像格式,如:BMP、DCM、DCX、DIB、FPX、GIF、ICO、JBIG、JPEG、MTV、PDB、PDM、PCD、PCX、PCM、PIX、PNG、PNM、PPM、PSD、RAS、TIFF、XBM等;在对数字对象进行转换过程中需要保证文件的真实性、完整性、表现性等。仅以图像文件为例,我们需要考虑采样方式、无损压缩、色彩空间、元数据、图像大小、存储量等诸多方面。

该模型在实施中需要严格注意以下几点:

资源内容的安全性:如果将数字对象上载到Web远端实施迁移,会存在一定的内容安全风险。如安全性要求很高,可考虑在本地部署迁移服务器。[4]

建立完善的服务注册、发现机制:在Web环境实施迁移,则需要很好地解决Web service异构、动态、互操作等一系列问题。需要服务注册系统、服务发现系统与应用标准的全面支持。

迁移质量的协同控制:对Web service本身的QoS(Quality of Service)和迁移工具QoS的控制。Web service本身的QoS主要包括服务的性能、可靠性、集成能力、服务可获取能力、效用、互操作和安全性等。迁移工具的QoS主要包括格式迁移的内容完整性、参考完整性、功能完整性和迁移效率等。

4.3 迁移工具分析

(1)技术元数据自动提取工具。保存元数据(preservation metadata)记录了用于数字对象长期保存的一系列元数据,其中技术元数据为迁移实施提供了基本的元数据支持,包括技术需求、应用环境、格式信息、版本信息、压缩方式、链接情况等。判断数字对象的格式是否过时的重要依据就是对其技术元数据的解析。在PREMIS(Preservation Metadata:Implementation Strategies)保存元数据中对数字对象实体中的格式元数据定义如下:

格式(format)

格式标记(format Designation)

格式名称(format Name)

格式版本(format Version)

格式注册中心(format Registry)

格式注册中心名称(format Registry Name)

格式注册中心表(format Registry Key)

格式注册中心功能(format Registry Role)

通过对文件技术元数据的解析,格式检测工具可以判断文件的格式是否过时。目前已经开发完成的格式检测工具有DROID(Digital Record Object Identification)、NLNZ Metadata Extractor(简称Metadata Extractor)、Metadata Miner Catalogue PRO(简称Catalogue)、JHOVE(JSTOR/Harvard Object Validation Environment)等。其中,由英国国家档案馆数字资源长期保存小组开发的DROID只能对数字对象的外部特征如格式、签名版本等进行识别,对其内容特征如作者、时间等元数据则无法自动抽取;由SytecResources为新西兰国家图书馆开发的NLNZ Metadata Extractor,能从多种格式中提取元数据,包括TIFF、JPEG、GIF、BMP、WAV、PDF等多种格式,它主要通过一个特定的模块提取元数据,并输出XML格式的文档;由Soft Experience开发的商业软件Metadata Miner Catalogue PRO可自动抽取HTML、CSV、Word、XML格式的元数据信息,并可对自动生成元数据进行修改和补充。

(2)第三方格式登记系统。为了更有利于元数据的重用、有效规范元数据规则、提高元数据质量,可设立单独的格式登记系统来完成长期保存技术元数据的保存,各保存机构可通过远程服务的方式获取某种格式的技术元数据而不需要本地保存。目前比较成熟的元数据登记系统有PRONOM[4]。对于图书馆行业来说,由于长期保存技术元数据具有一定的共性,为了集中管理、节约资金、避免重复建设、标准化管理、数据共享,某些大型图书馆如国家图书馆可以建立集中的全国性或区域性的格式登记系统。

(3)格式迁移工具。目前,根据迁移目标不同,已经有一些比较成熟的迁移工具。在设计迁移系统时,可以考虑结合迁移需求和目标,集成或调用一些成熟的迁移工具,如Adobe公司的PDFbox、Apache公司的Apache Forrest和Sun公司的JIMI软件开发包等。

(4)格式过期检测。格式迁移的一个重要条件是检测格式是否过期,任何一个长期保存迁移系统都必须具备监控系统内数据格式是否过期的能力,都需要格式过时监测系统的支持,能够及时监测本地或异地的文件格式是否过期。目前已有相关的研究成果,如由澳大利亚国家图书馆与APSR(Australian Partnership for Sustainable Repositories)联合开发的AONS II系统(Automated Obsolescence Notification System)[5],该系统是一个基于Java语言开发的、面向数字保存机构的格式过时自动监测系统,其功能是自动获取数字对象的保存元数据信息(XML格式),通过参考PRONOM和LCSDF格式注册系统中的格式注册信息,采用格式识别工具(如DROID和JHOVE)对保存元数据进行分析,以及时地监测数字对象的格式是否过时。

(5)硬件迁移。硬件故障主要包括可见性故障和不可见性故障。可见性故障是指在故障发生前检测到可以忽略的故障,如磁盘或控制器读取错误故障等。不可见性故障是指在故障产生时检测到很重要的故障,如字符写错、字节损坏、扇区读不出和数据格式过时等。需要严格注意的是“双故障”,即当连续发生两个故障时,在最初可恢复前未做处理,此时,数据对象就不可恢复了。目前,各国图书馆都非常重视资源的可靠性,如美国斯坦福大学和哈佛大学开发的长期存储系统可见性故障和潜在故障分析模型。

(6)迁移质量检测。在处理长期保存的内容时,需要认识并理解信息对象,确保信息对象在处理过程中不被破坏。当涉及海量数据时,迁移前后文件的比较和检查就只能依赖于高度自动化的处理,人工检查是不切实际的。目前部分长期保存项目已开发了一些检测工具,如Planets科隆大学工作组开发的可以比较不同格式文件特性的技术。该方法以XML语言的可扩展特征语言(XCL)[6]为基础,通过说明属性值来描述数字对象,并以机器可读的方式描述文件格式的结构和意义。任何可读格式的说明都可以转换成XCL描述,其可以被提取器解析,进而分析这种格式的对象。

5 结语

数字资源长期保存迁移技术涉及诸多方面,除迁移策略选择、迁移实施、迁移途径设计等技术性问题外,还涉及很多非技术性问题,如费用问题、版权问题、安全性问题等。对于图书馆来说,应当结合自身特点,根据资源的特征、保存目标等因素选择合适的迁移方式。在联合建立迁移系统时应在充分考虑对不同类型数字资源兼容性的支持和各图书馆对数字资源长期保存格式约定的基础上,保证迁移对象的完善性。总之,数字资源长期保存迁移技术是涉及国际性多学科的重要领域,为达到长期保存与共享的目的,需要国际、国内各图书馆和情报文献机构的大力合作。

收稿日期:2012-01-09

标签:;  ;  ;  ;  ;  

图书馆数字资源的长期保存与迁移技术分析_图书馆论文
下载Doc文档

猜你喜欢