数字信息资源长期保存技术体系研究,本文主要内容关键词为:信息资源论文,体系论文,数字论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
收修改稿日期:2006-01-24
【分类号】G250.76
1 引言
数字信息资源长期保存技术体系是一个复杂的有机组合体。与其它数字图书馆系统相比,数字保存系统功能复杂,涉及数据摄入、档案存储、数据管理、数据分发、内容管理、数据库系统、元数据管理、搜索引擎、分布式文件系统、唯一标识系统、存储系统、存储管理系统、媒体检测(监测)系统、认证授权系统、安全机制、统计管理等多个领域,覆盖多方面技术,构成一个复杂的技术体系。
OAIS参考模型虽然从总体上对数字保存系统进行了考虑,并提供了一个概念框架,但正如NEDLIB的Jeff Rothenberg所指出的,OAIS是参考的概念模型而不是系统设计模型[1],在具体的实现过程中,还需要进一步对OAIS的功能模型和信息模型进行修正和实例化。
尽管目前已经有了一些支持OAIS的数字保存系统,但这些系统从各自的需求出发通过不同的实现方式,对OAIS模型进行了不同的诠释,形成了各具特色的保存系统,这些系统本身的保存功能是否完整,是否全面反映了OAIS模型的特性,也还有待商榷。
本文对目前与数字保存技术相关的研究成果进行了总结和分析[2],对若干具体数字保存系统进行了详细解析[3],在此基础之上,还对现有的技术体系进行了初步梳理和归纳,并对涉及的关键技术进行了简单的论述,希望为进一步开展数字资源保存研究提供参考。
2 现有的主要数字保存技术体系
目前,大多数研究项目都从不同侧面、不同角度来研究数字保存,但也有少数项目能够站在一个较高的层次对数字保存的技术体系进行总体研究和实践。
2.1 Kenneth Thibodeau的二维坐标模型
Kenneth Thibodeau博士是美国国家档案和记录管理机构NARA(National Archives and Records Administration)电子记录存档(Electronic Records Archives,ERA)项目的负责人。2002年,他在一篇对数字保存技术进行评价的文章[4] 中,提出了数字保存技术的二维坐标模型,如图1所示。
在这一模型中,Thibodeau将目前主要的数字保存技术按照其适用性和其保存目标将其映射在一个二维坐标之中。二维坐标中的纵坐标代表适用性,从下到上代表从特定范围到通用范围;横坐标代表保存目标,Thibodeau认为,保存目标有保存特定的技术和保存相应的对象两种,横坐标的左侧表示以保存相关技术为主,越往右则表示相应的技术更加趋向保存相应的数字对象。在图1中,我们可以看到一些常见的保存技术方法,关于这些技术的具体含义可参考原文。
二维坐标模型是将多种保存技术映射到一个体系中。Thibodeau还从系统设计的角度提出了NARA的电子记录存档(ERA)系统模型[5],如图2所示。
在ERA的系统模型中,Thibodeau提出了一个由摄入工作台(Accessioning Workbench)、仓储(Repository)、查询工作台(Reference Workbench)以及记录生命周期管理(Records Lifecycle Management)、工作流管理(Workflow Management)五大部件组成的电子记录存档(ERA)系统。可以看出,ERA的系统模型是OAIS中的Archival Storage的实例化体现,同时它提出了仓储(Repository)概念。
2.2 Priscilla Caplan的金字塔模型
Priscilla Caplan是佛罗里达图书馆自动化中心(Florida Centre for Library Automation,FCLA)数字图书馆服务的副主任。她领导着DAITSS(Dark Archive In The Sunshine State)系统的开发。
Priscilla Caplan认为,数字保存技术体系是一个由数字保存目标和相应的技术构成的金字塔[6],如图3所示。从下到上、从较低要求到较高要求,数字保存的目标分别是可获得性(Availability)、可识别性(Identity)、可理解性(Understandability)、完整性(Integrity)、持久生存能力(Viability)、可呈现能力(Renderability)和被保存对象的真实性(Authenticity)。与此相对应,进行数字保存的技术分别是选择获取技术、描述、文档记录、安全存储、媒体管理、格式技术策略、真实还原技术。也就是说,对数字资源的长期保存而言,其最终目标应该是能够证明当前存档的数字资源已经真实地还原了原始数字资源,而在这个真实的还原过程中,需要涉及到与数字资源的获取、描述、唯一标识、文档理解、安全存储、存储媒体持久有效、格式呈现等等相关的技术。
2.3 典型数字资源长期保存系统中的技术体系
除了以上两个比较通用的技术体系之外,笔者还对对OAIS支持得较好、较有特色的6个系统进行了分析总结,详见文献[3]。
(1)CEDARS的分布式数字档案原型系统是一个“联邦的”数字档案解决方案,它实现了包括协作、互联和分布式档案存储的体系架构,提出了一个基于OAIS功能模型的包括选择、摄取预处理、摄取、存档、访问在内的处理流程。提出了底层抽象数据、关键属性、识别符、呈现信息(RI)和呈现网络(Representation Networks)等重要概念。
(2)NEDLIB研发的电子出版物保存原型系统DSEP,以OAIS为参照,提供了基于图书馆自动化系统和编目系统的电子出版物保存系统功能,关注电子出版物的特点以及与电子出版物长期保存相关的技术标准,支持基于仿真的长期保存的过程模型,长期保存的元数据以及这些元数据如何与OAIS的信息模型相关联,并进行了仿真技术研究。
(3)e-Depot系统是由荷兰国家图书馆与IBM联合开发的一个完全自动化的、专注于长期存储和大规模存档的自动化系统。通过内容管理功能实现多种数字类型的存储管理和分布,通过已有目录系统的配合进行检索和访问。提出了UVC的概念和管理媒体移植的方法等。
(4)Cornell大学的CDS系统通过一个集中的控制中心对Cornell的数字信息进行保存,提供一个综合有效的解决框架对数字信息进行管理,并开发系统模块以实现对当前分散存在的数字信息的集成。该项目初期主要建设一个集中的数字图像保存仓储,进而开发一个能够容纳各种格式数据的通用保存仓储系统。
(5)FCLA的DAITSS系统实现了OAIS的基本功能,如摄入、数字管理、分发、格式规范、大规划格式迁移以及按需迁移等。目标是作为其它系统如数字图书馆系统和机构仓储系统的后台系统,因此,不提供公共接口,也不支持公众的直接访问,但它可以与其它访问系统结合起来提供检索功能。
(6)加利福尼亚大学数字保存仓储系统在基于公认的标准之上,提供了数字保存仓储的最基本功能:对数字对象及其元数据进行摄取、持久存储、管理和内容控制存取。提出了存储服务网格的概念,利用了开源系统Storage Resource Broker(SRB)。
3 数字信息资源长期保存技术体系
在参考了OAIS,借鉴了国外主要保存系统的技术框架和相关技术体系之后,笔者从系统构成的角度,对一般数字保存系统中需要涉及的技术进行了分析,希望提出一个长期保存技术体系。
3.1 技术体系结构图
该体系结构见图4。可以看到,数字保存技术分属于保存管理、摄入、仓储、存储管理和访问5个功能块,下面对5个功能块所涉及的主要技术作一详细叙述。
3.2 与保存管理相关的主要技术
该部分主要涉及保存技术策略选择、保存规划管理、保存工作流管理、保存媒体迁移等方面的相关技术。
(1)保存技术策略选择
保存技术策略选择探讨的是选择什么样的内容进行保存,采用什么方式进行保存等问题。在选择什么样的内容进行保存方面,有选择比特流、文件、知识实体、服务、技术进行保存等多种方式。在采用什么方式进行保存的问题上,除了目前大家熟知的迁移和仿真之外,在数字保存系统的具体实现中,主要有按需迁移(Migration on Request)[7]、通用虚拟计算机(UVC)[8]、风干(Dessication)[9]、底层抽象格式(UAF)[10] 等多种技术方式。
(2)保存规划管理
主要指在保存系统中对保存数字对象的完整性、一致性进行监测,确定在何时、采用何种方案对特定(类型)的数字对象、仓储系统和存储系统进行更新和“升级”。与保存规划管理相关的技术主要有对象/仓储/媒体监测、日志分析、保存规划、保存效果评价等。目前,在这方面的技术研究还比较分散,尤其是在保存规划、评价等方面,还没有形成统一的标准,只是一些具体的保存系统在开展特定的规划管理工作。
(3)保存工作流管理
工作流管理是一种加强数字保存系统的事务逻辑处理能力的有效方法。一个支持基于事务的工作流触发机制的、具有明确的角色定义和权限管理的数字保存系统,对于提高系统的灵活性和流程的科学性、加强系统的安全性都有着重要作用。在保存工作流方面,比较突出的是MIT与HP为Dspace系统设计的基于事件触发的工作流管理。
(4)保存媒体迁移
大规模保存媒体迁移是保存系统中管理媒体移植的技术和方法。由于对大规模保存系统的翻新/移植会带来一些通常翻新/移植所不会碰到的问题,例如,将一个100TB存储于磁带上的信息移植到光存储媒体上,完成移植一般需要290多天的时间。因此,e-Depot项目针对大规模保存媒体迁移提出了转换(Conversion)、分布(Distribution)、迁移(Migration)和翻新(Refresh)几个层次的解决方案[11],并且还提出通过冗余和并行处理,改善媒体移植管理。
3.3 与摄入相关的主要技术
与摄入功能块相关的主要技术是指在数字对象摄入之前和摄入过程中对数字对象进行规范处理的各种技术。我们认为,与摄入相关的主要技术有格式标准、格式迁移、格式规范和格式注册技术,信息封装技术,安全检测技术,完整性校验技术和数据功能校验技术。
(1)与格式相关的技术
格式标准、格式迁移、格式规范和格式注册都是保存技术策略的具体实施和实现。来自生产者的数字资源不仅类型不同而且格式多样,但并不是所有的数据格式都适合数字资源的长期保存。选择长期保存技术标准是一个非常重要的问题,应尽可能选择那些简单有效、便于解析、具有长久可读性的技术标准。对不符合长期保存要求的数字对象,需要进行格式迁移,尽可能地向那些开放描述或被普遍接受的格式迁移。比如,FDA数字存档项目推荐的文件保存格式。格式注册是另一种保证格式永久可解析的技术方法。通过格式注册系统记录文件格式的描述信息、软硬件要求和工具等,可保证数字资源在将来具有还原性和持久有效地得到解析。也就是说,即便是在技术退化、甚至软硬件工具也消亡的环境下,通过原有的文件格式描述文件也能够获取文件格式的解析方法复原数字资源。目前,在格式注册方面的研究主要包括PRONOM、GDFR等全球格式注册系统。
(2)信息封装技术
信息封装技术是指对信息资源进行存储、传输、分发之前所进行的数据封装、压缩、分组编码等技术。在长期保存系统中,使用的信息封装技术方法主要有METS、FOXML和ARC等。
(3)安全检测技术
安全检测技术是指对提交信息包进行病毒扫描、清除特洛伊木马、恶意代码和间谍程序等技术。
(4)完整性校验技术
完整性校验技术是指对数据的完整性和一致性、媒介的可读写性检查、资源描述检查、资源结构和格式检查等技术,其中,最主要的就是信息传送前后的数据完整一致性校验。目前,普遍采用的技术就是对信息进行加密的方法,常用的算法有MD5和SHA-1等。近来也有将数字水印应用于完整性的校验。
(5)数据功能校验技术
数据功能校验主要是针对特定内容数据进行功能性验证的过程。例如,需对一个MARC记录、XML文件或某一特定版本的PDF文件的有效性、完整性、可读性进行校验。数据功能校验需要开发一组与特定数据类型相关的校验工具,并且在数据功能性校验的基础上,还应该针对长期保存的需要形成数字资源的技术性元数据,以便在将来能够永久解析存档的数字资源。目前,研究比较深入的主要是JISC资助的JHOVE文件校验系统。
3.4 与仓储相关的主要技术
有人认为,仓储是一系列具有以下特征的服务:
(1)内容对象是通过内容创建者、所有权者,或是代表两者利益的第三方存贮到仓储之中;
(2)仓储的体系结构不但可以管理内容对象,还必须能够管理元数据;
(3)仓储至少能提供诸如放入、取出、查询、访问等基础服务;
(4)仓储必须是稳定的、可信赖的,并且是具有较好支持、得到良好管理的[12]。
与仓储功能块相关的主要技术是在数字对象摄入之后,如何对数字对象及其元数据进行管理的技术。主要包括信息模型的构建、保存元数据体系、保存标识体系、内容管理、元数据管理、索引等方面的技术方法。
(1)信息模型的构建技术
信息模型揭示数字保存仓储中复杂的信息关系,直接影响着在数字保存系统中选择什么作为存储对象,哪些信息是数字对象本身,哪些信息是数字对象进行描述的信息,这些信息都如何对数字对象进行描述和说明。信息模型在数字资源长期保存活动中占据着非常重要的地位。在各个具体保存系统的实施过程中,在OAIS参考模型的基础上已经提出了不少实例化的信息模型,比如,NEDLIB在DESP系统中对OAIS的5层信息模型的深化和扩充,DIAS提出的保存层次模型(PLM)等。
(2)元数据保存技术
保存元数据是一个仓储系统中对数字保存过程进行支持的信息,具体而言,是在保存仓储系统中维护数字资源可生存能力、可呈现能力、可理解能力以及真实性、同一性的信息。到目前为止,已经提出了不少元数据体系,如CEDARS的保存元数据框架、Nedlib的核心保存元数据集、NLA的数字馆藏保存元数据、PREMIS的保存元数据体系。其中,PREMIS保存元数据是目前长期保存界公认的保存元数据标准。
(3)保存标识体系
保存标识体系(唯一标识符)通过命名标准与解析服务器实现了数字资源的全球唯一准确定位,随着应用的扩展,保存标识体系应该能够支持异构资源命名、命名扩展、分布式管理、分布式服务、安全有效、国际化。目前,在数字保存系统中,主要的保存标识系统有Handle System[13]、DOI、URI/URL/URN/、PURL[14]、ARK[15]等。
(4)内容管理
内容管理是内容数据(被保存对象)的存储和管理,对于数字保存而言,主要是指在各种存储体系之上如何实现分布式的大容量大规模数字资源的安全存储和更新。内容管理需要支持任意数字内容的存储和管理,包括文本、图像、音频、视频。支持诸如文章、预印本、工作论文、技术报告、会议论文、图书、学位论文、数据集、计算机程序、可视化仿真环境和模型等的数字文件类型。
(5)元数据管理
元数据管理除了对保存元数据进行存储和管理之外,还包括对描述元数据、技术元数据和管理元数据的存储和管理。
(6)索引技术
索引的目标是对元数据和数据内容进行索引,加速数据的检索过程,提高资源的访问速度和资源的使用效率。尤其是不同类型的数字资源创建索引文件,目前,数据内容的索引主要集中在文本数据,比如txt、doc、pdf等格式文件,还有一些图像文件,比如JPEG也能实现全文索引。
3.5 与存储相关的主要技术
与存储功能块相关的主要技术是指构建大规模安全存储体系,对存储对象进行备份和恢复的技术。它包括我们常见的磁带存储、光盘存储、磁盘阵列存储,也包括各种类型的分布式文件系统、基于NAS或SAN模式的网络存储和基于网格的存储体系,同时也包括相应的备份和恢复系统。
尤其是以NAS或SAN等为基础的高性能集群存储模式,以其良好的扩展性和强大的功能性满足了用户对存储的需求。目前,一种基于对象的存储技术正作为构建大规模存储系统的基础而悄然兴起。它利用现有的处理技术、网络技术和存储组件,可以通过一种简单便利的方式来获得前所未有的可扩展性和高吞吐量。这种体系结构的核心是对象,它是一个可容纳应用数据和具有可扩展的存储属性的基本容器。传统的文件被分解为一系列存储对象,并分发到一个或多个“智能磁盘”上,这种磁盘被称为基于对象的存储设备(Object-based Storage Devices,OSD)。每一个OSD都具备本地处理、用于数据和属性缓存的本地内存和本地网络连接功能。OSD构成了分布式存储结构的核心,它将许多传统的存储分配行为从文件系统层转移,从而解决了当前存储系统的一个瓶颈问题。
基于网格的存储体系是目前数字保存研究的重点。特别是SDSC研制开发的存储资源代理(Storage Resource Broker,SRB)[16] 在数字保存的存储体系建设中有着非常重要的地位。SRB为用户提供了一个访问文件系统、档案系统、数据库系统等多种异构存储系统的统一接口,屏蔽了存储系统的异构特性。它支持广域网络环境下多种数据源的访问,具有复制、复制数据的访问、文件的汇集、分布文件的逻辑集合等功能,还提供了一种用于实现数据网格,数据共享、发布和保存的持久稳固存档的抽象机制。SRB已经被多个数字保存系统进行了集成,例如,加利福尼亚大学数字保存仓储在底层存储设计上采用了SRB软件,以构建可扩展的、分布式的仓储体系。
3.6 与访问相关的主要技术
与访问功能块相关的主要技术是指使仓储的数字对象能够被安全方便地访问的技术,主要包括检索浏览技术、基于保存标识的定位技术、认证和授权技术、与第三方的互操作技术。
(1)检索浏览技术
检索和浏览是常见的访问方式。检索浏览技术通过索引、检索引擎和知识体系能够方便地帮助查找和发现仓储中被保存的相关数字对象。目前,在检索方面应用较广的技术主要是Lucene搜索引擎技术。
(2)基于保存标识的定位技术
正如前面所言,保存标识体系(唯一标识符)通过命名标准与解析服务器实现了数字资源的全球唯一准确定位。基于保存标识的定位系统能够通过这一永久性的、唯一的标识符,实现对保存对象的访问。实际上也是对保存标识体系的外部链接。
(3)认证和授权技术
认证和授权技术确保被保存数字对象安全合法地得以存取。在认证方面,简单认证只需对用户的名字和口令进行验证,通常使用安全套接层协议(Secure Socket Layer,SSL)或一次性口令机制(One-Time Password,OTP);强认证机制与密钥分发相结合,运用多种加密手段来保护认证过程中相互交换的信息。在授权机制上,单点登录(Single Sign-on,SSO)是研究的重点。目前的很多数字保存系统都采用了基于Shibboleth[17] 的认证和授权技术。
(4)互操作技术
与第三方的互操作技术主要是确保数字保存系统是一个开放的系统,能够通过开放协议与第三方系统进行集成和整合。在目前的主要数字保存系统之中,通常支持开放协议的主要有OAI、RSS和OpenURL等。
4 结语
由于数字信息资源长期保存技术体系的复杂性和动态变换的特点,因此,很难建立一个完整的规范的技术体系,但是确实有必要把现有的技术空间进行适当的梳理、归纳、提出一个可供参考的技术体系。笔者希望通过本文能够粗浅地回答什么是数字保存技术,数字保存都涉及哪些主要技术,这些技术是如何有机组合构成一个数字保存系统等等之类的问题。但是,文章所提出的技术体系可能还存在一定的问题:
(1)由于笔者本身对于数字资源长期保存及相关技术的理解,保存技术体系的提出可能会存在一定的局限性;
(2)在目前的保存研究中还有一些方面并没有被涉及,随着研究的深入和扩展,会有新的技术产生或引入;
(3)保存需求和保存技术处于动态变换中,技术体系也将随之不断调整变化;
(4)在实践中,应根据实际需要对保存体系进行适当的裁减或增添。
在未来的研究工作中,笔者将继续跟踪相关项目的发展,深入研究相关的技术,同时也希望更多的国内同行能够关注数字保存技术体系这一问题,提出更多有益的见解。