美国数字资源保存国家工程项目实践及特点,本文主要内容关键词为:美国论文,工程项目论文,数字论文,国家论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来,有关数字资源长期保存问题的研究越来越受到国内外的重视。国外大大小小的数字保存项目很多,类型也各不相同。有些是针对技术标准规范,有些是针对策略和方法,有些是针对元数据,有些是针对存储体系等①,但大多都处于科研阶段,大范围的实践活动尚未展开。2008年,美国国会图书馆启动4项全国性的数字资源保存工程项目②,这些项目历时4~5年,参与的州达到36个,后期工作仍在进行之中,它们将为美国数字资源保存的全面铺开积累经验和教训。学习他们在数字资源长期保存实践中取得的技术及管理方面的经验及其开展的可持续发展的研究,对我国数字资源的长期保存有着积极的借鉴意义和参考价值。 1 概述 美国国会图书馆启动的4个项目是A Model Technological and Social Architecture for the Preservation of State Government Digital Information(MTSA)③(政府数字信息保存技术和社会结构模型)、Multi-State Preservation Partnership(MSPP)④(多州保存合作计划)、Persistent Digital Archives and Library System(PeDALS)⑤(持久的数字档案馆与图书馆系统)、Geospatial Multistate Archive and Preservation Partnership(GeoMAPP)⑥(跨州地理空间资源归档保存合作项目),其中MTSA还包括一个子项目Kansas Enterprise Electronic Preservation(KEEP)(堪萨斯企业电子保存项目)。参与的36个州中每个州至少参加了一个项目,总参与机构达170多个,参加人员达到1000多人。其基本情况见表1。 从表1中可以看出,每个项目都各有侧重点。其中较复杂的是MTSA和GeoMAPP,GeoMAPP是在特定地理空间领域的数字资源保存项目。参与机构多是政府、图书、档案机构。但MTSA和KEEP在技术上的要求更高,有私营机构参与。MTSA有4个私营机构参与,Thomson Reuters(汤森路透)负责开发元数据及解决立法资源迁移到知识库的数据封装问题,Syntactica负责开发一个建立在原生XML数据库基础上的立法资源管理系统,Tessella负责探索和测试图书馆和档案馆使用文件锁(SDB)功能的可能性,Sunlight Labs开发导航系统将立法资源与其他相关内容进行集成。参与KEEP项目的公司有3家,Imerge Consulting负责商务优化和企业内容管理,Propylon为KEEP量身制作相关立法软件,Alexander Open Systems负责广域网和无线网络、通信和协作、数据安全。 2 项目进展和主要特点 2.1 基本过程和主要风险 虽然每个项目都有各自的内容及侧重点,但基本都是以下几个过程:数据摄取、归档、保存、访问。项目之间由于复杂程度差异其过程各不相同,如GeoMAPP的进程相对比较复杂,该项目首先对所有参与州的地理资源存量数据进行摸底盘存,摸清每个州的资源范围及数量、当前格式、具体细节等,创建总目录清单,然后创建评估和决策模型,对数据的法律、历史价值等进行评估,选取有价值的资源进行长期保存,接着统一数据的文档结构(数据是怎样组织的)、文件格式、命名规则和元数据等,接下来进行难度最大的数据迁移,最终数据归档进入保存系统并提供访问。而MSPP则基本没有数据盘存、统一格式等过程,因为其数据的完备性较好。 数字资源保存是一项长期而复杂的工作,其间会遇到各种各样的困难和风险,所以要采取合适的策略进行应对(见表2)。在项目过程中,很多州经历了巨变诸如预算的减少、人员的变动、机构的调整甚至是州政府的关门(明尼苏达),但由于坚持不懈,这些州并没有中断项目,还是达到了预期的目的。 2.2 数据迁移及储存是最关键的环节 数字资源保存并不是简单的文件拷贝,它包括一系列的保证数据各种要素的迁移、封装、长期保存和利用的相关程序。一个相关数据可能包括一套复杂的、相互联系的文件、相关元数据及辅助文件,所有这些文件需要以一定的方式进行整理、转换以便不同的软件处理及让数据交易、管理等相关人员能够理解。 GeoMAPP项目的数据迁移最具有参考价值。由于地理数据类型多种多样,且多是图像资源,影像数据由于比例及分辨率的存在,具有复杂性,稍详细的未压缩图像文件便可达到几百GB,为了便于迁移,地理数字航空影像一般采取“平铺”或分成“小块”的方式进行管理。矢量数据虽然小得多,但数据集的捕获信息如数据包的描述存储信息较大,几个GB的文件一般都有几百兆的描述信息。对于容量较小的矢量数据包,采用网络传输的方式,而对于全系统和影像文件,采用移动存储设备进行数据迁移。所有数据通过一个临时的FTP站点供用户获取。 实际操作时,先进行试点即进行样本数据的迁移,如肯塔基州准备了15000个文件约128G作为样本,包括压缩与非压缩文件。总的来说,大约花了15个小时来打包这些数据,而未压缩的影像文件就占了约14小时,将打包后的数据复制到硬件的时间花了4小时,将余下数据上传到FTP服务器用时少于15分钟,这些经验为数据的大批量迁移提供了参考。其具体迁移过程如图1。 图1 肯塔基州数据迁移过程 当数据被传输到归档系统时,归档系统收到各州提交的文件后还要执行一定的工作流,才将数据进行保存并提供访问。GeoMAPP已建立比较成熟的工作流来完成这些工作,其详细工作流程如图2。 图2 数据归档保存流程 2.3 数据储存要求和采用的相关工具及软件 各项目存储系统的架构都是基于OAIS模型,具有很好的开放性。其中的数据必须达到以下要求:(1)真实性。数据可以通过评估身份和记录的完整性进行验证。在任何时候都能确定一条数据是什么,明确它的创建时间,创建者是谁,创建模式等情况。(2)可靠性。数据的信度高,是事实的记录。这依赖于数据创建者提交可信的数据。(3)位级完整性。位级储存可确保提交的数据不发生任何改变,即每一位(bit)都维持原状,在许多年以后依然能将文件复原出来。(4)安全性。数据未经授权,不得访问。(5)易用性。无论现在和将来,数据的迁移、传输、访问等是容易的,不会随着软硬件的更改而产生改变。 要达到这些数据要求,必须使用一些软件和工具对数据进行处理,从表3可以看出,有一些软件是数据处理软件,主要用于传输、摄取和访问这3种进程时对数据的处理。如Archive This!、Web Indexing Portal、E-Pubs Portal是传递软件,用于转换数据格式,确定元数据及相关文件,传递文件到硬盘或远程FTP,获取数字指纹以验证真实性,确保文件按数字档案目录结构复制和上载等功能;AutoTODD等是摄取软件,其功能是监视输入的数据,处理新输入数据的备份数据到远程存储区域,在整个摄取过程中跟踪输入数据及其状态。除此之外,项目还使用了其他功能的软件,如Lucence用于搜索,Fedora Commons为模块架构提供支持,Baglt专用于数据打包、封装,ClamAV执行病毒查杀功能,Heritrix、WAS负责网络抓取等。这些工具大多是开源软件,但也有付费软件,如SDB。这些软件及工具保证了数字资源长期保存系统的顺利进行。 2.4 大力推广和宣传,引起足够重视和广泛关注 4个项目有一个共同的特点,即除了技术上的工作,项目组的一个重要工作是推广和分享项目组的发现成果及经验。各项目组都建立了专门的推广团队,并有售后服务团体,解决各种各样的问题,促使政府机构、工业部门、图书档案系统、IT团体等提高对资源长期保存的认识,指导工作人员管理数据,指导企业处理有关数据应用的产品等。另外,各项目组还起草了行业推广白皮书,同时建立网站、项目LOGO、项目手册、项目声像资料等对外推广。项目手册主要在全国性的活动中被分发,同时也送到国家和州决策者如立法委员的手中。除此以外,项目组还参与全国性的组织,如GeoMAPP参与国家地理信息委员会、美国档案协会、政府档案和文件管理协会、开放地理空间联盟(OGC)、ESRI、图像科学和技术协会等,PeDALS联系美国博物馆协会、国家档案局、美国档案协会等,在这些组织举行的活动中推广项目,展示成果。这些都取得了积极的反馈,对于项目的商业计划和后期发展都是非常有利的。 2.5 可持续发展是所有项目共同的任务 虽然数字资源保存项目有巨大的意义和重大的作用,但在众多需要投入的政治、经济、教育等活动中,它并不占有投资优势,不易获得资金支持。据GeoMAPP项目组的测算⑦,项目的投入包括存储费用(含保存、获取、分级储存等)、人员费用(含GIS人员、归档人员、IT人员、咨询人员,年薪金增长率为3%)、软硬件费用、维护和发展费用(系统更新、数据迁移等),且这些费用每年都在增长之中。所以随着时间的推移,项目资金来源是一个重要问题。 为了项目的可持续发展,各个项目都在寻求可持续的资金来源和相应模式。PeDALS正在探索一条可持续发展的道路,即研究协作型分布式网络的管理和经济模式,用于形成联盟以维持网络发展。MSPP的下一步计划是通过寻找额外的合作伙伴提供知识和资源用于建立一个能自主可持续发展的联盟,项目也在探索各种资金来源。GeoMAPP制定了正式的商业计划文件⑧,并发布了商业计划工具包⑨,鉴定和量化数据内容,对数据价值给出量化指标,供用户付费使用。如某肝癌项目组需要了解某地多年的水文、环境、地理资料,则可通过系统付费获取。资金来源最好的是KEEP项目,KEEP系统建立在堪萨斯州政府档案保存法的基础上,具有法律效力,它本身就被设计为收费形式,开发有银行支付模块。目前KEEP的资金来源主要是一些IT项目的保证金和认证费。 2.6 项目后期工作 4个项目的后期工作依然在进行之中。除了商业计划之外,PeDALS正在建立一个包含广泛知识库和低成本、没有技术障碍的共享实践网络社区,以便那些没有实施这个项目的州能分享他们的成果。GeoMAPP后期还将开发地理空间资源长期保存项目相关的专利产品,研发大批量数据传输方法,对复杂数据如多媒体的表达等进行获取和保存,同时,由于三维信息的保存和集成是一个难题,所以工作小组正致力于研究3D信息的相关编码和接口技术。GeoMAPP的最大困难是机构和地区之间大量复杂数据的可靠传输遇到了重大技术挑战,2012年,项目组联合OGC启动Phase-8(OWS-8)实验台,目前已经发展到OWS-10⑩。这是大容量数据互操作的实验平台,着重研究地理空间数据的共享和同步化,使用一种称为“地理数据批量传输”(11)的方法对数据交换进行测试,更远一步来说,还将研究并形成地理数据同步传输标准,以协助完成数据交换。 3 对我们的启示 通过4个项目的实践,可以得到如下启示:(1)建立多样性的模式和方法。资源长期保存工作非常复杂并且是多方面的,没有单一的模式和方法能在全国和所有国家成功实施,应根据自身的条件和环境来进行规划、调动资源。(2)建立跨职能的团队,为专业团体之间建立桥梁,促进合作。合作可促进数据生产者、管理者、图书情报人员频繁的联系,使他们熟悉专业术语及工作流,分享数据管理过程中的经验。高水平的合作有助于避免重复工作和提高实施水平,提供最佳实践和标准。(3)对特定的内容和领域资源进行保存。资源长期保存必须集中于特定的领域,每个领域都有其独特的特点、需求、行为模式、技术依赖、行业规则和标准等,每个领域的保存都有符合自身特点的一套核心功能如完整性检测、储存内容的复制、永久标识符的分配等。(4)采用可分解和模块化的方法。当要解决大量复杂的系统问题时,模块化是最有效的方法。模块化可以限制子系统的相互依赖性,可以使设计在遇到环境的变化时更加强大,同时也支持系统的演变、革新和可持续发展,模块也可以让供应商和消费者“混搭”组件来满足他们的特殊需要,支持系统进化、创新与可持续发展。(5)先试点,再分阶段实施。如数据大规模迁移之前先利用少量的数据来试验、验证,以积累经验,少走弯路。 事实上,项目还取得了其他大量经验,如召开了数百次不同级别的会议,项目过程也伴随着大量的评估包括项目之间、州际之间工作的评估、标杆分析、合作情况、资源共享、可持续发展等方面的比较分析,这些对项目的顺利进行提供了极大的支撑作用,在此不一一赘述。 注释: ①张智雄等.基于OAIS的主要数字保存系统研究[J].现代图书情报技术,2005(11):1-9,13. ②States of Sustainability[EB/OL].[2013-08-11].http://www.digitalpreservation.gov/multimedia/documents/ndiipp-states-report032612_final.pdf. ③MTSA[EB/OL].[2013-09-12].http://www.digitalpreservation.gov//partners/states_mn.html. ④PeDALS[EB/OL].[2013-09-25].http://www.digitalpreservation.gov/partners/states_az.html. ⑤MSPP[EB/OL].[2013-10-21].http://www.digitalpreservation.gov//multimedia/documents/wa_finalreport05082012.pdf. ⑥GeoMAPP[EB/OL].[2013-11-11].http://www.geomapp.net/. ⑦Geoarchiving_Cost-Benefit_Analysis_Tool[EB/OL].[2013-12-20].http://www.Geomapp.net/docs/04_Geoarchiving_Cost-Benefit_Analysis_Tool_20111231.xlsx. ⑧Business Planning Guidebook[EB/OL].[2013-12-11].http://www.geomapp.net/docs/02_Geoarchiving_Business_Planning_Guidebook_20111231.pdf. ⑨Complete Business Planning Toolkit[EB/OL].[2014-01-13].http://www.geomapp.net/docs/00_Geoarchiving_Business_Toolkit_20111231.zip. ⑩OWS-10[EB/OL].[2013-11-20].http://www.opengeospatial.org/resource/demos. (11)OGC Public Engineering Reports[EB/OL].[2013-09-27].http://www.opengeospatial.org/standards/per.美国国家数字资源保护工程项目的实践与特点_地理论文
美国国家数字资源保护工程项目的实践与特点_地理论文
下载Doc文档