2010国际数字对象保存会议(iPRES2010)综述,本文主要内容关键词为:对象论文,会议论文,数字论文,国际论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
2010年9月19日至24日,在奥地利首都维也纳成功举办了每年一次的iPRES国际系列会议。本次iPRES会议(第7届)由奥地利国家图书馆、维也纳技术大学和奥地利计算机学会(OCG)联合主办,围绕“绿色数字保存”的主题,来自世界各地的与会专家对数字遗产保护方面的最新趋势、革新和实践等内容进行了深入的研究和讨论。作为一个盛大的合作交流平台,本次会议提供了众多工作会议、专题报告、培训和展览活动,显示了更为广泛的兴趣,同时更为关注未来的前瞻性事件。
1 元数据和对象属性
从元数据和对象属性理论和实践两个方面,探讨了数字保存过程中数字对象属性之间的关系,介绍了基于网站档案信息包的METS项目和基于PREMIS的文档信息包传输研究项目ARTAT的进展。在案例研究方面,重点介绍了一项用于长期数据保存的“探路者”欧空局计划(ESA Plans),研究了在图书馆环境下的数字图书保存问题,以及电子邮件信息保存项目中遇到的挑战和解决方法。
英国国家图书馆的Angela Dappert认为,数字对象的属性在数字资源保存中起到了核心作用,所有的关键保存服务可以通过对描述知识库服务(a repository's care)的数字对象属性达成的共识而联系起来。探讨了数字保存过程中数字对象属性之间的关系,为了克服可能的偏差需要定义其关系。这项分析是基于属性的性质案例研究过程中获得的观测结果,可以在不同机构的保护规定和Planets保存服务使用规定中获得这些属性。分析了保存计划和保存服务,并对如何获得其属性值进行了分类。每个类别用一种特定的功能或关系方法确定属性值,并用实际例子说明了这些类别。提出了一种如何获得属性的分类,讨论了它们哪一个能够用来解决属性冲突。这项研究工作影响了实践者、研究人员和工具开发者。
大英图书馆的Markus Enders介绍了大英图书馆网站信息归档保存方案。像图书馆其他内容流一样,WEB数据应该纳入到图书馆中心保存知识库中,但必须采用一致的标准化格式和由METS描述的信息包(AIP)。方法是利用PREMIS或MODS的通用元数据标准将网站数据嵌入METS描述符中。其中METS是确保数据真实性的关键配置文件。另外新建一个抽象数据层确保保存的长期性和数据的可迁移性。其证明采取开放保存政策和原则将有助于WEB归档。
意大利佛罗伦萨的文艺复兴基金会的Iorio A D等人介绍了基于PREMIS的文档信息包(AIP)传输研究项目ARTAT的进展。通过元数据层可实现不同保存系统之间的数据交换。关键的方法是基于PREMIS建立一种共同的语言来克服不同系统之间的差异。对于多数基于OAIS参考模型的存储系统一般都会提供元数据容器,而通过保留元数据层(PML)的建立可实现本地与外部AIPs的信息交换。其描述了PML的结构、原型系统的功能模块和基于PREMIS的通用语义转换方法。
意大利弗拉斯卡蒂欧空局欧洲航天研究所的Beruti V等人认为数字长期保存存在技术、组织机构、资金和环境等方面的困难。地球观察数据(EO)的保存问题也同样面临诸多难关,例如:目前多数存档和保存策略仍主要局限于卫星的运行期产生的数据;数据量的急剧增加;归档和数据访问技术的迅速发展;EO数据存档策略因不同的任务、不同运营商或机构而有所差别。其描述了欧空局采取的长期保存策略并提出一种“探路者(pathfinder)”方案试图解决上述困难。
丹麦皇家图书馆的Eld Zierau和Claus Jensen介绍了保存来源于原始论文资料的数字图书馆资料时数字对象的保存问题。探讨了数字化论文资料的数字对象的保存策略,数字化论文资料必须在保存的同时保留一个短的传播途径。这篇论文探讨了十年前数字化的数字资料是否还有部分保存价值,是否需要重新数字化。研究结果表明,尽管新的数字化有助于增加新的信息,旧的数字化对象仍值得保存。从长期来看,数字化意味着降低了成本。
哈佛大学图书馆的Andrea Goethals和Wendy Gogel介绍了一项早在2007年哈佛大学就开始规划的电子邮件信息保存项目。该项目工作组由大学的档案保管员、馆长、档案管理者、馆员和技术人员组成,大学图书馆承担了这项电子邮件信息保存项目的试点工作。这篇论文描述了在试点项目过程中遇到的一些难以预料的挑战,以及他们是如何通过设计决策加以解决的方法。关键挑战包括需要设计系统以便能够处理未来其他类型的新的数字内容,以及把带有敏感数据的电子邮件保存到哈佛大学的保存信息库(数字知识库服务DRS)中。
2 可信保存和保存服务
在可信保存方面,介绍了Potico成为值得信赖的数字资料库的相关经验,描述了HathiTrust和大规模图书数字化方面的数据库内容质量衡量策略,并通过对元存档协作案例的研究,探讨了建立分布式数字保存信任的重要性。在保存服务方面,介绍了美国国会图书馆的转移和库存服务,以及从语义上加强保存服务的数据库系统,探讨了使用微服务和开源软件来提供全面的数字保存解决方案。
来自普林斯顿的Kirchhoff A等人指出学术团体对电子资源保存或其他保护服务的依赖正在迅速增加。无论是本地图书馆保存、协作机构之间进行保存或由第三方机构保存都需要一个审核和认证的公正的组织。这种独立的组织,拥有比较经验的丰富,在执行审核和认证的过程可以代表学术界人士的利益。这些工作人员拥有执行彻底审查每个数字存储库的方法和策略所需的技能和时间。研究图书馆中心(CRL)的授权认证机构Portico同时也是第三方保护服务机构,积累了相当的数字长期保存审计和认证经验,可以与大家分享。
密歇根大学信息学院Conway P指出目前欠缺对保存内容本身的效用质量评估。在安德鲁·W·梅隆基金会的慷慨支持下,密歇根大学信息学院、密歇根大学图书馆和HathiTrust密切配合已开发出新的方法来衡量谷歌数字化图书馆藏书的视觉和文本质量。其提出一种衡量中大规模数字化质量的新方法即相对于预期使用效果的错误评价。设计包括理解模型和手动检查样本的方法,通过观察记录错误来验证研究成果。这项研究将利用HathiTrust—目前已包含超过500万的数字化卷—为大型数字保存内容发展广泛适用的质量评估策略。
美国Educopia研究所的Schultz M提出分布式数字保存是一种成熟、更有吸引力的解决方案。像所有其他数字保存方案一样,分布式数字保存解决方案还有待进一步完善。其讨论了建立这种信任的重要性,详细介绍其分布式数字保存解决方案TRAC MetaArchive合作应用的过程。此过程显示当前的用于测量数字保存的信任度的标准如果用于分布式解决方案还需要付出很大的努力。这些指标仅适合更集中化的做法。为理解分布式存储需求,其比较了三个组织和技术的MetaArchive分布式的保存活动与TRAC和开放性档案信息参考模型假定的更集中的模型。其最后指出是否分布式数字保存需要更好地定义现有的模型如开放性档案信息或通过创建一种新的分布式数字保存参考模型来实现。
Gavrilis D等人提出利用Mopseus数字图书馆服务框架和数据模型借助Fedora-commons中间件为机构用户提供服务。Mopseus的主要优点是通过Fedora-commons实现最小化定制和开发工作。此外,Mopseus提供增值服务从语义上诠释数字对象的内部结构。其强调了Mopseus的数字长期保存功能,可为每个数字对象自动生成PREMIS元数据。
Garderen P V提出为中小型机构开发和维护数字长期保存系统量身打造一套轻量级的数字资产保存框架技术方案。相对于其提出的“微—服务”框架,以往的数字长期保存技术方案对于中小型机构而言过于复杂。Archivematica项目已实施微观服务的做法,开发了一套集成自由和开放源码工具的软件系统,使用户能够从接收到访问处理数字对象并且可以应用特定的格式保存策略。近年来在教科文组织有关数字长期保存的世界报告的行动呼吁的鼓舞下,Archivematica项目将目标定位于降低成本和技术部署难度,发展成为一个综合的、符合标准和满足实际需求的、可互操作的数字长期保存解决方案。
3 保存计划和评估
在保存计划和评估的理论研究方面,探讨了数字保存计划和PLATO项目与数字资源库接口之间的联系,探讨了位保存策略评价方法,并对两种保存计划的实现方法进行了比较。在实现过程和最佳实践活动方面,介绍了通过业务流程管理保障数字保存质量的法国存档项目,以及一项优秀的实践指南—全美数字考古项目,通过对欧洲科学图书馆的案例研究,分析了数字保存实践的差距,提出了一个差距分析框架和一个可视化差距分析工具。
英国南安普敦大学电子与计算机科学系的Hitchcock S等人指出数字保存格式风险问题,即格式如何转换的重要问题,换句话说就是如何将文件识别与迁移联系起来。这一问题已列入保存计划,并寻求多种解决方案。目前大致有两种方法:一是简化并减少存储格式以及保存工具的数量;二是采用更彻底、有弹性但可能更复杂的方法,即采用由PLATO保护规划的项目开发的工具,它可以支持保存数据的不同格式。其基于电子复印案例说明与PLATO项目集成的数字保存工具软件可有效应用于存储不同大小的内容和提供不同程度的保护,这种工具采用一个通用的存储界面,方便工作人员快速掌握。
丹麦皇家图书馆数字保存部门的Zierau E等人提出一种针对不同的数字媒体支持位保存策略评价的方法。包括替代位保存解决方案的其它方案的评估。该方法使用数字保存规划评价工具PLATO和BR-ReMS原型来计算是否符合位保存条件。作为保护规划的一部分,规划存储不同类型的数据,包括分类要求如保密、位安全性、可用性和成本。存储参数的选择是相当复杂的,因为数据的多个副本意味着更安全,但问题是成本较高、风险较高和危及保密。基于位存储案例,其指出位保存方法包括工具能胜任不同的数字媒体对位的完整性和机密性的要求。
新西兰国家图书馆的McKinney P比较了国家图书馆的保存计划与PLANETS项目下的PLATO保存工具创建的计划实现方法。其认为保存计划既是一种业务的前提条件也是制定保存行为的系统框架。对于国家图书馆而言保存计划与Rosetta系统(ExLibris集团下的数字长期保存系统)绑定在一起,旨在保护新西兰的数字文献遗产。其分别从数字对象的生命周期规划、工作流、计划的评估以及给决策者的展示方法等方面与PLATO进行的比较。
来自CINES和数字资源长期保存部门的MASSOL M等人概述了CINES最近的倡议,即建立面向学术研究人员的法国国家数据中心,专门负责数字对象长期保存的业务流程。在法国它是目前很少的专门针对公共部门、高等教育和研究机构服务的长期保存业务平台之一。该组织的战略目标之一是服务质量的评估与评价。利用外部审计和ITIL方法的过程形式化活动突出显示了不同部门数据保存质量的优劣。利用进程全图和流程图显示机构网站上的在线支持文档,基于标准如ISO 9001或ISO14721并与CINES的具体规则一起实现存档过程的形式化。实验表明这种过程的形式化方法是比较好的保存策略,可改善服务质量,并为将来实施ISO16363认证计划做准备以及实现数字长期保存的最终目标。
Mitcham J等人讨论了考古数据服务面临的保护挑战与最大限度地使用已存档的数据。特别是在开放的档案信息系统(OAIS)如何确保我们的数据是“独立的可以理解的”。其介绍了协同“最佳实践指南”项目旨在指明适合归档和重复使用的数据。梅隆基金会资助的全美数字考古项目现已进入最后阶段,其介绍了给数据创建者的全面、实用的建议以及证明该指南实际作用的大量案例。
Gomm M等人以案例研究方式研究欧洲数字图书馆的数字保存现状。其提出一种在数字保存领域有关保存的方法和数据生命周期中的差距分析框架。其还提出了一种差距分析工具(Gap Analysis Tool),用于支持不同社区之间的数字保存的可视化差距分析,并讨论了该工具在欧洲图书馆的应用结果。
4 框架和模型
在保存框架和模型方面,分析了现代企业内容管理(ECM)和开放档案信息系统(OAIS)之间数字保存差距,提出了一个数字保存的参考框架,研究了政策驱动的资源库互操作集成模式,介绍了数字保存项目和保护系统Chronopolis与MetaArchive之间的保存合作情况。在网站数据保存方面,介绍了使用元数据驱动保存电子政府网站表格外观的方法,提出一种WIKI数据保存的新方法,描述了其原型系统Urobe的体系架构,介绍了第三方博客服务(“云”)为博客的长期保存带来的新方法,探讨了图书馆与社会化媒体之间进行数字长期保存的合作策略和机制。
奥地利理工学院安全与安保系的Korb J等人认为虽然大型科学机构和知识仓储机构(博物馆、图书馆和档案馆)近年来针对数字保存投入了很大努力,而商业界目前还缺少长期保存其数字信息的手段。其分析了现代企业内容管理(ECM)系统的长期保存需求,提出ECM的一般模式需要和“参考模型的开放档案信息系统(OAIS)”以及企业的特殊需要相结合。虽然ECM中的电子文档管理(ERM)模块已提供了简单的保护功能,但缺乏开放性档案信息保存能力和真正的长期保存能力。特别是向长期保存功能过渡需要增加按法规要求保留或销毁某些文件的功能。
Antunes G等人分析了数字长期保存中的来自组织方面的挑战,认为当前需要设计和评估数字保护环境的新方法,于是提出一种参考体系结构可作为一种工具来捕捉那些新兴的保存环境。该参考体系结构可根据周围数字保存系统的环境变化生成具体的模型,并提供组织中开发和部署数字长期保存任务的方法。
Pcolar D等人认为由于受面向可信、可伸缩、开放和分布式的信息基础设施的跨库集成需求的不断增长的影响,需要从政策层面提出数字仓储之间的互操作机制。简单的数据迁移并不能保证数据的完整性和真实性,因此搭建独立于平台的、策略驱动的对象模型,包括政策表达、策略驱动的分布式体系结构是可待续发展的数字长期保存的基本要求。iRODS的策略规则与Fedora的富语义数字对象模型相结合就为实现策略驱动的对象模型平台奠定了基础。
来自加州大学圣地亚哥分校圣迭戈超级计算机中心的Minor D等人描述了两个主要的数字保存项目和保护系统Chronopolis与MetaArchive之间正在进行的合作。这项合作的重点在于基于LOCKSS的MetaArchive和基于iRODS的Chronopolis之间数据迁移和共享问题。这项工作的最终结果有三方面的好处:一是直接提高由Chronopolis和MetaArchive 提供的服务质量;二是提供特定技术的调查结果将有益于其他使用LOCKSS和iRODS的系统进行相互借鉴;三是揭示保护系统之间相互作用的最佳做法为更大型数字长期保存项目或组织所利用。
吕勒奥理工大学工商管理和社会科学系的Nilsson J提出一种电子政府网站外观形式保存的元数据虚拟技术。实现外观与内容保存相分离,才能同时满足用户再利用的需要和保存的要求,其指出如何通过元数据将外观与内容之间联系起来是实现原样保存的关键。
维也纳大学计算机科学系的Popitsch N等人认为面向WEB2.0的数字长期保存任务越来越多,但相应的技术支持比较欠缺,于是提出一种基于语义网技术进行WIKI数据保存的新方法。描述了其原型系统Urobe的体系架构,重点介绍语义和链接技术,而且将Dublin Core、SIOC、VoiD和PREMIS整合在一起建立了一套描述WIKI核心元素的词汇集合。
英国巴斯大学的Kelly B等人指出第三方博客服务(“云”)为博客的长期保存带来了所有权和内容管理的新挑战。这些挑战包括用来收集内容的方法、使用的格式和与所有权、范围和法律有关的政策问题等。其描述了在巴斯大学的UKOLN在博客保存应用的研究方面所采取的成功做法,其涵盖了技术途径和一大批不同类型的博客(如人员所用的博客、项目活动的博客和事件的博客)及与防治相关的政策问题等。
美国国会图书馆的Campbell L E等人提出了图书馆与社会化媒体如Twitter之间合作进行数字长期保存的策略和机制。其依托美国国家数字信息基础结构和保存规划(NDIIPP)建立的合作伙伴关系和支持网络对新的工具和服务进行测试,以应对为Twitter归档的挑战,并试图解决从技术到政策、规划的建立一种新型的图书馆馆藏访问机制的问题。
5 系统建设
在系统建设方面,介绍了在数字保存环境下RDF作为一种数据管理的策略,通过反思开发Planets测试平台的经验教训,为数字保存开发基础性软件,探讨了数字长期保存系统的更新换代问题。在案例研究方面,探讨了数字资料保存在图书馆环境下的代表方法,探讨了大英图书馆数字长期保存中的流媒体保存与回放问题,研究了对大规模共享的数字资源库增加新的内容类型的案例。
来自法国国家图书馆的保存和保护部门的Fauduet L等人对于其正在实施的国家图书馆的数字资产保存和保护项目和系统SPAR(Scalable Preservation and Archiving Repository)进行了介绍。SPAR采用数据优先的系统实施方案,即对数据的全面描述,例如利用METS,PREMIS,MIX or textMD等元数据格式展现数据的多样性。SPAR的核心是数据管理模块,其利用RDF描述框架,基于OAIS和PREMIS本体模型,实现各种数据一体化的全面集成。
来自格拉斯哥大学的人文科技信息研究所的Aitken B等人对Planets试验平台进行了描述。该平台是欧共体资助下的Planets项目的一个重要成果。它基于Web提供用户在其中进行各种保存工具和保存策略的数据保存试验。文中对该试验平台的关键实现进行了描述,通过真实案例的运用操作提出若干难点问题的解决思路和未来对试验平台的改进方案。
荷兰皇家图书馆的Wijngaarden H等人探讨了荷兰国家图书馆(KB)的数字长期保存系统的更新换代问题。原有系统采用IBM的e-Depot,目前面临的问题是保存对象类型的多样化和数量的迅速增长,如到2013年达到720TB。其介绍新的e-Depot 的模块化功能和设计以及进展状况。
来自丹麦皇家图书馆数字长期保存部门的Zierau E提出一种将被保存数据流的导入与传播同时考虑的对象建模逻辑方法,论述其通过该逻辑对象模型描述各种数据的实现方法。该研究已在其图书馆实施并进行较深入的实验,制定模型的条件需要考虑多到多迁移方式、同质导航和在社交网络上的传播要求等。
大英图书馆的Hockx-Yu H等人以大英图书馆的实际做法作案例,探讨了数字长期保存中的流媒体保存与回放问题。通常的做法无法实现对网页中的流媒体如视频流等进行下载保存,其介绍了抓取流媒体的相关工具和协议,大英图书馆已经保存了大约2400小时的flash节目,取得一些应用方面的经验。
密歇根大学保存和保护项目组的Beers S等人探讨了高校数字保存协作项目和系统HathiTrust由简单到复杂的数字对象过渡过程中采取的相关措施和方法。原导入资源因为拥有格式严谨的形式以及均来自数据库源,在面对互联网资源保存过程中无法适应,其提出相关措施将公共资源按HathiTrust 要求的SIPs兼容形式与原有资源共存。
6 费用模型
在费用模型研究方面,介绍了数字保存的成本预测工具,通过案例研究了商业模式和成本预算方法。
大英图书馆的Hole B等人认为预测数字长期保存的成本是重要而复杂的任务,特别是对于大型的存储机构,即使对于较小的项目和个别研究人员也同样缺乏前期积累的经验。“电子文献的生命周期”项目LIFE3是伦敦大学(UCL)、大英图书馆与格拉斯哥大学人文和信息学院(HATII)之间合作建立的,刚刚完成第三阶段,可帮助机构和研究人员解决预测的相关问题,有助于减少保存的风险,同时使决策者科学评估和决策。
来自英国Charles Beagrie的Beagrie N等人探讨了科学数据保存领域在学术出版商、资助机构和研究机构之间的成本模型和可持续发展计划。其以生物科学期刊联合会“Dryad”项目的成功模式作为案例分析了现有的学术出版的可持续发展做法,并希望推广到其他学科领域。
7 战略和经验
在数字保存战略和经验研究方面,总结了实施数字保存可靠评估的七大步骤,从数字长期保存的新阶段和新视角介绍了巴伐利亚州立图书馆BABS2项目经验。
弗赖堡大学计算机科学研究所的Suchodoletz D 等人指出当前PLANETS和KEEP项目已经比较成熟形成了一整套数字长期保存的理论和评估策略,但面对其他开放性问题如系统间的可信集成、软件保存等问题上仍有待完善。其讨论了可信集成的相关策略,并提出了实施数字保存评估的七大步骤。
德国慕尼黑的巴伐利亚州立图书馆的Beinert T 等人介绍了巴伐利亚州立图书馆的长期保存系统BABS和BABS2的实践经验。重点阐述实施数字长期保存项目中的人员组织和技术开发方面的宏观管理方法。
8 结语
数字资源的长期保存正从一个小范围的活动演变为一种涉及多种不同学科和研究机构的研究和实践活动。iPRES2010会议再次强调保护我们的科学和文化数字遗产需要跨越机构和学科界限整合相关的研究活动,以更好地应对数字保护的挑战。iPRES2010将进一步加强数字保存研究者和存储机构、科研数据中心的专业人员之间的联系。与iPRES2009相比,iPRES2010研究内容具有以下特点:
①在保存内容上,新兴媒体内容的保存得了重视,Blog、WiKi、Twitter等的保存实践提到议事日程;
②新兴技术(如云技术)在长期保存技术中得到了应用;
③数字保存可持续发展与费用从理论研究进入实用。如LIFE3项目已建立大学与图书馆之间的合作关系,起到了减少保存风险,提高评估和决策水平的作用;
④数字长期保存的理论和评估策略逐渐成熟。数字长期保存的理论研究已经进入了新的阶段,从新的视角完善项目管理和技术管理策略,形成了一套较为完整的数字长期保存理论和评估策略。