数字资源长期战略保存的管理与技术策略——中欧数字资源长期保存国际研讨会综述,本文主要内容关键词为:中欧论文,数字论文,资源论文,国际研讨会论文,策略论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 会议概述
目前我国文献信息服务正全面进入数字化网络化环境,各个文献信息系统已经采购和生产了大量数字资源,科研和教育领域用户也日益依赖数字化资源和网络化服务。在此情况下,必须充分保证这些数字信息资源能够长期、方便和经济地被广泛利用,保证在收集、采购或生产这些资源时同时获得必要的法律授权、技术知识和经济安排,拥有可靠的永久使用权,保证即使在特殊情况下我国科研和教育用户仍然能够方便、可靠、稳定地获得和使用这些战略性信息资源。而要实现这些保证,就必须实施数字资源长期战略保存工作。
1.1 会议缘起
欧盟和中国在数字资源方面的合作,是欧洲委员会和中国政府之间科学与技术合作的重要部分。2000年中欧双方签订了科学与技术合作协议,同意在双方共同感兴趣的领域合作开展研究活动,参与双方基金项目。2003年10月由国际电子图书馆联盟(eIFL)、中国科学院国家科学数字图书馆(CSDL)和国家科技图书文献中心(NSTL)共同组织在北京召开了数字资源方面的第一次国际会议,即“数字资源合作管理国际研讨会”;2004年6月eIFL资助的OSI(Open Society Institute)与中国科学院、科技部合作在北京召开了“科学数据保存与开放获取战略会议”。2004年7月14至16日,在国家科学图书文献中心、中国国家图书馆、中国高等教育文献保障系统、中国科学院国家数字图书馆、德国哥廷根大学图书馆、奥地利国家图书馆、国际电子图书馆联盟大力支持和共同组织下,“中欧数字资源长期保存国际研讨会”在中国科学院文献情报中心成功召开,这次会议是又一次图书馆情报界前沿领域专业性的国际性对话。
1.2 会议主要内容
“中欧数字资源长期保存国际研讨会”共邀请了10位来自欧盟国家直接从事数字资源长期保存国家战略设计、技术系统设计、应用项目组织的专家,会议内容包括数字资源长期保存的一般问题、不同数字对象的长期保存技术、数字资源长期保存的组织环境、数字资源长期保存的全球支撑结构、国家和国际长期保存策略与启动项目等5个主题,24个研究报告,从不同的角度阐述了数字资源长期保存中的政策、策略、组织、法律、技术等各种问题,介绍了荷兰、德国、英国等对期刊、图像、科学数据等保存工作进展,介绍了欧洲9个重要的数字资源长期保存项目和联盟组织。张晓林教授和王志庚先生也分别代表中国科学院国家科学数字图书馆项目管理中心和中国国家图书馆介绍了各自在数字资源长期保存方面的工作和研究进展。
2 数字资源长期保存管理策略
在数字资源长期保存中,管理是从整体上进行宏观规划、组织和控制,是数字资源长期保存的基础与保障。会议中涉及的内容主要包括:保存政策,责任体系及合作机制,知识产权问题等。
2.1 保存政策
数字资源的长期保存涉及“保存什么”、“如何保存”、“谁来保存”等一系列问题。这些问题的解决需要有相应的政策。目前国际上已经有许多国家的机构正在制定有关的政策,有的已经实施,有的还在讨论中。保存政策是有效实施数字资源长期保存的管理上的保证,内容应该涉及技术、组织、人文、法律、权益管理、知识产权等各方面,还应该包括国际国内合作、商业运作、相关者培训、质量管理和审计策略等内容。
制定政策,以保存目标为基础。保存目标主要包括两大类,一是保存资源的选择,一是保存数据内容程度的选择。会议上许多专家都指出基本的选择标准是首先保存那些容易丢失的、与未来有关联的、有重要价值的数字资源,保存重要的科学数据,特别是“原始数据”。对一个图书馆来讲,不仅要保存本国的、自建的,还应当保存国外的、采购的、网上开放获取的各种数字资源。在保存内容程度上,分为保存比特流、上下文信息、描述核心内容的解释能力、完整的数字使用环境等。
保存策略,主要包括两类:集中式保存策略和分布式保存策略。这两种策略现在应用都比较广泛,澳大利亚的PANDORA,荷兰的DNEP-I,英国的NDAD,美国OCLC的PREMIS,德国的NESTOR,欧洲的NEDLB和ERPANET等项目根据不同的需求采用了不同的保存策略。
2.2 责任体系及合作机制
在数字信息生命链上任何时侯都有可能发生信息丢失现象,因而数字资源长期保存不仅仅是图书馆、档案馆、博物馆等文献机构的责任,内容创造者、出版商等也应当承担相应的责任。数字资源保存必须起始于数字生命周期的最初阶段,图书馆尤其是科学图书馆必须要对科学资源提供长期获取服务,国家图书馆应当担负起建立国家存档库的责任,担负起保存本国数字文化遗产的责任。为了有效实施长期保存,需要数字对象生产者(如科学家)、提供者(如图书馆)、传播者(如出版商、网站)等之间相互合作,需要图书馆之间相互合作.需要国家、国际层面上的合作。欧洲正在实施的DELOS计划从网络环境上支持了这种合作。荷兰国家图书馆正在计划进行国际合作,建立国际出版物的安全区策略。
承担数字资源长期保存,需要具备一定条件,承担一定责任,尤其是第三方保存者。会议介绍了2002年研究图书馆协会RLG发表的《可信赖存储体的属性和要求》报告内容。
2.3 知识产权问题
在数字资源长期保存中,法律是一个很复杂的问题,主要涉及版权法、合同法、缴送制等。不同的国家有不同的法律,会议上来自英国国家图书馆的NEIL教授以英国法律、美国数字千年版权法和欧盟版权指令为例探讨了数字资源长期保存中所面对的法律问题,指出在制定数字资源长期保存策略时不仅要考虑版权法,而且还要考虑相应软件版权保护问题。
目前数字资源所有者主要通过许可方式授权合法用户使用数字资源。许可协议通常是对远程访问的许可,而不是对物理媒介的许可。如果我们希望长期保存这些数字资源,就应当在协议中增加“永久保存”条款。英国教育信息系统联合委员会JISC已经制订了数字资源采购协议模型,其中包括长期保存条款;荷兰国家图书馆已经与ELSEVIER、KLUWER、BIOMED等出版商签订了长期保存条约,并准备与更多的国际出版商签订有关的保存协议;中国科学院国家科学数字图书馆项目制定了“国家科学数字图书馆数字资源采购技术要求(草案)”,其中专门对资源采购中的“数字资源长期保存要求”做出规定。进行数字资源的长期保存,如果未获得版权所有者的许可,也没有法律“合理使用”、“法定许可”等条款的支持,就很容易触犯知识产权法。但要获得所有相关版权所有者的许可,在实际操作中要面临很多问题,如何能有效地解决这些问题,还有待于进一步的研究。
缴送制是有效保护本国文化财产的重要举措。英国共有6个图书馆负有存储库的责任,2003年新制定的“存档图书馆法案2003”中包括了电子资源,这是图书馆、档案馆、博物馆和出版商共同讨论的结果。荷兰目前还没有法定的缴送制,是否向荷兰国家图书馆缴送,依赖出版商的自愿。中国国家图书馆希望将WEB资源也纳入到缴送范围。英国国家图书馆的NEIL先生认为在数字资源缴送方面存在的问题主要包括:缴送数字资源的范围是什么,如何分配责任,网络资源的缴存问题,国际合作问题,获取限制等。
3 数字资源长期保存技术策略
在数字资源保存策略中,技术方案是全部策略赖以依附和执行的基础,是数字资源保存的核心与关键。采用哪种技术方案,关键取决于被选择需要保存的资源。目前有多种技术方案和模型。会议中涉及的内容可以归纳为下面三部分。
3.1 开放描述与标准化
开放描述是目前流行的一种数字资源长期保存中数据可读性与互操作性的解决方案。所谓开放描述指信息系统通过计算机可识别的开放语言和规范方式来描述自己系统各个层次内容。尤其是自己的数据格式、组织体系和管理机制。所形成的描述文件及其定义语言置于本系统公知位置、或递交公共登记系统,第二方系统可以对这些描述文件进行搜寻,按照开放语言规则进行解析,从而使第三方系统能识别、理解本系统的格式和规则,并在此基础上实现系统间的互操作。
标准化试图以某一为公共接受的标准来进行数字资源的存储、描述、组织与检索,以数字资源的通用性描述实现数字资源的持久可读性与可用性。
本次会议中涉及开放描述与标准化的内容主要有以几个方面:
(1)元数据:“元数据”是从英文单词“metadata”的中文意译,直译为关于数据的数据,元数据最基本的用途就是管理数据,从而实现查询、阅读,交换和共享。数字保存活动中,出现了许多用于支持数字资源长期保存的元数据规范和框架,从针对特定类型资源的专门格式,到基于OAIS的信息模型的一般格式。这些已有的规范在世界各地不同行业领域得到发展。本次会议中涉及了长期保存元数据的定义,介绍了一些目前正在发展的重要的模版和标准,归纳了目前发展中出现的主要问题。
(2)永久标识符(唯一资源标识符):如何确保网络出版可被明确标识和在任何时间可被跟踪呢?解决这个问题的一个办法是给出永久标识符。另外,在本地环境中的应用也不能保证其地址模型的永久性,因此有必要产生一个架构从制度上来保证备份。永久标识符从资源的可访问性上解决了资源的长期保存与访问问题,本次会议中对在世界范围内永久标识符的讨论及其应用进行了整体的描述,并介绍了对永久标识符进行应用研究的EPICUR(Enhancement of Persistent Identifier Services)项目。
(3)文件格式:格式是一种固定的信息模型的连续字节编码。信息模型是一个可交换知识的格式描述。如文档格式有DOC,HTML,页面描述语言格式有PDF,Postscript,光栅图像格式有TIFF,PNG,JPEG,数据库格式有DBF,MDB等等。文件格式的主要特征包括外观、结构、习性,包括可读性、理解性、功能性、look+feel等。文件格式特征越少越简单,保存管理所面临的挑战越大。信息对象保存的明显特性是被文件格式的固有特性所限制的,保存方案通常与文件格式的固有特性有关,所以文件格式的重要特性涉及到了保存的质量问题。保存文件格式哪些特征,要考虑作者的意愿、保存的目的、未来用户的需求等。
(4)文件格式注册:考虑到在研究活动中的知识交换和协作,数字资源保存中的合作总是必要的和具有实际的意义,资源保存机构共同召集资源特性和文件格式的注册,记录不同文件格式的各种变化。建立文件格式注册相关的活动已经出现,一些资源保存初始化项目期望当前的方法可提供服务。文件格式登记系统的主要功能包括:文件格式的识别、文件格式的有效性检查、不同文件格式之间的转换、文件格式特征提取、风险评估和格式传递等。
(5)OAIS模型:在数字资源长期保存中,OAIS参考模型(ISO 14721-2003)是一项重要内容。OAIS是由美国国家航空和航天局和美国太空数据系统咨询委员会(Consultative Committee for Space Data Systems,简称CCSDS)联合制定的标准,规定了资源的存取和长期保存的术语、概念和参考框架,确定了一个存档系统的基本功能,提出了一个管理数字对象和信息包的信息模型。OAIS是一个由人和计算机系统组成的有机体,它承担保存信息的责任并将其提供给指定团体。OAIS信息模型在一致性方面起了很重要的作用,并逐渐成为众多存储项目遵循的标准,被广泛的用于开发保存工具和存储系统,如荷兰国家图书馆存储系统。
3.2 应用技术方案
随着数字资源保存研究的发展,多种应用技术方案孕育而生,有些技术方案在应用中得到了很好的实践,有些还只停留在理论的层面,确定某种方案是否适用,需要充分考虑它的可行性、可持续性、实用性和合理性。
(1)迁移:适时迁移是根据软件、硬件的发展将数字资源迁移到不同的软件或硬件环境下,从而保证数字资源可以在发展的环境中被识别、使用和检索。根据迁移条件的不同,迁移可以分为硬件迁移、软件迁移、载体迁移、格式迁移、版本迁移和访问点迁移。迁移是目前实际运行中使用比较成熟和频繁的方法。
(2)仿真:一个计算机系统对另一个计算机系统的部分或全部的模拟,使模拟的计算机系统与被模拟的计算机系统接收相同的数据,执行相同的程序,获得相同的结果。目前有硬件、软件和操作系统仿真,利用中间媒介层或虚拟计算机实现。在数字资源保存中,由于仿真技术可以保存原始文件,并适用于所有的数字对象,实现了一次处理永久使用,所以仿真被视为理想的保存策略,但由于其技术的复杂性,仿真还处于研究和试验阶段,没有真正的可操作的系统能投入使用。
(3)UVC:UVC方法是由IBM提出的新的技术方法,一个虚拟计算机可以用于详细说明今天的过程,这些过程可能在将来的某台未知机器上运行。这种方法的唯一需求就是要有UVC仿真器。
(4)封装:环境封装是在对数字资源进行包装过程中,将该数字资源所需的运行环境(包括硬件和软件),如动态链接库、运行环境等一起打包,从而实现在其它环境下运行该程序包,如在JAVA程序中加入J2SDK,从而保证在新的环境下的从JAVA环境要求。封装由于刷新元数据存在困难,而且其使用的软件在使用时也无法保证能够获得,因此实际上这种策略还停留在讨论阶段。
(5)技术保存(又称硬件博物馆):同时保存计算机中的文件、硬件和软件,并保持它们的生命力,这种方法对于大数据量是很难实现的,同时如果采用这种策略,系统的维护与保持几乎是不可能的。
(6)数据再造,也称数据恢复与数据考古:是从原始的字节流中恢复数字资源的原貌,并保证数据资源的可读性和可用性。数据恢复包括数据灾难恢复,数据格式恢复等。数据恢复是具有技术挑战的技术方法,值得注意的是,如果已经无法获取数字资源的原貌,就无法评估数据恢复的成果。因此在正常的图书馆数字资源保存过程中,不赞成使用这种方法作为长期保存的技术方法,而是采用更为实际的运作方法。该方法仅在其长期保存方法无法发挥作用时使用。
3.3 应用技术方案评价:效能分析方法
随着数字化信息和原生电子资源的大量增加,长期保存解决方案面临的形式开始变得严峻起来,当一些不同的方案,如仿真、迁移或计算机博物馆,被当作解决这种挑战而提出时,没有一种方案能在所有的情况下脱颖而出,选择合适的策略和工具因而成了一项重要的任务。效能分析方法,是一种规范的、结构化的分析方法,用于为各种特殊情况选择最优的策略,这种方法常被用于基础设施的建设项目,如高速公路、机场,或城区发展,用在数字资源保存中则是为了选择合适的保存策略而综合处理所有需要被考虑的各种需求。在效能分析的流程中每个步骤有各自的研究方法、测量方法和不同的测量指标,整个评价的过程透明而清晰。
许多资源的保存计划还是一件悬而未决的事情,如何选择保存方案是我们作保存计划中首先要思考的,专家们为此提供了一些建议:数字对象本身的保存需求是选择保存方案的最重要依据,如果内容是所有考虑中最主要的方面,那么标准化的工作是不可不作的;如果数字对象上下文的关系是至关重要的,那么封装是最好的选择;对于复杂的数字对象,仿真是个好办法。实际上数据迁移因其技术的成熟而被认为是首选的方案,但在数字资源保存的初期阶段,大规模的数据迁移必要性不大;而仿真,由于没有成型的运行系统,采用时更应谨慎考虑。
数字资源长期保存是一个新的复杂的问题。我国目前仅有少数几个文献机构开始了有关的研究和试验工作,而在欧美、澳大利亚等国家,数字资源长期战略保存方面的研究和应用已经取得长足进展,一些国家已经开始进行应用性部署,积累了大量的知识和经验。通过本次国际研讨会,充分了解国际进展、学习国际先进经验、开拓国际合作,对于推动我国数字资源长期保存的研究和应用具有重要意义。