基于资源类型的数字资源长期保存问题研究,本文主要内容关键词为:资源类型论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 G253
CLASS NUMBER G253
数字资源长期保存是一个新的也是一个复杂的问题。世界各国在数字资源长期保存方 面的研究和实践已经取得长足进展,一些国家已经开始应用性部署,积累了大量的知识 和经验。充分了解国际进展,学习别国先进经验,开展国际合作,对于推动我国数字资 源长期保存的研究和应用,具有重要意义。本文正是在分析、总结国外数字资源长期保 存研究和实践的基础上,分析不同载体形式的数字资源长期保存的方法、研究内容、实 践项目以及与数字资源长期保存相关的法律问题的研究内容和进展。
1 不同类型数字资源的长期保存问题研究
数字资源的类型是多样的,从电子出版物、学位论文、电子期刊到科学数据等,每一 种类型的数字资源,其保存方法和技术都不尽相同。众多的研究者和项目对此进行了研 究。值得注意的是,每一个项目中解决的都是一种类型的资源。复合的解决办法将是数 字资源向长期保存的发展方向。
1.1 Web资源
本文所指的Web资源是指互联网上的数字资源,包括各种公开的数字资源,不包括正式 出版的论文、网络期刊和网络数据库等内容。Web资源数量大,种类多,生命周期短, 更新速度快。
目前,越来越多的信息以Web的形式发布,网络资源已经成为数字资源的重要组成部分 。国内外的研究已经达成一定的共识,即Web资源是国家文化资产的重要组成部分,需 要进行长期保存,以避免国家文化遗产的丢失。
目前,Web资源保存已经从科技文献的保存发展到网络所有信息的保存,曾经被认为是 网络垃圾的广告等非主流信息也越来越引起人们重视,已经从单点信息的保存发展到对 整个Web站点的保存。对网络资源的重新组织也成为研究的重点。基于主题的资源建设 是网络资源保存的方向。网络资源获取的软件、技术和方法是获取网络资源的保证。由 于网络资源的广泛性,采用人工采集的方式已经不能适用于网络资源的建设,因此自动 采集工具、系统的研究就成为实践中的热点。保存策略、保存框架、政策、法律等相关 问题也是Web资源保存中需要解决的主要问题。
Web资源保存涉及Web资源获取、组织、存储、管理、使用整个过程,通常也称为网络 资源建设。
1.1.1 基于主题的网络资源建设
获取网络资源后,需要对网络资源进行存储、组织,并提供便利的检索和浏览服务, 这就产生了基于主题的网络资源建设。基于主题的资源建设方式有两种:一种是主题网 关,一种是专题信息建设。
PADI是澳大利亚国家图书馆建立的数字资源长期保存的主题网关,它有一定代表性。 该站点按主题收集了数字资源长期保存相关的文献,包括项目、管理、政策、战略等内 容,该网关是研究数字资源长期保存的重要资源。它采用PANDAS软件自动收集相关资源 。
专题信息是根据某个热点或研究方向组织网络资源,如美国国会图书馆的Web保存项目 在研究Web资源的选择、收集、获取和编目,以及基于主题的资源组织和访问问题的基 础上建立了2002年的冬季奥运会专题和2002年大选专题的专题资源。ARCHIPOL(Archive of Web Sites of Political Parties in the Nether lands)项目研究目的是存档荷 兰政党的Web站点。该项目的研究成果可以为其他机构保存Web站点提供理论基础。
1.1.2
网络资源建设的技术问题
它涉及到网络资源的自动获取技术、工作流技术、系统框架、保存技术等。
自动获取技术主要研究网络资源自动收割的技术工具和相关协议。丹麦Web保存工作在 网络资源自动收割工具上进行了深入研究,并开发出了自动收割工具。该项目还对网络 资源的保存策略、不同的文件格式、保存框架和其他技术问题进行了研究[1]。网络资 源自动收割协议主要是OAI协议的应用研究,由Old Dominion大学数字图书馆和Los
Alamos国家实验室发起,Mellon基金支持的Mod-oai项目对OAI协议应用进行了研究。该 项目的目的是基于OAI-PMH可以通过Apache Web servers访问资源内容。Web服务器和
Web爬行器能够有选择地从数据仓储中收割,例如可以限定收割文件的格式。
工作流技术研究的是网络资源获取、组织、存储、发布、管理整个过程的技术。工作 流技术支持网络资源建设的全过程。DACHS(Digital Archive for Chinese Studies)中 国研究相关的资源保存项目对工作流等技术进行了研究。该项目还对收藏策略、保存技 术框架进行了研究。
网络资源保存系统框架是保存网络资源系统建设的基础,需要深入地研究。Mitchell,Robert L研究了美国的Web资源保存情况。主要研究了美国公司保存Web资源所面临的一 系列挑战。同时还总结了美国公司在Web资源保存过程中使用的技术和方法[2]。
Netarchive.dk项目是丹麦皇家图书馆、州立大学图书馆、Internet研究中心、Aarhus 大学共同发起的研究项目。目前研究已经进入第二阶段,丹麦皇家图书馆致力于快照的 收割,州立大学图书馆致力于选择性或基于事件的资源收割。两个图书馆在馆藏、档案 、保存和访问资料的战略、软件等方面紧密合作,从而建立数字存档系统[3]。
网络资源保存技术方法包括技术的选择、保存策略的选择等。基于Web的美国政府信息 的获取、存档和保存的解决评价项目,研究图书馆和其他团体在保存基本Web的美国政 府信息中的地位和作用,同时该项目还研究了保存基于Web的美国政府信息的挑战以及 成本等内容[4]。
1.1.3 网络资源建设合作
网络资源数量的巨大、网络资源类型的复杂、网络资源保存技术的复杂等因素决定了 网络资源保存不是一个图书馆或组织可以完成的工作,它需要图书馆之间,图书馆与其 他社会团体之间紧密合作。英国Web存档联盟(UK Web Archiving Consortium)项目的目 标是研究存档解决方案,从而保证在UK网络空间内出版的有价值的学术、文化和科学资 源不会丢失[5]。包括大英图书馆在内的6个机构参与了这个项目。Wellcome图书馆收集 医疗网站,威尔士国家图书馆收集当代威尔士人生活的网站,大英图书馆收集重要的文 化、历史和政治网站。该项目预计运行两年,收集大约6000个网站。NINCH网络文化遗 产国家创始(National Initiative for a Networked Cultural Heritage,NINCH)的目 的是保证在新的网络环境下,所有文化领域的资源生产者都能参与到资源保存实践中[6 ]。
1.2 电子出版物
对电子出版物长期保存的研究,内容比较广泛,从保存的系统框架、技术选择到资源 获取、法律问题、图书馆与出版社的合作问题等都是研究的主题。
电子出版物保存的一般性问题涉及到收藏资源的选择方法、获取过程、存储技术和访 问方法等。这方面的例子有:芬兰创立了保存互联网上在芬兰出版的电子文档项目EVA ,加拿大国家图书馆发起了电子出版物保存项目EPPP,美国俄亥俄州历史学会、俄亥俄 州图书馆等共同发起的合作项目JERRI项目。
电子出版物长期保存中的合作包括两个方面。一方面是图书馆与图书馆或其他组织的 合作,合作的目的是通过不同图书馆或组织的参与在电子出版物长期保存的不同方面进 行合作和分工,在分工的基础上再合作。另一方面是图书馆与出版商的合作,以期解决 保存中的知识产权问题。
在合作项目中,不同的合作者会对不同的研究点进行研究和实践,最为突出的就是
Andrew W.Mellon基金电子期刊保存项目,该项目由美国7个图书馆参加,每一所大学研 究的内容和侧重点有所不同。康奈尔大学图书馆研究基于主题的电子出版物的仓储框架 的设计,哈佛大学图书馆设计电子期刊的保存框架,MIT大学图书馆建立动态的电子期 刊保存,纽约公共图书馆侧重于电子艺术品的保存,宾夕法尼亚大学图书馆主要保存学 术期刊,斯坦福大学图书馆设计分布式数字资源保存框架和系统,耶鲁大学图书馆主要 侧重数字资源保存及与出版商的合作[7]。
欧洲图书馆项目WPI的目的是在出版商和欧洲图书馆间建立良好关系,以实现数字出版 物的保存。WPI对出版商进行了调查,调查领域包括保存实践、访问、元数据、价格和 数字出版物保存的优点和不足等内容[8]。
1.3 科学数据
科学研究中产生的数字化数据越来越多,海量数据的生成和积累意味着社会知识财富 的增加,但也意味着这些宝贵的科学记录和文档面临着因技术过时和载体变质而引起损 失的危险。因此,各国对科学数据的长期保存和共享都非常重视,相关的实践包括JISC 的DDC、SDS项目、ERPANET/CODATA论坛、荷兰ARNO项目等。
英国的JISC(Joint Information Systems Committee)和学术团体对数字资源长期保存 问题进行了研究并提出了解决办法。它建立了由专家组成的数字保存中心DCC(Digital Curation Centre)。DCC的任务是帮助英国的研究所保存、管理和存储数据并保证其稳 定性和长期使用。数据保存包括数据存档的数字保存以及行为管理、学术和科学主题整 个生命循环的数据的评估等。DCC的最终目标是保证不断提高数据存档和数字保存的质 量。DCC本身并不是一个数字仓储,它也不会将一个研究所的保存政策和实践强加于其 他研究所,DCC希望能够提供统一的交流平台,各研究机构间能够分享数据和数据保存 经验。
2000年,弗尼吉亚大学人文科学高级技术研究所和弗尼吉亚大学图书馆的数字图书馆 研究和发展组共同合作,在Andrew W.Mellon基金的支持下,开始数字学术SDS(
Supporting Digital Scholarship)项目。该项目的目标是为图书馆和相关的技术中心 提供指南和方法以支持数字学术资源的创建和持久保存。该项目主要关注数字资源结构 化以保证研究者可以将其作为主要资源、图书馆研究原生数字学术资源的技术和政策问 题、研究者、出版社和图书馆合作创建数字资源等问题。
2003年12月,在Biblioteca Nacional Lisbon召开了ERPANET/CODATA讨论会,会议的 主题是数字科学数据的选择、评价和保存。ERPANET对相关的会议论文进行了分析,并 根据分析为科学数据的保存实践提供指南。
荷兰ARNO项目(荷兰在线学术研究,Academic Research in the Netherlands Online) 致力于建立大学文档服务器,从而可以利用参与单位的科学成果。ARNO项目由IWI(
Innovation in Scientific Information Supply)资助,参与者为荷兰的大学。项目的 目标是在荷兰国家信息框架和国际分布式数字存档之间建立关联,建立的框架支持建立 良好的科学出版过程、组织内的同行评议基础、科学家独立的实践等活动,大学的科学 成果可以无缝整合到该信息框架中[9]。
1.4 多媒体资源
多媒体资源存储要求高,技术复杂。根据媒体类型的不同,我们将研究项目分为音频 资源、视频资源和可变媒体资源的保存。
音频资源指与声音有关的数字化资源。DIAMM(Digital Image Archive of Medieval
Music)项目是英国牛津大学和Royal Holloway大学的合作项目。该项目建立了欧洲中世 纪复调音乐的持久电子档案——中世纪音乐档案。该项目同时提供艺术和人文数据服务 ,还强调数字图像的持久保存。
视频资源包括电影、video等资源。PrestoSpace是欧盟基金资助的项目,其目的是建 立audio-visual资料的数字保存框架。该项目建立了一个保存仓储,为图书馆或博物馆 等机构提供易管理、低成本、标准化过程和访问数字audio visual资产的技术框架。
PRESTO项目是欧洲联合信息技术协会European Union Information Society
Technology(IST)的创始项目。该项目研究资源保存相关的问题和资源保存的经济需求 。研究的资源类型主要为电影、audio和video。项目的参与者是欧洲几个公共广播档案 馆和商业研究机构。项目的目的是评价音视频资料保存的状况,建立资源选择标准,研 究保存过程中的质量控制、元数据管理,第三方的评价和测试方法等[10]。
可变媒体资源的载体是可以变化的。可变媒体创始(Variable Media Initiative)由
Guggenheim博物馆发起,鼓励艺术家定义独立于媒体的他们自己的作品格式,提供如何 将其他作品转换为新的格式的指南。
PANIC保存和存档新媒体和交互式收藏(Preservation and Archival New Media and
Interactive Collections)项目由MAENAD(Multimedia Access across Enterprises,
Networks And Domains)发起,其目的主要包括实例研究,比较不同的多媒体保存方法 ;研究保持数字对象寿命的最佳方法;确定最优化媒体格式、建立指南和元数据
schemas[11]。
1.5 其他
以上几种类型的数字资源是数字资源长期保存中研究和实践的重点。电子学位论文、 艺术品和电子邮件等类型的数字资源由于其所具有的特点也成为数字资源长期保存中研 究和实践的重要内容。
1.5.1 电子学位论文(ETD)
传统上,学位论文均以纸本形式保存在图书馆,很少以数字形式存在。近年来,许多 大学、研究所纷纷将学位论文数字化,并要求学生在提交学位论文时同时提交相应的电 子版本,这样,不仅形成了电子学位论文库,而且形成了从论文上载、传输到保存、检 索一整套系统流程。电子学位论文的保存已经成为数字资源保存的重要内容之一,我国 和美国、英国、澳大利亚等国都已经或开始对学位论文以电子版本形式保存。下面是一 些典型的案例。
(1)澳大利亚电子学位论文项目(ADT)的目的是建立国家合作式分布学位论文数据库, 这些论文覆盖澳大利亚所有的大学。ADT收集的论文仅限于硕士论文和博士论文,并仅 供研究使用[12]。
(2)学位论文网络数据图书馆(The Networked Digital Library of Theses and
Dissertations,NDLTD)是一个国际组织,致力于建立、使用、分发和保存传统以纸为载 体的论文的电子版本[13]。
(3)VT—ETD。1997年起,美国弗吉尼亚理工大学图书馆与研究生院共同合作保存电子 学位论文,并将传统的学位论文数字化保存到ETD中[14]。
1.5.2 艺术品
艺术品有其自身的特点,需要根据它的特点选择长期保存策略。不同载体形式的艺术 品的保存策略也不尽相同,相应的技术、方法的选择也具有特殊性。Avant Garde项目 主要研究各种载体形式的艺术品的保存战略。项目对艺术品的长期保存进行了探索和实 践,并制定了一套保存数字化艺术品的指南[15]。Besser,Howard在2001年召开的国际 文化遗产信息会议上,对电子资源的一般保存方法,电子艺术品的特殊性及挑战以及保 存电子艺术品的实用方法等提出了自己的看法[16]。
1.5.3 电子邮件
电子邮件是科学交流的重要工具,电子邮件内容往往也有保存价值,目前该类型资源 保存的理论研究和实践比较少,但人们已经从电子邮件保存的文化、法律、技术等方面 进行了相应的研究。如Testbed Digitale Bewaring电子邮件保存项目对电子邮件的长 期保存提出了相应的解决办法[17]。该办法包括解决文件、法律、技术和实践问题的方 法。同时,该项目比较了迁移、仿真等技术方法在电子邮件保存中的应用效果。
2 法律问题及解决方案
法律问题是各种类型数字资源长期保存必须面对的问题,也是各种类型数字资源长期 保存重点研究中的内容。通过分析,我们认为可以通过国家立法和其他途径来解决。
2.1 呈缴制度研究
呈缴制度是以国家法律形式规定信息资源生产者向国家指定图书馆免费提交资源的一 种制度。
网络环境下,呈缴制度仍将发挥其不可替代的作用。01 sen(2004)在研究了美国联邦 存储项目保存政府电子出版物失败的原因后指出,如果不制定相关的呈缴制度,图书馆 就无法保存这些电子出版物,这些电子出版物就存在丢失的危险[18]。Harlesworth(20 03)研究了英国Web存档相关的法律限制,分析了英国、美国、澳大利亚在保存Web资源 时采取的法律相关问题的解决办法。英国建立了呈缴制度,而美国和澳大利亚还没有这 样的法律规定,不得不通过不断的实践研究解决版权问题的方法[19]。一些组织也对呈 缴制度提出了意见和建议,如the Conference of Directors of National Libraries 工作组对国家图书馆如何准备对电子出版物呈缴提出建议和如何保存和维护这些出版物 提出了建议指南。同时该工作组还对世界范围内的发展进行了总结,对加拿大、法国、 美国的实例进行了研究[20]。
一些国家对呈缴法案进行了修改,增加了数字资源呈缴的相关内容,主要有英国、法 国、新西兰等国家。2003年,英国制定了新的呈缴法案,这个法案要求出版社向英国和 爱尔兰的6个图书馆提供数字信息存储。新西兰国家图书馆法案2003(The National
Library of New Zealand Act 2003)要求图书馆收集、保存新西兰电子文档,并提供访 问服务。为了正确执行该法案,新西兰国家图书馆采取了一系列措施,包括研究建立长 期保存数字资料的仓储的条件等。
2.2 合作
图书馆与数字资源拥有者的广泛合作、协商是解决知识产权问题的有效解决方法,目 前已经有成形的经验可供参考。澳大利亚持久存储合作项目APSR(Australian
Partnership for Sustainable Repositories)由澳大利亚教育、科学和培训部资助, 由澳大利亚大学、澳大利亚国家图书馆、昆士兰大学、悉尼大学和澳大利亚高级计算组 参与。该项目包含4个相互关联的子项目:数字的连续性和持久性、国际联系项目、国 家服务项目和实践测试项目。
2.3 其他问题与解决方法
数字资源长期保存中涉及的法律问题还包括许可授权、法律障碍及解决、技术解决方 案等问题。Loughborough大学的CLDP(the Copyright and Licensing for Digital
Preservation)项目在数字保存版权和许可授权方面进行了研究。其目的是研究正确的 数字资源保存方法,相关的法律障碍和解决办法[21]。RoMEO(开放创始的权限元数据, Rights MEtadata for Open archiving)项目由JISC发起,目的是研究基于OAI—PMH协 议的自存档研究中的权限问题。项目的目标包括利用已有的schemas开发一套互操作的 权限元素;对目前基于OAI的自存档的权限问题进行研究,建立如何使用权限元数据的 指南[22]。