国外数字资源长期保存发展历程,本文主要内容关键词为:发展历程论文,国外论文,数字论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250.76 [文献标志码]A [文章编号]1005-8214(2010)06-0072-05
1 数字信息资源长期保存问题得到关注
1991年,5个北欧国家的档案馆(瑞士、挪威、丹麦、芬兰、冰岛)就电子文件的保护与存取问题进行了调研,并在此基础上出版了《电子文件的存取与保护》一书。1994年欧洲保存与获取委员会ECPA(European Commission on Preservation and Access)成立,它是研究数字信息长期保存与获取的最大跨国协会,旨在共同研究各种类型文献的检索能力以及信息保护问题。目前加入该组织的国家共有41个,其成员为欧洲大学、图书馆、档案馆及出版界等部门的著名学者、专家。[1]
1992年3月,澳大利亚国家图书馆主办了“澳大利亚已记录的文化遗产的存取”的全国会议。这次会议对电子格式文献长期存取进行了研讨与回顾。1993年12月,澳大利亚档案馆、澳大利亚图书服务信息委员会、澳大利亚国家保护办公室与澳大利亚电影录音档案馆共同组建保护数字信息存取工作组PADI,其主要目标是指导电子文本的保护与管理,保护数字信息存取和国家数字信息的调研,制定信息存取与保护的原则、策略等。
1994年12月,美国保护与存取委员会CPA(Commission on Preservation & Access)与美国研究图书馆组织(RLG)共同组建了数字归档特别工作组,其主要任务是负责对以数字格式存贮的信息的长期存取问题进行调研,并对其保护措施提出建设性意见。特别工作组的人员来自产业部门、博物馆、档案馆、图书馆、出版界、学术界与政府等部门。主要有:国家农业图书馆、国会图书馆、密歇根大学图书馆、研究图书馆小组、国家档案馆、密歇根大学信息学院、加利福尼亚大学、哥伦比亚大学、耶鲁大学、约翰·霍布金斯大学、CyberVillage有限公司、IBM研究中心、美国物理协会、贝尔实验室、版权许可中心、OCLC等单位。
2 数字信息资源长期保存标准和规范的制定
随着数字资源长期保存引起各国广泛关注而不断开展相关标准和规范的制定也取得了成果。
1990年,隶属于NASA(美国国家航空航天局)的CCSDS(Consultative Committee for Space Data Systems)空间数据系统咨询委员会应ISO的要求,承担起了制订长期保存数字数据档案标准的任务。1997年,NASA最先提出OAIS(Open Archive Information System)“空间数据的开放档案信息系统概念模型”的理论模型。1999年5月,CCSDS发布了OAIS参考模型草案Reference Model for an Open Archival Information System(OAIS),它被作为ISO国际标准的一个草案被写进了1999年7月的新版本中,2002年1月,出版在了ISO蓝皮书CCSDS 650.0-B-1版本中,现已正式成为ISO标准ISO 14721:2003。[2]这个标准可应用于任何档案馆或者图书馆适用于所有文献类型。
此参考模型定义了一个数据保存的总体框架,包括应具备的功能、统一的概念和术语等等。此框架适用于所有致力于长期保存数字资源并提供利用的系统和组织从而为很多组织包括政府部门和数字图书馆采用。2003年,OAIS最终成为ISO标准并颁布。标准的研制,对开展数字资源长期保存实践起到了很好的规范和引导作用。
3 数字资源长期保存实践性项目
近年来,数字资源长期保存领域经历了理论研究到个体实验再到最佳实践、机构联合的发展历程,研究内容不断拓展和深入,吸引了国际上越来越多的机构参与。较为成熟的数字资源长期保存项目已有10多种(见表1),可概括为三种主要组织模式:机构独立保存模式、第三方委托保存模式、合作保存模式,见表2。
3.1 机构独立保存模式
机构独立保存是由保存机构在拥有对被保存资源的使用权的条件下,获得相关权利人(如出版商)许可后进行长期保存,被保存资源的服务范围也大都限定在保存机构内的原有用户。[3]
(1)大英图书馆。1993年,大英图书馆提出了建立数字化图书馆的目标,其内容包括:增加数字形式出版物的保存;为读者提供网络和数字化服务;利用数字化技术保存和修复馆藏等。1999年,大英图书馆成立专门团队,旨在保存一切数字资源,2000年9月和IBM公司将共同建立全国性的数字化图书馆,并提供数字资料的保护和访问。大英图书馆主要将传统馆藏数字化,同时还似开发珍贵馆藏资源为重点。最著名的项目之一便是将已有1000年历史的著名史诗《贝奥武夫》的原稿进行了数字化处理。该稿在遭受天灾人祸之后已经有点模糊,后经特制的高分辨率数码相机使其以数码形式再现,为各种资料的数字化奠定了基础。这点为我国公共图书馆进行馆藏数字化提供了宝贵的经验。该数字图书馆的藏品包括根据馆藏资料制成的文字、声音和图像的数字化文件。[4]
(2)加利福尼亚大学DPR项目。DPR(Digital Preservation Repository)是加利福尼亚大学数字保存仓储项目,它是加利福尼亚大学图书馆数字保存计划的重要组成部分。DPR是支持对数字对象长久保存的一系列服务,它将在授权用户和可信赖的、长期存储系统之间提供受控的、有序的保存和利用机制。[5]目前,DPR的数据存储量是925GB,大约有15万个数据对象。加利福尼亚大学图书馆数字保存计划的目标是:保持能够对所选择的研究和教学过程中产生的数字信息长期存取。为达到这一目标,该计划已经着手开发由DPR和其他工具组成的基于公认标准的基础结构体系,以支持学术信息的识别、获取、描述、组织和持久管理等。
(3)e-Depot数字存档系统。KB(Koninklijke Bibliotheek)是荷兰国家图书馆的e-Depot数字存档系统,由荷兰国家图书馆与IBM公司合作开发,它是一套完全自动化的数字资源保存系统,长期稳定地存储着国际上主要出版商的电子期刊。该系统于1993启动,其战略目标是:确保国际性电子期刊的长期使用,降低数据永久性丢失的风险,在服务被中断后可以作为后备服务,及时提供资源中不再有商业价值的期刊的访问权,防止数字资源格式过时,保存没有后续出版机构的期刊。1995与Elsevier、荷兰出版商协会开始项目合作,2002与Elsevier出版社签署存档协议,目前该系统主要保存世界范围内8个著名出版商的资源。[6]
3.2 合作保存模式
基于保存规模、相关技术、管理机制、法律权限等多方面因素的考虑,一些文献机构较倾向于合作保存模式,即由多家机构共同承担长期保存任务,各成员通过合作实现保存风险和保存成本的分担。
(1)LOCKSS项目。LOCKSS(Lots Of Copies Keeps Stuff Safe)多备份资源保存项目,由美国Stanford大学图书馆于1999年发起并组织实施,得到美国国家自然基金、Sun Microsystems Inc以及Andrew W.Mellon基金支持,主要致力于解决数字资源的永久保存与利用问题。LOCKSS系统最初创建运行在斯坦福大学一个由低端计算机组成的网络上。它通过建立出版商与图书馆、图书馆与图书馆之间的协作平台,提出了从电子资源出版、发布到永久性保存与利用等一整套解决方案。[7]图书馆获得出版商授权后,可以利用LOCKSS工具在本地创建一个低费用、永久保存的数字化信息缓存站点,实现对订购电子信息的采集、本地存储、管理以及用户服务等功能。LOCKSS还包括图书馆之间的协作,即建立联盟图书馆间资源共享与协作机制,实现本地资源的动态更新、损坏修复、丢失补遗等功能,保证资源的完整性及永久有效性。[8]通过该项目,用户可对多种格式的数字化资源,如PDF、HTML、JPEG、TIF等格式,进行可靠、稳定、长期地保存和利用。
LOCKSS系统保存的数字资源主要是内容具有权威性的连续电子出版物,包括电子期刊、报纸、政府文件等类型的资源。2004年Springer与LOCKSS建立了合作关系,牛津大学出版社等一批著名学术出版社相继成为LOCKSS联盟的成员。2005年英国皇家物理学会(IOP)的第一本可长期保存的期刊New Journal of Physics通过LOCKSS系统发布。目前已经有20多个国家的157家机构在使用LOCKSS的BOXES软件,8个出版商正式加入LOCKSS联盟。目前我国加入该联盟的机构主要有中国科学院文献情报中心、清华大学、香港大学、香港中文大学、香港理工大学。
(2)NDIIPP项目。2000年12月美国国会通过法案(Public Law 106-554),决定由国会图书馆领导实施国家数字信息基础设施和保存计划NDIIPP(National Digital Information Infrastructure and Preservation Program)。国会图书馆承担主要管理职责,并与美国重要政府部门及相关数字内容收藏机构合作,同时鼓励广大民营机构参与。这些机构包括:商务部、白宫科技政策办公室、国家档案和记录管理中心、OCLC等。NDIIPP的战略目标是:建立一个由权责明确的合作伙伴联合组成的国家网络,以保障对丰富数字内容的长期获取。目前,NDIIPP保存的数字信息类型为:地理空间数据(Geospatial data)、网站信息(Web sites)、电视节目信息(Television)、社会科学数据(Social science datasets)、电子杂志(E-Journals)、历史资料(Historical materials)。截至2008年底,NDIIPP建立的数字保存合作网络已经吸引了来自全国各地130余个伙伴成员加入。NDIIPP试图有选择地保存电子图书、电子期刊、数字电视、数字录像、网站等6种媒体类型的信息,其所关注的有关数字保存的关键性问题主要包括知识产权、数字信息的采集与选择、数字信息保存计划的经济可持续性以及数字保存的技术结构等。[9]
(3)EMANI:为数学出版物的长期电子存储提供支持的合作项目。2002年2月“数学文献电子文档网络”EMANI(Electronic Mathematics Archiving Network Initiative)研发的国际合作项目正式启动,该项目由德国发起,得到美国康奈尔大学图书馆、德国哥廷根大学图书馆、法国MathDoc联盟、中国清华大学图书馆、德国主要的数学学会、Springer-Verlag出版社等机构的共同参与。该项目旨在为成员馆和内容提供商建立一个合作性的框架,以管理不断增长的数字备份文件和数学类电子出版物,推动世界范围内数学领域的出版物数字化,建立一个统一的数学资料存储和发布平台,以满足高校图书馆和学术性团体的需要,不仅要确保数字资源得到长期的、稳定的保存,还要支持全球用户检索及全文浏览。资料来源主要为Springer-Verlag、Birkhaeuser Verlag、Teu-bner Verlag、Vieweg Verlag和the ELib Min EMIS出版物。[10]
3.3 第三方委托存储
由于长期保存在技术和操作方面的复杂性,任何一个图书馆所配备的人力、物力、财力都无法维持数字资源的长期保存,基于这种需求第三方保存应运而生,它是由资源提供方(如出版商)与资源采购方(如图书馆)以外的第三方机构承担委托保存职责的模式,通常由大型数据中心或商业机构或大型图书馆提供第三方保存服务,[11]目的是共同承担经费开支,共同发展市场,合作行动,从而提供更广泛的数字资源服务。
(1)Portico电子存储项目。第三方委托存储模式中最具代表性的是Portico。该项目由JSTOR过刊数据库和The Library of Congress共同主持,获得安德鲁·梅陇基金会(The Andrew W.Mellon Foundation)的资助,同时也通过向参与项目的数据库出版商和图书馆收取年费的形式获得经费。Portico主要致力于运用第三方委托存储模式为商业化的数字学术资源提供长期存储服务。通过直接与出版商、图书馆签订保存许可协议,Portico一方面从出版商那里获取源文件,把不同的文件转换成标准的、可长期使用的存储格式;另一方面Portico为图书馆保存其所采购的数字资源并在突发条件下为其提供数字资源的访问权。到目前为止已有44个数据库商,9个国家的377个图书馆加入了Portico项目,保存文章数目达到13619643篇(截止到2009年9月17日)。Elsevier2008年与Portico达成合作协议,即Portico协助Elsevier在线STM平台Science Direct处理其电子图书保存问题。此协议将确保Science Direct电子图书内容未来的长期保存。Portico是唯一一个同时保存Elsevier电子图书和全部期刊回溯文档的存储库。由于数字资源的提供和使用存在许多不可预知性,当图书馆无法从数据库商和其他地方获得信息时,Portico为所有提供存储支持的图书馆开放内网的访问权。[12]
(2)AHDS项目。英国的艺术人文数据服务AHDS(Arts and Humanities Data Service)成立于1996年,为JISC(Joint Information Systems Committee)、AHRB(Arts and Humanities Research Board)两个机构共同成立,致力于艺术人文领域数字资源的搜集、保存及推广,从而促进数字资源教育研究。[13]由AHDS联合相关机构进行的数字保存研究,从数字信息生命周期的角度提出了数字保存纲要(Guidelines for Digital Preservation:Draft Data Policy Framework)。AHDS下面还有一个视觉艺术资料服务中心(The Visual Arts Data Service,VADS)。VADS通过互联网提供视觉艺术数字资源的研究、学习及教育,并且使得这些资源能够长久保存。[14]它的任务包括:①对其下属的学科子项目制定技术标准;②提供检索途径并负责妥善保管;③促使高校在科研、教学活动中有效地利用这些学术性档案资源。[15]
4 国内研究进展及其对策
我国数字资源长期保存的研究开始于20世纪末,各种研究着眼于数字资源长期保存过程中所涉及的政策、法律、技术、管理等多种因素。同时,部分文献机构,尤其是高校开展了数字资源长期保存的尝试,最具代表性的有:中国国家图书馆的网络信息资源保存试验项目,CALIS的学位论文持久保存实践,清华大学图书馆参与的数字资源长期保存系统的研究与开发项目以及“大学数字博物馆建设工程”等项目,都从不同方面对数字资源长期保存加以实践。
然而,我国数字资源长期保存起步较晚,在相关技术、法律权限、运作机制、经费投入机制、人才培养机制等诸多方面尚待探索和完善,因此多数文献机构对于数字资源长期保存还存在顾虑,并持观望态度。文献机构需借鉴国外的成熟经验和成果,针对国内实际情况,可从以下几方面入手:
(1)制定完善的公共投入机制,明确数字资源长期保存所需经费来源。
(2)制定相应人才培养机制,确定培训对象,包括:对图书馆现有工作人员和大学相关专业学生进行系统的教育和培训;将数字资源长期保存纳入大学教育;制定相应的学位培养模式,培养专业人才,不断提高图书馆人的信息素质。
(3)建立相对健全、统一的法律授权、管理策略、技术标准、保存政策、资源保存的选取标准。
(4)加强文献机构间的协调、合作,建立统一的战略联盟,通力合作,可以避免重复建设,降低成本,共同解决数字资源长期保存所带来的挑战,规避单独建设所面临的高投入和高风险。
[收稿日期]2010-01-29