LOCKSS与电子期刊长期保存应用研究_图书馆论文

LOCKSS与电子期刊长期保存应用研究,本文主要内容关键词为:期刊论文,电子论文,LOCKSS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着网络时代的到来,Internet已成为人们搜索和获取各类信息的重要途径,每天加入和更新的信息有 700多万页之多。[1]如何像保存印本期刊一样永久保存电子期刊,已成为当前图书馆亟待解决的问题。

2005年9月在安德鲁·梅隆基金特别会议上,与会的具有重要影响力的大学管理者和图书馆馆长们组成的一个工作组提出:“数字资源保存代表了高等教育所面临的重大挑战之一。”该工作组发布了题为《保存学术电子期刊所需采取的紧急行动(Urgent Action Needed to Preserve Scholarly Electronic Journals)》的声明,显示了对这一问题的强烈而广泛的关注,并呼吁学术界采取行动。该声明中强调,由于大量电子出版物激增并且我们的用户群已经开始像过去依赖纸质出版物一样依赖电子出版物,长期保存电子出版物已经成为严峻的问题。图书情报资源委员会(Council

on Library and Information Resources,CLIR)和美国研究图书馆协会(ARL)认为,图书馆需要更深入地理解目前出现的关于保证原生数字学术文献长期存取的策略和选择,以决定其最佳行动方针。[2]

当前,世界上许多一流的图书馆针对电子学术期刊的长期保存相继出台了一系列相应的方针和政策。其中,美国斯坦福大学Victoria Reich领导实施的LOCKSS项目,以其Peer-to-Peer分布式的保存策略在欧美引起了广泛关注,并得到梅隆基金资助,国内有部分图书馆也开始对该项目进行试验性的研究和应用。

1 LOCKSS项目简介

LOCKSS(Lots of Copies Keep Stuff Safe)是一个遵循 OAIS规范的长期保存系统,其目标是建立出版商与图书馆、图书馆与图书馆之间的协作平台,支持授权图书馆从出版商网站下载订购期刊电子版本,实现本地保存、完整性审核、损坏修复等目标,并在适当的时候 (如出版商变化、恶意攻击、自然灾害、政府法令以及数据丢失等)向本地用户提供持续的、永久性的电子信息存取服务。基于Java平台的LOCKSS系统是一个开放性源码的分布式系统,它无需中心级管理就能运行在一些廉价的PC机上,LOCKSS可将这些PC机转化为一个数字信息存档箱(digital preservation appliance ),在本地创建一个低成本的,持久稳定的,易连接的数字化信息缓存站,只要那些存档箱中的信息不被损毁,本地的内容连接簇(community's access)就是安全和有保证的,LOCKSS存档箱内容的准确性和完整性是通过Peer-to-Peer对等方式的分布式保存系统来实现的。[3]LOCKSS存档箱可收集通过HTTP传送的文献资源,支持PDF、HTML、JPEG、TIF、Excel等形式的文献资源,[4]以及音频、视频资料,并可展示所保存的文献资源。

当前,LOCKSS系统保存的数字对象主要是通过网络传递的、权威性的、拥有稳定URL的连续出版物,如电子期刊、报纸、政府文件等。目前,全球有80多家图书馆和50多家出版商参加了LOCKSS项目,出版商提供的数据内容也已逐渐加入到系统中。

2 LOCKSS在图书馆电子期刊长期保存计划中的应用分析

图书馆作为国家重要的信息资源中心,拥有众多的科研用户,构成了一个庞大的信息用户群,是各类信息资源最大的需求者和受益群体。当前,许多图书馆的数字资源构成体系中,有相当一部分资源只是购买了使用权,对资源本身并不具备保存功能,出版商单方面的政策变动或对某个刊物更新的失败,都可能导致丢失过去订购的那些电子资源,并且无法恢复。目前,针对长期保存进行的研究项目除LOCKSS外,还有德国的KOPAL、荷兰皇家图书馆发起的电子仓储“ e Depot”、美国Portico第三方存档服务、美国PubMed Central免费数字化档案、OCLC电子馆藏在线等。其中,LOCKSS所采取的低成本、高安全性、分布式储藏以及遵循标准化协议的开发运行策略引起了人们更多的注意。

2.1 具有较强的实用性与可操作性

传统图书馆的数字资源建设采用的是购买(或租用)使用权的方式,目前被认为存在很多问题(如因出版商问题造成服务中断等),不仅会影响到图书馆的服务,甚至会危及国家数字资源服务保障体系的完整和安全。而LOCKSS系统则为图书馆应对这些危机提供了包括系统、运行机制、合作机制在内的具有较强可操作性和可行性的解决方案。

(1)可以实现电子期刊的自主采集。LOCKSS使用一个类似于搜索引擎的网络信息搜索器(web crawler)在网络上“爬行”,从目标电子期刊收集并保存新发布的内容。这些内容将被存放在一个本地的LOCKSS存档箱里,即使出版商由于种种原因不能提供服务(如合并、破产、订阅取消、网络拥塞等),这些资源仍然是可以被 LOCKSS成员访问的。值得一提的是,LOCKSS同样支持对开放获取资源的采集及保存。[5]

(2)提供7*24小时电子信息存取服务。LOCKSS采取点(Caches)到点的通信方式,一个Caches就是本地图书馆内的一台存储电子资源的计算机,LOCKSS存档箱通常与图书馆系统相结合,接受来自用户浏览器的服务请求,如果被请求的数据单元不在本地Cache中,它将把请求转达给出版商网站,接收结果保存在本地Cache中,同时返回给用户。一旦同样的请求再次发出,而出版商无法提供信息服务时,浏览器端将从本地Cache中拷贝已存储的信息,并返回给用户。[3]

(3)为出版商与图书馆之间的合作建立了系统基础和运行保障机制。通过LOCKSS,出版商赋予图书馆使用和下载及保存数字资源的权利,而图书馆则在数字资源的合理使用、知识产权保护以及避免资源滥用等方面做出承诺并尽到管理义务。同时,双方还可以在制定规范政策、谋求共同发展和共享相关技术等方面进行合作。

(4)为馆与馆之间构建一个理想的共建共享平台。在LOCKSS框架协调下,方便体会到合作共享的成果,如实现成员馆本地资源的动态更新、损坏修复、丢失补缺等功能。

2.2 系统安全性高

系统运行是否安全是所有人最为关心的问题, LOCKSS系统在研发过程中充分考虑了用户的担忧,在技术的采用上尽可能降低系统运行的风险性,确保系统运行和数据的安全稳定。

(1)操作系统与存储分离。LOCKSS系统使用 OpenBSD作为操作系统,通过光盘引导运行,利用PC机存储缓存内容,配置信息则存储在一张软盘上,以防止非法用户对系统的攻击。[3]

(2)自动检测和自动修复。LOCKSS系统采取 Peer-to-Peer的轮询和评价机制对缓存内容进行轮询(Poo1)和投票(Vote),检测内容的完整性和安全性,一旦发现问题,可以通过其他LOCKSS系统修复内容。这种存档箱之间的互补合作避免了为每份信息进行单独的备份,它同时也为系统正常运行、用户访问的内容正确无误提供了保证,参与保存计划的机构越多,能够获得连续访问的保证就越强。[5]

(3)分布式存储。LOCKSS采用了分布式存储策略,图书馆在自己的Cache中保存自己的授权数据,由于拥有足够多的Cache副本和有效的审核及修复机制,基本不必担心数据的损坏。即使遭到恶意攻击,攻击者也不可能对全部副本实施“毁灭”打击,因而 LOCKSS是一个安全稳固的保存系统。

2.3 系统运行成本低

任何一个图书馆都不可能有足够的经费来保存他们想要保存的所有资源,投入低、保存内容多且保存时间持久的系统始终是大家所期待的,LOCKSS可以为图书馆提供这样一个低成本的数字资源保存服务。LOCKSS运行在廉价的PC机上,硬件成本很低;而由于系统的安全性和易用性,管理投入的费用也很低;LOCKSS的资源保存成本也很低廉,从20世纪60年代起,计算机储存的价格以每年50%的速度下滑, 2004年,保存数字资源的成本需要0.35,到了2007年,该项成本预计会掉落至0.07,而每个LOCKSS系统中储存的期刊数则会从2004年的2880种上升到 2007年的23000种。[3]同时,LOCKSS还可以通过建立联盟机制,鼓励更多的图书馆、出版商参与计划,做到成本、风险、利益均摊。

2.4 支持协作保存,服务稳定

图1 各Catch间协作保存关系图

一个完整的LOCKSS系统通常包括三部分内容:顶层的出版商数据库、中间层的图书馆Caches点、底层的终端用户群。其中,中间层Caches不仅包括同一图书馆内的多个Caches,也包括不同图书馆间的 Caches,各个Caches之间彼此互连,呈网状结构分布,这种结构实现了Caches间互相备份支持的目标,[3]以及相互之间的协作保存。同时,通过建立LOCKSS联盟机制,可以实现馆际间资源的共享与协作,实现本地资源的动态更新、损坏修复等功能,保证资源的完整性及永久保存。

2.5 许可证管理明确了合理使用范围

LOCKSS采取许可证管理方式对电子资源实施管理,即图书馆需要从出版商处获得建立LOCKSS馆藏的法律授权(许可权),以对选定资源进行收集,保存,并提供第三者访问。这项工作通常是由LOCKSS联盟的成员共同向出版商申请的,或是由第一家希望保存的图书馆提出的。大多数情况下,出版商一旦赋予了 LOCKSS系统许可权,系统成员均有权对LOCKSS资源进行访问。许可权一般包括:[6]

(1)书面许可证或者使用条款和使用条件在内的法定许可。书面许可证通常赋予图书馆这样一些权利:收集和保护当前获得的资料;可以使用这些与最初的许可证条款一致的资料;为其他经授权获得的资料提供审查和修缮的副本。

(2)允许通过LOCKSS出版商表单搜索在线资源。出版商网站上的出版商表单允许LOCKSS搜索器收集获得授权的电子资源,越权采集将被拒绝。表单是一个包括一份许可声明的网页,允许对一个或多个档案单位(Archival Units,比较典型的是一册/卷)的在线访问,并列出这些档案单位的顶层URL清单。

许可权管理不但实现了图书馆本地保存已采集电子资源副本的需求,明确了合理使用范围,也使出版商的利益得到了保证。而且,LOCKSS低成本的运作模式会使更多的出版商乐于考虑使用LOCKSS程序对他们的出版内容进行保存和归档,LOCKSS联盟也将争取使获得出版商许可的费用最小化,不久的将来,开放的许可将会更广泛地应用于图书馆,而不再需要与个别机构协商,这对广大图书馆而言无疑是一个福音。

2.6 用户操作简便

通过LOCKSS系统,科研人员及其他用户能够方便地通过原始链接访问存档的和最新的出版内容,并能使用现有的搜索引擎实现对所需资源的简单定位和访问。

2.7 方便系统管理

LOCKSS提供了一个基于WEB的操作界面,允许管理员锁定新的期刊以进行保存,跟踪现存期刊的保存状态,控制对现存期刊及其他功能模块的访问。

2.8 资源采集覆盖面广

学术资源的开放使用在国外发展很快,而国内图书馆普遍对此开发不够,既有观念的因素,也有技术上的障碍。随着图书馆管理理念的转变,以及人们使用信息习惯的改变,开放存取资源的组织、管理与利用将成为图书馆的一项重要工作;对此,LOCKSS已经注意到了这一点,并在系统结构设计及功能实现上开发并支持开放存取资源的采集与保存功能。现在的 LOCKSS不仅支持订购期刊的采集与保存,同样也支持开放获取资源的采集及本地保存。

3 应用中应注意的问题

3.1 吸引足够多的图书馆和出版社成为联盟成员

实验性数据表明,在LOCKSS系统上每个专题至少应有不少于六份的副本才能保证资源的完整和安全,应付可能发生的数据丢失或损坏,因此加入联盟的图书馆越多,数据的安全性和完整性才能得到充分的保证,参与的出版社越多,可获得的资源则越丰富。另外,通过鼓励图书馆和出版社的广泛参与,才能更好地兼顾成本和效益。

3.2 解决好与出版社的版权许可问题

与版权人协商前要做好充分的准备工作,版权许可使用合同要明确双方的权利和义务,如许可使用的权利种类、是专有使用权还是非专有使用权、许可证使用的地域范围、时间、付酬标准和办法以及违约责任等。同时,要尽量为图书馆争取更多的利益,如许可协议是否包括存取原来的数字信息(图书馆订购之前出版的文件);如果图书馆取消订购,是否还能继续存取资料等[7]。

收稿日期:2007-05-22

标签:;  ;  

LOCKSS与电子期刊长期保存应用研究_图书馆论文
下载Doc文档

猜你喜欢