澳大利亚网络信息保存项目PANDORA及其启示,本文主要内容关键词为:澳大利亚论文,启示论文,项目论文,信息论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
保存人类的知识和文化遗产是图书馆的重要职能之一,网络信息资源也在保存之列。但目前网络信息消失的速度非常快,据估计,网页平均寿命只有44天。有鉴于此,各国保存机构如图书馆、档案馆已经认识到保存网络信息资源的必要性和紧迫性,并开展了各种实验项目来进行网络信息资源的保存,其中澳大利亚国家图书馆在这方面做得比较突出。
1996年,澳大利亚国家图书馆开始保护和存取澳大利亚网络信息资源项目(Preserving and Accessing Networked Documentary Resources of Australia,PANDORA)研究,根本目的是在建立一个经过选择的澳大利亚网络信息资源归档系统的同时,为保护和存取澳大利亚电子资源制定政策和程序。本文拟对该项目进行介绍评析,希望对我国的网络信息保存有所助益。
1 基本情况
PANDORA项目的初衷是考虑到图书馆有责任收集和保存已经出版的国家资源,而不论资源采取什么样的形式。20世纪90年代早期,澳大利亚国家图书馆就开始探讨保存联机电子资源的方法。1995年任命了一个电子保存专家,成立了一个跨项目的委员会制定选择联机出版物的原则,同时建立一个电子部(Electronic Unit)来收集联机出版物并进行编目处理。目前该项目由电子资源部、编目部、期刊部等部门共同管理,以电子部为主。澳大利亚国家图书馆每年大约花费100万澳元来支持该项目,其中还不包括合作伙伴的支出。现有5个专职员工。其数据增长很快,数据规模已经比较庞大,同时收集的各种类型的文件也比较丰富,主要是文本文件和图像文件(见表1、表2)。
表1 PANDORA的数据规模
2003年9月26日2003年8月26日月增长速度
标题数量 4682 4420262
拷贝数量* 9146 8716430
文件数量 16841954 16522977 318977
字节数**
508.711 491.678 17.033
*一个拷贝指的是一个标题的快照或拷贝文件,很多标题不止抓取一次快照,每一次抓取得到的快照称为一个拷贝。
**系统包括工作文件、保存文件和显示文件,这里的字节数仅为显示文件的总字节数,计量单位为10亿。
表2 主要文件构成
类型 数量
文本(Html) 2373025
图像1280108
应用程序 40924
音频 19047
文本(非Html文件) 12075
脚本(Script)
4787
视频
3003
模型119
资料来源:http://pandora.nla.gov.an/statistics.html,2003-10-06
2 系统总体模型
PANDORA包括5个环节:出版物选择收集(Publication Selection)、检索(Access)、存储管理(Archival Management)、报告生成(Report Generation)和提交(Filing)(见图1)。“选择模块”主要对整个收集过程进行质量控制;同版权所有者进行协商,获得存取权利;同信息生产者和出版者发展一种合作伙伴关系;跟踪网站设计特征和文件格式方面的指标,从而为将来的管理服务;记录所有为将来保存用的元数据;保持对多样性和复杂的各种文件的长期存取。“检索”主要处理和用户相关的活动。“存储管理”主要负责添加新的出版物到归档系统;更新、修改和删除系统的出版物。“报告生成”主要是为项目管理者、出版者等生成各种统计数据。“提交”主要记录和出版者交流的情况。
图1 PANDORA的处理模型
3 收集
3.1 收集策略
目前网络信息保存主要有两种收集策略,一是选择性收集,另外一种是全面收集。考虑到很多网络信息没有或很少有长期保存的价值,澳大利亚国家图书馆和合作者没有试图要抓取所有和澳大利亚相关的网站,而是采取了选择存取的策略。图书馆制定了一系列的关于网站和联机出版物选择的指导原则。这些指导性原则主要考虑以下几个因素:是否和澳大利亚有关、是否为澳大利亚人的出版物、研究价值、出版物是否有纸本、在出版环节是否有任何质量控制、公众对主体的关注程度、出版物是否已经被权威标引机构标引等来选择需要保存的网络信息资源。该项目侧重于收集只有网络版的出版物,也就是说,如果有相应的纸本,图书馆就收集印刷本,这主要是考虑到印刷本比较容易保存。尽管选择性收集受到各种质疑,比如成本较高,后人会对现在的选择标准提出非议等,但澳大利亚国家图书馆仍旧坚持认为这种有质量控制的策略是最好的策略。
3.2 工作流程
·确定哪些出版物需要保存。
·同出版者联系,获得出版者的保存许可。
·对网络信息进行编目,并合并到国家书目数据库中,从而保证其他图书馆能够检索到这些资源。
·请求保存管理部门保存网络信息。通过网络机器人(Harvest或Webzip)来进行网络信息资源的抓取。也有可能要求出版者提交有关该网络信息的文件。
·检测:为了确保被保存信息的完整性和准确性,图书馆使用了一个网站分析工具(Linkbot)对收集网站中漏掉的文件进行检测。同时工作人员对整个站点进行人工检测,比如说Java脚本没有正常工作、漏掉文件或者说由于编码错误或大小写敏感问题的失效链接。如果电子资源部的工作人员不能解决这些问题,就需提交给技术部解决。
·为该保存对象分配一个永久标识符。PANDORA项目的永久标识符构成如下:〈collection id〉—〈work identifier〉—〈archive date〉—〈publisher's URI〉—〈generation code〉
〈collection id〉为资源类型编号;〈work identifier〉为对象标识符,是分配给该资源的唯一的号码;〈archive date〉存档的时间,格式为YYYYMMDD;〈publisher's URI〉出版者的统一标识符,包括主机的名称、路径和资源的名称;〈generation code〉用两个数字表示用来代表那些使用迁移技术形成的资源。
3.3 收集周期
收集周期主要取决于被收集站点的特点,如果是专著只收集一次,期刊则每周收集一次。抓取的深度同样取决于站点自身的特点,如果站点规模很大,可能只收集其中的一部分信息。外部链接不予收集。
4 检索存取
图书馆和版权所有者进行协商,在不损害出版者利益的前提下探讨存取条件。将出版物分为4种类型:①无限制出版物主要是指那些可以在网上免费获得的出版物。②部分商业限制主要是指那些要付费的出版物,图书馆尽力使出版者允许免费存取,但大多数出版者只允许馆内用户免费存取。③还有一些商业出版物的出版者为了保护其商业利益,要求在某一个期限内不可以提供免费存取,称之为全部商业限制。④那些被取缔的出版物等违法的出版物。每一种出版物的检索级别都是在和出版者协商的基础上商定的。具体情况见表3。
表3 PANDORA项目用户检索级别表
无限制出版物 部分商业限制 全部商业限制
全部限制
NLA没有购买 NLA购买
内部用户 全部可以检索 全部可以检索 在3年、5年 可以检索
或10年内不
可以检索 不可以检索
外部用户 全部可以检索 3年、5年或10 3年、5年或10年内不可
年内不可以检索 以检索
在检索界面,用户可以按照主题和字母顺序进行浏览,分成人文、健康、新闻媒介等15个主题。也可以按照关键词进行检索。
5 长久保存
整个项目的最终目标是保证未来的澳大利亚人能够检索存取今天澳大利亚的网上信息资源,就像我们今天能够检索以前的报纸和图书一样。要想达到这一目的,图书馆就需要采取积极主动的措施来保护对系统资源的存取。考虑到馆藏的多样性,图书馆正采取多种方法加以处理。这些方法包括:维持和保存当前的软件甚至硬件;对那些能够和新的文件格式兼容并能够进行大规模转化的文件进行迁移;如果可能的话,针对某些文件格式开发出仿真工具;对那些不适合迁移和仿真的文件进行简单的保存和更新。
图书馆已经计划设计一个文件迁移的程序。为此作准备,国家图书馆已经确认了系统中所有的文件格式,并希望能够对每一种文件格式设计出一种有效的保存途径。确定了系统中所有用较新版本的浏览器无法进行浏览的Html插件。并且已经开始了一个小规模的实验,希望能够使用最新版本的Html格式来浏览这些已经过时的插件。
6 启示
6.1 建立合作分散的保存责任体系
数据归档小组1996年曾经提出:“发展建立数字归档系统的最有效、可行的办法是构想一个分散的、而不是集中的框架,来收集信息对象、保护长期完整性、保证未来的使用。在这种分散的框架下,将保存任务赋予那些对数字对象非常关注,并且能深入理解数字信息的价值的机构。”澳大利亚国家图书馆同样认为网络信息长久保存超越了任何一个单独机构能够承担的能力,因此该馆联合了很多图书馆和档案馆以及其他相关机构,力求创建一个全国分担保存网上出版物的模式。其合作伙伴包括维多利亚州立图书馆、昆土兰州立图书馆、西澳大利亚州立图书馆、澳大利亚声像资料馆、南澳大利亚州立图书馆、新南威尔士州立图书馆以及北方图书情报服务中心(Northern Territory Library & Information Service)。
6.2 与出版者进行广泛合作
由于新的知识产权法对数字文献的知识产权持肯定的态度,网络信息资源同其他任何出版物一样都受到知识产权的保护。在当前的法律框架下,网络信息归档系统没有权利复制和使用网络信息,也没有权利对原先收藏的网络信息进行格式转换,从而保证信息可用。在当前,除了少数几个国家,如丹麦、挪威,大多数国家的数字呈缴制度都没有建立起来。澳大利亚的经验告诉我们,在这种情况下,要与出版者进行广泛的合作协商,在保证他们利益的前提下,保存网络信息资源并提供存取。很多国家的网络信息保存项目目前不能提供存取服务,我们说保存的目的就是为了存取,如果不能提供存取,保存也毫无意义可言。PANDORA提供的存取虽然是有限制性质的,但毕竟提供了一种可行的办法。