为未来保存历史:澳大利亚网络资源档案简介潘多拉_pandora论文

为未来保存历史:澳大利亚网络资源档案简介潘多拉_pandora论文

为未来保存历史——澳大利亚网络资源档案PANDORA介绍,本文主要内容关键词为:澳大利亚论文,网络资源论文,未来论文,档案论文,历史论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

20世纪90年代,互联网得到迅速发展,逐渐成为全球信息获取和传递的主流工具。政府、学术界、商业界和社会团体中,越来越多的信息提供者开始使用互联网发布信息,提供服务。互联网上的信息、资源越来越多,但这些信息发布者很少关注将这些信息作为一种文化遗产长期保存以供将来利用或支持未来的研究活动。在互联网时代的早期,澳大利亚国家图书馆就清醒地认识到上述资源是一种重要的社会、智力和文化资产。对于图书馆而言,它们与印本资源具有同样的地位,图书馆对其负有收集、保存、管理和开发利用的责任。基于这种认识,澳大利亚国家图书馆着手建设PANDORA,力求为未来留住历史。

PANDORA(Preserving and Accessing Networked Documentary Resources of Australia)是英文“保存和获取澳大利亚网络文献资源”的缩写,是澳大利亚的Web资源档案,以收集、保存与澳大利亚相关的网站和联机出版物为目标,旨在通过这种保存为未来的用户提供对这些资源的存取和利用。PANDORA始建于1996年,由澳大利亚国家图书馆发起建设,截止到2006年1月,共收集了相关网站和联机出版物10,810个,包括澳大利亚非常有代表性的学术、政府、商业和组织机构网站。例如,奥运会的官方网站(在现实网络中已经不存在了)。目前,PANDORA的合作建设者已经扩大到了澳大利亚各州/地区的图书馆和文化收藏机构。

2 概述

2.1 发展历史

早在1995年,澳大利亚国家图书馆就发现:只以联机格式出版的与澳大利亚相关的信息的数量日益增多,这正成为一个需要引起关注的问题。1996年1月,澳大利亚联机出版物选择委员会成立,负责制定该类资料的选择指南。同年4月,澳大利亚电子部(2003年更名为数字存档部)成立,开始按照上述标准选择联机出版物,同时负责与出版者协商获得存档其出版物的权利,并将这些出版物编目存储到国家书目数据库。

资料存档工作在两个层面上同时展开:一方面制定政策、构建理论模型;另一方面使用免费软件进行web存档、存储和存取的实践。1996年10月下载了最初的两个titles(在PANDORA中,一个title指按照资源选择指南筛选出来进行独立存储的一项,如一个网站、一种联机出版物),到1997年6月存档量达到31个titles。

1996-1997年期间,在理论层面上进行了许多努力,主要考虑两个问题:我们想做什么?我们如何去做?最终形成了两个关键的文档:商业处理模型(Business Process Model,对PANDORA资源的选择、文档的管理、对用户的服务等方面进行了详细的规范和说明)和逻辑数据模型(Logical Data Model)。到1998,相关的政策、程序和基础设施已经有了足够的发展,可以邀请各州的图书馆作为合作者共同建设,8月,Victoria图书馆作为第一个成员开始参加PANDORA的建设。到2004年3月,所有大陆的州立图书馆、北部地区图书馆、国家电影与声音档案馆、澳大利亚战争纪念馆、澳大利亚土著和托雷斯海峡岛上居民研究所成为其合作者,共计10个。

PANDORA现已成为国家图书馆资源采购和馆藏管理过程中的一项常规工作,是国家图书馆数字馆藏管理整体框架的一部分。它由图书馆馆藏管理部门的数字档案部(Electronic Unit)负责管理、选择、存档、编目titles,并向其它参与者提供支持。同时,也负责专著和连续出版物采编的部门参与管理。目前,由来自各合作单位的大约11个全职工作人员负责完成存档的基本工作,另有2.25个全职工作人员从事管理工作。

2.2 目标[1]

PANDORA的目标包括:

●根据已经制定的资源选择指南,识别和选择澳大利亚重要的联机出版物并对之进行编目;

●与出版这些出版物的出版商协调工作,捕获其出版物的副本,保存到国家图书馆的电子档案中以供长期保存;

●在遵从公平交易规则的前提下,使用户可以利用信息;

●在充分考虑出版者的商业利益的前提下向远程用户提供对资源的访问;

●长期保存联机电子出版物的原貌;

●在保持以往版本的基础上更新文档中的信息;

●随着版本的变化将出版物转换成新的格式。

在实现上述基本目标的同时,PANDORA还希望实现如下目标:

●致力于就扩大版权和法定呈缴制度以包括联机出版物进行磋商;

●建立澳大利亚联机出版物的永久命名系统,以克服失效链接问题;

●实现用基于都柏林核心元数据集的系统描述存档文件,使信息的联机检索更有效;

●与其它图书馆合作建立澳大利亚国家数字文档。

2.3 特点[2]

●有适合国家图书馆整体馆藏发展政策的资源选择标准;

●有系统的软件(PANDAS)收集和管理资源;

●资源的收集工作由国家图书馆和各个参与馆共同承担;

●资源存档前获得资源出版者的许可;

●对存档的每一个title进行编目,目录款目同时包含在国家图书馆目录、国家书目数据库中和PANDORA网站上,提供多种资源发现途径,并与其它信息资源整合;

●对存档的每一个title进行严格的质量检查,以确保其能够被正确的捕获。

3 资源建设

3.1 资源选择策略

PANDORA采用选择性收录的原则,存档的内容均经过慎重选择。采用这一原则的好处在于:对文档中的每一项都能够进行质量控制;对每一项(一个title)可以根据其出版周期或网站的变化频率实施个性化的收割计划,以保证尽可能全面地收集其内容;可以对每一项进行充分地编目并存入国家书目数据库;根据与出版者的协商,文档中的每一项都可以立即可用;可以对文档中的个别资源或某类资源进行分析以确定其重要性,有利于为长期保存制定合适的策略;可以识别无法被收割机器人访问的网站,以通过其它方式存档这些网站。

PANDORA以澳大利亚联机出版物和网站为收录对象,但并不试图保存澳大利亚所有联机出版物和网站,而只保存那些重要的且具有长期保存价值的部分。这里的联机出版物是指普通公众或特定群体的公众可用的信息,不考虑其格式、传递方式、是否付费。国家图书馆在选择指南中规定的一些出版物类型(但不限于这些)包括:期刊、报纸、快报和其它连续出版物、会议录、有价值的报告、论文和演讲、年度报告、地图、有价值的文学作品、公众可存取的信息数据库、曾以印本形式出版的文档、任何符合ISSN、ISBN或ISMN的文档,上述资源的每一个新的版本(但不包括微小的变化),网站或网站的一部分,需提供某个主题、组织、国家重要人物、项目或事件的实质性的或唯一的信息。

PANDORA的每一个合作者都有自己的资源选择指南,定义其收录范围。参与建设的每个图书馆都有其侧重点和收录范围,各司其职,各个图书馆的资源选择指南对具体遴选条件的规定有一定差异,但总体上具有相似性。国家图书馆旨在存档具有国家重要性的资源,而各个州的图书馆旨在存档那些在州或地区层面上具有重要性的资源。National Film and Sound Archive负责存档与音乐和电影相关的资源;而Australian War Memorial负责存档与澳大利亚军事历史相关的资源;Australian Institute of Aboriginal and Torres Strait Islander Studies存档本土人的出版物和网站。

PANDORA在资源选择时一般考虑的问题包括:内容是否与澳大利亚相关;作者是否是澳大利亚人;是否有研究价值;是否有对应的印本;联机出版过程是否有质量控制;公众对相关主题的兴趣;是否被公认的索引服务索引。例如:国家图书馆规定,所收录的对象必须具备如下基本特征之一:①内容与澳大利亚相关;②属于社会、政治、文化、宗教、科学、经济方面,内容与澳大利亚相关或对澳大利亚十分重要的,或者由澳大利亚人撰写的;③由澳大利亚知名人士所著,对全球的知识积累做出贡献的。

对于各个州或地区的图书馆来说,选择标准的主要区别在于其存档的范围缩小到本州/地区,其选择的侧重点是与本州/地区相关或对本州/地区有重要意义的资源。

(1)载体格式

一般情况下,PANDORA只收录纯电子版的资源,对于有对应印本形式的电子资源,除非电子版中包含有印刷版中不包括的重要信息或价值,或者是被索引或文摘商引用的资源,否则不在考虑范围之内。因为相比之下,印本资源更容易长期保存。

当资源的联机版本和CD-ROM或者软盘版本同时存在时,优先考虑存档联机版本,除非二者在内容上有重大差别。如果由于技术原因而无法下载联机版或者无法使用其中比较有用的功能时,考虑寻找其物理格式的版本取代或补充联机版。

国家图书馆认为,与印本资源相比,联机资源的选择性程度更高,因为其潜在的处理量要远远大于印本资源;不仅如此,联机出版物缺乏类似于印本资源的质量控制机制(由编者和出版者所提供的部分),因此,其选择标准比印本资源具有更大的变化性。

(2)内容类型

在国家图书馆的资源选择指南中规定了PANDORA的存档重点包括如下几类资源:国家和ACT政府出版物、第三级教育机构的出版物、会议录、电子期刊、索引和文摘商引用的资源(主要来自头三类)、主题网站,包括两类:特定主题领域的网站,记录当前社会或政治方面关键问题的网站,如选举网站、悉尼奥运会。当然并不限于这些内容,其它高标准的、具有长期研究价值的网站,无论其主题、格式、出版物类型如何,都在收集的范围之内。

除特殊情况外,下列资源基本不在考虑的范围之内,包括:Cams(利用web照相机上载数字图片的网站)、数据集、讨论列表、聊天室、bulletin boards和新闻组、草案和正在完成中的作品、游戏、个人论文、新闻网站、有印本的联机日报、组织记录、以组织互联网资源为唯一目标的门户和其它网站、编译其它信息源的信息而没有原生信息的网站、学位论文、在机构内部网上传播利用的资源。

(3)文档格式

国家图书馆的资源选择指南中并不限制资源的文档格式,PANDORA中包括多媒体格式(如视频剪辑)和动态格式(如OnSecure是一个动态生成的数据集,在Archive中它是静态存储的),以及诸如文档之类的文本格式。PANDORA目前还不保存插件和其它软件,它超出了国家图书馆的资源收藏范围。

尽管对文档格式没有限制,但是在实践中可能由于技术原因而无法存档特定类型的资源,例如,在当前条件下,无法对数据库结构的出版物存档。

(4)收录深度

依网站不同而不同,通常情况下收录整个网站。如果网站的规模十分庞大,如一个政府部门的网站,可能只选择网站中包含某些特定信息(如某个特别的项目或计划)的部分。有时只从一个大型网站中选择一些出版物,如电子期刊、快报或科技报告。

迄今为止,PANDAS系统还不能处理动态网站(如数据库和其它深层网站)。因为它依靠机器人收割自动完成存档,而收割机器人需要导航HTML链接。但数据库或其它交互/动态网页因需要在搜索框中输入条目,或从下拉框中选择选项,因此不能被收割机器人处理。

(5)资源位置

PANDORA对于原始资源的位置没有限制,可以存储在澳大利亚或海外的服务器上,保存的资源集中存储在国家图书馆的服务器上。

(6)更新频率

根据网站和出版物的特点而各不相同,尤其考虑其出版计划、内容的价值、稳定性和生存周期。例如:专著只需要收割一次,对于某些特定的事件,如悉尼奥运会,网站每天存档。总之是根据案例个别确定。当前,PANDAS每天最多只能收割一次。

(7)外部链接

不存档外部链接,只存档属于本网站的链接,而不存档导航到其它网站的链接。主要原因在于可能还没有从其它网站获得存档其资源的许可。

(8)长期保存

对于国家图书馆和研究性图书馆来说,馆藏建设应满足未来几十年或几个世纪的学者的需求。存档澳大利亚联机出版物仅仅是确保对其实现长期保存的第一步。计算机技术迅速发展,20年后所使用的接口、技术标准和文档结构将与今天的大相径庭,这对于保持联机出版物的长期可用来说是一个巨大的挑战。国家图书馆已经制定了数字资源的长期保存政策,开始了对其数字馆藏的风险评估,重点即PANDORA内容,并独自或与其它组织(包括RLG、OCLC、IIPC等)合作继续积极开展相关研究。目前已出版了数字馆藏长期保存元数据草案,希望对长期保存元数据进行定义。

(9)经费支持

在经费支持方面,对于这一基本的但高投入的活动,政府没有任何额外的投入,PANDORA的所有经费都由各合作方承担,从其日常经费中支出。国家图书馆同时承担档案的管理、存储和长期保存的费用,以及开发和维护技术基础设施的费用。

3.2 数据积累

2006年1月15日的统计数字显示,PANDORA的存档量titles累计达10810个,文件累计达29,216,400个,存储量已达1062GB,参见表1。但从占澳大利亚全部互联网资源的比例来看,PANDORA存档的内容只是澳大利亚全部互联网资源的一小部分,估计不足1%。

表1 PANDORA统计(2006-1-15)

This monthLast monthGrowth this

month

Total no.of 10,810

10,418 392

archived titles

Total no. 21,463

20,857 606

of archived

instances[*]

Total no.

29,216,400

28,734,346482,054

of files

Total size

1062.05

1038.259 26

in gigabytes

(来源:PANDORA archive size and monthly growth,http://pandora.nla.gov.au/statistics.html)

其中,title指存档的一项资源,如一个网站、一个联机出版物,instance是指一个已经在文档中存在的title的一个单一的快照或副本。许多titles在文档中有多个副本,以捕获其变化的内容,如连续出版物新的一期出版时,一个title的一个新的拷贝被看作是一个“archived instance”。

注意:PANDORA中的文档由三个主副本组成(长期保存副本、显示副本和元数据副本),它们存储在国家图书馆数字对象存储系统(DOSS)中。此外,还有一个为显示目的而保存在web服务器上的副本,上述数据就是根据对这个副本的统计获得的。

3.3 法律问题

国家图书馆通常依靠法定呈缴制度建设本国已出版作品的馆藏。世界上与法定呈缴制度相关的大多数法规都是在电子出版物出现之前制定的,一般不包括联机出版物。澳大利亚的国家法定呈缴制度包括在1968年的版权法案中,它只要求对印本资源呈缴一份复本,并不包括电子出版物。当前,澳大利亚国家图书馆与澳大利亚ScreenSound Australia:National Screen and Sound Archive正在协同努力,希望修订该法案以包括各种类型的电子出版物,以及影片和声音,但还没有具体实现。

在澳大利亚,每一个州或地区的图书馆也是该州或该地区出版物的法定呈缴图书馆。参与PANDORA的所有州和地区图书馆,除Western Australia之外,都有关于印本出版物的法定呈缴制度。一些州/地区已经修订了该制度以包括电子出版物,如CD-ROM、DVD的呈缴,但还没有明确的包括联机资源的呈缴。在参加PANDORA计划的图书馆中,目前只有Northern Territory图书馆有法律依据存档联机资源,该州2004年颁布的出版物法案中(Publications(Legal Deposit)Act 2004)明确包括对联机出版物的呈缴。

由于在国家层面和州的层面上缺乏对联机出版物的法定呈缴制度,大多数PANDORA合作者在将内容存档之前不得不寻求出版商的允许,在出版商允许的前提下才能将出版物或网站复制存档。

4 技术支持[3]

PANDORA使用的档案管理系统是PANDAS(Pandora Digital Archiving System),它由国家图书馆开发,旨在支持其建设选择性Web资源集的工作流、处理过程和元数据需求,同时对其它参与者提供支持。这是一个基于Web的、集成的Web存档管理系统,采用Web界面提供服务,它支持地理位置分散的用户通过Web界面使用系统存档资源,使文档提交的全部处理工序可以在远程完成,可以实现从不同地理位置共建一个集中式文档集合。

最初,PANDORA通过集成公共领域软件作为技术支持,随着存档资料的增多和参与者的增多,需要更复杂的系统的支持,图书馆先期希望购买一个数字存档系统,于是在1998年启动了数字服务项目(Digital Services Project)[4],旨在为其数字馆藏(包括PANDORA存档的数字资源)的管理和长期保存提供技术保障计划。项目征求了产品和服务的潜在提供者的意见,并对需求和市场上现有软件进行了分析,发现目前市场上还没有一种可以支持PANDORA的软件,故决定自行开发数字存档系统。数字存档部门先后与商业系统支持部和应用部门共同确定数字存档系统的需求,PANDAS的第一版于2001年6月发布,第二版于2002年8月发布,第三版预计将于2006年早期发布。

PANDAS的系统结构包括四层[5]:描述层(为终端用户提供系统应用层的可视化描述)、应用层(面向具体客户端的服务器实现)、商业层(为应用层提供对异构数据存储和通信设施的统一存取)和数据层(由第三方基础设施产品组成,为商业层提供工业标准接口)。

PANDAS支持由国家图书馆数字存档部门设计的工作流,包括:识别、选择、注册候选titles、寻找和记录存档许可、设置收割制度、收割文档、实施质量保证检查、启动存档过程、组织对已存档资源的存取、显示、发现例程、提供元数据。

PANDAS通过如下功能来支持上述工作流:对titles的管理元数据进行管理;对存取限制进行管理;计划并启动选定存档资源的收割工作;质量检查的管理,保证处理和相关问题的解决;通过title款目页、title和主题列表向公众显示已存档实例的准备和组织;提供已定义的管理报告。

国家图书馆受托提供对PANDORA和其它数字馆藏项目提供永久访问。为实现这一目标,PANDAS使用永久标识符标识存档的资源。当title注册时,系统会为之分配一个系统自动生成的数字,该数字是分配给已存档title的标题款目页的永久URL的一部分。PANDAS的永久URL是根据国家图书馆为其数字馆藏所制定的一个计划生成的永久URL或永久标识符,记录在标题款目页的底部。

PANDAS不仅在title等级上分配唯一标识符,同时为title的所有组成部分创建永久标识符。例如,电子期刊的某一期中的某一篇论文,网站中的一幅图片或一张表格。它一般在每一个title款目页的底端,就在title的永久标识符下面。PANDAS提供了一个称之为citation service的服务,以帮助用户获得一个title的任何部分的永久标识符。在浏览器中打开想要获得永久标识符的部分,从地址栏中剪切PANDORA URL,将其粘贴到citation service中的文本框中,单击Go按钮,就会显示这一部分的永久标识符。永久标识符总是指向它所定义的资源,可以可靠的引用,链接永远不会失效。

通常情况下,通过使用收割机器人获取出版物,当前的收割软件是HTTRACK,该机器人可以从出版物的网站上下载出版物的复本(在出版商的允许下)。在某些环境下,出版商将标题通过email发给PANDORA,若网站很大,尤其是在其很复杂的时候,会要求出版商通过磁盘提供网站。

为了满足其它机构希望利用PANDAS建立Web文档的兴趣,国家图书馆开发了PANDAS评估系统,使其它感兴趣的机构能够对软件进行评价以确定是否满足其需求。

为实现对资源的管理和长期保存,PANDAS为PANDORA存档的所有出版物和网站创建并维持管理元数据,包括出版者的联系方式,授权存档的日期,收割频率,对存取的限制。它还自动收集有关长期保存的元数据,尽管目前这对于长期保存的需求还不够。国家图书馆计划改进PANDAS,扩大其所收集的长期保存元数据的范围,并提供一个用户接口,使管理者能够更容易的获取元数据。

5 服务提供

PANDORA面向全球提供服务,其中绝大多数titles可免费使用,有一小部分titles由于商业原因或其内容比较敏感而限制使用,大多数商业出版物可以在国家图书馆阅览室通过PC机访问。可以通过PANDORA主页访问PANDORA档案的内容。下面是一些可利用的访问路径:

●PANDORA主页上Titles的字顺列表;

●PANDORA主页上Titles的主题分类列表;

●PANDORA主页上的搜索功能;

●国家书目数据库、国家联机目录和其它合作者的联机目录中每篇论文或馆藏记录中的热点链接;

●商业搜索引擎如Yahoo、Google也索引了PANDORA中的内容,一般索引到title级,没有深入到title中的内容。

对于那些由于商业需要而限制访问的资源,PANDAS能够使管理者将存取权限限制在PANDORA中的titles上。对titles可以在一段时期内进行限制,如从存档开始1年内,也可以限制一个固定的截止日期,如2006年8月1日,也可以通过用户(口令)限制存取。

PANDORA的合作者与出版者协商确定一个合适的限制使用期,一般情况下,在此限制期内该内容可以通过商业渠道获得。在限制期内,大多数出版者允许PANDORA对标题进行限制使用,一般是在国家图书馆或者其它合作者的主阅览室中的单一PC机上使用在这些机器上,不允许电子拷贝或发送email,但可以进行印本的拷贝。

6 成就和问题

(1)迄今为止,PANDORA已经实现了下述目标[6]:

●以特定的澳大利亚联机出版物为内容,建立了一个世界级的文档。这些出版物包括诸如电子期刊、政府出版物、研究性网站和具有文化重要性的网站。

●制定了存档内容的采集及长期存取的政策、程序和选择指导方针。

●形成了对澳大利亚联机出版物的存档和长期保存的全国性协作方式,包括各州图书馆及其它文化机构的参与。

●开发了数字存档系统PANDAS,可以高效的收集并上载出版物,存储其相关信息,管理公众对这些资源的存取。同时开发了测试、培训和评估系统。

●建立了永久命名档案中所有对象的框架。

●与索引和文摘制作商合作,在PANDORA中存储其索引或摘要的出版物,并提供永久标识符。

●研究联机出版物的长期保存并制定相关政策,包括长期保存元数据、移植、风险分析等。

(2)存在的问题

尽管PANDORA的建设已经取得了令人瞩目的成就,但仍旧存在着一些问题。目前,PANDORA建设和运行过程中存在的问题主要在管理、技术、法律三个方面[7]。由于Web资源的数量和内容质量的变化性极大,导致对其的识别和选择异常困难,PANDORA当前的功能还不能够满足或者不能够完全满足所有资助者的需求。而由于技术的迅速发展和巨大变化,以及许多联机资源应用技术的复杂性,导致对资源的长期保存和支持其长期可用存在困难。法律方面,由于没有法定呈缴制度的支持,国家在获取这些资源时需要和每一个资源的创建者/出版者协商,增加了资源收集的难度;另外在提供利用方面缺乏有力的法律依据,也使得许多时候对资源的利用不够充分。

另一个问题是资源的选择性原则带来的资源覆盖面的问题。资源的选择性原则尽管有诸多益处,但高度的选择性却降低了资源收集的全面性(估计PANDORA所选择的资源仅仅占澳大利亚全部互联网资源的1%),而且选择过程是一项劳动强度很大的工作,需要耗费大量的人力和时间。因此,澳大利亚国家图书馆也在探索对其它资源的长期保存的途径,2005年6—7月间该图书馆对以.au为后缀的网站进行了为期6周的收割,力求全面、深入。这项工作由Internet Archive进行,从811523个主机上收割到1.85亿个唯一的文档,收集了6.69TB的原始资源。但是,由于缺乏联机出版物的法定呈缴制度,这些内容中有哪些能够被存取,在当前阶段还不能确定。这次收割活动意义重大,是国家图书馆制定未来的Web存档策略的基础[8]。

7 结语

对图书馆而言,考虑未来用户是其天性,“道义上的使命”使之不仅仅需要将过去的知识传递到现在,更要传递到将来。正是在这种使命感的推动下,澳大利亚图书馆孕育了PANDORA,希望为明天留住今日。PANDORA是澳大利亚图书馆完成其保存、传递知识这一责任的充分体现,尽管目前它所收集的资源数量有限,占互联网资源总量的比例也还不高,但这一尝试为其它国家完成这项工作提供了有益的借鉴,也给我们敲响了警钟。由于网上资源稳定性差,大量资源的生存周期较短,一旦删除就不会留下痕迹,难以恢复,因此对其的存档和长期保存就更加重要和紧迫。如何实现对这类资源的长期保存和利用,在这一过程中可能遇到哪些问题,如何避免、克服、解决这些问题,PANDORA给我们提供了很好的例证。它的建设思想和理念、在实施过程中的经验和教训、所建立的模型、开发的系统,都可以为我们所参考和借鉴。

标签:;  ;  ;  ;  ;  ;  ;  

为未来保存历史:澳大利亚网络资源档案简介潘多拉_pandora论文
下载Doc文档

猜你喜欢