英国、美国、澳大利亚和挪威网络信息保护政策的经验与借鉴_国家图书馆论文

英国、美国、澳大利亚和挪威网络信息保护政策的经验与借鉴_国家图书馆论文

英、美、澳、挪网络信息保存政策的经验与借鉴,本文主要内容关键词为:经验论文,政策论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在网络信息时代,网络信息资源无疑已经成为人们获取信息的重要来源之一。正如lyman说的那样“作为文化产品的网络已经成为最大的信息资源集合”。虽然网络信息资源日渐丰富,但是它消失的速度也很惊人,网络信息的流失的速度也有时可以用“转瞬即逝”、“昙花一现”来形容。Internet Archive的创始人在1996年就曾经估计“网页产生75天后就会消失”;美国数字信息基础架构和保存项目的报告中指出网络信息的平均寿命为44天。一些有价值的学术、文化和科研方面的网络信息资源面临着消失的危险,特别是一些时政性质的网络信息,如“奥运会”、“世博会”等网络信息资源。各国保存机构如图书馆、档案馆已经认识到保存网络信息资源的必要性和紧迫性,并开展了各种实验项目来进行网络信息资源的保存,如:英国网络信息保存联盟计划UKWAC[1]、美国国会图书馆网络信息保存项目MINERVA[2]、澳大利亚网络信息保存项目PANDORA[3]、挪威网络信息保存项目PARADIGMA[4]等。本文将深入分析英、美、澳、挪的网络信息保存计划,总结归纳其网络信息保存的经验,以期为我国网络信息保存政策的制定提供借鉴。

1 英、美、澳、挪网络信息保存政策概况

1.1 英国网络信息保存联盟计划UKWAC

2003年10月,英国六个具有影响力的机构组成联盟提出一个实验性的项目——英国网络信息保存联盟计划(UK Web Archiving Consortium Project,UKWAC),并于2004年6月正式启动。该计划由以下六个机构组成的联盟来完成:大英图书馆、英国国家档案馆、联合信息系统委员会、苏格兰国家图书馆、威尔士国家图书馆、韦尔科姆图书馆,其中,大英图书馆为这个联盟的主要组织者,苏格兰国家图书馆的网络资源只到2007年底[5]。UKWAC计划的特点主要有[6][7]:

(1)网络信息资源站点的选择。UKWAC采用选择性收集保存方案,其选择标准包括:必须是英国在线出版发布的资源;该在线资源没有以印刷出版物的形式发布过;选择基于联盟各成员机构的偏好。与其他网络信息保存计划不同的是,各成员机构可依据各自偏好,独立选择收藏与各自馆藏建设相关的网站信息,如大英图书馆搜集政治、民族文化、重大历史事件等方面的网络信息;苏格兰国家图书馆搜集与苏格兰有关的政治、经济、文化、历史等网络信息。

(2)网络信息资源的书面许可。在未经网站内容所有者许可的情况下,对网站内容进行下载、复制、提供检索使用等行为都是违法的。联盟成员通过通用表格来获取明确的书面许可。此外,如果某个网站尚未被UKWAC所保存,网站的所有者可通过填写UKWAC网站提供的在线电子表格来推荐和授权联盟保存自己的网站。

(3)网络信息资源内容的获取。UKWAC采用澳大利亚国家图书馆开发的PANDAS系统对网站内容进行获取。PANDAS系统对于获取、收藏网站的处理机制被证明是非常有效的。PANDAS系统使用HTTrack进行快照下载,该程序从一个给定的URL开始,对网页进行复制,并抽取网页在同一个网站中的所有链接,进而下载那些网页直到整个网站被复制。

(4)网络信息资源的描述。当PANDAS系统完成对目标站点的集中保存后,各成员机构开始对他们各自负责保存的站点进行编目,并作为他们现存的图书馆编目系统的一部分。集中存储的目标站点内容通过联盟站点既可以进行检索,又可以进行浏览;集中存储的站点资源都被赋予了可作为唯一标识的永久URL地址,可将该URL地址加入成员机构本地编目系统,允许使用者在成员机构本地收藏中进行搜索。

(5)网络信息资源的检索和浏览。UKWAC联盟网站的界面为检索和浏览已保存站点内容提供了便利。已保存的网站内容可以通过使用站内搜索工具或层级式的主题分类表浏览。站内搜索采用开放源代码的Lucene搜索引擎实现,能够在已保存信息中搜索独立页面的内容,界面风格则采用用户熟悉的类似Google和Yahoo这样的流行站点的风格。

1.2 美国国会图书馆网络信息保存项目MINERVA

美国国会图书馆同样认为保存开放式网络信息资源是国会图书馆的使命之一,并从2000年开始进行网络信息保存项目MINERVA(密涅瓦),全称为Mapping the Internet Electronic Resources Virtual Archive。该项目的主要目标是为有关网络信息的选择和收集方面的实际问题提供试验,从而为美国国会图书馆运行一个大规模的网络信息保存项目提供指导和经验。整个网络信息保存处理过程包括选择、收集、归档、编目、保存等过程。MINERVA项目的主要特点如下[8][9]:

(1)网络信息资源的选择。美国国会图书馆采用选择性收集策略,由图书馆的推荐人员和MINERVA项目组一起决定哪些站点应该收集。主要遵循以下标准:满足国会和研究人员当前以及未来的信息需求;独一无二的信息;学术内容、丢失危险度以及信息的传播情况。国会图书馆过去使用HTTrack进行快照下载,该程序从一个给定的URL开始,然后对该网页进行复制并抽取该网页在同一个网站中的所有链接,进而下载那些网页直到整个网站。

(2)网络信息资源的编目。国会图书馆的网络信息保存项目按照MARC21和AACR2建立文件,使用OCLC的CORC系统进行编目。如果在CORC中发现某一个资源的编目记录,则按照国会图书馆复制编目的原则将该记录作为一个MARC记录合并到图书馆集成管理系统中;如果在CORC中没有发现记录,则通过CORC的元数据发现功能自动生成准备编目数据。

(3)网络信息资源的存储和保存。该项目组成员建议给每一个站点分配一个URN,并且为每一个文件保存出处元数据。在保存数字文献方面,比较有效的方法只有两个,那就是更新和迁移。对于网络信息来说,自动迁移可以独立进行。保存系统会经常跟踪使用的格式、协议、程序组成等,如果一个文件类型马上就要过时了,保存系统就将该文件格式转化成最接近的最新的格式。比如说一个用HTML3.2格式的文件可以转化成HTML4.0,可能还会转化成XHTML。理论上自动迁移可以保存内容并且有时还可以保存经历。但是实践中没有任何转化是完美的,特别是那些可执行代码或是数据有错误的时候。因此不仅要保存转化后的版本,最初的版本同样也要保存。

1.3 澳大利亚网络信息保存项目PANDORA

1996年,澳大利亚国家图书馆开始保护和存取澳大利亚网络信息资源项目(Preserving and Accessing Networked Documentary Resources of Australia,PANDORA)研究,根本目的是在建立一个经过选择的澳大利亚网络信息资源归档系统的同时,为保护和存取澳大利亚电子资源制定政策和程序。PANDORA包括5个环节:出版物选择收集、检索、存储管理、报告生成和提交。PANDORA项目的主要特点有[10][11]:

(1)网络信息资源的收集策略。考虑到很多网络信息没有或很少有长期保存的价值,澳大利亚国家图书馆采取了选择存取的策略。图书馆制定了一系列关于网站和联机出版物选择的指导原则。这些指导性原则主要考虑以下几个因素:是否和澳大利亚有关、是否为澳大利亚人的出版物、研究价值、出版物是否有纸本、在出版环节是否有任何质量控制、公众对主体的关注程度、出版物是否已经被权威标引机构标引等来选择需要保存的网络信息资源。

(2)网络信息资源的检索存取。图书馆和版权所有者进行协商,在不损害出版者利益的前提下探讨存取条件。将出版物分为4种类型:无限制出版物,指那些可以在网上免费获得的出版物;部分商业限制,指那些要付费的出版物,图书馆尽力使出版者允许免费存取,但大多数出版者只允许馆内用户免费存取;还有一些商业出版物的出版者为了保护其商业利益,要求在某一个期限内不可以提供免费存取,称之为全部商业限制;那些被取缔的出版物等违法的出版物。每一种出版物的检索级别都是在和出版者协商的基础上商定的。

(3)网络信息资源的长久保存。整个项目的最终目标是保证未来的澳大利亚人能够检索存取今天澳大利亚的网上信息资源,就像我们今天能够检索以前的报纸和图书一样。要想达到这一目的,图书馆就需要采取积极主动的措施来保护对系统资源的存取。考虑到馆藏的多样性,图书馆正采取多种方法加以处理。这些方法包括:维持和保存当前的软件甚至硬件;对那些能够和新的文件格式兼容并能够进行大规模转化的文件进行迁移;如果可能的话,针对某些文件格式开发出仿真工具;对那些不适合迁移和仿真的文件进行简单的保存和更新。

1.4 挪威网络信息保存项目PARADIGMA

2001年,挪威国家图书馆开始实施网络信息保存项目PARADIGMA。该项目全称为Preservation Arrangement & Retrieval of Assorted Digital Materials,为期三年,月标为确定收集和保存网络信息资源的技术、方法和组织,并且使国家图书馆能够在“呈缴制度”的框架下提供存取服务,该项目于2004年12月31日完成。PARADIGMA项目的主要特点有[12][13]:

(1)网络信息资源的收集方法。挪威国家图书馆采用了全面自动保存的方法。按照项目组的建议,以及文化部的批准,国家图书馆收集所有挪威的网络空间(域名为no)中可以获得的数字文献,有时也收集域名为com、org或net的网络文献。收集程序(crawling)从一些初始的URL列表开始,然后对这些URL进行分析,并跟踪它们的链接,在收集过程中放弃那些不在“呈缴法”之列的文献,选定文献上的链接同初始URL上的链接一样处理。

(2)网络信息资源的收集范围。PARADIGMA项目不仅收集网页,同时还收集FTP文件、网络新闻组等。对于FTP文件的选择主要是以主机的名称、文本格式和语言识别来进行;邮件列表和新闻相比,限制更多,一般需要申请和订阅,几乎都要进行人工操作。有的新闻组或邮件列表会标明“请不要保存”(X-no archive)的标记,还有一些网页设置了robot.txt表示该网页不能被标引或者保存,PARADIGMA会尽可能获得版权所有人的许可,否则不进行收集。

(3)网络信息资源的描述和处理。挪威图书馆对不同类型的资料采用不同的著录级别,如对于图书和期刊是完全著录而对于一些其他的资料只是简单著录。PARADIGMA项目预计在所收集的网络信息中,至少有1%是需要人工处理的。另外,挪威图书馆希望能够形成一个服务机制,让使得出版者和其他相关团体能够在提交网络信息资源之前自己生成描述元数据。国家图书馆正在研究各种标识标准,其中一个最重要的方面是有一个处理网络文献不同时间版本的能力。

(4)网络信息资源的检索。挪威的网络信息保存项目以NWA的检索模块为基础,并进行了一些调整,将其调整为面向编目人员、面向编程人员和面向图书馆用户的界面。这种用户界面可以使用户选择统一文件的不同版本,这个检索模块同时在同Internet Archive以及其他国家图书馆的合作中发挥着重要作用。在进行检索服务的时候,还要考虑如果其他国家检索挪威的信息,是否会得到法律的许可。

2 英、美、澳、挪网络信息保存政策对我国的借鉴意义

2.1 制定网络信息资源选择策略,明确收藏范围

目前网络信息的选择策略主要有:选择性搜集和全部搜集。通过以上的讨论我们可以发现只有挪威的网络信息选择策略是全部搜索,其他三国都采用了选择性搜集策略。澳大利亚国家图书馆成立澳大利亚网络资源委员会,制定了信息资源选择的方针——《保存网上出版物的选择方针》。与澳大利亚的PANDORA计划有所不同,UKWAC计划只收集那些仅以网络形式存在。美国国会图书馆则除了选择性策略外,还有一个综合的策略:对于那些重要网站采用选择性方法;对于某些选定的类型使用自动收集(如政府站点);对于其他信息使用不加选择的自动收集方法。挪威对整个域名进行全面收集并不排斥其他的收集策略,“呈缴部”(Legal Deposit Division)同时开展了基于专题(ease- based)的收集。选择合适的网络信息搜集策略,明确清晰的收藏范围,可以大大降低了计划实施的难度,确保了网络信息保存计划的可行性以及获得良好的效果。根据我国的实际情况,将各种方法结合使用,达到收集策略优化是不错的选择。面对呈指数级别增长的中文网络信息,我国图书馆的网络信息保存策略也应该制定适合我国国情的策略,以便提高网络信息保存的效率,提高网络信息的利用率,达到信息服务机构保存文化遗产的目标。

2.2 规范网络信息资源的编目,提高检索效率

在网络信息保存的过程中应该注重对收集的资源进行处理,保存的目的是为了检索,如果收集到的网络信息资源不进行必要的处理,就会造成检索的困难,这样保存也就没有意义了。为此,澳大利亚为该保存对象分配一个永久标识符。PANDORA项目的永久标识符构成如下:〈collection id〉-〈collection id〉为资源类型编号;〈work identifier〉为对象标识符,是分配给该资源唯一的号码;〈publisher's URI〉出版者的统一标识符,包括主机的名称、路径和资源的名称;〈generation code〉用两个数字表示用来代表那些使用迁移技术形成的资源[13]。挪威使用北欧网络保存项目(Nordic Web Archive,简称NWA)的工具软件包Tool Kit提供对国家图书馆网络信息保存系统的检索;将NWA的检索模块进行调整来适应PARADIGMA项目的需要,研发和测试几个用户界面。在网络信息资源组织和检索实践过程中,澳大利亚对网络信息资源的组织方式和挪威对网络信息资源检索的做法值得借鉴。

2.3 改进现有的网络信息保存系统,适应具体需求

在网络信息保存计划的实施过程中,最为关键的一个问题便是保存系统问题。通过分析英国UKWAC计划的实施可以发现,选择现有的网络信息保存系统,对其进行改进以适应具体的需求是较为理想的做法。在计划准备实施阶段,UKWAC经过反复斟酌,最终决定使用由澳大利亚国家图书馆开发的PANDORA作为联盟的网络信息保存系统。由于PANDAS系统并不是专门为UKWAC计划开发的,存在没有采用描述、编目标准或权威的主题控制、基本代码很难修改和维护等缺点,联盟需要对PANDAS系统进行本地化修改。UKWAC修改了PANDAS系统的网络机器人引擎,减少了系统能够创建的并发数量,从而减小了因获取站点操作而导致目标站点服务拥塞的负面影响。增加“交通灯”系统功能,UKWAC在PANDAS系统上实现了简单的“交通灯”子系统,用来提示当前系统处理能力的状态。“绿灯”表示系统具有空闲的处理能力,“红灯”表示系统负载接近能力极限[14]。这个简单的子系统通过分散PANDAS系统负载,减少厂系统的故障时间。我国在实施网络信息保存计划时,也存在使用现成系统还是开发全新系统的问题。UKWAC计划的经验告诉我们,无论使用何种系统,标准化以及保存内容的相对独立性是至关重要的,它决定了保存内容的系统迁移是否可行,保存内容能否长期有效存取。

2.4 解决网站信息收集的法律问题,获得明确授权

法律问题是网络信息保存计划中的另一个重要问题。如果不加以重视,不但在网络信息的搜集过程中很容易造成对网络信息所有者的侵权,而且在利用网络信息自动搜集上具时还很有可能侵犯网络信息所有者的隐私权。英国版权局明确指出:“World Wide Web属于版权保护的范畴,网页本身就是文学作品”。为确保UKWAC所从事的活动不违反英国著作权法,在UKWAC成员进行站点的内容保存前,会主动联系站点的内容所有者以获取书面的明确授权。也可由网站内容的所有者通过UKWAC网站的在线表格提出保存申请,并授权UKWAC对其站点操作的相关权利。美国由于没有明确的法律规定国会图书馆可以对公共信息的机构提供的网络信息下载并且进行保存以作为将来研究之用,所以MINERVA项目组和美国版权局进行协商,国会图书馆希望能够不需要获得出版者的许可便有权利直接从网上下载无限制的网络信息、有权利委托一个或几个机构代为收集和保存公共网络信息、可以对下载的信息进行一些小的编辑和改动几个方面的许可。挪威知识产权法对版权所有人的智力和经济权利做出了规定,“呈缴部”已经同挪威的出版商进行协商,讨论关于电子书的呈缴问题,图书馆的音像部也在同挪威广播公司进行协商,商谈关于原生(Born Digital)的广播和电视节目的呈缴问题。另外一个相关的法律是个人数据法案(Personal Data Act),其目的是保护个人的隐私权由于对个人数据的修改而遭到破坏,在进行第一次收集之前就获得了数据巡视员(Data Inspectorate)的同意。在我国,网络信息同样受到著作权法的保护,我国国家图书馆也在积极地推进网络出版物的呈缴制度。我国在进行网络信息保存项目时,英、美、澳、挪的网络信息保存计划中对网络内容著作权的处理方式同样值得借鉴。

2.5 建立合作分散的网络信息保存责任体系,共同实现保存

由于网络信息规模的庞大,任何一个机构都不可能独立承担起网络信息资源保存的任务。数据归档小组1996年曾经提出:“发展建立数字归档系统的最有效、可行的办法是构想一个分散的、而不是集中的框架,来收集信息对象、保护长期完整性、保证未来的使用。”澳大利亚国家图书馆同样认为网络信息长久保存超越了任何一个单独机构能够承担的能力,其合作伙伴包括维多利亚州立图书馆、北方图书情报服务中心等。美国国会图书馆在保存网络信息资源时非常注重和其他相关机构如联邦机构和出版者等进行合作,国会图书馆已经和UMI签署协议对重要文献进行保存,美国物理协会也同国会图书馆合作制定一个保存方案,和Internet Archive进行关于2000年总统大选网站的保存。对于英国来说,网络信息保存是一项全新的事业,所以选择由六个权威机构组成的UKWAC联盟合作共建联盟网络信息保存资源。UKWAC也注意国际的合作,该计划的顺利进行很大程度上归功于澳大利亚国家图书馆的先导工作以及他们的PANDAS系统软件密不可分。何况一些UKWAC工作人员是带着先前在英国、澳大利亚和新西兰获取的网络信息保存经验加入这个计划的;大英图书馆和韦尔科姆图书馆参与了国际因特网保存联盟(International Internet Preservation Coalition,IIPC)。美、英、澳的经验告诉我们,在制定网络信息保存政策时,应该建立合作分散的保存责任体系,共同实现网络信息的保存。

2.6 开发专题网络信息保存项目,实现重要事件保存

专题保存项目主要就一些主题进行收集,如总统大选、9.11事件、奥运会、世博会以及局部地区的战争等的大事件。各国大都在采取特定收集策略的同时,对一些重要的事件进行了专题收集。这种方法对于未来研究某一事件提供了全面的材料,是各种收集策略的重要补充方法。2003年初,国家图书馆正式启动了“网络信息资源收集与保存实验项目”(Web Information Collection and Preservation,简称WICP),项目在试验阶段确定了“奥运会”、“SARS”和“载人航天”等三个事件的收集专题。

3 结语

随着计算机、通信以及网络等IT技术的出现,网络信息的总量飞速增长,人类面对的是一个由数字信息组成的信息海洋;但是人们很少注意与网络信息飞速增长相反的另一个问题——网络信息的流失。如何对这些数量庞大、质量良莠不齐、地理位置分散、容易流失的网络信息进行搜集、组织、管理与利用,是网络时代带给信息机构的新课题。所幸的是世界各国都已经意识到网络信息作为人类文化历史遗产的重要性,英、美、澳、挪等国家都纷纷开展了网络信息保存项目。我国已经启动几个保存网络信息资源的项目,如:中国国家图书馆“网络信息资源保存”项目、中国Web信息博物馆计划等,但都还处于初步探索阶段,很少从宏观政策、战略的角度来考虑我国网络信息资源的保存问题。对英、美、澳、挪四国的网络信息保存政策进行研究具有重要的现实意义。一方面,通过对四个国家的网络信息保存政策进行分析与比较,可以发现各国网络信息保存政策的优缺点,以便总结归纳出网络信息保存的最佳实践模式;另一方面,通过分析、归纳与总结,可以提取国外网络信息保存的经验,为我国网络信息保存政策的进一步完善提供借鉴。

收稿日期:2009-08-05

标签:;  ;  ;  

英国、美国、澳大利亚和挪威网络信息保护政策的经验与借鉴_国家图书馆论文
下载Doc文档

猜你喜欢