网络资源保护的现状与思考_国家图书馆论文

网络资源保护的现状与思考_国家图书馆论文

Web资源保存现状与思考,本文主要内容关键词为:现状论文,资源论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着通信技术的飞速发展,网络已成为我们这个世界重要信息源之一和主要的信息传播媒介。作为全球最大的信息资源库,Web资源日益成为我们文化遗产的重要组成部分。

有资料显示,目前Web有2000多种在线杂志,超过40亿个公共网页,还有5500亿个链接文档指向更深层次的网页,而且平均每天还有700多万新的网页出现。在这浩瀚的信息海洋中,有95%的Web信息是可以公开获取的,其容量比美国国会图书馆收藏的馆藏文献还要多出50倍,因而Web成为成千上万的读者获取信息的首选。然而,Web信息的寿命是短暂的,在新的网页不断产生的同时,旧的网页也在不断地消失。一个Web页的平均寿命只有44天。在1998年建立的网站中,有44%的信息在一年之后就再也无法找到。Web信息是“原生性”数字资源,除了数字形式之外,别无其他形式。假如我们不采取行动保存今天的Web资源,明天也许它们就将永远地消失殆尽,不留下任何痕迹,给后代造成的损失是无法估量的。

1 国外Web资源保存行动

Web资源的采集和保存是一项系统工程,涉及到政府、新闻出版、教育、科技、文献保存等许多部门和单位,国外的Web资源保存项目大多由国家图书馆主持,相关企业和科研机构联合作业。在这方面,他们积累了相当多的经验可供我们借鉴。

1.1 澳大利亚PANDORA项目[2]

Pandora,是Preserving and Accessing Networked DOcumentary Resources of Australia(保护和存取澳大利亚网上文献资源)的缩写。为解决迅速增长的Web信息的保存问题,1996年,澳大利亚国家图书馆(NLA)启动了Pandora计划,并与其他相关机构合作建立了Pandora档案馆,以确保所选择的澳大利亚网络出版物及其他Web信息可长期读取。这些数字资源是澳大利亚文化遗产的重要组成部分。

Pandora采取有选择地保存网络信息资源的策略,并把所采集的Web资源按内容分为15大种类:艺术和人文、商业与经济、计算机与网络、教育、环境、健康、历史与地理、本地居民、青少年读物、法律与犯罪、新闻与媒体、政治与政府、科技、社会与文化、运动与娱乐等。这些信息都保存在Pandora网站上,公众可以通过网络免费获取。例如,2000年悉尼奥运会,当时的奥运会网站中有丰富的内容,但是现在已经不复存在。为了保护这一重要的文化遗产,澳大利亚国家图书馆有选择地下载该网站中的内容,把它们放到Pandora网站上。如今,即使读者从正式的奥运会网站上看不到当时的信息,他们也可以从Pandora网站上看到原站点部分重要内容的原貌。

目前,该项目已经形成了完整有效的商业模型和逻辑数据模型,并制定了Web资源选择的总原则,各个参与机构还可以根据地方特色设置各自详细的选择方案。为了保证所采集的网络资源能为当代与未来人们长期读取,Pandora要解决关键问题之一就是Web资源的长期保存问题,为此专门制定了数字保存策略。该保存策略包括以下方面:1)一些技术的保存,包括软硬件的保存;2)与网络出版机构协商,要求提供一些流体和动态格式网页的源文件;3)迁移策略;4)使用仿真器;5)简单地保存和更新一些无需迁移或仿真的文件,以找到合适的读取路径。

作为国际因特网保存协会的成员,澳大利亚国家图书馆积极推动Pandora项目参与国际合作,以探讨和共享与Web资源归档保存有关的知识和技术。

1.2 Internet档案馆[3]

Internet档案馆建于1996年,位于美国旧金山,是一个收藏因特网网站信息和其他原生性数字资源的数字资源库。它是一个非盈利性组织,接受网络导航服务公司Alexa Internet、Kahle/Austin基金会以及昆腾公司的资助。

Internet档案馆本身并不负责Web采集工作,主要接收第三方的移交资源,它的主要捐赠者是Alexa Internet。Alexa公司的自动采集机每天从全世界的网站上采集100多GB的数据。这些数据不是立即移交给Internet档案馆,而是等过了6个月后再移交。所有的万维网页、网络搜索引擎、网络新闻BBS以及可下载软件都在采集范围之内。内容采集不是采取过滤或选择的方式,而是全采集。目前数据总量已超过300TB,并以每月12TB的速度增长。

与传统图书馆一样,Internet档案馆为研究人员、史学家、学者和一般公众提供免费信息获取服务。在其主页上,有一个Wayback Machine的搜索引擎,可以浏览自1996年至今的300多亿张网页。用户通过该搜索引擎键入想要搜索的网址,该网址就可以链接到馆中收藏的相关信息。目前,Internet档案馆正积极与国会图书馆和史密森学会(Smithsonian In-stitution,美国博物馆机构)合作,并努力为用户提供其他网络图书馆和政府的网站信息。

1.3 美国NDIIPP计划[4]

2000年12月,国会通过一项法案(PL 106-554).,决定在国会图书馆(LC)实施“国家数字信息基础设施和保存计划”,即NDIIPP(The National Digi-tal Information Infrastucture and Preservation Program)。该法案呼吁国会图书馆对全国数字内容的长期保存进行领导,同时与来自其它联邦机构、研究机构、图书馆和商业机构的代表密切合作。依据本法批准的1亿美元将分期划拨:500万美元当即拨付,国会批准NDIIPP计划之后再拨付2000万美元,剩下的7500万美元将视相关配套资金的集资情况而定。

该计划决定对6个方面的内容进行保存,分别是:Web信息、数字视频、数字音频、数字期刊、电子图书和数字电视。其中,Web信息资源的整理和保存被视为该项计划的重要组成部分。LC采取的是选择性收集,内容涵盖相当广泛,包括网站、主页或网站上的单个条目(如音/视频文献、照片、地图及其相关信息)等,而不管其格式和类型如何。

1.4 瑞典国家图书馆Kulturarw[3]项目[5]

Kulturarw[3]项目(即The Swedish Archiw[3]e)于1996年开始实施,目的是测试瑞典在线文献的收集、保存和提供读取的方法。至今,已经成功地完全下载7个瑞典网站,收藏约6500万条信息,数据量达到300GB。其中有一半左右是文本文件,主要是html和纯文本格式。

Kulturarw[3]方案采取的是全采集,因为他们认为“我们不可能预知什么信息在未来一代看来是重要的,为了避免遗憾,就得把网站上的所有信息全部采集下来”。他们使用NWA-Combine采集机,对于一般稳定性的网站,一年采集两次就可以了。但对于一些特别的网站,如网络新闻,一年只采集几次显然是不够的。因而需要区分不同网络资源类型以确定采集的频率,例如日报需要每天采集,周报每周采集一次,依此类推。也可以让机器人自动测试网页更新的频率,从而在适当的时间及时采集。

关于采集的范围,Kulturarw[3]认为下列资源应该采集:1)服务器地址以.se结尾;2)顶层域名(com,org和net)以瑞典地址或电话号码注册;3)瑞典域名以.nu结尾(nu意思是现在在瑞典)。对文献类型并没有限制,所有的图片、声音或其他文献类型都在采集之列。

关于保存问题,其目标是找到一种便于向未来软硬件环境下迁移的长期方案。在技术上,可以通过网络界面访问归档文献,不仅可以象网上冲浪一样浏览所保存的网络信息,而且可以浏览同一文献在不同时间采集的不同版本。Kulturarw[3]预计,在未来的几年中,将增加元数据检索。届时元数据可以自动产生、自动编目,并成为访问数字档案馆的一条新途径。

事实上,因为缺少相关的法律,目前还没有实现对馆藏的公开访问。最近瑞典教育部起草的一份报告中建议应该允许那些经过验证的机构的研究人员访问,但Kulturarw[3]项目的成员认为最终目标应该是让所有公民都有权自由访问馆藏信息。

1.5 法国BnF网络保存计划[6]

该计划由法国国家图书馆(BnF)负责实施,旨在存储和管理网络文献,为未来提供特定历史时期具有代表性的Web资源。

BnF采取选择性保存策略,对于正规的网络出版物,采取人工选择,但这种方法效率较低。而对于更为广泛的Web资源,则用自动爬行器(crawler)来获取。它定期运行一种爬行程序,把“爬”过的需要采集的每一个网页都抓到服务器中,并且自动管理。它首先定位一个节点,以此节点为起点,如果遇到超级链接就爬行下去,再遇到超级链接就再爬行下去,如此继续,就在服务器中存储了大量的网页。然后,再通过程序对抓来的页面进行扫描分析、建立索引。自动爬行程序的使用使管理更广范围的网址成为可能,而且可以最快最大量地收集到网上巨大规模的文献信息。

1.6 欧洲NEDLIB的计划[7]

NEDLIB(Networked European Deposit Library的缩写,即“网络欧洲版本图书馆”)是欧洲国家图书馆的合作计划,其目标是建立网络化的欧洲版本图书馆基础架构,并致力于保证这些电子出版物可在现代及未来使用。该计划始于1998年1月,由荷兰国家图书馆执行,参加者包括:法国、挪威、芬兰、德国、葡萄牙、瑞士、意大利等国的国家图书馆,以及三个出版机构:Kluwer Academic、Elsevier Science、Springer-Verlag。2001年结项,但相关的研究工作仍在继续。

NEDLIB使用专门的采集机Nedlib,它总的目标是寻找一种途径以保证网络出版物及其他网络文献长期可读取。

1.7 奥地利AOLA试验项目[8]

AOLA(Austrian On-Line Archive的缩写,即“奥地利在线档案馆”)是奥地利国家图书馆和维也纳科技大学软件学院的一个合作项目,目的是定期制作奥地利的网页快照。这是一个试验性的项目,从1999年就开始着手准备,并于2001年正式启动。

该项目基于Linux系统,配备了240GB的硬盘空间另加6个磁带驱动器作为最终的存储设备,并一律选用开放源代码的软件。另外,还积极开展与同领域的其他项目组的亲密合作。AOLA采取自动获取的方式采集奥地利的网络信息资源。起初,使用的是Nedlib采集机,但在一期试验中出现了许多问题。于是在二期试验中采用了瑞典的联合采集机(Combine harvester),平均每天采集7GB的数据,目前AOLA已经成功地完成了二期试验。截至2001年6月21之前,已拥有150GB的馆藏量,其中包括从21000个网站上采集的270多万个网页。

2 中国Web资源保存实践

目前,关于网络信息资源的保存,我国尚处于试验和论证研究阶段。现已经启动了两个试验项目,一个是中国国家图书馆“网络信息资源保存”试验项目,另一个是中国Web信息博物馆计划。同时,许多大学和科研机构也承担了数字资源保存的课题,其中Web资源保存研究是其重要方面。

2.1 国家图书馆“网络信息资源保存”试验项目[9]

2003年1月,国家图书馆成立网络信息资源收集与保存科研课题组,开始网络信息资源整合的系统性研究工作。2003年7月,开始搭建网络文献收集与保存试验环境。2003年8月,进行信息收集与加工工具软件征集,正式开始网络信息资源的采集与保存。2003年10月23日,国家图书馆在广西桂林举行的全国公共图书馆馆长联席会议上就“网络信息资源保存”作主题发言,并随后成立了“网络信息资源保存科研小组”,旨在探讨和阐明开展网络信息采集与保存的相关政策、法律和技术问题。2003年11月20日,“网络信息资源保存”项目主页http://www.webarchive.nlc.gov.cn开通,并提供服务。

该项目采用两种存档方式:一是镜像存档,即以网站为信息单元进行网络信息存档。从对象网站的首页开始,收集该网站的全部网页信息,采集的数据保持原来的目录结构,并保存到存档系统中。在不同的时间点对同一对象做重复采集,即形成该对象网站的时间切片。对网站进行编目,元数据输入到国家总书目中。这种方法类似于国外的“全采集”方法。二是专题存档,即以网页为信息单元进行网络信息存档。按不同专题确定对象网站,从对象网站的首页开始,收集该网站下的有用网页,进行内容提取、自动分类和标引,并将其保存到存档系统。元数据输入到国家总书目中。这种方法类似于国外的“选择性采集”。

该试验项目计划在2003-2005年准备解决以下问题:

·构筑网络信息采集的基本实验环境,并逐步完善和扩充;

·根据采集对象的性质,研究与采集、编目、保存与服务相关的各种技术标准与规范;

·拟定试验阶段的采集对象,实施数据采集,数据采集量不低于500G;

·对采集到的网络信息进行数据分析并发布报告;

·制定网络信息资源整合与服务平台的功能需求书;

·公开试验阶段的元数据和对象数据,提供读者服务;

·探讨存档信息的长久保存问题;

·对图书馆、著作权和新闻出版的缴送制度等方面的法律法规提出建议;

·网络信息资源整合方面的国内和国际交流。

2.2 中国Web信息博物馆[10]

中国Web信息博物馆(Web Infomall)是在国家“973”和“985”项目支持下,北京大学网络实验室开发建设的中国网页历史信息存储与展示系统。该系统主要有几项功能:1)输入URL,浏览永久保存的历史网页;2)典型历史网页展示;3)历史事件专题回放。与普通网上搜索不同的是,它能为用户提供一个完整的历史网页,而不是单篇文章。这对于追寻重大历史事件发展进程的全貌有着特殊意义。例如进入博物馆主页http://www.infomall.cn,可以登录2002年6月17日的新浪网,首页的“世界杯专题”赫然在目。进入专题,便是当时连篇累牍的赛事报道。

Web Infomall现收藏有从2001年以来约5亿个中文网页,积累有10万亿字节的数据量。它还正以每天增加数十万网页,平均每月增加一千万网页的速度扩张。

3 Web资源保存面临的问题与思考

保存Web资源是一项大的系统工程,它涉及到文化、经济、技术、法律等诸多方面的问题。目前国际上已有许多机构进行了有益的尝试,但仍然处于探索阶段。国内Web资源保存研究才刚刚起步。笔者通过对国内外相关实践的比较研究,提出了如下几个问题,尽管还不十分全面,但希望能够对这方面的工作有些参考价值。

3.1 Web资源的采集问题

采集范围与频率是当前Web资源保存研究的焦点问题之一,直接关系到被采集对象是否与预期目标一致,是否达到预期的要求。

采集范围的确定主要包括归档网络空间的划定与采集对象的选择两个方面。归档网络空间的划定必须有一个明确的规则,否则就会造成采集对象的混乱。如前文介绍的瑞典Kulturarw[3]项目对采集范围的划定就比较清晰。

采集对象的选择涉及到到底是使用全采集还是选择性采集的问题。所谓全采集,就是把对象网站上的所有信息全部保存下来,一般用自动采集机(常见的有网络爬虫Web crawler、网络蜘蛛Web spiders或专门的采集机harvester)获取。如前文所介绍的 Internet档案馆、瑞典Kulturaw[3]、欧洲NEDLIB、奥地利AOLA等项目主要就是使用全采集的方式。他们认为,不能确定现在的Web信息在未来人看来哪些是有价值的,为了保证后代能够研究完整的历史,就得保存对象网站的全部信息。但这种方式采集的数据量将以几何级数增长(其中包括大量价值不大或者已经失去保存价值的信息),需要大量的资金和技术投入,这对图书馆来说难度较大。所谓选择性采集,即根据Web资源的历史价值、文化价值、研究价值和经济价值,主要以人工方法有选择性地进行收集。如澳大利亚PANDORA、美国的NDIIPP等就是采取这种策略。很显然,与全采集相比,选择性采集具有较大的主观性,很可能遗漏对未来具有历史或研究价值的重要Web资源。

鉴于这两种方式各自的特点,在存储载体容量日益增大、存储成本下降的情况下,把这两种方法结合起来是一个比较好的选择。对于重要的网站资源实行全采集,以免挂一漏万,造成今后的遗憾;而对一般性的站点,只选择其重要内容或专题保存。我国国家图书馆“网络信息资源保存”试验项目所采取的镜像存档和专题存档两种方式,就是一个很好的探索。但问题在于如何确定哪些是重要的网站,哪些是重要的专题和内容。

由于各个网页的更新频率不同,因而需要调整采集频率,以保持同步,否则就可能遗漏很多重要的Web信息。因此,如何确定采集的频率,最大限度地避免Web资源的遗失,也是一个值得思考的问题。笔者认为,对于一般稳定性的或内容累积型的网站,每半年采集一次是较为合适的。而对于一些动态性较强的站点,则应该进行跟踪采集。例如,网络新闻的更新要比一般的网站更为频繁。在选举期间,可能需要对政治网站进行专门的采集。

鉴于上述分析,笔者建议,国家应该制定出符合国情的规范性文件和具有可操作性的实施细则,以保证我国Web资源采集工作的有序进行。

3.2 法律问题

Web资源保存中的法律问题主要是著作权问题,在保存Web资源的过程与活动中,会遇到许多与现有著作法相冲突的问题:1)Web资源的采集、存储与保存;2)为保证过时技术平台上产生的信息在新的技术平台上可以读出而进行的数据迁移;3)模仿过时软件、硬件技术也涉及到知识产权;4)为长期保存电子出版物,而必须去除出版者在出版物内安置的壁垒(如密码、IP控制、阅读器捆绑等)等,这些都涉及到著作权问题。如果没有一个好的解决方案,保存活动将无法展开。

按照一般著作权法原则,从网上获取每一个文件都要得到许可,这在实施起来是很不现实的,因为不仅需要大量人力和财力投入,还有可能造成许多Web文化遗产因为得不到法律采集许可而永远丢失。国家图书馆和档案馆重要的任务是长期保存这些Web资源,问题是如果没有得到作者或出版商的许可是否可以这样做?根据现有的法律,这是不允许的。而且Web资源是全球性的,某个Web资源的采集在某国法律下是合法的,可能在另一国就违反了法律。因此,Web立法需要进行协调,国际条约的建立(如WIPO条约)和国内立法同样重要。

在中国,我们也同样正面临着数字文化遗产丢失的危险。Web资源的保存,并不是一项简单的工作,它需要综合考虑各方面的因素,平衡相关各方的利益,并寻找先进的技术基础设施来共同推进。与世界上一些国家已经开展的工作和取得的效果相比,我们已经落在了他们的后面。怎样具体实施Web保存计划,需要我们对文化问题的深层思考、探索并开发有效的技术实现方案,解决相关的技术、资金和法律问题。依法成立或指定相关机构进行具体实施,这还有很多的工作要做。我们建议国家图书馆和档案馆有责任、有义务来组织和实施这项伟大的历史使命。

注:以下所有网页的访问时间均在2004.03.10~2004.03.23。

标签:;  ;  ;  ;  

网络资源保护的现状与思考_国家图书馆论文
下载Doc文档

猜你喜欢