保存高校Web信息资源建立Web博物馆,本文主要内容关键词为:信息资源论文,博物馆论文,高校论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
保存人类文化遗产是图书馆最古老的职能,也是图书馆区别于其他信息服务部门的重要标志。图书馆在自身的发展过程中,保存对象的形式也在不断地发生变化,只要是人类社会每前进一步所留下的文化遗产,都应该作为图书馆保存的对象。因此,对于同样记录我们这个时代的网络信息资源,毫无疑问应该纳入到图书馆的视野之内。网络信息资源对图书馆的馆藏发展和服务具有重要的战略意义,图书馆应该像收集传统的图书资料那样,全面收集各种网络信息资源。
1 背景分析
Web自诞生以来获得了迅猛的发展,它以超文本和超媒体为核心技术,将文本、图形、图像、音频和视频等信息有机的结合起来,给人们以丰富的信息表示空间,已逐渐成为人类社会信息资源的一个重要组成部分,成为继报纸、电视后又一大传播媒体。
Web上的资源大致有网页、文档、图片、音频、视频和其它数据等几种类型。其中最重要的是网页(这里的网页主要是指以HTML语言写成的超文本文件)。除了网页,Web上还存在着与网页同等数量级的图片和以flash为主的动画,其中大部分是内嵌于网页中,用于装饰网页的文字内容。此外,Web上还存在着数目庞大的以word、pdf为主的文档,它们的数量虽然比不上网页,但是文件的大小却要比网页大一个数量级。同时,Web上还存在着难以计数的音频、视频以及各种各样的数据文件。这些文件,有的非常庞大,已经超出了收集和保存的可能性。
Web是一种易逝的资源,也是一种不可再生的资源。随着时间的流逝,一些有价值的东西如果当时没有保存,以后就很难再找回。Web看起来无所不在,但它的生命却极其短暂,今天能看到的很多Web信息或许明天就找不到了。毋庸置疑,假如我们不采取行动保存今天的Web资源,明天也许它们就将永远地消失殆尽,不留下任何痕迹。表1是中国的网页更新周期情况[1]:
表1 中国网页更新周期表
更新周期 比例
一周以内 17.62%
一周至一月
18.24%
一月至三月
29.47%
三月至六月
16.09%
六个月以上
18.58%
2 网络信息资源保存工作面临的挑战
数字信息环境的改变给网络信息资源的保存带来挑战。随着数字化信息技术的不断进步,一方面带来了数字化信息技术利用方式的不断变革,另一方面也给网络信息资源的保存带来了挑战,这些改变主要包括:
(1)网络信息资源必须借助于特定的信息设备才能读取其中的内容,其保存的技术方法复杂多变,人们在保存网络信息内容的同时,必须保存原有设备使用所要求的技术特性才能保证所保存的网络信息资源可以被长期使用。
(2)网络信息标准的多样性使得网络信息资源没有一个统一的标准可以使用。因此,人们在保存利用不同标准网络信息资源的时候必须要进行必要的转换,才能保证所保存的网络信息资源可以得到长期的存取。
(3)网络信息资源的不安全性也加重了网络信息长期保存的负担。如网络计算机病毒、黑客入侵、信息的失真等不安全因素随时威胁网络信息资源的长期存取与利用。
(4)网络信息资源多数都是由文字、图形、声音、影像等构成的多媒体信息。因此,在进行网络信息资源保存的过程中,只有对网络信息资源的多媒体特性进行保存才能保持原有网络信息的原貌。然而由于存储格式、技术标准、载体容量等限制,很难做到保持网络信息资源的多媒体特性,影响网络信息资源的保存质量。
3 国内外研究现状分析
3.1 国外研究现状
美国国会图书馆(LC)为收集和保存原生网络信息资源(Born Digital),启动了Minerva项目;澳大利亚国家图书馆于1996年启动了Pandora项目;日本国立国会图书馆启动了WARP项目。瑞典在1996年设立名为Kulturarw网络信息资源收集项目。英国UK Central Government Web Archive项目以及欧洲Nedlib项目等[2][3][4][5][6][7]。
Archive(Internet Archive,互联网档案馆)对Web信息获取、存储的工作处于世界领先的水平[8],他们从 1998年开始保存全世界的Web网页,到现在已经保存了550亿的网页。Archive保存如此巨大的网页数据,希望它们能够作为全人类的知识,被各种职业的人利用,同时作为Internet发展历史的见证。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份”一次,每次可能收录数 10个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。对网站不同时期的历史资料进行研究,是互联网档案馆最大的价值所在。
3.2 国内研究现状
2003年初,国家图书馆正式启动了“网络信息采集与保存”试验项目(WICP)[9],该项目同世界各国的 Web资源保存实践一样,积极探索Web资源的采集与保存的相关法律、技术、标准等问题。2003年11月20日,该项目主页开通并提供服务。该项目的主要目的,是通过试验发现Web资源采集、整理、编目、保存和服务中存在的问题,提出解决问题的方案;确定保存对象,根据其特点确定技术策略和业务整合方案;试验性采集、整理、保存数据并提供服务;并计划采集所有.cn域名下的网站和所有中文(编码)网站。
北京大学网络实验室在国家973和985项目支持下,开始了对中国Web的系统收集与保存工作。北大网络实验室开发建设的“中国Web信息博物馆”(Web InfoMall)系统[10],已经于2003年4月作为一个网站正式推出。目前已经维护有10亿以中文为主的网页,并以平均每月1千万网页的速度扩大规模。Web InfoMall系统能够以真实的效果再现历史网页,它提供的功能包括:输入URL,浏览永久保存的历史网页,欣赏旧时网页的风采;畅游昔日网站,随意纵横比照,品味网络世界的兴衰变迁;关注重大历史事件,将发展进程历历览尽,感受时代的进步;申请网页数据,研究深层联系,挖掘信息世界的潜在秘密。Web InfoMall还以公开许可证的方式对外免费开放网页数据,各研究机构和个人可以申请获取Web网页全文等数据,以作进一步的研究。
然而,应该看到,保存中国Web的工作依然处在一个起步的阶段。Web是一个十分庞大的实体,包容万千,任何将Web全部保存下来的想法都是不现实的。那么,问题就在于,在当前的物质和技术条件下,作为高校甚至是地区文献资源中心的高校图书馆,我们能而且应该做些什么?
4 建立Web博物馆的支撑技术
总的来说,Web博物馆的技术基础是包括计算机技术、通信技术、网络技术在内的信息技术。从Web资源的管理流程来看,Web博物馆的相关技术包括采集技术、存储技术、信息组织与整合技术、长期保存技术、内容发布技术、安全控制技术等[11]。
4.1 采集技术
网络信息的采集通常是借助各种搜索引擎来完成的,一个普通商用搜索引擎由搜索器、索引器、检索器和用户接口等四部分构成。一般来说,搜索器就是一个称为Robot计算机程序的网络采集器,它从某一初始页面或站点的URL开始遍历互联网自动地发现网页信息,当进入某个超文本页面时,它利用HTML语言的标记结构来搜索信息和获取指向其他超文本的URL链接,通过一定的算法选择下一个要访问的站点继而转向另一个站点继续搜集信息。索引器的功能是理解搜索器所搜索的数据信息,从中抽取出索引项,建立用于表示数据文档以及生成数据库的索引库。检索器的功能是根据用户的查询在索引库中快速检出数据文档,依据相关度评价对检出的结果进行排序。用户接口的功能是输入用户的查询并显示检索器检出的查询结果。
4.2 存储技术
在Web资源处理过程中,信息存储是关键的环节之一。无论信息处理技术多么的先进,我们都必须将信息存储于一定的载体之上,信息和信息技术本身都需要依托于一定的存储载体而存在。载体的好坏是影响数字信息长期保存的一大因素。
4.3 长期保存技术
Web资源的保存包括保存数字比特流,保存数据格式和处理信息,保存Web资源处理环境,保存Web资源的内容校验、身份认证、版本、演变、知识产权管理机制,保存Web资源的知识组织体系等内容。
Web资源与其他数字信息资源的保存面临同样的挑战。与纸质文献相比,数字资源的安全问题尤为突出。一是数字信息与传统纸质文献不同,其读出依赖于软件、硬件与操作平台,IT技术的迅速发展对长期保存的数字信息的读出构成了威胁。即使信息保存完整,但却无法识读或被人理解,这在某种意义上讲,与信息被毁具有同样的威胁。二是因为数字信息赖以生存的电脑与网络空间,充满了不安全因素与隐患,使得数字信息的真实与完整受到严重的威胁。同时,人为破坏如误删除、误操作以及自然灾难所带来的毁坏也同样不可忽视。
4.4 访问与安全控制技术
这里的访问(access),即向用户提供服务。Web资源保存的根本目的是提供服务,那么海量的归档Web信息通过何种接口提供检索和服务就是一个需要解决的问题。同时,还需要做好访问控制工作。访问控制是网络安全防范和保护的主要策略,它的主要任务是保证网络信息不被非法使用与访问。访问控制策略包括:入网访问控制、网络的权限控制、目录级安全控制、属性安全控制、网络服务器安全控制、网络监测和锁定控制、网络端口和节点的安全控制、防火墙控制等。
5 高校Web博物馆的建立
目前国内高校几乎都已建立校园网,全国网站数 (包括.CN、.EDU、.COM、.NET、.ORG下的网站)约 694200个,其中教育科研类网站占5.1%。网站作为网络建设中的重要一环,已经成为学校形象的“代言人”。许多校园网站建设已具备相当的规模和水准,形成了以“校园网”为代表的教育网络体系,并且,许多高校也建成了以新闻信息为主的发布平台、以思想政治工作为主的学生思想政治教育平台、以学生就业方面的信息为主的就业指导平台、以交流互动为特色的 BBS等多种信息交互平台,构成了较为全面的校级网络应用平台[1][12]。
这些Web信息资源有如下特点:信息量大,传播范围广泛;信息增速快,每天都有新增网页信息;寿命短暂;信息发布自由,来源广泛,内容庞杂,且质量不一。这些信息大都承载着学校发展的历史信息,包括重大事件,是学校状态和变化的一种反映,具有极高的收藏保存价值。
因此,将这些杂乱无章的信息进行整理并有选择地保存起来,实际上就是保存学校宝贵的信息资源。而图书馆应该在学校网络信息资源的保存中承担主要职责,网络信息资源的保存对图书馆的馆藏发展和服务具有战略意义。
5.1 高校Web博物馆的系统结构(见图1)
5.2 建立高校Web博物馆的工作流程(见图2)
搜集器得到的网页通过入库程序生成网页表示库,网页中除含有正文内容外,还含有导航信息、广告信息、调查栏、版权声明等部分,这无疑对提取网页的内容信息起了很大的干扰作用。因此我们在分析网页内容前,需要先把这些“噪音”去除掉,这就是网页净化所要做的主要工作。网页净化去除“噪音”信息后,我们就可以对它进行内容分析,建立网页信息表,把上述模块产生的网页信息集中起来。
5.3 网页抓取(见图3)
在网页的抓取过程中要注意以下问题:
(1)高效。高效包括两个方面的内容:一是应该能够在尽量短的时间内,抓取到尽量多的网页;二是抓取的网页要有比较高的质量,含有比较多的内容。
(2)友好。尽管在高效方面要求搜集系统以最快的速度抓取网页,但是我们并不希望我们的搜集系统给Web服务器造成压力,搜集系统需要尽可能的不对任何Web服务器造成压力。理想的效果是让Web服务器管理员甚至发现不了搜集系统的行为,搜集系统在一点也不打搅他的情况完成任务。
(3)功能可扩展。尽管现在为搜索引擎服务的搜集系统工作的对象以文本为主,但应该考虑到其他种类的资源。搜集系统可能被使用到其他的应用程序中去,对于Web上新出现的技术,可以很好的支持。或者虽然现在可以不支持,但在软件结构上容许这样的功能扩展。
5.4 检索系统的结构
在文档预处理阶段,系统从文档库中提取出文档,给每个文档赋予一个全局唯一的标识,索引的实现有不同的技术:倒排文件(inverted file,or posting file),签名文件(signature files)和位图(bitmaps)。索引过程中一个重要的步骤是索引词的产生。英文文本中单词直接用空白分隔,词的提取比较简单。而中文文档中词之间没有分隔符号,必须借助自然语言处理 (NLP,Natural Language Processing)技术进行中文分词。分词的效果直接影响着中文文本检索系统的检索效果(见图4)。
图4 检索系统的结构图
6 小结
Web资源采集与保存是一项庞大的系统工程,目前已有许多国家进行了有益的尝试,但总体上仍处于探索阶段。国外的Web资源保存项目大多由国家图书馆主持,相关企业和科研机构联合作业。Web资源的采集与保存研究是各国图书馆、档案馆界重点关注、着力实施的研究课题。目前,世界各国Web资源保存方面的研究和应用已经取得长足进展,我国的Web资源保存实践也才刚刚起步,尚存在大量的课题需要研究。WEB的资源价值已经得到越来越多的人的关注,建立高校WEB博物馆不仅是一项有意义而且是很紧迫的工作。但是目前高校图书馆并没有开始本项工作,对 Web资源的保存和利用还没有引起足够的重视。本文只是提出了一个建立高校WEB博物馆的初步设想,希望更多的图书馆人能够关注这项工作并参与到这项工作上来。高校web资源的保存,任重而道远。
收稿日期:2006-12-19