省级网络信息保存中心建设的思考--以南京图书馆为例_国家图书馆论文

建设省级网络信息保存中心的思考——以南京图书馆为例,本文主要内容关键词为:南京论文,为例论文,省级论文,图书馆论文,中心论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着信息技术和因特网的飞速发展,网络信息资源迅速膨胀。保存作为人类文化遗产之一的网络信息资源,已成为图书馆不可推卸的主要职能和历史责任。美国、澳大利亚以及欧洲已分别启动了各自的网络信息保存计划。中国国家图书馆也于2003年正式启动网络信息资源采集与保存试验项目(WICP),进行网络文献收集、整理、编目、保存和服务的试验。南京图书馆如何结合数字图书馆建设,保存网络信息资源,打造省级网络信息保存中心,是值得我们思考的现实问题。

1 国内外关于网络信息资源保存的做法

在国外,对网络信息资源的收集、整合、保存早已提上日程,并已经开展了此项工作。20世纪90年代末,世界上以欧美为首的发达国家开始建立网络信息资源收集和保存的实验项目,旨在通过实践探索网络信息资源保存的方式和方法。这项重任被责无旁贷地赋予了以保存文化遗产为己任的各国图书馆。

1.1 美国Minerva项目

美国国会图书馆从2000年开始进行网络信息保存项目Minerva,全称为Mapping the Internet Electronic Resources Virtual Archive。[1]该项目采取选择性收集的方针,使用网络机器人自动收集无限存取信息,其主要目标是为有关网络信息的选择和收集方面的实际问题提供试验,从而为美国国会图书馆运行一个大规模的网络信息保存项目提供指导和经验。

美国国会馆还和其他机构合作,开展了专题性的网上信息的收集。比如和Internet archive机构合作,进行了2000年美国总统大选和2001年“9·11事件”的相关网站资料的专题保存。最近,UMI公司、美国物理协会、美国工程师协会等机构也与国会图书馆签署协议,对重要的网络信息进行保存。并且,在我国目前尚无专门机构研究和保存网络信息资源的情况下,美国国会图书馆已对包括我国网络信息资源在内的全球网络信息进行批量收集,他们搜集和保存了我国官方网站的大量信息,甚至包含我们自己现在都无法找到和再现的信息。

1.2 澳大利亚PANDORA项目

澳大利亚国家图书馆于1996年启动了澳大利亚网络信息资源项目(PANDORA),[2]全称为Preserving and Accessing Networked Documentary Resources of Australia。该项目是一个多馆合作项目,采取选择性的收集方针,其目的是在建立一个经过选择的澳大利亚网络信息资源归档系统的同时,为保护和存取澳大利亚电子资源制定政策和程序。

目前该项目由电子资源部、编目部、期刊部等部门共同管理,以电子部为主。澳大利亚国家图书馆每年大约花费100万澳元来支持该项目。其数据增长很快,数据规模已经比较庞大,同时收集的各种类型的文件也比较丰富,主要是文本文件和图像文件。该馆还研究制订了一套基于统一资源识别码(URI)的唯一识别符PI,并通过数据转移、系统仿真和数据更新来保证数据的长久保存。

1.3 欧洲各国的网络信息保存项目

欧洲国家的网络信息资源保存项目主要以多国合作为主,例如1997年开始的由丹麦、挪威、芬兰、冰岛和瑞典五国合作的Nordic Web Archive项目,以及 1998年开始的有9个国家图书馆、一个档案馆和3家出版商合作的NEDLIB网络化欧洲存储图书馆 (Networked European Deposit Library)项目。除此之外,欧洲各国图书馆还开展了自己的保存项目,如挪威、瑞典、丹麦、奥地利、法国、德国、荷兰等。[3]

特别值得一提的是,2006年11月法国国家图书馆馆长让诺尔-杰恩尼(Jean-Noel Jeanneney)在上海图书馆学会双月学术讲座上演讲时,特别谈到了法国网络信息资源保存的问题。[4]他表示,法国已在国家图书馆设立了网页存档项目组,并将对2007年的法国总统大选及其后的议会选举的相关网页进行保存。他指出“随着社会的发展,如果我们不和数字资料紧密相联的话,我们的选民根本不知道这个世界上发生了什么事情。所以作为一个图书馆员,把这些珍贵的资料保存下来,是我们义不容辞的任务。”

2 国内的网络信息资源保存项目

目前,我国的网络信息资源保存尚处于试验和论证研究阶段。现已启动了两个试验项目,一个是中国国家图书馆“网络信息资源保存”试验项目,另一个是中国Web信息博物馆计划。同时,许多大学和科研机构也承担了数字资源保存的课题,其中Web资源保存研究是其重要方面。

2.1 国家图书馆“网络信息资源保存”试验项目[5]

2003年初,国家图书馆正式启动了“网络信息采集与保存”项目(WICP,Web Information Collection and Preservation),并于同年11月20日开通“网络信息资源保存”项目主页http://www.webarchive.nlc.gov.cn并提供服务。

技术上,WICP在进行网络信息的采集和保存的时候,按照表层网页和深层网页分别进行采集和保存。目前,表层网页即静态网页可比较容易地通过程序(也称采集机器人)收集;而深层网页即动态网页的采集在技术上还存在一定的困难。组织上,WICP目前仅有十多人组成的“网络文献收集与保存试验小组”,尚无固定的编制和预算。

2.2 中国Web信息博物馆[6]

中国Web信息博物馆(Web Infomall)是2002年1月,在国家“973”和“985”项目支持下由北京大学“计算机网络与分布式系统实验室”主持开发的中国网页历史信息存储与展示系统,包括历史网页存储系统和回放系统两个部分。这两部分独立完成各自的任务,回放系统是基于存储系统完成的。目前系统主要实现了,输入URL浏览永久保存的历史网页、典型历史网页展示浏览和历史事件专题回放三大功能。它能为用户提供一个完整的历史网页,而不是单篇文章。对于追寻重大历史事件发展进程的全貌有着特殊意义。

作为全国最大、最完整的互联网内容信息收集与仓储中心,Web Infomall现收藏有从2001年以来约10亿个中文网页,并以平均每月增加1000万网页的速度扩张。

3 南京图书馆网络信息保存中心构想

3.1 处理流程

通过对美国国会图书馆Minerva项目系统模型(图1)和国家图书馆WICP项目系统模型(图2)的分析可以发现,网络信息的保存流程大致分为资源采集、资源编目、资源存储三大步骤。其中,美国国会图书馆的Minerva项目处理流程较为复杂,技术要求较高,这得益于该项目起步早、起点高且投入大,其项目模型现阶段不适合南京图书馆采用。国家图书馆的 WICP项目,处理流程较为简单、清晰,且国家图书馆与南京图书馆共同采用Aleph500系统,在信息的编目、数据的交换上具有可借鉴的经验。因此,我们在国家图书馆WICP项目模式的基础上,结合南京图书馆自身特点,设计了南京图书馆网络信息保存流程(图3)。

图3 南京图书馆网络信息保存流程

3.1.1 信息选取

网络信息资源分布广泛、数量庞大,保存所有的网络信息资源显然是不可能,也是不现实的。作为省级公共图书馆,南京图书馆在网络信息保存的范围上应区别于国家图书馆的WICP项目,既避免重复建设,又突出地方特色。我们认为,南京图书馆网络信息资源的保存可以以下三个标准筛选:(1)服务器的物理地址在江苏省内的网站;(2)由江苏的组织、个人拥有的网站或者网站内容由江苏的组织、个人创作;(3)国内外其他能反应江苏重大事件的网站页面。现阶段,可以与“江苏省互联网新闻中心”合作,选取省内各级政府、省内知名企业和主要媒体三大类网站。在明确其网站所有机构名、网站开通日期、网页更新频率等信息后,筛选出符合信息保存范围的网站,向其发送版权声明,询问可否下载、下载深度,可否公开、何时公开等具体事项,最后签订协议,形成长期保存合作关系。考虑到信息处理能力及信息储存量等多方面因素,现阶段网站存档总数应控制在150个以内。

3.1.2 信息采集

目前网络信息资源的采集有手工和自动两种方法,手工采集即手工地选择几百个网址和选定一个存储的频率;而自动采集,是使用网页爬虫程序来管理网络文献,它定期运行程序,把搜索过的网络信息资源的每一页都抓到服务器中,并且自动管理。这种技术不需要存储网络的图形结构,因此它只需要少量的资源就能运行。但是,在WICP项目试验中发现,这种爬行模式存在对深层网络和不可见的网页不能有效收集的问题。至今该问题仍未取得重大技术突破。因此,我们认为现阶段南京图书馆,一方面应采用自动内容爬行的方法尽可能迅速地收集到网上巨大规模的信息资源;另一方面对于那些不能用自动方法得到的深层网络并且具有极高价值的网络信息资源内容,应该采取手工收集管理方式作为补充,即采用自动爬行与手工方法相结合的方法采集网络信息。

3.1.3 信息编目

随着图书馆数字化的发展,MARC格式的编目虽然也进行了修改,设立了856字段即电子地址及检索方式字段。通过它实现书目记录与网络信息资源的链接,但是在网络信息高速发展的年代,传统的数据描述方式已经远远跟不上形势发展的需求。通过对 Minerva、WICP项目的网上调研我们发现,目前,都柏林核心元数据集(Dublin Core)已经成为对网络资源进行编目处理的通用数据描述格式。南京图书馆可采用国图的网络信息资源编目办法。按照DC元数据格式建立一个试验性的网络信息编目系统,一方面将网络信息编目后的MARC书目数据录入到Aleph500系统中以供现阶段衔接、利用,另一方面将DC书目数据录入到试验系统中,为今后的完善、发展奠定基础。

3.1.4 信息存储

在网络信息资源保存过程中,对网络信息的物理存储主要采用网络存储技术,网络存储技术以网络技术为基础,将信息数据存储于专用的存储设备,从而实现对数据的海量存储。目前主要有直连方式存储(Direct Attached Storage,简称DAS)、网络连接存储(Network Attached Storage,简称NAS)、存储区域网络(Storage Area Network,简称SAN)三种存储方式。从纯技术的角度来看,DAS是一种较简单的网络存储方案,技术实现简单,初期投资成本也较低,适用于较小规模的数据分布存储。NAS和SAN技术实现要求较复杂,追求存储管理的性能和数据传输速度,由于初期投资成本较大,适用于大规模数据存储和文件共享。有可伸缩性和灵活性。“江苏文化网”在编制“十一五”规划时曾对三种网络存储方案进行调研。NAS系统技术相对成熟,在跨平台应用中的应用性和可靠性上“领先”SAN和DAS技术,且资金需求大大低于SAN系统。因此我们认为,南京图书馆在网络信息资源保存系统试验阶段和建设初期,可采用NAS系统进行信息存储。如项目推进顺利,数据量增长迅速,今后还可将 NAS系统转为备份存储系统。

3.2 组织机构与制度建设

3.2.1 与国家图书馆合作,积极参与WICP项目

在2004年《南京图书馆代表团访问澳大利亚维多利亚州图书馆工作报告》[7]的七点体会中,特别谈到了维州图书馆网络信息资源的整理、保存工作。该图书馆作为成员馆之一参加澳大利亚国家图书馆的 PANDORA项目,并根据澳大利亚国家图书馆开发的“数字信息存档系统”进行元数据的生成,同时对在网上收集的信息资源全部进行编目,收入到各成员馆的馆藏目录和全国书目数据库中。南京图书馆可借鉴维州图书馆的经验,与国家图书馆合作。一方面,可利用国图已有的试验经验和试验系统进行开发,避免重复建设,少走弯路;另一方面,两馆的联合开发也为今后全国性、制度化的网络信息资源保存甚至数字图书馆建设奠定基础,并可使南京图书馆在数据标准、数据量和人员方面取得领先优势。国家图书馆也需要南京图书馆这样软、硬件实力都较为雄厚的图书馆参与项目,不仅可以在资金、技术、人员上优化配置,也是与国际通行的网络信息资源保存制度相适应的。

3.2.2 推动地方立法,建立数字化信息呈缴制

目前全国各地已普遍建立了纸质文献的呈缴本制度,但对于数字信息还没有相应的法规予以规范。随着数字图书馆建设的深入,图书馆的工作对象也将由传统纸质文献向数字信息转变。但是,数字信息出版商出于自身利益的驱动,往往只允许图书馆获得数字作品的存取使用权。图书馆没有属于自己的硬拷贝,即无权为长期保存数字作品建立有关文档。著作权法中关于保护著作权和禁止破解技术保护措施的规定,使出版商更热衷于以加密形式出版发行数字作品,由此导致数字产品的发行更多地以许可方式进行。南京图书馆应以网络信息资源保存项目建设为契机,在省内推动地方立法,建立数字信息呈缴制度。任何一家网站或其他信息生产、出版单位都有责任与义务把生产和出版的信息资源上缴给同级的公共图书馆。从而保证南京图书馆网络信息资源保存工作的信息来源,减少网上信息挖掘的工作量,也有利于解决数字信息的版权问题。

3.3 资金来源

网络信息资源保存需要巨额的投资,工程持续时间长,短期内很难取得明显的经济效益,这也是目前商业机构尚未进入该领域的重要原因。目前,图书馆网络信息资源保存的资金来源主要是政府财政拨款,在国内,即使是国家图书馆,也未申请到常态化的网络信息资源保存专项经费。随着网络信息量的不断增加,这笔投资会变得越来越大,图书馆也将不堪重负。我们认为,南京图书馆可以借鉴商业化数据公司通过制作数据库向社会发售以取得经济收益方式。在保持公益性事业的基础上,也可以寻求经济效益。所保存的网络信息资源经过整合向社会提供服务,作为一种信息产品,也应该具有自己的价值。因此可以进入信息产品市场,尝试企业化运作。这在国内也已有先例。中国科技情报研究所以自身的业务与用户价值估价5800万,作为控股股东成立了万方数据有限公司,并拟在资本市场上市。国家图书馆也主导建立了中国数字图书馆工程有限责任公司,也是希望以公司化、市场化运作来经营数字图书馆事业。南京图书馆已建设“中国近代文献图像”、“百年艺苑”、“百年人物”、“江苏文化”等数据库,并已开通网上服务,具有丰富的数据库制作及应用经验。如果能在国内率先建设“网络信息资源数据库”,则极有可能在市场上取得收益,从而为网络信息资源保存项目提供资金支持,实现公益性与经济性的统一。

收稿日期:2007-07-05

标签:;  

省级网络信息保存中心建设的思考--以南京图书馆为例_国家图书馆论文
下载Doc文档

猜你喜欢