数字图书馆中信息资源库的建设,本文主要内容关键词为:资源库论文,数字图书馆论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G35[文献标识码]A
随着计算机技术、网络技术、通信技术的发展,Internet已成为人们工作、生活、学习中重要的信息交流途径。如何以数字化的形式合理地组织各类信息资源,利用Internet的优势向用户提供海量数字信息服务,是数字图书馆的首要任务。
数字图书馆作为一种新型的信息资源组织模式,自九十年代以来,受到世界各国的普遍重视。但数字图书馆作为一个新生事物,无论其平台技术、信息资源组织方法,还是信息服务策略都在研究、探索和实践之中,还有待发展和完善。数字图书馆信息资源库的建设是本文研究的主题,也是现阶段数字图书馆组建中的重点。
1 数字图书馆信息资源库的宏观规划
数字图书馆信息资源库的建设既是一项需要耗费大量的人力、物力、财力的系统工程,又是一项功在当代,利在千秋的历史工程。因此,在其具体的组织实施之前,必须要经过严密的规划和精心的组织。数字图书馆信息资源库的规划要考虑以下几个方面的因素。
1.1 了解国家关于数字图书馆信息资源建设的方、政策
1997年国家科委信息司下发了“国家科委关于加强信息资源建设的若干意见”。这一意见主要是针对我国信息基础设施建设较快,而信息资源建设严重滞后的局面提出的[1]。目前,国家科委已将建立分布式数据库共享系统和建立数字图书馆示范系统等列入“九五”国家重点科技攻关项目,其目的是以标准、规范的格式建立各种文献型、数值型、事实型、多媒体的数据库,利用先进网络信息检索和浏览技术代替传统的数据库联机检索服务方式,提供统一的界面来方便用户的信息检索,提高数据库的利用率和共享水平。
1.2 调查用户需求
数字图书馆是网络上的图书馆,它不同于以往的图书情报机构,它的用户范围非常广泛,可能超出了国界,在网络环境下,用户的需求又具有很多新的特色。广泛搜集用户和用户需求信息,明确其在网络环境下的新特点,围绕用户和用户需求来开展信息资源库的规划和组织,这是建设数字图书馆的依据,也是开展面向用户服务的基础。
1.3 了解信息资源分布特点,确定信息资源库建设的主题、特色目标
数字图书馆又称虚拟图书馆,但真正的全虚拟图书馆是不存在的,数字图书馆总是以某个现实的图书馆或情报机构为依托。因此,在数字图书馆信息资源库的建设中,必须要充分了解本馆资源的收藏特色,要选择有特色的资源数字化后提供给用户使用。在原则上来说,每一个数字图书馆都应该是一个特色图书馆。
一个国家或一个地区的数字图书馆系统应是一个信息资源的共建共享系统。因此,一个数字图书馆信息资源库的建设,不仅要考虑到本馆的藏书特色,还必须要充分考虑到与其它信息资源建设单位的分工合作和信息资源的互通有无。
1.4 解决好信息资源建设所需资金
在国外,数字图书馆建设所需的大部分资金由国家提供,民间组织提供的援助也不少。在我国,数字图书馆的建设,目前主要由国家提供项目的启动资金,但也有一些数字图书馆,如超星数字图书馆,正在尝试为用户提供有偿下载服务,以期走一条自筹资金、滚动发展的道路,这是其它数字图书馆可以借鉴的发展之道。
2 制定组织信息资源库的具体计划
在数字图书馆建设的目标确定、所需资金到位以后,要做的工作就是制定数字图书馆信息资源库建设的具体工作计划和实施步骤。
计划的第一步是确定具体的收集原则、目标、范围。数字图书馆信息资源的收集要遵循以下三条原则:针对性原则、系统性原则、重要性原则。目标是形成自己的特色收藏,在特色收藏的基础上提供特色服务。收藏的范围:第一是本馆的相关资源,第二是通过购买、交流等渠道能从其他馆获得的相关资源。
计划的第二步是人员的组织和任务的分配。进行数字图书馆信息资源组织,需要多方面的人才。既需要懂得内务管理、对外交流的管理人才,也需要懂得信息组织和规划的信息专家,还需要懂得计算机系统构建、管理维护的计算机专家,还需要从事信息的整理、录入等工作的图情工作人员。具体地各种人员需要多少,任务怎么分配,要根据数字图书馆信息资源组织的规模、难度和进度要求来定,只有各方面的人才协调地工作,才能使数字图书馆的信息资源组织工作有条不紊地顺利进行。
计划的第三步是分类体系、置标语言、元数据标准的选择。通常,数字图书馆会在某个分类体系的基础上,根据自己资源特色和用户信息需求的特点建立自己的分类体系。如中国国家数字图书馆,其收藏范围包括电子图书、音频、视频和图片四大类。因此,其分类体系首先就分为这么四个大类,然后对四个大类层层划分出更多的子类。
目前,网络上常用的置标语言有SGML、HTML、XML,常用的元数据标准有各国的MARC标准、Dublin Core、视听资料核心类目VRA Core等。一个数字图书馆采用哪种置标语言,哪种元数据标准,需要根据国家数字图书馆建设标准化的要求和自己的资源特色来选定。
计划的第四步是选购组建数字图书馆信息库所需要的软硬件资源。组建数字图书馆信息资源库所需的硬件设备主要有:用作数据库服务器、Web服务器、防火墙服务器的计算机,用来对信息资源进行数字化的高速高品质的扫描仪,用来存储海量信息的大容量存储器。组建信息资源库所需的软件主要有:操作系统(UNIX或Windows NT):存储全部图书资料的后台数据库(如Sybase、Foxpro、Jasmine数据库开发系统);数据库服务器(如大型磁盘阵列服务器、大型光盘库);防火墙Fire Wall程序:数据库与Web接口程序(CGI、API或ASP程序):OCR软件:智能计费软件、检索查询软件等。
计划的第五步是制定资源库建设各期的工作任务和目标。数字图书馆信息资源库的建设,是一个历时很长的系统工程,此工程一般要分成若干个阶段完成。因此,要为各期工作制定具体的任务和目标。
3 信息资源库的组织实施
数字图书馆信息资源库的建设是数字图书馆的重点工作。数字图书馆信息资源库的建设需要经过以下几个步骤。
3.1 素材的搜集和整理
素材的搜集,是指围绕着信息资源库的主题、学科特色要求,进行原始信息的搜集。由于到目前为止,还没有很好的方案来解决数字图书馆中的知识产权问题,所以,现在正在建设的许多数字图书馆,其资源库是关于不存在知识产权问题的历史文献数据库,如英国伯明翰等几所大学共同组建的ILEJ数字图书馆,主要收集三种十八世纪的期刊和三种十九世纪的期刊。要对某个主题、某个学科的历史文献进行系统的、完整的收集,是一项任务繁重的工作。
搜集到的素材须进行整理,如,对待扫描的期刊、图书、缩微胶卷进行加工整理,检查缺期、遗失或破损的卷期,并做记录。
3.2 简单元数据的手工录入
对于搜集到的原始信息资源,在进行正式的数字化转换前,需要将有关的简单元数据如资料编号、作者、题名、主题、期刊名、卷、期、出版机构名、原始资料存储馆名等键入象Excel之类的工作表中,一是用来标记待录入的资料,二是为后面编制数字化资源索引做准备。
3.3 信息资源的数字化
纸质图书信息的数字化可采取两种方式:一是重新录入,同时对原文进行标识,以方便读者查找。二是利用扫描仪扫描复制原稿,再利用OCR工具进行识别。
纸质图书的内容通常包含图形、图像、文字三大类。如果将三种类型统一作为图像来处理,这种方式对资料的描述不够精确,不能实现全文检索,此外,以图像来存储占用了较大的存储空间。另一种实现方案是将图形、图像、文字分别处理,即对于图像资料,仍以图像格式进行保存,对于图形资料,可以进一步将其转换成矢量数据。矢量化的图形比较节省存储空间,且便于后续的利用和修改。对于文字资料,可将其转换成文本信息,从而可以实现全文检索,同时节省大量的存储空间。但这样做会增加成本和时间的消耗。
随着存储技术、图像压缩技术和网络技术的发展,如价廉的大容量存储介质的出现、图像压缩比的显著提高、网络带宽的大幅增加,使以统一的图像方式进行纸质图书数字化的条件越来越成熟。所以,自1998年,超星等数字图书馆就采用此种方式提供数字图书的在线阅读。这种方式的优越性就在于速度快、费用低、容易实现大规模运作,此外,还能保持资料原貌。
对于模拟的音视频信息,可利用视频编码卡,在编码卡驱动程序和采编软件的配合下,将模拟信号转换成数字信号,再将其储存到大容量的存储设备上(硬盘、DVD-ROM)。经数字化后的视音频内容只是素材,需要经过适当的编辑和整理,如剪切、拼接,将不同素材中的视频片断组织在一起形成新的节目单元,才可以放入数字图书馆中提供给用户欣赏。
3.4 数字资源的压缩存储
数字图书馆存储的多媒体信息,特别是音、视频信息,其数据量非常巨大,必须要经过压缩,消除冗余信息,以尽量节省存储空间和信息传输中的时间、带宽消耗。目前常用的压缩标准有用于静态图像压缩的JPEG标准和用于动态图像压缩的MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21标准。
数字图书馆是一个海量多媒体数据库,其信息数据量之大是前所未有的。传统的二级存储器(主存储器和磁盘)已难以容纳庞大的数字图书馆数据,数字图书馆中的海量数据需要使用三级存储器存储。目前常用的三级存储器有磁带、磁盘、光盘、机器手光盘库、机器手磁盘库等[2]。
3.5 资源内容的标引
经数字化后的文件,需要标引人员或自动标引程序对其进行标引,一般由资源数字化前的简单标引和经OCR软件字符转换后自动抽取的标引项目两者组成。标引的内容主要包括内容分析、主题分类、作者、来源等项目的著录,并使用基于SGML/HTML/XML开发的资源加工软件对资源内容置标。
在超星数字图书馆中,采用《数字式中文全文文献通用格式》标准对数字资源进行标引,采用HTML语言作为置标语言[3]。在此格式中,所采用的元数据标准是在Dublin Core的15个元数据的基础上,增加“Record”这个著录项,其中包括题名、主题词、作者等可检索项。
3.6 质量的检查和归档
质量的检查,是指检查加工后的文件质量是否满足数字图书馆的要求,如图像的大小、分辨率、文本的正确率以及标引的正确性等,如果不合格,则需要返工。检查完后,将合格的数字化文件归档,存入数字图书馆的资源库。
3.7 元数据的抽取,索引文档的建立
人工抽取元数据是一件非常繁琐的事情,许多数字图书馆的建设单位会编写元数据自动抽取程序来完成这项工作。一个数据库需建立多少种索引文档,要根据所需提供的检索功能来定。如,为实现基于关键词的检索,需要建立关键词索引文档;为实现全文检索,需要为文本中的每一个字、词建立索引;为实现基于书名的检索,需要建立书名索引文档;为实现分类检索,需要建立类别库文档。
3.8 信息检索系统的设计与测试
数字图书馆,通常会根据自己的资源特色和用户的检索要求,设计专用的信息检索系统。目前,基于www的数据库检索系统一般采取客户机/Web服务器/数据库服务器三层体系结构。这种结构,一方面,用户无法直接访问数据库,有利于保护数据库的安全,另一方面,有利于利用Web技术设计通俗易用的WEB界面。
在超星数字图书馆中,采用TRS中文全文检索系统,安装在Web服务器端,在客户端使用超星浏览器。TRS中文全文检索系统能提供如下的检索功能:其一,能提供书名、著者、分类、主题等途径检索,可用全文检索方式检索书目记录;其二,可检索图书的目次、章节和摘要,并通过URL直接获得原文;其三,在部分数据库能实现全文检索[4]。
4 信息资源库的运行与维护
数字图书馆的建设是一个没有止境的系统工程。信息时代,新的信息不断地产生,用户的信息需求不断变化,数字图书馆的信息库存就得不断扩充和更新。数字图书馆信息资源库的运行与维护主要包括信息系统的安全、正常运行维护;对象数据库的扩充与更新;索引数据库的扩充与更新;以及与信息资源库建设相关的分类体系表,主题词表的扩充与维护。