国内外数字图书馆发展比较研究_数字图书馆论文

国内外数字图书馆发展的比较研究,本文主要内容关键词为:数字图书馆论文,国内外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数字图书馆发展经过起源初创期(1993年前)和概念形成期(1994~1999),已经进入快速发 展期(2000年以后)。加强国内外数字图书馆发展的比较研究,将有利于促进我国数字图书馆 建设与发展。

1 14所数字图书馆情况简介

这里选用14个数字图书馆建设项目作为比较对象,它们的基本情况见表1[1]。

项目名称 所属组织与 整体目标 始建年代网址

国家

计算机协会数字 计算机协会提供ACM期刊和会 1996 www.acm.

图书馆(ACM)(美国)

议论文全文的访问。 org/dl

美国记忆(AMMEM) 国会图书馆

主要提供反映 1996

lcweb2.loc.

(美国)

美国历史和文化的gov/ammem

数字化信息。

卡内基—梅隆大学卡内基—梅 开发一个集成声音、1994 www.ul.cs.

数字图书馆(CMDL) 隆大学(美国)

图像、语言识别以 cmu.edu

及电子书籍、艺术、

音乐、电子期刊的

数字视频图书馆。

密执安大学数字 密执安大学

通过分布式网络环境 1994www.lib.

图书馆(UMDL) (美国) ,提供环境研究和其unich.edu/

它交叉学科领域包括 libhome/

生命、自然和社会科 dig.html

学的电子信息资源。

伯明翰大学集成 伯明翰大学

开发混合图书馆的工作1998 Builder.

图书馆开发与电 (英国) 模型以便在教学与研究bham.ac.uk

子资源(BUILDER) 中通过万维网无缝集成

存取大规模印刷型与电

子型信息资源。

英国图书馆电子 英国图书馆利用图像和网络技术来1993 www.bl.uk

化贝奥伍夫项目

提高对馆藏数字化文献

(BL) 的存取

昆士兰郡镇图像 昆士兰大学建立一种大规模的有关

不详

www.

项目(DIGILIB) (澳大利亚)

昆士兰和布里斯班家庭 architect.

、公共、矿业和农业建 uq.edu.au/

筑物的数字图像馆藏。 digilib/index.html

学术电子文本和 悉尼大学

促进存取机构内部的和1996 setis.

图像服务(SETIS)

(澳大利亚) 远程文本与图像数据、 library.

技术程序和电子文本的

usyd.

创立与存贮。 edu.au

加拿大国家 加拿大国家 NLC的电子馆藏项目旨 1995 www.nlc-

图书馆 图书馆

在通过万维网来利用加bnc.ca

拿大500多个图书馆的

联机书籍、期刊和目录

网关电子媒体南洋技术大学 通过校园网为全体教1999 www.ntu.

服务(GEMS) (新加坡) 职工和学生传输大量的edu.sg/

各种媒介的信息资源。 library/

media/gems

/gems.htm

新西兰数字 怀卡托大学 开发基础技术来帮助其

1996

www.cs.

图书馆(NZDL) (新西兰) 它图书馆建立和管理各 waikato.ac.

自数字馆藏和为公众所 nz/~nzdl

所利用。

中国国家图书中国国家图 研究与开发数字图书馆1996

www.nlc.

馆(NLCN) 书馆 的体系结构、标准和规

gov.cn

范、应用系统,领导和

组织中国数字图书馆工

程建设。

上海数字图 上海图书馆 采取统一的界面、软件 1998 www.

书馆(SHDL)

、管理,充分考虑满足

libnet.

当前需要、适应资源共sh.cm

享和可持续发展的目标

,实现远程、快速、全

面、有序、智能、特色

六大服务。

清华大学数 清华大学

借助计算机技术完成馆 1995 www.lib.

字图书馆 藏资源数字化存贮和管 tsinghua.

(TDL) 理、通过网络技术向分 edu.cn

布广泛的用户提供便利

的服务,从总体上提升

图书馆的各方面功能。

这14个数字图书馆建设项目代表了公共图书馆、高校图书馆、科研图书馆三大系统中数字 图书馆建设的最新进展。下面从馆藏建设、检索特征、输出格式三方面对它们进行比较研究 。

2 国内外数字图书馆发展的比较研究

2.1 馆藏建设

ACM馆藏包括39378篇ACM期刊和会议论文的全文,以及自1985年以来7000多次ACM期刊论文 的引文目次和近35000次ACM会议论文的引文目次。

AMMEM拥有100万多条与美国历史和文化有关的馆藏记录,同时也包含那些记录美国历史的 各种文件、电影、手稿、照片和语音记录。AMMEM根据不同主题组、年、地点、原有格式、 数字化格式、图书馆类目和用户格式来对馆藏进行归类。每种主题类目分成13个子目,馆藏 按字母顺序排列。

BL存有贝奥伍夫遗留在英国图书馆的古代英语诗、11世纪盎格鲁——撒克森人史诗的手稿 、Cotton Vitellius十五世的肖像、十分珍贵的18世纪抄本、1815年编辑的19世纪初手稿校 勘 副本、一个综合词汇表索引及其新版与副本。原稿图像被组织起来检索整个版本、特定行或 特定页码。

BUILDER藏有印刷型和电子信息资源,各种考试试卷和两种电子期刊——《法医语言学》(F orensic Linguistics)和《国内历史》(Midland History),正在开发混合图书馆的检索界 面。文献根据系、标题、课程代码和试卷号来组织。

CMDL是一个多媒体数字图书馆,能播放1000多小时的数字视频、音频、图像和文本信息, 提供300多种电子日报、期刊和电子图书的访问。CMDL馆藏分为艺术、图书、文集、期刊、 多媒体、音乐和科研项目。每组下设有子组,子组下设有更细的小组,成树状结构。每组及 子组都按字母顺序编排,在线图书是根据作者和标题来组织的。

DIGILIB建立了昆士兰历史建筑物馆藏,它包括大量的家庭、公共、矿业与农业建筑物。它 们中的许多以前没有用任何格式记录过,目前已经存贮了1030多张图片。图像和照片根据市 镇、类型、特征、结构、素材和上下文来组织。

GEMS能提供网络光盘数据库、中文光盘标题、联机检索服务、电子期刊、视听资源、OPACs 和网站。馆藏包括310多种电子期刊、项目报告、学位论文、会议论文和职员与学生捐献给 图书馆的出版物,并能提供其它信息资源,如院历、课程信息、注册细节、时间表、未清账 单等。GEMS能实现对馆藏光盘、联机数据库OPAC、科研项目报告、数字化学位论文、会议和 其它出版物的访问,可以浏览数据库和电子期刊标题字顺表,并根据72种标题把文献分成若 干组。

加拿大国家图书馆(NLC)的电子馆藏是通过与加拿大在线图书与期刊出版机构的正式合作来 进行的。电子馆藏名目上标有网址可供利用,现有1800万条书目记录、55万条作者记录和由 加拿大500个图书馆包括国家图书馆提供的300万册数字化藏书。文献按照标题字母顺序排列 ,并用杜威十进分类法和全文本格式来组织。电子出版物的全文本格式包括美国国家信息交 换标准代码(ASCⅡ)、超文本标识语言(HTML)、文本、Word和WordPerfect。

NZDL提供13种馆藏的存取,主要涉及计算机科学,但同时也包括人机交互书目、常见问题 解答(FAQs)等。最大的馆藏资料是计算机科学技术报告,它包括25000份来自世界300个地方 的研究报告。馆藏中FAQs资料也很多,并提供了Computists Communique杂志的全文本索引 。

SETIS能提供大量网络型和内部人文学全文数据库的存取。除文学、哲学和宗教文本外,SE TIS致力于一些文本与图像的创建工程。大规模馆藏如美国诗全文数据库、1840年以来澳大 利亚文学数据库、英语诗数据库、英语戏剧数据库、牛津英语词典和分布式数字化研究生学 位论文数据都能全文浏览,并按关键词、著作标题、作者姓名、出版日期、出版地、出版者 、作者姓氏和作者日期与文献时代来编排。

UMDL馆藏建设集中于期刊文献与参考资源,如McGraw-Hill科学与技术百科全书、美国百科 全书、英国百科全书和200种核心与知名期刊,并可提供1100种Elsevier期刊的访问,密执 安大学数字化期刊与报纸共计超过3000种。UMDL资源是按照标题、类目和服务资源字母顺序 3种方式来组织的,它分为9个标题:即艺术与人文学、商业与经济学、工程、一般参考资料 、政府信息和法律、健康科学、新闻、科学与社会科学。

中国国家图书馆(NLCN)目前正在抓紧馆藏文献书目数据的制作,已完成1949年以来的中文 书目数据近100万条,完成1992年以来的西文书目数据近30万条;现正进行馆藏民国时期中 文图书、古籍、舆图和金石等文献书目数据的制作。同时,还在进行一批如“中国年鉴信息 ”等专题数据库的制作;其次,还抓紧馆藏印刷品文献的数字化和馆藏缩微制品数字化,以 及馆藏珍贵文献数字化[2]。

上海数字图书馆(SHDL)正在进行9个资源库的建设,拥有数据近200GB。其中“上海图典” 拥有2万余幅图片:“上海图文”收录了114种上海年鉴和115种新上海地方文献及地方文献 书目;“点曲台”收录了15个剧种的5000余份(种)音频资料;“古籍善本”已完成3233种古 籍善本的数字化;“民国时期图书”已完成1000多种代表著作的数字化和全文网络浏览;“ 科技会议录”收录了1986年至今共约27万余篇会议论文;“中国报刊”目前每年收录哲学社 会科学文章16万篇;“西文期刊目次”收录15000余种西文期刊;“科技百花园”收录了100 集系列科普片《新科技3分钟》和41集《科学智慧8分钟》共计约700分钟的录像节目[3]。

清华大学数字图书馆(TDL)建立了大规模的“本馆电子资源”和“学科网络资源”。其中“ 本馆电子资源”包括Ei、INSPEC、FirstSearch、CSA、PQDD、DIALOG、ABI、NTIS、EBSCO、 UMI、CAPSXpert、Web of Science(SCI、SSCI、A&FCI)、JCR、Web of Science Proceeding s (ISTP、ISSTP)、DII、BIOSIS Previews、Chemistry Server、Current Contents、Elsevie r Science、Academic Prss、IEEE/IEE、JSTOR、Springer Link、Kluwer Online、Wiley等 25种外文电子资源数据库和科技期刊报导、高校学位论文查询、万方数据库、China InfoBa nk、联机光盘库、光盘网络新资源、中国期刊网等7种中文电子资源数据库;“学科网络资 源”包括网络导航、国内主要网络站点、国内上网图书馆、国外上网图书馆、国内外主要大 学列表、Internet搜索工具、Internet教室、Science Online、中文核心期刊表、专利、虚 拟图书馆、科技报告12种资源。正在建设中的数字资源系统包括“清华大学建筑数字图书馆 ”、“清华大学网上图书馆”、“清华大学学位论文检索系统”、“清华周刊”、“馆藏文 物珍品”和“数字图书馆研究相关信息”[4]。

2.2 检索特征

比较14个数字图书馆的检索方法与特征,得出表2。

2.3 输出格式

这14个数字图书馆具有各自不同的输出格式,见表3。

由表3可知,不同数字图书馆有不同的显示字段。ACM、AMMEM、NLC、NLCN、SETIS、SHDL只 显示了诸如作者、标题、期刊名、日期等少量细目;ACM、NLC、NLCN、TDL能够利用超 链显示所检索文献的摘要或提要;CMDL、SHDL、TDL能显示多媒体文献的多媒体标题、电子 图书的书名和作者名、电子期刊的期刊名;DIGILIB、NLCN、SHDL和TDL能显示、打印或下载 、编辑照片和图像;SETIS和BUILDER能显示所检索的书目信息及其少量说明;ACM、NZDL、S HDL 、TDL和UMDL的合法用户可以下载全文或摘要;只有AMMEM、DIGILIB、NLC能排序输出,SETI S尽管不能实现排序,但可分组输出。

3 今后我国数字图书馆建设的3个关键问题

目前我们应在数字图书馆结构模式开发、数字资源建设和信息检索技术研究等方面下大功 夫 ,取得突破性进展,以推动我国数字图书馆发展。

3.1 数字图书馆结构模式

“浏览器——Web服务器——数据库服务器”是目前普遍接受的数字图书馆结构模式。Web 服务器主要接收读者客户端的查询请求、进行数据处理和处理结果的发送,管理HTML构成的 信息空间,提供对数据库的存取接口;数据库服务器主要负责管理数字化馆藏,通过接收We b服务器请求,对数据进行处理,然后把处理结果传送给Web服务器;读者客户端通过各种网 络 实现与Web服务器的连接,通过浏览器访问Web服务器提供的各种功能和丰富的数字化馆藏[5 ]。这就是常说的“三角形结构模型”“图书馆客户机——图书馆服务器——多媒体对象服 务器”是它的另一种提法。辽宁省数字化图书馆、美国国家图书馆[6]和斯坦福大学数字图 书馆InfoBus[7]都是运用这种结构模型来构建的。

密执安大学数字图书馆(UMDL)项目小组开发了一种基于代理协作的数字图书馆结构模型[8] 。它由用户接口处理(UIAs)、中介代理(Mediators)和馆藏接口代理(CIAs)三部分组成。用 户接口代理提供用户接口的通信封装,这种通信封装有两种功能:一是用适当方式为UMDL协 议封装用户提问;二是为各种代理发布用户简表,以指导检索过程;中介代理提供中介服务 ;将查询从UIA指引到某个馆藏,监视查询的进展情况,传递处理结果,转换格式,记帐等 ;馆藏代理给馆藏信息提供通信封装,执行翻译任务,发布馆藏内容和功能等。UMDL定义了 Conspectus语言,用来描述代理对某个代理协作组可做的贡献及其局限。UMDL还设计了注册 代理,由它负责维护UMDL系统中所有代理的内容和能力。这种基于代理协作的数字图书馆结 构模式具有很强的模块性、换算性和扩展性,有利于充分发挥数字图书馆的多种功能。

面对网络信息和用户各项需求的不断增长,人们着手构建一种开放体系分布式数字图书馆 结构模式[9]。它由数字对象、信息仓库、索引服务器、收集服务器、代理服务器和用户接 口网关、Handle System几部分组成。数字对象即代表各种媒体形式的信息资源(包括文本、 图像、音频、视频等),数字对象以通用资源名URN(Universal Resource Name)所标识;Han dle System服务器可以将一个URN解析为由URN所标识的一个或多个位置的数字对象;信息仓 库提供对数字对象存放(Deposit)、存储(Storage)、访问(Access)等服务;索引服务器(Ind ex Server)提供对数字对象的发现机制;收集服务器扫描一系列索引服务器,阅读其元数据 ,按收集定义原则决定索引服务器索引的哪些对象是指定集合的元素;代理服务器和用户接 口网关利用一个或多个收集服务器和索引服务器所提供的信息建立查询路径,以允许对这些 集合中对象的搜索和访问。代理服务器和用户接口网关与Handle System交互以处理索引服 务器返回的URN,并将URN所代表的一组数字对象的URL返回给客户端。这种数字图书馆结构 模式的主要优点是允许创建任意数量的联邦型数字图书馆实例(Instance)——按特定协议构 建的服务器集合,以响应服务请求并返回结果,具有无限可扩展性。这种结构模式能够对分 布式数字资源的收集、存储、发布、检索等服务给予可靠的管理机制,我们应该进行深入的 研究、开发与应用。

3.2 数字资源建设

加强我国数字资源建设必须采取协同开发、合作建库、统一标准、分步实施、突出特色、 避免重复建设的基本准则。首先,协同开发与合作建库是数字资源建设的关键。数字图书馆 资源建设不可能仅仅依靠几个图书馆和情报部门,而是必须依靠社会上所有信息资源拥有者 的大力合作,形成数字资源建设群体。各单位、各部门在建设本地数字资源的同时,将元数 据提供给数字图书馆中心及分中心。美国国家基金会早在1994年的“数字图书馆倡议”中, 就将多方协同,联合进行,作为项目中标的必备条件;其次,我国数字资源建设应统一标准 规范,按照统一标准加工、标引数字信息,避免出现各自为政、互不兼容的现象,保证数字 图书馆资源建设的科学、有序。数字资源建设标准包括文献分类标准、数据描述标准、数据 压缩标准等。其中文献分类标准有DDC、UDC、LCC、IPC、《中国图书馆分类法》、《中国科 学院图书馆图书分类法》、《中国人民大学图书馆图书分类法》、《中国档案分类法》等; 数 据描述标准包括文献著录标准、MARC标准、置标语言标准、元数据标准等;数据压缩标准包 括JBIG、JPEG、MPEG、P*64等[10]。我们应该从这些国内标准中选择并确定我国数字图书馆 建设的同一标准;再次,我国数字资源建设应分步实施、突出资源特色。《一期规划》分为 准备和实验阶段(2000年)、初步实用阶段(2001-2002年)和规模型成长阶段(2003-2005年), 这符合我国数字图书馆发展现状与规律。最后,我国数字资源建设还应避免重复建设,应成 立属于中国数字图书馆工程建设联席会议办公室领导下的资源小组,协调、安排全国各单位 的数字资源建设,并强化管理,避免资源重复建设。

3.3 数字图书馆信息检索技术

由表2可知,各国数字图书馆信息检索技术已经取得了一定进展,但目前这种状态很难满足 今后智能化、个性化服务需求,因而我们必须进一步开发数字图书馆信息检索技术。所谓基 于内容的检索(CBR),是指根据媒体对象的语义和上下联系进行检索。它主要包括基于内容 的图像检索、音频检索、视频检索。

基于内容的图像检索是根据图像所包含的颜色、纹理、形状以及对象(图像中子图像)的空 间关系等信息,建立图像的特征矢量作为其索引来进行检索的。它包括3种实现方法:①基 于颜色特征的图像检索法;②基于纹理特征的图像检索法;③基于形状特征的图像检索法。

基于内容的视频检索就是在大量的视频数据中找到所需要的视频片断,一般由视频数据库 生成模块、视频查询检索模块两部分组成。前者主要完成视频源数据的生成、视频数据的预 处理及视频特征库的生成;后者根据用户提问完成指定的查询和检索任务。在分析视频数据 后 ,就可进行基于关键帧、运动的检索和浏览。

基于内容的音频检索是将输入的字符序列和音频数据库中的字符序列相匹配,它主要是针 对频域信息或其它声学属性,以及声音的概念(主观)特性的查询。上海交通大学数字图书馆 创建了一个音频数据库的旋律检索系统,能够使非音乐专业人员可以方便地采用常规方法和 基于音乐内容即旋律的检索方法在网上进行乐曲的检索;音乐专业人员可以用乐句进行全曲 检索[11]。

今后我国数字图书馆应该整合基于内容的文本检索、图像检索、音频检索、视频检索技术 ,为用户提供高智能化的信息检索服务。

标签:;  ;  ;  ;  ;  

国内外数字图书馆发展比较研究_数字图书馆论文
下载Doc文档

猜你喜欢