中国数字图书馆建设的起步与发展,本文主要内容关键词为:中国论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
伴随着现代高新技术的飞速发展,以计算机技术、网络通信技术为代表的因特网迅速崛起,推动人类社会在经历了农业社会和工业社会后,开始进入信息社会。与此相适应,图书馆在走过传统图书馆阶段、自动化图书馆阶段后,已开始步入数字图书馆阶段。这将是图书馆历史上的一次革命。
一、数字图书馆的基本概念
数字化革命和因特网的大发展,带来了经济、贸易、信息传播的全球化,深刻影响着社会的各个层面。巨量信息涌入因特网,使其信息极为丰富,也使信息查询、检索十分困难,尤其是对于上网漫游的新手更是如此。这主要是由于因特网上的信息资源很大程度上处于混乱无序的状态,大大影响了信息利用效率。这一重大弊端,清楚地表明了因特网这种全球信息服务网络,急需一个组织管理信息资源的新模式,上网的资源应按这个模式组织管理。这就是提出数字图书馆的主要背景。
目前,数字图书馆正处于发展之中,国内外对数字图书馆还没有一个明确、完整的定义。但一般认为,数字图书馆是未来图书馆的发展模式,是采用现代高新技术所支持的数字信息资源系统,是下一代因特网网上信息资源的管理模式,它将从根本上改变目前因特网上信息分散不便使用的现状。简而言之,数字图书馆是没有时空限制的、便于使用的、超大规模的知识中心。
数字图书馆建设是以统一的标准和规范为基础,以数字化的各种信息为底层,以分布式海量资源库群为支撑,以智能检索技术为手段,以电子商务为管理方式,以宽带高速网络为传输通道,将丰富多彩的多媒体信息传递到千家万户。它涉及数字信息资源的生产、加工、存储、检索、传递、保护、利用、归档、剔除等全过程。它不是个别图书馆所能完成的任务,需要全国范围的图书馆、博物馆、美术馆、档案馆等信息提供单位携手共同完成。
在数字图书馆概念出现之前,人们从电子图书馆、无围墙图书馆和数字化图书馆等不同侧面讨论了图书馆的未来发展。电子图书馆主要是指以电子形式(媒介)存贮、传递并提供服务的图书馆,如各个图书馆建立的电子阅览室、OPAC检索等,它重点强调个别图书馆借助于计算机技术在一定范围内提供读者服务。无围墙图书馆是指读者通过网络通信系统检索多个图书馆的数字化馆藏,强调用户获取信息的广泛性和网络传输的重要性。而数字化图书馆则主要侧重于馆藏的数字化,将数字化的书刊文献上网提供读者使用。可以看出,电子图书馆主要侧重在个别图书馆的电子化检索,无围墙图书馆主要强调通过网络检索多个图书馆的馆藏,而数字化图书馆的重点则在馆藏的数字化。电子图书馆、无围墙图书馆和数字化图书馆的建设难度、使用的方便程度都远远不如数字图书馆,但它们是数字图书馆的基础,是建设数字图书馆必不可少的前期准备工作。
数字图书馆与传统图书馆、自动化图书馆的比较
传统图书馆
自动化图书馆 数字图书馆
工作中心馆藏
馆藏 用户
馆藏形式印刷型印刷型及少量电子出版物数字信息资源
工作方式 手工作业自动化加工书目数据及专题 自动化加工文献
数据库内容
检索手段 手工检索卡片 对书目数据及专题数据库对文献内容进
进行自动化检索行智能检索
服务对象 为到馆读者
以到馆读者服务为主,在一
面向全球读者
服务 定范围内提供文献传递服务 提供网上服务
馆藏加工
不加工
基本不加工
加工,并使之
增值
二、国外数字图书馆的发展概况
数字图书馆的研究起始于80年代末的西方发达国家,随后向全球扩展。国际上数字图书馆的主要项目有:
1.美国:美国数字图书馆建设走在世界各国的前列。并且对于建设数字图书馆的意义也日益重视。
美国政府“国家计算、信息、通信指导办公室”(NCO for CIC ),自1994年以来每年发表一本“蓝皮书”,这是一种正式的重要研究与发展的官方报告,近年来,报告对数字图书馆战略意义的描述越来越重视。
1995 年的蓝皮书“用于国家信息基础设施的技术”列出了九项NII应用的国家级挑战,依次为:数字图书馆、危机及应急管理、教育及终身学习、电子商务、能源管理、环境控制和废品最小化、保健、加工处理和产品、公众存取政府信息。蓝皮书指出,数字图书馆是无墙的知识中心的基础,并强调数字图书馆技术将被用于所有其他的国家级挑战应用之中。
1996年蓝皮书“高性能计算和通信:用于未来美国信息的基础”介绍了18个在美国进行的数字图书馆项目状况及IP地址。
1997年蓝皮书“推进信息技术的前沿”明确将数字图书馆列入有效技术之中。
1998年蓝皮书“用于21世纪的技术”则又将数字图书馆在CIC (计算、信息、通信)的六个研究发展重点项目中名列第一位。
现在,美国数字图书馆项目中的“美国NSF/DARPA/NASA数字图书馆倡议”已全部完成,该项目共六个子项目,涵盖大规模文献库,空间影像库、地理图像库、声像资源库;另外“美国国家数字图书馆项目”于1999年完成,它包括美国历史及文化科技成就,有15个研究图书馆与档案馆参加。其他项目也进展较快。
2.G8全球信息社会电子图书馆项目:由法、日、美、英、加、德、意、俄八个国家的国家图书馆组成, 其内含各国文化历史精华, 计划2000年前后完成。
3.法国:法国国家图书馆数字化工程。数字资源已达3000GB以上,书目数据830万条。
4.英国:英国国家图书馆存储创新倡议。共20个项目,大部分已完成,并在因特网或馆域网上提供服务。
5.日本:日本小规模试验型数字图书馆项目。 包括国家联合目录880万条数据的网络试验; 数字图书馆实践试验和日本国会图书馆1000万页馆藏的数字化。
日本国会图书馆关西馆工程。该馆将成为日本最大的数字图书馆及亚洲地区的文献提供中心,日本政府投资4亿美元,预定2002 年完成一期工程。
从国外发展看,数字图书馆建设必须使用高新技术做支撑。如在资源库建设中需要使用高效联机解析处理、数据仓库、数据挖掘等技术,研究将数据仓库和数据挖掘应用于数字图书馆的体系结构,研究元数据的界定与自动抽取、多媒体对象数据的压缩与还原等,实现数字图书馆的快速海量存取;要实现数字图书馆分布式资源库的可互操作性,研究在不同层次上(语句、语义等)为具有多个分布式资源库的大型数字图书馆提供快速横向跨库的查询技术;要实现基于并行处理的高速查询引擎,用于超大规模分布式资源库的快速存取;要实现多语种的实时翻译,并将其应用在因特网上的双向检索环境中;实现基于内容多媒体特征的检索,包括概要查询、分类、检索以及自动摘要、自动转换和匹配等;要实现数字图书馆系统的可缩放性,要求系统既能应用在全国范围、全球范围,也能适用于个人使用,因此,无论数据量、内容覆盖面和内容深度、用户数等都有极大的伸缩性。
三、我国数字图书馆的研发情况
国际上数字图书馆及相关概念出现后,即引起国内有关单位的重视,并开展了相应的技术研究与开发工作。
1.数字式图书馆试验项目
1996年初,国家图书馆在文化部申请立项“数字式图书馆试验项目”。
项目以中国博士论文影像数据库为切入点,采用客户/服务器模式,利用书目数据服务器管理数据的索引和查询,用影像数据服务器管理数字化的信息;扫描影像采用300dpi的分辨率,按CCITT的Group4 标准进行压缩和解压,将图像存贮到JukeBox上; 通过建立多级索引和多库连接实现检索;并能够在网上提供服务。该项目是后面各个数字图书馆项目的预研课题。
2.基于特征的多媒体信息检索系统的研究开发项目
此项目是1996年国家“863”攻关项目, 由中科院计算技术研究所与国家图书馆合作进行,现已通过技术鉴定。
项目主要研究基于特征的图像信息检索,实现按照图像的纹理、颜色、形状等特征对图像信息进行检索;研究中文信息全文检索,利用相关检索机制,提高检索效率;研究信息存储管理方法,实现跨平台的客户端检索。它是跟踪国际上数字图书馆检索系统所使用的高新技术自行研究开发的项目,其成果可用在面向影像内容的数字图书馆检索系统中。
3.标准通用置标语言(SGML)的图书馆应用
该项目是1997年文化部立项的科研项目,由国家图书馆现代文津信息技术研究中心与北京大学计算机研究所合作开发。SGML是国际标准化组织ISO于1986年10月发布的信息处理标准,目前已发展成为具有12 个国际标准的系列。我国在1994年将其定为国家标准,主要应用在新闻出版的信息处理领域。现在互联网上使用的HTML是它的一个应用实例,而XML是它的子集。
目前,国内图书馆在读者服务方面一般提供MARC(机读目录)数据,使读者可以通过检索书刊文献的题名、作者、分类、主题等获取书目的基本信息,而对文献内容则无法进行检索。但是,随着网上信息,特别是多媒体信息的日益增多,仅仅通过书目进行检索已不能满足读者的需求,必须寻找能够对信息内容进行检索的方法。采用国际标准,研究并试验将SGML标准应用于我国的图书馆信息处理系统,可以满足在网络环境下对图书馆提出的新要求。同时,SGML标准已经应用在国外许多数字图书馆的建设中。所以,该项目的另一层意义还在于通过该项目的研究与试验,可以了解SGML的整体情况,为数字图书馆建设积累经验。该项目是数字图书馆资源数字化生产系统的关键技术之一,是数字图书馆资源库数据生产加工的必备条件。
为此,国家图书馆现代文津信息技术研究中心参照国外利用SGML的情况,开发了基于SGML的图书馆应用系统,使用户可以通过因特网的WWW浏览器直接存取SGML应用系统的数据。
该系统于1998年2月开始在国家图书馆提供用户使用。1999年7月通过文化部组织的鉴定,与会专家高度评价了该项目,认为该项目在我国首创了图书馆基于SGML的WEB公共查询通道,具有90 年代末国际先进水平,为21世纪我国建设数字图书馆的宏伟工程做了前瞻性技术储备。
4.中国试验型数字式图书馆项目
1996年5月,国家图书馆提出了中国试验型数字式图书馆项目, 经文化部组织与协调,上报国家计委,并于1997年获得批准立项,成为国家重点科技项目。项目以国家图书馆为组长单位,有上海图书馆、辽宁省图书馆、南京图书馆、广东省中山图书馆和深圳图书馆等参加。
中国试验型数字式图书馆项目拟建立一个多馆协作、互为补充、联合一致的,实现由多类型、分布式、规范化资源库组成的试验型数字图书馆,为我国建设规范化数字图书馆提交一份初步成形的、实用的实现技术。
按照计划,该项目要组织建设若干个整体性好、符合统一技术要求、具有一定规模的资源库。六个图书馆要联合建设文化旅游资源库、名人资源库和法律法规资源库等。
项目计划开发完成一套与国际接轨的数字式图书馆实现技术,包括:建立以SGML/XML为基础的对象描述和编辑系统;建立统一的元数据; 组织开放体系结构的数字式对象库,建立通用的库访问协议;试验建立分布式不同源数字式对象的调度系统;设计并实现方便的网络用户界面与实用的系统管理界面;数字式对象的描述方法要支持不同源的分布式查询和检索;初步实现对超大容量数据库的快速检索;试验建立多种类型的规范化信息库等,以使该项目在互联网上提供试用性的服务。
同时,该项目还要完成“数字图书馆概念与发展研究”的报告,要对数字图书馆从理论到实践,从技术到应用进行全面的调研,对数字图书馆的概念、涉及的主要技术、各国动向、应用发展前景、对社会的作用和影响、经济效益等内容进行全面分析,了解现状,跟踪趋势,掌握相关技术,并针对我国图书馆的现状和资源特点,提出建设我国数字图书馆的战略规划建议等。
1999年10月,项目组召开会议,根据情况调整了研究内容和实现目标,计划在2000年底前实现预定任务。
5.知识网络——数字图书馆系统工程项目
它是1998年国家“863”攻关项目, 由国家图书馆与中科院计算机研究所合作完成。
该项目要实现一类数字图书馆体系结构的设计与开发,初步建立一个中国试验型数字图书馆系统。该系统要构筑在因特网环境上,其体系结构包含多个分布式数字资源库。系统将采用人工智能技术,实现横跨多个资源库的快速查询。数字资源建设要符合当前数字图书馆研究和实践的相关规范,以便为在互联网上建设一批中文资源库提供一种有效的实施方案。通过该项目,可以大大缩短我国与发达国家在数字图书馆研究和实践领域的差距。
在技术水平方面,该项目要达到具有网络管理、多媒体信息查询与检索、海量信息的存贮与检索、知识产权的权限管理等功能,要实现在因特网上有一定的互操作性,数字式对象的描述方法要支持不同源的分布式查询和检索,支持法律规定的知识产权保护和纳税义务,提供对超大容量数字式对象的快速检索子系统,提供方便的网络用户接口等目标。
此项目将参照国际上主流的数字图书馆研究方法和成果,结合中文数字资源特点,在系统总体框架及开发技术上与国际接轨;开发的主体工作将围绕基于SGML/XML的以中文资源为主的系统的建立、 维护和发布;对在知识挖掘、知识聚集等方面将通过智能代理方式予以集成;对国外已有比较成熟和定型的技术,将引进并消化吸收;系统将重点考虑应用于下一代因特网的实用性。
数字图书馆系统工程项目的成果将直接应用于中国数字图书馆工程的建设中。
6.中关村科技园区数字图书馆群软课题研究
1999年6月,国家图书馆牵头,联合北京市有关单位和北大、 清华、中科院等单位联合进行。
中关村是我国科技人员和智力资源最密集的地区,具有人才、科技和知识优势。加快中关村科技园区建设,通过科技成果和创新知识的产业化,将丰富的智力资源转化为强大的生产力,对北京市调整产业结构,加快经济和社会的发展具有重大意义;对实施科教兴国,增强我国创新能力具有重要作用,也是增强综合国力的重大措施。
中关村科技园区数字图书馆群是科技园区的重要组成部分,是实现该地区信息化的基础性工程,是保证该地区智力资源充分发挥作用、并可持续发展的必要手段,是充分发挥该地区各单位资源优势不可缺少的条件,是中国数字图书馆建设的重要组成部分。
该课题将通过各种方式对该地区现有资源进行调研,结合该地区的特点,探讨建设数字图书馆群的方法和路线,最终提出一份切实可行的实施方案,为把中关村科技园区数字图书馆群建设成为中国数字图书馆工程的示范性地区奠定基础。
经过一段时间的调研,项目组完成了《中关村科技园区数字图书馆群建设整体架构报告》,目前正在制定其实施方案,以实现北京市信息化办公室提出的“软课题,硬启动”要求。
7.辽宁省图书馆的数字化图书馆项目
该项目是辽宁省图书馆在IBM数字图书馆系统的基础上, 由东北大学阿尔派软件公司做系统集成和二次开发。IBM 数字图书馆在推出其产品后,就将其定位在网络环境下多媒体信息的综合管理解决方案。该方案有5个功能:内容的创建与获取,存储与管理,权限管理, 访问查询和信息发布。
辽宁省图书馆在该系统上计划实现古籍图书的数字处理、因特网信息发布、多媒体阅览室和VOD点播。在古籍处理方面,该馆计划利用IBM的Time Delay and Integration(TDI )数字相机对古籍进行数字化加工。
为使该系统的多媒体平台特性得以充分发挥,辽宁省图书馆搭建了一个集成的、多媒体信息工作环境。该馆在前期选择制作信息时,有意识地选择一些多媒体信息,主要有:古籍精选(连续的图像)、历史存照(单幅图像)、名人留鸿(图像与全文)、影视剪辑(视频和音频)等。
通过一段时间的实践,该馆有关工作取得相应的进展,制作了张学良和辽宁名胜两个动态专题,获得了宝贵的经验。
8.教育部的数字化图书馆攻关计划
由清华大学、北京大学、上海交大等单位承担的攻关计划,主要包括:数字化图书馆的结构和检索机制及应用标准和规范的研究,图文信息联合导读学习系统,数字化音乐图书馆的雏形及一个小型的数字化视频数据库的示范系统等。
9.中国数字图书馆发展战略研究
国家“863”项目。该项目拟从数字图书馆所涉及的整体、技术、 运行和知识产权等方面进行研究,并将成果应用在实际工作中。目前该项目正在进行中。
另外,中科院文献信息中心等单位也在积极着手进行数字图书馆的研制与开发。
在开展数字图书馆技术研究与开发过程中,国家有关部门也将其列入国家社会科学规划等国家级的研究项目中,国内不少单位和个人也相继开展了数字图书馆软课题的研究,迄今已发表数百篇论文和报告,介绍了国外数字图书馆的进展情况,论述了数字图书馆的概念、体系结构、对社会的影响,讨论了建设数字图书馆过程中所涉及的知识产权问题、社会学问题,探讨了数字图书馆对工作人员的要求等,并对我国建设数字图书馆提出了若干建议和意见。反映了我国图书情报界和教育界对数字图书馆建设的关注。
四、中国数字图书馆试验演示系统
为探讨建设中国数字图书馆的基本途径和方法,为中国数字图书馆工程开展前期试验研究并得到一些实践经验,同时,也使各级领导和社会各界对数字图书馆有一个感性认识,国家图书馆于1998年底开始集中人力、物力和财力,利用三个多月时间,开发完成了试验环境及演示系统。
演示系统在多媒体数字资源的创意、设计和加工,元数据抽取和元数据库的生成,对象数据库建设,调度系统的选用,以及实现多库的跨库检索和用户界面等方面进行了探讨,取得了初步的实践经验。开发了数据加工、置标、管理方面的软件,开发了元数据和对象数据装入和管理方面的软件,开发了包括多媒体对象在内的动态页面生成软件,开发了支持SGML和分布式数据库检索、查询软件以及元数据和对象数据连接的接口软件等。
整个系统运行在国家图书馆的千兆位馆域网上,运行稳定,达到实时传送,没有丢帧和断帧现象。
该系统建设了“千家诗”、中国古代建筑、北京故宫、海洋世界和宇宙的结构五个多媒体资源库,信息量约5GB。在这五个资源库, 有两个资源库的部分数据安置在距总馆10公里之外的国家图书馆分馆。
“千家诗”资源库是将国家图书馆收藏的明代彩绘珍本进行了数字化处理,为保护知识产权,采用了水印技术。对36首诗歌都配有图片、题解、注释、白话文解释和配乐朗诵,有些诗还配有吟唱。
中国古代建筑资源库反映了我国历史上各个时期的宫殿、寺院、楼阁、石窟和长城等内容,每个栏目都配有图片、解说,有的还有影像资料。
北京故宫资源库主要展现了其宏伟、壮观的场景,展示了它所收藏的各种艺术珍品,配有图片和解说。
海洋世界资源库选用了大量的影像资料,以生动的影像资料提高人们认识海洋、了解海洋的兴趣。
宇宙的结构资源库以普及宇宙基本知识为主,配有图片和解说。
按照数字图书馆的建设要求,这五个资源库与国家书目数据库和部分大百科术语数据库进行了SGML标引,各库实现了互联,实现了跨库检索功能。
演示系统制作完毕后,先后请人大常委会、国务院、文化部以及有关部委的领导观看,接待了社会各界人士数千人次,并多次在图书馆界举办的各种会议上播放,达到了预期目的,为中国数字图书馆工程的建设创造了条件。另外,该系统曾两次在国际数字图书馆研讨会上演示,向国外同行展示了我国数字图书馆的研发水平,得到他们的高度评价。
五、中国数字图书馆工程
国家图书馆于1995年安排专人负责跟踪国际上数字图书馆的发展动向,了解相关标准、规范和技术,并及时将有关技术引入到相关的研究项目中,取得了第一手的经验和对数字图书馆总体框架的认识。
国家图书馆根据所承担有关数字图书馆科研课题的情况,考虑到国际上数字图书馆发展迅速,如果我们再不行动,就会错过时机,拉大与国际先进水平的差距,同时,国家图书馆的书库已近饱和,需要立即着手进行二期工程的建设,而二期工程按何种思路进行设计是首先要论证的关键问题。国家图书馆认为必须加大对数字图书馆的投入力度,尽快实施全国范围内的数字图书馆建设,以避免重复建设。
1998年7月20日,国家图书馆向文化部递交报告, 申请在国家立项“中国数字图书馆工程”。经过一年多的酝酿准备,条件基本成熟。
2000年4月5日,由21个部委单位参加的“中国数字图书馆工程建设联席会议”第一次会议在国家图书馆召开,标志着中国数字图书馆工程开始启动。
中国数字图书馆工程是一项跨地区、跨部门、跨行业的宏大系统工程,是各项高新技术所支持的创新工程。其整体目标是:在互联网上形成超大规模的、高质量的中文数字资源库群,并通过国家骨干通信网向全国及全球提供服务;总体技术与国际主流技术接轨。
工程指导思想是:统筹规划,需求牵引,科技创新,滚动发展。工程建设原则为:公益性为主、资源建设为核心、统一标准规范、避免重复建设和实现工程建设民族化,保证工程的顺利进行。
工程任务是:计划到2005年,建设十余个,总容量不低于20TB的中文数字资源库;联合引进若干国内需要的国外专题数据库;实现全国大部分地区图书馆文献资源的联机采编及馆际互借;完成开发具有中国特色的数字图书馆应用系统;培养一批高水平的专业人才队伍,持续发展中国数字图书馆工程。
工程建设内容多,涉及范围广,其主要内容有数字资源建设、系统开发、标准规范和人才培养等。
工程特点:具有虚拟网络特点,是一个超大规模的、开放的、分布式的数字信息资源网络体系结构,能提供复杂信息加工存取功能;海量信息的生成与存贮;以中文为基础,包括外文和民族语言的信息资源;网络系统具有兼容性,良好的互操作性,开放式的可扩充性及快速反应能力;网络系统、信息资源和信息系统应符合国际标准和规范。
工程技术路线:在技术途径上采用与国际同类主流技术有接轨前景的方案,如标准通用置标语言/可扩展的置标语言(SGML/XML ),统一资源名称(URN ), 公共对象请求代理体系结构(Common
ObjectRequest Broker Architecture,CORBA)等;严格遵循电子信息处理与电子信息交换的相关国际标准及工业标准;统一的总体框架与灵活的子项目实施相结合;采用适用于网络环境的分布式面向对象的软件技术;立足国内自行开发与引进国外先进成熟技术相结合。
通过近几年工作,国内数字图书馆研究与开发已取得一定的进展,但与国际先进水平相经差距仍很大。我们必须认清形势,抓住机遇,迎头赶上,以中国数字图书馆工程启动为契机,全面实施数字图书馆建设,改变因特网上中文信息极度匮乏的状况,通过网络向全球弘扬我国悠久的历史和灿烂的文化,展现改革开放以来的巨大成就,使数字图书馆在我国两个文明的建设中发挥应有的作用。