论数字图书馆的技术本质_数字图书馆论文

论数字图书馆的技术本质_数字图书馆论文

略论数字图书馆的技术本质,本文主要内容关键词为:数字图书馆论文,本质论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 数字图书馆与数据组织

科学技术正在以前所未有的高速度向前发展,并产生出大量的、具有反复使用价值的信息。来自统计学的报告显示,在信息传递过程中,80%的时间用来获取信息,20%的时间用来加工和产生新的信息。面对这种现状,首要任务是如何科学地、高效率地获取信息,这就是建设数字图书馆的意义之所在,也是数据组织的意义之所在。

“数字图书馆”是利用数字技术将各种不同载体、不同地理位置的信息资源用数字技术存贮,以网络查询和传播的一个大型信息系统。数字图书馆应用了一系列数字处理技术和网络技术,其存贮对象、处理手段、检索手段、传播形态、服务方式及管理模式都与传统图书馆迥然不同。

数字图书馆存贮的信息是可供计算机处理的数字信息,通过图像扫描与处理,文字、图像和语音识别以及数字化初始信息进行再加工等技术将文献资源数字化。另一方面,对数字化信息资源进行存储,采用海量信息存贮技术对文献资源进行集中和分布存储。

传统图书馆的馆藏拥有大量的传统的文本信息(图书、报刊、政府文献、会议论文、专利文献、学位论文、技术报告等)资料。在网络时代,迅速膨胀的非文本信息(如照片、图片、艺术作品等)、视频声频资料(音乐带、电视电影片、动画游戏资料等)、多维图像和数据(如全息图像)、数据流信息(如卫星信息、宇宙数据等)及加工成的各种信息或数据库、电脑软件、智能产品等也在逐步进入图书馆。图书馆信息正日益呈现出丰富性和多样性。

数字技术和网络技术使传统图书馆追求的资源共享目标得以成为现实。数字化环境下的图书馆能够互联在网络上,从而为文献资源分工协调和网络布局提供了条件。数字图书馆作为网络信息传递的重要节点,信息资源的建设是其中之关键。

对于以传统印刷型文献资料为主体的图书馆来说,构建数字图书馆,实现网络信息资源共享,展现图书馆数字化的馆藏特色魅力,必须组建数字化的信息资源库,必须实现网络化的数据组织。数据组织是把数字图书馆引上互联网络的推进器和奠基石,是网络环境下开启数字图书馆的金钥匙。

数字图书馆应该是在网络环境下拥有丰富的数字化信息、强大的信息处理手段、灵活高效的服务方式的知识中心。图书馆的数字化必须满足上述三个条件,其中数据组织技术处于关键性地位。

数据组织也可称为信息组织,它是以数据、信息为主要处理对象,根据数据资料的内容及外部特征,通过相应的描述、格式化来实现对数据的管理,从而方便数据的存储、检索、调用和重组。

数据组织具有强大功能,一是有利于实现信息资源的组织、整合、管理乃至再生,二是可以根据特定需求进行网络化、多元化的查找和重组。

数据组织的社会功能主要表现在以下方面:促进信息资源的整合、开发和利用;优化信息检索,强化信息交流;节省时间,提高效率;便于继承和借鉴前人的成果,避免重复研究或走弯路;协助管理者、领导者做出正确的决策。

数据组织为信息的网络化、有序化和智能化服务提供了强大、快捷的技术手段。认识数字图书馆的技术本质,强化数据组织功能,这是数字图书馆建设的核心和关键,是网络信息资源建设的主攻方向。

2 数据组织技术的探索与发展

数据组织技术成为网络发展到现在的核心技术,许多研究者为之付出了巨大的努力,取得了丰硕的成果。这些成果为数据组织技术取得新的突破性进展奠定了基础,如WWW技术和搜索引擎。

WWW的基本思想最早源于上个世纪三四十年代美国罗斯福总统的科学顾问万尼瓦尔·布什,他当时设想一种叫“记忆延伸系统”(Memory Extender,MEMX),不通过卡片或归类档案来整理资料信息,而是类似于人的思维,带有跳跃性、随机性,能自由地浏览信息。这个思想在60年代特德·内尔森那里扩展为“超文本”(Hypertext)。内尔森提出一个文件机器的设想,叫“仙都”(Xanadu),它可以随意查寻全球任何一个地方的文本信息。而道格·恩格尔巴特则发明了鼠标,使超文本之间的跳转能够非常容易地实现。有了这些铺垫,人们在网上方便浏览信息的设想终于在90年代初梦想成真。

WWW于20世纪90年代初在欧洲粒子物理研究中心(CERN)问世,主要创建者是伯纳斯·李,短短几年,在全世界已拥有上亿用户,成了互联网上最广泛的工具,是目前互联网上大规模系统地组织数据的成功范例。

Web非常简单,它们的组成部分大都不是一般分布式系统中运行的程序,而是可以用HTTP协议轻易下载的文本,因URL给出了Web上任何一个文本的地址。在Web中,简单的链接表现文件之间的关联,链接使Web上庞大的信息资源相互联系,再不需要任何集中管理机构进行确认和授权。

使用搜索引擎是Web的一大特色。用户可以访问任何一个搜索引擎站点,只需键入一个请求(关键词等),搜索引擎便会很快地返回给用户一系列相关文件的链接,用户进而可以通过简单的单击到达感兴趣的站点。值得注意的是,搜索引擎并不受某一个集中的机构控制和管理。

WWW和搜索引擎给我们的启示是:对网络复杂的分布式系统来说,太庞大的协议缺乏友好性,而简单协议却非常有生命力;集中控制的方式容易导致“瓶颈”现象,假如每一次链接都要到中央控制单元登记一次,Web的发展就不会如此迅速。对于网上信息的组织技术来说:简单比复杂重要,开放比集中重要。

当我们身陷“网海”下手无门的时候,当我们进行搜索得到成千上万结果的时候,我们会深深地感觉:WWW和搜索引擎并没有最终解决网上数据的组织问题。在这方面许多研究者贡献了自己的才智和精力。数据仓库、数据挖掘和数据推送等技术可说是这种探索中取得的阶段性成果。

数据仓库是人们逐渐尝试对数据库系统中的数据进行再加工,形成一个综合的、面向分析的环境,以更好地支持高级的信息需求而提出的一个概念。数据仓库之父W.H.Inmon把数据仓库定义为:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。”他给数据仓库下的这个定义实际上也指出了数据仓库数据的特点:面向主题、集成、持久与变化。而具有这些特点的数据仓库能支持较为复杂的信息需求。

数据挖掘是为了解决获取大量的数据背后隐藏的许多重要信息而提出的概念。以前数据库系统所能做到的只是对数据库中已有数据进行存取,而隐藏在这些数据之后的更重要的信息在决策过程中往往具有重要的参考价值。数据挖掘是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的过程。数据挖掘涉及众多的学科领域和方法,可以较好地智能化地处理数据组织和应用问题。

数据推送方法可以智能化地记忆和分析资源使用者的需求,并根据这种记忆和分析来推断其需要的资源特征,将符合其特征的资源主动推送给相关的使用者,改变目前由资源使用者到网上查找所需信息资源的状况。

关于智能化数据组织研究,还有“智能体”和“数字生态系统”等许多设想和探索。

目前在数据组织领域使用比较广泛的工具是元数据。元数据是指对分布在不同物理位置上的数据进行描述的数据,用以说明系统中数据的内容、格式、质量、空间及时间范围属性、生产者、联系地址等问题。事实上,由于各种不同来源的数据所涉及的数据格式、存储地点、操作方式、采用的管理工具、硬件特性等都存在许多的不同,所以对这些信息进行正确的描述,以便于信息的查询、检索和使用是非常重要的。

网络上凡是广泛的分布式相异性数据的统一处理都是由相关的标准协议来保证的。元数据的标准体系正在制定过程中,它需要不断研究、完善。国际上已有不少组织、机构从事这方面的研究,比较著名的有DC(Dublin Core——都柏林核心元数据)等。

目前的元数据理论尚不完备,一些动态的变迁不大容易反映出来。2000年6月,第一次“中文文献资源共建共享合作会议”决定,由中国国家图书馆牵头,中国大陆、台湾及美国等有关单位参加,成立专门的中文元数据工作组,为全球中文文献资源的共建共享研究制定统一的标准格式。中文核心元数据的研究有了一个很好的开端。

3 数字图书馆的技术本质是数据组织

数字图书馆的准确定义应该是超大规模的、分布的、可以跨库检索的海量数字化信息资源库。中国数字图书馆工程是立足于大文化范围的跨部门、跨行业的国家信息资源建设的基础工程,其实质就是把中国五千年的灿烂文化用现代信息技术表现出来,使之成为现代知识的中心,从而以信息形态进入知识创新和经济建设的循环,在知识创新循环中产生巨大的社会和经济效益,因此,要从中华民族文化建设的高度来理解数字图书馆工程的时代意义。

对于数字图书馆的理解目前存在一些误区,例如认为数字图书馆是图书馆的管理实现数字化,或者认为数字图书馆是图书馆的馆藏资源和工作流程同时数字化。

正如传统图书馆的本质不在于用“原子”方式管理“原子”资源,数字图书馆的本质也不在于用数字的方法管理数字资源。传统图书馆的本质不是有一大堆“原子”形态的书籍报刊,而是对这些传统的“原子”形态的信息进行科学组织,使其有序化以便于检索及查阅。

数字图书馆的本质是对新型的“比特”形式的信息资源进行科学组织。数字图书馆的技术本质是数据组织技术。数字图书馆的根本特征可以概括为数字化、网络化和有序化。

“数字化”是指数字图书馆的资源都是数字化的。数字图书馆中的众多信息资源,不论是传统的文字,还是声音、影像乃至气味、动感等多媒体信息,都以“比特”的形式永久性地存储在电、磁、光介质之中,或流动在全球信息网络上,成为人类共享的知识财富。

“网络化”是指数字图书馆的信息资源不需要像传统图书馆那样既集中又孤立地分别存放,而是分布在各个角落,利用四通八达的网络相互联接,达到资源共享。

“有序化”是指按照一定的标准对数字资源进行合理地组织,这种有序不仅是针对一个传统意义的图书馆而言,而是对整个网络上的数字资源而言。数字图书馆所有管理工作的基础可以说就是基于这种广泛意义的有序化。这种有序化要依靠数据组织技术来实现,这对网络技术提出了新的要求。

网络技术主要是由计算机技术和通信技术相结合而形成的技术集合体。一般认为数字通信技术、数据压缩技术和多媒体技术是其三大核心技术。这些技术具有数字化、开放性、大容量和智能化。这三项技术的发展及其具有的特征,决定了数字图书馆必然要解决第四项技术:数据组织技术或者称为信息组织技术。

目前正在发展中的数字图书馆事业是向数据组织技术高峰发起的新一轮冲刺。这个方面的新突破必然要通过智能化方法才能最后实现。数据组织技术的重大突破将为数字图书馆建设产生重大和深远的影响,并推动网络信息资源建设的整体发展。

标签:;  ;  ;  ;  ;  

论数字图书馆的技术本质_数字图书馆论文
下载Doc文档

猜你喜欢