数字图书馆中的数据库技术与信息组织_数据库技术论文

数据库技术与数字图书馆中的信息组织,本文主要内容关键词为:数字图书馆论文,数据库技术论文,组织论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数字图书馆是一个大系统,它具有分布的、大规模的和有组织的数据库和知识库,用户或 用户团体可对系统内的数据库和知识库进行一致性的访问,获得自己所需的最终信息。建立 于计算机网络技术上的数据库信息系统是它的本质特征之一,因此,可以说数字图书馆就是 存在于因特网上的巨型数据库。数字图书馆中信息的获取、存储、组织、检索和分析统计都 离 不开数据库技术,所以对数据库技术及其发展趋势进行研究能对数字图书馆的建立和信息资 源的最优化配置起到极为重要的作用。

与数字图书馆有关的数据库技术主要有:关系数据库技术、面向对象数据库技术、非结构 化数据库技术、多媒体数据库技术、数据仓库技术等。

1 数字图书馆中的信息资源及其组织方式

1.1 数字对象

数字图书馆中的信息资源数量庞大、种类繁多,既有普通的电子文本,也有图像、声音、 软件等各类型的信息,“数字对象”是指从最广泛的意义上描述数字图书馆中的各种信息类 型——文本、声音、视频、数字、计算机程序,或者是部件的多媒体成份的一个术语。通过 数字对象这一概念,我们可以把数字图书馆看成是数字对象的集合,数字图书馆中信息资源 的组织问题就是对数字对象的组织问题。以数字对象作为数字图书馆馆藏资源的基本单位, 对各种类型的信息进行统一的描述,可以将多种媒体的信息融为一体,从而使深层次语义检 索成为可能。

1.2 信息资源的组织方式

如前所述,在数字图书馆中信息的类型是多种多样的,同时这些信息的来源也很广,有的 在数据库里,有的则存放在光盘上,有的存放在磁带机上,在数字图书馆中对这些不同来源 的信息资源进行统一管理的工具就是对象服务器(Object Server),即撇开信息的类型差异 ,统一将它们作为数字对象进行组织。一个数字图书馆可以有多个对象服务器,这些对象服 务器可以分布在全球各地,通过Internet与主服务器相连。在对象服务器中可以包含数据库 、光盘塔和磁盘阵列电子信息库。

数字图书馆是生存在Internet上的知识信息集散地,数字图书馆要面对的是Internet上大 量的丰富多彩、图文并茂的多媒体信息,因此数字图书馆要组织的信息资源与传统图书馆将 有很大的不同。由于多媒体信息具有数据量大、非结构化信息与结构化信息共存、信息 长度不定、声频、视频等媒体的敏感性、复合性等特点,使得传统的数据库的数据模型、系 统结构、用户接口等技术难以胜任多媒体数据库的管理和操作。为了存储与管理多媒体信息 ,一般 的作法是扩充原有的关系数据库,使其对多媒体提供支持,并通过引入抽象数据模型或语 义模型使之能模拟非格式化数据的内容,但这种做法有许多不足之处,比如不能对非文本信 息进行检索。但是随着数据库技术的发展,将多种媒体的信息融于一体已不再是空想。

数字图书馆中的多媒体信息有三种组织方式:一种是文本数据库加外部文件的方式,将非 文本信息以文件的方式存储并通过指针与相应的文本信息链接在一起;二是文本数据库加图 像数据库加声音数据库的方式,即按照媒体的类型分别存于各种数据库中;三是融为一体的 方式,即不管信息属于何种媒体,统一按照其内在联系存储在同一数据库中。

2 现代数据库技术应用于数字图书馆的信息组织

2.1 关系数据库技术

关系数据库,通过引入数学领域的关系模型及关系代数和关系演算,以关系概念为基础发 展起来,经过几十年的应用和发展,在处理文本数据、管理事务等方面奠定了自己的优势。

在信息(数据)存储方面,关系数据库以二维表的方式管理数据,数据以一条条记录的方式 进行管理,每一记录内部包括许多字段,字段名不可重复,对每一记录的每一字段具有唯一 值,字段中不支持子字段。关系数据库是一个严格的二维表,在结构定义上有很强的限制, 如对表中每个属性的长度是固定的、类型是事先定义好的。这样做是为了保证关系运算的准 确性和检索的完备性,但是在另一方面又限制了数据库的内容的变化性。

在信息(数据)检索方面,关系数据库的检索是在基于索引文件(Index File)基础上的SQL查 询 。关系数据库为每一个可检索的数据项建立一个索引文件,通过索引文件对字段进行检索。 对属于不同表的数据项进行组合检索则需要对表进行链接操作,当数据量太大时,对系统空 间要求很高,且检索速度也不太理想。另外,关系数据库对检索词的索引是以整个数据项 的内容为单位的,不能满足一些更深层次的索引要求,如全文检索。为了克服这一缺点,关 系数据库生产商推出的新版UniVersal Database Server或对象关系数据库中普遍提供了数 据库扩充功能,使得全文检索引擎可以无缝集成到数据库中,例如Oracle 8.x的Cartridge 技术,Informix的Data Blade技术,IBM DB2的Extender等等。

在多媒体信息的处理方面,关系数据库以处理文本信息见长,对于多媒体信息从一开始就 没有将其纳入管理范围,后来随着Internet的兴起,大量多媒体信息的涌入,使得关系数据 库生产商们不得不考虑对多媒体信息的处理问题,于是纷纷提供了对于一些超长文本、图像 、声音等多媒体的以及面向对象的扩充,如Informix数据库允许用户在数据库中建立复杂的 数据类型及用户自定义的数据类型,同时可对这些数据类型定义各种操作和运算以实现对象 的封装。在定义操作和运算时可以采用数据库过程语言、C语言,它们经注册后成为服务器 的一部分。

关系模型理论从提出到现在已发展了近30年,关系数据库技术已成为一种相当成熟的技术 ,特别是在结构化数据的处理方面有着极大的优势。在数字图书馆中还有着相当一部分的结 构化信息,如各种统计数据、数值和实事数据库等都可以应用关系数据库技术进行管理。

2.2 面向对象数据库技术

面向对象方法是一种认识、描述事物的方法论,它起源于程序设计语言,并迅速渗透到计 算机科学技术的各个领域。它以客观世界中客观存在实体对象为基本元素,并以类和继承来 表达事物间具有的共性和它们之间存在的关系,用一种与客观世界比较直接的映射方式很好 地 实现了抽象、封装、复杂性控制、信息隐蔽等机制。面向对象数据库是面向对象方法在数 据库领域中的实现和应用,它既是一个面向对象的系统,又是一个数据库系统。

当前,面向对象数据库技术仍处于不断发展和创新的阶段,在概念、原理和实现上都还没 有形成被广泛接受的共识。但对下述基本概念的支持是面向对象数据库所应该具有的:对象 (Object)、类(Class)、继承(Inheritance)、封装(Encapsulation)等。

目前已有一些成功的面向对象的数据库管理系统,但是其工具、环境和对面向对象方法的 支持程度还有待进一步的完善。URION、IRIS、ONTOS、ObjectStore、O2等是当前较有影响 的OODBMS。许多主流的关系型数据库系统(如Oracle,Informix)也在新版本中加入了面向对 象的特性,也就是对象关系型数据库。纯面向对象数据库管理系统自然对于面向对象方法具 有较好的支持,对象关系型数据库管理系统一般也应支持SQL环境中的基本类型扩充、复杂 对象处理、对象类属的继承和产生式规则的应用。

2.3 非结构化数据库技术

非结构化数据库就是字段数据及字段长度可变的数据库。非结构化数据库观点认为信息大 体上可分为两类:一类信息能够用数据或统一的结构加以表示,称为结构化数据,如数字、 符号;而另一类信息根本无法用数字或者统一的结构表示,例如文本、图像、声音乃至网页 等,称为非结构化数据。结构化数据是非结构化数据的特例。关系型数据库就是一种结构化 数据库,它很难处理网络中千变万化的非结构数据,必须采用子字段、多值字段以及变长字 段 的机制,允许创建许多不同类型的非结构化的或任意格式的字段,以突破关系数据库非常严 格的表结构。

非结构化数据库技术将非结构化和结构化数据都定义为资源,使得非结构化数据库的基本 元素就是资源本身,即数据库中的资源可以同时包含结构化的和非结构化的信息,所以,非 结构化数据库能够存储和管理各式各样的非结构化数据。通过这种对资源的管理方法,非结 构 化数据库实现了数据库系统从数据管理到内容管理的转化。

非结构化数据库最大的特点在于它突破了关系数据库结构定义不易改变和数据定长的限制 ,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的 变长存储管理,在处理连续信息(包括全文信息)和非结构信息(重复数据和变长数据)中有着 传统关系型数据库所无法比拟的优势。

在信息检索方面,关系数据库是通过建立索引而实现快速检索的,而非结构化数据库则通 过倒排文档(Inverted File)来实现记录的快速定位。灵活高效的倒排文档技术不仅能满足 传统的按整字段和子字段进行逻辑组配查询的需求,而且还能进行全文任意词的单项及组配 检 索,检索速度快且不受文献量的影响。

在多媒体信息的处理方面,非结构化数据库的记录是不定长的,因而可以存储各种信息, 如文字、图像、视听资料等。因此,非结构化数据库可以很轻松的处理多媒体信息。

2.4 多媒体数据库技术

数字化图书馆要求数据库具有管理图像、文本、声音、视频等多种媒体信息的能力,关系 数据虽然可以通过引入抽象数据类型来支持对多媒体信息的处理,但这种支持仅停留在简单 的 输入输出上,对于其它操作和深层次检索要求必须由用户自行定义。因此,多媒体数据库概 念应运而生。

目前多媒体数据模型仍处在探索阶段,在实现方法上可以抛开以前的数据模型,开发新的 数据库类型,从底层实现真正意义上的多媒体数据库系统;也可以从现有的数据库出发,通 过 将各种媒体的数据库整合起来的方式进行来构建多媒体数据库。由于后一种方法充分利用 了现有的数据库,对数字图书馆来说是一种比较现实的方案,在此我们将着重讨论以这种方 法建立起来的多媒体数据库。

多媒体数据库管理系统MDMS(Mutimedia Database Management System)的系统结构如图1 所 示。

(该系统结构分为三层:第一层是用户界面层UIL(User Interface Layer),它完成系统与 用户之间的信息交换;第二层是多媒体数据库管理层MDBML (Mutimedia DataBase Manageme n t Layer),是实现MDMS的核心部分,它不但管理格式化数据,而且还管理非格式化数据;第 三层是多媒体数据库层MDBL(Mutimedia DataBase Layer),它由四种类型的库组成,它们是 字符数值库、文本库、图像库和声音库。可以是任何现有的数据库,并不要求面向对象。 )

用户通过UIL(用户界面层)向系统提交查询命令,MDBML(多媒体数据库管理层)一方面将UIL 送来的对每个多媒体数据对象的查询命令翻译成各个DBMS所能接受的特有的数据库操纵语言 , 另一方面又将从各个DBMS获得的数据组装成一个统一的数据对象,然后再送给UIL。

在Internet实现上,基于数字图书馆的多媒体数据库系统由用户存储前端(浏览器)、Web服 务器,多媒体数据库服务器、数据库的创建与维护四部分组成如图2。

2.5 数据仓库技术

数字图书馆不仅要提供一次信息,还必须提供经过深层次开发的二次、三次信息;数字图 书馆的功能不仅应包括信息导航和信息提供,还应包括信息分析和决策支持。因此,数据仓 库技术也应成为数字图书馆的关键技术之一。

数据仓库是集成的面向主题的数据库集合,它是用来支持决策支持功能的,其中每个数据 单位都与时间有关。数据仓库中的数据应该是良好定义的、一致的和不变的。其数据量应该 足够支持数据分析、查询、报表生成和与长期积累的历史数据的对比。数据仓库技术就是一 种 能满足上述所有目标的方法。数字图书馆中存在着大量的历史数据,用数据仓库将它们组织 起来,可以在更高的层次上充分的利用这些数据。

构建一个数据仓库系统应包含8个功能模块:

①设计模块用于设计数据仓库数据库;

②数据获取模块用于从源文件和源数据库中获取数据,并进行清洁、传输,将它加到数据 仓库的数据库中;

③数据管理员模块用于建立、管理和访问数据仓库中的数据;

④管理模块用于管理数据仓库的运行;

⑤信息目录模块用于为管理者和企业用户提供有关存储在数据仓库的数据库中的数据的内 容和含义信息;

⑥数据访问模块用于为企业的最终用户提供访问数据仓库数据库的方法;

⑦中间件模块用于为最终用户工具提供访问数据仓库数据库的方法;

⑧数据传递模块用于向其它仓库和外部系统中分配数据仓库数据。各功能间的关系及其在 这 个系统中的地位如图3。

2.6 评价

以上几种数据库技术在对信息数据的组织方面各有所长,技术本身也处在一个不断发展的 阶段,到目前为止,还没有一种数据库技术能独立完成数字图书馆中的全部信息组织功能, 而是要在其它数据库技术的协助下来共同完成。总的来说,当某一信息集中结构化信息占多 数时(如电话号码集、公司一览表等)可以借助关系数据库技术来进行管理;当信息集中结构 化信息与非结构化信息比例相当时(如化学元素属性集等)可考虑使用非结构化数据库技术; 而当多媒体信息占有很大比例时(如图片集等)用多媒体数据库是一种较好的选择;数据仓库 技术则可以用来组织大量的相对稳定的历史数据,为数据分析和决策支持提供可靠的细节数 据; 面向对象的数据库可以很好的屏蔽不同类型的信息,能使信息资源的组织真正实现面向主题 ,它是数据库技术发展的方向,相信在不久的将来会大量应用于数字图书馆中的信息组织。

3 数字图书馆的发展对数据库技术提出的挑战

数据库技术为数字图书馆的建立奠定了坚实的基础,同时数字图书馆的发展也对数据库技 术提出了挑战,为其今后的发展指明了方向。首先,要同时使用几种数据库技术必须解决好 异种数据库之间的接口问题,要使对象服务器能够无缝的完成查询指令的接收和对数据库的 访问与检索操作。其次,在Internet实现方面,现有的数据库技术大都通过增加各种中间件 来扩展基于Internet的应用能力,通过应用服务器解释执行各种HTML中嵌入脚本来解决Inte rnet应用中数据库数据的显示、维护、输出以及到HTML的格式转换等,这种模式表现为一种 三层或四层的多层结构:数据库←→应用服务器←→Web服务器←→浏览器,在无形中加大 了数据库基于网络应用的难度,给数据库的Internet应用带来了新的网络瓶颈,应用服务器 端由于与数据库频繁交互,必然会受到其本身的效率和数据库检索的效率的制约,会造成In ternet应用在应用服务器端的阻塞。因此当前首要的任务是要研究如何将网络服务器和数据 库服务器紧密集成,使数据库系统成为Internet的一个重要的有机组成部分,实现在单一平 台上融合所有数据库和应用服务器的功能。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数字图书馆中的数据库技术与信息组织_数据库技术论文
下载Doc文档

猜你喜欢