非结构化Web数据库与图书馆多媒体信息资源的组织与利用_非结构化数据论文

非结构化WEB数据库与图书馆多媒体信息资源的组织利用，本文主要内容关键词为：信息资源论文,结构化论文,图书馆论文,多媒体论文,组织论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 非结构化WEB数据库简介

非结构化WEB数据库，是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的基于INTERNET、INTRANET的数据库，用它不仅可以处理结构化数据（如数字、符号等信息）而且更适合处理非结构化数据（全文文本、图象、声音、影视、超媒体等信息）并在互联网上发布。非结构化WEB数据库主要是针对非结构化数据而产生的，与以往流行的关系数据库相比，其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制，支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理，在处理连续信息（包括全文信息）和非结构化信息（包括各种多媒体信息）中有着传统关系型数据库所无法比拟的优势。

2 图书馆多媒体信息资源的特点及组织利用中的技术要求

2.1 图书馆多媒体信息的数据量非常大，象馆藏影视资料和各种多媒体教育资料，其动态图象信号，每秒可达数兆字节，一段几分钟的MP3音乐也有几兆字节，即使经过压缩、也十分巨大。如何对多媒体海量数据进行有效地组织、存储并构成WEB数据库提供给用户网上使用，技术要求很高。

2.2 馆藏多媒体信息的数据类型很多，包括各种图文数据、声音数据、影视数据、超媒体数据、多种格式的随书光盘等等，其数据长度不固定，结构上的差异大，使得处理这些数据十分困难，要求数据库既能够处理可变长度字段又能够处理可重复的子字段。

2.3 多媒体信息处理在时间上要求很高，多媒体信息中的声音和动态图像对时间特别敏感，在使用这些信息时，必须保证其时间上的要求，否则将会使这些信息失真甚至变得毫无意义。

2.4 开发利用馆藏多媒体信息资源经常要多种信息集成描述，比如某种多媒体，既有图像，又有声音，还有文字说明，这样就会改变传统的数据库操作形式和数据库接口，尤其对图文并茂的数据库的建立和查询，需要统一语义描述。

基于多媒体信息资源的上述特点，要想使馆藏丰富的多媒体信息资源得到充分利用，满足信息用户不断增长的信息需求，对多媒体信息处理提出了不同于普通信息处理技术的新要求：

（1）多媒体数据库元数据存储技术要求

我们知道音频、图象、视频等多媒体信息数据是非结构化的，它们不能用简单的数字解析式表示，多媒体数据库必须取得基于这些媒体对象内容及信息特征的解释，才能完成存储及应用，这些解释就称为元数据，通过对元数据的归类、整理、实现标准化的存储是多媒体信息资源组织利用的关键。多媒体数据库元数据存储技术要求包括：文本元数据的存取，语音元数据的存取，图象元数据的存取，视频元数据的存取等方面的技术要求。

（2）多媒体数据库结构字段设计与数据记录处理方面的要求

a.允许可变长字段、可重复字段、子字段和MARC字段。

b.数据库记录的数目与记录长度，字段数目与字段长度，字段可重复次数不应受到限制。

c.允许建立可以快速存取的倒排文件和多媒体、多语言记录表。

d.数据库可自动接受和产生MARC和ISO2709记录格式的文件，并且满足对MEDADATA数据模式的支持功能。

（3）基于WEB的多媒体信息检索与信息发布的技术要求

随着用户对于信息需求的大量增加，以及对于多媒体信息的实效性要求，基于WEB的数据库信息存储的检索越来越倾向于多媒体全文信息检索的查询语言，并且对于检索结果的需求也侧重于多媒体全文信息的获取。与此同时，WEB数据库的信息发布形式开始更多地过渡到通过网络浏览器以多媒体电子文档的方式（B/S）传输给网上用户。也要求利用多媒体WEB传输技术，向用户提供主动的特定多媒体信息的推送服务。

3 非结构化WEB数据库的特点及其在组织与利用多媒体信息资源中的作用

3.1 丰富的数据类型与灵活的数据结构，满足多种类型馆藏多媒体数据结构组织

根据非结构化多媒体数据信息的特殊性，非结构化WEB数据库在进行存储和管理多媒体信息时，整个数据库的管理机制摈弃了传统结构化关系数据库对于信息采取定长和结构化定义和管理的局限，它从多媒体数据模型入手，采用子字段、多值字段以及变长字段的机制，允许创建许多不同类型的非结构化或任意格式的字段，从而突破了关系数据库非常严格的表结构，解决了关系数据库模型过于简单，不便于表达复杂嵌套的问题。非结构化WEB数据库在数据类型上不仅支持字符型、数值型数据，而且由于具有很强的外部文件支持功能，使其可以支持如超长文本、图像、声音、动画等多种多媒体扩展数据类型。与传统关系数据库相同之处是非结构化WEB数据库的数据结构也是建立在二维表的基础之上的，但它与关系数据库不同的是：（1）非结构化WEB数据库二维表的属性长度是不可变的，在列的维度上可以随意扩展，这就能较好地满足多媒体数据处理时，需要灵活的可变长字段的要求。（2）非结构化WEB数据库由于支持重复字段、子字段，使其可以在数据库记录中实现二维嵌套，解决了非结构化多媒体数据结构复杂、可能存在重复字段和多个嵌套子字段的问题。（3）非结构化WEB数据库一个字段可以存放关系数据库的一张表，它可以在一张表中压缩关系数据库中一对多的关系，因此利用非结构化WEB数据库能很好地实现多种多媒体数据库的集中组织与管理。

3.2 基于广域网的图书馆海量多媒体数据库存储管理机制的实现

图书馆多媒体信息资源数据库是海量数据库，支持基于广域网的海量多媒体信息存储和管理是非结构化WEB数据库管理系统的主要功能之一，不仅存储数据量大，而且存取速度快，同时检索功能强、检索速度快，在检索速度方面一般不受信息量大的影响。以IBASE非结构化数据库为例，每个数据库最大的记录数可达到1000万条，每条记录的最大长度可达64000字节。每个数据库最多可有800个字段。

3.3 利用多种索引方式，实现多媒体全文检索、媒体特征检索等多种检索策略

馆藏多媒体信息资源组织利用的关键是要实现多种方式的多媒体全文检索，而要实现多种检索方式，建立索引是前提，传统关系数据库支持的索引只限于单字段索引、复合索引等几种方式，受其限制，关系数据库检索能力也受到很大限制。非结构化WEB数据库由于有着灵活的数据结构，在其底层存储机制变革的基础上，采用先进的索引倒排挡技术，使它支持的索引方式比关系数据库要丰富得多，可以满足极其复杂检索的需要，实现对于海量多媒体信息的快速全文检索功能，它支持字段索引、子字段索引和全文索引甚至可以支持人工标引索引，中英文混合索引等方式。配合非结构化数据库的格式化语言，可以对同一字段进行若干种不同的索引，以满足特殊检索的需求，实现多种检索策略。例如IBASE非结构化数据库管理系统目前支持8种不同的索引方式，可以涵盖所有关系数据库所提供的90％以上的检索方式，同时还提供了包括简单检索、组合检索、字段检索、右截断检索、全文检索、扩展检索、相关检索、集合检索、媒体特征检索等等大量关系数据库所不具备的检索方式和检索策略。

3.4 集成WEB服务器和数据库服务器，实现多媒体网络信息发布与多种服务功能

关系数据库在基于因特网应用时，由于结构模型等原因的限制，不能与因特网完全地融合，需在WEB服务器与数据库之间加入大量的中间件，从而在无形中加大了数据库基于网络应用的难度，给数据库在因特网应用带来了新的网络瓶颈，应用服务器由于与数据库频繁交互，其本身的效率和数据库检索效率易造成因特网应用的阻塞。非结构化数据库模型全部是基于因特网，采用WEB服务器和数据库服务器紧密集成的方法，可以将目前传统数据库厂商由C/S结构扩展来的浏览器/WEB服务器加应用服务器/数据库服务的三层体系结构，集成浏览器/WEB数据库发布系统（B/S）的因特网计算结构，使多媒体数据库系统成为WEB的一个重要有机组成部分，实现在单一平台上融合所有多媒体数据库和应用服务器的功能，这不仅大大减少了用户对多媒体数据库额外硬件、中间件和其他昂贵的集成业务的需求，而且极大地缩短了用户开发和采用基于因特网应用的时间，有利于用户把更多时间用于多媒体信息资源的开发和描述，非结构化数据库管理系统可以为系统建设者提供快速有效的方法实现基于WEB的多媒体数据库的建立和信息检索发布，实现网上多媒体信息检索、在线点播、阅读，图书馆多媒体资源联合编目和联合建库。同时，利用非结构化WEB数据库还可以实现许多新的多媒体信息服务功能，如采用多媒体信息推送技术和邮件服务器功能实现定题服务和个性化多媒体信息服务。

标签：非结构化数据论文; 多媒体论文; 结构化方法论文; web技术论文; 数据库论文; 图书馆论文; 数据检索论文; 元数据论文; 互联网论文; web数据库论文;

非结构化Web数据库与图书馆多媒体信息资源的组织与利用_非结构化数据论文

猜你喜欢