基于元数据的数字图书馆信息组织研究_数字图书馆论文

基于元数据的数字图书馆信息组织研究_数字图书馆论文

基于元数据的数字图书馆信息组织述论,本文主要内容关键词为:数字图书馆论文,组织论文,数据论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在网络环境下,数字图书馆信息组织的对象发生了巨大变化,数字信息在范围、价值、存在形式、更新方式等方面都和传统图书馆的信息资源大不一样。数字图书馆信息组织的挑战,不仅来自信息组织的对象,也来自用户不同层次的需求,还来自不断更新的现代化技术。数字图书馆的信息组织,需要创造一个描述数字化信息结构的标准,元数据(Metadata)由此应运而生。基于元数据的一系列技术在数字图书馆建设中的应用,为数字信息资源的有效组织和整合开辟了广阔的前景。

1 数字图书馆信息资源及信息组织

1.1 数字图书馆信息资源类型及其特点

信息资源是图书馆生存和发展的基础,是满足用户需求的根本保证。网络技术和通讯技术的飞速发展,使图书馆的信息资源类型和馆藏结构发生了根本性的变化,也促成了传统图书馆向数字图书馆的急剧转变。数字图书馆以分布式数字信息为对象,以网络资源和服务为主体,通过计算机和通信网络多渠道、全方位地收集文本、声、光、图像、影视等电子信息资源。根据存在形式,目前数字图书馆信息资源类型大体上分为以下三类:第一类是传统的印刷型文献。这类资源依然是数字图书馆的重要馆藏来源,但所占份额在逐渐减少。第二类是磁性介质的正式与非正式出版物,包括电子书刊、光盘数据库(网络版和单机版)、网络数据库(或联机数据库)等电子信息资源。这类资源具有体积小、容量大的突出特点,是数字图书馆的主要馆藏来源。第三类是流动在Internet上的虚拟信息资源,包括WWW站点、邮递表、新闻组、公告栏等等。这类资源具有虚拟的性质,没有具体的载体形态,须经过组织和转换才能进入数字图书馆的馆藏,是数字图书馆最有潜力的信息资源。

数字图书馆将不同载体的信息资源经过有序整理后,以数字化方式存储,以网络化方式传递。与传统图书馆相比,数字图书馆信息资源具有类型多样化、分布式组织、计算机处理和格式化存储的总体特点。

1.2 数字图书馆信息组织及其基本内容

数字图书馆信息组织就是对数字图书馆信息资源进行选择、描述和整合,提供有序化的结构,形成一个有机的整体,以便于对数字图书馆信息资源进行存取和利用。在传统图书馆中,文献的组织由三部分组成,即排架号、目录和文献本身。排架号是一组唯一的代码,指示文献的位置;目录将文献的特征信息提取出来,组成有序的可检索的体系,指示用户通过排架号获取文献。与此类似,数字图书馆的信息组织也由三部分组成,即指针、元数据和数据。指针对应于排架号,用来唯一标识数据;元数据对应于目录,是一组用来描述数据本身特征的数据集;数据则对应于文献,是数字图书馆的基本信息对象。

传统图书馆信息组织的内容包括信息搜集与选择、信息分析与揭示、信息描述与加工、信息整理与存储;而对信息的描述与揭示以及信息的有序化,是信息组织的中心内容。数字图书馆资源类型的变化,使得它的信息组织内容也随之发生变化。这种变化的具体表现:一是信息的发现与选择。数字图书馆的虚拟资源呈现出快速激增、数量庞大、杂乱无章、良莠不齐等特点,如何发现、选择这些资源就成为数字图书馆信息组织的重要内容。二是信息的描述与揭示。数字图书馆中更新速度快、内容不稳定的海量虚拟资源,由分布在web服务器上的一个个网页组成。使用搜索引擎和MARC(机读目录格式Machine-Readable Catalogue)方法对其进行组织都存在不同程度的缺陷(这一点下文将要论及),而元数据则能很好地完成此项工作;而且,对于不同的资源类型,可灵活地采用不同的元数据标准。三是信息的整合与集成。针对数字图书馆不同信息资源采用不同的描述方法,必然造成同一主题的不同类型信息资源被分散于不同的系统,给用户检索信息带来很大不便,而且不同的描述方法使信息之间的交流与共享受到很大限制。因此,必须通过元数据这一纽带来实现信息的整合与集成。

2 元数据与数字图书馆信息组织

2.1 元数据及其数字资源组织功能

作为“描述数据的数据”,元数据是一种对信息资源进行有效组织、管理、利用的基础和工具。元数据在数字资源组织方面的主要功能有:一是描述,即对数字对象的内容和位置进行描述,从而为信息对象的存取与利用打下基础。二是定位,即根据元数据包含的数字资源位置方面的信息,确定资源位置之所在,促进网络环境中非实体信息对象的发现和检索。三是搜寻,即在著录的过程中,将信息对象中的重要信息抽出并加以组织,赋予语意,并建立相关关系,使检索结果更加准确,从而更有利于用户识别资源的价值,发现其真正需要的资源。四是评估,即用户根据元数据提供的有关信息对象的名称、内容、年代、格式、制作者等基本属性,在无需浏览信息对象本身的情况下,就能够对信息具备基本的了解和认识,并参照有关标准对其价值进行必要的评估,作为存取与利用的参考。五是选择,即用户根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,做出对信息对象取舍的决定,选择适合自身需要的资源。

2.2 数字图书馆信息组织对元数据的高度依赖

2.2.1 信息的发现与选择离不开元数据

网络的发展为信息资源的生成带来了极大便利,几乎任何人在任何时间内都可以成为信息资源的创建者。但是,资源创建者的自身素质的极大差异和网络出版监督机制的严重缺乏,造成了信息资源质量的良莠不齐,因特网因此成为展示这些信息资源的“杂货店”。作为数字图书馆的信息组织人员,其首要的任务就是利用信息资源创建者提供的简单元数据,对良莠不齐的信息资源进行严格的筛选和整合,形成高质量的信息并提供给用户。

2.2.2 信息的描述与揭示离不开元数据

同传统图书馆一样,对于已经筛选的、己成为数字图书馆馆藏的信息资源,信息组织者需要根据资源类型使用传统元数据标准MARC或现代元数据(如DC等)对其进行描述与揭示,以方便用户对资源的发现与检索。这是数字图书馆信息组织的核心,体现了元数据对信息资源的描述与揭示这样一个最主要的功能。

2.2.3 信息的整合与集成离不开元数据

数字图书馆信息组织不仅要将自身的各种传统馆藏和数字馆藏整合集成到一个统一的用户界面上,而且还要使得用户可以通过任意一个数字图书馆的单个界面,访问互联网上的其它数字图书馆和信息库。元数据体系就发挥了这种整合、集成的功能,承担了各种元数据系统的转换与解释,为用户提供统一的集成服务。

3 主要元数据技术在数字图书馆信息组织中的应用

3.1 MARC与DC:共存互补的数字图书馆信息组织技术

3.1.1 MARC与DC概述

MARC是机读目录格式(Machine-Readable Catalogue)的简称,是将文献数据以代码的形式和特定的格式结构记录在计算机存储载体上,以便能够被计算机识别并编辑输出书目信息的目录形式,主要由记录头标区(Record label)、地址区(Directory)、控制字段区(Control field)h和可变数据区(Variabledatafields)四部分组成。作为一套机读书目的数据标准,MARC有严格的语意规则和完整的描述字段。自20世纪60年代末产生以来,因其著录的信息有较高的可靠度、准确度和完整性,成为目前世界上广泛使用的一套机读目录格式。

DC是都柏林核心元素集(Dublin Core Element Set)的简称,产生于1995年。时至今日,DC在经过七次国际元数据研讨会后逐步得到完善和补充,目前设立了15个标准的“描述性的情报要素”。这些要素可以HTMLmetatag形式添加到网页的标头(headers),具有简单、灵活,适应性、扩展性、兼容性强等特点,为国际图书情报界提供了比较成熟且比较成功的资源描述手段,至今已翻译成26种语言,其用户遍及世界各地,成为数字图书馆信息组织的重要方法。

3.1.2 MARC和DC在数字图书馆信息组织中的共存和转换

(1)MARC的局限及其与DC的共存。随着传统馆藏的数字化和网络信息的海量增加,MARC对信息组织的局限性越来越大。这些局限主要表现在MARC著录对象单一、技术要求高而经费开支大,同时信息资源和信息服务的可获得性(Accessibility)、可互操作性(Interoperability)和可持续性(Sustainability),都使得MARC难当重任,需要研究新的标准规范来对数字图书馆信息资源进行有效的组织。在这种情况下,DC都柏林核心元素集应运而生。DC的15个核心元素,比较全面地概括了电子资源的主要特征,不仅适用于电子文献目录,也适用于各类电子化的公务文档目录、产品和藏品目录,具有较强的实用性。

但是,对于数字图书馆信息组织,DC同样也有其弱点。DC只是提供了一种比较好的资源描述手段,许多字段的制定和著录规范处于变化之中;DC较好的可扩展性可能会产生新的不确定性。

MARC在图书馆自动化的进程中尽管有诸多局限性,但它始终扮演着十分重要的角色,自身发展也趋于成熟。传统图书馆的书刊收藏和借阅服务并没有丧失,不同的只是功能和服务的外延在不断扩大。DC等元数据是图书馆未来著录的大势所趋,但是这个过程是渐进的、稳定的。当图书馆由自动化阶段过渡到数字化时代时,DC并不能马上取代MARC;MARC当然有其存在的合理性和重要性。例如,目前在国内进行元数据实践利用的图书馆中大都采用MARC、DC元数据并存,用组配的方法形成自己的元数据应用方案。因此,运用MARC、DC扬长补短、优势互补,实现对数字图书馆信息的有效组织,应当是我们的正确选择。

(2)MARC与DC的相互转换。数字图书馆最显著的特征就是提供网络信息服务。目前,国内外图书馆主要的编目工作基本上都遵循MARC标准,因此DC与MARC之间的相互转换是一个重要问题。对MARC和DC两种元数据格式的探讨,并不是要以其中的一种格式代替另一种格式,而是通过研究找出一个在应用上最能发挥效益的信息组织方法。目前,有关DC元数据格式向标准MARC格式转化的理论已取得很大突破,使得MARC与DC的相互转换成为可能。

从理论上讲,从DC到MARC的格式转换并不是难事,因为任何一种结构化的数据都能转换成另一种数据结构。实现MARC与DC的转换,主要是建立两者之间的影射关系。但是,共有166个字段、522个子字段的MARC格式,与只有15个元素的DC格式——二者之间不可能建立一对一的影射关系,“一对多”、“一对空”甚至“多对空”的情况都可能出现。因此,这种转换不可避免地会造成一定程度的数据损失。但是,这种转换是必要的、可行的,这不仅仅是有利于数字图书馆的检索系统能整合在一起,为用户提供统一的、无缝的、一站式的检索平台,使用户准确地获取信息;还在于DC的15个元素已包括了有关资源的基本的信息,没有必要对一般信息进行精细的描述,可对重要的网络资源通过DC元素集增加的限定词加以描述,而不必强求MARC与DC的转换要对应到所有字段和子字段。

关于DC元数据与USMARC(即最初的美国国家MARC标准)之间的映射和转换,我国的台湾已有较多成果,其目的是推广DC元数据在国内的应用,使图书馆界在机读编目格式中所积累的庞大资源,也能被DC元数据系统所利用。另外,国内数字图书馆根据中文机读编目格式制作的一份从CNMARC转换到DC元数据的摘要表格,也提出了两种格式转换的基本原则和方法。这表明实现DC与MARC互操作方面的研究正在进展之中,已形成了DC元数据15个元素与MARC字段之间的详细映射和对应关系。

3.2 RDF:基于DC的数字图书馆信息组织技术

DC提供的是元数据的语义概念,对如何规范元数据的描述结构并没有说明。随着互联网信息的与日俱增,对网络信息资源的描述与组织变得越来越重要,迫切需要一种元数据的描述结构来支撑。基于DC的资源描述框架(Resource Description Framework,RDF)技术的出现为我们提供了可能。RDF是一个能对结构化元数据进行编码、交换及再利用的体系框架。它认为数字图书馆管理的对象是各种元数据信息,统称为内容(Content);而对内容进行管理正是数字图书馆信息组织的一项重要工作。数字图书馆要求统一、开放的内容管理,不因信息资源对象的变化而变化,也不因系统软硬件平台的不同而不同。RDF由此成为数字图书馆信息组织的一项基础技术。

要实现RDF对数字图书馆信息的有效组织和整合,还依赖于它的两大关键技术——URI和XML。URI(Uniform Resource Identifier,统一资源标识符)是网络资源的唯一标识,除网页外,它还可以标识页面上的元素、书籍等资源,甚至可以标识某一个人。在RDF中,资源无所不在,资源的属性和价值都是资源。换而言之,所有这些都可以用URl标识,也可以用RDF来描述。RDF描述资源时,可以使用各种词汇集,只要用URl指明它们即可。RDF的语法表示和数据交换用XML(eXtensible Markup Language,可扩展的标记语言)来定义。XML最大的优点是提供了可以对内容进行管理的语义描述机制,具有简洁性、开放性、灵活性和互操作性的特点。同时XML基于文本的开发格式在内容管理方面有很长的生命周期,这对数字图书馆海量的信息存储和组织尤为重要。RDF通过使用XML语法来表示简单元数据,从而描述网络信息资源的特性及资源与资源之间的关系。RDF还为元数据在网络上的各种应用架构一个统一的平台,使各应用程序在这个平台上可以自由交换元数据,以促进网络信息资源的自动化处理。

RDF具有较强的跨系统查询功能,可以使许多系统查询变得更加简单,很容易通过基本模式匹配来构建几乎所有形式的查询。RDF在应用于数字图书馆信息组织的过程中,还可以为用户提供个性化服务,例如W3C(World Wide Web Consortium)提出的综合能力/偏好界面(Composite Capability/Preference Profile)标准,就是为了向用户提供个性化服务。它使用RDF技术定义网络用户及网络系统的性能和偏好的集合,在用户获取信息的时候,通过某种规则进行折衷,以使获取的信息符合用户的能力和偏好。

元数据描述是数字图书馆建设的关键技术之一,而RDF为数字图书馆资源描述提供了一种通用框架。通过RDF技术,数字图书馆可以实现一系列的增值效用,实现元数据在不同体系间的交互和利用,为实现不同数字图书馆系统间的数据交换,提供了一种可行的方法。

4 结语

元数据研究的深化和发展必将为网络信息资源的有序组织、适度控制和高效检索提供更为便利的条件,为数字图书馆建设提供更为广阔的前景。客观地讲,元数据在我国数字图书馆的研究和应用(尤其是在信息组织方面),还处于起步阶段。我们希望能使用DC元数据组织方式来更好地组织数字图书馆的信息资源,希望通过这种方式组织的信息资源可以满足更多用户的需求。尽管我们在这些方面已经取得了一些成果,但如何加强中文元数据标准的研究、如何促进中文元数据应用的技术推广与合作、如何加快中文元数据编码的标准化进程与实际应用、如何提高中文元数据与其他元数据的互操作性以增强信息过滤和信息组织能力等,都是我国数字图书馆建设中面临的重要课题。

收稿日期:2005-05-07

标签:;  ;  ;  ;  ;  ;  

基于元数据的数字图书馆信息组织研究_数字图书馆论文
下载Doc文档

猜你喜欢