虚拟图书馆元数据研究_元数据论文

虚拟图书馆中元数据研究,本文主要内容关键词为:中元论文,图书馆论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

图书馆的主要功能之一是对信息资源进行有序化组织。传统的图书馆收藏的大都是文献信息,有序化组织的手段是采用有关著录标准进行著录而形成的卡片式目录,包括主题目录、分类目录、题名目标、作者目录等。随着计算机技术的诞生和快速发展,图书馆成为计算机技术应用的首批领域之一,传统的著录标准无法适应计算机管理,于是就出现了满足图书馆自动化系统中文献信息有序化组织的MARC著录标准。90年代以来,国际互联网在全球范围内快速发展,Internet用户成倍增加,以网页、网站的形式在互联网上传播的信息资源呈指数上升。根据美国《科学》杂志1999年上半年发表的一份研究报告,Web上的网页资源已达10亿页[1],再加上印刷型文献信息也纷纷进行数字化处理,进入互联网,怎样有效地利用这些网上信息资源已成为全球性的一大课题。目前,对网络信息资源进行有序化处理的方法主要有两种[2]。其一是众所周知的搜索引擎,这些搜索引擎通过网络机器人自动搜索并生成相关信息资源的著录信息,存入数据库中供检索之用。其二是由图书馆界或其它人员采用相关著录标准对信息资源进行著录。但这两种方法均存在缺陷,由第一种方法建立起来的检索系统,由于采用的是自动标引,检索效率太低。采用第二种方法对信息资源进行著录不现实,这是因为即使不考虑著录标准的繁琐度,仅仅从完成网络信息资源的著录所需的人力和成本来说,在客观上已非图书馆界所能承受的。于是人们把目光纷纷投向虚拟图书馆。

虚拟图书馆从本质上讲是一个专业性的搜索引擎[3],一般是采用人工著录的方法。它将互联网上某一特定领域中的网页收集起来,作为一次文献,然后对其进行标引和著录,著录的结果形成以款目的形式构成的中央数据库,在中央数据库的基础上抽取有关著录项目形成相应的倒排挡。用户检索时,输入检索式,在相应的倒排档中进行匹配,根据匹配后的结果调出中央数据库中相关款目,显示在计算机屏幕上,并给出相应网页的URL,供用户进一步浏览一次文献。中央数据库中每一个款目都是对某一特定网页的外部特征和内容特征所进行的描述,就象传统图书馆中卡片目录的每一张卡片和机读目录中的每一条记录一样。中央数据库中的这种款目称之为元数据(metadata)。

元数据的一般定义是“关于数据的数据”(data about data)。从这个涵义上讲,传统图书馆中的卡片式目录、书本式目录及图书馆自动化系统中的MARC目录都属于元数据。元数据包括著录项目和著录格式两个方面。网络信息资源的元数据著录项目已提出的有Dublin Core,VRA Core Categories for Visual Resource,CDWA等。著录格式有HTML和XML两种。笔者认为虚拟图书馆的元数据著录项目宜选用Dublin Core Element Set,著录格式宜采用XML。

2 虚拟图书馆的元数据著录项目为何宜选用都柏林核心元素集

都柏林核心元素集(Dublin Core Element Set),简称为都柏林核心(DC),是1995年国际组织Dublin Core Metadata Initiative拟定的用于标识电子信息资源的一种简要目录模式。在此之后,国际上又召开五次会议,使“都柏林核心元素集”更趋于完善。由于它简练、易于理解、可扩充及能与其它元数据形式进行桥接等优点,1998年9月,Internet工程专题组(IETF)将其作为一个正式标准予以发布。目前,它由15个数据单元(element)组成,其中内容7个元素:题名(Title)、主题词和关键词(Subject)、内容描述(Description)、资源类型(Type)、来源(Source)、关系(Relation)、范围(Coverage);知识产权4个元素:作者或创造者(Creator)、出版者(Publisher)、其他责任者(Contributor)、权限管理(Rights);例示4个元素:日期(Date)、格式(Format)、资源标识(Identifier)、语言(Language)(注:上述括号内为标识)。

Dublin Core的应用方式有两种,其一是著录数据与著录对象存在于不同的文件中,利用URL等方式联接;其二是著录数据与著录对象同时包含在一个文件中。虚拟图书馆宜采用第一种方式。

虚拟图书馆的元数据著录项目宜选用都柏林核心元素集,原因如下:

(1)虽然到目前为止,网络信息资源著录的元数据方案有多种,但越来越多的迹象表明都柏林核心元素集已成为一个事实上的标准。它一出现就被北美、欧洲、亚洲和澳洲20多个国家认同,不仅图书馆、博物馆,不少政府机构、商业组织正在或准备采用。中国数字图书馆工程及上海数字图书馆的元数据解决方案也均基于都柏林核心元素集。

(2)它比较全面地概括了网络信息资源的主要特征,涵盖了资源的重要检索点(Title,Creator,Subject项)、辅助检索点或关联检索点(Publisher,Contributor,Identifier,Source,Relation项)以及有价值的说明性信息(Description,Date,Type,Format,Language,Coverage,Rights)[4]。

(3)它具有最大限度的简洁性和灵活性。它不仅避免了搜索引擎中著录过于简单而导致检索效率严重下降的弊端,而且也避免了机读目录的过分专业化和复杂化。非图书馆学专业人员不需要进行专业化训练就能对网络信息进行合理的著录。

(4)都柏林核心元素集与标准的机读目录之间的转换的理论研究也取得了重大突破。这不仅使已大量存在的机读目录可转换为都柏林核心的元素集,从而实现网络存取,而且也为机读目录的发展提供了理论和实践的空间。

3 虚拟图书馆的元数据著录格式为何宜选用XML

XML为可扩展标记语言(Extension Markup Language),是国际标准的SGML的一个子集、一种压缩形式,或者说是SGML一种实用形式。它是国际互联网联盟(W3c)开发的用于网络环境下网页设计和数据交换、管理的新技术,并已成为推荐标准,具有很好的应用和发展前景[5]。

(1)XML可以将数据的存贮与数据的显现分开,即内容与形式分离,这样一来,虚拟图书馆中对网页著录的结果就可以采用XML方式形成中央数据库,数据库中的每条记录就是一个网页的元数据。

(2)HTML具有超链和页面内容安排两大功能,但不能提供数据库的格式,再加上HTML没有语义识别功能,故难以采用HTML文档组织用以存储元数据的中央数据库。

(3)XML被认为是第二代Internet信息组织的标准,这是因为它解决了HTML存在诸多问题,现在的浏览器已经或正在考虑支持XML。

4 虚拟图书馆的结构及元数据组织方式分析

虚拟图书馆的逻辑结构如下:

由上述结构可知,服务器端存放中央数据库及各种倒排档。对Internet上Web网页进行标引和著录,其结果以记录的形式存入中央数据库,抽取中央数据库中具有检索意义的著录项目进入相应的倒排档。在客户端,用户分析检索需求形成检索式,检索式与服务器端的倒排档进行匹配,匹配的结果作为检索结果输出到客户端。

虚拟图书馆中的元数据就是指对Web网页的外部特征及内容特征进行抽取和描述的结果,上图中的中央数据库存放的就是虚拟图书馆的元数据。元数据包括著录项目和对著录项目进行描述的方式。

根据上述分析,采用都柏林核心元素集作为著录项目,采用XML的文档结构组织著录结果而构建虚拟图书馆的中央数据库应是虚拟图书馆建设中元数据的较理想模式。

XML语法为:〈标记 属性=值〉信息内容〈/标记〉 前面〈〉为信息内容的开始标记,后面〈/标记〉为信息结束标记,二者成对出现。开始标记中的“属性”,是提示计算机处理用的参考信息,用以识别信息的语义,为建立的倒排档提供内容析出的依据。

下面的例子是中央数据库中的一条记录,是电子版“潮——席卷全球的XML技术”这一网络信息资源的元数据。著录项目为Dublin Core的元素集,文档形式为XML。

潮——席卷全球的XML技术

许慎 朱麟

XML

可扩展标记语言

本文较全面地论述了HTML的缺陷及XML的优势。指出良好的数据存储格式、可扩展性、高度结构化、便于网络传输是XML主要的四大特点,决定了其卓越的性能表现。XML被认为是第二代Internet信息组织的标准

中国XML联盟

2000-05-10

学术论文

http://202.117.83.10/computer/wangy/xml.htm

chi

中国XML联盟

http://www.xml.org.cn

中国XML联盟

每个著录项目均为可选项目,并可以重复标记,著录数据可变长。

当建立倒排档时,由程序自动抽取………………之间的内容分别进入题名、作者、主题词倒排档。其它内容作为显示检索结果目录信息选择之用或(和)作为二次检索之用。书目信息与全文版电子资源的链接是通过……实现的。

该记录仅表示数据结构的XML标记形式,没有标识数据显示和打印时所使用的字号(体)以及排版格式。因此,虚拟图书馆中的中央数据库仅供系统处理用。书目数据的显现格式要通过另外的应用程序实现。

5 结束语

虚拟图书馆的建设是国际互联网发展到一定程度的产物。虚拟图书馆的技术包括众多方面,网络信息资源的著录项目及著录格式是虚拟图书馆元数据的两个内涵,也是虚拟图书馆建设的关键技术之一。虽然已有众多著录项目方案问世,但Dublin Core Element Set以其简洁、灵活、可扩充等诸多优势已被越来越多的机构和团体所使用,并已成为一个事实上的标准。虚拟图书馆中的中央数据库应是一个浏览器支持网络数据库。与HTML相比,XML的性能得到了大大加强,业已成为第二代Internet信息组织的首选语言。Dublin Core Element Set与XML结合起来,组织虚拟图书馆的中央数据库,是虚拟图书馆中较为理想的元数据组织方式。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

虚拟图书馆元数据研究_元数据论文
下载Doc文档

猜你喜欢