元数据与SGML在数字图书馆中的应用_数字图书馆论文

元数据与SGML在数字图书馆中的应用_数字图书馆论文

元数据及SGML在数字图书馆中的应用,本文主要内容关键词为:数字图书馆论文,数据论文,SGML论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】 G250.76

1 引言

数字图书馆是随着网络技术的迅速发展而产生的,部分地扮演着传统图书馆的角色,如收集各种媒体的信息,继而采用一定的技术手段按照特定的方式加以组织,使用户能方便、快捷地找到所需信息。严格地说,数字图书馆是在网络环境下,利用数字化技术手段,使用规范化的方法,整理加工信息资源,供用户使用的机构。因而数字图书馆要解决的主要问题是信息资源的获取、组织和表示;信息资源的查询、浏览、可视化和信息资源的传输、发布和知识产权。本文主要讨论数字图书馆中信息的组织问题。

2 信息资源组织

传统图书馆流程中比较重要的一步是将图书、期刊等纸介质的资料按照一定的格式进行编目,这样就将散乱的资料组织成良序的集合,便于用户的查找。数字图书馆中的数字化资料同样需要标引和著录,元数据的出现就是为了满足这种需要。元数据(Metadata),是用来描述数据的结构化数据。当然由于网上数字资源的形态各异,既有论文、会议录等普通电子文本,也有图像、声音、网页等,不同形式的数字资源对数据格式的要求也不一样,因此现在有多种描述网络数字资源的元数据格式,到目前为止还没有出现成熟的统一格式。目前网上数字资源比较常用的元数据格式为:USMARC格式,都柏林核心元数据集(Doubin Core),VRA核心类目(VRA Core Category),艺术作品著录类目(Categories for the Description of Works of Art),REACH著录单元集合(REACHelement)等。

在组织数字化资源时,必须将其中单个的数字化对象首先加以拆分,嵌入不同的工具分别加以处理。这时,一个标准SGML(通用标识语言标准),起着关键性的作用,即SGML是能把数字文献进一步分成更小元素(如章节)的一组代码,使用它能使我们在统一的方法下对数字文献进行拆分,提高检索效率,并在分布式资源库状态下,借助于支持SGML的查询软件有可能迅速实施横向跨库查询与检索。将SGML应用于数字对象的加工处理是数字图书馆实施中资源标引的一个关键步骤。

2.1 元数据

元数据(Metadata)是为了有效地解决网络资源检索所存在的问题而产生的。元数据的本质含义是关于数据的数据,它用来描述原始数据的特征和属性。例如对文献信息资源而言,元数据可以是目录、索引、摘要及主题等文献特征和属性。从元数据的提供者角度来看,元数据能改进针对文档的检索能力,特别是搜索的精确度、以及对资源的控制和管理问题。对于电子文档所存在的格式和控制方法多样性问题,元数据能支持用户决策过程。它包含的数据元素集可以用来描述信息对象的内容和位置,以便能在网络中方便地查找和检索。

元数据存在的目的是使因特网上的Web页面更象一个图书馆内整齐摆放的文献,而不是一堆满地乱扔的书籍。组织因特网信息资源并促进因特网资源的发现是元数据的基本功用。具体地说,在HTML和XML环境下,元数据有以下用途:

·描述因特网数据内容;

·使因特网数据便于搜索;

·允许用户决定某些数据是否是他们所需的数据;

·防止一些用户(如孩子)存取某些数据;

·让用户可以重新得到或使用数据的另一份拷贝(如指出某篇Web页所在的URL,使用户可以知道到哪里得到这份数据);

·指导怎样“谈懂”数据(如说明数据的格式是什么,采用什么样的编码方式,怎样进行解密等等);

·帮助决定利用什么样的数据实体(如果提供多种格式的话);

·说明影响数据使用的一些信息(如数据使用的法律条件,数据使用的范围,数据使用的时限等);

·说明与其它资源的关系(如前后版本数据的连接,使用本数据所需的其它数据和程序);

·对数据管理的控制;

·对某些缺少文本的数据(如图像、声音等)进行文字说明。

为组织因特网信息资源,围绕着HTML和XML环境产生了一系列元数据规范。其中较有影响的有Doubin Core、PICS、Web Collections、CDF和RDF。除此之外,还有许多应用于各种特殊领域的元数据规范,如在引言中提到的。

从网络环境下的信息组织与检索来看,将这些规范进行合理统一并制定出一种灵活的、能够支持多种元数据规范的标准,创造一个简单的元数据模型和体系方案显得非常必要。随着因特网上信息搜索服务的发展,在各种元数据格式和不同用户团体之间,也特别需要一种标准化的元数据集合或交换格式语言。

(1)都柏林核心元数据集

1995年3月,在美国俄亥俄州的都柏林召开的第一届元数据研讨会上,经过与会代表的商讨和辩论,终于产生了一个精简的元数据集—都柏林核心元素集(Doubin Core Element Set),简称都柏林核心(DC)。由于它的简练、易于理解、可扩充,即能与其它元数据形式进行桥接等特性,使它成为了一个良好的网络资源描述元数据。近年来DC在结构和功能上更趋完善。1998年9月,因特网工程专题组(IETF)正式接受DC这一网络资源的描述形式,将其作为一个正式标准予以发布。DC能较好地解决网络资源的发现、控制和管理问题,能被用来描述种种广泛主题学科和系统范围内的种种广泛主题,能由信息提供者或站点管理人员自己制作元数据。这对于数字图书馆的建设及其重要。都柏林核心的任一元素都是独立描述的,不依赖于具体的编码方法。与任何具体的传输结构都没有必然的联系。这样可以将DC映射转换为其它数据结构。

DC依据其所描述内容的类别和范围可分为三组,即对资源内容的描述、对知识产权的描述和对外部属性的描述。具体的DC元素有:题名(Title)、作者或创建者(Author or Creator)、主题及关键词(Subject and Keywords)、描述(Description)、出版者(Publisher)、其它责任者(Other Contributors)、日期(Date)、类型(Resource Type)、格式(Resource Identifier)、来源(Source)、语种(Language)、关联(Relation)、覆盖范围(Coverage)、格限管理(Rights Management)。

在实际应用中,DC的十五个基本元素的描述能力是有限的,因而必须加以限定和进行若干子元素的规范描述。为了保证互操作性,在进行限定或子元素规范的时候,不能改变元素本身的定义,不能重新对基本元素作出解释,而只能根据自己团体和行业的需要对DC元素进行限定和规范。

DC确定了DC附加的限定词,即坎帕拉限定词,它们是模式体系(Scheme)、语言描述(Lang)和属性类型(Type)。

Scheme限定词用来确定给定元素所遵从的某个体系结构中的合法值,如分类法表、主题词或各类代码表。如一个Subject字段应从LCSH(Library of Congress Subject Heading)中取值。Scheme限定词对应用软件或应用人能提供一个处理线索,以使被限定元素能更好的使用。

Lang限定词指定了元素值描述字段的语言,而不是资源本身的语言。由于网络上的多语种问题越来越突出,这个限定词也变得越来越重要。迄今为止,英语被假定为网络上的语言,但这一现象正在改变,确定资源本身和资源描述的语言问题变得极为重要。

Type限定词又称为子元素(Sub-element),该限定词指定了给定字段的一个方面。它的用途是缩小字段的语义范围。它同样可被看作是一个子元素名,Type限定词改正的是元素的名称,而不是元素字段的内容。Type是DC限定词中争论最大的词。在明确定义可接受的类型以及怎样定义上有一些逻辑困难。在某种意义上,它不是一个限定词,而是元素名本身的一个子集。

限定词可以是受控制命名域的一部分,命名域可以是任意指定的。在联机环境中,可以通过超链接来完成。例如:DC.Title是DC元数据集中的一个元素名,在这里DC就是一个特许命名域,并有一些团体负责对这一命名域中的内容进行解释。如LCSH是一个体系(Scheme)的名字,它也是一个命名域,它的权限代理单位是国会图书馆。

(2)因特网内容选择平台

因特网内容选择平台(PICS Platform for Internet Content Selection)是由W3C开发的另外一个旨在描述因特网信息资源的元数据标准。1995年8月,因特网上的一些主要团体聚集在一起制定了这一规范,制定PICS有以下两个初衷:让用户能够非常方便地找到需要的内容;防止被认为是不适宜或用户不想要的内容传递给用户,特别是未成年用户。当然,PICS可以用于多种目的,例如数字签名、知识产权管理等等。

引入内容分类定级机制是PICS最为显著的地方。不同的组织可以根据它们的目的及价值取向,对因特网上的资源进行分类定级,一些用户,例如家长们,可以设置它们的浏览器,将那些不符合他们规范的内容过滤掉。现在许多第三方内容分类定级机构利用PICS来对某个站点内容的及时性和技术精确性进行评分。

PICS的成员认为个人、团体及事业单位都应当有权方便地享用最大限度的内容挑选产品和各种各样的分类定级系统。他们设计出了一系列的标准,从以下几个方面促进这一目标的实现:自我分类定级;让内容提供者自愿地对他们创建和发布的内容进行分类定级;第三方分类定级;使许多具有独立的分类定级机构可以对他人发布的内容进行分类,这些机构可以自由设计他们的定级标准;方便最终用户;能够使家长根据各种各样的分类定级情况,对孩子的信息获取情况进行控制。

2.2 资源描述框架模式与句法

资源描述框架(RDF Resource Description Framework)是由W3C于1997年10月发布的一个元数据方案。作为一种框架体系,它能对结构化的元数据进行编码,交换及再利用。这种体系结构通过对通常意义上的语义和语法结构的支持,提供了在各种不同的元数据体系之间的互操作性。RDF本身不对各种不同的元数据进行语义定义,它只是使不同的用户或团体能够在这一框架下定义他们各自的元数据元素。RDF采用XML作为交换和处理元数据的通用语法结构体系。XML提供了与供应商无关的、可由用户扩展的、认证的标记语言体系。它既提供了可读性,也有表达复杂结构的能力。RDF利用了XML严谨的结构,避免了语义上的二义性,从而为元数据的编写,交换及机器自动处理提供了保证。RDF通过一个简单而又功能强大的数据模式,支持在各个不同的元数据语言之间的模块化的互操作能力。

RDF的语法体系框架可以分为二层,第一层为RDF核心(RDF Core),第二层为实用联接(Utility Relation)。可以用如下三元组模型来描述RDF核心:

(PropertyTypes,Nodes,[Value|Nodes])

其中,Nodes是节点的集合;PropertyTypes为节点的属性类型,它们是Nodes的子集;[Value|Nodes]是PropertyTypes的取值,它可以是一个节点元素,也可以是元素值(RDF字符串)。每一个RDF描述都有其自己的节点元素来标明这个三元组的集合。同时每一个RDF描述又可以作为另一个RDF描述的节点元素。在每一个RDF描述中,属性类型及对属性值特性的限定都将由一个或多个体系来定义。同一个描述中的属性类型定义应来自同一体系。每一个体系应由URI声明,URI仅作为指明这一体系的标识或指向一个机器可读的体系描述。从原理上来说,理解RDF描述所使用的体系也就是理解RDF描述中每一个属性的准确语义内涵。同时,一个并不能理解特定体系的应用程序仍然能处理RDF描述,例如将属性类型及属性值抽取出来转入另一个程序或缓存中。

2.3 SGML

SGML(通用标识语言标准Standard for Generalized Markup Language)是国际标准化组织于1986年3月颁布的信息描述与处理标准(ISO8879:1986)。该标准的最初作用是为印刷出版领域制定计算机排版符合体系标准,目的在于克服早期排版标识方式的模糊性和对人工干预的依赖性,使排版中的标记工作实现自动化。但由于其描述功能强大,信息编码灵活和通用性强,后来被广泛应用于办公室自动化、商业数据管理以及其它更为复杂的应用领域。目前,SGML已被世界大多数国家政府和工业界所接受(如ANSI,FIPS,NISO,NIST等),并已发展成为一个具有12个国际标准的系列标准体系。其中包括其文献交换格式(SDIF)标识符注册手续,它模信息交换;使用SGML技术,数学与科学的公共集,编辑系统,标准音乐描述语言(SMDL),超媒体/基于时间的结构化语言(Hy Time),图书、连续出版物、论文和数学作品的文献类型定义(DTD),标准页面描述语言(SPDL),文献类型语义和规格语言(DSSSL),等等。

SGML用一种普通的、不受机器类型和软件类型限制的方法去标识文档内容,主要手段是将标识符号嵌入到原文内容信息中以产生有用的格式信息。作为一种描述和标识文档结构和格式的方法,SGML为具体应用提供的功能有:辨别信息内容中各个组成部分、描述文档的基本成分及其相互间的关系、用于区别信息的内容与形式、判定文档结构等。

SGML不仅是一种标识描述语言,它还是一种标识生成语言,它产生的标识具有很好的逻辑性和层次性,使信息元素的管理更符合人们的思考方式,便于阅读和理解。需要说明的是,以“描述语言”命名的SGML既不是一种计算机语言,也不是一种自然语言,本质上,SGML是按照事先约定所使用的一种符合系统。从这个意义上讲,SGML是指用于明确描述全文数据库结构的语言。“语言”的含义只是表明,SGML的标记方式具有严密的句法,它能保证计算机作出准确无误的识别。SGML是另外两种Internet的重要标准HTML和XML的基础,HTML用于网页描述,XML用于联机文档发布和电子商务。

目前,SGML主要被用来解决电子出版物制作工作的自动化、信息资源的交换与共享、提高信息资源的复用率、支持按文本结构或内容的检索和各种文献标准的彻底贯彻。

(1)SGML的描述机制

SGML通过采用一套嵌入信息正文内的标识符(Tag in Text)来判别信息的组成部分,并通过一定的文献模型来规定各种结构,标识符是附加于正文中用于辨识文档成分(即文档结构)的字符。输出系统通过程序来检查各种标识符,并由此区分标识符所说明的正文数据,从而将用于排版格式的标识符与正文数据分开。

在描述中,标识符被置于正文之外,所以允许对单个正文设多套标识符,这样从一个信息文档中可产生多种版式,避免了重复录入数据的工作。SGML的标识符不依赖于具体设备,可用于多种系统。同时,输出系统与制作系统相互独立,已有的信息正文可在新的环境下使用。对于终端用户来说,在经过输出系统的解释过的显示内容中看不见标识符,但可以感受到标识符的作用。SGML的标识符都有预先定义的名称、作用,标识符之间的关系也经预先定义。SGML的处理系统能辨认、解释这些标识符的含义和作用,并通过标识符进一步辨别文本的篇幅、复杂程度和结构。

(2)SGML应用标准的编制

SGML本身不是一套具体的标识符标准,而是一种定义标识符的方法,是一种指导制定标准的元标准。因而,在具体应用中,需要制定相应的SGML应用标准。

SGML应用标准的编制包括以下步骤:

①编写SGML声明

SGML声明(SGML Declaration)用于说明SGML某类文档中所使用的一般性的具体细节,如分界符(<、>、/)字符的定义,对所采用字符集(ASCII或其它字符集)的规定等。

②定义文档类型

作为一种描述语言、SGML不仅可以处理纯文本,而且可以处理图表、照片等类型丰富的信息内容。因此,在SGML的描述中,描述文档结构的部分与文档数据本身都是必须的。定义文档类型用来规定标记某一类文档的规则,并定义该类文档相应的文档结构。对不同结构的文档(备忘录、文章、书)来说,定义文档类型都是不同的。定义文档类型是应用标准中的核心部分,使用SGML总是首先明确使用的是哪个定义文档类型。定义的结果用DTD(文档类型定义Document Type Definition)来表示。

DTD使用SGML的构文方式来描述文档类型及相应的结构。文档类型可分为单行本、论文、研究报告等,因其类型不同而结构各异。在自行编写DTD标记时必须先了解SGML的构文方式,如果某类型的SGML已备有DTD,应使用已有的DTD。DTD通过某类文档的成分组成来表示文档的类型,这些成份可能是文本数据、图表、照片文件(即外部文件)等。外部实体也是按照DTD将正文的参照关系记录到文档之中。同时,由于表格与公式也可以转换成字符,所以也可以记录到文档之中。WWW上被广泛使用的HTML就是SGML的一个DTD。

③制定标识符集

SGML的标识符用以定义文档所具有的成份及其使用方法。

④生成最终的应用标准

3 结束语

数字化信息资源的组织是建设数字图书馆的过程中急需解决的问题之一,由于元数据以及SGML在其中起着很重要的作用,尽管关于它们的研究也已取得很大进展,仍然需要各方面人士的合作研究,使各种标准趋于统一,功能上更符合实际应用的需要,最终方便用户的使用。

标签:;  ;  ;  ;  ;  ;  ;  

元数据与SGML在数字图书馆中的应用_数字图书馆论文
下载Doc文档

猜你喜欢