元数据和专业标记语言在数字图书馆知识表示中的作用_数字图书馆论文

元数据与专业置标语言在数字图书馆中知识表述方面的功能,本文主要内容关键词为:标语论文,数字图书馆论文,功能论文,知识论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G254.364 G250.76

最近几年来,随着数字图书馆项目的全面展开,许多技术标准应运而生,其中比较引人注目的是各种元数据标准和置标语言,这些标准可以是不同级别,为特定类型文献或特定用户团体制作的,也可以是通用型的。值得注意的是,虽然两者都是以处理文献资源为目的,其发展和应用却一直是处于两条平行线上,很少相互沟通或结合使用。本文拟根据对两者在数字图书馆中的知识表述方面的功能的分析,探讨其相互关系及其结合点。

1 元数据的主要功能

元数据是有效地组织与处理任何数字化文献资源的必不可少的工作数据。熟悉图书馆工作业务的人常常将元数据编制流程与传统的编目工作划上等号,将元数据标准与编目标准划上等号。然而,从严格的意义上看来,元数据的概念远远大于编目的概念,虽然元数据的思想来源于编目,但已经是青出于蓝而胜于蓝了。

在后MARC时代中,元数据的发展经历了从繁到简(由MARC的包罗万象,到DC的15个核心元素),从通用到专用(由最早的MARC和只是为了补充MARC所留空缺所做的格式,如档案元数据EAD, 到后来针对各专业和各类型资源的元数据格式),从以描叙为主到集描述、管理、结构、存档、文献保护等多项功能为一体,从仅在图书馆界使用到在教育界、商业界、工业界广泛应用的过程,我们从附表1 “比较通用的元数据标准”中可以清楚地看到这一点。

用于描述文献资源的元数据实际上不仅仅局限于描述有关文献特征与内容,往往还包括文献的管理、结构等信息。描述元数据(descriptive metadata)用于描述一个文献资源本身的特征、内容、与其它资源的关系,其主要作用是发掘(discovery)和辨识(identification)。管理元数据(administrative metadata)包括有关数字实体(digital object)的显示、注解、使用、长期管理等方面的内容,例如所有权权限的管理、产生/制作的时间和方式、文件类型、其它有关技术、使用或获取方面的权限管理等。结构元数据(structure metadata)定义一个复杂的数字实体的物理结构,以利于导航、信息检索和显示。将这3种类型的元数据有机地组织在一起,其主要功能可归纳为:

● 资源发掘(resource discovery);

● 对电子资源进行组织(organizing e-resources);

● 便利互操作(facilitating interoperability);

● 数字鉴别(digital identification);

● 存档和保存(archiving and preservation)。

不过,正如表1所示,人们对元数据的分类并不是完全按照这3种类型,一般来说描述元数据和管理元数据是被公认的,但也有强调使用、鉴别、保存等类型的元数据。

表1 不同文献对元数据类型的划分

CJC(committee on In- Hodge(NISO):Meta- Gilland-Swetland Greenburg(UNC):A

stitutional Cooperation) data Made Simpler

(Getty:Intro to Meta- quantitative categorical

1999 2001data)2000 analysis of 2001

描述 描述描述发掘

管理 管理管理管理

结构 结构保存

技术鉴别

使用使用

Greenburg对几个图像元数据标准中的每个元素(element)进行了分析,从下表中我们可以看到单个元素的作用,包括描述、管理、使用、鉴别,其中有些元素可以同时具有多种用途(表2)。

表2 对单个元数据元素用途的分析

元数据元素 描述元素管理元素

使用元素鉴别元素

标准 总数

DC1593%(14)33%(5) 53%(8) 27%(4)

VRA Core 2871%(20)29%(8) 46%(13) 54%(15)

REACH 2090%(18)25%(5) 50%(10) 45%(9)

EAD

6058%(35)40%(24)32%(19) 67%(40)

2 元数据的局限

2.1 元数据的描述功能及局限

从前表可以看出,“描述”功能是任何元数据标准中必不可少的一项,通过元数据所描述的文献资源的外型特征和内容特征,我们在没有见到原件的情况下,也能对之有所了解。当“辨识”是一个用户的主要目的时,(例如,找到某一作者的某一作品),元数据可以说能相当有效地满足用户需要。过去,由于编目记录与具体的图书资料实体是分开的,人们往往要依赖于编目记录来判断一个图书资料的内容,然后再通过不同手段索取图书资料,因此对编目的描述要求很高。现在由于电子文件与元数据记录往往是联在一起,看到元数据的同时也基本上看到了实体本身,这样“辨识”的需求量就小了,对元数据的与“辨识”有关的描述功能的要求也降低了,这也是为什么一些十分简单的用于描述文献资源的元数据记录在数字化图书馆中对“辨识”要求也能基本满足的原因。

在其它场合下,例如检索和浏览,用户基本上完全依赖于元数据对文献内容的描述。比如查找关于中国入世的有关信息和数据、中国运动员在2002年冬奥会期间的营养提供、HP与Compact合并的进展等。 这些情况可以分成两类:第一类是特定的专有名称与具体内容的结合,在对这类文献内容的描述中,元数据可以同时采用一些标准名单表(如公司或股票名)或补充新的专有名词(如新的运动员名单);第二类情况是不含专有名称的内容,例如关于某种合金的性能测试,某种疾病的新的治疗手段,时装发展的趋势,等等,元数据主要通过采用词表或关键词来表达文献内容。在这两类情况下,元数据对主题内容的描述成为最关键的(几乎是唯一)的查找依据。

然而,在元数据标准中用于内容描述的元素可以说是十分有限的(见表3):

大多数用于文本型文献源的元数据标准只有一两个专门用于主题内容描述的元素,而且常常是一个给受控主题词,一个给非受控主题词,如表3的中栏所示。不管文献的内容有多丰富和专指, 都只有放在这一两个元素所代表的范围内。其它能起到一些主题内容查找作用的成分主要限制在文献涉及的时间、地点、目的等方面(见表3右栏)。 从以上分析可以看到元数据描述功能的不足之处。

2.2 元数据的存在形式及局限

另外一个问题是元数据记录的存在形式。不论你做了一条多么好的元数据记录,给了多少个主题词,这条记录只是原文献的一个附属品(surrogate)。

一般来说,虽然元数据记录可以被嵌(embed )在一个网页的原码中或附(attach)在一个文件上,大多数数字图书馆(digital library)或数字化文献库(digital collection)都将元数据记录存(store)在专门的书目数据库里或文档里,供随时查找或检索。这样,当我们查找任何课题时,也许我们会得到一份书目单,上面将我所要找的书、文章、图像、声像、软件等资源的所在地一一列出,如果这些资源是电子版的,这个书目则可以直接链接到各原文献,使我们马上可以“拿”到该文献,问题是,当一份文献含有多项内容或是体积与结构比较复杂时,我们要花很多时间再进那份文件去,把信息挖出来。比如说有关某一金属材料的数据在一本有300页的书中, 虽然我的书目单让我“找”到了该书,它并未将我引到目的地。我还要仔细研究一下该书,利用其目次或索引或用全文查找的方法再将所要的内容找到。如果这本书或这个网站没有索引或没有一个好的导航系统,则所需查找时间可想而知。这种情况可以总结为:元数据帮你发现了所要的资源——一个信息容器(information container),但无法帮你发掘该资源内所含的内容。

读到这里,也许你会说,那好,我们就把那本300页的书分解, 给每一章节做一个元数据记录,那不就解决问题了吗?是的,这样做,信息的容器是变得比较小了,例如我们可以将一份博士论文分解,将其中的文摘、段落标题、章节、图示、表格、小结、参考文献等等都分解出来,做好相应的元数据记录。但是,不论一个文献资源在结构上被分解得多小、多深,不论你怎样存贮你的元数据记录(附在一个实体上,嵌在一个网页的原码中,或存在一个数据库中),一条元数据记录最终只是一个信息容器的附属品,是独立于文献本体的(图1)。

图1 元数据记录的存在形式

在科学研究领域中,对于比较专指的、具体内容的揭示和描述日趋重要,因为人们所关心的,比如说,是关于某一种新型材料的具体性能、成份、化学公式、数学公式等。用传统的描述主题的方法,也许只能具体到材料类型以及一些比较通用的限制词(方面词),如“性能”、“成份”等。如果你面对的是一个相当大的数据源,(例如由分布式的若干数字图书馆或数字化文献库组成的联合式的数字图书馆),在这种水平上的内容描述将远远达不到用户所期望的结果。即使一个项目投入了很多时间和精力来选材、通过数字扫瞄产生了一批数字型文献、为每个文献资源编制了元数据记录、最终形成了一个“元数据数据库+电子版文件库”,其结果比起传统的图书馆来只是在两方面有所进展:第一,产生了一个数字化的文献库;第二,产生了一个描述这个文献库的元数据库。如果这件工作是一个图书馆做的,则该馆扩大了馆藏和馆藏目录;如果这件工作是由非图书馆做的,则在这个世界上又增加了一个以电子文献为主的图书馆。

从这个意义上去理解,我们在一个数字图书馆中所需要的应该不只是对资源的发掘(discovery of resources),而应加上对资源所含内容的发掘(discovery within resources)。从文献资源处理的角度上来说,我们不仅需要对一个资源作结构上的分解(以便发掘其结构成份),而且需要对其作语义上的分解(以便发掘其有用的内容成份)。元数据的方法对于前者(结构上的分解和描述)可以做得很好,但对于后者(语义上的分解和描述)则有些力不从心,而后者正是面向学科专业的置标语言的长处所在。

3 面向学科专业内容的置标语言

最近几年来,与元数据标准浪潮相呼应,各种面向专业内容的置标语言纷纷涌现。可扩展置标语言XML在过去几年内的完善和巩固, 使之成为新一代置标语言的代表,并且促进了更多专业置标语言的发展。图2勾画了置标语言体系的轮廓,从图中我们可以看到XML由SGML发展而来,并已成为新一代超文本置标语言XHTML 和许多面向专业的和面向特殊媒体的专业置标语言的根基(图2)。

图2 WEB语言一览*

*附录2列有这些缩略词所代表的语言的全称

置标语言有几个特点特别值得注意:第一,人们可以将对内容的表述与对形式的表述分开,给予每个元素成份(elements)以特定的语义,因而可以准确表达/描述所要描述的内容;第二,这些元素成份可以采用等级形式,自上而下地将内容的特征准确而生动地表现出来;第三,在数字化的文献(主要是文本形式和PDF形式)中, 我们可以将这些有特殊语义的标签原码放置于文献全文的文字中。

面向专业的置标语言有比较统一的句法(syntax)--即XML 的规则(例如对element,attribute,entity的定义方法和使用规定),同时又有适于某一特定置标语言的语法(grammar), 这通常是通过编制文献类型定义(document type definition,或DTD)或框架与格式表(schema)来规定的。例如在材料特性数据置标语言(MatML)的DTD中,有如下结构(见图3):

图3 材料特性数据置标语言(MatML)的主要成分与结构

从图3左栏中可以看到,在材料特性数据置标语言MatML中,“材料”这个元素含有4个子元素,其顺序(由逗号“, ”表示)是:材料细节(BulkDetails)、组成成份细节(ComponentDetails)、语词(Terms)、图(Graphs)。其中除了第一项外,在一条记录中都可有可无(optional,由问号“?”表示)。这4 个子元素又都有自己的子元素,例如图中中栏所示在“材料细节”下所列的11个第二级子元素;它们又都可以有自己的第三级子元素,如图中右栏所示,在特性(Characterization)下又列有若干第三级子元素。如此等级可以继续划分下去,直至满足需要。(DTD中的其它符号的意义如下:带星号“*”者表示可以出现0次或多次,带有加号“+”者表示应出现至少1次或多次,管道符号“│”表示一组元素中每次只能出现一个,括号“()”表示一组元素,与号“&”表示这些元素必须出现但可以是任何顺序。)

一种置标语言由一套带有语义的元素组成。从某种意义上来说,任何人都可以制定他自己的一套元素,可以定义任何元素单位,也可以定义元素之间的各种不同的关系。面向专业的置标语言一般侧重于对内容的描述,这可以体现在形式和意义两个方面。例如数学置标语言,用于数字符号、公式的具体表现形式的元素占很大一部份,过去曾经被认为是数学出版印刷形式的置标语言。但若仔细研究一下其最新版的成份,可发现形式(28个元素)与意义(75个元素)两者都得到了充分的体现。置标语言对专业人员之间交流数据将起很大的作用。可以说,将专业学科语言精确而全面地直接应用到自然语言资源和多媒体资源上,置标语言是唯一的、最重要的方法。

但是,话说回来,在数字图书馆中,光用置标语言来描述文献内容是不够的,没有元数据对有关文献资源本身的特征的描述记录,没有对其他内容的描述,数字图书馆还是不能被有效利用。

另一方面,置标语言目前主要是针对自然语言文本式文献的,即只有当你能在原文件中“插入”标记或代码时,置标语言才能有用武之地。由于迄今为止绝大多数数字图书馆资源是文本式的,这些面向专业的置标语言正好可以充分发挥作用。而在处理那些不便置标的资源时,元数据则常常承担起全部描述作用,例如图像处理的元数据标准视像资源协会核心范畴(VRA Core Categories)和艺术作品描述范畴(Categories for the Description of Works of Art(CDWA))中,除了“主题词”外,还含有材料、技术、风格或时代、文化等与内容有关的元素。置标语言已开始涉猎非自然语言文本式文献领域,例如在同步多媒体综合语言(Synchronized Multimedia Integration Language)SMIL中,一个录像材料可以用相关元素标记出其顺序、场景、摄制、镜头以及某一镜头中的物体、演员或人物。

应用置标语言并不是已经到了“万事俱备只欠东风”的环境。首先,用人工去做置标工作将需要比做元数据记录多几倍的人力,而且这些人必须懂得专业。因此,使机器能自动辨认文中的语义以便做上标记是一个有待攻克的重要难题。其次,置标语言的元素成分被应用到文本中以后,原所含的元素等级结构转为隐藏形式,计算机不可能从标记字面上理解元素之间的关系,所以对元素之间关系的显示必须通过另外的一套或多套显示格式表(style sheet)。再次, 现在已出现几十种面向专业的置标语言,其中有些内容重复。最后,一般来说,置标语言主要用于以自然语言为主的文本文件中,如何用于非自然语言的文献源还有待研究。

4 元数据与置标语言结合后的功能

前面提到,从文献资源处理的角度上来说,我们不仅需要对一个资源作结构上的分解(以发掘结构成分),而且需要对其作语义上的分解(以发掘有用的内容成份)。元数据的方法对于前者(结构上的分解和描述)可以做得很好,但对于后者(语义上的分解和描述)则能力有限。而这正是置标语言的特长。

当新的、在结构上或语义上独立存在的实体(object)能通过分解方式产生而且被发掘时,它们本身又变为数字图书馆的新资源。这些资源通过元数据得到展示并被查找,它们可以被抽取出来,组合,再组合,以致产生新的实体。这样的过程中,我们可以看到通过重组而产生的新资源。在科学技术教育数字图书馆中,这一点是十分有意义的,几乎所有的教育材料(大纲、教材、教具等)都可以通过这种方式来形成,而它们本身又成为新的资源。这种形势可以用下图来描述(图4):

图4 文献资源结构与语义的分解以及新的文献资源的产生

元数据与置标语言的结合使它们在知识表述方面的功能增加,在前面提到的元数据功能的基础上,现在两者在一起的功能有:

● 资源发掘,包括:对资源的发掘和对资源内部内容的发掘

● 形成/产生新的资源

● 对电子资源进行组织

● 便利互操作

● 数字鉴别

● 存档和保存其中黑体字代表的内容是对原始元数据功能的增加,即从描述文献资源和指向信息容器的地址到描述资源内部的内容,从找到资源到形成和产生新的资源,这正是数字图书馆所追求的目标。值得注意的是,目前绝大多数数字图书馆项目的精力仅放在图4中左上方的方框范围中,即文献资源水平的元数据工作中。

5 寻找元数据与置标语言的结合点

在笔者所参与的一个材料科学领域的数字图书馆GREEN项目中, 寻找元数据与置标语言的结合点的问题摆在我们面前。我们所采用的元数据标准是IEEE(Institute of Electrical and Electronics Engineers)的学习材料元数据LOM(Learning Object Metadata),主要置标语言是材料置标语言MatML, 另又定义了用于本项目的格林函数置标语言GREENML--其数学部分直接采用了数学置标语言MathML。怎样将元数据记录与采用了置标语言的文件全文或为解析出的语义概念所做的记录联接起来?目前我们还没有看到有关报告,主要原因可能是大家还处在建立元数据应用标准和编制元数据记录的工作上,而且专业置标语言的编制和应用工作一直是与元数据工作平行发展的,互不干扰。下面将可行方案的思路逐一予以介绍。目前我们仍在试验阶段,在这些方法中尚未得出孰优孰劣的结论。

当一个通用元数据标准被用于专业文献,对文献专业内容应怎样揭示?最常见的办法是使用一套专用主题术语(词表等),在对主题描述中尽可能采用最专指的术语。再进一步的办法是对原元数据标准进行扩充、加入专业内容。例如地球科学教育数字图书馆(DLESE)在LOM已有的9个大类的元数据之外, 又增加了一大类关于地理特征内容的描述及若干第二级和第三级子元素(图5):

图5 DLESE元数据大纲

在都柏林核心元数据DC的15个元素上扩展的教育元数据DC-ED也采用相似的方法,增加了两个元素。美国政府资助的全国性科学技术教育数字图书馆NSDL也暂定了一套在都柏林元数据上扩展的、纳入了一个DC-ED元素(Audience)和3个LOM元素(InteractivityType,InteractivityLevel,TypicallearningTime)的推荐标准。按照这种方法,我们可以在GREEN元数据的LOM的9类之外,增加关于材料的内容描述,其中包括的元素由MatML的必需成份所组成(图6)。

图6 根据专业置标语言中的必需元素在元数据记录中增加专业元素

第二种方法是从元数据中的某一个子元素处连到外部的经过置标语言处理的文件原文或数据记录。在LOM标准中有一元素为“关系(relation)”,由此可以指出关系的类型(kind)、相关文件或记录的来源(resource),其中包括辨识号(identification)和描述(description)子元素。这时我们可以将关系类型定为参考文件(reference),辨识号即外部的经过置标语言处理的文件原文或数据记录的地址,描述部分用于解释所使用的置标语言及在此使用的目的。例如:

References

Green-4-MATML-1.xml

MatML description of material properties of a copper-nickel multilayer material

图7勾画出了这种方法的基本思路。

图7 通过LOM的“关系”元素连接外部置标文件或记录

第三种方法是产生一个新的管理性的数据记录,类似一个中转站。这种方法是受到最近由国会图书馆牵头制作的元数据编码和传输标准METS(Metadata Encoding and Transmission Standard)的启发。每个METS数据由4个方面的数据组成:①描述元数据;②管理元数据; ③文档组(file group);④结构地图(structural map)。描述和管理元数据可以是原始数据记录本身,也可以是指向存贮在任何一个地方的(称为external)某一记录的辨识号(ID)。若在我们的项目中使用其“文档组”的办法,可以将一组辨识号放在一起,其中包括原始文件和衍生文件(在原文件基础上产生的用不同置标语言处理的文件)。使用其“结构地图”的方法,则可以将若干个文献资源(经分解的或未经分解的,原始的或重新组合成的)的辨识号放在一起,这个结构图将能够清楚地显示一组相关文件的物理上的顺序和结构,以及逻辑上的等级关系(图8)。

图8 采用METS结构建立“中转站”以连接相关文件

这种中转站的方法可容纳用不同元数据格式生成的数据,在一个由多个分散式数据源组成的数字图书馆联合体中,其效益之大可想而知。

第四种方法是根据“资源描述框架”(Resource Description Framework,或RDF)的原则,从不同的元数据格式和置标语言中“借”来所需要的每个元素成份,组成一个新的描述格式,在格式中用XMLNS (XML域名地点)的方法指出所借元素的来源。RDF 重点不在于语义(semantics),而在于表达语言的基本结构(structure)和提出一套非常有力的XML句法(syntax)。因此,RDF通过XML 的方式推出的结构与句法正好与语义丰富、专指度更高的置标语言(如MatML 和在其基础上又产生的GREENML)相辅相成。与METS不同的是,RDF生成的是一个个有具体数据的纪录,而不是像中转站式的记录。

以上几种做法各有优缺点,特别是在牵涉到实用性和自动化可能性的时候,有些方法可能无法在较大范围内应用或大规模上马。

综上所述,元数据与置标语言的结合使它们在知识的表述方面的功能增加,使数字图书馆的工作从仅仅描述文献资源和指向信息容器的地址上升到详细地描述资源内部的丰富内容,从作为一个供存贮、查找、索取资源的仓库上升到一个能生产和再生产及反复利用新资源的车间。但是要达到这一理想目标,我们还需要对元数据与置标语言的相互关系和结合方法进行大量研究和试验,还需要从根本上解决机器自动生成元数据记录或抽取元数据信息、自动或半自动置标,自动或半自动联系和管理相关数据记录等问题。

标签:;  ;  ;  ;  ;  

元数据和专业标记语言在数字图书馆知识表示中的作用_数字图书馆论文
下载Doc文档

猜你喜欢