专业元数据词库研究_元数据论文

专业元数据词表研究,本文主要内容关键词为:词表论文,数据论文,专业论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 简介

因特网和万维网使全球信息环境成为可能。因特网10多年来的发展已经深刻的改变了我们的信息环境。网络搜索引擎和目录服务,例如Google and Yahoo!已经成为全球公认的可以帮助用户在网络上检索信息的基础服务,数字图书馆已被用户认为是图书馆和信息中心组织最基本的功能。一方面,这种发展使每一个用户都可以访问全球的信息资源,地理的远近再也不是获取信息的障碍。另外一方面,用户社区和信息资源的多样性使用户在网络这个巨大的信息海洋中找不到适当的信息。社区团体是解决这种困难的一个非常重要的一环,因为单词和短语的意思经常需要社区团体的语境支持。换句话说,专业词表是实现专业信息环境的重要工具和手段。

元数据现已被认为是网络和数字图书馆的关键组成部分。显而易见,元数据对创建专业信息环境具有举足轻重的作用。当通用的元数据方案难以满足社区团体的需求时,本地或者专业的社区就需要自己来定义满足自身需求的元数据方案和受控词表。但是另一方面,专业化的元数据方案和词表将会带来互操作障碍。并且,元数据方案和词表的长期维护对社区来说也是至关重要的方面。这样,为了创建专业信息环境,我们必须满足上述对于元数据的相悖的需求。

本文的中心主题就是如何处理元数据方案中的术语词表。元数据词表是一组在元数据方案中定义过的术语。一般来说,有两种类型的元数据术语:一种是定义资源属性的术语,另一种是定义属性值的编码体系。本文使用“元数据词表”来表示以上两种类型,使用“属性词表”和“值词表”来分别表示资源属性(即元数据元素)和编码体系词表,而“主题词表”意指一个表示资源主题的值词表。例如,杜威十进制分类法(DDC),日本十进制分类法(NDC),国会图书馆主题标题表(LCSH)都是主题词表。本文包含两个案例研究和一个元数据方案的概念模型。为了满足元数据互操作的要求,概念模型建议将元数据词表和元数据方案在结构(句法)方面的约束完全区分开来。

2 日本图书情报大学数字图书馆(ULIS-DL)核心主题词表的发展

ULIS-DL的目标是为图书馆和情报机构建立一个资源主题门户,服务开始于1999年2月,主要内容为日本国内由图书馆和情报机构出版的一些资源。ULIS元数据的核心集在15个简单DC的基础上定义,并加入了个别ULIS-DL的特殊元素,例如元素的发音注音也作为每个元素的可选子元素包括在元素集中。从2003年夏天开始,ULIS-DL已经完成了4万多条元数据记录,其中大约有2.6万条是来自于图书馆和情报机构出版的网络资源的元数据。以网页为著录单位,所以一个网站可以创建多条元数据记录。一条元数据记录包括一个或多个简单DC的主题元素,每个主题元素包括一个主题术语。这些元数据通过文本检索界面提供给用户,但是没有创建目录风格可供导航的界面。

建立可供进行主题导航的界面,能够增强ULIS-DL的可用性。但由于ULIS-DL的资源来自于有限的主题领域,没有现成的主题词表或主题分类体系可供直接使用,所以必须自己创建。在我们自建的小型主题词表中,主题术语以层级形式排列,每个资源均与某些主题术语相关联。最初获得的原始主题元素值有1.5多个(字串形式),其中包括印刷错误,大小写字母错误等。我们还发现同一网站上不同页面的主题术语重复现象非常严重,不同网站的元数据记录在数量上的差异非常大。

把这些原始元数据进行统一处理以后,我们按照以下步骤来创建核心主题词表。

(1)在同一个网站中删除交叉的主题术语:为了避免对一个术语(只在一个或者少数几个网站中频繁的出现)的重复计算,我们把每个网站的元数据记录整合为一条记录,得到一组整合的主题记录。

(2)删除 Creator/Contributor/Publisher这些元素的值:我们从一组整合的元数据记录中提炼不同的文本字符串创建了一组主题术语。在此阶段,网站的主题元素值和Publisher,Creator,或Contributor的值相同时,主题元素值就被排除在此集合之外,因为这些元素的值不适合作为主题术语。通过这个过程创建的集合成为初级主题术语集合。

(3)候选核心主题术语的创建:我们通过提炼在整合的元数据记录中出现一次或多次的术语,从初级集合中创建了一组主题术语。这个集合称为候选术语集合,CTS-N。

(4)候选集合的评价:我们创建了CTS-2,3,4,5,来评价整个元数据中集合的覆盖率。为了评价CTS-N的成本效益,我们使用“未覆盖”比率,“未覆盖”比率指的是没有任何核心主题术语的元数据记录数量和整个元数据记录数量的比率。表一显示了CTS-N和它的未覆盖比率(N=2,3,4,5)。

表一 候选术语集的覆盖

整个元数据记录总数=26358

初级术语集合中的主题元素值总数=28797

不包括Publisher/Creator/Contributor在内的主题元素值总数=26107

主题术语数量 排除记录数量未覆盖率

CTS-2 3979 1519 6%

CTS-3 2045 2083 8%

CTS-4 1366 2590 10%

CTS-5 1025 2801 11%

在此案例中我们选择CTS-5作为核心主题词表,因为它覆盖了所有记录的大约90%,还有就是我们认为它的大小最适于手工组织主题词表术语,例如,术语的分类和术语的关系定义。

图一:以OWL描述的主题术语和目录结构

我们把CTS-5术语分为八个类别,分别是(1)网络术语,例如,链接;(2)图书馆术语,如,OPAC;(3)组织和设施信息,例如,楼层介绍和入口;(4)图书馆类型,例如,大学图书馆和公共图书馆;(5)组织名称和服务名称;(6)地点名称;(7)一般主题术语;(8)参考工具,例如,字典,叙词表。接下来,我们将这些类别中的术语分为三层结构,构成一个主题术语的层级结构。我们把类别树的每个节点都分配了适当的主题术语。在元数据中,每一个CTS-5的主题术语都作为一个事件术语和一个叶节点关联。我们用OWL对这三层结构进行了编码。在图一中提供了一些简单的例子描述。

3 专业主题词表的创建

3.1 亚洲网络公共图书馆的经验

亚洲网络公共图书馆(IPL-Asia)是从公共图书馆的角度选择,收集中、日、韩文(CJK)网络资源的一个项目,并以CJK三种语言提供有关资源的所有信息。为儿童资源专门设计的主题词表对于本项目资源的分类和建立目录导航界面是不可缺少的,可以作为广泛应用于图书馆界的主题词表,例如国际十进分类法(UDC)和日本十进分类法(NDC)的必要补充。而且,从建立词表的经济性和长期使用的角度来看,由社区维护主题词表,以及保证词表在社区间的可重用性和互操作性是至关重要的。

基于IPL-Asia项目的经验,我们定义了以下规则为专业元数据建立主题词表。

1)创建一个核心主题词表,此词表应该是一个较小的主题术语集合。

2)通过裁剪核心词表创建主题词表,并将每一个主题词与相应的表达相关联。以便将合适的主题词呈现给合适的用户。

uo:print_name="Library Terms">

uo:print_name="Resource Search">

uo:print_name="Online Public Access Catalog">

uo:print_name="Digital Library">

3)用本体描述语言例如XML主题图(XML Topic Maps)或OWL进行编码。这种编码不仅对从元数据记录自动创建主题目录是非常重要的,而且对主题词表的互操作,以及主题词表的长期维护都是最基本的。

3.2 专业主题词表的创建

基于以上的规则,我们为数字冈山大百科(DODH:Digital Okayama Dai-Hyakka)的网络资源建立了一个主题词表:冈山儿童词表(OKV),另外冈山政府还建立了一个分类主题词表。由于这两个词表都是为普通大众和儿童使用的,所以都非常简单。而图书馆员则使用日本十进分类法(NDC)作为补充。

如图二所示,每一个OKV主题术语有四个可供选择的标签从而和用户的年龄保持一致,例如,一年级到三年级(小学的初级阶段),四年级到六年级(小学的高级阶段),八年级或者更高年级(中学到一般大众)。对于最小年龄群用户的介绍标签必须是能被相应年龄段的孩子所能读懂和理解的,所以我们只能使用平假名,片假名和一些有限的汉字,我们必须把主题术语解析为简单的单词或短语以便孩子们易于理解。对于小学较高年级的学生,我们在介绍标签上也使用了比较简单的词汇和短语,并且对特殊的主题术语加上了音标。为中学学生设计的介绍标签几乎和一般大众的相同,但是有一些还是需要解析,还有一些额外的发音信息。OKV有八种主要的主题术语群。每个主群组都包含有子群组的术语。截止到2004年2月,OKV已经收集了大约280个主题术语。每个主题术语被包含在一个或者多个群组。这些主题术语收集自多个主要的专门服务于儿童的门户资源网站,并且将这些主题术语进行修改和OKV的需求保持一致。例如,游览,毕业典礼和入学考试等一些术语是专门针对学校和地区社区的活动和事件的。DODH的元数据方案是基于简单DC的。OKV将被用来从DODH元数据创建目录和进行辅助检索。

3.3 主题词表的维护

在初步研究中,我们使用XML主题图为IPL-Asia创建了主题术语词表,在CJK语言中,每一个主题术语都被定义为主题,并且和多种介绍标签相关联。为了建立基于主题的资源目录,我们将多语言主题词表应用到IPL-Asia元数据和DODH元数据中。这种比较直接的试验性的研究显示了建立多种表达模式的用户界面的可行性。

从这个案例我们可以得出本体描述语言(如XML主题图和OWL)不仅对于机器可理解编码的词表是非常有用的,对于长期维护词表也是非常有益的。因为词表的维护已经发展了很长一段时间,所以即使OKV是一组较小的术语集合,词表的维护也是至关重要的,例如,词表术语和主题群组的发展,介绍标签的更新。基于XML的编码不是万能药,但是却能够减少维护的费用。

我们认为元数据方案的注册是对主题术语的存储和维护较为实用的方法,它可以存储元数据方案中的元素及其相关描述,并通过网络把这些元素传送给用户,并记录术语的不同语种的多个标签。

4 元数据概念模型和元数据方案的互操作

4.1 DC基本概念和元数据模型

4.1.1 简单都柏林核心和限定都柏林核心

DC包含十五个元素用以跨领域资源发现。在元数据记录中,十五个元素在使用时不加限定,并且只用纯文本字符作为值,这被称为“简单DC”。设计之初,这十五个元素中的任何一个都是可选和可重复的。这个集合已经成为国际标准——ISO15836。“限定DC”相对来说,使用了十五个元素的同时还加上限定,这样就增加了描述的丰富性和精确性。限定DC有两种类型的限定——元素限定和编码体系限定。DCMES是一个稳定但又不封闭的集合。

4.1.2 沃维克框架——提供可扩展性的基本框架

因为网络是一个非常多样的环境,不可能假定一个单一的元数据元素集合就能满足所有领域和用途的需求。为每一个应用逐一建立元数据集合也是不切实际的:这样做既成本高昂又杂乱无章,互操作性也荡然无存。另一方面,应用开发者复用现成的元数据方案,并根据需求进行适当的调整采用,常常能取得令人满意的成效。沃维克框架,来自1996年的DC工作组第二次工作会议的一个概念模型,较早的提出了将元数据概念作为标准组件的观点,一个元数据应用可以来自多个元数据方案。在此模型中,元数据的实例可以用“容器”来表达,容器中包含一个或多个包,每个包用一个给定的元数据方案来表达。资源描述框架(RDF)提供了实现沃维克框架中许多设想的具体方法。

在网络上,沃维克框架作为标准元数据模型是非常重要的。没有一个单一的元数据方案可以满足所有的应用。更确切地说,从各种方案中选用适当的元素以满足应用的需求是非常必要的。应用纲要提供了一个选择元数据元素的方法,也可以被认为是对沃维克框架的实现。

4.1.3 互操作的基础:向上兼容原则

向上兼容原则为限定提供了一定的规则。向上兼容原则建议限定元素的值必须和没有限定的元素的值保持一致,该原则对于全球范围的元数据互操作是至关重要的,因为本地社区可以在和需求一致的基础上扩展它们的方案,同时,它们还可以保持和其他元数据社区的互操作。

4.1.4 应用纲要

DC元数据定义了元数据词表,例如,术语和它们的含义,但是一般来说不详细说明编码或语法特性。然而,本地化应用会有更为具体的需求。这些需求可以独立于词表的定义来进行定义。这种对于专门应用的语法特征的描述称为应用纲要。任何应用都有它自己的应用纲要,应用纲要详细说明了在应用中使用到的一组元数据词表术语,还有特殊应用的语法和结构特征。图三是应用纲要的一个模型。词表术语可以复用自一个或多个来源方案。还有一点比较重要的是,应用纲要可以用来定义应用方案到全球各种方案之间的映射,映射对于互操作是至关重要的。

4.2 元数据方案互操作概念模型

元数据方案在应用时由下列三层组成:

(1)第一层——语义定义层:定义方案中的术语,也就是元数据词表的定义。例如,元数据元素集。元数据词表一般包含两种类型的元数据术语:属性词表和值词表。属性词表(元素词表)是一组属性术语,例如,DCMES的元素和元素修饰。值词表是一组值术语,例如,编码体系。每个术语的定义最初都应包括原来的名称和其含义。这样,词表定义就提供了元数据方案的语义基础。

(2)第二层——结构约束定义层:语法特征定义不依赖任何特殊的应用方案。在方案中使用的一套术语和应用于每个术语的结构约束都应包含在定义中。在这一层给出应用纲要。

(3)第三层——应用时所依赖的语法定义层。在应用中对元数据语法的定义,例如,以HTML,XML,和RDF进行元数据语法描述。

除了这些定义,每一个应用方案的开发者都需为元数据创建提供规则。图四阐述了基于概念模型的元数据方案之间的关系。

4.3 元数据方案注册

元数据方案的注册不仅可以为他人的利用而存储和提供元数据方案,更是为机器的理解和利用而提供机制。元数据方案注册体系是增强元数据方案互操作性的一个关键性软件工具。例如,提供DCMI术语的DCMI元数据注册体系最初只是为第一层设计的。每个DCMI术语都用RDF Schema来表达。DCMI注册体系提供20多种语言的翻译。元数据方案注册对于存储所有类型的元数据词表都是非常有用的,例如,应用纲要、主题术语和其他词表等。

不过还有一些问题在现在可能不是很重要,但在将来会举足轻重,例如,元数据词表的长期维护对于元数据的互操作就是一个比较重要的问题,元数据方案的互操作对于元数据的互操作显而易见是非常重要的,元数据方案的重复使用对于减少方案的重复创建和降低互操作的成本也是重要的。而元数据注册在很大程度上可以解决这些问题。

5 结语:专业元数据词表的创建,维护和互操作

本文提供了两个以元数据为中心的服务的案例研究,这两个案例都是基于简单DC的。我们可以从中得出一些经验教训:

(1)专门领域的网络资源主题词可以由一组小规模的主题术语所代替,即使这些主题术语在元数据的创建过程中并不起到显著的控制作用。主题术语所包括的专业术语常常是通用主题词表所难以包括的。

(2)在主题术语中,将不同的显示标签合并为单一术语的方法不仅对于改进用户界面(和用户的需求保持一致)非常有好处,而且对于增强词表的可维护性也是至关重要的。基于XML的词表描述在这一方面非常有用。

(3)社区主题词表的建立往往是基于社区的专业领域、服务目标和相关语种。其可维护性对于社区创建和长期维护元数据是非常重要的。基于这种观点,一个适当的小型的基于社区需求的词表往往是非常合适的,而且为词表维护设计专门的软件工具对增强词表的可用性和可靠性也很重要。

图书馆目录可以说是典型的由专家创建的高质量的元数据。图书馆界长期发展起来的极为丰富的元数据词表,不仅可以为图书馆使用,也应该可以被图书馆用户、出版界和相关的行业使用。然而在网络环境中传统的运行模式不一定能很好地发挥作用,任何团体都可以创建和符合其特定需求的元数据词表,但是词表的长期维护将会是一个很实际和很困难的问题。所以,基于以上观点,我们认为保持词表的简洁是非常重要的,并且词表的维护软件也是一个重要课题。

因特网已经提供了跨越时空对全球资源进行访问的基础,然而,专业信息环境还没有很好的实现。为社区设计元数据方案对于实现专业信息环境是一个关键的组成部分。一方面,社区需要为自己设计元数据方案,但是另一方面,元数据与元数据方案和其他社区的互操作和可重复使用也非常重要。这样就需要满足两种相互矛盾的需求,即专业化和一般化。从IPL-Asia和ULIS-DL的经验,我们可以得出,除了已经建立很好的主题词表(如UDC和NDC)以外,这些系统还需要为它们自己设计主题词表。

专业信息环境需要满足互相矛盾的需求,我们认为元数据方案的注册和本体描述编码的元数据方案对于满足这种需求是非常关键的技术。希望本文描述的模型能够为寻求解决办法提供一些基础性的指南。

鸣谢

我们在这里首先感谢Stuart Weibel博士,Thomas Baker,Koichi Tabata,TetsuoSakaguchi和Atsuyuki Morishima对我们的支持。感谢Huishan Jiang和Akiko Shingai对于发展软件工具的贡献。尤其要感谢的是Infocom公司对我们的合作研究的支持,还要感谢Tsukuba大学和冈山地方文化中心所作的一些促进活动。

标签:;  ;  ;  ;  ;  

专业元数据词库研究_元数据论文
下载Doc文档

猜你喜欢