RDA与语义Web_图书馆论文

RDA和语义网,本文主要内容关键词为:语义论文,RDA论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

DOI:10.3772/j.issn.1673-2286.2010.12.002

1 对传统图书馆编目的批评

自世纪之交以来,人们对于传统图书馆编目工作的批评就不绝于耳。批评主要来自于以下几方面:

首先,计算机的运算能力持续增强,真正使用计算机来处理图书馆数据对于图书馆愈发重要。当前图书馆使用的编目体系(AACR2和MARC格式)发源于卡片目录时代,MARC格式出现的目的之一就是通过计算机为人类读者生产卡片目录。所以虽然MARC自称是一种“机读”的数据格式,当前的图书馆编目主要是面对人类读者的,难以被计算机处理。

这一方面表现在,图书馆编目数据是通过记录的形式来表达的,各个不同的元素被混合在同一条记录中。当前,其他社区如果想利用图书馆的编目数据,要把图书馆的书目记录分解为不同元素的数据,而由于图书馆数据在语义上的缺陷,这个过程格外困难。正如Jason Thomale的评论,图书馆数据本质上是一种“标记语言”,从中获取信息不但需要我们理解MARC字段的结构,还需要我们理解编目规则所规定的暗含的结构[1]。同时,图书馆的数据库结构也难以利用来自外部的数据,降低了图书馆编目工作的效率。另一方面,记录的形式也让单个元素的数据几乎不可能得到再利用。其结果就Jan Hanneman所说,图书馆数据被隔绝在当前总体的数据交换过程之外[2]。

另一方面,图书馆的编目规则在功能上也是高度模糊。AACR2是一个涵盖多种功能的元数据标准,它既规定数据内容的选取,也规定数据的呈现。而且长久以来,AACR2和MARC 21一直被共同使用,这让图书馆编目的体系更加“庞大”,而难以进行必要的改进。

其次,当前的编目实践没办法很好地表达关系。这一方面受制于MARC格式的平面结构,另一方面在AACR2中,关系也只是相对比较不重要的一方面。而且,正如上文所说,这些关系的表达仍然主要是面对人类读者的。

正是在如上的背景下,语义网进入了图书馆目录的改革者的视野。

2 语义网及关联数据

2.1 语义网

20世纪90年代初,英国的网络工程师Tim Berners-Lee(李爵士)在当时刚刚出现的互联网上开创了万维网(World Wide Web)服务。在万维网中,各种信息被“超文本”相互连接并被读者获取。万维网得以实现,主要依赖如下三个技术:统一资源标识符URI(Uniformed Resources Identifier),用于识别并且访问网络以及其他各处的资源;超文本标记语言HTML(Hyper Text Markup Language),用于标记网页内容;以及超文本传输协议HTTP(Hyper Text Transfer Protocol)用于传输数据。

李爵士把这种形态的万维网看做是“文档的网络”:万维网中的内容虽然通过超链接相连,但是因为HTML语言只能标记数据呈现的方式,却不能标记数据本身的意义,这样页面上的信息虽然能够为人类使用者所理解,但是没办法被计算机理解和处理。这正是李爵士所设想的“语义网”——试图解决的问题[3]。

李爵士在2000年第一次绘制了语义网堆栈(Semantic Web Stack),这张永远处于beta版的图展示了各种相关的技术是如何被组织起来编织语义网的(如图1所示)。

在语义网中,XML语言代替了HTML语言。XML相对于HTML的优点在于,它允许用户使用自己定义的标签来标识文本的内容,这可以解决文本标记语言缺乏语义的问题。

而资源及其关系则通过RDF模型(Resource Description Framework)来表达。RDF使用“主语—谓语—宾语”的三元组来定义资源以及资源之间的关系。每个三元组都能且只能表达一个关系。

图1 李爵士在2000年绘制的语义网堆栈①

在每一个三元组中,资源通过URI来标识。一方面,URI所具有的唯一性不但可以消除语言的歧义和多语言的问题,实现“元数据的国际化”;而且,使用HTTP URI可以让资源识别和获取这两个步骤结合在一起。

在RDF之上是本体。它通过界定一个领域内的概念以及这些概念之间的关系,来确定一个大多数人都能接受的知识领域的模型,方便机器进行推理,也方便某个领域的知识能够得到重复利用。

2.2 关联数据

关联数据是语义网的一个重要应用。维基百科把关联数据定义为“通过网络上可参引的URI(dereferenceable URI)来揭示、分享和连接数据的方法”。[4]李爵士在2006年提出了关联数据的四原则[5]:

使用URI作为事物的名称

使用HTTP URI让人们能够查看这些名称

当有人查看这些名称,提供有用的信息,使用标准(RDF、 SPARQL)

包含指向其他URI的链接,这样它们能够探索更多的事物

W3C语义网教育和推广工作组(W3C Semantic Web Education and Outreach)的关联开放数据社区项目(Linking Open Data)是关联数据最有名的实践之一。这个项目“通过在网络上用RDF模型出版多种开放数据集,并且通过在不同数据源的数据对象之间建立RDF连接,来建立数据共用(data commons),扩展网络。”[6]围绕这个项目形成的社区近年来蓬勃发展,许多大型机构,比如BBC和维基百科,都已经发布自己的数据集,并且把它们的数据集和已经存在的数据集相连,加入到这个运动中。图2展示了截至2009年9月已经加入开放数据云的数据集。

如图2所示,图书馆是开放关联数据项目的重要参与者。瑞典国家图书馆、匈牙利国家图书馆和德国国家图书馆都已经通过关联数据发布各自的图书馆目录或者规范数据。大英图书馆在今年8月通过RDF/XML形式开放其数据集。OCLC和美国国会图书馆也已经分别把其国家虚拟规范文档(VIAF)和SKOS化的美国国会图书馆主题词表(LCSH)发布为关联数据[7]。

2010年5月,W3C图书馆关联数据孵化小组(W3C Library Linked Data Incubator Group)成立,其目的是“通过聚集在图书馆社区内外参与语义网活动的人(重点在关联数据),推进现有的活动,并且确定未来的合作轨迹,帮助增进网络上图书馆数据的全球互操作。”其主要活动包括收集图书馆和相关部门实践语义网技术的案例以及探索实施关联数据的相关问题,以应对图书馆内涵和外延的转变[8]。

图书馆领域对关联数据活动的积极的参与和实践,说明图书馆界已经意识到,传统的图书馆数据的生产和流通方式已经不足以满足当下的需求。而语义网可以让图书馆数据和外部数据互操作,大大增加图书馆编目工作的效率。因而它正是那艘带领我们“到达彼岸”的船。而新的编目规则RDA则是这个过程中的重要一步。

图2 截至2010年9月的开放关联数据云图②

3 RDA在语义网的实现

3.1 过程

1997年,在多伦多召开了 “AACR原则和未来发展国际会议”(International Conference on the Principles & Future Development of AACR),这次会议使用了已经接近完成的FRBR模型中的理念,对在图书馆编目工作中占统治地位的英美编目条例(AACR)的原则、内容和载体、规则的逻辑结构等问题进行了讨论。这个会议开启了编目规则转变的过程。

1998年,书目记录的功能需求(FRBR)正式出版。FRBR模型采用实体-关系模型(Entity-Relationship Model),从使用者的角度分析了书目数据中的各个实体及其属性和关系。李爵士认为,实体—关系模型和RDF模型在结构上相似,其中的许多概念都可以直接导向语义网的模型[9]。因此,FRBR模型一个最大的意义就在于,传统编目实践借助这个模型有机会脱离既有的框架,迈向语义网的时代。IFLA进行的后继研究把关注点从书目数据进一步扩展到人名规范数据和主题规范数据。

随着FRBR模型在编目界占据了统治地位,人们开始陆续用这个模型来修订编目原则和规则。在编目原则的部分,2009年出版的《国际编目原则声明》取代了《巴黎声明》。而2004年,AACR原则委员会(COP)任命Tom Delsey为AACR3的主编,开始新编目规则的修订工作[10]。随后,为了强调新规则和传统规则之间的断裂,新规则被转而命名为资源的描述和检索(Resource Description & Access),也就是现在所知的RDA。[11]

经过几年的工作,在2010年6月,RDA的正式文本在RDA Toolkit上正式发布,进行公开测试。根据国会图书馆公布的RDA测试时间表③,2010年10月到12月,测试者将正式生产RDA测试数据;2011年1月到4月,美国RDA测试协调委员会(US RDA Test Coordinating Committee)将分析测试结果,并向美国三家国家图书馆提交报告,RDA最后的命运将在明年由这三家国家图书馆来决定。

3.2 FR家族模型及相关问题

RDA当前采用了IFLA制定的FRBR和FRAD两个模型[12]。FRBR对RDA的影响是多方面的。下面我们将讨论RDA对FR家族模型的实践。主题规范数据的功能需求(FRSAD)在2010年上半年刚刚完成,所以在RDA中和概念实体有关的章节还都是空白的。不久之后我们有望见到这三个模型整合后在RDA中的实现。

(1)概念和结构

FRBR对RDA的影响首先表现在,RDA在总体上接受了这两个模型所规定的实体、属性和关系[13]。它把这两个模型规定的用户任务接受成为RDA文档的功能性目的[14]。另外,RDA还根据FRBR规定的用户任务选择了RDA的核心元素[15]。

在结构上,RDA同样采用了FRBR模型的结构。它抛弃了AACR2中著录和标目的结构,RDA的结构根据FRBR所规定的实体、属性和关系分成了10部分,共37章,内容完全根据FRBR的属性和关系排列。另一个明显的变化在于,RDA相比于AACR2更加强调对资源内容(而非载体特征)的揭示,这是当前图书馆编目发展趋势之一[16]。

(2)数据库结构

Tom Delsey在2009年7月绘制了RDA数据库三种可能的结构[17]。

第一种蓝图被描述为“关系或者面向对象的数据库”,它符合FR家族模型的“实体—关系”的数据库模型:每一个实体的数据都是独立的,实体之间相互连接。后两种蓝图,即“书目记录和规范记录相连接的数据库”以及“平面文档数据库”体现了绝大多数图书馆在当前的实践:数据通过记录的形式体现,各个元素的数据混合在记录中。

RDA基于FR家族模型的实体-关系的数据库结构,所以虽然RDA数据也能够映射到后两种数据库结构上,而且这两种结构也都能支持RDA的功能目标,但是它们会阻碍RDA向RDF呈现进行彻底的转化,阻碍图书馆编目从记录到数据的转化,因而只有第一种数据库模型才最适合RDA的实现[18]。但是在现实中,当前绝大多数图书馆使用的都是后两种模型,MARC格式也只支持后两种模型。只有这个差别能够得到解决,我们才能看到RDA完全发挥它的作用。

(3)关系

在传统的编目实践中,实体之间的关系并没有得到很好的表达。在RDA的文本中,关系的表达得到了大大的加强。在RDA导论中,它把关系的表达作为其原则之一:“描述资源的数据应当表明被描述的资源和其他资源之间的重要的关系。”[19]RDA定义了三种关系:第一组实体之间的关系:第二、三组实体和第一组实体之间的关系;以及三组实体内部的关系。

其中第二组实体和第一组实体的关系(责任者和资源的关系)的内容虽然也包含在AACR2中,但是AACR2没有像FRBR一样区分“资源”的不同层次;另外对于“其他责任者”的责任方式来说,AACR2无论在概念上还是实践中都存在不足。RDA另外还有些关系是AACR2中基本不具备的,比如第一组实体内部的关系。这些关系的表达,在数据库结构之上让图书馆数据朝关联数据更进了一步。

在RDA中,每一个FRBR实体都有标识符的属性。相应的,RDA为每一种关系都定义了至少两种实现方式,其中一种是当前实践中通过检索点实现的方式,而另外一种则是通过URI实现连接。使用URI是语义网中通用的实践方法,除了其本身的优点,它在实践中相较于检索点也存在其他的优势,比如连接不会受到资源名称形式改变的影响。但是,LC决定在RDA测试期间不单独使用URI的连接方法;另外一方面,URI的形式虽然也可以在MARC格式下使用,但是它的效果会受到MARC格式的数据库结构的制约。

3.3 RDA词汇表

相较于AACR2,RDA强调其作为“元数据元素集”而非数据呈现指南的功能。作为“元数据元素集”,它的任务包括[20]:

A.指定一组元素、元素子类型和子元素,反映资源的属性

B.定义每一个元素、元素子类型和子元素

C.为每一个元素、元素子类型和子元素决定取值的范围

2007年4月底到5月初,DC元数据的开发机构DCMI和RDA的开发机构JSC召开会议,两家机构同意双方合作制定RDA应用纲要,其中核心的活动就是开发RDA词汇表,以实现上述RDA作为元数据元素集的任务④。这次会议之后成立了DCMI/RDA工作组,在面向人类读者的RDA版本之外,平行开发面向计算机使用者的RDA数据集词汇表以及值词汇表。2008年5月,小组开始使用NSDL Registry服务注册RDA词汇表。截至2010年10月,已经注册了超过70个RDA词汇表⑤。

图3 关系或者面向对象的数据库

图4 书目记录和规范记录相连接的数据库

图5 平面文档数据库

当前的RDA词汇表可以分为三类:“RDA的FRBR实体”、RDA元素集词汇表以及RDA值词汇表。

“RDA的FRBR实体”⑥是RDA元素集的总体框架,它描述了在RDA中所使用的FRBR实体。这些实体相当于RDF模型中的“类别”(class)。但是这个词汇表也对FRBR的规定作出了一些改变,比如第二、三组的实体降级成为“子类别”(subclass),然后借用了来自FRBRoo(面向对象的FRBR)中的“agent”和“subiect”两个实体作为两组实体各自的上位类。

RDA元素集词汇表包括7个词汇表,分别记录在第一个词汇表框架下的FRBR三组实体的属性、关系以及第一组实体和第二组实体之间的关系。词汇表中的每一个元素都是一个RDA中的元素,它们相当于RDF中的属性(property),在RDF中,属性既包括资源的属性,也包括资源之间的关系。属性从属于类别:原则上每一个RDA元素都对应一个,且只能对应一个FRBR实体。但在现实中,一些RDA的数据元素没有对应的FRBR实体,而且这种严格的对应也没办法满足一些特定编目群体的需求(比如音乐作品的编目),因此在词汇表中还定义了一种不对应于任何FRBR实体的通用属性,它们可以被任何社区在任何应用中使用,增加RDA的灵活性。比如“图书格式”(book format)属性,虽然它可以作为载体表现实体下的一个子属性,但是它也可以在其他的语境下和其他的FRBR实体产生关联。

RDA的值词汇表是具体元素取值的规范列表,相当于当前实践中的规范控制。现在已经有超过70个RDA值词汇表。值词汇表基于SKOS,这有利于其他社区来使用并扩展这些词汇表。而面向不同的使用者正是DCMI/RDA工作组最初制定的任务之一[17]。

NSDL的词汇表注册服务提供了两种输出的方式,分别面对人类的使用者和计算机的使用者,在继续为人类读者服务的同时,满足图书馆元数据被计算机操作的需求。在面向人类读者的浏览器界面上,NSDL的词汇表中的每一个资源都有其URI。还有人类可读的名称标识“标签”,以及标识标签语言的“语种”。一些资源还能够显示出资源之间的类型/子类型、属性/子属性和关系。另一方面,这些词汇表也可以通过RDF或者XML的形式输出,被计算机理解、利用,真正成为“机器可读”的文档。

NSDL的词汇表注册服务还提供了版本控制的功能,在词汇表中可以追溯该词汇表的改动历史,这些改变还可以通过RSS推送。这个功能减少了词汇表使用者查找词表变化的负担。同时,NSDL的服务还提供了帮助使用者查找RDA元素和概念(无论在RDA词汇表中或者在其他的词汇表中)、制定本社区使用的应用纲要以及开发词汇表等功能[21]。

3.4 当前需要面对的问题

(1)和MARC格式的关系

AACR2长久以来一直和MARC21一起使用。而RDA明确表示它设计使用多种编码方案[22]。在已公布的RDA文本的附录中包含RDA和MARC21书目格式、规范格式以及DC元数据的映射表(附录D和E),而在未来映射表还会扩充。RDA已不再把MARC视为最重要的元数据方案。

而另一方面,国会图书馆决定在RDA测试期仍然使用MARC 21格式,这表明,MARC 21格式至少在未来一段时间内,仍然是绝大图书馆用于实现RDA(如果它真的能实行的话)的主要格式。

从2008年开始,MARC 21的维护机构MARBI就开始对MARC 21进行了一系列的修订,让它能够和RDA兼容⑦。变化主要是为了让MARC 21能够记录RDA中新的数据元素,比如在MARC 21书目格式中增加了336-338字段用于记录内容类型、媒体类型和载体类型这三个新的元素,它们取代了当前编目规则中的一般资料标识(GMD);MARC 21书目格式和规范格式中还增加了380-384字段记录相关的作品和内容表达的属性,等等[24]。

不过,MARC 21已经成为图书馆编目工作向未来发展的一个重要障碍。正如Delsey的三张数据库结构图所提及的,MARC格式在数据结构上阻碍了RDA想要带来的图书馆编目从记录到数据的转变。一方面是图书馆数据将继续封装在记录中,而且MARC格式的复杂和繁琐也将继续影响图书馆以外的社区使用图书馆数据。通过MARC格式实现的RDA数据很难实现我们期待的互操作的结果。

但是当前RDA数据如何能够转换为记录的格式仍然是不确定的。要想加入关联数据社区,数据必须通过三元组表达[26]。但是因为三元组缺乏边界,而且一个三元组只能表达一个关系,所以它难以被人类读者阅读。图书馆数据如何既保证RDA承诺的灵活性和可扩展性,又同时能够对人类使用者保持友好,这是未来需要解决的一个问题。

(2)OCLC的态度

Diane Hillman在2008年的一篇文章中[27]就表达了担心,OCLC的暧昧态度可能会影响RDA的实施。作为世界范围内影响力最大的联合编目系统,OCLC的态度将会对无论是RDA的成败,还是图书馆未来编目工作的走向,都起到至关重要的作用。而OCLC近年来一直致力于制定更加严格的数据使用政策,而且其服务高额的费用一直广受批评,这些因素都可能会造成没有足够数量的图书馆使用RDA的数据,阻碍RDA达到“临界质量”。

在今年6月份,在RDA文本即将正式公布之时,OCLC公布了《就在美国测试期在World Cat的RDA编目问题的政策声明》(OCLC policy statement on RDA Cataloging in World Cat for the U.S.testing period)[28]。在这份声明中,OCLC承诺会支持愿意推行RDA的成员馆,但是不会要求所有的图书馆都实行新规则。它们会为通用的测试资源创建主数据(master records),各个机构只需要在上面增加机构数据。在这些资源以外,各个图书馆也可以贡献根据RDA规则的原编数据。

OCLC在当前的表态是对RDA的一个重要的支持。如果RDA在明年能够顺利通过测试,为其成员馆开发适合RDA数据的数据库和呈现方式,以及转换遗产数据,将会成为OCLC在未来的重要议题。

4 总结

正如很多人期待的,由于和语义网技术的关联,RDA将会是图书馆编目工作向未来发展的一个里程碑。但是RDA文本本身当前仍然是beta版,数据格式的不确定、缺乏社区接受、OCLC和其他机构是否能够有力地支持推行新规则、以及可能更重要的,明年美国3座国家图书馆是否会批准正式实施RDA,这些不确定的因素都可能会影响到RDA未来的发展,以及图书馆编目工作在未来的发展。对于RDA的未来,以及RDA是否像其设计者所预期的一样带领我们“到达彼岸”,我们拭目以待。

(收稿日期:2010-11-11)

注释:

①参见:http://www.w3.org/2000/Taks/1206-xml2k-tbl/slide10-0.html。

②参见:http://richard.cyganiak.de/2007/10/lod/

③参见:http://www.loc.gov/bibliographic-future/rda/temeline.html

④参见:http://www.bl.uk/bibliographic/meeting.html

⑤全部RDA词汇表,见:http://metadataregistry.org/rdabrowse.htm

⑥参见:http://metadataregistry.org/schema/show/id/14.html

标签:;  ;  ;  ;  ;  ;  

RDA与语义Web_图书馆论文
下载Doc文档

猜你喜欢