RDA与关联数据,本文主要内容关键词为:数据论文,RDA论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2011-09-25
书目数据是图书馆最重要的财富之一,也是图书馆赖以开展一切业务和服务活动的基础。图书馆的书目数据历来以有序、规范、有效地反映馆藏著称,如果将一馆的书目数据看成是其整个馆藏资源的结构化索引,那么所有图书馆目录的联合体就可以看成是人类所有社会知识的缩影。然而网络时代信息与知识高速增长,图书馆作为社会知识主要传播者和集聚地的地位岌岌可危,但职业的终极梦想——收藏和整序人类所有知识——不会轻易放弃,图书馆传统的书目控制方法有必要引入新的理念、方法和技术,进而走出“围城”,不断适应数字化环境,正在成为网络从业者的共同理想,不断得到验证和推崇。
书目数据的有序化,直接取决于图书馆行业长期使用的编目规则。然而迄今为止,还没有哪一套编目规则,能够为全球一致采用,涵盖所有文献资源类型,并支持图书馆与外界信息系统进行内容整合。而且至今,图书馆的信息资源还基本上没有成为一种广为人知的网络存在,能够被方便地查找、标识、选择、获取、验证、参考引用以及进行再创造。近年来“资源描述与检索”(简称RDA,下同)的推出和“关联数据”技术的兴起,第一次为上述目标的实现提供了一种可能[1-2]。
1 从AACR2到RDA:不同的世界观
图书馆编目是对将要纳入馆藏的资源进行描述(也称为“著录”)和处理的过程,其目的是便于读者的利用和图书馆的管理,可以总结为“功能需求”,其结果是书目记录构成的体系,不论是书本的、卡片的、机读的或者网络的。根据“元数据是关于数据的数据”的定义,图书馆的目录系统也就是图书馆馆藏资源的元数据体系。
目录是对于馆藏的模拟,对馆藏结构有什么样的认识,就会有什么样的目录结构。当然,这种认识是不断发展的,其发展过程尤其与计算机技术的进步密切相关,计算机所创造的信息世界本身就是对现实世界的模拟,从面向过程到面向对象,有许多分析方法和建模方法,都丰富和发展了人们对于知识内在结构的认识,使人们能够更好地通过计算机操纵、管理和利用知识。
编目规则从AACR2(英美编目条例第二版)发展到RDA就深刻反映了这种变化。RDA是旨在取代AACR2的新一代编目条例,这种变化不仅仅是简单的编目规则的变化,它其实反映了两种世界观的不同:AACR2把知识世界看成是文献的空间,通过文献(记录有知识的一切载体)来管理和传播知识,文献需要区分种类,需要从各个角度,以各种指标和参数去描述和揭示,才能很好地利用;而RDA把知识世界看成是相互联系的各类实体的空间,这些实体对象有类型,有属性,有关系等,需要利用实体—关系方法进行分析建模。前者的知识空间可以看成是一个硕大的平面结构,而后者是相互联系的一个多维度的网状空间(参见图1和图2)。RDA和AACR2在文本结构上的不同也反映了它们不同的特点。
RDA应用了国际图联(IFLA)提出的“书目记录功能需求”(简称FRBR,下同)概念模型,该模型采用实体—关系分析方法,把图书馆编目对象抽象为三类实体:作品及其各类物化实体(作品—表达—表现—单件)、责任者实体(个人、家族和机构团体)和主题类实体(概念、实物、事件、地点等),从属性描述和关系描述两个方面进行规范,改变了AACR2以具体的资源类型(图书、舆图、手稿、乐谱、音像资料、图像资料、电子资源、三维艺术作品及教具、缩微资料、连续出版物等)分述编目规则的体例(参见表1)。这些类型在FRBR中基本都属于“载体表现”层次。同时,RDA所采用的术语发生了很大变化(参见表2)。所有这些改变有助于将图书馆的资源对象抽象为一个统一的模型,资源类型的不同只是它们实体属性和关系的不同,并无实质性的区别,从而可以在同一个框架中以不同的属性、关系和取值来区别。这样做的结果是改变了传统书目数据平面结构,并且使编目规则完全独立于数据编码和格式(尽管现在还都是以MARC字段来论述RDA)。
2 从语义网到关联数据:一个简化的实现
语义网(Semantic Web)的基础是采用资源描述框架(Resource Description Framework,RDF)对内容进行编码,从而使计算机能够处理语义。RDF本身就是表达元数据的基本结构,即“资源—属性—属性值”三元组形式,是最基本的语义单位,也是语义网的结构要素。这里对于“资源”的定义是“具有统一资源标识符(URI)的任何东西”,也就是说资源必须是一种网络存在,如果是物理资源,它也必须有一个具有URI的网络替身(surrogate)。
语义网是万维网的发明人Tim Burners-Lee于1998年提出的概念,依据是其著名的语义网“堆栈”图,它是指在现有的万维网基础上,通过增加语义描述(RDF编码),使一部分网络资源具有语义表达能力[3]。元数据是一种最基本的语义表达,在此基础上,可进一步利用本体语言(也是基于RDF)来表达领域模型中各类实体、属性、属性值之间的各种逻辑关系(主要是表示为描述逻辑的一阶谓词逻辑),从而支持一定的语义搜索,甚至具有初步的逻辑判断和推理能力。
语义网概念1998年提出至今已经十多年了,可能是因为语义堆栈过于复杂,RDF的抽象概念又很难被大众所认识,其应用基本还局限于学术研究领域的试验性项目开发。对于计算机技术来说不普及往往就意味着遭淘汰,Tim Burners-Lee在2006年提出“关联数据”概念[4],通过规定四个简单的发布原则,使所有的网络用户都可以进行自定义语义信息的发布。
这四个原则是①:①使用URI作为任何事物的标识名称;②使用HTFP URI使任何人都可以访问这些标识名称;③当有人访问某个标识名称时,以标准的形式(如RDF,SPARQL)提供有用的信息;④尽可能提供相关的URI,使人们可以发现更多的事物。
这四个原则只是对数据发布的基本方式——命名和编码(URI+RDF)——作出了规定,这两项内容属于语义网堆栈的基础内容,因而可以认为关联数据是语义网的一个简化实现[5]。下文针对图书馆的编目工作来解释上述四个原则:
原则一:要求编目对象所涉及的一切实体都应该是一个网络存在,并以URI表示这个网络存在的名字,而不是一个简单的文档链接;
原则二:规定了这个网络存在可以通过万维网上最通用的“超文本传输协议”进行获取,不需要任何特殊的、私有的协议(如SRU/SRW之类)或者任何应用程序接口(API),这实际上决定了关联数据的通用性和开放性;
原则三:希望以标准的元数据格式(最好是RDF),尽可能完整地提供书目信息,也就是说元数据越丰富越好;
原则四:非常关键,它希望在对一个资源进行元数据描述时,尽可能复用已有的URI资源,例如某本书的作者,应该以某个权威机构发布的人名规范档中该作者的URI作为属性值,而避免使用作者名的字符串(这里称为“普通文字”,即literal),更不宜采用“空节点”(blank node,即没有全局命名域的本地资源)。
符合上述四个原则的书目数据都是关联数据。从上述四个原则的表述可以看出,只有第一、二个原则是硬性规定,第三、四个原则很灵活,只是一种建议或推荐而已。如对于原则三,很多人并不赞同一定要以RDF形式发布数据,认为也可以有其他形式,如目前谷歌和微软等公司都支持的微数据Microdata也算一种描述语义的标准格式;对于原则四,只有当网上以URI形式发布的数据越来越多时,才能建立起丰富的语义链接[6]。
W3C(世界万维网协会)对数据的关联程度进行了定义,提出了五个“星级”的渐进标准②:
一星:以任何开放协议和格式发布于万维网;
二星:以一种机读格式,例如excel表格格式而不是扫描图片格式,发布于万维网;
三星:以一种开放而非私有的格式,例如CSV而不是excel,发布于万维网;
四星:采用开放格式,并以W3C的开放标准进行标识和描述(即URI+RDF),使人们可以链接;
五星:采用开放格式,并以W3C的开放标准将数据以URI进行标识,以RDF进行描述,并尽可能引用别人以URI+RDF发布的数据,从而为数据提供一种共同的上下文语义。
应该说到了“四星级”就符合“关联数据”的定义了,前面三个等级由于没有采用语义描述规范,不具有表达语义的功能。
3 RDA:为关联数据而生
RDA只是一套编目规则或者说“内容标准”,它还不是形式化的“元数据标准”,但它距真正的元数据标准只有一步之遥。只有将RDA改造成元数据标准,才能将RDA以及用RDA编目的数据方便地发布成关联数据[7]。
早在2007年,都柏林核心元数据组织(DCMI)就注意到了RDA的这种潜质,成立了DCMI/RDA小组。在DCMI看来,FRBR(连同FRAD、FRSAD[8])就是书目领域的本体,而RDA所涉及的一切规定不外乎实体、元素和取值以及各类实体、元素和取值词表(概念)之间的关系描述[9]。RDA可以经过形式化描述(形式化的含义是:用计算机能够识别的代码——如RDF——进行编码),改造成机器可以处理的、书目数据领域的“元数据应用纲要”(Metadata Application Profile)。
详细来说,RDA规定了对各类图书馆资源对象应该如何进行描述:首先要区分实体,然后确定每种实体所需描述的属性,但是它并没有明确地形式化定义这些元素,即赋予这些实体、元素或概念以必需的URI,更没有规定这些元素的编码方式,这就是DCMI/RDA小组首先需要做的;进而定义每一个元素和其他元素构成的语义关系,如层次关系(子元素)、限定关系、可选关系等等;然后对于元素集中的每一个元素的内容(取值)进行规定,RDA只关心从哪里获取,遇到各类不同的情况如何处理,如何记录等等,而DCMI/RDA需要明确这些取值所采用的规范词表(概念词表)。上述实体和元素集可以用RDFS编码,规范词表则可以用SKOS或OWL等关系定义更为丰富的模式[10]。凡此种种,形成了一整套规范的元素和概念词表体系,这就形成了有关RDA本体模型的关联数据,关联数据技术提供了上述元素、概念词表及其相互关系进行表达、描述和管理的最简单而又最适用的工具。
以Diane Hillmann为主的DCMI/RDA小组经过数年的开发,终于完成了RDA涉及的所有实体、元素和概念的关联数据注册发布工作[11-12]。他们将RDA中所涉及的元素、子元素、元素类型等均作为实体,赋予URI并编码成RDF模式,内容和载体类型均用SKOS进行编码。实际上是建立了一个关于RDA的本体。参见开放元数据注册系统(Open Metadata Registry,以下简称OMR)包含76个类表和元素(概念)词表(见表3),其中每个词表都明确定义了一组元素及其相互之间的关系,涉及数百个概念术语,如RDARoles(角色)元素就集中定义了251种著作方式。在2010年7月以前由于一直得到美国国家科学数字图书馆(NSDL)的资金支持,当时叫做NSDL元数据注册系统,目前该注册系统并不满足于管理RDA的词表,计划进一步拓展到其他领域,支持各类元数据元素集和本体的注册,并且在功能上逐步完善,不仅提供SPARQL endpoint发布,还将提供不同本体之间的映射、转换服务等等。
虽然参与DCML/RDA小组的成员与IFLA以及RDA的主持机构JSC都有着长期的合作关系,但OMR并不从属于IFLA或JSC,因此OMR上发布的RDA本体并未得到JSC官方的明确认可,JSC相关各方是否还会“正式”发布RDA的其他命名域尚未可知。
值得说明的是,RDA只是“一种”书目本体,语义网并不排斥一个领域可以有多个本体,例如书目本体BIBO也可以发布成关联数据,并与RDA建立映射[13]。这些发布成关联数据的本体本身(如OMR中的关联数据)并不包含实例数据,可以认为他们是“元—元数据”,即定义元数据仓储内部知识关联和结构的Schema。图书馆领域最常见的实例数据是以MARC格式存在的书目数据,但RDA与书目数据格式无关,利用RDA进行编目的成果可以以任何数据格式(XML、RDF、MARC甚至自定义)存在,而MARC以其40多岁的高龄绝非一种好的格式,可悲的是图书馆员可能只熟悉MARC,于是当前对于RDA的应用测试大都以MARC来检验RDA,给人一种摆脱不了MARC的宿命感觉。另外元数据是基于描述(Statement)的而不是基于记录(Record)的,书目数据最合理的是以RDF描述的形式表达,然后可以根据RDA的Schema中所定义的关联关系拼装成一条条记录,包括可以以各种MARC形式输出。例如图2中例举的莎士比亚《第十二夜》的RDA书目数据,表达成关联数据形式应包含多个RDF数据,如图3所示。
4 结语:数字图书馆——语义技术的盛宴
目前RDA尚未正式实施,还处于试验测试阶段。在此之前,图书馆界已有许多关于关联数据的尝试,如美国国会图书馆的标题表LCSH、瑞典国家图书馆的国家书目以及OCLC的虚拟规范文档VIAF等,关联数据在图书馆领域的应用并不仅限于RDA,图书馆长期以来一直在做知识揭示的工作,因此语义技术无疑给了图书馆员一个渴望已久、功能强大的工具。RDA的实施将极大地促进语义技术在图书馆的应用,使图书馆基于网络的数字资源组织、整合和服务全面进入规范控制时代,享用语义技术的成熟带来的盛宴。
以用户为导向是RDA的宗旨,关联数据的应用能够给两类用户——图书馆员和读者带来前所未有的好处。
对于读者而言:①支持知识提问。能够直接利用SPARQL语言进行知识提问,机器自动解决诸如“30年代在上海大厦下榻过的外国知名人士”这样的查找。②提高查准率。能够提供更准确的查找,许多查找是基于概念而非基于语词的。③提供知识链接。能够提供维基百科等外部知识的链接,或将外部知识库整合进入图书馆的查询系统。④直接获取知识。书目库本身就是一个知识库,通过越来越丰富的语义链接常常能够直接获取包含知识标注的数字资源。⑤提供扩展查询。通过概念的相关关系提供强大的知识导航,实现知识的浏览功能,并支持各种扩展检索。
对于图书馆员来说:①提高编目质量。通过RDA网络编目工具的应用,能够大大提高编目的一致性,随着将来RDA注册系统的语义服务功能的完善,甚至能实现计算机的半自动编目。②实现Web全域的规范控制。规范控制一直是书目控制的难点,RDA的元素和概念术语能够发布于网上,提供唯一的命名域和URI解引(dereference),这对于网络化的书目数据服务具有了更加重要的意义。③实现一定的语义互操作。RDA的语义化和网络化,能够为改善多语种、多资源类型和多应用系统的数据互操作提供基本的支持,为书目控制的世界大同打下基础,同时能够基于语义整合更多的外部资源库。④提供规范有序的知识体系。经过各类规范知识体系(如语义化的各类KOS)的标引,图书馆的资源库可以映射为有序的知识空间。⑤提供可信的知识发布。图书馆作为公益性组织,其发布的信息资源一般被认为具有相当的可信度。
关联数据是互联网发展到语义网时代、提供对任何网上资源和数字对象进行“编目”和“规范控制”的基础技术[14-16],而RDA是传统图书馆书目控制理论与方法向语义网时代过渡的一个里程碑,RDA为适应数字资源和网络环境已经做出了巨大努力,在编目原则、模型的采用、Web化工具的开发和语义技术的应用等方面都进行了大量尝试,但是现在看来,RDA阵营内部对于变革的认识还远没有统一,目前所做的还远远不够。作为一个历来走在信息技术应用前沿的行业,以关联数据为代表的语义技术带来了千载难逢的机遇,如果能利用好这个机遇,图书馆行业将成功实现向数字化、网络化的华丽转身,图书馆行业将延续其知识保存、组织、传播和教育者的职能,继续在网络时代创造新的辉煌。
注释:
①参见:http://www.w3.org/DesignIssues/LinkedData.html
②参见:http://www.w3.org/DesignIssues/LinkedData.html
③参见:http://metadataregistry.org/rdabrowse.htm