RDA:从内容标准到元数据标准,本文主要内容关键词为:标准论文,内容论文,数据论文,RDA论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
《资源描述与检索》(Resource Description and Access,简称RDA)在2004年开始编制时,是作为《英美编目条例》(AACR2)的替代品或升级版,也就是新版编目规则或称元数据的内容标准。自2007年起,与RDA编制同步进行的还有另一项工作,即RDA的元数据注册。此项工作的主要目的是让RDA同时也作为元数据的结构标准,即通常所称的元数据标准,承担“作为图书馆数据未来跨越现行基于MARC系统时的桥梁”[1]。2014年1月,RDA注册元素集得到RDA开发联合指导委员会(JSC)批准发布,标志着RDA正式成为一种元数据标准。在2014年6月JSC最新修订的政策声明中,明确RDA注册为RDA内容之一[2]。 1 背景 在RDA历时五六年的编制过程中,介乎于激进与保守之间的各种观点相互碰撞。导致RDA走向元数据标准的是对图书馆适应环境变化的考虑。当前图书馆编目及目录所处的环境,与编制AACR2的1970年代已经完全不同。随着越来越多不同来源的书目信息进入用户的使用环境,甚至进入图书馆的书目系统,对图书馆编目或目录的要求已然发生改变。就图书馆界内部而言,以前追求的是书目信息的标准化或质量控制,现在则更多考虑编目效率与成本控制;就外部而言,以前图书馆是书目信息的主要提供者,现在网络书店、搜索引擎等新兴书目信息提供者正在逐渐加入甚至取代图书馆的位置。进入21世纪后,《加州大学书目服务再思考》《印第安那大学书目未来白皮书》和《改变目录性质、与其他发现工具集成》等先后发布,美国图书馆界的这些报告正是对这一环境变化的思考。图书馆只有提供更多内容上独特、格式上能够互操作的数据,才能在互联网时代保持图书馆的存在。用“书目控制未来工作组”最终报告的说法,“单一环境如图书馆目录中描述的一致性,与各种环境间进行连接的能力相比,正变得不那么重要”[3]10。这就是RDA由内容标准走向元数据标准的大背景。 在微观层面,两件事和一个会议直接促成RDA的元数据注册。第一件事是美国国会图书馆(LC)于2006年12月成立“书目控制未来”工作组,成员来自LC以外的图书馆学界、专业协会、OCLC以及Google、微软等互联网公司,希望为未来书目信息工作指明方向。工作组在美国召开数次会议,了解包括用户在内的各方看法,最终报告于2008年1月正式发布。报告反映了LC管理方早先对RDA的不满,提出“暂停RDA工作……LC/JSC/DCMI联合探索建模和提出‘书目描述词表’”[3]29。当然,在工作组成立到报告发布的一年间,报告中建议的“书目描述词表”即RDA的注册工作已经启动。第二件事是D-LIb Magazine在2007年1/2月号发表《RDA:20世纪编目规则》,在历数各方对RDA编制的不满之声后,提出重要观点:“重新整理编目规则不是图书馆的正确起点”,“更好的……是设立一个新目标,实现顶层一致:模型、基本原则与一般规则,而将细节留给专业社区。”[4]换言之,现在需要的不是一个详尽的内容标准,而是一个元数据标准——也就是可以取代MARC格式的标准。 暂停已历数年的RDA编制,显然不是JSC所能接受的。作为元数据领域最新标准的制订者,面对危机,必须提出解决之道。JSC的应对之策是在完成RDA编制的同时,如后来书目控制未来工作组最终报告建议的那样,与DCMI联合探索建立模型、提出“书目描述词表”(元数据标准)。正是在此背景下,JSC与都柏林核心元数据行动(DCMI)于2007年4月底5月初在不列颠图书馆举行了数据模型会议(后称“伦敦会议”),会议建议:开发RDA元素词汇,基于FRBR和FRAD开发RDA DC应用纲要,采用RDF/RDFS/SKOS公开RDA取值词表[5]。会后JSC和DCMI联合成立工作组DCMI/RDA Task Group(以下简称“工作组”),由RDA方的Gordon Dunsire和DCMI方的Diane Hillmann担任共同主席,Karen Coyle和Jon Phipps为小组成员,开始RDA的元数据注册工作。 2 内容 根据伦敦会议的建议,RDA注册包括两类:一是元素集(element set),二是取值词表(vocabulary)。工作组在2008~2009年间与RDA编制同步,在开放元数据注册(Open Metadata Registry,简称OMR)网站完成了RDA注册,包括元素集8个、取值词表约70个。本文主要针对作为元数据标准的元素集。 作为意在取代MARC的元数据标准,RDA注册为语义网和关联数据应用而设计,RDA元素集采用资源描述框架《RDF)注册。注册项目包括标签、名称、URI、描述、评论、类型(类或属性)、父类型(上位类或上位属性)、领域(即应用范围)、范围(即取值范围)、状态(批准情况:新提出或发布)、语种和附注等。 2.1 类和属性 RDA本身的基础是《书目记录功能需求》(FRBR)及《规范数据功能需求》(FRAD),整个框架基于FRBR/FRAD的三组实体以及实体的特性(attributes)和关系(relationships)。由于FRBR的实体-关系模型为“契合语义网的关键部分”[1],这为RDA以RDF形式注册打下了很好的基础。 RDA注册元素集采用RDF类(class)和属性(property),8个元素集可归为4类,分别是[6]: (1)RDA用FRBR实体,沿用FRBR所有实体并有所扩充,增加FRAD的“家族”,以及《面向对象的FRBR》(FRBRoo)中的“代理”(agent)等。实体均定义为“类”或“子类”,如第2组的个人、家族、团体为“代理”的子类。类与子类可作为RDF三元组中的主词或宾词。 (2)RDA元素,针对FRBR的三组实体,即RDA第1组元素、RDA第2组元素和RDA第3组元素。元素来自RDA正文的实体“特性”,如正题名(Title proper)、责任说明(Statement of responsibility)等。元素被定义为RDF“属性”或“子属性”,可作为RDF三元组中的谓词。 (3)RDA关系,针对FRBR的三组实体,即RDA作品、内容表达、载体表现、单件关系(第1组实体关系),RDA个人、家族、团体关系(第2组实体关系),RDA概念、事件、实物、地点关系(第3组实体关系)。关系用语来自RDA的附录J、K、L关系指示词,通常是双向的。以“改编”关系为例,如作品A被改编为B,则作品B为A的改编本,在RDA注册中,分别用标签“Adapted as(Work)”和“Adaptation of(Work)”表示。关系被定义为RDF“属性”或“子属性”,可作为RDF三元组中的谓词。此时主词和宾词属同一组实体,如作品A——Adapted as(Work)——作品B。 (4)RDA职能,指附加给名称(代理)的特性,针对资源与代理关系,即第1组实体与第2组实体间关系。职能用语来自RDA附录I关系指示词,为资源到代理的单向关系,如创作者(Creator)。职能被定义为RDF“属性”或“子属性”,可作为RDF三元组中的谓词。此时主词为资源,宾词为代理或其子类,如作品A由个人B创作:作品A——creator——个人B。 2.2 类和子类 FRBR第2组实体“个人”“家族”与“团体”在编目中属于“名称规范”范畴,在职能方面具有共性,比如都可能是作品的创作者、内容表达的贡献者等。因此,工作组决定增加“代理”类,第2组的三个实体作为“代理”的子类,以便在“代理”层次建立关系,而不必对每个实体重复相同的关系,如不必分别建立“创作者(个人)”“创作者(家族)”和“创作者(团体)”等。同样,对若干出现在每个第2组实体关系中的属性,如“附注”“咨询源”和“识别状态”,基于效率的相似理由,也采用代理类[1]。 与第2组实体中的“代理”类似,工作组针对第3组增加了“主题”类,原来的4个实体“概念”“事件”“实物”“地点”作为其子类。 2.3 集合项 在RIDA中,FRBR第1组实体中的一些元素被设置为集合项,即作为一组一起使用,包括8个:出版项、发行项、制造项、生产项、抓取地点和时间、学位论文信息、版本项、丛编项。体现在RDA元素分析表中[7-8],非集合项元素的类别为“元素”(如责任项),如其下有元素,则类别为“元素子类型”(如与正题名有关的责任说明);集合项的类别也是“元素”(如版本项),其下元素的类别则为“子元素”(如版本标识)。这是卡片目录中先组思想的遗存。 RDA注册把集合项作为语法编码方案(RDA Syntax Encoding Scheme),定义为RDF数据类型的“子类”;集合项的下属元素定义为集合项的“子类”,而非如其他元素那样定义为“属性”。除前述8项外,还有一个类似的“地图图像表示”,单独定义为“类”[9]。 2.4 通用属性(general properties) RDA完全建立在FRBR基础上,因而其所有元素与关系(职能)均系于相应的FRBR实体,如“责任说明”元素为“载体表现”的特性,“创作者”指与“作品”的关系。在RDA注册中,部分属性/子属性在标签中标明对应的FRBR实体,如“改编为”既有“Adapted as(Work)”,也有“Adapted as(Expression)”;部分属性/子属性标签则没有标明所属的FRBR实体,如前述“Statement of responsibility”(责任说明)和“Creator”(创作者)。 为使RDA注册能有更广泛的应用前景,不限定在图书馆界使用,工作组设计了与语义网完全兼容的“通用属性”,即标签不带FRBR实体的属性。为此,针对标签中指定FRBR实体的属性,RDA注册另行创建了不指定FRBR实体的通用属性,与FRBR绑定的属性为其子属性。如“改编为”,除“Adapted as(Work)”和“Adapted as(Expression)”外,另创建不指定实体的“Adapted as”。 2.5 RDA注册的作用 以RDF注册的RDA元素集,可以“在图书馆界中使用,也可作为图书馆数据未来跨越现行基于MARC的系统时的桥梁”[1]。作为元数据标准,RDA元素集可作为各种书目应用的元数据方案,更适用于关联数据相关应用,使书目数据从以“记录”为单位,细化到以“三元组”为单位。 图1是采用RDA元素集、以三元组表达Gordon Dunsire作品《RDA与语义网》的RDF图(部分),其中每一条三元组都可以通过相同URI的主词或谓词,与本地系统或互联网上的其他三元组关联。 图1 RDF三元组图[10] 3 变身与定型 工作组注册完成的RDA元素集一直未得到JSC批准。直到2012年11月,JSC才在年度会议上进行了一系列与RDA注册有关的讨论,作出了一些决定[11]。之后,依本次会议及后续的决定,Gordon Dunsire等开始对RDA注册元素集进行修订。2014年1月,在做出较大改变后,RDA注册元素集发布,正式成为JSC官方认可的元数据标准,命名空间也由rdvocab.info改为rdaregistry.info。不过,对非限定元素,没有如2012年决定那样独立注册,采用不同的命名空间,只是作为一个单独的元素集。 官方的RDA元素集[12](以下简称“官方版”)对工作组元素集(以下简称“旧版”)的修订主要体现在五个方面:一是调整元素集:二是职能由单向改为双向;三是取消集合项:四是修改元素标签和URI格式;五是取消所有FRBR第3组的类与属性。由于FRBR第3组实体的内容在RDA中并未完成(或者说只是占位、并未打算完成),故而取消第3组内容是完全可以理解的。以下讨论其余四方面。 3.1 元素集调整 元素集的变化示意见图2。官方版有7个元素集,也可归为4类,分别是: (1)RDA类,对应旧版的“RDA用FRBR实体”,不含第3组实体所对应的类。 (2)第1组属性:RDA作品属性、RDA内容表达属性、RDA载体表现属性、RDA单件属性。包含旧版的第1组元素、第1组关系和职能,但按所属FRBR实体,分为4个元素集。 (3)第2组属性:RDA代理属性。包含旧版的第2组元素、第2组关系,以及由旧版“职能”新增的代理到资源对应关系(详见“3.2职能扩展”),作为1个元素集。 (4)RDA非约束属性(unconstrained properties),即旧版的“通用属性”,不限定用于特定的“RDA类”。官方版将旧版中分散在各元素集中的通用属性集中在一个元素集中,对旧版中没有区分通用属性和非通用属性的(如Creator),则增加相应的非约束属性。 非约束属性元素集目前有约700个属性,可以保证相当的细粒度,满足复杂描述的需要。在通常的书目数据之外,也可用于其他数字图书馆、包括文化遗产项目的元数据描述。 图2 JSC官方元素集与DCMI/RDA工作组注册元素集对照 3.2 职能扩展 旧版的“职能”为资源到代理的单向关系(资源——role——代理),官方版改为资源与代理间的双向关系,即“资源——has role——代理”和“代理——is role of——资源”,即将职能在形式上等同于其他(同一组实体间的)关系。如旧版的“创作者”(Creator),官方版分别有作品属性“has creator”和代理属性“is creator of”。 3.3 取消集合项 官方版不再存在集合项,原集合项下属的元素与其他元素一样,定义为“属性”。 3.4 标签和URI格式改变 旧版标签基本沿用RDA中的元素名称和RDA附录中的关系说明语,官方版标签改用本体中通用的has/is格式表达,成为动词性短语。如3.2所举“创作者”的例子;再如“改编”,由“Adapted as”和“Adaptation of”分别改用“is adapted as”和“is adaptation of”。更改后含意更明确,以三元组方式使用时可读性更好。 URI强化语言中立性,由英语名称改为不含实意的字母数字串,这更多地考虑到了元素集的多语言应用。如“创作者”,旧版LJRI为“.../roles/creator”,相应的官方版“has creator”的URI为“.../Elements/u/P60447”。 另外,在格式上,除RDF外,为适应不同关联数据应用,官方版提供更多下载格式,比如HTML、Turtle、Notation 3、N-Triples、RDFa、Microdata、JSON-LD和RDF/JSON。 3.5 旧版转向到官方版 必须指出的是,虽然两个版本在形式上有许多变化,但对于已注册的单个元素而言,并没有实质性的变化。因而JSC承诺旧版元素集中元素会转向到官方版[13]。虽然旧版元素集并未得到JSC官方承认,但仍有小部分元素已应用于近年发布的书目与规范关联数据项目。因而这种转向是完全有必要的,也有助于各方保持对采用RDA注册元数据的信心。 4 形势与前景 RDA注册于2009年,与RDA编制同步,完成了元素集与词表的注册,等待JSC批准。按期望的时间表,应该与RDA同时发布[1]。然而,RDA注册元素集长期处于“新提出”状态(New-Proposed),未得到JSC批准,一直未升级至“发布”状态(published)。原因有二:一方面,由于RDA在开发过程中受到太多质疑,在RDA发布后,“主要矛盾”是能否得到图书馆界广泛采用,因此,JSC主要精力放在如何让图书馆顺利实施由AACR2到RDA的转换上[10]24;另一方面,JSC对RDA注册有不同看法,仅分别在2011年和2012年批准了合计约1/3的取值词表,元素集直到2014年经过结构上的修改,才最终得以发布。 RDA元数据注册从完成到正式发布的四五年间,正是图书馆书目数据领域发生重要变化的时期。自2008年瑞典国家图书馆以关联数据发布瑞典联合目录Libris开始,开启了图书馆发布关联数据的高速期。尚没有官方身份的旧版RDA注册元素集中,只有第2组实体得到了德国国家图书馆规范项目[14]、日本国会图书馆规范项目[15]及丹麦国家书目项目[16]的部分采用。与之比较,在RDA之后注册发布的ISBD元素集,却在西班牙国家图书馆书目项目上得到了全面采用[17]。对RDA元数据注册来说,由于迟迟未能发布,多少有点错过了黄金发展期。RDA注册主要承担者Diane Hillmann认为,“随着时间流逝,很多曾经等候RDA词表完成的人得出结论,词表可能永远不会完成了,开始到别处找元数据元素集”[18]。 在此期间更重要的事件是2011年LC开始“书目框架转换行动”(Bibliographic Framework Initiative)。这个以取代MARC为目标的活动虽然提到“有必要取代MARC 21,以从新兴的内容标准中充分受益”[19],但并没有直接采用RDA注册元素。从2012年11月开始,“转换行动”发布BIBFRAME草案,与RDA及其注册元素完全独立。正如当年开发MARC一样,LC近年来在BIBFRAME上一直在做扎实的工作,除陆续发布词表、规范、关系等外,还提供由MARC格式的转换工具,与其他机构合作开展测试等。当年书目控制未来小组最终报告建议由LC/JSC/DCMI联合探索建模和提出“书目描述词表”,但RDA注册并没有LC参与其中,或许这对RDA注册来说也是某种先天不足。 实际上,除BIBFRAME,作为图书馆界的元数据标准,RDA元素集还面临其他竞争者,主要有:(1)国际图联(IFLA)已经在开放元数据注册网站上完成发布的FRBR模型(FRBRer model)、FRAD模型(FRAD model)、FRSAD模型(FRSAD model)和ISBD元素(ISBD elements)。(2)OCLC正在推动的Schema书目扩展(Schema Bib Extend,简称SchemaBibEx),即在流行搜索引擎支持的Schema.org网页标记规范基础上,扩展图书馆相关元素,其联合目录WorldCat的关联数据即采用Schema.org及扩展发布。 当然,当今世界的元数据标准已经不是非此即彼的时代。复用来自不同元数据标准的元素,集成而为应用纲要(Application Profile)是一种通行做法,近年图书馆界的关联数据项目也多采用此种方式。2013年底接任JSC主席的Gordon Dunsire,同时也是IFLA的FR系列及ISBD元素集的注册者,对RDA元素集所面临的严峻形势有着清醒的认识,他指出:“RDA必须与其他物种协作或竞争以生存或继续生存。”[10]42 收稿日期 2014-06-14 引用本文格式 胡小菁.RDA:从内容标准到元数据标准[J].图书馆论坛,2014(7):1-7.RDA:从内容标准到元数据标准_元数据论文
RDA:从内容标准到元数据标准_元数据论文
下载Doc文档