基于FRBR的面向对象编目:数字时代编目理论探讨_元数据论文

基于FRBR的面向对象编目:数字时代编目理论探讨_元数据论文

基于FRBR的面向对象编目——数字化时代编目理论探讨,本文主要内容关键词为:编目论文,面向对象论文,理论论文,时代论文,FRBR论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]G250.76

面对数字化、网络化的挑战,国际编目界正积极酝酿着一场改革。而这场改革的主流 路径,基本上可归为两条:①根据描述数字化信息资源的需要,通过增加、修改现有的 规则、条例和MARC字段的方法来增强传统编目工具在数字化、网络化时代的应用能力; ②参与到正如火如荼开展的元数据运动中,与各专业领域的相关团体配合,力图走出一 条变革编目的新路。而后者,也正是当前理论研究与实践探索中最为业内人士关注的热 点。然而,描述工具的改进与创新固然必不可少,但这种仍囿于传统编目思想的改良式 变革显然未触及问题的本质,至少不是问题的全部。真正的问题在于,数字化信息资源 相对于传统信息资源的新特性,决定了我们必须重新审视与思考自20世纪60年代巴黎国 际编目原则会议及哥本哈根国际编目专家会议以来所确立的编目标准与原则。换句话说 ,如果将编目事业比做一座大厦,那么,是到了重新奠基的时刻了。

实际上,计算机与现代通信技术的飞速发展,为编目领域带来的不仅是挑战,更是一 种崭新的思维方式。在这一点上,国际图联(IFLA)迈出了具有开拓性的一步:1998年正 式发布采用计算机领域“实体-关系”模型(E-R模型)的研究报告《书目记录的功能需求 》(Functional Requirements for Bibliographic Records,简称FRBR)。该报告从探 讨编目的对象——实体的属性与关系着手,揭示书目记录的功能需求,为我们提供了编 目工作的新思维,“面向对象(这同样是来自计算机领域的专业术语)编目”的概念应运 而生。

本文拟对“面向对象编目”、编目规则的革命性改造以及面向对象编目元数据格式的 产生作一较为全面的理论梳理与探讨,并由此出发设计了面向对象的《中国文献编目规 则》以及面向对象的核心记录元素集,以为面向对象编目提供一种初步的实践模式。

1 基于FRBR的面向对象编目理论

FRBR的研究目标可简单归为三个:①书目记录能提供什么信息;②根据用户需要我们 期待书目记录做到什么;③在前两者的基础上为国家书目机构推荐一种核心书目记录标 准。因此,FRBR并未从内容或结构上对书目记录本身作出任何既定的假设(也正因此,

FRBR为我们展示了一个巨大的理论探讨与实践探索空间),而是力求提供一个以用户为 中心来分析数据需求的整体性的概念模型。基于此,FRBR采用E-R方法,首先分离实体 ,即用户对书目记录感兴趣的关键对象,然后确定每个实体的属性以及实体之间的关系 。这些实体、属性和关系来自对书目记录中典型数据的逻辑分析。在此基础上,FRBR形 成了一个清晰定义的实体、实体属性以及作用于实体间的关系的概念模型。

源自实体、属性、关系的实体-关系结构被用来评估每个属性和关系与书目记录用户的 任务之间的相关度。每个属性和关系被映射到FRBR定义的四类用户任务,同时参照用户 任务和作为用户关注对象的实体,赋予每个属性和关系以相应的评估值。将实体-关系 结构、属性及关系与用户任务的映射结合在一起,作为研究国家书目机构核心书目记录 标准的基础。

确切地讲,FRBR模型采用的是发展了的E-R方法,而发展之后的方法也把实体称作对象 。早期的方法处理策略是:列出认识到的属性,把属性放到实体(对象)中,添加关系。 改进后的方法处理策略是:发现现实世界中的对象,用属性描述对象,添加关系。两种 处理策略的差别虽然很小,但都反映了指导思想及出发点的不同:前者是从数据出发先 认识属性,然后用对象包裹属性;后者则是从世界出发先认识对象,然后去发现它们的 属性。可见,新策略反映了面向对象的基本思想。同样,这也是传统编目思维与面向对 象编目思维的差别所在和本文使用“面向对象编目”这一概念来命名基于FRBR的新型编 目理念的依据。笔者将基于FRBR的面向对象编目理论梳理、建构为两大部分。

1.1 面向编目对象

根据FRBR,对书目记录的用户而言,有三组重要的实体(即编目对象)。第一组实体包 括在书目记录中被命名或描述的智力产品或艺术作品——著作(work指的是“一种原创 性的智力或艺术创作”)、表现方式(expression指的是“一种著作的智力或艺术内容实 现方式”)、表达形式(manifestation指的是“一种著作的表现方式的具体的物质体现 ”)和文献单元(item指的是“表达形式的一个独立样本”);第二组实体包括对智力或 艺术的内容及载体的制作或传播乃至保管负有责任的实体——个人(person)或团体(

corporate body);第三组实体包括描述智力或艺术内容的主题的附加实体——概念(

concept)、实物(object)、事件(event)和地点(place)。

而所谓面向对象编目,就是要对这些关键对象(尤其是第一组实体)的属性和它们之间 的关系进行揭示。

1.2 面向用户对象

所谓面向用户对象,就是根据用户需求来定义用户任务,从而通过编目对象的属性和 关系与用户任务的映射来确定书目记录数据的用途,并以此为据来确定书目记录所包含 的基本要素。就理论角度而言,有理由相信,经此流程将构建出具备最佳功能的书目记 录与目录。

FRBR经过广泛的论证和研究,确立了如下四大用户任务,可以说,它们涵盖了书目数 据的主要用途:①发现(find)实体:按实体的属性或关系从文档或数据库中检索到一个 或一组实体;②识别(identify)实体:确认找到的实体正是所要查寻的实体,或从两个 或两个以上具有类似特征的实体中区分出所需的实体;③选择(select)实体:根据内容 、物理形式等选取符合用户需求的实体或者舍弃不符合用户需求的实体;④获取(

obtain)实体:通过购买、借阅等途径获得实体,或通过联机方式存取远程计算机上的 一个实体。

可见,与《巴黎原则》相比,FRBR所揭示的书目记录功能的范围明显扩大了,而且更 具有普遍性与一般性。

将编目对象的属性以及关系映射到用户对象的上述四大任务(或者说是书目记录的四大 功能),是使书目记录功能进一步细化,落实到具体的记录结构的关键。在FRBR中,属 性与关系按照实现各项功能的重要性,分别赋予“高”、“中”、“低”三个值。这些 赋值将为我们设计面向对象的元数据编目模式提供重要的理论依据,使元数据方案更加 科学、合理、有效。

2 面向对象的内容元数据设想

2.1 现状与分析

众所周知,世界各国以《巴黎原则》和ISBDs为依据编制的编目条例,均存在以下一对矛盾,即著录以手头文献的物理形式为依据,而标目则以手头文献所反映的著作为依据。例如,全球最著名也最权威的AACR2的第一部分引言即明确声明,“著录的起点是手头文献的物理形式,而非著作早先已经出版的原始形式或先前形式”,而其第二部分引言却又规定,“第二部分的规则适用于各类著作,而非这些著作的物理表达形式” 。AACR2的这一矛盾和痼疾虽然适应了以实体信息资源为主的传统编目,但却不能适应 包括网络信息资源在内的文献编目,因此,不断受到越来越多的学者的抨击和批评。而 现在,基于FRBR的面向对象编目理论,可以说为解决这一矛盾和痼疾提供了理论依据与 契机。

实际上,编目规则的二分局面只是一种表象。剖析隐蕴其中、作为理论支撑的传统编 目思维方式,以探寻编目对象为切入点,才能真正帮助我们找到问题的症结所在。

编目的对象究竟是什么?对于前文提出的这一问题,FRBR为我们展示了四个层次的实体 ,即著作、表现方式、表达形式和文献单元,这四类实体都可以成为编目的对象。传统 的编目条例以“手头文献”即文献单元为依据,并假设所有的文献单元均是相同的,即 根据文献单元可以推知表达形式,因此,长期以来我们以文献的表达形式作为编目对象 。当著作的表达形式不同时,我们便假定编目的对象发生了变化,此即传统的编目条例 以载体划分文献类型,并以此确定编目对象这一做法背后的隐含逻辑。显然,这种对编 目对象的确认方法简单易行,符合传统编目时代文献制作技术的特点,在我们对传统信 息资源编目时是行之有效的。但随着数字化技术的发展,一种载体可以记录的内容日益 丰富,其信息是以文字、图像、声音等各种形式展示的。也就是说,它们摆脱了以往文 献制作技术的限制,拥有了这样一种物质形态,即能够把多种表达形式的知识或艺术创 作的内容融合为某一表现方式。这时,原本以表达形式界定的编目对象就变得模糊不清 。换句话说,传统的编目思维方式在数字化时代开始“失灵”,对于数字信息资源,很 难以载体的不同来推测内容的变化,从而确定编目对象的差别。例如,原先某一表现方 式的音乐作品存在录音带、光盘和唱片三种不同的表达形式,因其物质载体的不同而具 有目录学上的差异。但在数字化之后(如将它们都转换成mp3格式),就其内容而言,物 质载体的差异已显得不重要,而在表现方式层次上,这三种表达形式的作品却完全相同 。这样,对编目对象的确认,就不能继续停留在文献单元与表达形式那样的层次上,而 应提升到表现方式甚至著作的层次上。这至少有两个显而易见的好处:①避免重复劳动 ,降低编目成本,提高编目效率;②这与数字化时代的用户需求是吻合的,因为实际上 人们获取信息首先关注的是内容而非物理形态,而对物理形态的关心则首先是因为关注 内容的存取条件。

鉴于此,在FRBR的启发下,国外已经开始考虑基于表现方式层的编目方法,并以此作 为编目条例的变革方向。例如,美国图书馆协会在讨论AACR2的修订方向时,就曾建议 采用“基于表现方式的记录”(expressions-based records)。而在国内编目界,利用

FRBR提供的概念模型,从面向对象角度对我国编目规则的变革路向进行具体研究还尚未 见诸于文献。

笔者认为,以基于FRBR的“面向对象”理论为导向,对《中国文献编目规则》进行改 造,制订以表现方式乃至著作实体为编目对象的编目条例,是极具理论与实践意义的一 个重大课题。当然,编目规则的这一变革路向,也是极富挑战性的,其困难主要在于: ①千百年来,人们尤其是广大编目员已习惯于以文献单元和表达形式为编目对象;②制 定以表现方式乃至著作实体为编目对象的编目条例,需要相应的国家或国际标准做基础 ;③以表现方式乃至著作实体为编目对象的编目条例如何与以文献单元和表达形式为编 目对象的条例兼容?好在FRBR已经通过令人信服的研究手段为我们清楚地定义了表现方 式和著作这两个编目实体的各自属性,这为我们基于这两个实体层制定编目规则奠定了 良好的理论基础。

另外,笔者还思考了这样一个问题:对于已有的主要基于表达形式和文献单元层次而 产生的编目记录,在何种意义上可以判定某两条乃至多条记录是属于同一表现方式乃至 同一著作的不同表达形式。换句话说,是否能够通过某些关键属性(反映在MARC格式上 ,即是相关的字段、子字段)的匹配结果,从技术上来实现对现有记录的重新聚类与组 合。而接踵而至的另一个问题是,在现有的书目世界里,这样的组合又在多大程度上是 具有实践意义的,从而能够对书目用户利用信息资源提供更大的帮助。这一系列的问题 ,至少需要在一个相当规模的书目数据库内进行广泛的实证研究才能有所获、有所解。 遗憾的是,这项工作所需要的条件与环境,恰恰是笔者目前力所不及的。

2.2 《中国文献编目规则》基本体例与内容设计

概览《中国文献编目规则》,如其前言部分所言:“《中国文献编目规则》包括著录 和标目两大部分。著录部分首列统驭文献著录全局的总则,并按文献类型和著录方法编 排规则”。这显然是以手头文献为著录依据的传统编目规则的典型结构,其与现时编目 实践的矛盾上一小节已详加阐述,此处不再赘述。笔者从基于FRBR的面向对象编目新思 维出发,在兼顾历史形成的传统与习惯的基础上,以面向编目对象的理论为指导,尝试 对《中国文献编目规则》著录部分提出新的体例及内容安排。其基本设想如下:①整个 著录部分规则由“著作篇”、“表现方式篇”、“表达形式篇”、“文献单元篇”四部 分组成;②每一篇的内容由导论(实体的定义与相关说明)及由各著录项目自然形成的各 节组成。限于篇幅,下面仅以“著作篇”为例予以简单说明。

著作篇

1.1节为“导论”,可安排对著作实体的定义及相关说明,并辅之以具体实例,以帮助 编目员基于著作这一新的编目层次进行编目作业。

著作的定义。著作指的是一种原创性的智力或艺术创作。即著作应是一个抽象的实体 ,任何一个物质实体不能被认为是著作,只能通过著作的某种实现即表现方式来认知著 作,而著作本身只存在于其各种表现方式的共同内容中。

著作的判定。下列情形均被简单地认为是产生了著作的新的表现方式,而不被认为是 产生了一部新的著作:将不同版本合并修订或更新为一个最新的版本;一个版本的节本 、增补本、附加的部分或一部音乐作品的伴奏;从一种语言翻译成另一种语言、音乐的 改编和编曲、译制影片的配音或翻译字幕等。

而与上述情形相对应的是,当一部著作经过较大程度的、原创性的智力或艺术改动后 ,其结果应被看作为一部新的著作。因此,释义、重写、为儿童改写的版本、模仿、音 乐主题变奏曲以及一部音乐作品的自由改编,均可被视为一部新的著作。同理可知,一 部著作从一种艺术形式到另一种艺术形式的改编、各类文摘和摘要等,也可被看作为一 部新的著作。

结合FRBR定义的属性,著作篇的1.2节-1.12节可分别安排如下著录项目:著作题名、 著作形式、其他识别特征、预期的结果、预期的受众、著作的背景、表演媒介(音乐著 作)、数字标识(音乐著作)、调名(音乐著作)、坐标(绘图著作)、二分点(绘图著作)等 。其内容应包括对这些元素的定义、说明,属性的定义、取值,子元素的定义、说明等 。

3 面向对象的结构元数据设想

3.1 机读目录格式不适应面向对象编目的分析

机读目录格式与编目条例的关系紧密。根据国际图联UBCIM计划的调查,上世纪90年代 中期,在全球60个采用机读目录格式的国家图书馆中,有近半数采用的是基于USMARC的 格式,另有1/4采用的是基于UNIMARC的格式(含我国的CNMARC格式,下同)。这两种机读 目录格式尽管字段标识符、字段指示符和子字段标识符定义各异,但两者的一个显著共 同点是将格式本身只划分成记录和字段两个层次。

从这两个基本格式的特点来看,机读目录格式并不适应基于FRBR的面向对象编目的作 业。这不仅是因为从FRBR定义的诸实体及其属性出发,需要重新定义机读目录格式的各 个字段,更是因为上述机读目录格式所特有的结构的局限性(需要指出的是,语义定义 和句法结构定义的分离,是近年来设计、开发新型元数据的一个重要趋势,而MARC当初 的设计思想显然不是这样)。而另一方面,如前所述,E-R方法直接列出所有的实体、实 体属性以及实体间的联系,并将实体间的联系以一种抽象的命名来表示。FRBR也是如此 :在著作、表现方式、表达形式和文献单元间均存在一种内在的“亲族”关系(an

implicit“sibling”relationship)。著作、表现方式、表达形式和文献单元间的这种 内在亲族关系,若用前述两层结构的USMARC或UNIMARC格式来反映确实比较困难,尽管 这两种格式均有自己的连接字段(由于在这两种格式中相关文献的有关信息必须都嵌套 在一个字段中反映,因此从该记录的目次区还是无法知道都是些什么信息)。这一根本 性的结构缺陷决定了传统的机读目录格式在面向对象编目时难以有所作为。

3.2 结构元数据应采用XML的分析

为了实现“一条记录多层次编目”及方便地揭示各实体间的关系,面向对象的编目模 式在句法结构上必然要求采用灵活且结构性强的置标语言。这里推荐XML,是因为XML被 人们誉为“语义”标记,其精髓在于允许文档的编写者标出基于信息描述、体现数据之 间逻辑关系的自定义标记,以确保文档具有较强的易读性、清晰的语义和易检索性。任 何由XML标记的信息单元都可以被视为一个基于XML的广义文档。XML规定了XML文档都具 有如下基本结构:任何XML文档都由XML前言(XML prolog)和XML实例(XML instant)两部 分组成,其中XML前言又包含XML声明(XML declaration)和XML文献定义(XML DTD),前 者表明这是一个XML文档,后者定义这个文件所代表的信息单元的内容结构。XML将任何 信息单元的逻辑结构定义为由层级化的内容元素组成的树型结构;元素之下可以有子元 素、下级子元素多层结构。作为“树”的节点是元素或子元素,具有若干属性,这些属 性有名称,可以按一定方式取值。XML的这种树形结构与用于描述编目对象属性的元数 据的结构正相适应。

另外,在依严格方案定义了元数据及元素间的关系之后,推荐其使用XML形式发表,即 使用XML Schema对元素进行清晰定义。XML Schema是取代早先的XML DTD来对XML文档进 行内容描述和约束的。其第一部分“结构”规定了XML Schema的定义语言,提供了规定 XML文档结构和内容约束的机制,在XML 1.0DTD的基础上更进了一步。这个规范和XML

Schema的第二部分“数据类型”共同对XML文档进行定义。一个XML Schema包含类型定 义和元素声明等元素,用来衡量格式良好的元素信息的有效性,进一步还可以规定这些 元素项目和子节点,如属性和元素的默认值、元素类型和属性表等。XML Schema不仅包 括了DTD所能实现的所有功能,而且它本身就是规范的XML文档。基于这个根本性的变化 ,XML Schema具有了一系列新特色,大大弥补了DTD的不足。它的优点具体体现在:① 支持丰富的数据类型;②可以由用户自定义数据类型,称为Archetype(原型);③支持

Namespace机制。

可以说,实现XML化是元数据标准演变的普遍趋势,在开发面向对象的元数据方案时也 不例外。

4 面向对象的元数据方案制定实例

由前文所述,由于传统的机读目录格式不能胜任面向对象的编目作业,因此,在建立 起面向对象的内容元数据(即面向对象的《中国文献编目规则》)之后,按照FRBR定义的 各基本实体的属性、面向编目对象和用户对象,在新型《中国文献编目规则》的指导下 ,从著作、表现方式、表达形式、文献单元四个层次定义具体的元素、属性、子元素以 及子元素属性等,并使用XML Schema进行描述以制定出具体的元数据方案供编目使用, 是将面向对象的编目理论付诸实践的一种极具价值的方式。

在设计元数据方案之前,笔者慎重思考了两个基本问题。首先,是自行设计新的元数 据格式还是选用一个已有的元数据格式。笔者认为,尽管FRBR已经定义出了各实体的属 性,为我们制定新的元数据方案奠定了基础,但这并不意味着我们在设计面向对象的元 数据格式时,就必须置国内外多年积累的元数据设计、应用经验及成果于不顾,完全另 起炉灶。毕竟元数据格式的设计与维护是相当复杂的,其应用又面临国际化环境和互操 作的需要。在具体的编目作业层面,改革不可能是与传统的彻底决裂,因此,在面向对 象理论的指导下,对于元数据中的具体元素完全可以采用“拿来主义”的态度,大胆吸 收一切已有元数据格式中的合理成分,同时有所创新乃至有所突破。这具体体现在元素 、属性、子元素及子元素属性等的名称选取、内容定义、取值范围等方面。

其次,是选取元素的数量。新设计的《中国文献编目规则》中四个基本实体的著录项 目是比较多的,笔者拟从中精选部分关键性的基本著录项目,形成本文中元数据方案的 元素集。这样做,一方面,是考虑到本文的实际篇幅;另一方面,也是尝试使国内编目 作业走向“简化编目”模式。而前述“1.2面向用户对象”小节中阐述的实体属性与关 系对用户四大任务的相关度是笔者元素取舍的主要标准,并将由此产生的元素集命名为 核心记录元素集。期望其能在满足用户最基本的应用需求的前提下,既能有效地降低编 目成本,提高编目效率,又能为国家级乃至国际级的共享编目计划提供一个核心级记录 的实验性标准。

如上所述,本文核心记录元素集的定义是以面向对象的《中国文献编目规则》为基本 依据,从著作、表现方式、表达形式、文献单元四个层次来定义元素的。在这四个层次 的具体元素设置上,笔者还引入了FRBR中定义的第二、第三组实体,即个人、团体以及 主题等。它们被定义为“创建者”、“主题”等元素,根据对各层次实体描述的不同需 要出现在相应的层次,以描述责任关系及主题内容等。本方案同时还参考和借鉴了

DC-Lib应用纲要,其理由前文已有详细交代,此处不再赘述。本元素集的基本内容结构 如表1所示:

表1 元数据元素定义项目

核心记录元素集

实体层次 著作 表现方式

表达形式 文献单元

元素题名 题名

题名 馆藏位置

创建者

创建者 其他责任者

日期 语种

出版者

主题 类型

说明

日期

格式

读者对象

标识符

版权声明

按照前述关于面向对象的核心记录元素集中元素选取的思考,笔者确定了表1中这四个 实体层次的18个元素,相信能够基本满足用户对书目记录的功能需求。

所有元数据元素的定义,应采用ISO 11179(GB18391)标准《数据元的规范与标准化》 ,并根据需要选取其中的元素定义项目,限于篇幅,此处不再讨论。

这里需要指出的是,虽然核心记录元素集将为全国乃至全球性的合作编目计划打下基 础,但由于它是一个开放的系统,因此编目机构在具体应用中可根据需要进行适当的扩 展。例如,根据特殊的资源和资源集合来定义一些新的本地元素。这些元素既可以是根 据需要新定义的,也可以是以复用(Metadata reuse)的形式从其他元数据方案的元素中 引入的。但这种扩展应该在遵循面向对象编目理论的基础上按照相应原则慎重进行。

综上所述,在面向对象编目理论的指导下,以面向对象的《中国文献编目规则》为具 体规范,应用面向对象的核心记录元素集及其扩展应用集,将使在数字化网络化时代进 行基于表现方式层乃至著作层的编目作业成为可能。

标签:;  ;  ;  ;  ;  ;  

基于FRBR的面向对象编目:数字时代编目理论探讨_元数据论文
下载Doc文档

猜你喜欢