大型文献数字化项目的元数据标准的调查与构建,本文主要内容关键词为:文献论文,标准论文,项目论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
2011年,文化部与财政部共同推出“数字图书馆推广工程”[1]。在其建设过程中,数字化加工是主要方式之一,通常由大型文献数字化项目组织实施;而信息描述标准的规范与统一,则是整合各方自建数字资源的基本保障,也是建设统一工作服务平台的前提。
大型文献数字化项目(简称项目)信息资源描述的对象是数字资源中不能分割的项目。相较于传统的数字资源描述,此类数字对象需要描述与数字化加工的相关细节,还要与其原始文献关联等。因此,构建针对数字化项目的元数据标准对于区别不同类型数字对象,实现数字资源的互操作与深度聚合具有重要意义。
1 大型文献数字化项目数字对象描述的现状
1.1 调查对象
为了掌握知名大型文献数字化项目中数字对象描述方式与标准规范,为本研究建立的数字对象描述标准提供实践支撑,结合参建主体的国别、性质与类型,笔者选择了CADAL、数字图书馆推广工程、Google Book Search、欧洲数字图书馆、Open Library、HaithTrust、CDL和“美国记忆”共8个知名的大型文献数字化项目作为调查对象。
1.2 调查内容与方法
通过实地调研、深度访谈和登录各大型文献数字化项目的网站及查阅与其相关的文献,调查围绕两个方面展开:一是调查知名大型文献数字化的项目所采用的数字对象描述方式;二是调查知名大型文献数字化项目所采用的数字对象描述标准以及所描述的核心元素。
1.3 调查结果
1.3.1 数字对象描述的方式
现有的数字对象描述的方式分为3种类型:一是传统的数字对象描述方式,如MARC和DC;二是基于实体关系模型的数字对象描述方式,如FRBR、RDA;三是基于语义检索的数字对象描述方式,如RDF。
调查表明:上述知名项目全部采用了基于DC的元数据著录方式,且均结合各项目建设需求重新设计和构建了元数据标准。上述现象出现的原因,首先是由于DC作为一种成熟规范的数字对象描述方式,相较于MARC,更适用于数字对象的著录,并可与MARC数据映射与互操作,进而保证了原始文献描述成果的复用,对于具有显著继承性的数字化项目来说,将大大降低数字对象描述的工作负担。其次,FRBR、RDA等描述方式未得到广泛应用的主要原因是该方式尚处在逐步发展成熟的过程中,FRBR对于主题实体的描述以及各实体之间关系的揭示还处在研制过程中,而RDA于2013年3月底在美国国会图书馆首次使用。而且,采用此种描述方式需要重新揭示关系,也增加了工作量。最后,RDF通过三元组的方式对数字对象的内容特征进行描述,不同的内容特征经由语义关系表述从而达到语义检索的目的。该方式需要配置URI并解析和确定关系,专业程度高,与目前项目数字化项目外包加工方式冲突,应用受限。
1.3.2 大型文献数字化项目数字对象描述的内容
通过调查了解并对比各项目的元数据标准所包含的核心元素,从中选择通用的描述元素用于本研究的元数据标准构建;并辨析其间存在的差异,结合项目特点,对元数据标准进行补充和完善,调查结果见表1。
从下表提供的元数据描述元素对比来看,大型文献数字化项目数字对象通常采用的描述元素有题名、责任者、出版项、日期、语言、主题等传统描述元素,以数字对象的外部特征居多,同时也都来源于DC元数据的核心元素。另外由于各个数字化项目的资源来源、参建主体的不同,其描述元素也存在一定的差异,主要体现以下特征:
(1)参建机构的多样性。由于大型文献数字化项目通常是由多个机构联合开展的,因此大型文献数字化项目在建立数字对象描述元数据标准时,就应该尽量兼容来自各个参建机构的标准。
(2)加强对数字对象内容特征的揭示。只有加强对数字对象内容特征的解释才能满足用户检索的需求。调查发现,有的项目已经着手描述数字对象的内容特征,如Open Library设置的“分类号”、“主题”、“描述”、“目录”、“注释”等元素。而且对于具体的元素,有的项目还进行了细分,如CDL将“主题”元素细分为“名称主题”、“题名主题”、“地点主题”和“功能主题”。
(3)加强对数字对象关系的揭示。加强数字对象之间的关联,是提高信息检索效率,实现语义检索的基础。
通过调研发现,内容特征和关系的揭示方面,虽有关注但仍缺乏体现数字化项目特征的元素,如数字化加工、版权使用等。所以,本文所构建的大型文献数字项目的数字对象描述标准,强调对内容特征的揭示;同时还要体现大型文献数字化项目参与机构多、文献类型复杂等特点;还加强揭示数字对象特征之间的关系,尤其是原始文献与数字资源的继承关系。
2 大型文献数字化项目的数字对象描述体系的构建
大型文献数字化项目的数字对象元数据体系的创建是一个系统性工程。在构建该元数据体系之前,首先应掌握其创建的原则与流程,其次应结合项目建设的需求与特点,从描述型元数据、管理型元数据、结构型元数据3个方面确定元数据标准的核心要素;最后应对大型文献数字化项目的数字对象元数据著录规则进行详细说明。
2.1 数字对象元数据体系的创建原则
数字对象元数据体系创建前,应掌握现有数据标准,包括数据结构标准、数据取值标准、数据内容标准、数据格式标准等(如表2所示),这是大型文献数字化项目数字对象元数据体系构建的基础;另外,还应该掌握各个具体领域所应用的专业性元数据标准,便于构建过程中区分和识别;在掌握已有数据标准的前提下,通过与上述标准的映射,保证所构建元数据标准的互操作性。
在构建数字对象元数据体系的过程中,还需要考虑数字资源建设的目的,数字资源的目标用户及其典型特征、信息需求和信息行为;是否存在需分别著录的各个版本,原始文献的元数据标准,数字资源的学科类型及其常用的元数据标准,不同类型对象的元数据标准等。
总体来讲,数字对象元数据标准的创建需要遵循以下原则:
(1)与社会通用标准相吻合。首先应该根据数字资源内容和项目建设目标选择合适的元数据、受控词汇,这些内容应反映数字资源的性质及用户的使用需求,体现未来数字资源发展的趋势。同时还要考虑元数据的描述层次性以及类似机构实践案例,以便于互操作的开展。其次,掌握已有元数据标准的特性,判断其可用性,如EAD适合未经改动的同源的数字资源,而不适合多种来源的异构的数字资源。实践中可以综合使用,如MARC和EAD可用于馆藏层面,MODS或CDWA Lite或VRA Core用于具体每本图书,而METS用于元数据封装。此外,项目还应该建立一个应用文档,记录多种元数据框架的详细内容及选择原因,当元数据标准确定后,该文档应记录具体的配置文件,使用过程及注意事项。
(2)支持互操作。为了保证大型文献数字化项目的元数据标准具有在更大范围的适用性,数据提供方和服务提供方必须通过无障碍且有意义的元数据共享。数据提供方应该建立具有连贯性、数据内容标准化的元数据,使用合适的受控词汇和数据内容标准。而服务提供方也应该尽量采用标准的元数据,并保证及时更新,并利用辅助词汇、主题聚类、术语映射等方法实现增值服务。此外双方还需要进行元数据互操作层面的协作,从机制层面支持元数据共享、元数据注册、映射、支持OAI协议、跨系统检索和元搜索等协议。
(3)使用权威控制和内容标准。元数据使用权威控制和内容标准。为了保证终端用户的有效检索,在元数据标准建立的过程中最好采用具有本地特色的专指的权威控制文档和通用的权威控制文档相结合的方式。但是使用组合方式时必须构建详细的应用文档说明。
(4)必须包含声明。声明主要是对权利的交代,如描述版权、资源使用权限、关于权利元数据相关法律问题等,在元数据内容中体现为管理型元数据。
(5)适用于保存、维护和管理。元数据标准建立还应该便于信息资源的保存、维护和管理,这需要利用管理型元数据和结构型元数据等。其中,管理型元数据应该包括资源的创建方式和创建时间,资源保存和检索的管理方和具体实施方,以及资源提供利用时的相关限制。结构型元数据则用于复合数字对象的封装中,资源的逻辑内容结构。
(6)保证来源可信性、真实性和标识唯一性。元数据标准中具体来源信息、存储信息等都应该包含机构标识符,而且在创建过程中应该评估其完整性和质量,另外还需向用户提供充足信息,方便其对元数据的可信性进行检验。
2.2 大型文献数字化项目的数字对象元数据框架设计
大型文献数字化项目数字对象元数据框架的设计过程中,主要应考虑的因素有数字对象本身的特性、用户的信息检索需求、数字对象的知识组织体系、项目管理和维护要求、互操作要求、建设与维护的成本、软件技术因素和项目的可持续发展等。
2.2.1 设计方法
合作、开放、共享和互操作已经成为大型文献数字化项目的发展主流,在选择和制定过程中,要遵循标准、开放和可扩展的原则。因此,本研究在元数据标准创建过程中,摒弃了从头开始设计的思路,在综合调查分析知名项目元数据标准的基础上,选择其中的通用元素,以DC元数据为底本,制定一套适合于大型文献数字化项目描述、识别、评估及管理的数字对象元数据体系,具体构建流程如图1所示。
图1 元数据方案的设计流程[8]
2.2.2 元数据的结构
元数据的内容类型可以分为3个部分,分别是描述型元数据、管理型元数据和结构型元数据,其中描述型元数据是元数据的核心组成部分,用于描述、识别、发现和获取信息资源;管理型元数据又可以细分为技术元数据、保存元数据和权利元数据,主要是方便信息资源的维护与管理;结构型元数据主要用于描述信息资源的类型、版本、关联和其他特征,定义复杂对象的逻辑构成和获取方式,类似于内容目录;方便资源的组织和导航。
大型文献数字化项目的元数据描述框架以描述型元数据和管理型元数据为主。其中描述型元数据以DC元数据为基础,选择了其中的部分核心元素和修饰词,并结合调查分析获取的知名项目的通用元素,进行了扩展。如区分责任者的职责、细化日期元素,并修改一些元素的含义和适用范围。管理型元数据则结合项目管理的需求,包括项目的贡献方、相关日期、权限管理以及数字化过程中的技术说明等。结构型元数据重点描述数字对象元素间的关系,通过“来源”和“关系”说明。
2.2.3 具体的描述元素
(1)描述型元数据元素
描述型元数据元素主要用于用户识别发现数字对象,包含“题名”、“创建者”、“主题”、“描述”、“出版者”、“贡献者”、“类型”、“格式”、“资源标识符”、“语言”和“范围”共计11个元素,如表3所示。
描述型元数据呈现以下特点:
①注重对多种文献类型的描述。在数字化加工过程中会生成多种文献类型,如文本、音频、视频、图像等,对这些文献类型不能仅仅通过“类型”一项,还应借助“语言”、“格式”和“范围”等元素。
②细分“责任者”。细分为“创建者”、“贡献者”、“出版者”以及管理型元数据中的“贡献机构”。其中,对“出版者”的描述对象进行了变动,用于描述数字对象的创造机构,而原始文献的出版机构放在“来源”中。这是因为对于数字化项目而言,数字对象的创造机构才是其出版机构。
③强化揭示内容特征。利用“主题”和“描述”两个元素。将“主题”元素细分为数字对象的标题、关键词、关键名称以及与主题相关的概念、对象、事件、地点。其中概念是指用来描述作品主题的抽象的概念或实现,对象是指描述作品主题的物质事物,事件是指描述作品主题的广泛的行动和事情,地点是指描述作品主题的场所。
(2)管理型元数据元素
管理型元素主要用来协调大型文献数字化项目的多机构合作所造成的描述标准、加工设备、可用时间等多样性特征。其呈现以下特点:
①细化“日期”元素。细分为“数字化日期”和“原始日期”,其中“原始日期”为新增元素,包括原始文献的创建、出版、修改和版权日期;“数字化日期”包括数字对象的提交、可用、修改日期;不同日期间存在密切联系,如数字对象的可用日期就受限于原始文献的版权日期;所以对“日期”进行细致描述可有效掌握数字对象的发展态势和利用情况。
②添加技术元数据。通过“数字化详细说明”一项,结合项目建设的需求和特点,主要描述数字化加工过程中使用的仪器设备、操作系统、创建软件等的名称、制造商和型号等,数字化成果质量控制的校验和值,必要时还应包括数字化加工的工作流程及相关技术说明。
③丰富权利元数据。为尽量避免侵权问题,不仅应该说明该数字对象是否受版权保护,可否公开使用;为方便用户获取使用许可,还应该提供版权所有人的联系方式。
④增添“贡献机构”和“数字化详细说明”。为方便项目的管理,明确权责义务,管理型元数据设置了“贡献机构”和“数字化详细说明”中的“生产者”两个元素,其中“生产者”是指数字化加工过程中具体的生产人员,如扫描员、元数据添加人员等;而“贡献机构”是指数字化加工过程中为数字对象创建、管理描述、传播作出贡献的机构和管理单位。与描述型元数据中的“贡献者”不同,前者侧重信息资源智力加工过程中的贡献,而后者则侧重数字化加工操作中的贡献,具体内容见表4。
(3)结构型元数据元素。结构型元数据主要用于描述数字对象的来源、关联和其他特征,用来定义复杂数字对象的逻辑构成和获取方式,如文本目录体系、目录和正文的链接信息、文本版式信息以及该文本与其他相关文本的关联信息。大型文献数字化项目的数字对象结构型元数据主要包含两个元素,如表5所示。
“来源”元素表示派生关系,用来表示数字对象的来源信息,该项通常是多种信息的整合,如原始文献的出版者、标识符等;其中原始文献的标识符对于数字对象的描述尤为重要,如ISSN、ISBN、分类号以及机构内部使用的索书号、控制号和条形码等。
“关系”元素主要展示数字对象与其他资源之间的关系,而且这种关系是多维的,一个的数字对象可能是某一数字对象的组成部分,也可能包含了更多小规模数字对象,它可能是一种数字对象的最新版本,也可能被其他数字对象所取代等。“关联”元素的充分描述有助于用户识别、引用、定位和链接其他资源。
3 大型文献数字化项目的元数据著录规则与著录实例
在确定元数据标准后,在对数字对象进行著录的过程中,需要制定严格的著录规则。著录规则应该详细规定元素的内容和属性的具体设置、取值和特征,说明如何按规定格式进行资源描述,生成元数据记录。应包含元数据内容编码规范、元数据元素、子元素或限定属性的选择方式,主题词、分类号的选择标引原则和方式,文字描述内容等[9]。
根据数字化项目资源建设的特点、元数据框架和用户需求,参考DC标准和CADAL的《元数据规范及著录细则》,并查阅了CDL的《数字对象指南》、科罗拉多州数字化项目《DC元数据最佳实践》等国外大型文献数字化项目制定的相关元数据著录规范,本文制订了适用于大型文献数字化项目的元数据著录规则。
以“主题”元素为例,表6详细说明了该元素的构成情况,包括名称、标识、定义、元素修饰词、编码修饰词和著录细则等16项内容。
根据已构建的元数据框架及著录规则,The Organization of Information一书的元数据著录实例如图2所示。
4 结论
本文所建立的大型文献数字化项目的数字对象元数据标准,通过细分时间、主题、来源、关系等元素实现对数字对象的全面揭示;通过增添权限管理、贡献机构、数字化详细说明等元素体现数字化项目的资源特色。
但是,该标准在细化描述单元粒度层次和识别与揭示更为丰富的关系链接等方面能力有限。因此,在后续研究中,将着手解决上述问题,使数字资源描述不再局限于资源载体和书目记录,而应具体到数字信息资源的每一个描述元素;具体到每一个元素的取值。此外,尝试从概念、引证和实体等维度,系统梳理数字信息资源间的层次关系、衍生关系和相关关系,为数字资源的深度聚合奠定基础。
收稿日期:2013-05-10
注释:
①这些元素都是针对数字化加工生成的数字对象的描述而言,原始资源的相关信息应该在“来源”一项中进行著录。