数字图书馆元数据方案设计有关问题探讨,本文主要内容关键词为:方案设计论文,数字图书馆论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】 G354
1 数字图书馆元数据方案设计原则
元数据方案就是数字图书馆中所使用的信息描述方法。数字图书馆的运作,无论是存取过程还是检索过程,都是以元数据方案为基础实现的。换言之,元数据方案为数字图书馆分布式信息资源的发现和检索奠定了基础。因此,元数据方案决定了数字图书馆的功能特征、运行模式和系统运行的总体性能。为了实现这一总体性能,达到共建共享信息资源的目的,数字图书馆元数据方案应遵循下列原则。
1.1 元数据方案的标准化原则
在数字图书馆建设中,标准问题最重要的是元数据的制作,而与元数据的制作紧密相关的问题是元数据方案的设计。
然而,目前在元数据方案的标准化方面存在很多问题。首先,就DC系列元数据而言,在同一元素的著录内容上存在较大的差异。如,北京大学拓片元数据要求在权限(Rights)元素中著录馆藏地址、允许使用的用户范围,而在《数字式中文全文文献通用格式》规定著录有关权限管理的声明,包括知识产权等。其次,对于同类型信息资源的组织,有的图书馆已经采用DC元数据,有的则仍然采用MARC元数据。这种著录内容和同类信息资源所用元数据的不一致都会给数据交换的带来困难。最后,各个元数据所采用的编码语言也是各不相同,有的采用HTML,有的采用SGML或XML。由于各个编码语言的标签设置、内容、可扩展性的不同,则会影响元数据的通用性。
元数据方案的标准化原则具有广泛的内涵。它包括元素著录内容的标准化、同类型数字化信息资源的著录所采用元数据的一致性、元数据方案所采用编码语言的统一性这几个方面。
1.2 元数据方案的准确性原则
所谓准确性原则一方面指元数据方案中元素的定义、使用的术语等不能模棱两可,容易产生歧义,导致不同的理解;另一方面指元数据方案能够准确地描述信息资源。也就是说,元数据方案不仅要规定元素的设置、著录规则、标记语言的使用,而且要规定著录所依据的标准、传输交换语言等。
当前困扰各个搜索引擎的问题是如何提高其查准率。搜索引擎的低查准率究其原因是其对信息资源特征的揭示不够准确、深入。数字图书馆的信息资源类型多样,既有文字信息,也有音频、视频信息,只有准确地揭示它们的特征,提供高质量的元数据,才能保证较高的查准率。
1.3 元数据方案的通用性与专用性原则
元数据方案的通用性与专用性都是相对而言的。所谓通用性是指元数据方案可用于数字图书馆多种信息资源的元数据制作。所谓专用性是指元数据方案只适用于数字图书馆某一特定类型信息资源的元数据制作。具有通用性的元数据适用于组织多种类型的信息资源。通用性元数据有两种:一种通用性元数据的结构非常庞大、复杂,但是具有很好的描述深度,因为所有的情况都已经定义了,比如MARC元数据。另一种通用性元数据,其结构非常简单,好学易用,仅仅只有几个非常普遍的属性,但对特定类型的信息资源的描述能力不够。而具有很好专用性的元数据,其对于某一特定类型的信息资源描述能力很强,但无法覆盖其它类型的信息资源。数字图书馆信息资源类型多样,过分强调专用性会导致多种元数据各自为政。因此,在设计元数据方案时,设计人员需要在通用性和专用性之间加以协调、平衡,才能产生更好的效果。
1.4 元素设置的可扩展性原则
所谓元素设置的可扩展性原则是指在元数据方案设计时,为元素、元素的限定词以及属性值的扩充留有一定的余地。数字图书馆要处理的数字化信息资源非常广泛,而且各类数字化信息资源的应用背景更为复杂。如果元数据方案只提供最广泛意义上的描述,一些针对特定应用背景的内容并不纳入,那么,应允许使用者在不破坏已规定的标准内容(如元素的语义定义)的条件下,扩充一些元素或属性值。此外,元数据是一个发展活跃的领域,新的元数据元素会不断出现,老的元数据元素会不断修改完善。数字图书馆的生存环境是一个不断变化的环境,新的信息源也会层出不穷。这就要求元数据方案允许将新的元数据元素容纳于其中,或者要求修改更新已经注册的元数据方案。
1.5 元数据方案的互操作性原则
所谓元数据方案的互操作性,是指在由不同的组织制定与管理且技术规范不尽相同的元数据环境下,要向用户提供一个统一的数据检索界面,确保系统对用户的一致性服务。在具体应用上,互操作性表现为易转换性,即在所携信息损失最小的前提下,可方便地转换为其它系统常用的元数据。
2 数字图书馆元数据方案设计应注意的问题
2.1 非MARC元数据与数字图书馆信息资源组织的质量问题
在此,根据我国当前引进、研制元数据的状况,将现存的元数据分为两类,即MARC元数据和非MARC元数据。MARC元数据包括USMARC、UNIMARC、CNMARC等。非MARC元数据包括DC系列元数据和非DC系列元数据。DC系列元数据是指我国在数字图书馆建设的过程中,对DC元数据加以引进并改造而生成的针对特殊类型信息资源的元数据,也就是说这些新出现的元数据是在DC元数据的基础上进行了扩充、改进。例如,DC元数据、北京大学拓片元数据、《数字式中文全文文献通用格式》以及清华大学的建筑元数据。非DC系列元数据包括TEI头标、EAD、GILS等。目前将非DC系列元数据用于数字图书馆信息资源组织的呼声很高。美国图书馆协会(the American Library Association,简称ALA)编目:著录与检索委员会(Committee on Cataloging: Description and Access,简称CC:DA)在《元数据与编目规则研究报告》(CC:DA Task Force on metadata and Cataloging Rules:Final Report)中以TEI头标、EAD等元数据为例,就非DC系列元数据作为编目源的情况做出评估,得出三点重要结论。第一,非MARC元数据在专门针对其用途而设计的系统中效率最高,但在图书馆目录系统中的效率就不是最高的。第二,不符合AACR的普通元数据进入图书馆目录的时候,总是需要图书馆编目人员对其进行严格审查。第三,绝大多数非MARC元数据方案没有提供足够的信息以区别相似的信息资源或者内容基本相同而不同版本信息资源。[1]也就是说,只有充分地利用各种编目规则和其它一些质量保证手段,非MARC元数据才能具有较高的质量,才能用于图书馆信息资源组织。
众所周知,非MARC元数据大多数是一些资源描述机构针对自己的需要而开发的。在这些元数据方案中,元数据的制作可以由专业的编目人员完成,也可以由根本没有任何经验信息资源的提供者自己完成。非专业人员制作的元数据具有费用低、元数据的专指性较好的优点。但是,这样做会导致对数字化信息资源的属性和特征的揭示程度差别很大,进而影响元数据的总体质量。到目前为止,绝大多数元数据仍然由专业人员提供。例如,TEI头标是一种复杂的元数据,绝大多数TEI文本都是由人文科学领域非图书馆专业人员创建,而TEI头标通常是由图书馆员创建或维护。如果让非专业人员参与元数据的制作,那么数字图书馆元数据方案设计就应解决元数据制作质量的检测与管理问题。
2.2 DC系列元数据与MARC元数据的关系
目前,有些数字图书馆纷纷采用DC元数据作为描述数字化信息资源的格式。例如,清华大学图书馆的建筑数字图书馆项目以DC元数据作为基本框架,结合建筑资料的实际情况对DC元数据进行改造,扩充为THDL——清华大学建筑数字图书馆元数据格式。北京大学依据DC元数据开发了拓片元数据格式。上海图书馆也使用了DC元数据。自从DC元数据产生以来,图书馆界争论不休的问题是,图书馆是继续使用MARC元数据,还是舍弃MARC元数据,改用DC元数据?具体到我国,在任何一个数字图书馆元数据方案的设计过程中,必然要涉及到MARC元数据与DC系列元数据关系的处理。
DC元数据最初的定位是处于全文索引和复杂格式的元数据之间,提供简单明了的元数据格式。DC元数据与MARC元数据的最主要的区别在于DC元数据结构简单,而MARC元数据复杂。DC元数据经过数次研讨会后,对其进行扩展,使用修饰限定词使得DC元数据不可避免地复杂起来。其扩展的原因有两个。一是应用领域比较复杂,DC元数据没有足够的元素来描述信息资源的各种重要特征;二是人们希望DC元数据应用于多个领域。实际上,无论如何扩展,DC元数据不可能解决所有数字化信息资源的描述问题。笔者建议:由国家标准化权威机构——全国信息与文献标准化技术委员会来制定适应于各类数字化信息资源的元数据方案。这样做,可以在全国范围内,就某一类数字化信息资源采用何种元数据著录达成共识。目前,在MARC元数据与DC系列元数据并存的情况下,信息资源的存储与检索必然涉及MARC元数据与DC系列元数据两者之间的转换,是将全部MARC元数据转换为DC元数据,还是将DC元数据转换为MARC元数据?笔者认为,MARC元数据与DC元数据之间转换的目的是实现一条记录可以以MARC元数据和DC元数据两种格式来显示以及数据的交换与共享。但是,如果用户没有这种需求或者两者之间不转换并不影响数据交换,则没有必要进行转换。也就是说,根据实际需要来决定是否需要MARC元数据与DC元数据之间相互转换。MARC元数据与DC元数据之间的转换会产生很多问题。由于MARC元数据的描述能力大大丰富于DC元数据,如何尽量解决两者之间转换所产生的歧义与不确定性以及信息丢失等难题。
2.3 元数据的编码语言问题
元数据的编码语言是指针对元数据元素和结构进行定义和描述的具体语法和语义规则。目前,各种元数据使用的编码语言是不同的,包括标准通用标记语言(Standard General Markup Language,简称SGML)、超文本标记语言(Hypertext Markup Language,简称HTML)、可扩展标记语言(Extensible Markup Language,简称XML)三种形式。有些元数据明确规定使用何种标记语言,如TEI头标、EAD和美国联邦地理数据委员会《数字地理空间元数据内容标准》使用SGML。也有些元数据没有规定使用何种编码语言,如DC元数据,有使用HTML,也有使用XML的。从数据交换和共享的需要出发,元数据的作用是传递计算机系统可以理解的描述信息和存储数据。计算机首先要理解元数据的各个元素或字段序列化的方式,即按怎样的顺序和结构来组织各个元素及其内容。所使用的编码语言不同,元数据编码规则以及记录格式也存在差异。这样则不利于数据的交换和信息资源的共享。因此,从长远利益来看,有必要对元数据的编码语言进行统一。
3 对我国数字图书馆元数据方案设计的若干建议
3.1 推进元数据标准化进程,提高元数据的互操作能力
目前,国内出现了许多种元数据,例如,拓片元数据、建筑元数据、古籍元数据、中文数字化全文文献元数据等,由于每种元数据都是由不同图书馆研制而成的,并且针对不同类型的数字化信息资源。因此,就会出现DC系列元数据与MARC元数据并存的局面。这种局面有利于DC系列元数据与MARC元数据形成优势互补,也可以使某些适合用DC系列元数据描述的特定类型信息资源被充分地揭示和利用。同时,这种局面也会带来一些问题。目前,我国DC系列元数据至少有4种以上,那么对DC系列元数据是否一体化;那些特定类型信息资源以前的机读记录该如何处理等。
笔者主张DC系列元数据一体化,反对各自为政。DC系列元数据都是在DC元数据的基础上根据用户的需求与信息资源特点进行了修正,所以这些元数据的核心或实质仍然是DC元数据。这一点可以作为DC系列元数据一体化的基础,但是,这种一体化工作完成就需要各个研制单位之间的协调与合作,需要以国家标准的形式出现加以强制执行,从而结束元数据结构各自为政的局面。对于那些原由MARC元数据著录的信息资源来说,MARC记录已为受编信息资源提供了著录内容详尽,查全率高的机读格式,在受编信息资源数字化的过程中没有必要舍弃原有的元数据,而采用其它元数据方案。
3.2 选择适用的编码语言
在数字图书馆元数据方案设计中,编码语言的选择也是关键步骤之一。目前,在DC系列元数据中通常使用HTML、SGML或XML。有比较才有鉴别和选择,我们不妨对这三种编码语言的优劣进行分析比较。
XML是SGML语言的一个子集,同HTML一起成为SGML家族的主要成员。SGML是一种元语言,可以用来定义其它更专门的标记语言。HTML是由SGML定义出来的,专门使用在WWW上的标记语言。SGML是很好的资料存储格式,适用于任何复杂的文件,但不便于网络传输,SGML非常复杂,不易学习掌握。XML与HTML不同,XML是SGML的一个简化版本,实际上,XML也是一种元语言。与HTML不同的是,XML并没有语义上的元素定义,也没有预先定义好的一套标记系统。在实际应用中,可以根据需要定义自己的标记。XML是可扩展的,具有较强的灵活性和适用能力,同时它很有可能在今后成为应用最为广泛的标记语言。但是,目前,XML在网络上的应用不如HTML广泛。由于HTML文档本身的结构性不强,扩展能力差,描述内容的能力也较弱,因此不太可能成为今后数字图书馆元数据方案的主要编码语言。笔者建议,数字图书馆元数据方案的编码语言采用XML。
3.3 数字图书馆元数据方案的设计应面向专业编目人员
信息资源编目实际上是信息资源进行分析、判断和组织的过程。组织过程包括分类、描述、归并及格式化等过程;分析过程则包括区分、验证、评估、比较、解释及综合过程。[2]总之,信息资源编目是一个复杂的、信息增值的过程。目前,困扰信息资源编目的主要问题是费用。一是时间的花费,二是金钱的花费。费用问题使得许多元数据方案的设计者希望所研制的元数据可以由非专业人员制作。毫无疑问,非专业人员制作元数据的费用低,然而这种低费用是以牺牲元数据的质量为代价的。笔者认为,对于数字图书馆的建设而言,元数据的总体质量是不容忽视的。如果没有高质量的元数据,数字化信息资源的利用也就成为一句空话,甚至会像搜索引擎一样,查准率很低。所以,建议数字图书馆元数据方案的设计应面向专业编目人员。只有专业编目人员利用编目规则及书目控制等手段,才能够提供具有较高质量的元数据。
3.4 数字图书馆元数据方案的设计中应考虑到其它技术运用
在数字图书馆建设的过程中,必然要涉及到许多技术,其中包括数据库技术、全文检索技术、开放式网络词表/分类技术、地理信息系统(GIS)等。在数字图书馆元数据方案的设计中,我们需要与这些技术进行衔接并加以应用。以联合在线资源目录(Cooperative Online Resource Catalog,简称CORC)为例加以说明。CORC是建立在网络环境下的为本地或网络电子资源创建书目元数据的系统,是一种为电子资源编目的数据库和工具包。CORC利用了网上杜威分类法数据库,实现了编目过程中DDC号码和主题标目自动分配。同时,CORC数据库的软件平台采用Mantis,这是一种适用于任何元数据定义与界面的网络资源编目系统工具箱。Mantis用XML存储记录,使得记录的输出非常容易,且有MARC、DC HTML和DC RDF、XML多种格式可供选择。CORC的成功在于其能够充分利用各种技术。因此,我国在数字图书馆元数据方案的设计过程中,也需要考虑其它技术的运用。