关于制定中国元数据标准的思考_元数据论文

关于制定中国元数据标准的思考_元数据论文

关于制定中文元数据标准的思考,本文主要内容关键词为:标准论文,数据论文,文元论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

元数据是“关于数据的数据”或“关于数据的结构化数据”,现在常说的元数据,是特指在标记语言(SGML、HTML、XML)环境下,对网络信息资源进行描述的解决方案,主要是用于网络信息资源的发现、存储、管理和检索利用。在当前网络信息呈异常迅猛发展之势,大量的多样性的数字化资源,使得信息的利用和查找十分困难。为了解决这一问题,在国外已有了很多的元数据研究项目和成果,建立和运行了一些描述网络信息资源的元数据模式。元数据的应用,为网络信息资源的有序组织、适度控制和高效检索利用,提供了便利的条件。近年来,中文网络信息资源也在迅速增长,尽快研究和制定中文核心元数据标准,已是非常迫切的了。在制定中文元数据标准时,既要考虑到中文元数据处理的特殊性和中文资源的应用特点,更要从全球的信息大环境出发,分析、研究和借鉴国际上先进的、通用的元数据标准,在尽量保持与国际标准接轨的基础上,制定符合中文资源应用需要的扩展与应用规范。

1 中文元数据标准应以DC为基本框架

在国际上众多的元数据方案中,Dublin Core Element Set(都柏林核心元素集,简称DC),以其结构简单、语意互通和可扩展等特性,事实上已成为国际范围内通用的网络信息资源描述的元数据标准。DC经过几次国际会议的研讨和修订,已逐步完善和成熟。所以,制定中文元数据标准应以DC元数据为基本框架。国内在四五年前就已开始了对DC的探讨和研究,但至今尚未完全形成依托中文环境的DC元数据标准。当前应进一步加紧深入地对其进行研究和规范,形成中文元数据的一个标准核心集,以适应中文网络信息资源的发展。中文元数据标准应完全按照DC元数据集来建立,在具体作法上要注意以下一些问题。

(1)完全按照DC元数据的框架结构来制定中文元数据标准。由于网络信息资源在时空上的广泛性和开放性,与传统的文献著录的相对封闭性有着很大的不同,因此,中文元数据标准的制定,应强调与国际接轨,保持完整的一致性。也就是说要完全遵循DC元数据的框架结构来构建中文元数据标准,而不应该提出“以DC为主,参考其它元数据标准”来搞中文元数据标准。我们应汲取CNMARC的教训,避免把中文元数据标准搞成“CNDC”。中文元数据标准应该只是对DC元数据进行本地化和中文化的处理,对它的内涵、外延等用中文予以标准地诠释,方便使用中文的著录者和检索者理解与利用,仅对于著录和检索中文信息资源的一些特殊性和应用特点等有限的方面进行规范的规定和定义。

(2)中文元数据标准的制定,应完全保留DC元数据的基本特点。一般地讲,内在性、可扩展性、独立句法结构、可选择性、可重复性和可修饰性是DC的6大特点,在实践中集中地表现为DC元数据的简易性、通用性、兼容性以及灵活的可扩展性,这些特性是DC能够成为一个国际上通行的元数据标准的原因,也是建议中文元数据标准应完全按DC来制定的理由。因此,在制定中文元数据标准时,要完全保留DC的基本特点,不应有任何的更改。在国内有些使用DC元数据时,将某些元素规定为“不可重复”或“必备”等等,这种做法是不可取的。

(3)应以国际通行的DC修饰限定词作为中文元数据的规范和扩展的依据,而不应采用其它形式。DC修饰词提供了对元数据的扩展描述,可以缩小元素的含义范围,使其更具有专指性,或是对元素进行规范性说明。目前,DC已正式确定了三类修饰:模式体系、语言种类和类型。如为了表达不同的日期,在使用“Data(日期)”这一元素时,可以增添“Created(创建)”、“Valid(有效)”、“Issued(发行)”、“Modified(修改)”等修饰词。在中文元数据标准中,不应把这些元素的修饰词解释为子元素。元素与加了修饰词的元素没有主次之分,修饰词并不改变元素本身的定义。元数据标准中,不应出现子元素的提法。元素的修饰限定和规范,是元数据元素的内在特性,是元素的不同表现形式,绝不能把元素和加了修饰词的元素看作是元素与子元素的关系,应坚决防止中文元数据标准的MARC化倾向(在MARC中就有的字段、子字段之分)。元素与加了修饰词的元素或多个附加了修饰词的元素同时出现,是元数据的元素可重复性的体现。

2 中文元数据标准应形成一个完整的体系

中文元数据标准是整个网络上中文信息资源及中文电子出版物等的著录和检索的工具,其应用范围是很广泛的。因此,制定中文元数据标准的同时,还应对所涉及的相关的标准、规则和条例等进行研究、修改和制定,并逐步完善其推广应用机制,使中文元数据标准逐步形成一个完整的体系,更好地服务于日益发展的中文网络信息资源的开发和应用。与中文元数据标准相配套使用的一系列标准、规则和条例等的制定、修订,要本着易用性、通用性、国际性和规范化、标准化、自动化的原则进行。这方面的工作主要的有以下一些:

(1)修订和完善各类中文信息的代码体系,并尽量与国际通用的代码一致起来。制定有关中文的“资源类型表”、“格式类型表”、“关联值列表”等,以规范中文信息资源的著录和检索利用。

(2)制定有关中文关键词选词截词等规则,以适应中文信息资源的自动化著录和检索。制定中文网页及电子出版物、数据库等的制作规范和条例。

(3)编制一个简单易用,能够适应数字化信息著录和检索的“中文信息资源树形分类表”。目前图书馆界广泛应用的《中图法》,其分类体系和类目设置均无法适应网络时代信息分类的要求。

(4)建立一个像OCLC的CORC项目那样的中文元数据在线编目系统,免费提供中文网页或电子出版物的元数据自动生成。还应建立CNMARC与中文元数据的映射表,提供CNMARC数据向中文元数据格式的转换等服务。

(5)仿照印刷文献的在版编目(CIP)规定,制定中文网页和电子出版物的在版元数据著录规定,以行政手段强制要求所有正式注册的中文网页及电子出版物等,必须具备元数据著录项目,实现中文网络信息资源的作者著录,使中文元数据能够较快地在大范围内推广,方便中文资源的高效利用。

3 中文元数据标准应是全球各类中文信息资源著录和检索的标准

网络信息资源发展迅速、包罗万象,且具有广泛性、开放性和分布式的特征,任何一种元数据都难以满足所有的需要。因此,元数据的标准框架应是一种可扩展的核心集,以应付各种需要。DC就是这样一种元数据集,以DC为基本框架构建的中文元数据标准也应是一种可扩展的核心元数据集。中文元数据标准除了要完整地保持国际通用的扩展外,还应制定一些适应中文资源应用所需的扩展,并对这类特殊的扩展进行规范和控制。所有的元素或扩展的元素修饰限定词的著录标识,仍以DC规定的规范的英文名称来标识,不应用中文来标识。

中文核心元数据是各类中文数字化信息的描述、管理、保存和利用的标准,它必须是能够应用于各种领域的数字化资源,如数字图书馆、电子政府、网络商务、各类数据库、电子出版物等等方面,也应是用于整个Internet网络中文信息的统一标准,能够实现异构资源间的互操作,在更广的范围内实现中文信息资源的共建共享。因此,中文元数据标准的研究制定,绝不能仅仅局限在图书馆界人员,而应在更大的范围内,采取开放式的研讨方式。我们都知道,DC元数据是由图书馆、计算机、网络等方面的专家和学者共同研讨的产物,我们也应借鉴这一经验,而且参与者的学科范围和专业领域要更扩大一些,这样制定出的中文元数据标准,才能广泛地应用于各学科领域,成为中文信息资源描述的基础的跨领域的元数据集。

中文元数据标准应是全球所有中文资源著录和检索的标准,应得到海内外从事中文信息资源建设的专家学者的广泛支持和参与,采取联合、协作、共建共享的方式,加强合作,避免重复开发。使制定出的中文元数据标准具有更为广泛的适用性和权威性,并形成一个国际通用的中文元数据标准体系,推动全世界的中文数字化信息资源的建设和发展。

收稿日期:2003-06-09

标签:;  

关于制定中国元数据标准的思考_元数据论文
下载Doc文档

猜你喜欢