元数据结构描述及其扩展规则研究_元数据论文

元数据结构描述及其扩展规则研究_元数据论文

描述元数据结构及其扩展规则研究,本文主要内容关键词为:数据结构论文,规则论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G254.3

元数据根据其功能的不同,可以划分为描述元数据、管理元数据等主要类型。其中,描述元数据是用于描述或标识数字对象内容的元数据,其描述的对象可以是:

(1)简单数字对象:一个有完整意义的独立实体,如一本书、一篇文献、一个MP3文件、一张图片等;

(2)复合数字对象:由多个简单对象、或简单对象与复合对象嵌套组成的复杂对象,如由文字、图片、多媒体等不同载体对象组成的人物资料;

(3)数字对象集合:即按照一定主题、资源类型或用户范围等标准组成的数字对象集合(Collections),也称资源集合,如数据库。

不同的数字对象或对象集合可以使用不同的元数据规范。也就是说,元数据规范可以针对数字对象的类型及其特点特性来进行专门化设计,以达到其专指性、准确性。但从另一方面来说,数字图书馆也强调元数据规范的通用性、可扩展性、元数据之间的易转换性、系统之间的互操作性等原则,以达到网络环境下资源共享的目的[1]。

遵循上述原则,在设计具体的描述元数据规范时,首先需要确定的关键点:

(1)元数据规范的结构:包括其核心组成及其可扩展、可个性化的部分。

(2)在核心集基础上的扩展规则。

这是最重要的两个基础问题,也是本文要具体论述的内容。

1 描述元数据的基本结构及元素组成

描述元数据用于描述或标识对象内容和外观特征,它对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、知识产权、甚至相关数据单元方面等,数据元素数量往往较多。由于被描述的资源对象的复杂性,在设计描述元数据规范时,为了既能兼顾不同资源的特性,又能最大程度地实现各类资源在发现和获取方法上的一致性,体现数字图书馆的整体性,各元数据标准应当从功能、内容结构、格式、语义语法等诸多方面保持一致。这种一致性和整体性也便于在更大范围内实现不同数字图书馆,或者说不同系统间的互操作和数据共享。从这个意义上说,我们在设计描述元数据时就需要考虑其基本的结构,即哪些是通用的核心元素、这些元素如何组成、以及哪些是体现个性化特征的元素、如何定义。

1.1 基本结构

通过研究和实践表明,无论何种资源对象的描述元数据,都可以由核心元素、资源类型核心元素、个别元素三部分组成。元数据的这种基本结构形成各类型资源对象描述元数据的基本框架,将支持数据交换和检索,实现数据共享。

核心元素在各类资源对象中通用。在元数据的通用性方面,DC(Dublin Core)无疑是最能满足通用性的元数据,而且其利用范围广泛,因此,核心元素复用DC的15个基本元素,并拟在该层上与其它系统进行交换,支持通用的检索工具。

资源类型核心元素根据资源对象特点、参照其他元数据标准制定,在同一类型资源对象中通用。不同的资源类型可有不同的资源类型核心元素设置及其语义定义,要求体现该资源类型的共同特性。

个别元素以某种特定的资源对象为基础制定,仅适用于这类对象,不用于交换。应用时仅要求该种对象遵守其定义。

这三个层次的划分目的是为了在保证各标准的一致性与整体性的基础上,最大限度地体现不同系统和不同资源的特征,使标准具有更强的包容性和灵活性,有利于标准的推广使用。

1.2 元素组成

(1)核心元素集

复用Dublin Core的15个元素做为核心元素集,其复用原则:

①最好采用“简单DC”(Simple DC),一般来说不推荐使用“限制性DC”(Qualified DC)。即,当元素本身具备很强的专指性和完整的描述性时,可以不必扩展修饰词;这样,元数据规范也可以不受日趋复杂的限制性DC的修饰词体系的局限。

②严格遵守DC的元素语义定义,核心元素集中元素的语义不允许有交叉。

③核心元素并非必备元素,具体应用时允许只复用其中一部分。

④允许复用“限制性DC”中的修饰词(Qualifier),必须说明并严格遵守其语义定义。

⑤允许在复用时根据资源情况重新命名元素和修饰词。

(2)资源类型核心元素集

在制定不同类型和不同资源的元数据标准时,可以根据资源对象共同的特点,制定各自所需的资源类型核心元素或修饰词,或者从其它元数据标准中复用元素或修饰词。

在制定此类元素或者扩展修饰词时,必须保持与已经采用的核心元素在语义上没有交叉,如果是从其他元数据标准中引用,必须在命名域(Namespace)中说明并严格遵守其语义定义。

“DC图书馆应用大纲”(DC-Library Application Profile)中的三个元素(Edition,Location,Audience)在描述文献资源的时候具有较强的通用性,建议在需要时作为资源类型核心元素。

(3)个别元素

此类元素为某资源对象所特有,只应用于该资源对象,一般需自定义,制定的规则与资源类型核心元素相同。

(4)与DC的映射

考虑到数据交换和检索的需要,所制定的元数据标准应与DC建立映射关系(Mapping):

①映射单位可以是元素,也可以是修饰词;

②可以建立的映射关系有:一对一(一个元素与DC的一个元素)、一对多(一个元素与DC的多个元素)、多对一(多个元素与DC的一个元素);

③如有不能映射到DC的元素或修饰词,则无须强行建立映射。

(5)元素组成举例

表1以古籍、拓片、舆图为例,说明古文献资源元数据规范的元素组成,其中古文献核心元素是适用于这三种古文献资源的元素。

表1 古文献资源元数据规范

古籍拓片舆图

资源类型资源类型 资源类型

题名题名 题名

主要责任者 责任者

主要责任者

其他责任者

其他责任者

时间金石年代 时间

出版者

出版者

核心元素 附注附注 附注

相关文献相关文献 相关文献

主题关键词

主题

古籍语种拓片语种 舆图语种

时空范围时空范围 时空范围

古籍标识拓片标识 舆图标识

馆藏信息馆藏信息 馆藏信息

古文献

版本版本 版本

核心元素 外观形态外观形态 外观形态

收藏历史收藏历史 收藏历史

金石所在地

制图细节

个别元素 金石材质

书法特征

金石类型

相关说明:

①核心元素:

·直接复用了DC,但没有复用全部元素,并修改了部分元素名称。

·其中资源类型(Type)作为核心元素,其定义为:有关资源内容的特征和类型,包括描述资源内容的分类范畴,功能、特性或集合层次的术语。但其建议的编码体系(DCMI Type)无法满足中文资源的情况,因此,我们为此特别制定了“信息资源名称规范列表”用于取词,如电子图书、期刊论文、会议论文、学位论文、古籍、拓片、舆图、家谱、地方志、视频资料、音频资料、图像资料、网络资源等。此元素建议不采用修饰词。

②古文献核心元素定义:

·版本:文献因制作方式的不同而产生的不同类型本子。指关于版刻、版本、影印的说明及相关信息。

·外观形态:资源的外形特征,如数量、尺寸、载体形式、装订等。

·收藏历史:文献的流传历史及相关的内容,如收藏沿革、题跋印记、获得方式、购买价格等。

③个别元素:根据资源个性化特点定制。

2 扩展规则

元数据标准只提供最广泛意义上的描述,而在其应用到各种不同的资源对象时可能会要求更为细致精确的描述,因此,元数据规范一般都允许使用者在不破坏已规定的标准内容(如元素的语义定义)的前提下,扩充一些元素、修饰词或属性值。

2.1 横向扩展规则

元数据的横向扩展指元素层次的扩展:

(1)遵守核心元素、资源类型核心元素、个别元素的结构组成;

(2)各元数据标准应最大可能采用核心元素集推荐的元数据项,并在语义上保持严格一致;

(3)对推荐的元素不能描述的特性可以增加元素,但新增元素不能与已有元素有任何语义上的重复。

2.2 纵向扩展规则

元数据的纵向扩展指每一元素的向下扩展,以便更为准确地描述对象。根据DCMI的规定,是采用修饰词的方式对元素的某一特别的子类进行描述或者对描述元素内容时采用的编码规则进行描述。核心元素、资源类型核心元素和个别元素在向下扩展时均可以采用修饰词的扩展方式,修饰词采用DCMI的定义方式。

(1)修饰词有两种:

①元素修饰词(Element Refinement):是对元素的语义进行修饰,提高元素的专指性和精确性。

②编码体系修饰词(Encoding Scheme):包括控制词表和正规的符号或者解读方式。

(2)有必要对元素的语义进行更近一步限定时,应尽可能使用DCMI规定的修饰词(详见:http://dublincore.org/documents/2000/07/11/dcmes-qualifiers/index.shtml),以及各个应用方案中的已经确定使用的修饰词,例如dc-education,dc-lib(详见:http://dublincore.org/documents/library-application-profile/index.shtml)。复用时要严格遵守其语义。

(3)尽可能遵循Dumb-Down(向上兼容)原则,增加的修饰词的语义不能超出被修饰词(元素)的语义,修饰词只是对元素的名称及含义范围做了进一步的修饰或限定,而不是对元素的内容作修饰。

(4)如果复用来自其它元数据标准的元素或修饰词,要求必须说明来源,使用时严格遵守其语义。

(5)自行制定的修饰词必须遵循Dumb-Down原则。也即是修饰词的语义包含于相应的未限定元素中,在范围上对未限定元素的语义进行限定,在深度上对未限定元素的语义进行延伸。对于不具备修饰词知识的用户而言,修饰词可以象未限定元素一样来使用。

(6)其它:由于DC某些元素的语义外延并不清楚,元数据规范的制定者自行定义的修饰词很难确定是否兼容在该元素的语义范围中时,增加的修饰词与DC不做映射。

2.3 修饰词扩展方式举例

表2以舆图元数据规范中的几个元素为例,说明元素横向扩展和纵向扩展规则的实际应用。此例中,核心元素的修饰词都作了不同程度的扩展,以便精确描述各种信息内容。资源类型核心元素有三个,都与核心元素没有语义上的冲突,增加外观形态元素是因为DC的格式(Format)元素的含义无法满足古文献的描述需要,因此,核心元素中没有格式元素(见表1),而增加了外观形态作为古文献核心元素,并根据纵向扩展规则进行了扩展。为描述舆图资源特有的特征增加了个别元素制图细节,并做了相应的扩展。

表2 舆图元数据规范(1)

元素 元素修饰词编码体系修饰词与限制性DC的映射

Title

并列题名

题名 交替题名

Title.Alternative

自拟题名

其它题名

Title.Alternative

Date

出版 Date.Issued

时间 印刷

发行 Date.Issued

年号纪年

公元纪年

Description

缺字附注

附注 相关文献附注

丛编

子目 Description.TableOfContent

总图 Relation.IsPartOf

分图 Relation.HasPart

主图 Relation.IsPartOf

附图 Relation.HasPart

相关 合印文献 Relation.IsPartOf

文献 合函文献 Relation.IsPartOf

丛编 Relation.IsPartOf

子目 Relation.HasPart

书目文献

URI

表2 舆图元数据规范(2)

元素 元素修饰词 编码体系修饰词 与限制性DC的映射

Subject and Keyword

主题 汉语主题词表

中国图书馆分类法

版本说明

装订方式

数量

外观形态 色彩

尺寸

附件

制图细节 比例尺

投影方法

坐标说明

绘制方法

3 结语

元数据标准是实现良好的互操作性的基础之一,其选择与制定对构建数字图书馆是一项非常重要而意义深远的工作,如果不能按照统一的框架结构和扩展规则为众多的、千差万别的资源对象制定元数据,势必导致千差万别的元数据格式彼此不能兼容,为数据共享带来不必要的障碍。

建设数字图书馆如盖楼,包含元数据标准在内的各种标准规范则是地基,只有地基打好了,数字图书馆的各种服务才能更顺畅地开展,而元数据的扩展规则又是元数据标准的核心和基础。本文希望通过元素结构和扩展规则的探讨,为描述元数据标准的研制提供参考和便利,并为以后各种不同数字图书馆系统间不同资源的交换共享和互操作打下基础。

(参与这方面研究的单位有:北京大学图书馆、上海图书馆、CALIS管理中心,国家图书馆、中国科学院文献情报中心、清华大学图书馆。)

标签:;  ;  

元数据结构描述及其扩展规则研究_元数据论文
下载Doc文档

猜你喜欢