元数据登记系统:基本概念与基本结构,本文主要内容关键词为:基本概念论文,结构论文,数据论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】G250.76
1 元数据登记系统的意义和类别
元数据登记系统(Metadata Registry,MR)是对元数据的定义信息及其编码、转换、应用等规范进行发布、登记、管理和检索的系统[1-3],支持开放环境中元数据规范的发现、识别、调用以及在此基础上的元数据转换、挖掘和复用。元数据登记系统可以发挥多重意义:
(1)元数据管理:建立一个系统的、可靠、可持续的和公共的元数据规范及应用信息的登记管理机制。
(2)元数据发布:为众多分布、异构、自主、变化的信息系统提供一种方便地公开发布自己元数据格式及其应用规则的渠道。(3)元数据发现:提供开放的查询、发现、链接元数据规范及其应用规则的公共机制。
MR不同于元数据库(Metadata Repository),后者是对数字对象进行描述的实际元数据记录的集合,例如一个MARC记录库或DC记录库。分布环境中,常将从多个系统搜集而形成的元数据记录库称之为Metadata Repository,例如NSDL中利用OAI元数据搜寻协议从多个数字对象库(Digital Repository)搜集元数据记录组成元数据库。
MR可以分为单一命名域或跨命名域MR。
(1)单一命名域MR:单一命名域(Namespace)MR管理一个命名域的元数据,例如DCMl Registry[4]、ROAD5 Registry[5]等。它能够实现一般的元数据规范管理功能,还承担该命名域的元数据管理和应用推广的职责,不但提供元数据格式、元素和修饰属性的权威、系统的信息,还提供使用指南、应用进展、研究报告、发展动态、其它单位的应用协议、翻译格式和转换模板等,形成该命名域元数据研究、应用和发展的聚焦点。
(2)跨命名域MR:跨命名域MR管理多个命名域的元数据格式,例如German Metadala Registry(GMR)[6]、DESIRE Metadata Registry(DMR)[7]、SCHEMAS Registry[8]。GMR对包括教育、医学、物理和数学等领域的元数据格式进行登记和管理,DMR则登记了ACORE、BIBILlNK、DC、IEEE LOM、IMS,NC-UK、ROADS,VCARD、VTC等多个命名域的元素、内容编码体系、应用协议、转换模板等。跨命名域MR按照统一的数据模式对不同命名域的元数据规范进行描述,尤其是对不同规范中可能的关联进行描述和管理,可以对同一逻辑对象或逻辑关系在不同元数据格式中的表达情况进行分析比较,例如同一概念在不同格式中的表达形态、同一元素在不同格式中的语义差异、不同格式中关于同一对象或关系的描述方法等等。
(3)分布式MR:分布式MR由多个MR组成,各个MR可能针对专业(应用)领域建立,例如地理空间MR、教育MR、音频视频MR,或者按照元数据类型建立,例如资源集合MR、内容对象MR、知识组织体系MR、管理规则MR等,还可以按照地域或机构等的划分来分工建立某个领域或某类元数据的MR。这些MR中可能有单一命名域MR,也可能有跨命名域MR。这种分布式MR体系可能是统筹规划建立的,也可能是信息系统建设自然累积的产物,用户面临的是不尽相同的内部数据模式和外部接口的MR,增加了使用的多样性,也增加了关联查询的难度。无论哪种情况,MR都应作为服务模块在分布服务登记系统中进行登记,支持第三方系统对它们的开放搜寻和调用
2 元数据登记系统的功能
MR所能提供的功能,往往取决于所登记的元数据规范内容、所登记内容的描述方式、这些内容的关联形式和登记系统的具体操作功能。
(1)元数据规范的内容层次:MR所登记的元数据规范包括多层内容:
A.定义信息,包括元数据格式定义、元数据应用规范和定义者信息。元数据格式定义的主要内容包含元素内容定义(采用ISO 11179规定),也包括相应的结构与语法描述规则定义。元数据应用规范是一个应用格式,针对一个应用系统或领域,具体规定使用一个标准格式或复用多个格式中某些元素时的方法,例如对元素的选择使用条件(必备、可选、暂时不用等)、元素取值类型、取值范围和内容编码体系等。定义者及其定义过程信息,包括创建者、发布者、维护机构,维护机构地址与联系方式、登记机构,登记机构地址与联系方式、版本信息等。
B.元数据使用信息,包括元数据内容编码体系、使用指南、编制模板信息、编制范例、翻译文本等。元数据内容编码体系,描述编制元数据所需要的相应标准和规范,其中的自建编码体系提供独立的定义文本的规范描述,而外部编码体系提供对定义文本的链接。元数据使用规则(或指南)规范地说明元数据应用的具体原则、方法和过程。元数据编制模板描述和链接可用于该元数据编制的程序模块、尤其是开放软件模块。元数据编制范例,一般采用最佳实践,通过丰富实例来说明元数据的应用方法,可能针对多个标记方式(例如XML DTD或RDF)或多个应用协议有多个范例。元数据翻译文本信息,为多语种环境下准确表达元数据定义和使用要求建立标准文本;这些文本可能在本地登记系统,也可能在其它系统上而被链接。元数据转换模块、描述或链接该元数据格式与通用元数据格式、其它主要领域元数据格式等的转换映射表定义,甚至可以指向转换程序模块。
C.元数据语义定义信息,主要指元数据所依靠的语义体系,具体体现可能是元素字典、语义网络、概念集等,从不同深度支持对元素语义的查询、验证和推理。元素的基本语义一般采用ISO 11179规定的10个属性定义;元素字典将元素作为对象进行登记,详细记载元素名称、唯一标识符、概念含义、应用范围、与其它概念或元素的层级和关联关系等,例如INDECS元素字典[9]。语义网络侧重记载元素概念与其它概念的逻辑关系,例如作者与文献、人物与事件、河流与城市、疾病与医疗过程等,例如UMLS Semantic Networks[10]。概念集在描述概念层级体系的同时,描述概念属性、概念间关系和概念关系推理规则,例如OIL[11]等。
(2)元数据规范内容的描述方式:在MR中,元数据规范信息可以是文本文件或数据库记录方式,供人工阅览。也可以是计算机可识别形式。例如格式定义可采用XMI DTD/Schema模本,元数据定义者信息可采用专门的基于XML的元数据规范,转换模板可采用XSLT语言描述,内容编码体系可采用基于XML的词表描述语言(例如VocML),编制范例可以直接用基于XML的记录描述形式,语义定义可采用基于XML的描述语言(例如XTM、OIL等)。即使是元数据编制模块、转换模块等软件工具,也可以用WSDL语言进行描述。MR的发展趋势是自动检索、关联和循证,因此利用计算机可识别方式描述元数据规范信息将是MR的基本要求,MR可以在文本或数据库记录形式的登记信息中嵌入机器可读文本的链接信息,而且当登记信息(无论文本或数据库记录)本身用计算机可识别方式描述时,可支持机器直接通过链接调用相关的机器可读文本。
(3)元数据规范内容的关联形式:MR中(尤其是跨命名域MR)涉及许多相互关联的内容。一方面,同一元数据格式与涉及它的应用规范、内容编码体系、使用指南、编制范例、编制模块、转换模块、翻译文本等应用工具间相互关联,可以支持人们查询“使用到这种格式的应用规范有哪些”、“这种格式的使用指南(或编制模块…)是什么”等同题。这种关联通过在相应登记信息中嵌入对相关应用工具的链接来描述,例如在应用规范中链接所复用的格式、所采用的内容编码体系和使用指南、可供选择的编制模块、与其它元数据格式的转换模块等。MR将建立数据模型来描述这些登记对象间的关系,并通过数据库表关联成规范链接体现出来。另一方面,内容关联可以涉及不同元数据格式攻应用格式间的内容,例如同一名称元素可能出现在不同格式中(可能具有相似或相异的语义),同类资源类型可能被不同格式以不同方式描述等等,支持人们查询“这个元素在其它元数据格式中是什么意思”、“有什么元数据格式用什么方法来描述这种资源”、“这个格式的这种元素与另一格式的某个元素是什么关系”等问题。这些关联可以通过数据库检索来表现,也可以通过基于RDF/RDFS的描述来体现。
(4)登记系统的具体操作功能:
A.登记操作。MR支持人工登记,通过上载模板将各个规范文件上载,根据上载者填写的信息对上载文件进分类和组织,并可依据模板信息进行自动发布,也支持自动登记,元数据维护机构可利用MR的登记API上载要登记的有关定义信息。MR将为所登记的定义文本建立相应的元数据,这些元数据可直接从上载模板中提取,或者从机器可读的定义文本中提取。
B.数据管理。当一个元数据规范被登记时,产生两类信息:关于被登记规范的描述信息(关于规范的元数据)和规范文本本身。前者一般用数据库方式予以组织,后者则通过结构化文本目录组织,两者之间通过元数据记录中的链接来连接。当然,MR允许某个Registration Authority(RA)只登记关于规范的无数据,建立与仍存放在RA的实际规范文本的链接,但并不实际上载规范文本。一个元数据格式的相关定义信息或应用信息可能被不同的系统在不同的时间登记到MR(例如不同系跃的关于同一种格式的多个应用规范、关于某个元素的多种内容编码标准等),因此MR要能保证相关的规范文件被相关地链接。这意味着在上载登记时要按照MR数据模型来描述上载规范文件的类别、对象、关系等,同时MR要确认新上载文件与已有定义文件的关系,并通过有效的内部组织结构来标识这些关系。
C.检索与发布。MR的发布往住通过一个Web服务器实现,支持多种检索,尤其应该支持基于关联关系的检索。MR也应支持浏览,根据命名域和规范类型来浏览显示有关信息。检索和浏览可以是专门的系统机制,也可以采用公共的检索界面(例如用WSDL描述),描述信息在公共服务登记系统登记,支持智能代理对它的发现、配置和检索。
D.元数据解析与转换支持。MR利用所登记的元数据规范、元数据内容关联等方式,可以支持对元数据定义信息的逐层解析,例如元素来自什么命名域、语义是什么、内容编码标准是什么、采用什么描述模本、编制指南是如何要求的、有无编制范例等。解析可以是人工的,通过关联查询来分析了解;解析也可以是自动的,通过MR数据库所记载的关联关系自动揭示、链接、调用。在跨命名域MR中,可以利用各个命名域的元素字典、元素语义网络、概念集(Ontology)等,循证元素语义定义和语义关系。通过查询描述同一概念或同一对象的元素名称,分析它们的语义对应程度,确定这些元素的转换关系;可查询元数据格式间的转换关系或转换模板,支持应用系统直接复用有关转换模块;可循证元素的语义定义链,利用共同的根概念集(Root Ontology)自动建立不同命名域中元素的语义关联,从而辅助构建元素转换关系。
E.MR自我描述。MR本身是一种网络用服务(Web Service),可按照规范形式(例如WSDL)进行开放描述,描述信息被登记到分布服务登记系统,供第三方系统查询和调用。
3 ISO/IEC11179与元数据登记
ISO/IEC11179是数据元素规范描述和标准化(Specification and Standardization of Data Elements)的一项国际标准,为各类MR提供了一个基本框架。ISO/IEC11179在2000年前原为数据元素(有时又称为数据元—Data Elements)的描述和登记规范,2000年开始更名为Metadata Registry,规定了完整的数据元素登记机制。
3.1 数据元素登记
ISO/IEC11179分为六个部分[12]:
(1)Part 1:Framework for the Specification and Standardization of Data Elements(数据元素规范明和标准化的框架)。按照它提供的数据元素模型(图1),一个数据元素由三部分组成:
图1 数据元素模型
A.对象类(Object Class),关于客观世界中一类事物、概念或过程(统称对象)的抽象描述,同类对象属性和行为基本相同。
B.属性(Property),对象类所有成员的共有特性,用以描述或区分对象的特质。
C.表述(Representation),数据元素允许的数据类型(Data Type)、值域(Value Domain)、测量单位(Unit)等。
对象类和属性的组合为数据元素概念(Data Elememt Concept,DEC),例如家庭收入,可以有多种可能的表述方式(例如按等级或按数额)。从这个意义上讲,一个数据元家可以看成由DEC和表述方式组成。
(2)Part 2:Qassification for Data Elemems(数据元素依据的分类体系),描述如何把数据元素的各个组分(对象类、属性、数据类型、值域、测量单位等)与有关的分类体系或词表(借用Dublin Core的语言,称为内容编码体系)联系起来。ISO/IEC11179鼓励人们从成熟的编码体系中选择数据元素的组分对象,从而保障数据元素定义的语义清晰性、逻辑一致性、属性或表述的继承性,提高数据元素定义的效率和互操作性,这些编码体系包括关键词(Keyword)、叙词(Thesaurus)、分类与概念集(Taxonomy/Ontology)。当从某个编码体系中选择某个词汇或类别来描述数据元素的某个组分时,需要标明他们之间的关系,因此该部分具体规定了这种关系的描述方法。
图2 关系描述方法
在逻辑上(图2),标明被描述的组分(Classified component)、编码体系类别(classification scheme type)、编码体系名称(Classification scheme name)、编码体系版本(Classification scheme version)、编码体系类目类别(Classification scheme item type)和缉码体系类目值(Classification scheme item value)。由于与数据元素相关的编码体系及其具体类目都被记录,通过链接和浏览相关的分类结构,可以支持对数据元素及其相关关系的查询和验证。
(3)Part 3:Basic Attributes of Data Elements(数据元素的基本属性),定义了最基本的元素属性,包括:Name,元素名称:Identifier,元素标识符;Version,版本;Registration Authority,登记机构;Definition,定义;Datatype,数据类型:Language,元素语音:Obligatlon,使用约束;Maximum Occurrence,最高次数;Comment,注释。
(4)Part 4:Rules and Guidelines for the Formulation of Data Definitions(数据元素定义形成的规则和指南),包括数据定义规则和指导原则,前者指出一个数据定义必须是唯一的,要用一个描述性短语独立地声明该概念是何物,包含可理解的缩略语,表达时不得嵌入其它数据元震或底层概念的定义,后者建议数据定义应该清晰简要地声明概念的基本含义,能独立存在,表述时不能嵌入推理性、功能性用途,要避免循环推理,对相关定义使用一致的术语体系和结构。
(5)Part 5:Naming and ldentification Principles for Data Elements(数据元素的命名和标识原则),为数据元素命名和设计非智能标识提供特定的规则和指南,对数据元素的命名与识别可以用5个具体属性来完成:name(名称),context(应用环境),registration authority identifier(登记机构标识)、data identifier(数据元素标识)、version identifier(版本标识),其中名称和应用环境成对出现,一个数据元素在一个应用环境中至少应有一个名称,每个元素在一个登记机构中应有一个唯一标识符,由登记机构标识、元素标识和版本标识联合构成。
(6)Part 6:Registration of Data Elements(数据元素的登记),描述了数据元素登记管理机构的功能和规则。一个登记人通过一个权威登记系统为自己的数据元素申请一个有效(Valid)的唯一标识符,从而实现该元素在该登记系统的登记。在登记过程中,数据元素登记可能经历若干登记阶段(图3),例如:临时登记(Incomplete),可能变化;申请登记(Recorded),正式提交登记的元素;被确认(Certified),经过验证,符合登记的技术和管理要求;标准化(Standardized),按照有关标准规范化处理登记的数据元素。
图3 数据元素登记阶段
3.2 MR模型
2000年修改的ISO/IEC11179[13]主要对象是第三部分,专门对MR结构进行了定义(图4),其构成部分包括数据元素登记管理(Administration)、数据元素概念(Data Element Concept)、数据元素命名与标识(Naming and Identiflcatlon)、数据元素(Data Element)、概念域和取值域(Conceptual and Value Domain)、数据元素取值所依赖的分类体系(Classification)。
图4 MR结构定义
11179-3(2000)对每个部分涉及的实体、实体属性、实体关系都用UML进行了细致的描述,例如在责任机构部分定义了登记机构(Registration Authority)、登记机构所隶属的机构(Organization)、所登记和管理的数据集合(Administered Component)、参考文献(Reference Document)、登记机构内的具体登记者(Register)和提交者(Submitter)、登记者与提交者的联系方式(Contact)等,而且对每个具体实体定义了相关属性。
在11179-3(2000)中,元素对象关系被定义为一个宏数据模型(图5),定义了概念域(Conceptual domain)与数据元素概念(Data element concept)、数据元素概念与数据元素(Data element)、数据元素与数据元素实例(Data element example)和导出形式(Data element derivation)及导出规则(Deviation Rules)、数据元素与取值域(Value domain)、取值域与列举值域(Enumerated domain)和非列举值域(Non—enumerated domain)、列举值域与允许取值(Permissible Value)、允许取值与值义(Value meaning)和实际值(Value)、取值域与概念域的关系。例如一个概念域可以有多个取值域,一个数据元素有一个取值域,等等。11179-3(2000)的这个宏数据模型以及各个构成部分的更为详细的数据模型,作为MR要管理的数据对象及其属性和数据对象间关系的描述,为设计MR数据结构提供了基础。对比ISO/IEC11179-3:1994,数据元素的属性在Attribute Name属性名称、Definition定义、Ob-ligation使用约束和Datatype数据类型上都发生了变化,例如Name名称这个属性,在11179-3(1994)中属性名称是Name,在11179-3(2000)中是“Administered data component”、“Administered Component”、“Designation”、“Name”,而数据类型在前者中是Character String字符串型,后者是String串型。
图5 一个宏数据模型