面向信息资源整合的元数据注册系统研究,本文主要内容关键词为:资源整合论文,数据论文,系统论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G203文献标识码:A文章编号:1007-7634(2008)12-1878-04
1 引言
在信息资源建设中,以元数据描述框架为支撑的信息集成、检索、资源共享等信息服务系统的形成,实现了科技信息资源从无序状态变为有序状态,这也成就了我国数字化资源建设的业绩。但是由于资源特色、面向用户、服务形式不同,这些系统所依赖的元数据是根据需要各自建立,形成了不同的定义和应用规则,即使使用某种“标准”的元数据,大多也进行了不同的扩展,形成不同的应用格式。随着信息资源网络化和数字化的发展,众多的分布、异构、自主、变化的信息资源和服务系统构成了越来越开放的信息环境,对已建成的数字化资源的共享利用提出了新的挑战。如何针对数字化建设现状和未来发展趋势,实现信息资源的整合,是信息服务走向知识服务面临的重要课题。
对于信息资源整合的概念可从狭义和广义两方面理解,从狭义方面讲,它是指将某一范围内的,原本离散、多元化异构的、分布的、信息资源通过逻辑的或物理的方式组织为一个整体,使之有利于管理、利用和服务。广义的信息资源整合概念,就是把分散的资源集中起来,把无序的资源变为有序,使之方便用户,它包含了信息采集、组织、加工以及服务等过程。在知识服务背景下,信息资源整合是指为了满足多元化、个性化、集成化知识服务的需求,以信息资源共享和增值为中心,从数据、系统、标准、管理实现多维度的协同。
在知识服务环境下,信息资源整合的需要主要表现在两方面:一是在数量上需要整合越来越丰富的信息资源,包括数据、应用、服务等;二是在质量上对整合水平的要求越来越高,包括扩展性、可靠性、安全性、互操作性、重用性和高效性等。因此,为了满足上述要求,必须在现有系统资源和服务基础上,以整合为出发点,开展对各种元数据进行协同的探索。
信息资源开发和共享是信息资源管理的核心,但是目前依托的网络和系统层面技术整合方式不仅无法从根本上解决数据异构的难题,而且也不能满足知识服务的需求。而元数据注册系统可以解决这一难题,元数据注册(登记)系统(Metadata Schema Registry,MR),是由DCMI(Dublin Core Metadata Initiative)提出,对元数据定义及其编码、转换、应用等规范进行发布、注册、管理和检索的系统,以支持开放环境中元数据的发现、识别、调用以及在此基础上的转换、挖掘和复用。在元数据注册系统内,通过元数据从语义层面的关联和协同可以有效的进行信息资源的整合,支持智能检索、定题服务、主题聚类、内容挖掘等知识服务,从而实现信息资源的开发和增值。
2 信息资源整合
信息资源整合趋势是“物理→技术→逻辑”[1],物理模式是在基于MARC技术进行的资源整合,以纸质文档资源为整合对象,目标是信息资源的数字化进程;技术模式是指在20世纪90年代以后依托信息技术进行的系统整合,完成异构数据的集成,信息资源整合的对象是数据,整合的目标是提供信息服务;逻辑模式是指在语义网络环境下,依托元数据、模型、流程、标准进行信息资源管理,提供知识服务的整合方式,信息资源整合的对象是信息,整合的目标是提供知识服务(图1)。
图1 信息资源整合发展趋势
我国学者从1998年开始研究信息资源整合,通过文献调研,以“信息资源整合”为关键词从清华同方“中国期刊论文全文数据库”中找到相关文献400篇(1998年至2007年10月),其中在2001年至2006年专论信息资源整合的论文有316篇;主题包括三大类,一是信息资源整合的方法,包括系统、模型、流程、门户、本体、元数据、语义、标准等;二是信息资源整合的关注点,包括数据、信息、知识等方面;三是信息资源整合的目标,包括信息服务、知识服务等方面。目前国内对于信息资源整合的研究主要是以系统为视角,以数据为对象,以信息服务为主要目标。随着互联网日益普及与深入应用,信息资源整合的环境已经由系统层面转变为语义网(Semantic Web)环境,整合方式也从异构数据集成逐渐转变为面向知识服务的Web信息资源的整合。近年来,在信息资源整合的方法上,元数据、语义和标准逐渐成研究关注的新热点,在信息资源整合的对象研究方面,关注点逐渐从数据转向知识,在信息资源整合目标方面,知识服务正成为研究的新视角。在知识服务背景下,基于元数据方法进行信息资源整合研究,作为新兴研究领域,还有很大的空间有待探索。
3 元数据注册系统
目前,对元数据注册系统的研究正在兴起。元数据注册系统的基本功能是对元数据的登记操作、数据管理、检索与发布、元数据解析与转换、自我描述,其功能原理可描述可见图2。在元数据注册系统中,网络上不同类型的信息资源可以采取人工或者自动方式进行登记操作,产生两类信息,分别是关于被登记规范的元数据描述信息和规范文本样本。元数据注册系统根据统一的标准模型(ISO/IEC 11197)进行语义、编码、标准解析和转换,按照领域或者主题建立元数据规范目录列表,并映射到各自所对应的物理信息资源,并以Web服务的形式在网络进行发布。用户基于元数据注册系统可以进行三类操作,一是检索/登记,即检索进行登记的元数据规范及关联的规范,制定自己信息资源的规范,或者登记自己的元数据规范;二是数据协同,不同资源类型的系统进行数据交互时,元数据注册系统可以根据它们注册的元数据规范提供转换模式,自动进行转换服务;三是知识服务,即通过元数据注册系统网络服务接口进行跨库智能检索、内容挖掘等操作,元数据注册系统根据用户请求的资源种类,到各关联资源库中进行检索、解析、转换,最后以用户选择的格式提供结果[2]。
元数据注册系统具有四大服务功能,分别是元数据管理、元数据互操作、元数据开放应用、元数据复用[3]。元数据管理是对各种不同信息资源的数据格式、元素、元素语义定义、元素应用规则、元素映射关系进行记录,支持这些系统对这些资源的管理利用和整合;元数据互操作是集成利用不同系统的资源和服务,发现、解析、转换这些系统的元数据,来支持跨系统检索、获取和数据复用;元数据开放应用是指能够帮助用户发现、识别和利用不同系统资源,支持自动解析、识别和利用元数据定义;元数据复用是指登记不同信息系统的元数据定义、映射表、转换模板,并建立它们之间的解析和推理链接,从而以经济方便的方式支持更大范围内元数据规范信息的发现和复用。由上分析可以看出,这些功能和信息资源整合的目标有着紧密关联的。目前,国外的研究覆盖数字图书馆、开放档案信息系统、门户网站、电子商务、数字科研等方面[4];国内的研究局限在数字图书馆等个别领域,主要是中科院张晓林等学者对元数据标准规范开放登记系统的研究。笔者在CNKI只检索到7篇文章(检索篇名元数据+注册或者登记),主要以介绍性论文为主。
在DCMI和W3C组织的推动下,国外已经建立了一些示范性的元数据注册系统(表1)。如面向网络信息资源的RDCMI MR等系统,面向信息资源描述的CORES MR等系统,面向电子商务应用的e-bXML Registry等系统,面向电子政务应用的美国GILS(Government Information Locator Service,“国家信息定位服务系统”)和英国的NKS- MDR(National Knowledge Service Metadata Registry,“国家知识服务元数据注册系统”)等[5]。国内只有DC元数据注册系统的中国镜像系统和中国科学院开发的中国生态元数据管理系统。
综观国内外研究可知,由于元数据注册系统涉及图书馆、情报、计算机等学科,综合运用难度较高,国内尚处于引进国外的先进理论并进行探索的阶段。国外研究虽然涉猎于理论、方法、技术、应用等多个层面[6-7],但是在面向信息资源整合方面的研究,尤其是在语义环境下面向知识服务的研究,仍然是一个开拓性的前沿研究课题。
4 面向信息资源整合的元数据注册系统模型
在本文中,笔者构建了面向信息资源整合的元数据注册系统模型,该模型以网络服务的方式将信息资源整合中涉及的元数据规范进行有效的语义集成。根据从用户需求到数据标准整合这一演化进程,该模型包括五个层次,分别为用户层、服务层、链接层、模式层和标准层(图3)。
4.1 用户层和服务层
在用户层,以Web服务或者智能代理的方式接受用户的主题聚类、跨库智能检索、内容挖掘等知识服务请求。在服务层,通过解决方案服务接口将用户的请求传送到服务响应组件,诸如服务通道导航、标准注册、语义转换,这些服务提供了对异构信息资源的整合模式。
4.2 模式绑定层
模式绑定层的功能就是记录在元数据注册系统中所有标准的关联绑定模式,以便进行参考和复用。“模式绑定”通过“应用绑定接口”和相应的元数据链接,来解决元数据编码的语法问题,一些应用请求经常可以使用多种方式进行绑定,并且大多数绑定模式能够不同的元数据,最终的绑定描述定义在“应用绑定”模块,应用需求和应用模式的集成意味着软件开发者可以在更大的范围内协同元数据标准,这些标准可能在语义上和概念上不兼容。
元数据记录由统一的管理机构和相应系统的信息资源进行映射,并且按照互操作接口的要求定义这些资源的绑定方式,这个过程对用户是透明的,用户不需要定义资源或者元数据如何存储。
4.3 应用模式层
在应用模式层,对于一个具体的信息资源来说,会有多种元数据应用模式,因此在元数据、信息资源、领域应用模式之间会存在一对多的关系,这样用户就可以根据自己的需求选择需要的应用模式,而不限定于具体的元数据格式,而且同一应用模式也可以适用多个服务。应用模式以伪语言的方式定义并且以软件构件方式绑定接口,这样在元数据注册系统中进行应用模式和特定服务之间的构件组装,并可以作为模版为新的应用提供复用。
4.4 标准层
在标准层,通过元素/编码转换声明接口将应用模式映射到相应的元数据命名空间和元数据标准。这就需要采用元数据模型定义描述信息资源的基础结构,在这个基础结构中,通过设定的流程,可以定义描述指定信息资源的要素及其相互之间的关系,同时也用来构建通用元数据标准命名空间。例如,在都柏林摘要模型(Dublin Core Abstract Model)中定义了“元素”、“元素定义”、“编码规则”等[8-9]。通常,这些元数据模型是基于通用元数据标准,例如ISO/IEC 11197、DCMI或者IEEE,也可以为一些特殊用户定义领域元数据模型。
图3 面向信息资源整合的元数据注册系统模型
5 结论
长期以来,从系统集成和网络整合角度进行信息资源整合的传统方法往往难以突破数据异构的瓶颈,本申报项目通过选择典型领域,利用元数据的复用、开放、可协同等特点,以数据标准为核心,以数据增值为目标,以知识服务需求为驱动,在网络架构不变,软件系统数据访问部分改造的前提下,以最小的代价实现信息资源整合,使整合方式从依赖系统大量投资的粗放方式向以元数据应用为核心的节约方式转变,将具有重要的实际意义。
收稿日期:2008-04-07