开放式数字信息服务系统的概念、结构与技术_元数据论文

开放数字信息服务体系:概念、结构与技术,本文主要内容关键词为:服务体系论文,概念论文,结构论文,数字论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G250.76

CLASS NUMBER G250.76

1 开放数字信息服务体系的概念与要求

开放数字信息服务体系(下称开放体系)指开放集成各种分布、异构和多样化数字信息资源和数字化信息服务系统、动态构建满足各种用户群或业务流程需要的虚拟信息服务系统的机制[1~3]。

开放体系的发展背景包括:

(1)分布环境:网络数字信息环境的基本特点是资源和系统的分布性和异构性,而且这种分布性和异构性是自然、正常、合理和积极的,能有效利用各方面力量,灵活适应复杂的技术、经济、管理和知识产权等因素,将作为数字信息环境的主流形态而不断发展。

(2)集成服务:为方便地在分布环境中搜寻、获取和利用信息,用户需要有效的服务集成机制,对分布和多样化酌资源和服务系统进行搜寻、调用和集成,支持互操作和整合处理以及相应的集成管理(包括身份认证、使用授权、权益管理、参考咨询、审计与支付等),形成逻辑服务。

(3)定制要求:为灵活适应具体问题环境或具体业务流程的需要,用户需要有效的个性化定制服务,根据用户需要在整个分布环境中发现、解析和调用需要的资源和服务系统,并按照自己的知识组织体系或业务流程析取、嵌套或重组这些资源或服务。

(4)移动目标:随着信息技术和用户需要的不断发展,数字图书馆体系结构不断变化,使得我们面临既要按照一个体系来构建或组合相应的资源与服务、又不得不适应新的体系结构及其相应的资源与服务类型的两难境地。

开放体系充分承认和积极适应上述环境要求,力求建立一种灵活的机制,开放地容纳现在和未来的复杂的分布的资源与服务,有力地支持它们的动态集成与定制,有效保障整个系统的可伸缩性、可扩展性和可持续性。

为实现这种机制,开放体系要求:

(1)开放描述:利用开放语言和规范元数据机制,对信息系统的信息对象、知识组织体系、管理机制、处理流程、业务界面和交换传输机制等进行描述,并通过元数据搜寻发现机制和元数据登记系统等来支持对这些元数据的搜寻、解析、转换,从而支持对分布信息系统的发现、集成和整合。

(2)分布服务:利用开放语言和分布服务登记系统机制,对信息服务系统(例如元数据转换、整合检索、个性化集成定制、用户身份认证等)作为第三方服务模块进行规范描述、公共登记和开放搜寻,支持其他信息系统利用服务登记机制来发现、捆绑和调用所需要的服务模块,从而支持灵活配置所需要的信息系统或信息服务流程。

(3)开放集成:利用开放集成、开放链接和唯一标识符等机制,支持按照整合需要或业务流程来发现、嵌入和配置相关的信息资源、信息服务或信息处理过程,支持对嵌入和链接的情景解析和“适用复本控制”,从而支持灵活的资源集成和服务流程集成。

按照上述要求,开放体系将能灵活地支持分布资源与服务系统的方便接入、无缝调用、功能整合、逻辑集成和个性化管理,从而在分布信息环境下有效支持基于用户需求与过程的集成与定制。

2 开放体系的总体功能框架

我们可用图1表示开放体系的总体功能框架。在这个开放体系中:

图1 开放体系的总体功能框架

(1)分布的数字信息资源系统按照标准方式进行开放描述或封装成开放界面,将描述或封装规范于公共元数据登记系统,以登记或通过其他形式发布,支持基于开放描述规范的系统互操作。

(2)元数据登记系统通过内部或公共方式支持各类元数据规范的登记,支持对描述信息的长期管理和开放检索,支持第三方系统对元数据规范的发现、链接、解析。元数据登记系统可以是分布的,分别对某类元数据登记,本身也作为服务模块在分布服务登记系统登记。

(3)分布服务登记系统通过内部或公共方式支持各种信息系统的规范描述,支持对描述信息的登记、长期管理和开放检索,支持第三方系统对信息系统描述信息的发现和解析。服务登记系统也可以是分布式的,分别对某类或某区域的服务模块登记,本身也作为服务系统被登记和被开放搜寻。

(4)信息门户体系根据特定用户需要对分布的相关信息资源与服务(包括网络资源、数据库、数字文献、目录与馆藏、文献传递、参考咨询、数据分析等)进行整合,并按服务流程进行链接,将数字信息服务整合到用户桌面。信息门户可以通过分布服务登记系统来搜寻资源与服务,通过集成定制服务模块来选择和集成它们,本身也可作为信息系统注册到服务登记系统,支持第三方对自己的搜寻和解析,从而支持其它系统将自己集成到新的信息门户或嵌入到用户信息系统中。

(5)协调机制利用开放规范,支持对各个公共登记系统的开放搜寻及在此基础上对资源与服务的分析与选择,支持按照业务流程对所选择的资源与服务系统的链接、调用、嵌套和配置。协调机制中的某些功能(例如流程模式设置、服务配置、链接解析、元数据转换等)可以作为分布的第三方服务模块被开放描述和注册登记。协调机制也可以是分布式的,本身甚至可作为第三方服务系统。

当然,图1是概念示意,还可能包含许多其他或未来的规范和服务,而且许多列出的模块本身可能也是一个分布体系,例如元数据转换服务就可能由若干分布的服务模块来分别实现不同类别的元数据转换,而不同的唯一标识符各自通过自己的解析系统实现逻辑标识符与物理地址的转换。

3 信息系统的开放描述

开放描述(Open Description)基于扩展的元数据概念”[4]。人们关于元数据的认识正逐步深化,元数据不再仅仅是MARC那样的描述信息对象的数据,已经演变成通过规范方式描述信息系统各个层次内容的数据,这些内容包括资源集合(如图书馆、网站)、知识组织体系(如分类法、词表)、管理机制(如用户使用控制、知识产权管理、隐私保护等政策与流程)、服务模块(例如检索功能与条件、交易过程与交易条件)、信息系统(例如系统信息架构、功能组合和运行控制方法)等(见图2)。

图2 元数据规范描述信息系统各个层次内容数据

信息系统通过开放语言和规范机制来实现对自己系统各层次内容的开放描述:

(1)开放性定义(Openly specifled),即元数据的定义本身是公开可获取的和采用标准方法实现的,可通过标准或通用方法来识别和解析元数据内容。

(2)基于语义的开放性确认、验证和解析(Openly and semantically identifiable,verifiable,and parsible),即元数据的语义本身是公开可获取的和采用标准方法实现的,可通过标准或通用方法来识别、验证和解析元数据的元素语义。

(3)开放性可交换、可复用、可继承和扩展(Openly reusable,sharable/exchangeable,inheritable,and extensible),即可以基于开放标准对元数据进行交换,并可在开放标准基础上在元数据集间进行元素的复用、继承和元数据集扩展。

(4)计算机可识别和理解(Machine understandable),即能利用计算机对元数据以及用元数据标记的信息内容进行识别,而且支持软件代理自动解析元数据和理解用元数据标记的信息内容。

(5)开放搜寻(Openly harvestable),即通过在公共元数据登记系统或在自己系统公知位置登记所采用的描述规范及其支撑定义规范,支持第三方系统对这些描述信息的搜寻和解析以及基于这些描述信息对自己系统的利用。

按照上述要求进行的描述,为系统各个层次内容提供了开放的定义、描述、解析和应用机制,为分布、异构系统的智能化互操作和整合提供了坚实基础。为了实现这种开放描述,需要一系列相互支持的方法、技术和系统。图3根据W3C的基于XML的开放语言体系描述了一种技术体系[5]。

(1)信息内容元素由ISO 10646(UCS)/Unicode来编码,由统一标识符对经过编码形成的信息对象进行识别和确认;

(2)信息单元的内容、结构、格式等由基于XML的开放文件标记技术进行定义、描述、标记和组织(对非文本文件则通过其它公开和通用格式予以组织,例如PDF、JPEG、MPEG等);

(3)对通过(1)和(2)所形成的数字信息资源进行描述的基本方法及描述中所采用的基本语义元素和语义规则元素,则由RDF和RDFS进行规定;

(4)利用XML/RDF/RDFS,对各应用领域中描述信息内容对象(Information Objects,描述结果仍称Metadata)或信息对象集合(描述结构称为Collection Level Descriptions)的元数据进行规范描述;

(5)利用XML/RDF/RDFS,对信息内容或信息资源体系的知识组织体系(如叙词表、分类法、Site maps、Information Architecture、Ontologies)等进行规范描述,对信息内容和信息对象间容的语义关系网络及其推理规则进行规范描述,建立网络化知识组织体系(Networked Knowledge Organization Systems,NKOS);

图3 根据W3C基于XML描述的技术体系

(6)利用XML/RDF,对信息系统服务的管理机制及其推理分析规则进行规范描述;

(7)利用基于XML的WSDL或ebXML CPP等机制,对信息系统进行规范描述,形成基于网络的信息服务描述;

(8)利用基于XML的UML/WSFL或ebXML BPSS等机制,对信息服务过程进行规范描述,支持业务流程的开放描述和配置;

(9)所有这些描述将通过基于XMLSignature的数字签名方式进行认证,而这些签名和认证又将依靠可靠的法律、经济和社会运作规则来形成可靠的认证与信任机制。

支持开放描述的系统仍然可以是一个独立系统,拥有自己的内容格式、数据库结构、元数据格式、运行控制和客户端,但通过开放描述向外界提供可公开发现和识别的规范界面,支持M2M的互操作。

4 分布环境的分布服务

分布服务机制源于分布对象技术,将各种信息系统视为一个数字对象,对其界面、功能、数据流、传输协议等进行描述。分布服务机制利用基于XML的开放语言实现将信息系统作为一个整体的规范描述,利用登记系统实现这些描述信息的公共登记和开放搜寻,通过开放协议支持基于规范描述的信息系统调用,利用对这些系统的开放调用实现信息系统的复用,也避免了多个系统独立地开发相似的但往往不能互操作的功能模块。这种机制打破了CORBA、J2EE、DCOM等传统分布对象体系的复杂性和封闭性,灵活支持网络环境的分布对象调用和复用,其典型代表是Web Services Architecture[6]和ebXML[7],它们源于电子商务领域,可方便应用于数字信息服务。我们以Web Services Architecture分布服务体系(图4)为例简单说明这种机制的特点和可能技术:

图4 Web Services Architecture分布服务体系

(1)网络环境下各个分布的信息系统或其具体功能、功能组被视为服务系统,它们应能以规范的XML消息传递方式(例如SOAP协议[8])在网络环境下通过远程程序调用或数据单元传递进行交互。这些服务系统可以作为服务请求者调用其它服务系统,也可作为服务提供者被其它服务系统调用。

(2)利用基于XML的标准描述语言(例如WSDL[9]),可以对这些服务系统的操作类型、输入输出数据流、数据类型、与传输协议和数据格式及安全控制机制等的捆绑方式、网络位置等进行规范描述,描述结果是一个规则的XML文件,作为WEB服务模块(Web Services)成为被描述服务系统的标准界面(类似于CORBA的IDL)。

(3)WEB服务描述文件可以通过多种方式向网络上其它信息系统发布(Publish),例如直接以电子邮件、FTP文件等方式传送给服务请求者,置于本系统WEB服务器根目录指定支持搜索引擎搜寻,或者在内部或公共的分布服务登记系统(Service registries)进行登记。

(4)公共登记系统(例如UDD[10])通过标准方式接受WEB服务描述文件的登记,并进一步登记服务系统的其它识别和联系信息,支持通过标准方式对描述文件和其他信息的检索。

(5)作为服务请求者的服务系统可通过多种方式发现并选择自己所需要的WEB服务模块(即服务提供者),例如直接向服务提供者索取、通过搜索引擎或OAI[11]方式对服务提供者进行搜寻,或检索内部或公共的分布服务登记系统。

(6)服务请求者可以根据服务提供者的WEB服务描述文件,与相应传输协议、数据格式、程序语言、安全控制机制等进行事先或实时的捆绑(Binding),从而支持按照描述文件规定的方式调用服务提供者的服务功能。

服务请求者、公共登记系统和服务提供者间的信息传递都是基于SOAP,而SOAP又是基于XML并可捆绑在HTTP上,因此整个体系可通过万维网方便地实现。而且,可通过开放流程描述语言(例如WSFL[12])对组成业务流程的服务角色、服务功能(服务系统)和功能过程以及相应的数据需求和控制条件等进行描述,从而支持基于业务流程来请求、调用和组合多个服务系统。

ebXML作为基于XML和WEB的开放电子商务体系,也采用了类似的分布服务机制,只是在ebXML中服务系统及其相互捆绑通过CPP/CPA[13]来描述,商务流程通过BPSS[14]描述,公共登记系统通过ebXML Registry[15]实现。

其实,分布服务机制可以分步地扩展或优化。前期可支持分布系统的简单登记和搜寻,逐步支持基于不同层次元数据的信息系统规范描述、公共登记和开放搜寻,然后逐步支持信息系统的调用、配置和基于应用领域的业务流程开放描述与流程配置。

需要指出,数字信息服务领域对分布服务并不陌生:OAI机制就提供了对分布系统元数据进行开放搜寻、公开检索、支持第三方增值服务的简单体系;SDLIP协议[16]定义基于XML的检索界面描述文件,对分布的异构检索系统进行封装;STARTS协议[17]则基于SOIF格式对检索数据源、数据源汇总格式、检索式格式和结果格式进行描述,支持客户端或宏检索系统对这些检索系统进行选择、检索和结果整合。即使是我们熟悉的Z39.50协议,也考虑在XML、URI、SOAP和HTTP基础上重新构建一个基于简单SEARCH核心功能、面向各类元数据或数据对象、可扩展的分布检索机制[18]。由于分布服务机制建立在开放网络规范上,将更好地支持信息系统的方便接入和灵活调用,能有效地以各种第三方服务模块来支持分布、异构系统的集成,也具备更好的可伸缩性和可扩展性。

5 开放体系的开放集成

开放集成涉及两个方面:一是横向地将多个资源或服务系统(以下统称资源)集成到一个定制的逻辑整体中,每一个被集成资源通过必要的转换后按照逻辑整体的要求进行表现,呈现在用户面前的是一个整体系统。二是纵向地将多个资源按一定业务过程集成到定制的逻辑流程中,资源之间的链接、数据传递、操作流动等都隐蔽地进行,呈现在用户面前的是一个整体功能过程。

许多数字图书馆系统或基于网络的图书馆资源管理系统都正在提供能够动态集成不同资源的系统平台,例如Greenstone数字图书馆系统[19]、Ex Libris网络化图书馆系统[20]和TriGem公司的TG-XMDL系统[21],但它们都还是利用自己的专门技术实现集成,集成定制本身也不能复用。开放集成则通过开放语言描述集成定制结构或流程,通过分布服务和开放描述支持对资源的动态的搜寻、调用、解析和转换,通过开放链接进行数据对象的传递,从而使集成本身可解析、可复用、可伸缩和可扩展。

横向开放集成的主要技术线路包括:

(1)如果将横向集成构成的整体视为一个门户(Portal),所集成的资源就是所谓子门户(Portlets),对门户里子门户的类型、数量、特征、相互关系(包括位置、流程和其它逻辑关系)等的规定就是这个门户的集成结构,它可用基于XML的开放语言描述(例如RSS[22]、OCS[23]甚至XTM[24]),形成集成结构描述文件,本身可以被开放搜寻、被复用、被析取或组合。

(2)集成结构描述文件本身又可通过基于XML的定制描述模板来配置。定制描述模板可以是逻辑的(即描述用户需要、使用条件、资源类型或地理范围等),通过一定搜索机制以及与集成结构描述语言的嵌套来解析为具体的集成结构描述。定制服务及描述信息管理可以是分布的第三方服务模块。

(3)集成结构描述文件中,可以具体规定被集成资源的集成转换形态(包括所需元数据及其析取和转换、传输捆绑条件、表现形式等),可以规定以分布服务方式直接调用被集成资源而形成子门户,也可以规定由一个第三方集成系统生成符合表现要求的子门户形式再嵌入。同一集成结构中对不同资源可以有不同方法。集成结构描述文件可由支持XML的通用WEB服务器生成具体的集成门户,其中某些功能(例如元数据转换、数据内容析取等)可以依赖第三方服务模块。

(4)集成门户可以通过开放的搜索、选择机制来发现和选择被集成资源,例如公共分布服务登记系统、OAI元数据搜索检索系统、作为分布服务模块的第三方资源评鉴、资源选择和定制描述服务。

(5)集成门户可以通过开放的内容推送方式(例如RSS)来及时收集被集成资源的动态变化。

(6)各种整合服务系统(例如Z39.50检索网关、OAI元数据搜索服务系统等)可以直接作为一个资源被集成到门户中。实际上,集成门户或其中的子门户本身由于被开放描述和支持开放搜寻,可以作为分布资源再被集成到其它集成门户中。

纵向开放集成的主要技术线路包括:

(1)利用基于XML的类似前述WSDL或BPSS的开放流程描述语言,可以定义和描述服务过程所需的各个(可能是分布的)资源及其流程链接条件,形成集成流程描述文件,本身可以被开放搜寻、被复用、被析取或组合。

(2)服务流程中的数据传递可以通过唯一标识符[25]、标准数据封装和开放数据转换方式实现。

(3)服务流程中的资源可以根据用户需要和本地控制条件进行动态选择,这种选择可以直接根据用户流程控制模板、用户权限条件、资源使用控制条件等进行搜寻、选择和配置、或利用OpenURL机制[26]选择、甚至利用扩展的开放链接方式[27]进行动态分析及相应的分析配置,而这些选择功能本身也可能是第三方分布服务系统。

(4)可以在集成流程描述中嵌入解释、辅助等信息,这些信息的产生可能是依靠第三方分布服务系统,也可以在集成流程描述中嵌入身份认证、知识产权管理、支付、审计等功能,这些功能往往是由第三方分布服务系统实现。

我们可以用图5表示开放集成的可能技术线路。

图5 开放集成的可能技术路线

开放体系的实现可以有多种形式(这也是开放体系的要求),可以在简单的核心规范基础上通过标准的扩展方式逐步实现或以多种方式实现。例如,可以基于OAI或LDAP等方式实现简单的服务登记与搜寻,也可以基于扩展OAI[28]或分布式门户体系[29]来增加更多的功能与形式。虽然开放体系的完整实现还有待时日,但按照开放体系要求来构建、描述、登记或集成信息系统则是当前和以后数字图书馆建设必须考虑的问题。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

开放式数字信息服务系统的概念、结构与技术_元数据论文
下载Doc文档

猜你喜欢