基于门户架构的数字图书馆集成框架_数字图书馆论文

基于Portal构架的数字图书馆集成框架,本文主要内容关键词为:构架论文,框架论文,数字图书馆论文,Portal论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

在信息资源分布式网络化的趋势下,开放性和集成性成了数字图书馆的重要特征。现代数字图书馆需要对本地和远程的可访问资源进行组织、管理,保证资源的统一索引和定位,建立用户访问其信息资源的单一入口和知识服务。同时随着因特网的发展,Portal作为一种目前备受关注的新技术,提供了一种以用户为中心,建立单一访问入口的信息与应用集成的理念和方法。在因特网界,Portal一词最初为“门户网站”,如YAHOO、SINA这样的网站,而今的Portal概念则强调以用户为中心,重视内部与外部的资源整合,强调工作流及整体工作效能,提供单点集成界面,实现信息的集中化访问[1]。在方法上,Portal是建立在J2EE基础上的一种具体应用层次的技术,它迎合了数字图书馆内部各种资源进行整合的需要,侧重在应用层和表示层进行系统的整合。因此,Portal成了当前数字图书馆的一种集成解决方案,国内外学者均已开始了数字图书馆门户的研究。虽然Portal技术在数字图书馆中的集成应用包括数据集成和业务集成两方面,但本文旨在讨论数据集成,着重对基于Portal构架的数字图书馆集成框架技术中的信息集成进行探讨,描述了一个分层集成模型,对各个层次的集成功能和各层次的现有集成技术进行了阐述,重点讨论了Portal与Web Service的集成方法,以及跨库集成检索技术,最后探讨了这些集成技术所存在的问题和未来研究的方向。

2 基于Portal的数字图书馆集成模型与技术

在体系结构上,Portal是架构于Web Server和Application Server之上的应用层服务,实质上是平台级的Web应用。因此,Portal技术主要是基于系统的表示层和应用层进行集成,它在业务逻辑层和数据层上的信息集成依赖于其他数据集成检索技术。在此,本文结合数字图书馆现有的数据检索集成技术,归纳总结了一个基于Portal的数字图书馆层次化信息集成模型,如图1所示。此集成模型分为基于本地与远程应用组件的集成、基于用户界面的集成、基于语义的集成、基于链接的集成、基于搜索引擎的集成和基于数据库查询的集成六个层次,以下分别简述各个层次的集成功能与特点。

附图

图1 基于Portal构架的DL信息集成模型

2.1 基于本地与远程应用组件的集成

基于本地与远程应用组件的集成是指调用远程服务器的应用软件组件,与本地功能组件相结合来将远程数字图书馆的服务功能整合到本地提供服务。具体到Portal构架的数字图书馆而言,是指本地数字图书馆门户可以调用其他远程的数字图书馆门户服务器(Portal Server)发布的Web应用组件(在此为门户构件Portlet),将之集成到本地门户中来实现远程门户服务访问的无缝连接。这一层次的集成也可以看作是解决不同门户框架间Portlet的互操作性问题,这方面目前已开发有两种标准。一是JSR168[2],该标准确定将Portlet插入到J2EE门户服务器中的标准API,即Portlet与PortLet容器间的标准接口。二是结构化信息标准促进组织(OASIS)的WSRP,该标准试图将Portlet作为一种基于Web Services的、独立于语言的组件模型,实现远程Portlet与本地门户服务器之间的基本接口。WSRP全称为Web Services for Remote Portlets,意为远程调用Portlet的Web Services[3—5]。正在兴起的“Web Services”技术,其基本思想是把软件组件当作一种服务,并提供一套描述、发布、查找和调用这些服务的技术规范,采用HTTP、XML、WSDL、UDDI、SOAP等标准和协议来实现。它是一种基于组件的软件平台,是面向服务的Internet应用[6—7]。

Web Services与Portal技术结合应用[8] 的机制见图2。Web Services服务提供方(即远程门户服务器)通过WSDL描述所提供的服务(采用WSRP标准提供的远程Portlet Web服务),并将这一描述告知Web Services目录服务器。目录服务器依据WSDL的描述,依照UDDI的协定更新服务目录并在Internet上发布。Web Services用户(即本地门户服务器)在使用Web Services之前先向目录服务器发出请求,获得Web Services提供者的地址和服务接口信息,之后使用SOAP协议与Web Services提供者建立连接,进行通信,以WSRP标准接口调用Web Services提供者所提供的远程Portlet。

附图

图2 基于Web Services远程调用门户组件的体系结构

2.2 基于用户界面的集成

基于用户界面的集成,也就是基于系统应用层和表示层的集成,是指以用户为中心,根据每个用户的需求与偏好来定制或调整数字图书馆门户网页的呈现方式,展现不同的信息内容,提供不同的服务功能。新兴的Portal技术就是基于应用层和表示层的集成方案。其核心组件是门户构件Portlet[2],一种以 Java 技术为基础的Web组件。它运行于门户服务器的Portlet容器(Portlet Container)中。从用户界面上来看, 在门户服务器上展现的内容可以划分为各个Portlet区域。每个Portlet区域所展现的内容是相互独立的,可以根据需要定制要显示的具体内容,也可以将之关闭。本质上,Portlet是一种Web组件,可以产生动态的网页内容,可设计聚合大量内容的组合页面。根据不同用户的设置,同一个Portlet可以产生包含不同内容的实例。例如以不同的语言,在不同的位置显示相同的内容,或者根据不同的用户显示不同的内容,满足了用户的可定制性。每个Portlet实际上是生成一段能展示某一具体内容的网页代码片段,但它不生成整个网页文件,并且需要通过门户服务器(Portal Server)的应用来调用。此外,一个Portlet也可以调用多个Portlet,形成级联结构的复合Portlet。门户构件技术使网页的组件化成为了可能,将网页划分成具有相对独立内容与功能的各个版块,方便网页内容与功能的自由整合,在用户界面这一层次实现了信息集成。图3展示了通过门户构件技术集成本地各种信息服务功能的体系结构。

附图

图3 门户构件技术集成本地各种信息服务功能的体系结构

由此可知,门户构件技术的功能在表示层实现了本地业务逻辑和表示逻辑的整合应用,而Web Services则在应用层上实现远程组件服务的整合应用。标准的Web Services通常是包含了业务逻辑,但缺乏表示逻辑。因此,将 Web Services与Portal技术相结合,在应用层和表示层上实现本地和远程的业务逻辑和表示逻辑的集成,是目前新兴的数字图书馆门户的构建方式。

2.3 基于语义的集成

基于语义的集成是根据语义的方法对信息内容进行检索和呈现[9]。这一层次的集成功能一方面是采用语义的方法对用户的信息查询表达进行规范扩展,另一方面对检索到的文档进行语义信息抽取,将信息检索结果按照语义或概念关系图的方式组织,展现给用户。关于语义集成,目前正在大量展开的研究是采用ontology的方法与技术在大规模分布式环境下实现异构信息的知识发现和基于语义内容的信息检索[10]。ontology是共享概念模型的形式化规范说明,同时也是一种能在语义和知识层次上描述概念模型的建模工具。通俗而言,一个ontology可以看为一个领域或主题的形式化概念及其关系集,它明确规范地表达了该领域的概念知识体系。自被提出以来,ontology就被广泛运用在信息检索系统的开发中,具体实现方法通常是先由人工构建有关的ontology,然后利用ontology进行信息内容的语义抽取和表达,对用户的查询在语义上进行更为精确的表达与构造,实现信息检索的语义集成检索。

2.4 基于链接的集成

基于链接的集成是在数字资源的内容中对相关内容进行无缝链接访问,使用户在合适的位置获取他有权获取的数字资源。例如,当用户正在浏览当前信息内容时,对当前内容所涉及的术语、参考文献、引用文献、相关主题和作者信息等等进行链接查询。2004年新成为美国国家信息标准组织(NISO)标准的OpenURL,即Z39.88[11],就是基于这种链接思想的一种信息集成方案。该标准提出了一个上下文相关的开放链接框架,在框架中定义了上下文对象(Context-Object)的信息结构,用于对链接对象的元数据、标识符,以及上下文环境进行描述。不同机构、不同领域的异构资源可通过对框架中各组件元素进行注册来实现对OpenURL的支持。在OpenURL开放链接框架中,信息服务者(链接源)与信息提供者(链接目标)是相分离的。两者间构建链接服务器,用以解析由链接源传送来的上下文对象中的元数据和标识符,然后同时对不同机构的多个数据库或信息资源进行统一的检索。图4为OpenURL开放链接机制图。采用OpenURL链接技术与思想,可用于设计信息访问适时适地的动态集成,以适应用户随场景驱动而不断变化的信息需求。

附图

图4 OpenURL的开放链接机制

2.5 基于搜索引擎的集成

基于搜索引擎的集成是对WWW站点上的信息进行集成搜索,可采用元搜索引擎技术来实现。元搜索引擎[12—13] 是对多个独立搜索引擎的整合、调用、控制和优化利用。相对于元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”或“标准搜索引擎”,主要由数据采集标引机制、数据组织机制、用户检索机制三部分组成。而元搜索引擎本身不需标引和搜索网页,只是将查询请求提交给它要调用的后台的源搜索引擎,由源搜索引擎做实际的查询工作,元搜索引擎再从各源搜索引擎的查询结果中去除重复的查询结果并加以整合。一个完整的元搜索引擎应该包括3个部分:发送机制、接口代理和整合机制,见图5。

附图

图5 元搜索引擎机制(参照文献[12]修改绘制)

发送机制:针对不同的查询请求选择搜索引擎、设计算法来决定应将查询请求提交给哪些搜索引擎,完成对成员搜索引擎的自动评价选择。

接口代理:用于把用户的查询请求转化为搜索引擎的标准查询式,并把搜索引擎的查询结果转化为统一的输出形式。

整合机制:整合各搜索引擎的查询结果,作统一输出。对各查询结果进行重新排列,进行剔除重复及检验链接等处理。

2.6 基于数据库查询的集成

基于数据库查询的集成,这里指结构化的异构数据库集成,也称跨数据库检索。这一层次的集成功能是将同一个用户查询转化为不同数据源的检索表达式,并发检索本地和广域网上的多个分布式异构数据库,经过查重和重组等汇总、合并操作后,形成满足用户信息需求的数据结果集。

要实现上述功能,需要根据以下不同的数据库类型选择相应的集成检索方法与技术。

第一种类型的异构数据库具有统一元数据模式,支持某种基于元数据搜索和检索的集成检索互操作协议。这类数据库的异构性主要表现在数据库管理系统、操作系统和计算机体系结构可能不同,相同之处是采用了统一的元数据模式来描述数据,如:MARC元数据模式和Dublin Core元素集等元数据模式。 现有的集成检索互操作协议与标准有:Z39.50和OAI等[14—16]。前者主要用于图书馆MARC格式的联机书目检索服务。两种方式的集成都需要被检索的数据库系统支持该协议。这种类型集成的优势在于无需知道服务端数据库的具体位置和内部结构等。图6和图7分别展示了Z39.50和OAI的集成检索机制。

附图

图6 Z39.50集成检索机制

附图

图7 OAI元数据集成检索机制

第二种类型是不具有统一元数据模式的异构数据库,但已获得对该数据库进行直接访问的信息,即已知其数据库名、数据库类型、数据模式并拥有其访问权限,或提供了数据查询接口(API)。其异构性不仅表现在数据库管理系统、操作系统和计算机体系结构可能不同,也表现在其元数据模式的不同。常采用中间件技术[17] 和构建一个全局数据模式来实现此类数据库的集成[18],通过在中间件(Mediator)和包装器(Wrapper)之间分割处理任务,可提高查询处理的并发性,减少响应时间。包装器对特定数据源进行封装,将其数据模型转换为系统所采用的通用模型,作为其输出模式,并提供一致的物理访问机制。中间件侧重于全局查询处理和优化,有一个使用通用模型描述的全局模式。它通过调用包装器或其他中间件来集成数据源中的信息,解决数据冗余和不一致性,提供一致协调的数据视图和统一的查询语言。对于不同的数据库管理系统有不同的数据库查询语言标准,如采用SQL查询语言统一检索支持ODBC协议的数据库,采用LDAP的查询语言统一检索支持LDAP协议的树状模式数据库,采用XQuery查询语言对XML文档和数据库进行查询。这类集成需要知道服务端数据库的具体位置和数据模式等。图8举例展示了结合前述两种类型的多元数据模式的跨库集成检索机制。

附图

图8 多元数据模式的跨库集成检索机制

第三种类型的异构数据库,既不支持任何基于统一元数据模式的集成检索协议,也无法获得对该数据库进行直接访问的信息,但提供了基于Web界面的查询检索界面。对于这类数据库可采用网页页面解析的方法,分析该数据库的查询界面接口,将用户的查询请求转化为该数据库Web查询界面接口所要求的标准查询式,然后获取其查询结果转化为统一的输出形式。这种类型的集成是最为松散的集成方式,一旦原数据库查询的网页设计有所变化,就可能导致集成检索程序的失效,需要重写或修改参数。这种数据库的集成访问机制类似于元搜索引擎机制。

在体系结构上,上述基于Portal的数字图书馆集成模型是一个组件化的基于中间件技术的多层级联的集成模型,涉及到系统表示层、功能层和数据层的整合操作。需要说明的是,本文所描述的层次模型,除了Web Services和Portal技术处于上级的应用层和表示层外,其余各层的集成技术均属于功能层和数据层的整合,彼此间并没有严格的上下级关系。

3 基于Portal构架的数字图书馆集成流程示例

由于本文阐述的基于Portal的数字图书馆集成模型旨在讨论数字信息访问的集成,从系统过程分析来看,整个集成模型可以划分为在信息获取查询过程中不同操作阶段的整合,即对查询任务的整合,查询表达的整合,查询发送的整合,查询结果集的整合,查询结果呈现的整合。在此信息查询过程中信息流各个转换阶段引入了前述各种集成技术,实现了各个阶段的整合操作,从而形成数字图书馆的数据访问集成流程,图9举例展示了信息访问流程中前述各集成技术的作用与位置。

附图

图9 基于Portal的数字图书馆数据访问集成流程

查询任务的整合:以Web Services集成远程查询任务;以Portlet集成本地查询服务,如根据用户定制,选择不同查询数据源、查询方式和查询界面等;以OpenURL动态、实时、方便地启动查询任务;以ontology语义集成方法提供依照概念知识体系组织的浏览查询。

查询表达的整合:以ontology在语义概念上对查询表达式进行规范和扩展。对查询表达进行多语种的扩展,以及下级概念、同义概念和相关概念的扩展。

查询发送的整合:以OpenURL、跨库检索和元搜索引擎机制选择不同数据源和查询系统,将查询表达转化为各个检索系统接受的标准查询表达式,同时发送到各个检索系统进行并发查询。

查询结果集的整合:以跨库检索和元搜索引擎的整合机制合并来自各个检索系统的查询结果,对这些查询结果进行重新排列、分类、去重等处理,最后作统一输出。

查询结果呈现的整合:以Portlet集成按用户定制以不同方式呈现检索结果;以ontology语义集成方法按概念知识体系来组织呈现查询结果。

4 结语

本文主要讨论了基于Portal构架的数字图书馆的数据访问集成技术框架。首先从系统体系结构上,层次化地介绍了基于本地与远程应用组件、基于用户界面、基于语义、基于链接、基于搜索引擎和基于数据库查询的集成技术。然后从系统过程分析的角度,介绍了各集成技术在信息查询任务定制、查询表达、查询命令发送、查询结果集合并和查询结果呈现等各个信息访问阶段的整合运用,描述了基于Portal构架的数字图书馆的集成流程。这些集成技术从不同角度给用户提供适时、适地、灵活多样的方式方法访问所需信息,实现信息访问基于用户的、基于内容的和基于平台的整合。正因为这些集成技术与标准是各侧重于不同层面来实现对信息访问进行整合,所以在一个数字图书馆的具体应用中,其集成方案必然需要结合自己的实际情况综合采用不同层次的集成技术与标准。然而,现有这些集成技术是否能够无缝连接配套使用?如果进行配套使用,又将如何共同协作,实现基于语义内容的、基于信息访问动机和情景驱动的、以用户为中心的动态集成访问机制?等等诸如此类的问题,还需要进一步深入研究。此外,在基于Portal的数字图书馆集成技术框架中,引入Portal与Web Service集成技术是其主要特点。目前,这两项新兴技术还处在运用初期,仍然面临许多困难。基于Web Service 的方式虽有更广泛的可用性和互操作性,但将减弱Portlet的性能。 如何在远程异构信息源的信息集成访问中处理好用户管理、权利、角色管理和个性化等功能仍然是个难题。未来,基于Portal构架的数字图书馆集成框架技术在互操作性和安全性上仍有许多问题有待解决。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于门户架构的数字图书馆集成框架_数字图书馆论文
下载Doc文档

猜你喜欢