利用知识网格构建数字图书馆知识服务平台,本文主要内容关键词为:知识论文,网格论文,服务平台论文,数字图书馆论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
浙江天宇信息技术有限公司协办
网格(Grid)是近年来国际上兴起的一种重要的信息技术,是继传统因特网、Web之后的第三个大浪潮,可以称之为第三代因特网。其思想来源于电力网格,目的是将计算能力和信息资源像电力网一样通过网络形式方便地传送到用户手中。网格是将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,实现计算资源、存储资源、信息资源、知识资源等的全面共享,消除信息鸿沟和资源孤岛[1]。简单地讲,传统因特网实现了计算机硬件的连通,Web实现了网页的连通,而网格试图实现互联网上所有资源的全面连通,包括计算、存储、通信、软件、信息、知识等等资源。
1 知识网格的概念及研究的核心问题
网格是高性能计算机、数据资源、因特网三种技术的有机组合和发展,它通过高性能计算环境实现全球分布资源的共享、管理、协同与控制。网格技术的初期主要集中在高性能科学计算领域,提升计算能力,并不关心资源的语义,故不能有效地管理知识。随着计算网格发展为面向服务的网格,如何有效地获取和发现知识资源成为网格技术应用的关键问题。
Fran Berman于2001年11月在《Communications of the ACM》上发表了短文“From TeraGrid to Knowledge Grid”提出了知识网格这一概念,指出知识网格的主要研究内容是:利用网格、数据挖掘、推理等技术从大量在线数据集中抽取和合成知识,使搜索引擎能够智能地进行推理和问题回答,并从大量数据中得出结论[2]。国际学术刊物《Future Generation Computer Systems》的专辑“Semantic Grid and Knowledge Grid:The Next-Generation Grid”中的“Semantics,Resources and Grid”一文全面给出了知识网格的定义并提出其核心科学问题。知识网格是一个智能互联环境,它能使用户或角色有效地获取、发布、共享和管理知识资源,并为用户和其他服务提供所需要的知识服务,辅助实现知识创新、协同工作、问题解决和决策支持。资源的规范组织、智能聚合和语义互联等是目前知识网格所要解决的主要科学问题[3]。
●资源的规范组织。解决如何规范地组织资源空间,使用户和服务能够有效、正确地根据语义操作各种资源,提高资源的使用效率。
知识网格包括两个重要组成部分:资源空间模型和统一的资源使用机制。资源空间模型采用统一的资源视图定义、共享和管理各种Web资源。信息资源包括通过Internet传播的各种类型的电子文档;知识资源包括用机器可理解的方式表示的概念、公理、规则和方法;服务资源包括使用现有Web标准进行交互的可重用的过程集合。全球知识网格是一个三维知识空间,表示为知识类别、知识级别和位置坐标,其中知识类别和知识级别二维坐标确定知识的内容,位置坐标确定知识的存储位置。Internet用户可以方便地使用知识网格操作语言KGOL对知识网格进行建立、存储、修改、检索等操作,实现对全球分布的知识资源的共享和管理。
●资源的智能聚合。解决如何使资源能够互相理解,根据用户的需求有效、动态、智能地聚合各种资源。
实现资源的智能聚合的关键在于网格管理软件。通过单一语义映像智能地聚集资源,使各种资源在语义得到统一,相互提供服务,可以主动在一定系统开销下寻求能够满足的需求,或者根据资源的内容和相关配置为其他虚拟角色提供服务。它体现了智能Agent的主动和智能特色、语义互联网的基于语义特色、硬件设备的可配置性、概念抽象的优点和知识网格的理念。
●资源的语义互联。解决如何使Web资源的语义被机器理解。
用户在借助搜索引擎检索和浏览文档时,普遍存在着检准率低的问题。这是由于文档的内容的表示基于较小的文档碎片,不能直接反映较大粒度的语义,因而无法提供理想的信息服务。采用一种自表示、自解释、自执行的主动文档框架,每一个主动文档包括一系列内置引擎用于浏览和检索文档,并进行推理。主动文档的内容通过粒度层次、模板层次、背景知识和类型化的语义链等进行反映,增强了信息检准率,为用户提供智能化的服务。
2 知识网格在数字图书馆知识服务中的应用
数字图书馆是综合运用多方面高新技术支持的数字信息资源系统,将分布于不同载体、不同地域的数字化信息资源以网络化方式相互连接起来,实现资源共享,具有信息资源数字化、信息组织非线性化、结构复杂化、信息传递网络化、服务方式多样化等特点。知识网格是一种基于Web的资源收集、表示、共享和管理的方法、平台和工具,其目标是提供比现有Web信息服务更优的、智能的协同问题解决支持平台。它具有高性能、一体化、知识生产、资源共享、异地协同工作、支持开放标准、功能动态变化等优点,为数字图书馆的知识服务提供了有利的条件。
2.1 知识网格为数字图书馆构筑统一的信息服务平台
网格技术的巨大优势是比较明显地降低建立网络和提供网络服务的成本。利用网格的巨大信息处理能力,可以把全国乃至全球的图书馆及信息资源联结在一起,实现信息的高度共享,从而节省了大量资金,避免低水平的重复建设。网格利用现有的网络基础设施、协议规范、Web和数据库技术,为用户提供一体化的智能信息平台,创建一种基于Internet的新一代信息平台和软件基础设施。在这个平台上,资源被统一管理和访问,信息的处理是分布式、协作化和智能化的,用户可以通过单一入口及Gridport(网格门户)透明地使用整个网格上的资源[4]。用户接受的是一个逻辑门户上的若干与自己相关的频道,而不必在成千上万个网站中去搜索自己想要的信息。据2004年7月5日的《光明日报》报道,我国最大的知识资源共享网格平台——《中国知识资源总库》(简称“CNKI平台”)日前在清华大学建成并投入运行。该平台连接了包括CNKI数据库和来自国内外加盟数据库1400多个,将分布在全球的不同地方、不同行业、不同媒体性质、不同数据格式、不同检索方法、不同应用环境下的巨大数据库,由采用当前最先进计算机网格技术和知识挖掘技术的“CNKI平台”集成整合为一个整体,统一管理,做到了跨库、跨平台、跨语言的无缝链接,实现了计算资源、存储资源、通信资源、软件资源、信息资源和知识资源的社会化全面共享,便于用户在同一界面、使用同一导航系统和检索操作方法,进行跨库跨平台的一站式检索应用。
2.2 知识网格有利于实现数字图书馆的资源共享
网格技术的研究目标是实现网络虚拟环境下高性能资源的共享和协同工作,以解决一致使用分散资源的问题。使用基于知识的方法学和技术学,对广域、异构、分布环境下的各种Web资源进行管理,并通过区域分布的协作和处理,从数据源中获取有用信息,从而实现互联网上所有资源的全面连通,消除信息孤岛。网格为用户提供统一的访问接口,将异地获取的访问结果进行预定的组合计算,对于用户提出的数据访问请求,通过适当访问协议如SOAP、XML、HTTP等,进行通信,实现底层信息的包装和互操作[5]。它所提供的单一系统映像,具有透明性、可靠性、负载平衡等功能,极大地提高数字图书馆信息资源的使用效率。据介绍,刚刚建成运行的“CNKI平台”将在互联网上以“知识超市”形式体现,任何一个知识资源的生产者,都可以通过“中国知网”,发布其数据库产品,并在“CNKI平台”统一管理下,实现数据的全社会共享。
2.3 知识网格有利于实现数字图书馆知识服务的智能化
知识网格应用软件是一个由需求、用户和服务构成的高级虚拟社区,从信息存储到用户的浏览服务,知识网格纵向地为用户提供集成一体的方案。用户通过浏览器在单一语义映像下根据不同权限管理各种资源,不必考虑资源的具体位置和形式。用户把所需信息提交给网格,网格则会根据需求自动组织到匹配的应答信息,以最佳可行的方式智能地推送给用户。知识网格应用软件采用智能化的语义链替代现有的Web超链接结构,是一种资源寻找用户而不是用户寻找资源的过程[6]。将知识网格具有的界面一致、使用方便、平台的灵活性和主动、超文本特征与数字图书馆信息传递网络化、服务方式多样化等特点有机结合起来,引入基于本体(Ontology)的用户profile作为要素,提供全方位、深层次的个性化支持,从而更好地实现知识服务的智能化。
2.4 知识网格平台的构建将促进数字图书馆信息服务向知识服务的真正实现
脱胎于传统图书馆职能的数字化图书馆,其所拥有的信息资源虽可通过标题、关键词、作者、内容分类特征等“元数据”进行关联检索,然而对于“求知者”所要解决的问题来说,并不能迅速而准确地提供全面、系统、针对性的知识信息,加之这些数据库在结构、信息加工标准和质量上的差异,使得数据库之间的信息关联、内容关联更加难以实现。正在兴起的网格技术,能够在较大程度上与数字图书馆技术有机地结合,为在分布或异构环境中实现信息资源发现提供支持,同时为用户对知识信息需求由文本单元向知识单元深度发展提供了实现的可能。
知识网格是由“知识结构”、“知识单元”、“知识元”的采用关联和链技术组成的层次知识链网状知识关系图。知识元之间的不同层次、不同学科的链接,是实现新知识生产、知识传播、知识有效利用革命的核心。利用计算机网格建立知识链与知识网络结构,通过信息集成来解决知识元与知识单元和知识结构之间的继承性,生产出具有附加值的新服务和新知识来满足用户不断增长的新需求。它改变了数字图书馆信息资源的组织方式,促进了数字图书馆信息服务向知识服务的本质嬗变,实现知识产生、传播和利用的总体最优化,推动知识管理的革命[7]。
3 知识网格对数字图书馆知识服务的挑战
知识网格作为一个全新的研究领域,它的应用对于数字图书馆知识服务平台的构建提出了新的要求。在这一过程中,我们将面临元数据访问服务、标准化问题、网络安全、Wrapper技术及本体语义、系统改造等方面的技术挑战。
3.1 元数据访问服务
元数据(Metadata)是专门用来描述数据和属性、提供某种资源的有关信息的结构数据,能够有效地促进Internet信息资源的组织和发现[8]。元数据访问服务作为构建数字图书馆知识服务平台的重要支撑技术,则提供了访问和发布元数据的机制,这个服务提供访问和管理存储系统的数据信息,包括:a.应用元数据(Application Metadata)描述文件的内容,数据收集的环境和应用的各种细节。b.复制管理元数据(Replica Metadata)描述文件实例到特定复制位置的映像。c.系统配置元数据(System Configuration Metadata)描述元数据存储系统的容量、性能。
元数据访问服务需要提供一致的使用方法、单一的使用界面等来发布和访问这些不同类型的元数据。因而在大规模数据网格环境中,针对不同的系统,如何存储和表达元数据的这种异构性特征同时要保证在分布环境中元数据访问的效率,这是我们在动态、异构虚拟组织间实现协同的资源共享,进而获取更具针对性和个性化的知识服务时首先必须解决的问题。采用XML来表示应用元数据,不仅能适应数据网格的可扩展性,同时能支持大规模组织中的各种信息源。
3.2 标准化问题
标准是网格应用的成功关键。构筑网格需要对标准协议和服务进行定义。目前以美国政府研发机构为主的推动网格计算的项目Globus,开发了一系列的协议、软件库、工具包Toolkit等,用于构建网格应用所需要的很多基本服务,如资源管理、信息安全、知识服务、数据访问以及开发环境等。如何将数字图书馆的标准和网格标准更好地结合起来,发挥数字图书馆在网格环境下的积极作用是值得我们研究的问题。
3.3 网络安全
网格应用的最大难题是系统的安全性。由于网格的节点位于不同地域,节点的数字图书馆间如何安全地共享数据资源,如何保证共享数据、信息的保密性、完整性及确定性是必须着重解决的问题。网格所要实现的安全服务主要包含了两个基本内容:对资源使用的安全认证和对资源操作的权限控制[9]。根据数字图书馆的知识网格应用系统,通过采取加密、授权、认证和网络安全监控等多种有效的管理措施来构建完善的安全机制,从而使网格环境的安全性与方便性得以保证。
3.4 基于Ontology的统一语义和Wrapper技术
数字图书馆知识服务平台体系是由许多异构的信息系统(现有条件下)构成的,为了更好地实现各个系统之间、人与资源之间的交互操作,需要基于Ontology建立统一的语义描述,应用可扩展标记语言XML描述语义链网络,实现跨平台信息交换和资源共享[10]。Wrapper技术主要是将现有的异构数字图书馆知识服务系统依据构成数字图书馆知识服务平台体系的系统规范进行很好的封装,进而运用联邦的形式构建统一的数字图书馆知识服务平台。
3.5 系统改造
数字图书馆知识服务系统平台建好后的应用移植是网格技术走向应用的最大障碍。网格技术要求用户将原有的系统应用标准化,并平移到新的系统之中。实际上,现有许多数字图书馆应用系统如果将其推向网格环境将面临重新编写应用代码的问题。虽然目前已经有一些相关的工具被开发出来,但仍有许多技术问题尚未解决,需要进一步支持和相互间的合作。
收稿日期:2004-09-13