利用网格技术实现网络个性化检索_元数据论文

利用网格技术实现网络个性化检索_元数据论文

利用网格技术实现网络个性化检索,本文主要内容关键词为:网格论文,技术论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 问题的提出

互联网自上世纪80年代风靡全球以来,以其信息之丰富、内容之广泛、传播之迅速,给人类的信息互通、资源共享带来了极大的便利。但它也有许多不尽如人意之处,其中主要的问题是,使用者必须通过某种方式,找到资源的所在位置,至少是虚拟的位置,而对多数人来说,信息资源位置的搜寻本身就存在很大困难,即使利用网络搜索引擎,矛盾也无法完全解决,这样就限定了资源的传播和沟通,导致90%以上的信息无法得到充分利用。此外,网络资源的类型、信息的结构也千差万别,利用现有技术难于实现跨站跨库异构的连接操作,对于特定需求的用户而言,在很大程度上对其进行个性化的信息检索产生了阻碍,因而迫切需要一种实现网上资源无缝整合的技术,网格技术将很好地满足这一要求。

网格是信息社会中的一种网络基础设施,它通过互联网将地理位置上分散于各处的资源集中起来,形成全球一体化共享体系,而用户无须了解资源的位置、形态、数量等具体细节,就可以在任何时间或地点方便地获得来自网络的服务。这里所说的资源是广义的,包括计算机、集群、计算机池、仪器设备、存储设施、数据和软件等。网格技术恰恰能够弥补互联网络的不足,最大限度地支持人类知识成果的组织与交流,因此为网络信息检索带来了革命性的技术突破。

2 网格的内容

2.1 网格的本质

网格属于网络计算平台,它并不是在互联网之外另行建立起来的物理结构,而是构筑于互联网现有环境之上的一组新型技术,其最终目标是用网络上多台计算机构成一台虚拟的超级计算机,提供给网络用户一个无缝联结的应用环境,使之容易地访问资源,人们无须使用远程登录、传输协议即可使用远程节点上的信息资源或计算资源。[1]

网格涉及的资源类型多样、规模庞大、分布不均,各类主机、工作站、PC机以及操作系统都不尽相同,是典型的异构系统,而在网格中的任何资源都必须呈现开放状态,通过互联、组合、协作产生附加值,共同解决用户的问题。这种资源的含义已经不是固定的,而是随时发生着变化,每一刻都可能增加或减少,这就要求网格在规模、能力、兼容性等若干方面具备可扩展性,使新的资源不断地、自然地加入到网格中来,与原来的资源融合,而且不降低网格的计算效率。这种通过网格提供的计算能力远远超过我们以往的概念,对大多数用户需求来说已经足够了,它打破了传统网络用户必须到资源所在地使用资源的限制,用户对资源的共享不是停留在文件传输上,而允许直接对其进行控制。

2.2 网格的关键技术及性能

为了达到无缝联结的目的,网格体系结构采用了网格资源、中间件等一系列关键技术。

(1)网格资源。这是构成网格系统的基础设施,包括网格节点上所有分布式可访问的计算资源,如计算机、存储设备、数据库、应用软件等,均具有分布和异构特性,此外还包括宽带网络系统,将上述资源联结起来。但是作为网格中的基本构成层次,该层次仅仅实现了客体的物理连通,彼此间仍然处于孤立状态,还必须通过网格中间层次来完成广域异构计算资源的真正共享。

(2)网格中间件。这是指一系列协议和服务软件,其功能是将网格资源层中资源的分布、异构的特性等完全封装起来,只向用户提供透明、一致的应用接口,其核心服务包括资源的协调分配、远程进程管理、任务调度、存储访问、安全认证控制和质量服务等,因此也被称为网格操作系统。

(3)网格工具环境。提供高层服务和良好的应用环境,包括各种工具、开发语言、函数库等,并支持消息传递、分布共享内存等编程模型,使用户端能够根据不同用途进行二次以上的开发,或在全局资源中调用计算,进行资源的描述、组织和管理等。

(4)网格应用接口。这是用户需求的体现和应用软件研究层次,开发者使用HPC++等网格语言以及MPI等消息传输机制开发网格应用内容,网格操作系统支持这种可视化环境,把计算结果转换成直观的图形信息,帮助研究人员摆脱理解数据的困难。此外,网格应用往往要求强大的科学计算能力,而且要访问远程数据集并与科学仪器进行交互,因此该层也提供网格入口,支持WEB访问方式。

2.3 网格的种类及协议层次

网格从功能强度上可分为资源网格、信息网格和知识网格,三者层次从低到高,分别对应于处理资源、信息和知识的网格。资源网格又包括计算网格和数据网格,它直接为上层应用提供数据的连通和共享;信息网格基于网格操作系统,为上层应用提供信息的无缝共享,包括数据库构建、信息发现和处理等;知识网格则属于最高层,其主要作用是从底层数据和信息中发掘、处理和应用知识。[2]

网格协议建立在因特网协议之上,以因特网协议中的通信、路由、域名解析等功能为基础,其协议分为构造层、连接层、资源层、汇集层和应用层。

构造层的功能是向上提供网格中可供共享的资源,它们是物理或逻辑实体。常用的资源包括处理能力、存储系统、目录、网格资源、分布式文件系统、分布式计算机池、计算机集群等。Toolkit中相应组件负责侦测可用的软硬件资源的特性、当前负荷、状态等信息,并将其打包供上层协议调用。

连接层是网格中网络事务处理通信与授权控制的核心协议。构造层提交的各种资源间的数据交换都在这一层的控制下实现。各资源间的授权验证、安全控制也在这里实现。在Toolkit中,相应组件采用基于公钥的网格安全基础协议(GSl)。在此协议中提供一次登录、委托授权、局域安全方案整合、基于用户的信任关系等功能。资源间的数据交换通过传输、路由及名字解析实现。

资源层的作用是对单个资源实施控制,与可用资源进行安全握手、对资源做初始化、监测资源运行状况、统计与付费有关的资源使用数据。在Toolkit中有一系列组件用来实现资源注册、资源分配和资源监视。Toolkit还在这一层定义了客户端的C、Java的API和SDK。

汇集层将资源层提交的受控资源汇集在一起,供虚拟组织的应用程序共享、调用。为了对来自应用的共享进行管理和控制,汇集层提供目录服务、资源分配、日程安排、资源代理、资源监测诊断、网格启动、负荷控制、账户管理等多种功能。

应用层是网格上用户的应用程序。应用程序通过各层的API调用相应的服务,再通过服务调用网格上的资源来完成任务。应用程序的开发涉及大量库函数。为便于网格应用程序的开发,需要构建支持网格计算的库函数。

以上各层的协议由上至下形成了一般性的网格体系结构。在这个结构中,资源层和连接层共同组成瓶颈部分,为网格计算提供底层的通信、安全管理,不同的高层(顶部)行为映射到它们之上,而它们自身也能被映射到不同的基本技术之上(底部)。[3]

这些功能与协议将对网络数据资源的互通、搜索与浏览提供有力的支持,恰好能够满足信息检索针对多点用户、资源分散、结构各异等状况进行搜寻的实际需求。

3 个性化信息检索需求分析

3.1 信息检索的基本要求

信息检索,是指将信息按照一定方式组织和存储起来,并根据用户需要找出有关信息的过程。长期以来,人们为了获取前人和其他人研究、总结和积累的大量信息资料,从中提取与特定领域相关的内容,以便在更高的水平上从事研究,曾进行了不懈的努力,其中检索工具和方法的发明及使用成为问题最终的焦点,从手工到机器,从联机到联网,经历了较漫长的过程。

随着计算机和通讯技术、数据库技术的发展特别是互联网在近年来的普及,使人们信息搜索的范围和获取的方式都发生了深刻的变化。目前,信息检索技术正向两个方向发展。第一,传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索发展,在深度上提高管理和组织信息的能力,如自动抽词、自动索引、自动检索、自动形成文摘、自动分类、自动翻译,数据挖掘等;第二,信息资源的网络化和分布化,面向互联网的海量信息资源,在广度上提高管理和组织信息能力。[4]

3.2 个性化信息检索的需求

个性化信息检索比一般意义上的信息检索有更高要求,它从方便用户的角度出发,充分利用各种数字资源和智能化技术,对不同类型、特点的资源进行整合,实现信息资源、信息技术、信息内容的集成,使用户能够在同一界面上对各种数字化资源实现一站式检索的过程[5]。对个性化用户来说,所关心的不是信息资源在某个特定的地点或者资源库中,也不是资源所存在的类型或者当前的状态,更不是资源以何种方式提供利用,而是信息资源本身的内容是否符合自己的需要。

由于网络信息检索是基于互联网环境的,其信息的存在呈现分布式特点,各分布点的信息内容完整程度不一,重复和交叉现象严重,信息涉及的领域千差万别,媒体类型呈多种形式交织在一起,互相联系、交互作用,而且不断处于高速增长的状态,使得人们在网上查找信息的效率和准确性受到极大挑战,用户从这样复杂的网络信息环境中筛选出符合自己需要的部分是十分困难的。此外,由于互联网具有高度的自治性,在建立过程中,始终坚持开放的原则,对信息提供者不加限制,没有统一的管理机构和标引标准,因此有价值和无用的信息混杂一团,尤其是数据提供者使用的开发平台、数据结构和形成标准各不相同,更增加了用户检索的难度。

人们为了在一定程度上解决这种信息传递接口不一致产生的异构跨库、跨系统问题,曾设计采用了一系列标准和协议,试图从数据格式规范和软件转换的角度,有条件地构建一种网络数据库互通模式,为各信息源搭建桥梁和通用平台。典型的有MARC标准格式和Z39.50协议。

4 现有信息交换标准

4.1 书目信息通用标准MARC

上世纪60年代,美国国会图书馆首先开始研究机器可读的目录MARC,将图书目录卡片信息以磁带方式记录下来,在书目文献部门流传使用,经过数番修改,于1973年,国际标准化组织通过了由该组织第46技术委员会第4分委员会起草的磁带格式国际标准,即《文献目录信息交换用磁带格式》ISO 2709。

文献目录信息记录存储与交换格式,主要指文献信息在存储介质中所表现的内容、属性和逻辑结构。由于书目信息的项目不完全确定,项目内容多少不一,因此所采用的记录交换格式必须是可变格式可变长。换言之,记录字段数量和每个字段的长度均不固定,因而也是最复杂的一种格式。标准MARC对书目信息的描述是非常详尽且具体的,字段最多时可以设置到999个,相当部分字段都可以重复,每个字段下还有若干子字段,为此,ISO 2709标准还规定了一整套专用标记符号,如字段标识符、子字段标识符、指示符、分隔符等。

由于机读目录格式的标准制订较早,设计项目时所基于的物理环境是顺序存取的磁带文档,虽然在世界范围被普遍应用,但是它所记载文献的格式相当烦琐,实际影响的领域也主要在文献书目方面,尚未成为全球网络信息交流的格式,而且它在描述信息方面仍然不能囊括目前网络上的所有资料,如多媒体信息、网页信息等,另外它在不同系统平台的操作上也有局限。为此,国际上制订了适合网络信息检索的数据标准Z39.50协议。

4.2 网络检索Z39.50协议

该协议是美国信息检索方面的国家标准,即信息检索——开放系统互联的应用服务定义与协议说明Z39.50。该协议标准定义了两个系统之间以数据库查询和信息检索为目的而进行的通信、交流的规则和程序,起源于1983年美国国会图书馆等三家图书馆之间的系统互联项目,目前已经获得世界范围的承认,并作为国际标准化组织的查询与检索标准ISO23950。

Z39.50是开放系统互联参考模型OSI-RM的应用层协议,主要面向连接与程序间的通信问题。它可使用户在一台计算机客户端上检索存储在另一台计算机或服务器中的信息,而不必关心这些信息使如何存储与组织的,因而作为一种访问分布式数据库的方法,被广泛应用于文献信息部门及所有支持Z39.50协议的远程数据库。

在Z39.50协议规范中,客户机作为请求方发出检索指令、指定检索点和检索值,驻于本地系统的Z39.50源模块将提问请求翻译转换成标准格式,发送给有着Z39.50目标模块的数据库系统,得到检索结果后,又要以标准格式回应给源模块所在的系统,最终以客户机自有的格式输出给用户。这样,用户以其熟悉的指令和格式来检索任意异构系统的数据内容,不需要了解标准的具体细节。

这种协议的方式比之MARC的单纯数据交流要先进许多,它可以在网络间各种不同的结构系统中游走,但是必须要在本地机上装载相应的Z39.50源模块或目标模块,否则跨库检索将无法进行。因此,后来的国内外许多文献信息自动化管理系统都专门加载符合Z39.50协议的软件模块。

尽管Z39.50标准协议有条件地实现了网络信息资源异构平台的操作,但仍然没有从根本上解决问题。当已知检索目标时,检索过程很顺利,而如果目标定位不明确,或者不知对方是否也安装了协议模块时,操作就无法继续进行。[4]

5 实现网络信息向网格数据资源的转化

5.1 网格技术的引进

信息组织管理是社会化信息收集、加工、处理、发布与检索的重要环节,也是网格数据和知识资源的主要组成部分。因此,借助网格可以跨越各种数据库结构与操作平台的限制,使信息资源成为网格数据管理中的一部分,从而通畅地传输信息,并达到资源共享的目的。这也是数据作为网格中一类重要资源具有的特性所决定的。

网格其他资源的用途由资源提供者和资源本身结构决定,但数据资源的用途基本上由请求者决定,包括数据的合成、分解、加密、过滤和统计等。只要合法用户发出请求并得到管理机构认可,网格数据可以被无限制地复制而代价很低。当用户被授权使用某个网格数据资源时,可以在本地或距离使用点很近的范围中进行缓存,以后再次使用该资源,可直接利用这部分缓存资源。网格中的数据集允许保存在不同地方,地理上呈分散状态,但从用户角度讲却是一个整体,网格管理机构能够将分散的各个部分内容合理组织起来,向用户提供完整数据资源。[1]

网格数据资源的这些特点与功能,是网格中其他资源体所不具备的,而这正是信息组织与检索所需要的。此外,网格对数据的安全保证、任务调度等均符合网络信息检索的需要。因此,我们有理由认为,利用网格发展大规模的信息检索是完全可能,而且是势在必行的。

但是,网格技术的优势并不等于现有信息数据和传播途径可以直接提供利用。现行的信息数据格式存在许多弱点,须经改进后具备一定的条件,方能成为网格中的数据资源。其中主要的问题是对信息体及其元素的描述问题。信息元素的描述将以元数据为发展方向,而文档结构的管理则主要依赖于网络置标语言的选取。

5.2 元数据描述体的制订应用

对信息的传播首先要对信息进行理解,元数据就是对数据进行组织和处理的基础。它不是网络传输对象内容本身,而是对各种形态的数字化信息单元的描述体,其作用类似于MARC标准,但范围远远不止对书目资料或某一种资源的内容解释。它所提供的是规范、普遍的描述基准和方法,是关于系统中能够构成一级对象的实体的数据,因此也被称为关于数据的数据。网格中的元数据目录系统是数据密集型计算环境,在数字化网络信息服务中占有重要地位。

元数据应具有这样的功能:

(1)开放性定义。元数据定义本身可以公开获取、采用标准方法实现,其中内容能够以通用或标准的方式所识别和解释。

(2)开放性语义。元数据元素可在标准或通用环境下来识别、验证和解析。

(3)开放性交流。基于开放标准对元数据进行交换,对其中元素进行复用、继承和扩展。

(4)机读性。能够利用计算机对元数据及其所标记的信息内容进行识别、理解,并能支持软件代理自动地解析元数据及其中内容。

目前国内外已经制订的元数据标准约有30种,有些属于通用型的,如都柏林核心集;有些属于专用型的,如描述数字图像的MOA2,描述教育资源的IEEE LOM;此外还有专用于描述博物馆藏品、地理资源、档案文献、音像资料、信息资源集合等多种类型的元数据规范。

其中都柏林元数据集起源较早、系统较完善,并得到了广泛认可和应用,已成为互联网RFC2413和美国国家信息标准。它由资源标题、内容创作者、内容主题、资源类别、格式、语言、来源、关联等15个基本元素组成,各元素可以重复选用,除描述性信息外,还包含了电子资源的若干检索点和超文本链接信息,与XML扩展置标语言结合起来,将成为今后网络查询的重要渠道。[6]

5.3 可扩展置标语言XML的应用

随着WWW网络的广泛应用,特别是各种类型和格式信息的涌入,以传输链接网页著称的超文本置标语言HTML渐渐受到很大的局限,它的扩展性能和内容定义都无法适应新的要求。因此,人们所需要的一种标准化、可扩展、结构严谨的新型网络语言出现了,这就是可扩展置标语言XML。由于它与目前流行的HTML网页同属标准通用置标语言SGML的子集,都是以结构化的方式的数据,因而在语法上很相近,所不同的是,在XML的定义当中,允许制作者创建新的标记来满足准确描述数据的需要,可描述的范围几乎囊括所有类型的资料[7]。

作为文档结构的创建工具,XML不仅是将结构用于界面,而且可使管理系统精确地识别信息所在位置,并提供数据库格式,它将数据存储与数据显示分离开来,设计者可以根据需要自己创建和管理自主定义的标记。XML的语法是固定的,但其符号集是开放的,它以一对相互匹配的起始和结束符号来标记信息,描述对象时,可以多种方式显示,也可由应用软件进行深入的处理。在超链接方面,XML可以建立多重链接,除目标网页的位置外,还可提供从其他网址连入的信息,以及进一步指定目标网址找到后的动作,包括是否自动显示或搬到原有文件内。

由于XML置标语言的语义开放性,使它具备了广泛的包含能力,当它与元数据标准相结合,将描述元素嵌入网页之中,成为网格标准接口的一部分,所承载的信息资源体就可以在因特网中提供检索和发布,从客观上为网格数据计算技术的实现打下了基础。

5.4 Unicode字符编码的跨语言平台

计算机对文本字符的处理最终体现在对于数字的处理,系统指定一个数字,来表达和储存字母或其他字符,以固定的顺序排列字符,并以此作为记录、存贮、传递、交换的统一内部特征,即“编码”。字库的编码是字库组织的依据,也是文字处理的基础。不同国家和地区有不同的编码标准,在Unicode问世之前,有数百种编码系统,但没有一个编码可以包含足够的字符,仅与中文字库有关的常见编码就有单字节编码、GB2312-80、GB12345-90、GBK、ISO10646/Unicode字符集、GB18030-2000、BIG5编码、方正748编码等。当计算机系统不能支持其中任一种编码时,就会出现乱码情况,影响正常交流,甚至产生数据的损坏。

1984年4月,国际标准化组织成立了ISO/IEC JTCl/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。Unicode的主要优点就是可以移植到所有主要的计算机平台并且覆盖几乎整个世界,而且不仅包括常用字,也包括生僻字、繁体字、特殊符号等,对于原来难于沟通的各类计算机文字,基本上做到了兼收并蓄,因此十分有希望将各语言编码统一。

数字化资源描述体经过统一编码的处理,为网格应用于信息检索扫清了语言传递方面的障碍,使得各种文字可以在一个屏幕界面上出现并进行处理,互不干扰,保持了信息的完整性,客观上为不同语言系统的个性化信息共享提供了方便和可能。

6 结语

网格技术目前仍然是一项较新的领域,它在网络化信息管理和检索方面的应用也处于探索当中,甚至有些理论概念都还没有取得定论。但由于它在资源无缝连接、跨库跨系统平台方面的优势,加之个性化网络资源建设的日益繁荣,相关的标准也日趋完善,为该技术的应用拓展了无限的空间,因而备受计算机网络信息理论界的关注,其发展前景将十分远大。

收稿日期:2005-12-13

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

利用网格技术实现网络个性化检索_元数据论文
下载Doc文档

猜你喜欢