网络环境下的资源整合模式探讨_搜索引擎论文

网络环境下资源整合模式探讨,本文主要内容关键词为:资源整合论文,模式论文,环境论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

互联网发展到今天,已经成为人们生活中不可或缺的最重要的信息来源之一,人们从网上获取各种各样信息的方式有多种多样,对于一般常识性、知识性的公开发布的信息,用户可以通过直接浏览相应的网站或利用搜索引擎检索就可以满足要求。但对于非公开发布或有使用权限的数据库和资源,通过以上方式是不可行的。一方面搜索引擎不能够囊括数据库资源,另一方面版权的问题使信息需求者必须获得一定的许可权限才能访问相应的资源。同时,由于一个单位的数据库的类别很多,如果用户要检索一个课题就需要分别检索各个数据库,需要逐个熟悉各个数据库的用户界面和检索规则,则易造成时间和系统端口的堵塞。为了解决这些问题,如何整合各种数据库,为用户提供统一的检索接口,减少用户的检索时间和行为,使用户能够在网络上通过http协议访问所需要的资源问题提上了日程,这就是资源整合问题。

资源整合通过对分布环境下异构数据库的整合实现对这些数据库的统一检索,力求以统一的界面和格式提供给用户,做到兼容尽可能多的资源。本文将从技术解决方案的角度讨论资源整合的三模式,并对每一种模式的核心技术进行了介绍。这三种模式分别是伪资源整合、局部资源整合和标准资源整合。

1 伪资源整合

伪资源整合是以搜索引擎为代表的资源整合,它定期通过一定的程序对互联网上公开发布的静态资源进行采集,然后在本地建立索引,向用户提供检索服务,由于所提供的是同构系统的静态公开发布的页面整合服务,从严格意义上讲它还不能称为资源整合。下面就通过对搜索引擎的工作原理的介绍来对这种资源整合方式作一说明。

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。

①全文搜索引擎。全文搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。

这种搜索引擎的特点是利用一个称为Spider(也叫作Robot、Web Crawler或Web Wanderer)的程序自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其它网页,或转移到其它站点上。

Robot搜集的网页被加入到搜索引擎的数据库中,供用户查询使用。

全文搜索引擎由三个主要部分构成:搜索程序、索引数据库(index)和检索软件。

搜索程序从一个事先制定好的URLs列表出发,自动搜索页面,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来,如此递归地访问Web。

建立索引数据库的过程是由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

检索软件主要是完成用户的检索请求。当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

全文搜索引擎一般要定期访问大多数以前搜集的网页,刷新索引数据库,以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结果中,这是全文搜索引擎的一个重要特征。

在建立索引时,一般会给网页中每个关键词赋予一个等级值,表示该网页与关键词之间的符合程度。当用户查询一个关键词时,搜索软件将搜索Index,找出所有与关键词相符合的网页,有时候这些网页可能有成千上万,等级值的用途就是作为一种排序的依据,搜索软件将按照等级值从高到低的顺序把搜索结果送回到用户的浏览器中。

②目录搜索引擎。目录与全文搜索引擎所不同的是,目录的数据库是依靠专职编辑或志愿人员建立起来的,这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。

目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别,另外,用户也可以利用目录提供的搜索功能直接查找一个关键词,不过,由于目录只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录与全文搜索引擎之间的一大区别。由于目录是依靠人工来评价一个网站的内容,因此用户从目录搜索得到的结果往往比从全文搜索引擎得到的结果更具参考价值。

③元搜索引擎。元搜索引擎的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。严格意义上来讲,元搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。元搜索引擎实现起来比较简单,但是它也有一定的局限性,例如多数元搜索引擎都只能访问少数几个搜索引擎,并且通常不支持这些搜索引擎的高级搜索功能,在处理逻辑查询时也常常会出现错误。

综上所述,以搜索引擎为代表的伪资源整合把其他网站的静态页面的链接采集到本地通过一定的算法做成本地数据库,提供给用户的只是一个链接,最多给出一个页面快照,它的优势是能够满足一般用户的检索需求,它的缺点是只能检索静态公开发布的页面,对于异构的数据库和在一定范围内使用的资源却无能为力。鉴于伪资源整合的不足,以及现在许多单位购买或建设多个不同的数据库资源,而且这些数据库都是各商家提供的异构数据库,用户在查询多个数据库时,需要重复地登录数据库、重复输入关键词,浪费读者大量的时间和精力且效率也较低,给访问数据库造成了很大的瓶颈。为了解决这个问题,就需要采用局部资源整合。

2 局部资源整合

局部资源整合以各数字图书馆的异构平台的统一检索为代表。

各数字图书馆雏型或试验基地都有若干种本馆特种馆藏的数据库系统,或购买若干商用二次文献、全文数据库,有些是镜像在本地,有些是购买访问权,数据库在异地,或从因特网上查找有用的资源。这些数据库往往在不同型号的服务器上,使用操作系统和数据库平台不同,使用各种不同检索系统。统一信息访问平台主要解决异构平台的信息资源检索,向用户提供方便检索的统一界面,提供不同数字图书馆互操作,使读者不必分别一个一个进入不同数据库进行检索,让读者以最快的速度,查找到自己所需的源文献。这种资源整合的主要原理见图1。

图1:异构数据库跨库检索原理图

局部资源整合的主要技术是异构数据库系统的跨库检索。每一个数据库系统和网站的系统、数据结构、检索表达式,返回结果的格式等一般都不相同。为了实现对用户透明的跨库检索,需要针对每一个数据库和网站设计一个extractor(抽取器)和一个wrapper(包装器)。Wrapper的功能主要是记录数据源的数据访问方法,用于得到数据源返回的Web页面。抽取器功能是处理数据源的数据表现形式,一般采用某种自定义的查询语言,从样式信息和抽象数据混合的HTML中抽取出抽象数据,转化成提供给用户的统一格式。

局部资源整合的主要过程:首先,用户登录到同一检索界面提交用户名和密码,指定检索配置,包括提交检索词,选择要检索的数据库和站点、检索方式等。然后提交选择,系统调用每一个选定数据库和站点的wrapper,wrapper把检索表达式转化成每一站点识别的表达式,让每个站点自主完成检索过程。数据库和站点返回的是包含相应记录信息的html格式的静态页面,extractor通过把html格式的静态页面转化成xml格式和其他格式的页面,并对专程成的页面中的信息进行解析,提取所需要的信息,转化成统一的格式,然后对检索的记录进行整合排序,例如去重、按照时间限制、重要性等,并把整合好的统一结构的记录提供到统一检索界面。

从上面的原理可见,通过资源的局部整合,可以大大提高资源的利用率,提高检索效率,简化用户的检索行为,节省了检索时间。目前,局部资源整合是最常用的一种资源整合方式。

现阶段,由于资金投入和版权的限制,整合后的资源只是在原来限定的范围内使用,例如在校园网内或公共图书馆内,用户的这种资源使用权需要授予的,并非所有的用户在任意的地点通过网络头都可访问,比如高校的整合后的数据库资源只能在校园网的范围内使用。各个组织的整合方案之间并不一定能实现整合。于是,用户正渴望一种新的资源整合方式,这就是标准资源整合方式。

3 标准资源整合

它是一种完美的资源整合形式,能够实现对网上所有异构的数据库资源进行检索,它要求所有的资源拥有者都遵循一定的协议。只要资源在网上,用户就一定能够检索到,检索不是免费的。标准资源整合成本最低,服务最有效。这种资源整合方式的典型代表是OAI模型。下面对OM模型作一介绍:

①OAI简介。OAI指的是Open Archives Initiative,它的目标是发展和促进互操作标准,促进内容数据的有效传播。OAI最初是用来加强对电子印刷文档的访问以增强学术交流,以及要保证科学数据在将来也可以访问。

着重介绍与OAI及其原理相关的几个概念。

数据提供者(data providers):维护一个或多个支持OAI-PHM并把该协议作为揭示元数据的一种手段的web服务器。它只在OAI系统中添加一个接口,把自己的元数据转换成DC,供service provider使用,本身也可以提供其他服务。

服务提供者(service provider):向数据提供者发出OAI-PMH请求并且利用得到的元数据构建增值服务。

存储体(repository):由数据提供者管理的可以在网上访问的服务器,它提供服务提供者需要采集的元数据。

采集器(harvester):在服务提供者方作为从存储体中搜集元数据的一种应用工具。

②OAI模型的检索原理。OAI模型由三个层次组成:用户层、服务提供层、数据提供层。三个层次分别对应用户、服务提供者、数据提供者三个主体。服务层可以有多个服务提供者,数据提供层可有多个数据提供者。如下页图2所示:

图2:OAI系统模型

参与OAI系统的数据提供者只是提供元数据转换接口,他们不一定拥有自己的资源。资源的拥有者可以自主支持对多种元数据格式的查询,通过用元数据前缀来说明,但必须支持DC。

参与OAI系统的服务提供者,主要通过对数据提供层的检索为用户提供增值服务。它提供给用户的是统一元数据格式的数据。

每一个用户可以选择对一个或多个提供者进行检索,当检索的请求被发送到服务提供者,服务提供者就把请求传递到与其合作的数据提供者进行检索,数据提供者把满足用户需求的信息通过服务层传递给用户。

如果所有的资源拥有者都参与OAI系统,由数据提供者提供元数据转换接口,那么这种资源整合就是最理想的模式,但它能否在真正意义上实现还是一个未知数。因为要使资源提供者参加这个联盟的动力不足,在既得利益的驱使下他们会继续自主建设自己的资源,而不是遵循OAI模型。

4 结论

由上文可以看出,各种资源整合方式都有不同的侧重和存在的必然性,伪资源整合和局部资源整合在很长的一段时间内会共存,而标准资源整合却是广大的信息用户所期待的,我们希望标准资源整合的这一刻早日到来。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

网络环境下的资源整合模式探讨_搜索引擎论文
下载Doc文档

猜你喜欢