域内资源整合系统及其标准协议体系,本文主要内容关键词为:资源整合论文,协议论文,体系论文,域内论文,标准论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 介绍
从互联网发展的角度来看,随着信息高速公路的建设,信息传输技术已经十分发达,然而人们能够获得的真正有用的信息并不是很多。信息资源呈指数增长,但有效地利用各种信息的技术的发展步伐却远远落后于信息增长的速度。信息资源的飞速增长和用户获取信息能力相对不足之间的矛盾已经成为互联网发展中的主要矛盾,互联网正在从以传输技术为核心的“互联时代”发展到以信息检索技术为核心的“内容时代”。在这种背景下,一直以信息检索为核心的图书馆学研究也必然被赋予新的历史使命。数字图书馆研究和互联网基础研究已经相互融合,而不再是毫不相关的两个独立领域。
互联网发展中遇到的信息组织管理和信息获取问题在数字图书馆的实际建设中显得尤为突出,主要反映在以下两个方面:
(1)组织级别的信息资源整合问题。目前各个高校科研机构都有大量的自建和购买的文献资料等信息资源,我们还可从Google等公共搜索引擎中获得信息。丰富资源在给读者更多选择的同时却带来信息检索的不便。读者若想获得全面而准确的信息往往需要依次进入各个电子资源库的搜索界面逐一搜索,并且要对各个数据库的搜索规则有足够的认识,方可获得所需的信息。而目前电子资源还在不断购进,网页等互联网公共资源还在以几何级数扩张,读者要获取全面而准确的信息更加不易。在实际科研工作中,我们常常会因为少量的文献的漏查而造成大量的重复性工作。建立一个可以整合检索各类资源的平台已经成为当前图书馆数字化建设的当务之急。组织级别的信息资源整合问题正是目前互联网发展遇到的问题的最直接体现。
(2)单位组织间的信息资源共享问题。各个高校科研机构一般都有很多自有的特色数据资源,但这些资源的使用一般都限于各个单位内部,缺乏一套协调管理和共享机制,各类投入巨大建立的信息资源的使用效率极为低下,而且存在很多资源重复建设问题。如何解决单位组织之间的信息资源共享问题也一直是很多基础平台建设项目研究的核心课题。
尽管目前数字图书馆基本概念已经被提到了“新一代互联网的信息管理模式”的高度,众多的数字图书馆研究项目也都进行多年,但是如今即使在斯坦福大学这样一直走在数字图书馆研究前沿的高校,也仍不能为其本校图书馆的上百种电子资源提供一个综合利用、整合检索的系统。而对于组织间的资源共享研究也仅仅处在理论研究和小规模试验系统实现阶段,至今也还没有一套系统完整的国家级以及整个互联网级的大范围的资源共享方案提出。
本文首先对现有研究概况作一简要论述,然后在此基础上构建了一种新型的互联网信息资源整合方案“域内资源整合系统”,对其基本理论、具体的实施、协议体系分别进行详细介绍,最后进行了简要总结和展望。
2 相关研究
组织级别的信息整合研究主要集中在一些数字图书馆研究计划中,具有代表性的如美国数字图书馆先导计划中的几个子项目,也提出了如InfoBus这样的完整的解决方案,但是由于种种原因,推广情况并不理想,国内的CALIS、国家科技图书馆等几个大的数字图书馆项目对此问题也有很多研究,但实际建立的应用系统也很难达到实用的程度。
组织间的信息共享及互联网所有资源的整合研究基本上还处在起步阶段,典型的如“信息网格”研究,目前仍处在基本理论研究阶段,还没有一个可供实施的具体方案,而以Google为代表的网页搜索引擎也在试图不断扩展可检索资源的种类,但实际使用效果并不理想,而且由于政策等方面的原因,也不可能有一个私人企业去管理全部的公共互联网资源。数字图书馆建设则要实际地面对互联网发展中遇到的最核心问题,其解决往往需要一些最新的网络、计算机技术,但国内外图书馆界这方面的研究水平都普遍处在较为初级的阶段,很难将一些先进技术应用到相关研究中。而网格等计算机研究领域则对数字图书馆建设等应用领域的实际需求感受不深,对其特点理解不是很清晰,其提供的解决方案通常看似精美但却很难顺利实施,这就造成了数字图书馆的实际需求和相应的技术方案之间的脱节,如何进行学科交叉研究是解决问题的关键。
从资源共享的角度来看,先前的研究都说明一个成功的资源共享整合系统必须解决两个基本难题:
(1)首先是在技术上要确定一个完整清晰的系统体系结构,数字图书馆实现的一个有效途径就是首先在局部实现资源的整合检索,然后对这些系统进行进一步的扩展和整合,直至构建一种可以整合互联网上全部资源的系统,但要实现这种思路则需要一套严格的、完善的、系统的理论体系,包括系统究竟如何划分、整合的层次等问题,否则在实施过程中必然会产生混乱。目前大多数资源整合研究多关注元数据、检索协议等研究,在基本体系方面研究甚少,而在实际建立的InfoBus、NSDL等少数几个资源整合试验系统中,各个图书馆之间有的是以松散的点对点方式整合,有的则是按照所属部门或者地理区域进行整合,这个问题不解决就不可能建成一个实用的资源共享整合系统。
(2)再者就是实施的激励机制问题,作为一个资源共享系统,从结构上是分布式的,其管理和建设必然是由不同的单位组织负责的,如果各个单位组织不能从系统的实施中受益,而仅仅是强调共享,技术再先进也只会是纸上谈兵,而这也是目前的资源共享系统难以推行的根本原因。
本文从数字图书馆建设中这两个基本问题入手,针对资源共享系统建设中的两个难题,结合目前相关领域研究的一些新成果,提出了一种新型的互联网信息检索基础平台建设方案“域内资源整合系统”(Domain Resource Integration System,简称DRIS)。在组织级别,其建立了一种可以整合各个单位内部各类文献资源的异构资源统一检索平台,在此基础上,“域内资源整合系统”也提供了一套完整的单位组织间的信息资源协调管理和共享方案,然后将其进一步扩展成对整个互联网信息管理系统基础结构的研究,为实现数字图书馆的基本定义“下一代互联网的信息管理模式”进行积极探索。
3 域内资源整合系统基本理论
3.1 基本结构
尽管数字图书馆体系结构方面的研究进展十分缓慢,但在研究方向上却有一定的相似之处,目前很多学者都认为互联网的信息组织管理应该是一种地理上的分布式模式,首先实现局部小范围的整合,然后进一步实现大范围整合,这正是我们解决问题的基本思路,这种思想反映到计算机技术上就是一种分布式、分层次的思想。我们发现现有的网络技术中能与这种“区域范围整合”—“整个互联网范围整合”的思路基本对应的只有DNS域名系统,如今几乎每一个高校和大的组织都有自己的域名服务器,管理组织内部的网站注册解析功能, 而这些底层服务器又通过上层服务器协调来完成整个互联网范围内的域名解析工作。事实上IRTF的SIREN工作组和美国科学院通讯信息领域的“互联网导航与域名系统”课题组也都曾对将DNS扩展为互联网信息基础框架的可能性进行过讨论,只是目前都还没有一个实际的方案提出。尽管现有的域名体系在实施中并不是严格对应于“区域到整体”的方式,但基本上保证了整个系统的结构完整清晰。在互联网整体上缺乏协调管理的条件下,很难再去另辟蹊径为信息整合去构建一种全新的体系结构,利用现存的DNS的分层的分布式结构去构造新的互联网信息管理系统是一种比较现实的途径。
如上所述,DRIS采用和DNS系统类似的基本体系结构,是一个分层的信息资源管理系统。DRIS将互联网分为一个个独立的模块“域(Domain)”,每个域内建立一个信息中心节点,将本域内的所有信息资源进行索引,其体系结构如图1所示。整个系统分为三层,第三层为DNS的三级域,一般对应于某个组织机构,如一个大学;第二层一般对应于国家的各个主干网,如CERNET;第一层则对应于某个国家。
附图
图1 DRIS基本结构
3.2 三种基本检索系统
在确定了DRIS的基本结构后,下一步就是如何构建各层的信息管理系统,我们首先要对现有的几种信息检索管理系统有一个大致的了解。按基本结构划分当前的信息检索系统可以分为三类:
(1)常规数据库型。即以数据库建库系统为基础的信息检索系统。这类系统有自己的数据采集系统、索引系统以及检索接口。如现有的网页搜索引擎、各种专业数据库等都属于此类系统。
(2)元数据采集型。当需要整合多种类型的资源或数据源规模较大的情况下,一般采用从各个底层数据库中采集元数据并整合到一个系统的方式构建检索系统。这类系统没有自己的数据采集加工模块,仅存储索引功能元数据,并能提供多种数据的联合检索功能,比较常用的如OAI[1] 系统。
(3)分布式检索系统。如果数据源的规模更大以至于元数据的存储量也非常大,则可采用分布式的信息检索结构。此类系统中各个子数据库系统分别提供符合统一标准的信息检索接口,执行信息检索时由核心系统负责协调各个子数据源完成检索请求。这类系统中没有存储实际的数据记录,仅仅存储数据源检索接口的描述数据。具有代表性的如Stanford数字图书馆计划中的SDLIP协议系统[2]。
信息检索系统基本结构的选择一般根据以下规则,即随着数据规模扩大和数据类型的增多一般可以分别选择常规数据库型、元数据采集型、分布式检索系统。
3.3 DRIS的特例
在介绍了DRIS的基本结构和现有的几种信息检索系统后,就要确定如何去具体实现DRIS。为了使整个系统的基本理论体系清晰明了,我们首先作一个基本的假设,即各个单位内的信息资源完全归本单位拥有,可以自由使用其元数据和数据接口。按照DNS的基本结构,其按范围分为组织级、主干网级、国家级,数据量由少到多。而信息检索系统基本结构的选择一般规则为随着数据规模扩大和数据类型的增多可以选择常规数据库型、元数据采集型、分布式检索系统。根据这些特点,我们将信息系统的基本结构选择规则应用到整个Internet上的信息管理,可以得到以下方法:组织级——常规数据库检索系统,主干网级——元数据采集系统,国家级——分布式检索系统。即在组织级别进行数据的采集和索引工作,然后向主干网级别的DRIS服务器提交元数据,而国家级的DRIS服务器则记录各个子数据源的检索接口描述数据。整个DRIS的功能结构如图2所示。
附图
图2 DRIS功能结构
4 域内资源整合系统的实施方案
我们对各种资源完全归各单位自由支配的假设在实际中并不存在,目的只是为了说明DRIS的基本理论,在这一部分会按照DRIS的基本规则根据不同情况对各层的系统建设方案进行详细介绍,这里主要以CERNET为例,具体如下所述:
(1)第三层,校内资源整合系统。DRIS的第三层即三级域一般对应于某个组织,而在我们的试验系统内(CERNET)则对应于不同的大学。此层的DRIS服务器将建立可以整合一个校园网内所有资源的检索平台。目前这正是各个大学图书馆急需解决的问题。此层的系统主要以Webservice为核心结合OAI元数据采集系统构建馆内资源整合系统,对于自建资源一般采用元数据采集的方式建立联合元数据库,而对购进资源则利用分布式检索接口进行整合检索,具体如图3所示。该层系统可以整合单位组织内部的图书馆各类电子资源、校内网页和Ftp等公共资源、各个院系的特有信息资源等,提供整合检索功能。
附图
图3 院校内资源整合系统
以华中科技大学的校园网信息资源整合系统为例[3],其包括了网页和FTP等公共资源,还有图书馆购进的各类数据库,以及各个系或图书馆自行设计的特色数据库系统。对于购买的各类数据库资源一般要求其提供符合标准的分布式检索接口,对暂时未能提供标准接口的则将其现有的检索接口封装为标准接口,对于自行建立的机械数据库等特色资源要求能够按照OAI协议提供元数据,而对网页、FTP资源则需要自行建立专门的搜索引擎系统进行数据采集和索引,对分散在各个院系的无格式未经索引的电子资源则可采用P2P的方式进行建库索引,这些独立设计的资源库也按照相关标准提供元数据采集或标准检索接口。对检索服务的索引描述采用了UDDI注册的方式,由于UDDI可以描述包括信息检索服务的各类Web服务,因此如图3所示,也对其他类型的数据服务进行了索引。读者最终通过UDDI服务注册中心去调用具体的信息服务。
(2)第二层,DRIS的第二层一般对应于各个主干网,这里讨论包括国内所有大学的CERNET。目前各个高校之间的信息资源共享整合一直没有一个很好的解决方案,而此层的DRIS服务器则恰恰可以解决此问题。在第三层的各个院校自身的数据整合系统建立之后,就有了建立CERNET上节点的基础,此节点只需要对第三层的联合元数据库再次进行采集,建立更大规模的元数据库即可,而相应的服务注册信息也直接来源于底层服务注册中心的提交数据。此层的资源整合系统将整合CERNET上所有高校院所的信息资源,在实际建立时可以根据CERNET现有的划分特点,以各个主节点为核心首先建立几个省的资源整合系统,然后将这些主节点的数据再进行相互备份,便可以建立覆盖整个CERNET的资源整合平台,这种做法也可以起到数据安全防灾、分散访问流量的作用,具体方案如图4所示。
附图
图4 DRIS二级节点CERNET示意图
(3)第一层,国内Internet资源整合。如果国内的其他主干网都能像CERNET那样建立二级DRIS服务器,则根据DRIS的基本规则,只要对几个检索接口的检索服务数据进行索引就可以很容易地建立第一层的DRIS服务器,除此之外还可以考虑将DRIS融入互联网的基础协议内,目前互联网正在经历IPV6换代时期,这也给DRIS的大规模推广实施带来了很好的机遇。如果能够获得IPV6的底层支持,则会对DRIS的进一步实施带来极大的便利。
这里仅仅以CERNET为例对DRIS的实施进行了分析,但其他主干网并不像教育网那样组织有序,如在.com域内。我们需要根据实际情况灵活地选择不同结构的信息检索系统,事实上互联网上的任何资源只要能够提供标准的检索接口或兼容元数据采集标准,均可根据不同情况纳入DRIS系统。
5 系统的服务管理
DRIS是一个大规模的分布式系统,系统的每一个节点都是完整的信息检索系统,分别提供不同范围的信息检索服务。上面所述内容实际上是整个系统的数据信息的管理方案,而另一个重要问题就是系统的服务管理,就是研究如何快捷有效地调用系统的各类服务。目前在Internet上提供服务的主要方式是XML/SOAP/Web services形式,DRIS也将采用此种形式提供服务,那么系统服务的注册和统一调度管理自然是按照UDDI的方式,本项目将依照DNS的体系设计一种分布式的信息检索服务注册管理系统。我们一般利用面向对象的模型对此类应用系统的体系结构进行描述,这里使用此方式来描述该系统,根据系统的特点,主要是将DNS的命名系统映射为DRIS软件实现系统的类树,我们为其选择一个了基本的命名空间“DRIS”,整个系统的类树如图5所示:
附图
图5 DRIS的面向对象模型
所有的系统节点都位于命名空间“DRIS”下并视为其子类,这些子类及其功能都在不同的服务器上实现。为了整个系统使用和管理的方便,我们定义了以下几个基本规则:
(1)所有的节点都通过标准Web services的形式提供检索服务。
(2)所有的检索服务都按照“继承”的关系进行组织,但这种关系的实现和标准的面向对象模型稍有不同。低层的节点通过引用高层节点的Webservice的形式进行继承。而对高层节点来说,其各个子类都位于不同的服务器上,高层节点并不知道其子类,因此将有一个专门的模块用来索引底层节点的检索接口。
(3)Web services通过URL链接来提供服务,对用户来说如何发现相应搜索引擎服务的链接是应用中的关键问题。例如我们如果要利用一个高校的信息检索服务,如何才能发现其URL。为了方便用户,我们对搜索引擎服务器的位置作一规定。每个DRIS服务器都通过链接“DRIS.域名”向外提供标准的Web services检索服务,而此服务器上Web service的主类名为“DRIS.反顺序域名”。如华中科技大学的域名为“hust.edu.cn”,则其DRIS服务器通过链接“DRIS.hust.edu.cn”向外提供校内各种资源的检索服务,而此服务的主类名为“DRIS.cn.edu.hust”。
以华中科技大学DRIS节点为例,其类的树型图如图6所示。主类“DRIS.cn.edu.hust”提供校内资源的整合检索功能,而“DRIS.cn.edu.hust.webpage”则提供校内网页检索功能,其他各个节点分别提供相应资源的检索服务。
附图
图6 一个第三层DRIS节点
这些针对检索服务的规则主要是为了整个系统使用和管理的方便。事实上该系统构建了一种分层分布式的UDDI注册系统,而利用此系统还可以注册管理除信息检索服务之外的其他各类服务。DRIS的服务管理系统对DNS的“站点导航”功能进行了大幅扩展,使其变成了一种互联网上所有信息资源和服务资源的“导航器”。
DRIS系统提供互联网不同范围的标准格式的信息检索服务,这将为一些个性化智能信息检索系统提供高质量数据源。这些个性化搜索系统可以根据用户的兴趣爱好等信息,自动选择合适的数据源并按照用户需求对检索结果进行相应的整理。
6 DRIS协议体系
DRIS的研究方案最终应转换为可供实施的标准协议,为了使整个系统更加明确,我们将其分为5个模块,分别对应5个单独的协议,每个协议都能独立解决一些实际问题。DRIS是一种分层次的分布式信息检索系统,其本身包含三种检索结构:集中式检索系统、元数据采集系统、分布式检索系统。我们将首先定义这些基本检索结构,然后再定义整个DRIS系统。其协议体系主要包括以下几个部分:
(1)分布式检索系统协议[5]。相应的协议将定义一个与平台无关的检索接口和一个资源描述标准以及相关的访问控制标准等。
(2)元数据采集系统协议。相应的协议将定义一个类似于OAI标准的元数据结构,此元数据应该可以兼容目前大部分元数据标准,具体的数据采集协议也将详细定义。
(3)基于DRIS体系的网页搜索引擎。网页资源是互联网上一种最主要的公共信息资源,由于其分布式、数据量庞大、索引方式特殊的特性,因此将详细定义专门的网页资源检索系统。目前的商业搜索引擎由于均采用了集中式体系结构,在更新率和覆盖率方面都遇到了严重的瓶颈性问题,目前没有一个搜索引擎可以覆盖超过50%的全部网页,而更新周期都在一个月以上,很难满足科技情报检索的需求。而以DRIS为基本框架的网页搜索引擎由于采用了完全不同的分布式结构,其为彻底解决覆盖率和更新率问题提供了一条有效的途径。
(4)DRIS系统。互联网上的任何资源只要能够提供标准的检索接口或兼容元数据采集标准,其均可根据不同情况纳入DRIS系统。在此将定义DRIS的整体构架,各个节点之间的组织建立、协调、备份关系等等。
(5)DRIS和IPV6系统。IPV6是下一代互联网的最主要特征,而且IPV6还在不断改进中,任何有利于Internet发展的内容都可以纳入其体系之中。安全性、服务质量保证以及地址数量等问题都已在IPV6中得到很好的解决,但是互联网信息检索问题和每一个用户都息息相关,信息检索服务作为互联网提供的一种最重要的服务更需要在下一代互联网体系结构中进一步改进。DRIS完全可以纳入IPV6体系中,而IPV6的推广则正缺少一种“杀手级”应用。
系统协议的选择制定必须坚持开放性原则,尽量采用比较成熟或比较有发展前景的协议,如分布式检索协议可以采用ZING系列协议,而元数据采集协议则可对OAI协议进行适当的扩展,使其支持更多的数据类型。
7 实施可行性分析
对于一个协作建设的资源共享系统来说,如何进行具体的实施往往比技术本身更重要。这里分别从版权、权益与义务、标准的制定等几个方面对系统的可实施性进行分析。
7.1 权益义务及知识产权考虑
对于一个资源协作共享系统来说,根据权益以及在系统建设中的作用不同,可以划分出四个不同角色,包括最终用户、本地资源索引及信息服务提供者、资源提供者、系统整体协调者[6],我们分别对其不同的职责及相应的知识产权问题进行论述。
(1)系统协调方。主要是协调各个单位进行共享系统的底层节点构建,同时负责DRIS高层节点的建设和维护。DRIS的管理和DNS一样,需要设置一个公共组织协调才能保证系统的顺利实施。
(2)本地资源索引及信息服务提供者,在CERNET范围内主要是各个高校图书馆。从资源共享的角度来看,其起着双重角色,首先是对本校的各类资源进行索引,建立与其他单位进行资源共享的基本节点。再者就是利用DRIS上的各类资源为本地用户服务,如采集专题元数据,建立个性化检索门户等等。至于知识产权问题,可以在上载元数据及注册检索服务时进行适当的限制,对于一些资源也可以同系统协调方商议,设置适当的有偿使用规则。
(3)用户。对于最终用户来说,在DRIS建立后,其面对的将不再是一些数字资源的简单链接,而是一个统一协调的资源集合,其可以方便地通过个性化图书馆门户获取各类资源。而在版权考虑方面,对读者的访问限制可以在多个环节进行设置,如DRIS的服务都是通过Web services调用的,而此类服务可以很容易地进行接入控制,而其底层SOAP协议也支持访问控制,还可以在各组织内部采用传统的IP访问限制。而进一步地,如果能够建立统一的身份认证体系,DRIS系统就可以根据身份认证信息及资源的特征,选择不同的访问策略,例如一般用户可以访问所有公共资源,而对于有偿使用资源,一些用户可以自由访问,另外一些用户则可能要付费使用。
(4)资源提供方。主要指Elsevier等数据资源提供者以及arXiv等公共资源,在DRIS建立时要求资源提供方提供标准检索接口或元数据,一些公共资源都提供了基于OAI等元数据采集接口,但对一些付费数据库来说,至少应能提供标准的检索接口,这样做虽然并不会带来版权问题,但由于种种原因此类要求暂时还很难被接受,特别是国外的一些数据库,为此必须结合实际情况具体协调,例如对新购数据库在购买之初就要求提供符合要求的检索接口,对于其他数据库则可结合团购情况具体处理。
7.2 标准的制定与推广
标准协议是建设资源共享系统的关键,由于一些信息检索标准已经逐步成为互联网的基础性标准,而且很多信息资源都购自国外,一些底层支持协议也是国外学者制定的,如果仅仅将标准发布为“国标”则很难保证所建应用系统的兼容性和完整性,因此在协议制定和选择时必须坚持开放性、国际化原则。根据本系统特点,其标准协议的设计推广应遵循以下两个要点:首先是要成为一个“事实上的标准”,就是应充分考虑协议的可实施性和具体的推广工作,有些协议尽管非常完善,但是复杂程度较高,难以实施,而在图书馆这样的环境中更需要一种简单易行的标准协议。再者就是要成为一个“权威的标准”,要让我们的解决方案真正成为整个互联网的解决方案,和一些权威的互联网标准化组织如IETF、W3C等合作就是相关研究进一步发展的必由之路,一旦获得这些标准化组织的支持,就可为协议的实施带来很多便利。 而在具体实施中可以首先建立小范围的试验系统对协议方案进行改进验证,同时起一定的示范作用,而在相关协议得到逐步认可并发布为“权威的标准”后再进行更大规模的实施。
8 总结
目前互联网发展遇到的核心问题从本质上讲就是地理上分布式的海量信息数据管理和检索问题。“域内资源整合系统”首先利用了DNS分层的分布式基本结构,确定了一种清晰的互联网信息管理系统基本结构;然后应用三种不同结构的检索系统解决了“海量数据”的存储索引和管理问题;最后利用Webservice/UDDI分布式体系将整个系统连成一个有机整体。人工智能研究是解决信息检索的准确率问题的根本途径,DRIS则建立了一种完整的互联网信息检索基础平台,为各类个性化信息检索系统提供了优质的数据源,为提高信息检索质量提供了基础性保障。而整个系统以“域”为基本单位的划分形式也为系统找到了现实的实施需求。
“域内资源整合系统”是一个由数字图书馆研究领域提出的互联网信息管理方案,围绕系统各个节点建设开展的数据资源建设、数字资源的长期保存、针对本地用户的个性化信息服务等等是Google等网页搜索引擎难以涉及的,“域内资源整合系统”研究也是互联网信息时代对图书馆定位的积极探索。
标签:数字图书馆论文; 信息检索论文; 元数据论文; 搜索引擎技术论文; 数据库系统论文; 数据整合论文; 数据单位论文; 分布式技术论文; 信息发展论文; 搜索引擎推广论文; 互联网协议论文; 图书馆论文; 文献检索论文;