网络信息资源组织的新模式——主题网关,本文主要内容关键词为:网关论文,信息资源论文,新模式论文,组织论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 导言
人们对网络资源发现的需求越来越迫切,而网络资源的有效发现和利用必须以优化的网络资源组织为基础。从检索语言角度看,信息组织有分类和主题两大方式,各有利弊,目前对利用这两种方式提高网络资源组织效率的研究和实践都有了很大进展,然而离人们的期望还很遥远。可以说,目前仍没有一个非常有效的方式出现。本文正是从网络信息资源组织和服务的形式这个角度出发,介绍一种新的服务模式——主题网关。
主题网关的概念在国外也是比较新的,还处于发展阶段,但是其发展趋势是非常乐观的。国外主题网关的服务和相关研究是网络资源发现的重点,取得了相当大的成果,影响面也很广,美国和欧洲国家以及澳大利亚都开始逐步展开,可以预见它将会是一个全球范围的网络资源组织和服务的潮流。
2 主题网关的兴起与发展
主题网关作为一个名词术语最初是在英国的电子图书馆计划(the Electronic Libraries Programme,eLib)中被提出的。eLib是由英国高等教育基金会(the UK Higher Education Funding Councils)下属的联合信息系统委员会(the Joint Information Systems Committee,JISC)于1994年建立的。该项目的第一阶段计划里包括的一个项目是网络资源存取(Access to Network Resources,ANR),主题网关正是ANR的一部分。
主题网关于1995年开始运作。其中SOSIG在eLib资助之前就已经建立起来,它是由Economic and Social Research Council(经济和社会研究委员会)支持的,有大约300个因特网资源的描述。接着ADAM、EEVL和OMNI,History,Biz/Ed都开始开展服务。
eLib的ANR项目证明了主题模式的成功,因而被普遍效仿。然而,JISC的资助是有限的,而那些主题网关仅仅只覆盖了英国的高等教育和研究范围主题的一小部分。JISC委员会考虑eLib的发展,提出一个发展计划,旨在把成功的项目推向服务。于是有了RDN的出现。
RDN是作为一个网络组织建立的,包括一个中心和一系列叫做“hub”的组织组成。这个框架的开发采用与商业发展模式相似的模式,包含公共关系政策、互操作、资源建设、合伙制等。RDN实际上相当于eLib的进一步发展,主要是以新的联合的运作方式,并引入商业模式来开发主题网关。各个hub就是独立的主题网关,它们既在RDN中心的协调下又有各自的独立性。
目前在主题网关领域活跃着并起主导地位的是DESIRE项目。DESIRE(Development of a European Service for Information on Research and Education,欧洲研究与教育信息服务之发展)项目由欧盟赞助,作为用于第四个框架程序之研究领域的远程信息处理的一部分。
DESIRE推荐把主题网关作为一个提供给研究者和学者简单有效获取高质量网络资源的工具,并且建议采用欧洲的图书馆和大学建立国家级网关负责整个国家的高质量的网络资源,这些网关可以形成一个网关的欧洲网络,这样就有交互检索的潜在可能。DESIRE负责开发使用工具及方法以支持计划建立自己网关或欲提高现有水平的组织。这些包括建立网关的软件、网上编目指导方针、metadata标准和一本《信息网关手册》。DESIRE同时还将促进国际合作及整个欧洲地区国家网关的发展战略,开发能够进行交互检索的分布式网关的软件和建立分布式编目的模型,使得不同地区的工作人员可以为同一数据库编目。
而真正意义上的欧洲主题网关的联合和共享是由Renardus实现的。关于Renardus项目下文将做主要论述。
3 主题网关的定义和类型
主题网关这个名词在英文中经常有“subject gateway”、“information gateway”、“subject-based information gateways”等多种提法,一般来说是交替使用的。在各个国家以及各主题网关项目的研究和活动中,对主题网关的定义和理解也不完全相同。Lorcan Dempsey,Tracy Gardnert和Michael Day等人在《国际信息网关协作:IMesh构架第一工作组报告》[1]中提到,并不一定需要一般性地定义主题网关是什么,而且花过多的时间讨论主题网关是什么也是没有意义的。这种定义的松散性,其实是出于实际考虑,以吸引那些在初始阶段对此有兴趣却没有表现出明显特征的那些实体。Traugott Koch在《质量控制主题网关:定义、类型、经验性概述》[2]一文的导言中也提到,术语的讨论和定义往往是枯燥的,而且对以后的研究和工作也并非十分重要。不过Koch还是在文中给出了主题网关的定义以及类型。另外在一些主题网关项目中也有对主题网关的介绍。笔者就所能获得的资料将主题网关的定义和类型表述如下。
3.1 主题网关的定义
Traugott Koch对网关的定义:“主题网关是支持系统化资源发现的因特网服务。通过因特网提供对资源(文献、对象、网站或服务)的链接。该服务建立在资源描述的基础上,可以通过主题结构浏览访问资源是其重要的特征。”由于是因特网服务,其对象是分布式因特网资源,因此那些纯粹本地资源的目录或索引都不能称为主题网关,而且那些包含少量因特网资源的图书馆目录(OPACs)也不能叫做主题网关,因为它们所列的主要还是本地的物理的资源。Koch还指出,主题网关的定义故意制定得很开放,它既包括“(1)有很少描述说明和浅显主题结构的链接列表,这里称为主题网关;(2)有高标准质量控制的主题服务,并且描述说明和结构都很丰富,这里称为质量控制主题网关。”质量控制网关是主题网关的较高级形式,在很多情况下,大多数的主题网关工程是质量控制主题网关,而在称谓上却依然用的主题网关的名称。
Lorcan Dempsey,Tracy Gardner和Michael Day等在文献[1]中指出,主题网关具备以下特征:(1)建立在资源描述基础上的服务;(2)高水平的人工创建或干涉,一般由信息专家和主题专家来做;(3)检索和浏览功能;(4)有选择标准和质量标准支持的资源发展政策;(5)有维护和更新程序支持的资源管理政策。
Emma Place认为,在某种程度上,主题网关是学术或专业图书馆的因特网等价物。主题网关是帮助用户查找高质量信息资源(因特网上的可获得的信息资源)的基于因特网的服务。它们有一个描述因特网资源的详细的元数据记录的数据库,并且提供访问资源的超链接,用户可以选择用关键词检索数据库,或者按主题名称浏览资源。主题网关有两个关键的特征:
(1)经过质量控制的;(2)它们是由主题和信息专家建立的,经常是图书馆员。
Lorcan Dempsey认为,主题网关是指一种网络资源发现服务,提供特定主题、依照一定标准选择的有因特网资源描述的数据库。
DESIRE的信息网关手册中,对信息网关的定义是:信息网关是有以下特征的质量信息控制服务:(1)提供连向因特网上其他网站或文献的链接的在线服务;(2)根据制定的质量和范围标准运用人的智力劳动过程选择资源;(3)依靠人的智力完成内容描述,该描述介于短的注解和评论之间(排除自动抽取的所谓的摘要);(4)依靠人的智力构建浏览结构/分类(这就排除了那些未组织的链接列表);(5)至少部分是人工为每个资源创建(书目)元数据。而DESIRE II指南《因特网质量信息网关的建立》里面对信息网关的解释是:
(1)支持系统化资源发现的因特网服务;
(2)提供访问资源(文献、对象、网站或服务)的链接,主要是因特网可访问的资源;
(3)以资源描述为基础;
(4)通过主题结构提供资源浏览入口。
在Nicole Clark和Denise Frost的《以用户为中心的评价与设计:主题网关展望》[3]中提到,还有人把主题网关定义为:支持主题学科方式检索的,获得高质量、经过评价的资源的一个基于Web的机制(Campbell,2000)。
“主题网关”还曾被解释为一个有描述性记录和等级浏览功能的质量控制因特网资源目录。
通过对以上定义的分析,我们认为Traugott Koch对主题网关的定义是比较准确和完整的。其他对主题网关的理解也是有道理的,有助于我们对主题网关进行全面理解。
3.2 主题网关的类型
不同类型的网关有各自不同的目标,类型划分有助于理解现有主题网关服务的宽度和多样性,便于全面了解主题网关。可以用这样一个矩阵来表示主题网关的不同类型:
一个几个多个/全部
范围
主题
国家/地区
资源的语种
资源的类型
其中范围可以根据需要再列出如历史范围等,或者将资源的语种与界面的语种再作进一步细分。上面的矩阵列出的仅仅是最基本的划分方法。其中,比较极端的情况是:
(1)只包含一个主题(不管“一个主题”的定义是什么)、一个地区、一种语言和一种资源类型的服务。
(2)一种普遍的服务,全部或多种主题、全球范围、多语种、所有资源类型的服务。
比较常见的类型如下:
(1)全球的特定主题类型(一个主题,范围为全球,单一语种),例子:Biz/ed,EELS,EEVL,OMNI, SOSIG,GeoGuide,MathGuide,MetaChem;
(2)通用类型(全部主题、范围为全球、几个语种),例子:CORC和Signpost;
(3)全球的联合主题类型(几个或多个主题、范围为全球、单一语种),例子:ADAM,BUBL,NISS,NOVAGate;
(4)国家的多主题类型(重点是本国资源和用户),例子:DutchESS,Svesoek。
(5)国家的特定主题类型(一个主题、一个国家、单一语种),例子:Deutscher Bildungs-Server,GEM,the UK sections of EEVL和SOSIG,Agrigate,AVEL。
不同网关之间相互协作的类型,可以由下面的因素来区分:
(1)共享资源挑选和编目,例子:DutchEss,NOVAGate,EELS,CORC;
(2)记录交换、翻译和其他协作,例子:Planned between CORC and RDN,SOSIG and Signpost, EEVL and AVEL;
(3)通过交互浏览实现虚拟整合,例子:SOSIG and Biz/ed;
(4)基于一般标准的交互检索,例子:CrossROAD between ROADS base services,Isaac network;
(5)远程服务的镜像,例子:SOSIG Signpost。
从覆盖面上看,协作的类型有:
(1)一个主题领域的合作,例子:AgNIC,NOVAGate,EdNA,GEM,MetaChem,EELS;
(2)涵盖不同主题领域的国内网关间的合作,例子:RDN in the UK,Finnish Virtual Library,SSG-FI in Germany,Australia;
(3)一个综合的一致的本国服务的联合,例子:DutchEss;
(4)不同主题网关与地方或国家数字图书馆的合作,例子:DEF subject portals in Denmark。
4 Renardus
Renardus服务是从2000年1月1日到2002年6月30日由欧洲信息社会技术第五基础计划(EU′s Information Society Technologies 5th framework programme)资助的一个项目发展而来的。Renardus服务的目的是为欧洲高等教育的教学和科研提供一个精选的、高质量的网络信息的值得信赖的信息源。Renardus提供整合检索和浏览途径,可以检索全欧洲各个参与主题网关(数据提供者)的记录。Renardus成员网关共覆盖有大约64000个主要的数字化基于web的资源。
随着因特网的持续增长,没有一个单独的公共资助的主题网关能全面覆盖识别、评价、编目和组织全部因特网信息资源的任务,即使是在某一个单独的主题领域也不可能。而且各学科间的联系越来越密切,很多领域研究的全球化性质,意味着很多用户要保证相对全面的因特网资源,现在不得不访问不同国家的几个主题网关服务。可测量性和维持是越来越困难的问题,在某种意义上,技术则是最容易解决的问题。因此需要新的商业模式保证网关的持续发展;需要新的组织化模式支持现有网关之间的合作。Renardus项目就是这样一个合作型的事业。它的主旨是建立一个欧洲的学术性主题网关“代理”服务:用户可以通过一个单独的Web界面检索和浏览,来自很多现有的分布式质量控制网关和欧洲其他因特网资源集合的经过整合的一致的数据,以支持学习和研究。
Renardus是以欧洲国家早期几个成功的学术主题网关为基础的,比如英国的Social Science Information Gateway(SOSIG)和德国的The German Agricultural Information Network(GAINet)。SOSIG已经从一个中央模式(即所有信息的汇集和描述都由一个机构执行)转变为合作式、分布式模式,其主题专家来自于整个欧洲的大学图书馆。EELS(瑞典的工程学网关),德国特别主题导航(the German Special Subject Guides,SSG-FI),还有荷兰的DutchESS,则是在国家范围内运作,各个国家的图书馆参与合作;在芬兰,单个的主题网关也是在分布式基础上运作,并向芬兰虚拟图书馆(the Finnish Virtual Library)贡献自己的记录。北欧国家已经合作开发了一个农业和林学的主题网关——NOVAGate。不断出现的还有DEF(Danish Electronic Research Library),挪威的Bibsys和基于法国国家图书馆的Les Signets。
Renardus就是建立在这些单个的和合作的项目之上,这个充分运作的“代理”服务将实现把主题范围扩展至二个由来自整个欧洲的主题专家识别和描述的大范围学科领域的资源。合作组织来自丹麦、芬兰、法国、德国、荷兰、瑞典和英国(由荷兰国家图书馆领导),已经致力于技术和信息标准、商业和维持问题的进展。Renardus服务正由一些关键成员开发以提供欧洲网上高质量学术信息服务,还提供了一个用于合作的技术、信息和组织模式。当然,也不仅仅是欧洲在发展主题网关及类似服务。美国的Scout Report项目已经长期提供北美用户广泛信任的、基于主题的新闻,由图书馆员、教师、主题专家进行维护。在澳大利亚,澳大利亚国家图书馆正通过开发一个澳大利亚主题网关论坛(Australian Subject Gateways Forum)鼓励澳大利亚现有的主题网关之间的合作。支持和交流工具包和论坛也已经开发出来了,包括DESIRE信息网关手册和Imesh(一个旨在支持主题网关提供者及相关组织的交流和合作的国际性项目)。
Renardus分为三个主要阶段:数据收集和研究;分析和设计;执行。宣传和支持则贯穿每个阶段始终,这样可以保证所有的参与者能全面掌握Renardus的进展情况。
Renardus建立在分布式结构基础上,允许多种技术方案提供参与服务的访问。这样体系结构没有使用一个中央的元数据库。每一个参与成员(或一组成员)要求建立和维护一个Renardus服务器,这个服务器上有内容数据库和管理信息。互用性是通过Z39.50这个通用标准作为查询和检索协议实现的。开发了一个通用的元数据模型,包含8个要素,除了一个其他都是以都柏林核心元数据为基础的。这就保证了Renardus向成员网关发出一致的提问并取得一致的检索数据。成员网关通过本地Renardus服务器提供这些内容数据要素,和两个管理要素——主题基础信息网关(SBIG)ID和完全记录URL。通用元数据模型要素的内容是以交叉检索和交叉浏览的结果以缺省的完全显示呈现给最终用户。
技术上,Renardus很大程度上建立在已有标准和解决方案基础上,但是在交叉浏览这个领域做出了一些开拓性工作。从整合Renardus界面到交叉浏览成员网关的便利性在项目初期阶段就作为一个可以大大提高Renardus的附加值的关键功能被突出提出。交叉浏览是通过将成员网关的分类表映射到一个通用的表--杜威十进分类表来实现的。对最终用户来说,这个映射关系以交叉浏览页面形式显示。
这个项目的主要目标是建立Renardus服务代理,用一个统一的界面在已有的分布式资源描述(元数据)集合中进行检索和浏览。这个服务在项目完成后还将长期维护,所以第二个重要的目标是开发一个组织构架和商业模式用以支撑该服务和以后的发展以及形成项目成员和新数据的提供者、开发成员和其他战略合作者之间的合作。这个联合框架使Renardus可能在互用性、元数据共享和多语言领域提供更广范围协作的机会。在这些领域的研究和试验已经成为Renardus联盟提出的将来发展建议。
作为该项目的主要成果Renardus Broker Service可以通过登陆www.renardus.org免费查看。它提供整合的、多语言方式通向一系列欧洲范围的质量控制主题网关。其体系结构模型如下图:
Renardus体系结构图
这种结构没有利用中央元数据库,每一个参与成员或者成员组要求建立和维护一个Renardus数据库和管理性信息。互用性是通过标准化为一个通用的数据模型,如上面所描述的元数据,并且用Z39.50作为搜寻和检索协议,依靠这些高度结构化的数据支持复杂提问。The Renardus Z39.50 profile大部分适应出the Bath Profile,后者是为图书馆应用而设计的。Renardus服务器工具包为标准化提供了支持,而且Z39.50服务器也设置为遵循Renardus的互用性要求。Zmbol和YAZ适合做Renardus Z-server,它可以被用来做单个网关的服务器,或者作为一组网关的服务器。使用Renardus Z-server不是强制性的,但是它确实提供了一种满足Renardus互用性要求的简单的路径。设置另一种满足这些要求的Renardus Z-server可能就比较困难,或者由于性能上的局限或一些Z-servers的内在约束而不太可行。
5 结束语
以上只是对主题网关的一个初步介绍,至于详细的各种技术和手段还有待于继续研究。笔者认为,在这种资源发现服务的国际性潮流下,可以看出主题网关服务将是未来的主流,因此在我们国家开展这项服务是有必要的,而前提就是对该领域的发展做比较透彻的研究,这还有待于我们这个学术领域的众多学者的努力。