基于用户的数字资源整合模式研究,本文主要内容关键词为:资源整合论文,模式论文,数字论文,用户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
据调查:目前,国内引进的教育、学术数据库有192种之多[1]。数据库配置是数字图 书馆建设的核心内容。据CALIS工程中心2003年11月的统计,共有528个高校和科研机构 ,1189个馆次加入了集团。其中高校系统450所、1094个馆次,非高校科研机构78所、9 5个馆次。其中购买文摘索引数据库395个馆次,购买全文数据库794个馆次。购买数据 库在10个以上的有25个学校。购买数据库的所有总费用约1个亿人民币,其中文摘索引 数据库的费用约占1/4,全文数据库的费用约占3/4。以清华大学为例:订购数据库232 个,文摘索引数据库几乎覆盖学校的所有学科,外文电子期刊11,837种,中文电子期 刊10,837种,电子期刊是纸本期刊的5倍,购买电子资源的经费占总文献经费1/3[2]。 河海大学是一个以工为主,文、理结合的特色大学,目前订购的数据据库亦达到数十个 ,其中,国外数据库占据主要位置,总经费约占文献购置费的25%。数据库的多样化和 检索界面、阅读工具、资源异构等,给用户使用增加了越来越多的困难。异构的平台, 多样化的阅读,事实上已经阻碍了文献信息的利用,而且,随着数据库的增多而日益尖 锐。正引起图书情报机构、数据库供应商,以及数据库开发与制造商的共同关注。
1 数字资源的整合概念与争论
数字资源的整合,英文可译作“digital resource integration”,就是将数据库资 源为中心内容的各种比特文献资源通过中间技术处理,整合一体,统一在一个平台上, 提供一站式服务,以提高资源利用效率。李希明等人认为:所谓数字资源整合,是指依 据一定的需要和要求,通过中间技术(指数字资源无缝链接整合软件系统),把不同来源 和不同通信协议的信息完全融合,使不同类型、不同格式的数字资源实现无缝链接。通 过整合的数字资源系统,具有集成检索功能,是一种跨平台、跨数据库、跨内容的新型 数字资源体系[3]。他们认为,数字资源整合目的是在于提升信息之间关链度,解决信 息孤岛问题。数字资源整合是通过技术合力,将复杂转变为简单,将数据线性一元转变 为网络多元,同时,查全率与查准率共生增长。
关于数字资源整合的可行性问题,有人持否定的态度,指出:“跨平台根本就是一个 美丽的神话,可望而不可及”[4]。其理由:事物的发展有着两个不同的方向:统一和 分化。统一和分化是互为基础,互相辨证否定的。而且,统一和分化不是绝对的,一个 方向不能取代另一个方向的。数据库的发展就是一个统一与分化相互交织的过程。其统 一性表现在基础开发环境、基础建库方法、开发语言、检索机理等的一致性;分化性表 现在数据库的具体开发方法、数据库结构、检索实现办法以及数据库种类和数量的不断 增加。这两个发展方向会各自充分发展的,并且不断地互相否定,但无论如何,都不会出现一个绝对统一的超级平台,将各种数据库检索阅读平台全部取代。另外,软件系统开发逻辑对于跨平台的否定,厂商利益对于跨平台的否定等,即是其中的主要观点。
事实上,这种担忧是没有必要的,“资源整合”不仅仅是一个概念,更重要的是它在 解决用户的深层次的需求,“整合”不能简单理解为统一,整合过程中仍然保持着数据 库差异性及个性特征,比如:各种数据库检索、阅读平台的相对独立性等。面向用户的 数字资源整合是将数据库开发主导型转向用户主导型,这是数据库开发与生产的一场革 命。数字资源整合既是数据出版商所为,又是数据商与用户之外第三方行为,当前,第 三方的积极性往往很高,这个第三方的代表之一就是图书情报机构,他们是站在另一个 层面提供的研究与发展,促进多样性信息知识的集成与流通。资源整合应当是一个高平 台阶段。凯文·凯利(美国《在线》杂志的总编)曾说过:整合比守成重要,无形胜过有 形,软件胜过硬件。数字资源整合正显示出这一趋势。
2 国内外数字资源整合现状
最早数字资源整合的实践是版商ElsevierScience的ScienceDirect系统,从1997年开 始建立基于WEB的数字化出版平台,把ElsevierScience的1100种期刊全文上载(目前为 止,已经有1700种),供图书馆及其读者远程检索和获取。又如,著名科技出版商
Springer建立了LINK系统,将自己所有的400种期刊及部分电子版图书上网,并联接了 其他出版商的电子期刊。同时,LINK还提供多种新的服务,如电子论坛服务、快报服务 等。此外,Springer还与文摘索引商(如ISI、STN、SilverPlatter)合作,将文摘索引 数据库的检索结果与LINK全文数据库联接起来。
国内成功的案例有:上海地区图书馆所采用的“webpac检索系统”的“多数据库检索 ”,可在统一检索界面上通过著者、题名、主题、关键词、标准书号等途径,检索上海 交通大学图书馆、华东师范大学图书馆、复旦大学图书馆、上海图书馆的OPAC书目信息 ,不需要在各个图书馆不同的OPAC界面间来回切换;中国试验型数字式图书馆,它的数 字图书馆应用系统是进行数字化建设及整合各类数字资源的基础平台,实现资源的深层 标引和分布式资源库的跨库链接;清华大学、上海交通大学电子期刊的导航系统。
武汉大学信息管理学院刘峥将数字资源整合常用的方式归纳为:一是基于OPAC的整合 ,具体通过MARC数据或Z39.50协议建立联系;二是数字资源的导航的整合;三是基于数 字图书馆的整合。通过支持分布的数字信息系统间的互操作、无缝交换和共享信息资源 与服务,构建一个逻辑的集成信息服务机制,并按数字资源的逻辑关系组织成立体网状 、相互联系的知识资源系统[5]。从不同角度看,事实上还有其它的整合方式,比如: 利用专业的软件,实现资源整合。清华同方的TPI、北京的TRS等,它们均利用文献的
URL’s建立关联。值得注意的是国外的一些著名大学图书馆都已经采用了“跨数据库” 的技术。如哈佛大学在图书馆数字化工程(LDI)中,为了降低数据库使用环境的复杂程 度,就采用了各种跨数据库技术,一种是用一个简单的命令就可以对多个数据库进行检 索的技术,另一种技术是从多个已有的数据库中提取数据的超级数据库技术,这些技术 很方便地为读者在多个数据库之间进行导航。国内也出现跨库链接成功的实践,如清华 大学数字图书馆中已经开始进行异构数据库的联合检索,该系统可以对科学文摘(INSPE )、美国工程索引(EI)和剑桥科学文摘(CSA)进行联合检索,其中CSA本身就是一个可以 同时检索多个数据库的检索系统。国内清华同方的“知识资源总库”的建设,在资源整 合方面又有许多值得注意的新进展。
3 数字资源整合的技术与模式
数字资源整合,一是在于观念,主要是以用户为导向,对于用户行为(action)进行客 观分析,提供符合用户需求,高效、增值的服务模式;二是在于信息技术的支撑,因为 数据库资源建设的前提也是信息技术的发展,后期的整合更不能脱离新技术的支持。目 前有几项数字资源整合技术惹人注目。
3.1 CrossRef的DOI技术
2000年初,一些世界著名的科学、技术和医学出版商组成了一个非赢利性、独立的组 织——出版商国际链接协会(Publishers International Linking Association,Inc), 该协会发起的CrossRef项目,从参考引文链接到所引用的文章内容,而文章来源于异构 的不同的服务器,由不同出版商出版。2002年,Elsevier在苏州举行国内用户培训会议 上透露:已有70多家出版商加入CrossRef项目,数据库中已有6000种期刊和450万篇文 章。CrossRef项目还要收录百科全书、教科书、会议录等相关文献。CrossRef项目技术 上是通过DOI,即“数字对象标识”(亦称:解释器)来实现。
3.2 SFX技术
SFX即Special Effects Cinematgraphy的缩写,直译为“特技效果”。它是比利时根 特大学(University of Ghent)H.萨姆堡尔(Herbert Van de Sompel)为首的研究小组提 出的。选用SFX这个词,是希望在电子信息环境中创建一个具有电影特技效果的上下文 相关(Context-Sensitive)的参考链接系统。李爱国博士在介绍这项技术时强调:SFX实 际上是一个基于开放的统一资源定位器(OpenURL)标准的上下文相关的参考链接系统。 从1998年到2000年,H.萨姆堡尔和他的同事对现有的学术信息领域中链接框架(DOI/
CrossRef相关参考链接系统)的局限性进行了调研分析,提出了解决问题的新框架(
penURL),并试图利用链接服务器软件——SFX来发挥它的潜能。GALE集团产品管理部副 总裁John Barnes先生赞誉SFX是电子资源发展史上的里程碑,因为它解决了电子数据库 自身独立运作的基本问题[6]。
3.3 Web Services动态
IBM's resource for developers近来提出:上世纪网络走过了“静态数据”(HTML网 页)、“动态数据”(ASP、JSP、CGI、ISAP - - - )、“应用服务”(N层构架)等时代 ,在本世纪网络应用的服务应当是Web Services,这样的观念很是新颖,具体采用XML 封装数据和对象,用SOAP为方法调用协议的Web服务就成了最佳选择,且进一步认为, 如果说PC、Internet是计算机世界里的两次革命的话,那么,Web服务就是这两者之后 的第三次浪潮。Web服务可以使复杂变为简单,使核心部分组件化,使资源共享变得更 加容易[7],资源整合在某种角度就是要将复杂变为简单。这是一个新的动态,它可能 再一次使信息资源共享深层化及为资源整合提供进一步的技术支持。
3.4 Domain Index Server和Virtual Tree
A.N.ZINCIR-HEYWOOD提出一个分布式的多代理搜索模式[8],建议依靠一个索引代理去 创建成主要的原文献索引,这个代理通常是软件系统,能够在异构信息支撑下自动行动 (搜索)的系统。引发讨论这样问题的背景是:一是网络信息分布的自然状态;二是用户 搜索信息指数性增长;三是网络信息存贮指数性增长。A.N.ZINCIR-HEYWOOD进一步提出 了地域性索引服务平台(Domain Index Server)的构想和虚拟树(Virtual Tree)概念。 这种具有创新意义上的设想,可以扩大资源整合的范围,不局限于商用的专业数据库资 源,还扩大到网络上的相关网站、网页、专题论坛等资源。
3.5 MAP资源整合系统
INNOPAC公司推出的MAP(Millennium AccessPlus)是这样一个集成的资源整合系统。它 可实现不同WEB学术信息资源的动态链接,这些资源包括全文电子资源、题录和文摘数 据库、书目数据库、图书馆在线书目系统、图像数据库及搜索引擎等其他WEB资源。它 对访问所选的在线信息资源进行管理,指导读者快速访问Internet内容,同时保护图书 馆和内容提供者的权利。MAP使读者能够通过“Web访问管理”(直接将顾客链接到外部 服务器和数据库)、MetaFind(使用单个搜索访问多个Web资源)和资源链接(直接从文献 显示到相关资源)进行访问。
3.6 OAI标准整合模式
OAI是指open archives initiative,它的目标是发展和促进互操作标准,促进内容数 据的有效传播[9]。OAI最初是用来加强对电子印刷文档的访问以增强学术交流,以及要 保证科学数据在将来也可以访问。与OAI原理相关的几个概念:①数据提供者(data
providers):维护一个或多个支持OAI-PHM,并把该协议作为揭示元数据的一种手段的
web服务器。它只在OAI系统中添加一个接口,把自己的元数据转换成DC,供service
provider使用,本身也可以提供其他服务。②服务提供者(service provider):向数据 提供者发出OAI-PHM请求并且利用得到的元数据构建增值服务。③存储体(repository) :由数据提供者管理的可以在网上访问的服务器,它提供服务提供者需要采集的元数据 。④采集器(harvester):在服务提供者方作为从存储体中搜集元数据的一种应用工具 。
4 数字资源整合值得思考的问题
4.1 整合平台的先进性
首先应当注意资源整合平台的先进性。功能丰富、界面友好、操作易掌握的平台肯定 是收欢迎的。平台的兼容性,开放性和统一性也是重要的标准。法国欧洲工商管理学院 (INSEAD)的Annabelle Gawer和麻省理工学院(MIT)的Michael A.Cusumano对于许多行业 研究后得出结论:高度专业分工后产生不同的三种角色,即平台领先者(Platform
leaders),赶超者(Wannabes)和互补者(Complementor)。暂以IT行业为例,英特尔CPU 和微软的操作系统都是平台领导者,Linux是赶超者,一些开发软件工具及办公自动化 系统是互补者。我们认为资源整合的平台就是需要加强用户研究,通过竞争,产生出先 进平台。
4.2 整合与知识挖掘
数字整合进一步的含义是知识管理中的知识的挖掘。通过整合,用户可以依据提供的 有效链接,自由在库与库之间,文献与文献之间任意关联。但是,在整合数据处理中,必须做好知识与知识的链接,达到词与词之间,知识点与知识点之间的畅通,通过依据相关性、紧密性与价值性原则,建立联系。
4.3 整合与协作发展
从一定意义上说,数字资源整合是相对的,目前整合的重点只是指本单位范围内的数 据库或某出版社所属出版物的资源整合。换个角度看,数字资源整合又是绝对的,比如 :Dialog、OCLC联机数据库,参与机构达几百家之多,我们可以通过统一界面获取题录 信息,又迅速通过各种传递方式获取到全文。数字资源整合的内容,还应当包括网络资 源,要求对于网络资源建立索引,构架虚拟知识树,不断评价和筛选,最后给出路径。 数字资源的整合既需要技术创新,又需要业内的协作,业内协作恰恰又是资源扩充与资 源整合更有价值的内涵。