基于数字图书馆门户的资源建设_数字图书馆论文

基于数字图书馆门户的资源建设_数字图书馆论文

基于数字图书馆门户的资源建设,本文主要内容关键词为:数字图书馆论文,资源论文,门户论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕G250.76

数字图书馆和门户网站的发展为图书馆与使用者架起了一座新的桥梁,它们的结合产生了“数字图书馆门户”(digital library portal)。如果说数字图书馆是没有时空限制的、便于使用的、超大规模的知识中心,那么数字图书馆门户就是进入这一中心的大门和通道,外界只能通过数字图书馆门户才能享用数字图书馆的丰富资源和服务。

1 数字图书馆门户的定义

目前,对数字图书馆门户还没有一个确切的定义,国外比较公认的定义主要有:

·研究图书馆协会(Association of Research Libraries,简称ARL)和其他合作者把数字图书馆门户定义为“学者门户(scholars portal)”,认为数字图书馆门户是一个通过Web为学者深入研究提供便利的垂直门户,包括提供高质量、可靠的内容,允许跨资源库的查找。门户还可能包括其他一些特征,如跨平台的商业数据库入口、数字化参考咨询、共享的工作空间、帮助学术发行的工具、收录各种学术术语的电子辞典等。

·英国Bristol大学著名学者Mark Ellingsen认为,数字图书馆门户是能够同时查找多个图书馆目录和网络资源,并提供一个结果集合列表,只需要一次身份认证,服务体现个性化的网站。

·美国图书馆协会(American Library Association,简称ALA)的Richard W.Boss认为,数字图书馆门户是一种专门为用户访问图书馆内外电子资源而设置的接口。

总之,数字图书馆门户是一个整合数字资源、面向个性化用户、提供集成信息服务的系统体系。它可以由许多门户组成,各个门户之间彼此相连,从而最大限度地包含各图书馆内外的网络资源,形成一个简单且亲和力高的统一入口界面。

2 数字图书馆门户的资源管理

数字图书馆门户的资源管理主要包括两大类:数字资源管理(digital resources management,简称DRM)和用户资源管理(user resources management,简称URM)。随着数字图书馆建设重心的转移,用户资源将越来越受到关注和重视。

2.1 数字资源管理

数字资源是数字图书馆门户提供服务的基础,主要包括:图书馆目录;图书馆目录的增值内容,如书评、作者传记、文摘、目次、封面;通过Z39.50检索的其它图书馆馆藏;经图书馆编目的Web站点;订购的数据库;电子书、期刊和报纸;数字馆藏,包括视频、音频以及文档;可以通过Internet存取的资源,如出版物、数据库等。为了给用户提供更好的服务,数字图书馆门户需要对日益增加的数字资源进行有序化管理,按资源的不同属性进行分类组织,整合图书馆所有数字资源。还要进一步消除资源孤岛,有效实现异构、分布式数字资源的跨库检索和开放链接等。

2.2 用户资源管理

数字图书馆门户正逐渐从单纯提供内容的“内视型”服务向主动与用户交互,提供用户满意内容的“外视型”服务发展,数字图书馆门户的使用者也在从只能被动接受已有的服务向主动提出服务需求进行转变。随着数字图书馆门户服务视角的改变,数字图书馆门户的建设模式和服务观念也开始以用户的需求为导向,从以“内容为中心”转向“用户为中心”。如何满足用户的个性化需求,如何认证用户的身份,如何开展个性化服务,如何识别用户的兴趣特征,这些都是数字图书馆门户必须考虑的问题。因此,有效地管理用户资源,根据用户的个性特征和属性,以用户喜好的方式提供资源,对数字图书馆门户是尤为重要的。

3 基于数字图书馆门户的资源建设

3.1 图书馆数字资源建设

图书馆数字资源主要指图书馆拥有的资源,具体包括馆藏书目数据库、文献数据库、引文数据库、联合目录库、多媒体数据库,购买的网络文献数据库等。

·基于自动化系统的书目、文摘、索引资源建设。数字图书馆门户中最基本的数字资源是馆藏书目资源,它们为用户提供了信息获取的线索。可以利用本馆的图书馆自动化系统加工和揭示馆藏资源,或是利用联合编目系统进行多馆书目资源共建共享,例如加入OCLC的联合目录、中国科学院系统的联合目录、CALIS的联合目录等。除了对书目信息进行揭示外,还可以对封面图片、目次和文摘等信息加以反映,以便用户准确判断资源的可用性。如Innovative公司的自动化系统就支持这些信息的加工和存储。对于文摘、索引等二次文献资源,除了自己加工之外,还可以利用购买的方式进行补充,例如SCI、INSPEC、CSA、国家科技文献中心的各种文摘数据库都已经拥有数十万条甚至数百万条的资源。

·以购买数据库为主的全文资源建设。由于数字文本存取和使用的便利,图书馆购买的电子资源逐渐由二次文献向一次文献倾斜,即更多地重视全文电子期刊和电子图书的购买,全文电子资源的建设在数字图书馆门户中的地位也越来越重要。对于外文全文资源,可以购买Springer、Elsevier、IEL、ACS等国外大型商业数据库;对于中文全文资源,可以购买清华的中国学术期刊数据库、重庆维普的中国科技期刊数据库、中国人民大学复印报刊资料全文数据库、方正APA-BI电子图书等。另外,对于图书馆特色文献资源,则可以考虑自建全文数据库,如学位或学术论文本身就有电子版,利用网上论文提交系统就能够快速地建立起学位或学术论文全文数据库。

3.2 网络资源建设

随着互联网的快速发展及电子商业时代的来临,Internet上的各种信息资源也日益丰富。因而,在数字图书馆门户的建设过程中,不能忽视网络信息资源的利用和虚拟馆藏的组织。

3.2.1 网络资源分类导航建设 因为Internet上的信息具有地理上分散、组织上松散、数据类型多、随机性强等特点,给人们查询和利用信息带来了困难,所以对Internet的资源进行组织分类、绘制出Internet的资源路线地图变得越来越重要。网络资源的分类导航地图是建立在对网络资源的元数据进行加工整理的基础上,主要提供的是资源的地址链接。通过对有价值的网络资源进行元数据抽取或加工,并按一定的分类体系存储,把Internet上某些相关的节点进行集中,按照方便用户浏览检索的原则,以用户熟悉的方式组织起来,向用户提供这些资源的分布情况,指导用户查找。

目前,国外的元数据加工软件有SPT(Subject Portal Toolkit)、iVia、MetaSource等。美国梅隆基金会支持的基于领域的门户(discipline-based portal)而设计的SPT软件是由University of Wisconsin-Madison的计算机科学系承担,其主要目的是帮助高等教育团体实现Internet上的资源发现和共享,SPT提供Metadata Field Editor和Metadata Tool工具来实现元数据的定义和数据的录入。资源加工者可以新增、编辑、复制、删除记录,系统具有一定的工作流管理能力,不同权限的人有不同的数据加工业务;iVia是加利福尼亚大学河边分校图书馆研制的开放资源的因特网主题门户或虚拟的图书馆系统,可以实现以人工(手工创建)、自动(利用爬行器和分类器生成)或半自动(由人工在爬行器和分类器创建的元数据上修改)方式对网络资源的元数据进行创建、识别和分类;Innovative公司的MetaSource则是运用XML技术提供自动编目工具,可以通过获取外部的元数据记录,支持EAD或Dublin Core等格式的XML文件。

3.2.2 以自动采集为主的专题资源建设 专题资源的自动采集可以实现指定专题信息的自动发现、收集、组织、本地存储、更新等,是数字图书馆门户资源建设的强有力工具,是提供个性化用户服务的基本支撑。利用自动采集生成的专题资源库可以针对特定的学科资源范围,面向特定用户群体,为用户提供个性化信息推送服务、专题服务等。国内的专题采集系统主要有清华同方的RIG智能情报采集系统、TRS的网络信息雷达系统等。

专题资源的自动采集的基本思路是:通过定制种子站点、搜索策略、专题特征及相关描述信息,利用专题搜索引擎,主动从Web空间或网络数据库中搜索各种类型的相关信息,并从网络上获得所需要的各种专题或行业信息,通过智能网页分析机器人,自动及时对相关网站或网页进行分析,将结果放入本地专题资料库。还要实时监控和跟踪互联网站的特定资源更新,以保证采集和存储最新的内容信息。

3.2.3 网络信息资源的物理集成 网络信息资源的物理集成方式是通过建立一个本地数据库,将参加集成的各类信息源按主题或多维方式建模并存储在数据库中,然后为数据库建立检索、查询等操作机制。可以通过OAI(Open Archives Initiative Protocol for Metadata Harvesting)协议来收割(harvest)网络数据,实现网络信息资源的物理集成或互操作。OAI提供一个简单的自动、批次、分散获取不同机构数据库的数据及建立集中式数据库的解决方案,已经有100多家数据提供商(data provider)支持OAI协议。

目前,基于OAI协议开发的集数据获取及数据服务的系统主要有ARC、Scirus、My.OAI等。梅隆大学研制的ARC系统已经从18个数据提供商(Data Provider)获得共计320,000条元数据,并进行了集成,存储在ORACLE或MYSQL数据库中提供服务。Scirus搜索工具是由Elsevier Science开发的,它只涵盖科技类信息资源。目前,Scirus包括超过150万个网页,同时还对MEDLINE、ScienceDirect、Beilstein、USPTO、NASA、CogPrints、BioMed等的电子期刊进行了索引。其中对CPS(The Chemistry Preprint Server)、CogPrints、MPS(The Mathematics Preprint Server)等期刊资源的集成就是采用OAI协议实现的。

3.2.4 网络信息资源的虚拟集成 Internet上存在着大量具有隐藏性的资源,它们大多是以数据库的方式存放在服务器上,对它们的发现和利用需要通过相应的检索系统的接口来实现。这些资源的特点是它们之间并不存在着链接关系,所有的资源都必须通过检索接口来获得。而且,每一个检索系统都有着不同的检索界面、不同的使用方式、不同的身份认证,不同的资料属性,而且呈现的格式不一,使得用户无法一次获取各数据库的信息。网络资源越丰富,则内容越多元,信息越分散,相对的用户的负担越沉重。因此,采用网络资源虚拟集成方式,实现“实体的资源分散,虚拟的资源整合”,为用户提供集成检索界面以获得这些分散的网络资源已成为必然趋势。

网络资源虚拟集成方式是指在用户与信息源之间建立一个集成接口,数据资源仍然保存在各自的信息源上,集成系统通过一个虚拟的集成视图及其查询处理机制,透过各种分布式检索协议及相关技术,如HTTP、Z39.50、STARTS、SDLIP、SDARTS等协议,自动将用户的查询请求转换成各个分布式信息源的查询式,从而实现不同数据库之间数据的共享和透明访问。网络资源虚拟集成方式涉及的关键问题主要有数据源的连接、检索式的转换与优化、检索结果的查重与整合、并发检索等。网络资源虚拟集成方式不仅可以在集成检索界面上同时检索各种网络数据资源,还可以实现不同类型、不同层次资源之间的动态连接。如基于OpenURL、DOI、CrossRef等标准,对逻辑和主题相关的内容提供链接,实现不同数据库中相关主题的逻辑关联,使同一文献在不同数据库中的层次关系能够得到反映,还可以与原文传递、馆际互借(ILL)等服务进行整合。

国外成型的集成系统有Endeavor Information Systems公司的ENCompass、ExLibris公司的MetaLib系统、Innovative的MAP系统等。

·ENCompass是一套管理、检索和链接图书馆所有馆藏资源的解决方案。它的主要功能模块有:搜索和发现(search and discovery)、对象管理(object management)、馆藏管理(collection management)、许可和权限管理(License and rights management)、链接(Linking)等。其中知识库贯穿在各个模块中。可以集成访问以下资源:数据库、电子期刊、电子图书、相关网站、本地OPAC。使用的技术主要有:HTTP搜索、XML搜索、Z39.50网关搜索等。

·MetaLib可以让用户组织、分发、检索及存取异构环境下的学术资源和数据库。MetaLib主要包括以下功能:通用检索引擎(universal gateway)、资源存储(resource store)、个性化定制及用户管理(personalization and user administration)、延伸服务(extended services powered by SFX)。MetaLib允许用户一次检索数个异质数据库系统,通过SFX,使用者可从不同类型的数据库,如OPAC、期刊目次、电子期刊等,一次找齐所需资料,并能直接链接至文献全文、文献传递服务系统、馆藏目录、联合目录或搜索引擎等。

·MAP(Millennium Access Plus)是一套整合检索的解决方案,能够指导用户和图书馆工作人员快速检索信息资源,同时也注意保护图书馆和内容提供商的权利。MAP对资源进行选择,并且将Web OPAC的搜索功能与Millennium系统的工作人员模块整合在一套资源检索管理工具中。MAP包含3大部分:Web Access Management(权限与认证管理)、WebBridge(资源链接)和MetaFind(通用检索)。支持OpenURL、DOI、CrossRef等标准,支持多种检索协议,包括Z39.50、HTTP及SQL等。

近年来,国内一些单位和公司也开发了相关的系统,如中国科学院的集成检索系统(CrossSearch)、清华大学的集成检索系统、CALIS的集成检索系统等。国外的集成检索系统和产品虽然已经较为成熟,但几乎都不支持中文数据库,而国内研制的集成检索系统则突破了语种的限制,支持中英文网络数据库。

3.3 动态信息资源建设

·有效的内容管理机制。动态信息资源主要指门户网站上的动态、新闻、通知、项目成果交流等更新频率高、更新周期短的信息资源,目前通常采用基于工作流的内容管理系统来处理这类信息。通过基于工作流的内容管理系统,非专业人员可以利用简易的浏览器界面操作,按照定制的工作流完成信息采集、管理、审批和发布的全部工作,快速对内容进行编辑、查阅、维护,保证信息发布的及时性。通过基于工作流的内容管理系统,还可以对栏目进行动态添加、修改、删除及移动等,从而灵活方便地实现对网站结构的调整与修改。

目前,国外的内容管理系统主要有IBM、Microsoft、Inter-woven、Broadvision、Vignette、Documentum等厂商推出的系统,它们进入这一领域的时间较早,因而推出的方案/软件具有功能齐全、应用成熟的特点。国内的内容管理系统主要有易宝北信的TRS系统、清华万博的i-Flow系统、国信贝斯的iBase系统等。

·RSS。在数字图书馆门户上采用Web整合(Web syndication)技术,可以实时整合和反映其他网站的动态信息,根据设定收集来自不同站点的随时更新的信息,使用户可在同一界面上直接阅读新闻而不必到每个站点上去查看网页。Web整合技术能够实现网站之间的内容层次互引,这种引用并不是超级链接的简单引用,而是网站内容之间的嵌入整合,并且可以与源网站的内容保持同步更新。RSS(Really Simple Syndication,或RDF Site Summary)是实现Web整合的相关标准,支持RSS的网站有Yahoo、New York Times、InfoWorld、Slashdot等。RSS使用XML作为网站之间共享内容的标准方式,可以提供选择性的、汇总过的Web内容。它可以用于共享包括新闻、事件日历、特色内容集合等各种各样的信息。不过,目前支持RSS的中文网站还比较少,如CSDL数学信息门户、OTN网站等。

3.4 用户资源管理

数字图书馆门户若要真正实现以“用户为中心”,必须采用有效的方式来收集用户的相关信息,并对用户信息进行分析,以明确用户的信息需求,建立用户信息需求模型。然后通过智能代理,主动从网络信息资源或数据库中搜索信息。一旦出现符合用户需要条件的最新信息,就将这些信息进行筛选、分类、排序,利用信息推送技术及时主动地推送给用户,从而实现从传统的“人找信息”到“信息找人”的突破性变革,使数字图书馆门户成为用户获取各种网络资源与服务的个性化Portal。收集和管理用户资源的主要途径有:

·通过个性化设置获取用户兴趣资源。可以通过提交关键词的方式或通过设定主题的方式使用户主动创建和管理自己的信息或兴趣群组,建立用户特征信息库。这种方式需要用户事先总结自己的信息需求。

·通过服务器日志分析用户需求资源。WWW中的每个服务器都有访问日志(Web access log)文件,它记录了用户访问和交互的相关信息。通过对这些数据的分析,可以理解用户的行为和操作,从而为用户提供个性化的服务或作为改善门户网站结构的重要依据。

·根据用户检索结果,利用数据挖掘的原理,提取网页的主题特征,并将提取出来的特征项作为用户兴趣的组成要素,丰富用户兴趣模型。

·通过对用户查询行为进行记录而实现用户资源的搜集。也就是说,根据用户兴趣向其推送从因特网搜集来的信息后,对用户在返回的信息集合里进行筛选、浏览等的整个过程进行实时监控。通过监视用户的信息查询过程能自动获得用户的信息需求,其方法是系统不断接收用户浏览Web时的相关信息,并将信息进行整理、组织,从中分析出用户的信息偏好,系统可再根据用户的信息偏好进行新信息的推荐。

现在,数字图书馆门户的建设正在如火如荼地进行,已经有许多数字图书馆利用成熟的产品或平台框架来快速整合他们提供的信息内容和服务,如英国国家图书馆门户采用Ex libris公司的MetaLib和SFX产品,德国PhysNet门户采用uPortal框架,加州大学数字图书馆门户使用Fretwell-Downing公司的ZPortalL门户产品等。为了保证数字图书馆门户具有旺盛的生命力和可持续地发展,在数字图书馆中心门户的资源建设过程中,应充分利用来源广泛、链接开放及更新传播快的网络信息资源。同时还应该注意一些问题,如资源建设的开放性和标准化、不同类型的数字资源之间的互链、资源有效性的检查、资源的及时更新、重视用户资源的建设等。

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于数字图书馆门户的资源建设_数字图书馆论文
下载Doc文档

猜你喜欢