运用OAI提供增值服务的探讨,本文主要内容关键词为:增值服务论文,OAI论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 OAI协议简介
1.1 OAI协议发展
OAI(Open Archives Initiative)协议从E-print Archives的发展中成长起来的。每一个E-print Archives都有一个web页面,终端用户不方便进行有效的搜索来获取自己需要的信息。进而出现了统一搜索界面UPS(universal Preprint Service),采用交叉搜索(cross searching)和收割(harvesting)两种方式。随后,数字图书馆联盟(DLF)等研究机构又提出了这个系统需要改进的地方:大量的交叉搜索使参与的数据库量急剧增加,导致系统难以及时处理,数字图书馆联盟倾向于harvesting的解决方案;传输元数据需要统一的协议;元数据的统一编码问题;信息传递中的质量保证和知识产权问题等。
1.2 OAI协议形成及其优点
在1999年的斯坦福大学的Universal Preprint Service会议提出OAI协议,形成于2000年在哈佛大学举行的Cambridge Meeting。在经历了1.0版本和2001年推出的1.1版本以后,2002年推出了2.0版本。该协议以其低成本、灵活性成功地投入使用。它并不局限于E-print,亦可包括其它数据源。DC是缺省的格式,但只要能够用XML编码,可以扩展到任何元数据格式。
1.3 国外开展的有关项目介绍
目前,国内OAI收割协议的应用还在起步阶段。在国外,已经有一些大学图书馆或者国家图书馆开发了基于该协议的相关软件和应用系统。
·密西根大学运用OAI-PMH收割、建立索引、发布由各自学院拥有的数字资源。
·基于从政治学、神学领域获取的元数据,Emory University希望开发学术上更灵活的个性化门户服务。
·维吉尼亚大学图书馆将运用OAI从已经收集的数据提供方中收割关于美国历史和文学的元数据。素材的格式包括文本、地图、数据集等。
·OLAC(the Open Language Archives Community)正在建立关于语言资源的国际虚拟图书馆,利用OAI-PMH从10个参加的组织中收割元数据。
·数字图书馆联盟(DLF)支持少量的因特网网关开发,使用了OAI-PMH协议,用户通过这些网关可以象访问单一的数据库一样访问分布式的数字图书馆资源。
2 收割(Harvesting)的工作原理
2.1 收割原理
OAI协议提供了3种角色划分:一是数据提供方,即发布元数据方,拥有信息仓储(Repository),发布元数据,使得终端使用者或服务提供方可以使用浏览仓储。一是服务提供方,向发布元数据方发出请求,并接收返回的元数据作为构造附加服务的基础。还有一个是注册服务器,实现用户的注册管理等功能。从用户的角度来说,他们通过服务提供方可以查到需要的元数据记录,如果要更详细的资料,可以通过DC链接中提供的URL地址请求获取全文。当然,有的数据提供方需要用户身份验证及一定的权限才可以得到全文。另外,需要说明的是,数据提供方和服务提供方是在功能方面的划分,所以,一个机构既可以是数据提供方,也可以是服务提供方。
通过OAI协议的6条指令,可以实现对数据提供方元数据的收割。OAI协议提供了比较灵活的方法来选择收割策略,比如通过日期戳、格式限定和执行不同的指令等。理论上而言,通过几次简单的传输对话,就可以收割到数据提供方的所有记录。实际收割中必须制定合适的收割策略,通常有批量收割和一对一收割策略。
2.2 OAI协议请求和响应
协议定义的6条收割指令见下表:
收割指令 描述
该指令用来抽取有关一个数据提供
方的基本信息。可以用Verb来返回
Identify 一些有关数据提供方的描述性信息,
比如电子信箱、URL地址、名称、所属
机构等等。
功能是列示一个数据提供方中所有
List metadata format 元数据格式的信息,用来列示该数据
提供方所支持的所有元数据结构。
用来收割一个数据提供方中所含有
的Set结构。Set可以理解为集的概
List sets 念,比如,一个数据提供方的数据库
中有关于物理和数学等两个方面的
元数据记录,那么就有两个集,分别
是Physics和mathematics。
List identifiers 是ListRecords的简短形式,列出所选
中记录的头标而不是整条记录。
List records 用来从一个元数据信息仓储中批量
收割记录。
Get record用来从一个元数据信息仓储中收割
一个元数据记录。
表1 OAI协议的收割指令
3 服务提供方的增值服务
3.1 服务提供方的功能和系统构架
服务提供方的功能主要分成两个部份,即元数据资料获取、元数据资料查询,系统构架如下:
在信息爆炸的时代,如何快速、有效地发现自己需要的资料是每一个用户关心的问题。服务提供方要想提供更好的服务,就必须在已收割的数据基础上进行整理、挖掘,最大化地发挥自己的资源优势。因此很有必要在原有资源的基础上开发新的功能,方便用户的使用。
3.2 关于增值服务的探讨
3.2.1 建立通用的检索平台。OAI-PMH主要是用于各个数据源的数据交换,而且是分布式的,并不符合检索的要求。在这方面,服务提供方可以作到这一点,在服务提供方的系统架构中(见图1),建立索引是很重要的一个环节,用户通过用户界面的搜索引擎可以方便、快捷地找到信息仓贮中的相关信息,提高了数据的使用价值。如DP9(http://dlib.cs.odu.edu/dp9)提供一个网关服务,允许大家进行类似于Google的搜索。它列出元数据信息仓储的相关网址,当某个信息仓储被请求时,将查询转化为OAI的查询。这样搜索引擎无需支持OAI协议,却可以挖掘出遵守OAI协议的服务器的元数据记录列表。
图1 服务提供方的系统构架
3.2.2 数据提供方应该遵从OAI协议的封装规则、发布标准,便于信息的共享,整理,提高其增值性。鉴于各图书馆发布信息都具有自己的特色,数据存储也都有自己的格式和规范。随着OAI协议的逐步推广,大家发布遵循OAI协议的元数据,有利于服务提供方进行资源的整合,提供更好的服务。
3.2.3 提供个性化定制服务。当用户登陆到服务提供方,可以根据自己的需求进行总体定制、检索定制等,系统后台处理后反馈给用户。根据用户的历史信息,系统可以自动通知用户新到达的条目,并从曾使用的检索词从中推荐相关的内容,存储需要的内容。
3.2.4 增加服务提供方数据的信息量,譬如数据源的信息、帮助文档等有助于提高数据应用性的信息。目前的服务提供方提供的一般只有DC元数据,包括15个字段,信息量有限,不能满足特殊数据、其它格式的要求。服务提供方除了提供DC字段,可以实现对收割的元数据进行分类,丰富检索的方式。根据用户的不同需求,开发元数据转换器,提供常用数据格式的转换,如DC格式和MARC格式的转换。更进一步的应用,服务提供方可以通过适当的版权管理策略,让用户可以直接获取全文,大大增加信息的价值量。
4 结语和展望
OAI-PMH协议势必为数字化图书馆的发展起到相当重要的作用,这在图书馆界已经达成共识。林林总总的图书馆提供的服务如何实现资源利用最大化成为一个大家关注的焦点,同时也是一个社会化的问题。在技术实现成熟的前提下,做到资源共享、整合,发挥图书馆界在信息化、数字化浪潮中的旗帜作用。
基于OAI-PMH协议,服务提供方实现了元数据的增值服务,更方便用户对元数据资源的检索、使用。目前正在开发的ODL(Open Digital Library)在兼容OAI-PMH的基础上,增加了信息检索的功能。该系统支持Browser(浏览)服务、Recent(最新)服务及复杂的检索。侧重于增值服务的OAI-PMH协议的扩展,将极大地弥补了OAI-PMH协议在信息检索方面的不足。
标签:元数据论文;