资源发现系统的功能分析及应用前景_元数据论文

资源发现系统功能分析及应用前景,本文主要内容关键词为:前景论文,功能论文,发现论文,系统论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 概述

2009年1月的ALA(American Library Association)年会上,Series Solution公司宣布即将发布全球第一个网络级资源发现系统——Summon[1]。旋即,资源发现系统作为全新的学术信息发现工具引起全球图书馆的关注。随后OCLC推出WorldCat Local(以下简称WCL),Ex Libris公司推出Primo Central,EBSCOhost公司推出EBSCOhost Discovery System(以下简称EDS),这些资源发现系统以“简单、快速、易用、有效”的检索体验颠覆了传统的图书馆整合检索系统带给用户的感受。目前,全球采用各类资源发现系统的图书馆及其他信息机构的数量已超过1300家。国内也陆续有图书馆考察、测试和应用相关技术与产品[2-3]。

资源发现系统并没有明确的定义。归纳不同产品对资源发现系统功能的表述,可以这样说:资源发现系统致力于从出版商、大学、公开的网站收集学术文献信息,形成中心知识库,通过预索引的方式,为用户提供快速、简单、易用、有效的资源发现与传递(resources discovery and delivery)服务。通过收集元数据以预索引的方式提供检索服务的理念早在1998年就有人提出[4],但一直以来,囿于资源封闭和出版商之间利益的分割,学术文献元数据信息的集中收集并不顺畅,很难形成规模化的数据仓储。近年来,随着数字资源的海量增长,开放和共享的理念深入人心,开放与协作渐成技术趋势,数据本身的规范以及支持数据交换的协议日趋成熟(如NISO、XML标准、Mashup技术与Web Service技术等),更多的学术出版机构愿意通过协议或者开放获取的方式开放元数据乃至全文信息,以期通过更广泛的检索将更多的用户带回到资源出版平台。

在开放共享的洪流中,异构、分布和海量的学术文献信息得以汇聚,形成集中的元数据仓储。资源发现系统正是基于这样海量的元数据仓储数据,采用最新的技术手段,在用户界面、检索效率、检索质量以及对检索结果的有序处理等方面改善用户体验,成为图书馆高度整合所有类型资源并提供资源发现和传递服务的新系统平台。

2 资源发现系统的逻辑结构及功能特点

2.1 资源发现系统的逻辑结构

修回日期:2012-03-13

从用户角度看,资源发现系统作为与用户交互的前端,为用户提供单一入口的检索与获取。从资源服务角度看,资源发现系统是分布式的、海量的学术信息资源从异构到有序的一个过程。图1描绘了资源发现系统的逻辑结构:

图1 资源发现系统的逻辑架构

2.1.1 数据集合层 即发现系统从分布、异构的系统中获取的海量数据集合,是系统的最底层。发现系统在商业协议的约定下通过Web Service、开放API或者一次性获取的方式收集这些数据,将各种类型的数据汇聚在一起,其格式多样,内容丰富,数量巨大。

2.1.2 有序数据层 发现系统对收集起来的异构海量数据做预处理——规范元数据格式(normalization)、合并(merge)、去重(dedup)。有些发现系统通过多来源数据的比较分析来丰富(enrichment)元数据内容,提升元数据品质。搜索引擎则针对处理过的元数据和全文文档等数据做预索引。

2.1.3 有序展示层 对数据的有序展示涉及两个方面的内容:一是与搜索引擎相匹配的分面展示,帮助用户梳理庞大的检索结果集;二是发现系统通常采用最新的Web技术,为用户提供灵活友好的展示。可视化技术在展示方面有着得天独厚的优势,也表现出了未来在结果呈现方面的应用趋势。以可视化形式展示的结果形象直观,JavaScript技术的介入则能更好地实现系统与用户之间基于视图的互动。

2.1.4 有效关联层 这是系统的最上层。由于最底层数据是多来源、多格式的数据,用户通过发现系统发现所需信息的同时希望一步到位地获取。有效的关联体现在:系统针对不同类型的资源能够给出最优的获取方式和扩展获取方式,如目标内容是电子书(ebook),发现系统给出在线阅读或下载链接;如目标内容是纸本图书,发现系统给出与纸本图书相关的馆藏位置、状态等信息。有效关联必须借助发现系统对不同类型资源的配置策略和OpenURL技术来实现,是帮助用户获得所需目标对象的关键环节。

发现系统的逻辑结构奠定了其应用优势:帮助用户从海量资源中快速发现所需,对返回的检索结果进行更智能化的聚类、去重等处理,为用户提供一步到位的资源获取服务。对图书馆而言,发现系统是针对海量资源和多类型“服务”进行深度整合的平台。

2.2 资源发现系统的核心功能模块

2.2.1 读者界面(front end) 读者界面是与用户直接交互的模块,是系统与用户对话的窗口,读者界面设计得是否友善直接影响用户的检索体验。较为成熟的资源发现系统在读者界面这个模块要考虑三个层面的问题:①读者界面要体现“简单、易用”的检索理念,突出特点是为用户提供单一的检索框(也有人称为“类Google的检索框”),无需用户指定或者限定在某一检索字段中检索。发现系统后台根据多角度的索引发送全面的检索请求,并根据预先设定的排序策略组织检索结果,继而在读者界面呈现。该检索框提供“检索词历史记录”和“did you mean?”输入提醒,极大地方便了用户快速完成并修正检索输入。②读者界面要完成对检索结果的灵活处理和展现,这部分集中体现搜索引擎多角度索引、数据的有序处理(dedup、FRBR)、排序等后台模块的卓越成果,采用分面(facet)等技术为用户提供灵活的界面来扩充或者缩小检索结果。③读者界面必须吸纳与时俱进的Web 2.0技术,来创建丰富的交互性用户体验,缩短服务的响应时间。此外,资源对象之间的有效关联也要在读者界面有良好的体现。

2.2.2 搜索引擎(search engine) 搜索引擎一般由以下三部分组成:爬行器、索引生成器和查询检索器[5]。发现系统并不依靠爬行器抓取元数据和文档来丰富数据仓储,因此,搜索引擎只需完成快速索引并支持分面查询。主流的发现系统以性能可靠见长,大部分都部署灵活的开源搜索引擎软件,如Lucene或者Solr。Lucene与Solr同源,Solr是一个基于Lucene Java库封装的应用。搜索引擎从索引建立到应用查询要经历4个流程:索引、优化、镜像和交换。以Ex Libris的产品Primo为例,该系统使用的搜索引擎是Lucene,并在其基础上扩展和优化:首先,Primo的索引管理器对后台仓储中XML格式的数据进行抽取,将抽取出来的信息写入一个临时文件夹,并对抽取的数据进行规范化处理(规范大小写、去掉标点符号);之后,系统从性能角度考虑将临时文件夹中的所有记录写入一个索引文件,然后索引文件被复制到系统调用的索引文件目录中,与现有的索引文件做热交换。索引文件的交换将查询应用和后台的索引动作隔离开来,如果不考虑服务器的性能,索引和用户查询两个动作可并行进行,互不影响。此外,Primo还使用“slices”技术(搜索引擎的最小单元)来优化检索。每个搜索引擎包含一个或者多个“slices”,每个“slices”可独立管理,同一个“slices”可驻留在同一台服务器上,保证了服务器的CPU被充分利用。当然,这些“slices”也可以被部署在多台服务器上,以利用更多的系统内存,提高检索效率。

2.2.3 发布平台(publishing platform) 发布平台是面向多来源数据的发布模块,支持与多个资源商签署协议的数据、图书馆本地数据的上传、转换和同步。发布模块首先要通过OAI、FTP或者简单的文件拷贝来获取多来源的数据,然后将数据按照映射规则转换成发现系统支持的数据格式,并存储到发现系统的数据库中;之后,发现系统对这些格式的数据进行去重和丰富(enrichment)等处理。不同系统的发布模块对图书馆的开放程度不同,有些发现系统的发布模块对图书馆完全透明,图书馆可以定制映射规则,甚至可以制定去重和FRBR的策略,方便图书馆根据不同数据的特征管理和发布数据。不同发现系统的发布平台管理的数据规模也不尽相同,Ex Libris公司的Primo和Series Solution公司的Summon管理的数据量都在5亿条以上。

2.2.4 后台管理(back office)发现系统是管理多来源、多类型数据并提供前端服务的复杂系统。针对不同数据集合的管理策略、针对系统各个模块、各个环节的性能监控、针对基于工作流的角色分配等需要一个强大的后台管理模块来支撑。有些发现系统的后台管理还提供图形化界面的配置及统计信息的汇总,有利于管理人员对发现系统整体运行情况的了解和把握。

从发现系统的逻辑结构和功能模块看,发现系统汇集了亿级的学术信息的元数据,通过预索引的技术预先对数据进行合并、去重和丰富,采用最新的Web技术提升检索体验,并通过OpenURL技术完成电子资源的最终获取。与传统的图书馆自动化系统以及针对异构平台实现电子资源整合的检索系统相比,发现系统能够管理更丰富的资源类型,在检索效率、检索结果的有序性及质量等方面都有很大的提升。

2.3 资源发现系统的体系框架

目前,主流的发现系统有两种服务模式:单纯的云计算服务模式和混合服务模式。单纯的云计算服务模式依托典型的SaaS(Software as a Service)架构,所有数据、服务部署在云端,图书馆租用发现系统的服务提供给用户使用;混合的服务模式是部分数据部署在云端,部分数据(敏感数据)部署在本地服务器,本地服务器负责响应用户,并与云端数据及本地数据交互,图书馆购买软件或者租用服务。

单纯的云计算服务模式如图2所示。

图2 单纯云计算服务模式

混合服务模式如图3所示。

图3 混合云计算服务模式

单纯的云计算服务模式具备一切云服务的优势:节省本地硬件投入,节省维护服务的人力成本,但同时图书馆对云端数据的控制能力将大大减弱。相比单纯的云计算服务模式,混合云计算的服务模式则对本地数据的同步和保护本地敏感数据更有帮助。

3 资源发现系统面临的两个关键问题

清华大学图书馆自2009年开始关注发现系统的发展,2010年正式成立了发现系统调研与测试项目组。结合该馆近两年的跟踪和测试,笔者认为在引进资源发现系统过程中需要关注如下两个关键问题:

3.1 元数据质量

发现系统是面向学术信息的知识发现平台。在2010美国大学图书馆馆长[6]调查中发现,近90%的馆长认为图书馆应该作为用户发现学术信息的首选之地。从某种意义上说,发现系统是一个学术的搜索引擎,是拥有海量学术信息的元数据仓储。元数据质量不仅关系到发现内容的质量,还关系到针对海量元数据仓储进行数据挖掘的效果。目前主流的发现系统在元数据质量的控制方面仍然存在一些问题,主要表现在三个方面:

3.1.1 元数据来源 在一些发现系统中存在单纯追求元数据仓储的数量而忽略元数据来源品质(学术性)的倾向。如果元数据仓储中占大多数的是报纸杂志和短消息类的信息,这对关注经过同行评价(peer review)的高水平期刊文献和各领域高水平学术会议的学者而言,从发现系统中获取学术信息的期望会大打折扣。

3.1.2 元数据规范 元数据不够规范是目前几个主流发现系统存在的最严重的问题。发现系统获取元数据的渠道多样、来源复杂,加上当前学术期刊发布平台各不相同,造成一本期刊/一篇文章被多个平台收录和揭示,且不同平台的元数据描述规范不统一,给海量的元数据仓储数据的“去重”带来很大困难。

每一个发现系统都有数据规范处理的流程和不同的做法,如:聘请专业馆员对多来源数据作规范处理或采用技术手段对外部来的数据作统一的格式处理等,旨在努力减少由元数据格式不规范给数据“去重”带来的差异,但要解决元数据仓储中各种来源数据的规范性问题,仍然任重道远。例如:Agility and Mixed Model Furniture Production是姚期智先生2003年发表在期刊International Journal of Production Economics上的一篇文章,由于不同数据库描述该文章的元数据标准不同,发现系统将不同来源的同一篇文献视为不同记录(见图4),由此造成信息冗余。如果海量元数据仓储中存在大量的冗余信息,势必给用户带来新的噪声干扰,进而影响用户体验。

图4 元数据描述不规范导致无法去重的示例

3.1.3 元数据内容 在发现系统中,元数据有相对而言的“薄、厚”之分。所谓“薄”元数据(thin metadata)是指包含字段非常少的元数据信息。图5右栏所显示的是一条来自CrossRef的元数据。由于CrossRef是为DOI和OpenURL转换提供中立的解析和转换的公益组织,其包含的元数据只为生成OpenURL所用,包含题名、作者、合作者、来源、标识等基本信息,这是比较典型的“薄”元数据。图5左栏显示的是一条来自JSTOR的数据,它不仅包含了上面提到的基本信息,还包含了主题、摘要等信息。这就是典型的“厚”元数据(thick metadata)。“厚”元数据在基于题名、来源、作者等基本的检索中体现不出优势,但在数据分析、重组以及重用、数据挖掘等方面呈现出明显优势,这一点将在展望中进一步讨论。

图5 不同来源的元数据包含信息程度不同的示例

对图书馆而言,合理评估发现系统的元数据质量既重要又富有挑战性。发现系统首先是一个海量的元数据仓储,其收集的数据量巨大,动辄以亿为计;获取元数据的渠道繁杂,以Ex Libris公司的Primo产品为例,其获取元数据的数据源有6000多个。对这种量级的元数据质量做全盘的考量是非常繁杂琐碎的工作。清华图书馆试图从以下两个方面关心元数据的质量:一是清华大学不同学科的高品质期刊在发现系统中所占比例以及在发现系统中汇聚的高品质学术期刊包含“厚”元数据的比例情况;二是以清华大学一流学者发表的学术成果为特例,验证发现系统中元数据的质量和资源覆盖程度。由于评估过程相对复杂,本文中不予描述。

总之,提升发现系统的元数据品质需要多个角色的参与:①出版商规范元数据,并愿意开放更多元数据信息;②平台商加强不同数据源的数据分析,在处理数据时更有针对性和有的放矢;③图书馆不断关注元数据的质量,从用户角度督促出版商及平台商在数据的标准化描述和标准化处理方面提升数据质量。

3.2 与ILS的整合方式

传统的图书馆集成系统(Integrated Library System,ILS)以管理馆藏的纸本书刊为主,各个图书馆的ILS系统都积累了大量纸本书刊的编目数据。以清华大学为例,截至2010年底,清华大学的ILS系统积累了大约280万种书目数据。如何处理发现系统与ILS系统的关系是每个图书馆应认真考虑的问题。

发现系统与ILS的整合分两个层面:一是数据整合方式下,即将本地的ILS数据上载到发现系统中,与庞大的元数据仓储一起或者分别建立索引。ILS数据的增删改记录通过Web Service或者程序脚本实现与发现系统中数据的同步。二是服务整合,即在数据整合的基础上进一步完成针对ILS的OPAC功能的整合——ILS面向用户提供的续借、预约、个人记录查询等服务功能都在发现系统中得以呈现,也有人称之为“OPAC functionality through the discovery”[7]。实现服务整合的发现系统需要进行读者认证,且需要与ILS的读者库保持一致。

从用户角度考虑,他们需要一个单一检索框完成多类型、多载体资源的发现,包括对纸本馆藏的发现。单纯的数据整合方式下,用户仍然要使用原有的OPAC界面完成预约和续借等操作。发现系统在读者界面的优势不能惠及到纸本馆藏书目在OPAC平台的呈现。

当然,发现系统与ILS的数据整合也不是一蹴而就的。国内仍有很多图书馆的ILS存在开放性不够、与第三方系统交互困难等问题。自动获取ILS的增删改记录,使得发现系统的书目和馆藏数据与ILS的数据保持同步仍是一项十分艰巨且需要投入技术和人力的工作。清华大学图书馆则是采用系统镜像和页面分析的方式最终实现ILS数据同步和馆藏状态的同步。

4 资源发现系统在图书馆应用的展望

发现系统的出现给用户带来了快速、简单、易用、高效的检索体验,被很多用户认为是“amazing”的(“I think it's amazing that I can all of a sudden find all the material with direct online access”)[8]。发现系统的风靡对改善图书馆服务大有帮助,但也酝酿着更大的危机。发现系统的规模化推广势必造成资源集合的全球化和资源发现服务的全球化,未来的资源集中在几家发现平台商手里,以SaaS或者部分本地加上部分SaaS的服务模式向用户提供服务,通过OpenURL完成电子资源的有效关联。此时,发现系统面对的用户完全可以是最终用户而非图书馆这个中间机构,在这样的资源服务链条中,图书馆的贡献已非常有限——作为单纯的购买者(buyer),激活所购资源的清单;作为OpenURL解析器,负责解析来自资源发现系统的文献请求。

数据驱动的服务理念将为我们打开知识服务的大门。数据驱动的服务理念和计算机学科的数据挖掘有着异曲同工之妙:通过对海量数据的分析,揭示出隐含的、有潜在价值的信息和知识。面对海量的数据集合,覆盖多个学科、跨越十年甚至几十年的学术出版物可以带给我们许多新鲜的发现,基于特定需求分析海量数据,从而得到信息之间的关联和学术发展趋势。这将使得图书馆为教学科研提供细颗粒度的、高度黏合和个性化的服务成为可能,同时赋予这个海量数据无穷的活力。清华大学图书馆在调研和测试发现系统过程中,正在尝试基于海量数据的知识挖掘和创新服务。

4.1 基于关联的以学者为中心的知识网络发现

主要为某研究领域的初中级研究人员提供快速了解学科专家和学科研究最新动态的渠道。在这个应用场景中,海量的元数据仓储是基础,为达到以学者为中心的知识网络,还要集成更多外部数据。图6是从发现系统的海量元数据中获取数据并加以解析,最终达到关联的流程图。

检索条件 XML文件 解析 作者 合作者 期刊 会议

发现系统 Primo Summon Google scholar

外部数据 链接/最新文章 call for parper 会议归档数据

图6 以学者为中心的知识网络框架

首先,我们选择某研究领域的顶尖学者作为知识网络的核心;其次,基于海量的元数据仓储,获取某位顶尖学者发表的全部文章列表;再次,对发现系统获取的文章信息进行解析,获得该学者的文章、合作者和文章被收录的出版物等信息。最后,针对期刊类型的学术出版物,通过RSS向外关联期刊的最新一期内容;针对会议类型的学术出版物,利用页面分析等技术,向外关联会议的论文信息。将这些不同来源、不同层次的信息围绕该学者做有效关联,形成以该学者为中心的知识网络,为该领域的入门学者提供相对完整且前沿的领域知识视图。

为拓展这种知识网络,我们从提取出的合作者中选取合作频次较高的学者,重复上述获取、解析、关联操作,从而完善整个知识视图,得到的知识网络以可视化的方式展示[9]。

4.2 基于文献计量概念的学科研究趋势及热点分析

科学研究的发展变化和研究趋势等可以在学术文献中得以表现。利用文献计量学的思路,综合分析某研究领域连续几年甚至几十年的文献,可以得到领域的研究热点及变化趋势。图7是分析计算机学科近12年文献数据后得到的研究热点。依托海量数据的趋势分析和依靠人工智能采集数据分析的工具Arnetminer[10]得到的研究热点走向是基本一致的,不同方法得到的结论也可以相互验证。

图7 2000-2011年计算机科学(computer science)研究热点

5 结语

清华大学图书馆的探索实践只是初步的尝试,旨在探索基于海量元数据仓储做数据分析的应用前景以及开展数据驱动的知识服务的新模式。发现系统不仅仅是用于用户检索服务的一个工具,更是图书馆发挥聪明才智的平台。寻找可行的知识服务切入点,发挥海量元数据潜在的价值,为高校教学科研提供切实有效的服务是图书馆未来应着重思考的问题,同时,也考验和挑战着图书馆面对海量数据所具有的数据管理和综合运用着能力。我们相信,随着数据的日渐开放和共享,数据驱动的知识服务模式必定为图书馆提供细颗粒度的、高度黏合和个性化的服务揭开新的篇章。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

资源发现系统的功能分析及应用前景_元数据论文
下载Doc文档

猜你喜欢