信息资源的聚合与组织研究_元数据论文

信息资源的聚合与组织研究_元数据论文

信息资源聚合与组织研究,本文主要内容关键词为:信息资源论文,组织论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      DOI:10.13663/j.cnki.lj.2016.03.014

      修回日期:2015-10-30

      0 引言

      随着数字网络技术的发展,各种类型、各种媒体的信息资源数量急剧增加,人们获取信息资源的渠道和手段不断丰富。许多图书馆拥有数百个平台或数据库的信息资源,信息资源的类型、结构、存取和分布方式等都发生了很大的变化。越来越多样化的资源类型,越来越庞大的信息资源体系,使图书馆的信息资源服务面临着巨大压力。图书馆用户的信息行为和信息需求也有了很大改变。用户的基本信息需求已经从获取更多的信息资源转变为从海量的信息资源中迅速、准确地获取他们需要的信息资源。同时,用户不再满足于单纯的信息资源的查找和获取,而更期望能够发掘更多、更符合他们潜在需求的信息资源。

      因此,对于图书馆来说,需要组织来源于各种异构平台或数据库的信息资源,包括图书馆订购的商业数据库资源、开放获取资源以及其他免费网络学术资源,为用户提供一种快捷便利、无缝集成各种异构资源的深度聚合服务。可以实现多种媒体类型、多种来源和不同粒度的信息资源统一检索和获取的发现系统,成为现阶段图书馆界应用越来越广泛的信息资源组织和聚合的工具。

      本文所指的发现系统,是指基于资源组织和聚合理论而构建的,通过对来自于异构平台和数据库的信息资源元数据进行收割、映射和转换等预索引、预聚合处理,向用户提供信息资源一体化服务的系统。

      1 信息资源组织与聚合研究的应用现状

      信息资源组织,又称为资源组织,是指:“根据使用的需要,以文本及各种类型的信息资源为对象,通过对其内容特征等进行分析、选择、处理、序化,并以适当的方式加以提供的活动。”[1]资源聚合是指对信息资源的“聚集和整合”。[2]长期以来,图书馆界在资源组织和聚合的方面进行了诸多努力。

      近年来,图书馆资源组织和聚合相关的理论研究包括:

      (1)书目记录的功能需求模型(Functional Requirement for Bibliographic Records,简称FRBR)。1998年,国际图联(IFLA)面对新的信息资源环境和不断发展的用户需求,发表了研究报告——《书目记录的功能需求》(FRBR)。FRBR模型“定义了一系列与图书馆目录相关的事物类别(实体)、从属于每个类别的特征(属性)以及可能存在于各种类别之间的关系”[3],并提出了书目记录需要满足资源的发现(Find)、识别(Identify)、选择(Select)和获取(Obtain)四大功能需求。[4]

      (2)关联数据(Linked Data)。关联数据由语义网创始人伯纳斯·李于2006年7月首次提出,是国际互联网协会(W3C)推荐的一种规范,用来发布和连接各类数据、信息和知识。关联数据的特征是采用资源描述框架(Resource Description Framework,简称RDF)数据模型,利用统一资源标识符(Uniform Resource Identifier,简称URI)命名数据实体,来发布和部署实例数据和类数据,从而可以通过HTTP协议揭示这些数据,帮助最终用户发现更多的相关信息,使人们准确、高效、可靠地查找、分享、利用这些相互关联的信息和知识,而无需知道这些服务背后的技术细节。[5]

      (3)语义网技术。语义网技术“较早的研究主要偏重于采用RDF、OWL、SKOS等技术分别解决数字图书馆中的某些局部问题,如元数据、知识组织、信息检索等,当前的研究则更致力于探索如何利用语义网技术对数字图书馆中资源的描述、组织和检索等问题进行一揽子的解决,打造具有语义功能的语义数字图书馆”。[6]

      (4)资源描述与检索(Resource Description and Access,简称RDA)。RDA是应数字环境发展而制定的最新国际编目规则,于2009年编制完成。RDA以传统的《英美编目条例(第2版)》(Anglo-American Cataloging Rules,Second Edition,简称AACR2)为基础,以FRBR概念模型为框架,提供了一套能覆盖各种内容和媒介类型资源的描述与检索的原则和说明,以满足数字环境下资源著录与检索的新需求。

      (5)书目框架计划(The Bibliographic Framework Initiative,简称BIBFRAME)。BIBFRAME也曾称为“书目框架迁移计划”(The Bibliographic Framework Transition Initiative),由美国国会图书馆和以语义技术起家的Zepheira公司合作开发。2012年11月,书目框架发布第一份报告。作为一种“适应未来需求”的网络时代的书目数据格式,BIBFRAME在规范控制、注释模型和应用平台开发等方面的工作尚未完成。[7]

      在实践与应用系统方面,比较常见的方式是利用资源整合系统来实现异构来源信息资源的组织和聚合。主要有:

      (1)联机公共目录(Online Public Access Catalog,OPAC)系统。OPAC系统作为图书馆集成系统的一部分,一般是基于图书馆的书目记录系统,提供基于目录级别的图书、期刊等资源的资源整合,而不支持对期刊中某一篇文章或图书中某个章节的资源组织和聚合。

      (2)资源导航系统。资源导航系统以数据库导航系统和电子期刊导航系统为代表,提供的主要是数字网络资源的目录信息,在对图书馆纸质馆藏资源组织和聚合方面有所欠缺。

      (3)跨平台检索系统或联邦检索(Federal Search)系统。跨平台检索系统“是将一个检索请求同时转换并发送到多个异构的数据库,将检索结果进行归并和统一展示的整合系统”。[8]跨平台检索系统的资源整合的对象主要是文章、报告,属于基于篇章级别的资源整合。跨平台检索受网络速度、远程数据库的数据结构等客观因素的影响较大,检索结果的查全率往往较低。

      总的来说,联机公共目录、资源导航系统和跨平台检索系统都仅在局部范围内实现了资源的组织和聚合,基于这些系统形成的多个分散、独立的信息系统,在整体上并未实现数字资源和纸质资源、目录级别和篇章级别资源的统一访问。而发现系统基于一定的资源组织和聚合理论而构建,适时顺应了数字网络环境的变化,可以兼顾多种媒体类型、多种来源和不同粒度的资源组织和聚合,以满足用户多元化的信息需求。因此,发现系统成为现阶段图书馆界应用越来越广泛的信息资源组织和聚合的工具。

      2 现有发现系统的资源组织与聚合——以上海交通大学图书馆“思源探索”系统为例

      发现系统基于元数据预索引和元数据仓储的工作原理,收割异构平台的信息资源元数据,并转换为统一的元数据格式,从而形成一个预索引、预聚合的元数据仓储,向用户提供信息资源统一检索和获取服务。因此,发现系统可以在同一个界面中,同时实现基于出版物级别的图书、期刊等和基于篇章级别的期刊中某一篇文章或图书中某个章节等资源的组织和聚合,相对于以往的资源整合系统,资源检索和获取的效果都有较大的提升。目前,在国内应用比较广泛的发现系统主要有:CALIS的e读系统、超星公司的超星发现系统、EBSCO公司的EBSCO Discovery Service(EDS)系统、ExLibris公司发布的Primo系统、OCLC的Worldcat Local系统和Serials Solution公司的Summon系统。[9]

      发现系统的服务模式主要有两种:云服务(基于云计算的软件即服务,Software as a Service,SaaS)和云+本地服务模式。

      EDS、Summon等系统属于云服务模式,其软件和数据都放在供应商的远程服务器上,由运营商对其进行维护与升级管理,图书馆作为用户,不在本地安装系统程序,而是通过互联网应用系统,实时调用服务器上的数据[11]。云服务模式下,图书馆不需要对软硬件进行维护和管理,从而降低了在服务器和软件授权的购买、系统运营和数据维护上的资金和人力成本。但是,云服务模式下,图书馆无法根据自己的应用需求,对系统进行个性化配置。而Primo等系统属于云+本地的服务模式,其一部分系统或数据放在本地服务器上,由图书馆自行维护和管理。这种模式的系统,要求图书馆拥有一定的IT技术支持资源,比如:配置大型硬件设备,拥有一定数量能够自行安装、开发、管理和维护系统所需的软硬件设施的人员。其优点是,图书馆可以将个性化需求,对系统进行二次开发和配置,从而尽量使发现系统的资源组织和聚合功能更契合本馆读者的信息行为特点和需求。

      而从信息资源的组织和聚合方面来说,这些发现系统都着力于通过挖掘信息资源的深层次内涵,反映信息资源之间的关联,发掘用户的潜在需求,以资源的利用为出发点,以资源的“发现”为主旨,引导用户“发现”更多的相关信息资源,从而有针对性地满足用户的信息需求。

      上海交通大学的“思源探索”系统,整合了图书、期刊、期刊论文、学位论文、图片和学术视频等多种媒体类型、多种层次的信息资源,是根据用户需求调研结果、基于Primo系统进行二次开发的、图书馆馆藏资源和电子资源一站式获取和发现的系统。其在信息资源组织和聚合方面的主要特点如下:

      2.1 多类型信息资源的聚合

      随着网络数字技术的发展,图书馆所收集的资源越来越多样化,信息资源的类型、格式和内容越来越丰富。用户既希望能够“一站式”查找和获得各类型信息资源,同时,又希望能够厘清各类型资源之间的关系,有效辨别符合自己信息需求的资源。

      为此,“思源探索”系统在进行资源的组织和聚合时,通过对同一种资源的各种媒体类型、各种格式的组织和聚合,将不同载体类型的同一种信息资源以及具有某些共同内容特征的相关信息资源聚合在一起,帮助用户更准确地判定多种类型信息资源之间的内在联系,有效提高信息资源的检索效率。

      首先,“思源探索”系统实现了对图书馆馆藏书目数据,特色馆藏资源,商用数据库资源(电子图书、电子全文期刊、报纸、学术文章、学位论文、专利文献、多媒体资源等),网络资源(知识百科、社会网络等),用户共建资源等各种类型资源的组织和聚合[12]。

      其次,“思源探索”系统还通过对资源元数据记录的统一格式转换和规范化等预处理手段,在将资源呈现到用户界面的时候,将同一信息资源的不同类型的元数据记录聚合显示在一起。如,可以将不同载体类型(如:图书版和电影版的《无人生还》)、不同内容表达(如:小说《红楼梦》的英文版原作和中文版、日文版译本、校注本和插图本)的同一种图书,以及多卷书的各个卷次的书目记录,聚合显示为含有多个版本或单册的一条记录。这样,用户就可以很方便地判定和选取自己需要的信息资源。

      2.2 基于聚合的资源发现

      数字网络环境下,用户需要更加多样化的资源,他们希望图书馆不仅能够提供图书馆所拥有的各种类型资源,也能够提供一个互动、协作的平台,引导他们将自己在资源查找的过程中或有意或无意形成的隐性信息需求显性化,发现他们所需要的、图书馆外的其他资源。图书馆在资源组织和聚合方面的各项努力,其根本目的也正在于此。现有的发现系统已经实现了一些基于资源聚合的资源发现功能:

      (1)聚合用户数据资源的智能化资源推荐。首先,“思源探索”系统可以通过聚合用户曾经输入的检索词、检索历史等用户数据资源,通过拼写错误自动更正、相关资源推荐等功能,帮助用户在出错或对自身信息需求尚不明确的情况下,仍能获取需要的信息。比如,通过与bX学术论文推荐服务的关联,基于用户使用数据,挖掘分析文献之间的潜在关系,自动为当前用户推荐关注过同一篇论文的其他用户关注过的其他相关论文,使用户不仅仅得到检索词搜索得来的资源,还可以“发现”用同一个检索词可能搜索不到的相关资源;其次,“思源探索”系统还可以通过设置交互式操作、可供用户互相交流的多个功能,如个人标签、评论等,形成一个鼓励用户参与和互动交流的合作环境,通过经验与知识的共享,帮助用户即时扩展自己的检索,实现智能化资源推荐。

      (2)聚合外部信息资源的智能化资源发现。通过异步JavaScript and XML(Ajax)和Mashup等网络应用技术,“思源探索”系统可以将丰富的外部信息资源(如:维基百科网站中的百科词条、图书的封面、目次和书评)嵌入到系统数据中,并把它们与馆藏资源相结合,呈现给用户。这样一来,用户可以在检索过程中,了解所输入检索词的涵义,可以在浏览馆藏资源目录的同时,看到图书馆之外的网站(如:“豆瓣”或“亚马逊图书频道”)中相应图书的封面、目次和书评,也可以在查找文章的同时,了解文章的同行评审信息,还可以将自己感兴趣的信息资源保存到社会网络的个人信息中心中。如果通过期刊名称进行检索,则可以检索到该期刊所有年份的出版情况,点击对应的卷期即可浏览该期刊的内容。

      这些将内部信息资源与外部信息资源的融合的功能,使图书馆所能提供的信息资源和服务得以延伸到图书馆之外,从而实现智能化资源发现。

      2.3 多角度、多层次的信息资源揭示

      同一图书馆所服务的用户多种多样,不同学科、年龄、经历的用户的信息行为总是存在一定的差异性,用户的信息素养也参差不齐。图书馆需要根据用户的不同行为习惯和信息需求,来提供资源和服务。因此,“思源探索”系统基于对用户查找、利用信息资源的过程和习惯的研究与分析,提供了多途径、多角度、多层次的信息资源揭示服务,使不熟悉图书馆资源的用户、具有专业信息需求的研究者、有一定信息素养的用户等不同的用户群,都能够以最适合自己行为习惯的方式,方便、快捷地查找、辨别、选择和获取资源。

      (1)“思源探索”系统提供了分面浏览(Facet Browse)的功能。如果用户在刚开始查找信息资源时,并不确定他们具体想要查找的是哪一本书或哪一篇文章。他们可以从一个简单的检索词开始,通过分面浏览,不断地使自己潜在的信息需求由模糊变为清晰,最终转变成明确的、现实的信息需求,找到符合自己信息需求的目标资源。

      (2)“思源探索”系统提供了智能辅助搜索的功能。根据常见的用户信息需求分析,“思源探索”系统不仅允许用户在搜索之前设置文献载体、语种等限定条件,还配置了灵活多样的进一步筛选、定位信息资源的方式,包括:检索结果按相关度排序、拼写建议、检索建议、同一作者或主题的相关资源推荐等。用户可以对检索结果进行进一步过滤、聚合与导引,从而快速定位目标资源。

      (3)“思源探索”系统还支持信息资源的可视化展示。比如,①通过关键词检索,看到检索词所对应相关论著发文量趋势图;②通过直观的数据图表,了解到与检索词相关的知识点、作者、机构、图书学术发展趋势、期刊学术发展趋势、核心期刊统计等信息;③得到初步的查找结果之后,查看目标资源的各类引证情况以及引证趋势图;④通过“虚拟书架”功能,查看目标资源在图书馆书架上的位置和其他详细信息,并且通过鼠标的左右拖动,可以进一步看到排列在目标资源左右的更多的其他书/刊①。

      3 现有发现系统资源聚合的问题

      真正的资源“发现”,是要实现基于知识的数据关联,挖掘资源之间隐含的关系。现有发现系统在不同类型、不同来源和不同粒度的资源组织和聚合方面,初步实现了“一站式”和“无缝化”,并能融合多种网络技术的应用,以整合各种外部网络资源,但仍存在以下问题:

      (1)资源聚合的效果尚有改进空间,需要对来源数据加以清洗和丰富,以得到较好的资源聚合效果。发现系统主要是基于元数据预索引和元数据仓储的机制来实现信息资源组织和聚合。所以,资源聚合的效果与来源数据的质量关系密切,一旦出现来源数据不规范和不准确的情况,就会使发现系统对信息资源的聚合效果不尽如人意。比如,“思源探索”系统中,虽然可以通过自动抽取主题字段和责任者字段内容,来实现相关主题、相关著者的扩展检索,但是,由于部分元数据记录中,主题字段和责任者字段著录不够规范,这种扩展检索的实际效果差强人意,并不能实现真正意义上的知识关联。

      此外,由于发现系统获取元数据的渠道多样、来源复杂,不同来源数据记录格式往往应用了不同的著录规则,即使是来源于同一机构的同一种编目记录格式的数据,不同时期的著录规则的调整对整体的数据统一性也会有所影响。

      而不同来源的信息资源元数据描述规范不统一,给发现系统中海量的元数据仓储数据的“去重”和归并也带来很大困难。由于不同数据库描述元数据标准不同,元数据信息著录往往存在差异,这很可能导致不同来源的同一信息资源无法准确去重、归并,这样一来,系统就将不同来源的同一信息资源视为不同记录,从而造成信息冗余,影响用户体验。

      所以,必须对来源数据加以修正和丰富,使得信息资源可以基于某种形式进行统一描述与聚合,使得不同系统平台的数据交互变得更容易,才能够得到较好的资源聚合效果。[13]

      (2)资源聚合深度不足,需要对信息资源的知识内容进行分解,以实现基于信息资源内容、基于知识关联的深度聚合。作为信息资源的组织和聚合工具,发现系统需要满足用户发现、识别、选择和获取信息资源的需求。为此,必须首先实现人物、主题、事件、时间、地点等多信息资源内容的深度聚合和多向关联,不仅要能够实现同一个作品的不同层次、不同媒体类型资源的聚合,也要能够实现同一个人或团体创建的、制作的或拥有的信息资源的聚合,还要能够实现与同一概念、同一实物、同一事件或同一地点相关的所有信息资源的聚合。

      而在现有的发现系统中,主要实现的是同一载体表现(纸质资源和数字资源)、同一创建者(编著者)、同一概念(主题)的聚合,基于实体-关系的聚合尚未实现,资源聚合的深度不够,与资源间的关联性也不明显。因此,需要对信息资源的知识内容进行分解,对信息资源的粒度进行分析,对信息资源的内容进行抽取、结构化深度整序,以实现基于信息资源内容、基于知识关联的深度聚合。

      4 结语

      综上所述,基于元数据预索引和元数据仓储的发现系统,面对多种多样的信息资源,主要是通过一定的数据集映射规则和转换规则,对不同来源的元数据记录进行收割、转换,从而实现资源的组织和聚合。所以,现有发现系统的资源组织和聚合的实际效果,与其所收割的元数据质量密切相关。在发现系统现有的机制下,加强信息资源的内容和格式的标准性、元数据记录的规范化,充分利用更多的外部资源丰富数据内容,是其所面临的首要问题。

      在信息资源极度丰富的网络信息环境下,用户所期望的真正意义上的“资源发现”,不仅仅是要解决异构资源间的互操作问题,实现多种媒体类型资源的多维度、多脉络揭示,更要实现基于知识的数据关联和资源发现。各种元数据方案在元素的名称取值、定义时,更多地考虑了以人为用户对象时的数据处理。因此,现有发现系统中这种基于元数据层面的资源组织和聚合,并不能完全解决信息系统的语义异构问题,需要在此基础之上更进一步,构建一个资源组织和深度聚合的整体框架体系,通过关联数据、语义技术等的应用,从语义层面上实现信息资源的组织和聚合,实现真正意义上的知识关联和资源发现。主要可以从以下两方面入手:

      (1)构建与外部资源之间的关联关系。首先,与各类SKOS化的主题词表、叙词表、分类表以及网络百科构建关联,增加资源组织的准确程度,消除词汇的歧义,帮助用户获得某一主题、术语、关键词的知识点注释、信息扩展说明和更为丰富的知识关系链接;其次,与外部书目数据关联,扩展用户的资源发现;再次,与地理数据集的关联,从地理角度聚合资源,发掘李政道图书馆资源中涉及人物的地理分布情况,并进一步利用可视化工具,用地图形式展示李政道先生的学术关系与科研历程。

      (2)揭示实体与实体间的关系。比如:通过元数据规范化处理和丰富、语义分析等多种技术和方法,提取资源中涉及的人物所属机构信息,形成机构-人物-资源关系图,将资源中所隐含的诸多人物的相关关系充分揭示出来,从而实现资源的深层次聚合和发现。

      ①http://www.lib.sjtu.edu.cn/ourexV/version.html[2014-12-28]。

标签:;  ;  ;  ;  ;  ;  ;  ;  

信息资源的聚合与组织研究_元数据论文
下载Doc文档

猜你喜欢