基于关联数据的图书馆创新服务研究,本文主要内容关键词为:图书馆论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:6252 文献标识码:A 文章编号:1003-6938(2012)03-0085-04
关联数据(Linked Data)来自于2006年被称为“互联网之父”Tim Berners-Lee的万维网体系架构笔记《关联数据笔记》,Berners-Lee在文中分析了Web的发展与演变,提出了发展数据网络的思想,而数据网络的核心和关键就是关联数据,并认为关联数据是致力于建立数据之间关联的一种规范[1]。这种关联构想给一直以来困扰人们的海量信息聚合性不足提供了解决的思路与规则,把图书馆等机构的原本没有关联的数字信息或数据连接起来,构建一个语义化的数据网络成为了可能。因此,关联数据一经提出就受到了图书馆学界的广泛关注。我国图书馆学者近三年来对于关联数据的概念、R2R语言、规则、图书馆应用等进行了较为详细的研究,但对图书馆来说,对关联数据的研究,最终的价值体现与终极目标还是关联数据在图书馆服务中的应用,以满足用户的需求,应用于图书馆的服务质量也才是用户最终的评判标准,因此探讨基于关联数据的图书馆创新服务也将会是关联数据在图书馆应用研究的一大热点。
1 关联数据与图书馆
1.1 关联数据概述
关联数据的核心技术是使用资源描述框架(RDF)进行资源的组织与交换。对其的定义不同的学者有不同的见解,如有的学者侧重对语义的认识,如白海燕认为关联数据是用来在语义网中使用URI和RDF发布、分享、连接各类资源,强调建立已有信息的语义标注和实现数据之间的关联[2]。而有的学者则更倾向于认为关联数据是一种信息行为与实践活动,因而对维基百科的定义“关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识”更为认可。
1.2 关联数据的价值与应用
关联数据有别于万维网的文件互联,通过网络把可能并没有关联的相关数据链接在一起,以让用户发现、关联、描述并再利用,可以说是从一个全新角度重新来定义和发现资源,BBC、世界银行、纽约时报等很快认识到了关联数据在知识发现、信息组织与用户服务方面的价值,纷纷加入到关联数据的出版发布之列。当前国际上关联数据的最典型应用项目代表是LOD(开放关联数据Linked Open Data),该项目自启动便得到了W3C语义网的支持,其目标是通过定义已存在并可公开使用的数据集,根据关联数据原则将其转换为RDF并上网发布,进而改善数据网络,项目的早期参与者主要为大学实验室和一些小公司的研发人员,但随着项目的发展壮大,一些大型机构和政府如BBC、美国政府、英国政府等都积极参与其中,它们或为用户提供关联结构化数据,增强用户对信息行为的控制力度,如Google,或为企业在数据模型交流、整合及查询方面提供方便,解决数据存储和服务等问题,如雷诺[3]。
1.3 关联数据在图书馆的应用现状
图书馆拥有大量的结构化数据,关联数据的应用已引起了世界图书馆界的重视与推广。2008年,瑞典国家图书馆将LIBRIS(瑞典联合目录)发布为关联数据,LIBRIS也因此成为世界上第一个被整体发布为关联数据的联合目录,LIBRIS共包含约600万条书目记录2000万条馆藏记录及20万条规范记录,为超过170家大学图书馆以为大学图书馆、公共图书馆、博物馆和档案馆提供在线编目服务[4],同时为了加强和外部数据的关联,LIBRIS还创建了到LCSH(美国国会标题表,lcsh.info)和维基百科(Wikipedia/DBpedia)等的相关链接,为图书馆界开展关联数据的发布及应用提供了宝贵的经验和思路。之后,美国国会图书馆、OCLC、德国国家经济图书馆、德国国家图书馆、欧洲核子研究中心图书馆、欧洲国家图书馆的数字资源门户Europeana、英国的哈德斯菲尔德大学图书馆等也对关联数据进行了实践应用。2010年5月28日,W3C宣布成立图书馆关联数据孵化小组(Library Linked Data Incubator Group)[5],以通过汇集图书馆界内外参与语义网活动(重点在关联数据)的人、基于现有创新举措、确定未来的合作轨迹,帮助提高图书馆数据在互联网上的全球互操作,孵化小组的成立也标志着图书馆应用关联数据走向国际化、规范化与组织化。2011年6月2-3日,在美国旧金山举办了宗旨为“促进关联开放数据公布途径的实用性和可行性”的国际图书馆、档案馆和博物馆关联开放数据峰会(The International Linked Open Data in Libraries,Archives,and Museums Summit)[6],超过85个团体参加了峰会。
1.4 我国图书馆界的关联数据研究现状
国内最早引进关联数据应该是2008年12月在上海召开的“数字环境下图书馆前沿问题研讨班”上刘炜所作的“语义互操作与关联数据”介绍报告,但最早的研究文献则是2009年上海图书馆图书馆刘炜等人发表于《现代图书情报技术》的《LCSH,SKOS和关联数据》[7]一文,在该文中作者重点介绍了关联数据技术在网上发布词表的Web应用。截止到笔者检索的2012年5月1日,知网中主题为“关联数据”&“图书馆”的研究论文不足50篇,说明在短短两三年的时间里,我国图书馆界对其倾入了较大的关注,特别是可以看到2011年和2012年的研究成果占据了较大比例更能说明这一点。
从论文发表的期刊分布上看,期刊的发布较广,我国图书馆界的主要期刊如《中国图书馆学报》、《大学图书馆学报》等十余家期刊都刊载有相关论文,说明我国的图书馆期刊也认识到了关联数据在图书馆的应用价值与图书馆学研究关联数据的学术价值。
从论文的研究主题和内容来看,我国图书馆界学者的关联数据研究主要分为以下三方面的内容:
(1)对关联数据内涵的研究。或许是因为业界对关联数据的研究尚属起步阶段,因此对于关联数据的概念进行理解辨析的文章较多,同时对关联数据的原则、优点、原理、技术体系等内涵的研究也较多,如沈志宏、张晓林[8]描述了关联数据的原理是用一种轻型的、可利用分布数据集及其自主内容格式、基于标准的知识表示与检索协议、可逐步扩展的机制、来实现可动态关联的知识对象网络,并支持在此基础上的知识组织和知识发现。其技术体系包括:①关联数据数据内容组织可以是任意数据组织形式下的具体数据内容,但要求能用URI予以标识,能通过HTTP调用;②关联数据创建与发布是实现关联数据的关键环节;③关联数据浏览与检索要求能用标准方法检索和解析RDF信息;④关联数据互联与维护是采用自动或半自动的方法,创建不同数据集数据之间的关联,并在源内容对象和目标内容对象发生变化时保持关联信息的准确及时。
(2)图书馆关联数据的应用研究。关联数据的图书馆应用价值从一开始就让我国图书馆界学者看到了其蕴藏的学术研究价值。黄永文[9]将关联数据在图书馆的应用总结为六个方面,即:①将图书馆资源发布为关联数据,如OCLC利用SRU服务为VIAF项目提供关联数据;②利用关联数据扩展资源发现服务;③实现数据融合与语义检索服务;④利用关联数据在学术研究和学术交流中发挥作用;⑤跨机构的关联数据的开放与复用;⑥利用关联数据实现图书馆与教学系统之间的集成。在进行应用研究的同时,我国图书馆界学者还对国际业界的应用进行了介绍,如刘炜在最早的关联数据研究中就介绍了美国国会图书馆MRACXML格式的主题标目转换为SKOS的技术方法。
(3)图书馆应用关联数据的机会与挑战。在对关联数据的内涵与应用研究到一定程度后,图书馆界学者对关联数据的隐私保护、资源整合、接口协议、交互模式等问题带给图书馆的挑战也进行了思考,如刘媛媛[10]认为不作任何处理直接使用LOD中的数据会产生数据不完整、所获数据并不相关、不同数据源的数据不一致、数据劫持(Hijack)等问题。李亚婷[11]则认为去如何提供给用户最可靠、最合适和最相关的数据信息则是图书馆需考虑的问题。刘炜[12]认为图书馆应用关联数据的最大问题就是封闭性,即无法对封闭系统中的资源进行整合,图书馆购买或租用的大量资源库需要远程访问才能获得,如果这些资源库不提供一定的开放接口,关联数据就无计可施,因此从服务整合的角度,需提供一定的资源导航或术语规范的支持。
2 关联数据在图书馆的应用实现
根据夏翠娟[13]等学者的研究成果,关联数据的发布实现主要由资源生成、RDF链接、RDF文档发布和RDF检索四个实现阶段,因此笔者对此主要对其四个实现步骤进行介绍。
(1)图书馆关联数据的资源生成。图书馆关联数据的应用最基础、最关键的工作就是图书馆关联数据的资源生成,图书馆关联数据资源的创建需要用描述内容对象的内部结构和内容,如作者、书名、出版社等。需要注意的是:①这种描述需用规范的URI描述;②资源的描述深度取决于元数据格式的丰富程度和内容对象的内容深度,并需在描述信息中建立内容对象之间的关联描述;③由于图书馆的信息资源更新较快,因此图书馆的关联数据资源的更新频率也相对较快,需要引入数据更新机制;④资源在创建过程中需注意数据集内关联数据的自动化生成。
(2)图书馆关联数据的RDF链接。关联数据通过“链接”来为用户开展服务,并通过链接实现不同数据集的关联[13]。图书馆关联数据的关联构建是图书馆关联数据的资源生成与图书馆关联数据的资源发布的衔接过程。白海燕[14]认为,关联数据的关联构建,可采取基于图相似度的映射、基于规则的关联构建和基于实体的文本映射等三种办法。基于图相似度的映射是对单一三元组比较方法的扩展,基于实体的文本映射是实现自动关联的基本方法;这两种方法具有通用性,但创建的关联关系类型比较有限。基于规划的关联构建能创建复杂的关系,但需依赖特定的相关规则和模型。
(3)图书馆关联数据的RDF文档发布。图书馆关联数据的发布是图书馆利用关联数据的核心,关联数据的发布就是将图书馆信息资源数据发布为RDF三元组。夏翠娟[15]等学者认为利用资源描述框架数据模型在万维网上发布结构化数据与利用RDF链接不同数据源的数据是关联数据的两大基本准则,采用的方法可以有:①支持HTTP的内容协商机制(根据客户端信息请求的类型,决定返回HTML的表示形式还是RDF的表示形式);②支持采用带“#”号的URI方式定位到RDF中具体的数据资源。
(4)图书馆关联数据的RDF检索。将开放数据资源最终通过智能联合检索(smart federated search)与语义检索呈现给用户是图书馆应用关联数据的最终体现。目前,图书馆正在开发数字资源门户的语义检索服务,该服务可以将检索词匹配到地点、名字、题名和概念,以提供更有意义的检索结果,另外,Europeana Connect项目正在通过在Europeana之上引入语义层,以实现在对象之间建立语义链接[16]。
3 基于关联数据的图书馆创新服务
3.1 信息资源的发布服务
尽管目前图书馆界非常重视文献信息资源的共建共享工作,并也付诸了诸多的行动,如CALIS、CADAL、共享工程等项目,但还无法真正实现将图书馆所有文献资源共享资源,而如果将图书馆的所有信息发布为关联数据,用户则可以通过URI来查找世界上任何的一家图书馆资源,信息资源也将成为完全共享的开放信息资源。同时,任何机构、个人的有价值的数据,如发展报告等,也可以通过图书馆的关联数据发布实现信息的公开化与最大价值化,因此,信息资源的关联数据发布也将会是图书馆的主要应用服务之一。其实,从图书馆一开始应用关联数据,数据的发布就是主要方式,如,美国国会图书馆以SKOS格式将国会标题表LCSH全部关联数据化,并且提供LCSH词表的下载,并创建不同资源之间的关联(如LCSH与LIBRIS进行关联)[17]。图书馆这种信息资源的关联数据发布,为信息时代的信息资源网络传播与服务拓宽了更加广阔的空间。
3.2 信息资源的发现服务
当前,通过主题检索等途径实现图书馆信息资源的发现服务日益被重视和应用,发现服务能扩展传统的目录、书目检索功能,并为读者展示更多的馆藏信息。但由于这种发现服务的实现途径更多是局限于传统的书目、MARC数据等,如封面图片、读者评价的链接等,所以知识信息的揭示深度不足。由于关联数据允许用户更大限度的发现、关联、描述并再利用各种数据,因此图书馆的关联数据资源还可以实现更加广泛的信息资源描述、关联与发布而并不局限于资源本身的信息。这种服务不仅可以帮助用户对检索到的书目信息等判断是否是自己所需的,还可以帮助用户获取图书馆以外的信息,发现更多更有用的关联信息资源。
3.3 信息资源的检索服务
现有的图书馆检索系统如OPAC等,读者均只能实现作者、主题、题名等检索条件的检索,但不能提供相关链接或关联的知识检索与知识发现等服务,对关联数据的智能化检索则能改善图书馆现有检索系统的服务功能并解决上述问题。因为关联数据的关联特性,读者也往往能根据关联数据的关联知识,也能根据这些关联关系去研究相关知识的网络关系分析,如学科知识的组织与服务网络等。
3.4 信息资源的异构融合服务
信息社会的发展和存储介质的更新换代,图书馆的异构资源不管是从数量上还是质量都在迅猛增长,泛在化环境下的数据交换、融合和再利用也在不断增多,整合、利用这些异构资源成为图书馆的一大资源建设问题。关联数据的统一标示与描述则会让图书馆的信息资源数据的识别、交换、再利用变得越来越容易,图书馆与社会信息机构、数据存储组织之间的合作将越来越紧密,图书馆的价值也将得到更大程度提升。
4 结语
作为社会信息资源的存储、开发、利用机构,图书馆应用关联数据有着得天独厚的优势,也能够从关联数据的应用中收益无穷,既能用技术改善信息资源的组织、利用、检索服务,也能从根本上改变图书馆在社会信息服务机构中日益下降的地位。从本质上来说关联数据是一种Web数据服务,是面向机器的,图书馆应用关联数据也就是相当于从单纯的向人(读者)服务转向了向人和机器服务,图书馆也就既需通过前台服务(为用户服务),也需后台服务(为机器服务),继而使得图书馆成为社会信息机构中的基础组成部分,并能自如应对个性化服务、专业化服务等要求越来越高的读者需求,提高图书馆的服务效率与服务质量。
收稿日期:2012-03-20