图书馆应用关联数据的策略分析,本文主要内容关键词为:图书馆论文,策略论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号G250.78
Class Number G250.78
1 引言
2006年,被称为“互联网之父”的Tim Berners-Lee在万维网体系架构笔记《关联数据笔记》中提出了“关联数据”这一概念。它采用RDF(资源描述框架)数据模型,利用URI(统一资源标识符)命名和标识数据对象,并通过HTTP超文本传输协议揭示并获取这些数据,从而构建一个计算机能理解的具有结构化和富含语义的数据网络,并在此基础上实现更智能的应用。国外对图书馆应用关联数据给予了足够重视,万维网协会W3C成立的关联数据孵化小组旨在推动关联数据技术在图书馆的应用,而国内有关图书馆应用关联数据的相关文章见诸核心期刊的仅10余篇。徐华介绍了国外图书馆应用关联数据的案例和经验[1],李琳、黄永文阐述了关联数据在图书馆界的应用和挑战[2-3]。林海青、范炜从宏观的角度研究图书馆关联数据,分别提出了图书馆应用关联数据潜在的四个基本模式和宏观语义模型。[4-5]管进、张晓峰、白海燕、杨爱武、丁楠等人从微观角度研究关联数据在图书馆知识服务、学术资源推荐、书目组织语义化、创新服务、信息聚合等具体方面的应用。[6-10]本文将图书馆应用关联数据的领域及相关实例作出分析并提出一些建议,希望对我国图书馆界应用关联数据能有一些借鉴意义。
2007年,Chris Bizer和Richard Cyganiak向W3C SWEO(Semantic Web Education and Outreach)提交了关联开放数据(Linked Open Data)的项目申请,自此越来越多的数据以关联数据的形式发布并链接,关联数据集也由2007年的12个增长到2012年11月的332个,其中图书馆关联数据集已达到57个。[11]笔者通过对这57个数据集调查发现,这些数据集包含了书目数据、名称规范数据、主题规范数据等类型的数据及其他类型数据如MARC等图书馆标准、工具的关联数据,总共提供了8 822 778 998个RDF三元组,平均每个数据集包含154 785 596个三元组(见下表)。
可见,目前图书馆关联数据主要集中在书目数据和规范数据这两个领域。
2 图书馆应用关联数据的领域及实例分析
2.1 书目数据及相关数据的发布
图书馆书目数据、规范数据、MARC数据等均可发布为关联数据。瑞典国家图书馆是全球首个将国家级书目数据LIBRIS全部发布为关联数据的图书馆,美国国会图书馆以SKOS(简单知识组织系统)格式将国会主题词LCSH全部关联化,并创建了与LIBRIS等资源的链接。将图书馆传统书目发布为关联数据,扩展了书目组织有序化和语义化程度,使书目组织不仅可以揭示信息对象的同一性、信息对象间的关系以及信息对象本身的衍生变化,而且可以按信息对象的各种表现形式集中和聚类,从而更加清晰地揭示资源的结构和资源的关系,使用户更好地选择和识别信息。OCLC将杜威十进分类法及国际虚拟规范文档发布为关联数据,通过匹配和关联不同国家、不同语言的图书馆规范文档,增加了规范文档的利用率。
2.2 实现图书馆与档案馆、博物馆的数据整合
图书馆、档案馆和博物馆(Libraries,Archives,Museums,LAM)具有极其丰富的经过规范化控制的数字资源,但是由于各自为政的资源建设及元数据采用不同标准、遵循协议不一致的问题,导致了LAM的数字资源不能实现整合及一站式检索,阻碍了文化资源的有效集成,造成了资源建设的重复问题。关联数据使得在一个更加广泛的框架内配置LAM资源并为用户提供深层次、一体化的信息服务变成了现实。欧洲数字图书馆是欧洲国家图书馆数字资源门户[12],它聚合了来自欧洲一些图书馆和文化机构的关于图书馆对象(如图书、视频、地图、档案)的元数据。Europeana非常重视门户的互操作,采用了SKOS和其他的一些元数据模式,整合了LAM等组织机构电子版藏的元数据。Europeana Connect项目通过在Europeana之上引入语义层,实现在对象之间建立语义链接。
2.3 在图书馆服务方面的应用
2.3.1 优化关联参考服务
数字图书馆早期的关联参考服务主要是基于引用的参考链接,关联数据的发布和应用给关联参考服务的建设带来了发展契机。关联数据不但预先建立了数据对象之间的可靠关系,而且迅速发展的关联数据为构建图书馆的关联参考服务提供了强大的资源支持。奥地利格拉茨科技大学的研究人员利用Journal of University Computer Science(《计算机科学期刊》)和DBpedia融汇了作者个人信息[13],并开发了CAF-SIAL系统。该系统能识别、检索、过滤数字期刊作者相关的关联数据资源,结构化地组织所获取的信息并可视化呈现相关的语义资源。通过该系统用户可以获取某一作者的简介、学术成果、研究领域等信息的综合性视图,有助于用户搜索合作者,找到相关领域的专家。
2.3.2 实现自动语义问答
图书馆通过应用关联数据可以提供自动语义问答服务。用户可以访问图书馆OPAC,从而获取和具体馆藏相关联的整合知识对象,甚至可以关联到图书馆以外的数据集,例如DBpedia、RDF Book Mashup等中的数字实体。CruchBase Twitter机器人支持人们就有关硅谷公司方面的问题进行提问。DBpedia Mobile[14]系统可以支持普通浏览器、手机等不同终端,充分利用DBpedia数据集提供的地图和位置数据,通过GPS信号结合DBpedia与其他LOD数据集关联,自动发现当前位置附近的相关内容,并通过浏览器提供地图化的界面。
2.3.3 扩展资源发现服务
传统的资源发现服务仍然局限于书目信息层次上,知识信息的揭示深度不足。图书馆可以利用LOD云图中关联开放数据,实现更加广泛的信息资源描述、关联和发布,并不局限于资源本身的信息,为用户提供更丰富、更有意义的检索结果。在浏览/检索的基础上,将图书馆信息扩展到RDF Book Mashup,获得书评、作者简介等更加详细的信息,将相关概念扩展到DBpedia,获得该概念的定义解释等。由阿姆斯特丹大学与荷兰戏剧研究所合作的关联数据项目[15],主要关注使用关联数据进行结果内容的扩展,使阿姆斯特丹大学图书馆OPAC的检索结果中可以显示来自荷兰戏剧研究所的戏剧演出方面的信息。
2.3.4 实现与科教研间的交流
图书馆发布的关联数据通过对学术资源进行关联和深度揭示,可以实现人员、所属机构、科研项目、研究成果、领域专家等内容的关联整合。不仅可以帮助用户找到原始数据,发现更多同领域专家,共享科研活动数据等,还可以通过HTTP/URI机制帮助用户直接获取最需要的学术期刊、文章等数字对象。牛津大学开展了一项能够通过语义Web技术有效地共享研究管理数据的项目BRII[16],特别是共享科研活动数据以及可以公开提供的部分研究管理数据。该项目中采用了关联数据,使链接不同时期的研究片段成为可能,可以帮助用户发现更多关于作者的信息并允许用户下载原始的研究数据。2008年,JISC资助实施了JISC-SemTech项目[17],项目的主要目标是分步骤实现跨高等教育机构创建关联数据,从而使机构联盟内部之间共享教育、教学资料等资源。
2.4 在语义检索方面的应用
利用关联数据可以实现基于对象和关系的语义检索。现有的图书馆OPAC检索服务系统,读者只能实现以作者、主题、题名等检索条件的检索,并且具有无法提供扩展服务、不同形式作者检索等不足,基于关联数据的检索则可以改善检索系统的效果,并能挖掘和利用RDF描述中丰富的关联关系来支持对其内容对象基于知识点与知识关系的检索。Faceted Wikipedia Search能够基于对象的属性特征提供有针对性的分面浏览与导航。与传统的分面浏览提取通用元数据作为分面条件不同,Faceted Wikipedia Search采用的是结构化对象属性提取方法,具有很好的灵活性和动态性。根据实体之间的关系与属性之间的关系,指定特定类型、值域属性或关系,实现基于关系的检索,可以比较好地展现资源之间的结构关系和演变情况。DBpedia的关系查询构建器,通过对不同对象之间的关系匹配、对象属性匹配及两者的多重组合,能够实现更为智能和复杂的检索需求。
3 图书馆应用关联数据的建议
3.1 遵循关联数据开放应用协议
图书馆关联数据发布和重用过程中不可避免的涉及参与者的利益问题,为了鼓励更多、更好的数据提供者参与并保证数据使用者在使用时不侵犯他人的利益,遵循相应的开放协议是非常重要的。笔者通过调查发现,图书馆关联数据集中只有28个数据集(约占49%)公开了其协议信息(其中39.2%的数据集使用了CCZero协议,32.2%使用了ODC协议,28.6%使用了CC协议),但仍然有一半的关联数据集没有采用相关开放应用协议。对于图书馆哪些数据集可供开放及开放的程度及不同类型的数据应采用何种协议,图书馆应结合自身战略和服务政策,遵循相应的开放应用协议,促进图书馆关联数据的健康发展。
3.2 采取动态链接维护方法
笔者通过调查发现,57个图书馆关联数据集之间以及和外部数据集之间共建立了175个关联关系,平均每一个图书馆关联数据集和3个以上的外部数据集实现数据共享和重用。这175个关联关系中,总共包含了大约490 479 685个数据层面的链接,平均每个数据集中有8 664 907条数据和外部数据相关联。关联数据集是动态变化的,决定了数据间的链接也是动态的。据统计,2008年10月至2009年5月,DBPedia中person类资源增加、移动、删除分别多达49325次,2841次,20561次。[18]而图书馆关联数据集中有25个(约占44%)链接到DBPedia数据集。数据集间建立链接关系之后,需要对这些链接进行及时、有效的维护。有研究表明[19],主要有三种动态链接维护方法:基于LOD—LMP协议的动态链接维护方法、基于更新通知的动态链接维护方法和基于主动监测机制的动态链接维护。
3.3 建立合理的数据质量评估体系
不作任何处理直接应用关联数据会产生不同数据源的数据不一致、获得的数据不相关、数据劫持等一系列的问题。[20]为了给用户提供最相关、最可靠的关联数据,图书馆应建立相关的质量评估体系来评判数据资源的相关性、可信度及其质量。Bizer和Cyganicak提出了以不同的内容、上下文和评级为基础的启发性评价方法。[21]一些研究者提出了一系列的评估标准[22],如从内容、表达、使用、系统等方面进行评估。一些相对成熟的技术如WIQA和网页推理可用来对关联数据的查询结果进行评估。
3.4 采用合适的共指管理系统,识别同一对象的共指URIs
Jaffri等人将关联数据的共指问题归结为两种情况:一是一个URI标识多个资源;二是多个URIs标识同一资源。[23]为了评估DBLP中数据的质量,Jaffri等人曾做过有关共指问题的实验,结果显示比较常用名字中92%的作者被错误的合并出版,最坏的情况下15个不同的作者共享一个URI。笔者在关联数据搜索引擎Sindice中搜索“Tim Berners-Lee”,相关的URI至少有300条。共指问题给图书馆关联数据的识别、集成和重用带来了巨大的挑战。目前共指问题解决办法集中于识别同一对象的共指URIs。主要有两种方法:基于语义网OWL规则推理共指URIs和基于属性和属性值相似度计算识别共指URIs。一些研究者关注于实际的关联数据对象共指管理系统,以解决图书馆应用关联数据的对象共指问题。其中比较有代表性的两个为一致性引用服务(CRS)和OKKAM实体命名系统。[24]