关联数据技术及其研究现状,本文主要内容关键词为:现状论文,数据论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G250.7 [文献标志码]A [文章编号]1005-8214(2014)11-0042-04 1 关联数据的概述 1.1 关联数据的提出 关联数据(Linked Data)概念是万维网的发明人Tim Bemer-Lee(蒂姆·伯纳斯·李)于2006年首次提出的,当时是作为万维网上用来发布数据的一种方式提出的。2007年,W3C(国际互联网协会)正式启动了关联开放数据项目(Linking Open Data,LOD),[1]用来规范发布和连接各种数据、信息。目标是利用词义网技术来实现Web智能化,用协议来规范发布和连接Web的各种数据。目的是希望在万维网的基础上,建立一个计算机能理解的、可描述的、富含语义、具有结构化的、互联互通知识网络,从而使人们更加高效地利用这些相互关联的信息。 1.2 关联数据的四个原则 在2009年召开的Technology,Entertainment,Design(TED)会议上,Bemers Lee认为关联数据就是把数据通过开放标准关联在一起,揭示出数据间的相互关联和相互联系的规律,从而发现更多的新的事物,产生更大的效益和更好的应用,并且提出关联数据必须要遵循的几个原则。[2](1)必须使用URI(统一资源标识符)作为所要标识的所用事物的名称;(2)通过HTTP URI的使用,使不论任何访问者都可以定位到这些事物;(3)当访问者通过查询相关事物的标识名称时,可以获得相关的有价值的信息;(4)要尽量提供所有能提供的与之相互关联的URI链接,以便读者更好地利用,获取更充分的信息,发现更多东西。 1.3 关联数据的特征 关联数据是在网络上使用资源描述框架(RDF)作为数据的模型,运用统一的资源标识符(URI)作为数据的标识,通过HTTP协议协调规范“数据”,从而实现在网络上的发布。这样发布的数据揭示了数据间的相互联系,提供了计算机可以理解的词义信息。[1] 关联数据可以通过数据间的链接形成关联的数据网络。关联数据的数据之间的链接多种多样,既能在来源不同的数据库之间建立链接,又能在不能相互操作的数据之间建立链接。而且,关联数据既能连接其他数据,也能被其他数据所连接。因此,具有连接的多样性和广泛性。 关联数据网络有异于超文本网络,其相同之处在于都是链接,不同之处在于超文本网络是把HTML文件通过超链接连接在一起,关联数据不是单纯地链接这些文件,而是采用RDF,建立关联数据网络,通过数据描述,链接世界上所有事物的数据网络。 2 关联数据的发布技术 2.1 关联数据是怎样实现在Web上发布的 关联数据要利用RDF(Resource Description Framework)作为资源描述的框架,要采用URI(Uniform Resource Identifier,统一资源标识符)机制来命名数据,通过HTTP协议来揭示并且获取这些数据。关联数据是新兴的,大部分实现的技术尚在探索发展之中。关联数据应该遵守的四原则充分表明了关联数据的性质。关联数据的实现不囿于任何具体的技术,关联数据的实现只跟相关的Web标准有关。所以,绝大多数情况下,关联数据的发布不需要改换原来的发布系统,只要在原来的系统上加上支持关联数据系统的应用模块就可以了。关联数据是建立在原有的Web技术的基础上,以关联数据的四项基本原则为依托,对Web技术进行进一步的要求与规范。 Web技术主要涉及HTTP、URL和HTML。关联数据把Web技术作了进一步的规范和要求,用URI一并解决命名和定位两个问题。URI实现解决命名和定位这两个问题时,由于其有容易实现和永久有效的特点,其路径不允许随意更改,要求在各种不同的软硬件平台上都能够正确编码。因此,关联数据所标识的URI必须符合CooIURI的规范。[3] 关联数据发布的具体实现技术可概括如下。 (1)根据URI的“参引”请求,采用HTTP协议中的指令规则,生成HTTP URI(通常表示为CooLURI),并且生成RDF数据模型的描述文档。 (2)建立不同数据源的数据的RDF链接。 (3)在Web上发布描述好的数据资源(RDF描述文档)。用下面两种方法之一均可。根据URI的“参引”请求,依据HTTP协议中的“内容协商”的规则,返回到HTML文件或RDF文件形式,另一种方法是采用支持带“#”号URI的方式可直接定位到RDF中的资源。[4] (4)有一个访问的接口,支持对RDF数据库进行检索。 2.2 关联数据的发布方式 (1)小规模的应用方式。只需要在现有的Web服务器软件进行一定的设置。对URI的命名的规范加以设定,用RDF数据模型描述要发布的那些数据资源,并以静态文件的形式来发布。 (2)大规模的应用方式。在数据量大的情况下,要求后台必须有全面支持关联数据发布的数据库管理平台。2010年,开源软件就已经开发出用Drupal全面支持关联数据的内容管理平台。[5]2011年1月,将关联数据作为核心模块的Drupal7[6]正式发布,使其对语义网技术的支持更加成熟,已形成对关联数据的发布能很好支持的一整套更加完善的机制。 (3)在需要更新的频率较大的情况下,采用请求在线生成RDF描述数据。在需要调用时根据原始数据直接在线生成。 (4)在需要从关系数据库到RDF数据进行转换的情况下,用DIR方式。DIR方式就是从数据库到RDF数据的转换方式,是将数据库中储存的内容根据发布关联数据的规则发布为关联数据。它是通过编制映射文件,将数据中的内容映射为对应的RDF内容,将资源数据相应的表、行等映射为RDF资源数据所对应的类、属性等,从而实现数据库到RDF数据的转换,才把数据库中储存的数据资源发布成关联数据。DIR方式的好处,就是在原来Web数据库的应用架构层上增加了语义构建层,能够生成RDF数据,可供SPARQL查询。这样,可以降低语义内容的构建难度,提高发布速度。现在,开放关联数据LOD(Linked Open Data)中许多大型数据库都是用这种方式发布的。此外,数据发布工具还有很多,如:Pubby、Triplify等。 3 关联数据的国外研究发展概述 自2006年7月万维网的发明人蒂姆·伯纳斯·李提出关联数据以来,关联数据很快被人们认可、接受并积极研究。随着2007年1月启动的开放关联数据(Open Linked Data)项目的不断研发,关联的开放数据越来越多,关联数据的应用领域在逐步扩大。一些大型机构,比如纽约时报、GOOGLE、路透社、美国国会图书馆、英国广播公司(BBC)等都参与其中。美、英等国开展了政府信息语义网的研究工作,美国和英国政府都把政府的一些信息发布成关联数据。[7]在短短几年中,不仅LOD云图中的数据集合不断增加(其中包括RDF三元组在2010年就迅速达到131亿个),[8]而且范围逐渐在扩大,数据涉及的主题领域从早期的生命科学、地理数据为主发展为多媒体、文献出版物、政府信息等。围绕关联数据,召开了一系列的国际学术研讨会。比如AAAI年会、ISWC(国际语义大会)、DCMI(国际元数据年会)、WWW(国际互联网大会)。自万维网协会2007年年会后,就关联数据专门设立了一个分会,即LDOW(Lined Data On the Web),这个分会作为关联数据领域最重要的例会每年召开,为关联数据的不断发展做出了贡献。 4 国外图书馆关联数据的研究发展情况 由于图书馆行业知识服务的需要和信息数据的优势,2010年5月,W3C(万维网协会)宣布专门成立图书馆关联数据孵化小组(Library Linked Data Incubator Group),[8]帮助图书馆建立关联数据,以便使图书馆将各种数据(MARC数据、主题标目等)以关联数据形式加以发布。目前,许多国家具有影响力的图书馆已经把主题标目、规范记录、MARC数据发布为关联数据。瑞典国家图书馆率先将瑞典联合目录(LIBRIS)以关联数据的形式发布,LIBRIS包含了600多万条的书目记录,200多万条的馆藏记录,还有20万条的规范记录,为200多家图书馆、博物馆的编目提供服务。LIBRIS是首个被发布成关联数据的联合目录。LIBRIS使用的词汇表并没有局限于图书馆学,而是包含了DC、SKOS、FOAF、Bibliontology等多元素复合体。[9]美国国会图书馆的主题标目LCSH以SKOS(简单知识组织系统)的格式变换为关联数据,而且还提供LCSH词表下载。美国国会图书馆不仅将LCSH发布为关联数据,而且还创建与不同资源之间的关联,比如LCSH与LIBRIS进行关联,这是关联数据应用的成功范例之一。德国国家图书馆将联合权威档(Gemeihsame Normdatei)开放为关联数据服务;法国国家图书馆的主题标目(RAMEAU)开放成为关联数据;OCLC的杜威分类法和国际虚拟权威档,开放为关联数据服务。所有这些成功范例,都推动了关联数据在全球的应用。图书馆对各类数据进行规范,把规范档以关联数据的形式发布到互联网上,可以提高图书馆的数据应用范围,使图书馆也成为万维网上重要的一员,使图书馆的数据和其他数据在万维网上具有互操作性。这样,就扩展了图书馆行业的服务空间,提升了图书馆行业的服务质量,更利于彰显出图书馆行业的影响和价值。 5 关联数据在国内研究发展现状 国内图书馆行业在2008年12月召开的“数字环境下图书馆前沿问题研讨会”上首次提出关联数据并引起了广泛的关注。在武汉华中科技大学主办的“2009年数字环境图书馆前沿问题”研讨班上,美国教授曾蕾作的题为“关联的图书馆数据”的报告,上海图书馆刘炜教授作的题为“关联数据:意义及其实现”的报告,引起了与会者强烈的反响和广泛的关注。现在,有关关联数据的研讨会越来越多,成为很多图书馆学会年会讨论的主题之一。 虽然目前关联数据研究的专业文章数量不多,只有数十篇,但是也呈方兴未艾的趋势。最先见诸于刊物的文章,分别是李静雯[10]和姚小乐、刘炜[11]的翻译文章,分别介绍了瑞典国家图书馆和美国国会图书馆的关联数据的应用情况。国内有关关联数据的研究,涉猎面甚广,有的是从技术的角度研究。夏翠娟[12][13]等主要研究如何利用Drupal发布关联数据、如何解决发布方与消费方的技术问题;郭少友[14]研究如何维护关联数据的动态链接;白海燕[15]从DBpedia实例分析来研究关联数据的技术;沈志宏、张晓琳[16]则从技术发展的综述角度来介绍关联数据的技术;丁楠、潘有能[17]研究了基于关联数据的图书馆的信息聚合。从应用角度研究的论文也有不少,如:罗铮[18]探讨了关联数据在公共图书馆的应用;沈志宏等[19]着重研究了关联数据在科学数据库的应用及如何把科学数据发布为关联数据;李亚婷等[20]谈了关联数据在Web环境下的应用;刘炜[21]的综述则全面介绍了关联数据应用的来龙去脉;刘炜[22阐述大数据与关联数据的联系。其他文章也从不同侧面,不同角度,就关联数据的技术实现、应用前景作了详尽的阐述。关联数据研究的重点逐渐从研究关联数据的发布和浏览,关联数据的应用架构和算法等技术问题转移到关联数据的应用方面。 关联数据项目最早应该是中国科技信息研究所申报的,国家科技图书文献中心立项的“NSTL”联合目录的分层组织与关联构建。在此研究基础上,又在2010年成功申报了国家社科基金项目——“图书馆资源组织语义比较研究”、“基于关联数据的服务融合与资源扩展”等项目,对于关联数据的技术和应用进行全面的研究。此后和关联数据有关的基金项目越来越多。如国家社科基金重大项目:“项目编号为11&ZD152的基于语义的馆藏资源深度聚合与可视化展示研究”;国家社科基金项目:“项目编号为11BTQ041的关联数据的理论和应用研究”等;国家重点自然科学基金项目:“项目编号为70833005的基于生命周期的数字信息资源深度开发与管理机制研究”;国家自然科学基金项目:“项目编号为71103020的语义环境下的大规模协同知识处理模型研究”,还有一些涉及关联数据的省部级基金项目和各种专项基金项目就更多。这些项目的科研成果,为我国开展关联数据的发布与应用提供了理论依据。 6 结语 从技术上看,关联数据是一种在网上机器可读的、根据一定的原则发布的数据,数据通过RDF与外部数据集联系,形成开放的关联数据网络。 从整体上看,关联数据就是把不同来源的数据建立起关联的关系,可以关联世界上的万事万物。 从应用上看,将不同类型的数据集通过链接关联起来,使关联数据技术的应用有了更大的空间和发展前景。传统的Web应用,只局限于一组固定的数据源上,而关联数据的应用可以把不同的数据源联系起来,建立起无边界的全球数据空间,这正是关联数据应用的价值所在。关联数据可以在万维网上发布任何“资源”。经过几年的发展,国内外的关联数据已拥有了巨大的数据群体。这些数据包罗万象,涵盖了大千世界的万事万物,孕育着有潜力、有价值的应用空间。图书馆行业既要利用现有的关联数据,也要把自己的大量的权威数据发布为关联数据,实现互操作。这样,不仅能增加信息的聚合能力,拓展知识服务空间,而且能更好地提升图书馆的社会影响力,增强图书馆的自身价值。通过关联数据在图书馆的应用,使图书馆有机会在未来的语义网中占据一席之地。相关数据技术及其研究现状_rdf论文
相关数据技术及其研究现状_rdf论文
下载Doc文档