基于关联数据的学科网络信息深度聚合框架的构建_元数据论文

基于关联数据的学科网络信息深度聚合框架构建,本文主要内容关键词为:学科论文,框架论文,深度论文,数据论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       [分类号]G250.73

       1 引言

       学科导航网站是一种非常有效的学科信息组织方法,目前国内外典型的学科导航网站主要有英国的Intute、美国的infomine以及中国的CALIS重点学科网络资源导航等。令人遗憾的是据统计CALIS重点学科网络信息导航网站中73.51%的资源从未被用户点击,很多服务出现更新缓慢、访问不畅等问题;国外学科导航领导者英国的Intute网站也已于2011年停止更新服务,可见,学科网络导航网站正面临严峻考验,迫切需要寻求一种新的思路来提高其服务效率。

       2006年7月,Tim Berners-Lee提出关联数据(Linked Data),由于关联数据支持语义描述、提供标准的服务接口以及以“数据”而不是“文件”作为关联的最小单位,并且目前有很多关联数据发布和转换软件,因而其不失为实现学科网络信息聚合的一种思路或方法。关于关联数据与学科信息聚合的相关研究,国内方面,部分研究成果体现在国家自然科学基金项目“基于关联数据的信息聚合模型与实现研究”,国家社科基金项目“关联数据中潜在知识关联的发现方法研究”、“关联数据的理论和应用研究”中。国内外的研究论文主要有四个主题:关联数据模型与网络信息聚合[1-4],社会网络信息聚合[5-7];关联数据与图书馆信息聚合[8-10]以及关联数据与信息聚合案例[11-14]。文献表明:关联数据与学科网络信息聚合问题已经引起了国内外学者的关注,现有研究数量上达到一定规模,内容上也多有新意,但仍存在一些局限,如:缺少学科网络信息行为、模型/框架等方面的研究等。下文首先回顾关联数据、学科网络信息深度聚合概念;然后分析基于关联数据的学科网络信息深度聚合框架构建的可行性,构建“聚合框架”并对学科网络信息关联数据发布工作流程进行分析;最后提出“聚合框架”实施应该注意的问题。

       2 关联数据与学科网络信息深度聚合

       2.1 关联数据

       2006年7月,万维网的发明者Tim Berners-Lee提出关联数据的概念。由于它是一套应用规范,而不是难度很高的技术,因此,它很快成为互联网研究和应用的一个热点问题。关于关联数据的概念,Tim Berners-Lee总结了四个原则[15]:①使用URIs作为任何事物的标识名称;②使用HTTP URIs标识事物,以便人们能够找到这些事物名称;③当有人访问具体的某个URI时,以RDF、SPARQL等标准提供有用的信息;④尽可能多地建立与其他URIs的链接,以使人们发现更多的相关信息。其中,统一资源标识符(URI)是一个用于标识某一互联网资源名称的字符串,用来标识网络上的任何事物,使得网络资源以“数据”而不是“文件”为单位关联成为可能;超文本传输协议(HTTP)提供了一种在互联网上发布和接收HTML页面的方法,通过HTTP或者HTTPS协议请求的资源由URI来标识,在互联网任何位置的事物采用HTTP URIs标识后,可以被任何人链接;资源描述框架(RDF)的作用则是通过RDF将某个整体的“数据”分别表示并且分布在不同的地方,SPARQL是为RDF开发的一种查询语言和数据获取协议,使用户可以很容易地在分散的RDF数据中找到所需的数据。

       2.2 学科网络信息深度聚合

       学科网络信息聚合是指将网络上不同来源的、异构的学科网络信息资源整合在一起,以便用户对学科信息进行浏览、检索与利用。目前,常见的学科网络信息聚合主要有两种方式:①RSS学科网络信息聚合,通过“订阅”的方式,可以将不同来源的网页信息集中到RSS阅读器中,从而达到聚合的目的。它是一种以网页为单位的聚合,解决了学科网络信息的有效组织和传播问题,但是缺乏有效的信息内容质量控制机制。②学科门户网站,是指根据某种学科分类法和主题词表来组织信息,用户可以按学科内容进行学科网络信息浏览,也可以按学科、资源类型等进行题名和关键词检索学科网络信息。由于学科门户网站的信息资源是经过选择的,其有效地提高了学科网络信息的质量,但是尚存在可持续发展,学科门户网站之间的互操作以及学科网络信息的长期保存等问题。

       基于关联数据的学科网络信息深度聚合是指采用关联数据的数据发布或数据转换规范,以具有标识意义的“数据”而不是“文件”为单位,对网络上分布的、异构的、动态的学科网络信息进行聚合,以便用户对学科网络信息进行浏览、检索与利用。基于关联数据的学科网络信息深度聚合能够解决以上两种学科网络信息聚合存在的问题,有效地控制学科网络信息的质量,增强不同学科门户网站之间的互操作性,提高学科门户网站的利用效率。

       3 基于关联数据的学科网络信息深度聚合框架

       3.1 可行性分析

       学科网络信息深度聚合框架的构建需要考虑两个问题:①有一个模型,可以用来表示来自不同Web信息源的各种学科网络信息数据,以便进行进一步的学科网络信息深度聚合;②有一些数据格式转换工具,可以将不同Web信息源的各种学科网络信息数据转换成统一的格式,以便进行学科网络信息深度聚合。

       关联数据以现有的HTTP、URL、HTML等Web技术为基础,采用RDF模型,可以将网络上非结构化、半结构化以及各种结构化学科网络信息数据转换成统一标准的结构化数据,以便机器理解。发布关联数据的途径主要有三种:①静态发布。如果数据量很小,如:只有几百条RDF三元组[主体(Subject)、谓词(Predicate)、客体(Object)]或者更少,可以直接采用静态的RDF文件发布。②批量存储。如果数据量很大,则需要将它们放进RDF库中,并选择Pubby等服务器作为Linked Data服务的前端。③调用时生成。如果数据的更新频率很大,就需要引入更新机制,或者在请求数据的时候再根据原始数据在线生成(on-the-fly translation)RDF。[16]

       关联数据的格式转换工具则主要有:①D2R。它是德国柏林自由大学(Freie University Berlin)的开源项目,是将关系型数据库发布为Linked data的工具,由D2R Server,D2RQ Engine以及D2RQ Mapping语言组成。[17]②LMF。LMF是2008年开始开发的一个解决方案,是一个易于安装的服务程序,用于提供以语义网为中心的应用。LMF核心提供了关联数据服务器以及SPARQL端点服务。[18]③OAI2LOD Server。它是一个封装的组件,主要是将任意OAI-PMH标准的元数据仓库按照关联数据的规范进行揭示,使得事物和媒介对象可以通过HTTP URIs获取并且通过SPARQL协议进行查询。[19]可见,关联数据不但能够提供一种统一描述不同数据来源、不同格式数据的模型RDF,而且有一些数据格式转换工具,是解决学科网络信息深度聚合的一种有效思路,目前,在实践中的应用也非常广泛。在图书馆领域,2008年,瑞典国家图书馆将瑞典联合目录(LIBRIS)发布为关联数据;2010年6月,IFIA发布关联数据与图书馆的专题报告;美国国会图书馆、德国图书馆、OCLC等书目数据或规范数据也纷纷开放关联数据服务。大型媒体公司如:BBC、纽约时报等都纷纷发布关联数据。

       3.2 框架设计

       框架是一个基本概念上的结构,用于解决或者处理复杂的问题。由于数据来源各不相同、格式也各异,所以学科网络信息聚合是一个非常复杂的问题,可以考虑用“框架”来表达关联数据预处理、关联数据发布、关联数据应用查询等概念结构。在深入分析关联数据和学科网络信息深度聚合概念和“聚合框架”设计可行性分析的基础上,利用关联数据的原理、技术、方法设计了一个包括源数据、数据预处理、关联数据生成以及应用服务在内的四层结构的学科网络信息深度聚合框架(如图1所示)。

      

       图1 基于关联数据的学科网络信息深度聚合框架

       源数据。源数据是指网络上的各种结构化的学科数据,如:存储在关系型数据库里,可以用二维表结构来逻辑表达实现的各种专业数据库、学术资源数据库等;半结构化的学科数据,如:数据的结构和内容混在一起没有明显的区分的学科门户网站、学术论坛等;以及非结构化的学科数据,如:与学科专业相关的期刊论文电子书等全文文本、图像、声音、影视、超媒体等数据。

       数据预处理。虽然关联数据本身并不具备语义特征,但是由于它能够在数据层面建立关联,因而可以为真正的语义网奠定基础。不同来源、格式各异的学科网络信息数据往往缺乏明确的、结构化的定义,机器无法直接进行理解和处理。所以在关联数据生成之前,应该对数据进行预处理。数据预处理通常通过包装器、映射器、提取器,从各种数据源搜集数据并进行结构化处理。包装器通常根据学科主题需求从数据源中抽取各种学科网络信息数据并用结构化(表格)的形式表示出来,通过语言描述数据源(SDL),并将分散在Web上的HTML、XML等数据整理成关系表的格式。映射器通过映射描述语言(MDL)来定义一些映射的规则,用来进行属性名称和格式的转换,用以统一包装器的关系表中表述不规范的“模式”和“词汇”。抽取器是指从非结构化文本中抽取结构化的数据,主要用于对非结构化数据进行预处理,抽取器是包装器的一个抽取规则程序,由编程人员用Junglee抽取语言描述。[20]

       关联数据生成。关联数据的生成是在数据预处理的基础上,采用关联数据发布或转换工具将数据发布成RDF格式的关联数据。关联数据的发布方法主要有:静态发布、批量存储、调用时生成以及事后转换四种。[21]

       应用服务。基于学科网络信息深度聚合框架的应用服务是指用户通过Web浏览器实现对学科网络信息资源的HTML、XML网页进行浏览(面向用户个人),或者采用专门的关联数据浏览器,如:Marble等,通过RDF Links在数据源之间进行浏览(面向机器);采用一般的自然语言或者专门为RDF开发的SPARQL查询语言对基于关联数据的学科网络信息进行查询。

       3.3 学科网络信息关联数据发布工作流程(如图2)

      

       图2 学科网络信息关联数据发布工作流程

       (1)选择需要发布的学科网络信息实体。学科网络信息实体有很多,一般来说,一个学科门户网站主要有学科论文信息、学科机构网站信息、学科会议信息、学科社交网络信息等,学科网络信息关联数据发布的第一步是选择需要发布的学科网络信息实体。

       (2)选择或者设计描述学科网络信息实体元素的元数据词表。学科网络信息实体的描述通常用元数据词表来进行描述,这些元数据词表有现成的可以选择,有时候可能还需要自己设计元数据词表。常用的元数据词表主要有:①描述学科论文信息实体的元数据集可以选择Dublin-Core、PRISM工业标准元数据出版需求)等;②描述学科人员与学科地址信息的元数据集可以选择规范定义电子名片(Specification Defines Electronic Business Card,vCard)和FOAF词表(FOAF是一种XML/RDF词汇表,它以计算机可读的形式描述通常可能放在主Web页面上的个人信息之类的信息)等;③描述学科教育资源的元数据集可以选择学习对象元数据(LOM)等;④描述学科网络信息中的图像、音频、视频等多媒体信息可以选择广播诠释数据字典(PBCore)、多媒体内容描述接口7(MPEG-7)以及音频文件元数据ID3V2等。[22]

       (3)定义各学科网络信息实体元素之间的关联关系。不同的学科网络信息实体有不同的实体元素,实体元素之间的关联关系表示也不同。选择学科论文信息实体,绘制学科论文信息实体元素之间的关联关系示意图(如图3所示)。其中,选用DC元数据集中的“超资源集合(dcterms:isPartOf)”标签描述期刊与学科论文之间的关联关系,选用“收集者(dc:creator)”标签描述学科论文与作者之间的关联关系;选用vCard的ORG、ADR、EMAIL三个元素分别描述作者与学科机构、作者与电子邮箱以及学科机构与地址之间的关联关系。

      

       图3 学科论文信息实体元素之间的关联关系示意图

       (4)指定每个学科网络信息实体元素的URI。学科网络信息实体元素的URI通常由三部分组成:基地址(BaseURI)+实体类型名称(EntityTypeName)+实体编号(EntityID)。基地址为学科网络信息聚合平台的网址,实体类型名称为学科论文(Paper)、学科机构网站(Organization)、学科会议(Symposium)等,实体编号为该类资源的编号。

       (5)设计每个学科网络信息实体的RDF。利用RDF描述工具对每个学科网络信息实体元数据的每个元素进行描述,形成学科网络信息实体的RDF图。

       (6)设计学科网络信息实体之间的RDF Links。根据类似图3的RDF关联关系,添加学科网络信息实体之间的RDF Links。

       (7)学科网络信息实体关联数据发布。选用D2R Server等关联数据发布工具对学科网络信息实体关联数据进行发布,开放每一个学科网络信息实体的访问接口。

       (8)开放学科网络信息实体关联数据查询接口。开放HTML、XML学科网络信息查询接口或者是SPARQL查询接口,以便用户使用普通Web浏览器或者专门的关联数据浏览器访问学科网络信息。

       4 “框架”实施需要注意的问题

       4.1 成立学科网络信息关联数据管理中心

       基于关联数据的学科网络信息深度聚合是一项复杂的、系统的工程,涉及学科网络信息分类体系的制定、描述学科网络信息实体元数据标准的选择或设计以及学科网络信息关联数据质量评估问题等。这需要有一个专门的管理机构来对这些工作进行组织、管理、协调,应该成立一个类似于学科网络信息关联数据管理中心的机构来负责学科网络信息关联数据发布、管理与维护的工作。就我国而言,这个机构可以由目前负责我国学科网络信息导航工作的CALIS来兼任。CALIS是我国文献信息保障中心,经过这些年的发展,已经形成了具有很多分中心的等级体系结构,具备管理机构的基本要求;另外,负责MARC格式的数据发布,有非常好的基础,有利于学科网络信息分类体系和描述学科网络信息实体元数据标准的制定、实施与维护。

       4.2 发布中文编码体系词表的关联数据

       虽然目前有不少以关联数据形式发布的分类体系、主题词表资源,如:杜威十进制分类法DDC、美国国会图书馆主题词表LCSH、日本国立国会图书馆主题词表NDLSH等,但是对中文资源而言,可以直接使用的关联数据形式的词表还非常少。需要由专门的管理机构使用简单知识组织系统(SKOS)将中文的编码体系词表,如:中国图书馆分类法、汉语主题词表等发布成规范的Web可用的关联数据格式,以便在描述学科网络信息资源时有可以直接选择的规范词汇,从而保障学科网络信息关联数据发布数据的质量与效率。

       4.3 遵守关联数据查询的内容协商机制

       内容协商机制是指当需要确定应该向HTTP客户端发送什么内容时,Web服务器会去检查客户端发来的头信息中“Accept”代码,进而决定需要发送的内容偏好格式,如:当“Accept”为“text/html或application/xhtml+xml”时,向HTTP客户端发送普通的HTML格式的内容,当“Accept”为“application/rdf+xml”时,向HTTP客户端发送RDF格式的内容。[23]基于关联数据的学科网络信息深度聚合框架应该遵守内容协商机制为用户提供个性化的查询内容返回服务。

       4.4 注意关联数据访问控制问题

       关联数据最终目标是将目前Web上的各种数据转化成为一个相互关联的全球数据库,这给Web服务带来了极大的便利,但也将带来很多安全性问题。目前,关联数据在用户身份认证和数据访问控制方面尚没有推荐使用的标准,数据访问过程中的用户身份认证和访问权限的控制需要由Web服务器实现,在一定程度上限制了异构数据库系统的互操作性。因而,基于关联数据的学科网络信息深度聚合框架的应用也需要注意数据访问控制的问题。关联数据不同级别、不同层次的访问权限控制问题,用户的身份认证问题等都是关联数据标准化有待进一步研究的领域。

       4.5 注意关联数据更新的同步问题

       学科网络信息环境中的各关联数据发布主体遇到的一个常见的问题便是关联数据的更新问题,比如:往关联数据中增加新实体、修改现有实体之间的RDF Links等。在操作过程中,可能会涉及对原关联数据链接的修改或者删除,其他关联到这些关联数据的实体,由于没有及时更新这些链接,用户在访问这些实体时会遇到死链接,因此,需要寻找一种有效的机制,保证关联数据同步更新,提高关联数据的质量,减少客户端HTTP访问的无效请求,从而提高用户使用关联数据的满意度。

       5 结语

       关联数据是一个可以与万维网相媲美的伟大发明,它的出现使互联网从“文件互联”时代走向“数据互联”,互联网将会变得更加聪明。深入分析可知,学科网络信息深度聚合有两个基本要求:有一个可以用来表示来自不同Web信息源的各种学科网络信息数据的模型和有一些可以将不同Web信息源的各种学科网络信息数据转换成统一的格式工具。关联数据可以视为一种理念,也可以视为一种技术或方法,刚好具备了学科网络信息深度聚合的基本要求。而利用关联数据的原理、技术、方法设计的,包括源数据、数据预处理、关联数据生成以及应用服务在内的四层结构的学科网络信息深度聚合框架和学科网络信息关联数据发布工作流程,在“聚合框架”实施中还应该注意:如成立学科网络信息关联数据管理中心,发布中文编码体系词表的关联数据,遵守关联数据查询的内容协商机制,注意关联数据访问控制问题以及注意关联数据更新的同步问题等。

       由于受到实践条件的限制,提出的仅仅是一个理论层面的“框架”,虽然努力保障其“信度”,但是其“效度”的检验有待后续研究。如上所述,关联数据尚处于发展过程中,一些方面的标准尚不够成熟,如:关联数据访问控制标准等,这些问题需要在关联数据的实践中加以注意。

       (来稿时间:2014年12月)

标签:;  ;  ;  ;  ;  ;  

基于关联数据的学科网络信息深度聚合框架的构建_元数据论文
下载Doc文档

猜你喜欢