基于关联数据的数字资源语义聚合策略_数字图书馆论文

基于关联数据的数字资源语义聚合策略,本文主要内容关键词为:语义论文,策略论文,数字论文,数据论文,资源论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 引言

      近年来,关联数据的发展和广泛应用使信息资源环境逐步朝着“数据网络”的方向发展[1]。这一网络资源环境为人工智能、资源聚合、知识发现等领域的应用提供巨大的支持。关联数据采用三元组的方式对不同形态数字资源进行解析,同时协同本体进行深层次的数字资源语义描述。它不仅揭示数字资源内部存在的错综复杂的关联,完成数字资源之间的语义互操作,而且在资源聚合和知识组织中增添推理功能,促进潜在新链接新知识的发现[2]。利用关联数据的潜力和优势,针对目前数字资源深度开发与利用所存在的数字资源孤岛和超载问题[3],提出基于关联数据的数字资源聚合模式,研究其关联方案和关联策略,可以加深对数字资源聚合理论的认知和理解,促进数字资源聚合的技术和应用向纵深方向发展,加快实现数字资源的语义互联和深度聚合。

      2 国内外研究进展

      关联数据建立在语义网技术(HTTP、URI、RDF和Ontology)基础之上,以四个基本原则对语义网技术做了进一步的规范和限定,完成资源的语义描述,为资源间的语义互联提供新思路,同时相比其他语义互联方式,也更加便捷。而对其研究和应用的重点也从2007年W3C启动关联开放数据项目(Linking Open Data Project,LOD)以来不断深入,由原来集中于基础理论、数据的发布、应用工具的优化等研究逐步转变为关联数据的应用研究,沿着资源整合→语义融合→知识链和知识库构建→知识发现这一知识组织路径,研究不断拓展和深入。而此时,图书情报界正进行数字资源聚合的研究,其研究范式也大多集中在聚合维度、聚合层次、聚合深度等方面。国内外研究者发现,关联数据的结构、组织方式在数字资源聚合的多领域、多学科、多维度、多层次融合方面呈现出明显的应用价值。

      2.1 覆盖不同聚合维度

      关联数据的衍射机制既能实现学科专业领域内的知识关联又能完成不同学科之间的知识关联,并且利用关联数据实现数字资源聚合,有利于数字资源的跨库和跨领域组织[4],覆盖不同聚合维度。伦敦大学Raimond等研究自动互联音乐相关数据集的互联算法[5]。武汉大学信息资源研究中心何超等[6]将Web链接挖掘技术融入馆藏数字资源聚合与可视化展示之中,构建了基于Web链接挖掘的馆藏资源语义聚合与可视化展示模型。利用馆藏资源之间的语义关联信息及其链接模式,可以有效地实现馆藏资源自动化、智能化地深度聚合与动态展示,重组和优化馆藏资源组织和聚合的业务流程,提高馆藏资源的利用水平和效率。胡志明科技大学的Nguyen、Le和日本国立情报学研究所的Ichise展示了SLINT+互联系统如何发现和链接不同领域的数字资源[7]。Franc等[8]在关联数据的帮助下,将清晰可靠、容易访问、来自多个信息源的相关信息进行聚合,为用户提供在一个特定的地理区域更广泛的、感兴趣的活动事件并以形式列表或地图呈现给用户。

      2.2 贯穿不同聚合层次

      从概念聚类到概念关联再到知识关联,表明数字资源的语义化从组织语义化向内容语义化的递进与融合。数字信息资源从聚合的层次来看,将从概念类聚到概念广度关联再到挖掘概念的深度语义,基于领域本体和关联数据的数字资源语义化是内容语义化的主要方法。Raza等[9]基于关联数据可视化组织数据,根据概念聚合框架提出了CAF-SIAL系统。该系统为用户提供语义网接口,并帮助用户从关联数据中发现潜在的资源。Song等[10]开发了一个名为语义信息的关联数据表示层(SIL),以促进异构系统互操作,解决不同系统之间互操作概念上的异质性。SIL建设过程是基于关联数据工程,包括从关联数据库(RDB)提取本体、本体浓缩和本体对齐,映射路径保持SIL和数据源、查询实现、用户界面、用户检索数据之间的联系,并与最终用户交互。Wang等[11]提出一个统一的匹配方法来从本体和关联开放数据集中寻找等效实体。由于网络的开放和分布式特性,模式和发布数据集的实例可能存在异构问题。在这种背景下,从不同的数据集实体的匹配是来自不同数据源信息的重要集成。司徒俊峰等[12]提出了利用关联数据构建知识链接的思路与应用框架,发挥关联数据自身的语义属性与开放特征,从而实现知识关联。Torre-Bastida等[13]基于关联数据提出一个知识库案例,创建了一个现有的和潜在的客户知识库,利用社会和相关公开的或基于任何组织给定的数据,可为决策的支持推断出有价值的信息,该方案的设计和开发是基于关联数据和语义技术的协同作用。

      2.3 延伸不同聚合深度

      国内外学者对聚合深度进行不同分类,认为基于关联数据可以进行数据层的资源聚合(浅层关联数据)和语义层的资源聚合(深层关联数据)[14],前者旨在开放空间里资源的链接,后者注重通过语义链接来实现系统内、系统间、系统外的数字资源语义互联,另外有学者提出了中层关联数据用于数字图书馆的资源聚合[15]。Bikakis等[16]开发了一个层次关联数据的视觉探索和分析框架——rdf:SynopsViz。对于非专业用户,数据网络实现了大量数据的可用性。Banek等[17]应用关联数据解决数据仓库模式,提出了一种新的语义相似度技术。赵蓉英等[18]将计量学中共词分析法引入馆藏数字资源语义聚合研究中,探讨了共词分析在馆藏资源聚合中的应用。实证分析结果表明,共词分析作为一种内容分析法能够揭示隐含的关联数据资源的关联关系,解决数据源的异构性和离散性,实现对数据的集成。司莉等[19]提出了一个基于关联数据的具有四个层次的书目数据语义化框架,旨在实现书目数据语义化和关联化。

      与其他的资源聚合方式(社会网络分析、文献计量、分总分类法、主题词表、本体等)相比,基于关联数据的资源聚合有着其独特的优势,被视为语义网环境下实现资源聚合的有效途径[20]。它不仅通过将资源颗粒化的方式有效地解决数据的异构问题,而且关联数据和本体技术常常结合在一起,用于描述数据的语义;同时,由RDF描述的不同数字资源可以建立起特定的语义关联[21],其立足海量数据背后所隐藏的客观实体乃至抽象概念之间丰富的关联关系,依托RDF三元组链接机制和灵活的语义链接机制实现数据资源语义互联、互通与融合,这些特性使信息资源的多维度聚合更加简便易行。

      目前,利用关联数据实现数据融合是资源深度聚合的主要研究方向之一[22]。有不少学者研究了基于关联数据的数据资源集成、聚合的相关细节,如聚合的框架、模型、模式[21,23-29],语义融合的算法[30][31],语义整合方法[32],自动关联方法[33],关联创建策略[32],自动互联机制[34]等方面,但对于利用关联数据进行语义互联的策略,尤其是在聚合策略等宏观理论上的研究稍显不足。

      3 基于关联数据的数字资源语义聚合策略

      3.1 系统内外资源的合纵连横

      关联数据使用URI标识事物,使事物可以作为独立的个体被处理,成为资源聚合的节点,节点间的相互链接借助RDF来完成,RDF结构中的资源及其间的相互关系组成了一张相互交错的三维图谱,如图1所示。RDF图谱由众多节点和有向弧组成,每一个节点代表一个数据,每条有向弧代表两个数据间的相互关系。节点就像细胞一样,是最基本的结构单元,有向弧类似于结缔组织,起到连接的作用,节点和有向弧无限延伸下去就组成了语义网。从某一节点出发,顺着链接发现下一个或多个互联的节点,继续扩展,将会发现更多的资源,这个过程和波的衍射过程是一样的。这种连接适用范围广,连接的内容可以是同一数据集的,也可以来自不同的数据集;可以是相同结构的,也可以是异构的。正是关联数据该方面的特性,使得关联数据既能聚合同一学科的信息资源,也能聚合不同学科的信息资源;既能聚合系统内资源,也能聚合系统外资源;既能实现跨库聚合,也能实现跨组织聚合。因此,应用关联数据进行数字图书馆资源聚合时,要首先制定好聚合的边界,学科内、系统内完成紧密的强聚合,建立多重富有语义和逻辑关系表达的RDF链,尤其是谓词个数,并缩短关联数据间距,提高内部链接的效率和准确率。另一方面,数字图书馆除了聚合不同馆藏资源和所购买的数据库之外,还需要聚合网上开放的学术平台,系统内外资源将通过谓词和URI的“owl:sameAs”关系进行链接,系统内与系统外的链接类似信息系统建立的接口,完成URI复用的同时完成系统间的资源聚合以及关联的无缝性。

      

      3.2 多粒度资源聚合的灵动易行

      基于关联数据建立数字图书馆资源组织的多粒度树,遵循所构建的多粒度树进行多层次资源聚合。第一级是数据库层,数字图书馆资源建设一般包括馆藏数据库、机构数据库、所购买商业数据库以及网络开放获取资源,将每一种数据库作为一个系统进行聚合,系统之间通过RDF进行链接;第二级为资源层,数据库中包括的资源为图书、期刊、学位论文、专利文献等,网络资源与数据库不同的主要是各种虚拟社区资源;第三级为资源描述层,对各种资源进行描述,如图书包括外部特征和内容特征的描述,外部特征可借助于图书馆的资料元数据,如MARC数据,内容特征包括图书馆章节目录、主题,期刊的外部特征由MARC、SKOS数据进行描述,内容特征为期刊中包含的论文;第四级是知识层,对资源的内容特征从数据链接到组织语义化再到内容语义化,这级主要为知识点,包括论文题目、摘要等;第五级为概念层,这层对知识点中的术语进行抽取,借助于叙词表,开源本体再进行概念映射,实现概念聚类。通过这五级粒度划分,数字图书馆可根据实际条件,选择不同粒度建立RDF三元组,实现不同层次的资源聚合。五级资源聚合粒度树如图2所示,另外该粒度树能够充分发挥传统知识组织体系的作用,使老树长青。

      

      3.3 资源聚合知识化的层级递进

      关联数据是应语义网的应用而产生的,是网络上发布语义数据并实现数据间的语义互联的重要工作,同时关联数据经常协同本体完成资源语义描述和语义互操作,因此基于关联数据的数字图书馆资源聚合要始终关注资源聚合的语义化和知识化。关联数据用URI唯一标识符标识每一个实体和抽象概念,根据五组资源聚合粒度树,该点可以细粒度到一种期刊、期刊中的学术论文、文章题名、主题、关键词、概念;关联数据有成熟的RDF链接机制,RDF三元组中的主和宾都是URI,如果宾语中的URI是一简单的值,即某一数据项,或者是同一数据集中已经作为主语被描述了的URI,那么这个RDF形成一个知识说明、知识构成或知识链接,完成连点(知识单元、知识对象)成线(知识说明、知识链接)的过程;而如果该三元组宾语中的URI是另外一个数据集中的某一个三元组中的URI,仅仅通过这种简单的主谓宾链接机制,就把原来的同一数据集内的知识链接扩展到两个数据集之间的知识关联,实现由线(知识链接)及面(知识关联)的多维扩展。当然多个数据集之间URI通过不同的同一性链接、相关性链接和词汇性链接[35]或者等同链接、关系链接与词汇性链接[36],将原来各个知识关联立体化为知识网络。基于关联数据的数字图书馆资源聚合通过简单易行的构建RDF三元组完成由点(知识单元、知识对象)到线(知识链接)、由线到面(知识关联)、由面到体的立体化知识网络。选择该方式进行数字资源聚合可以选取合适的聚合深度,采用分步实施、层层递进、步步为营的方式,使原来必须依靠高精尖人才和技术才能实现资源聚合成为一种日常的事务性工作。

      3.4 资源聚合体系的动态维护

      基于关联数据的数字图书馆资源聚合由于关联数据RDF链接的动态性,更需要专门的维护机制保证聚合的正确性、相容性和一致性。(1)关联数据创建和发布速度惊人,现存几百上千亿的三元组和几亿的RDF链接,使得资源聚合中的知识对象本身处于频繁变动之中;(2)对于知识对象的描述可能通过owl:sameAs、owl:sameAlso、FOAF:knowAs等谓词不断衍射到其他数据集中,构成一个知识点不同维度的新说明,产生新的知识网络;(3)由于知识对象的不断产生、修改、被描述和删除,需要及时创建新的链接、删除死链接,甚至修改谓词改变链接的语义。这些情况的发生必然影响数字图书馆资源聚合的完整性,需要建立相应的常态化维护制度,而聚合的维护重点在于RDF链接的维护。对于关联链接的维护,W3C兴趣小组认为动态性研究包含四个主要部分,即:数据集动态性词汇(Dataset dynamics vocabulary)、变动描述词汇(Change description vocabulary)、变动通知协议(Change notification protocol)和应用(Applications)[37]。关联链接维护的技术机制与流程包括:关联变动监测、关联变动描述、关联变动通知以及数据源端同步[38](如图3所示),该机制集监测、描述、通知和同步为一体,对RDF链接进行动态维护,尤其在同步维护中,仅需要通过修改三元组完成资源聚合的修改,而且可根据应用的不同,可粗可细,可深可浅。

      4 关联数据在资源聚合上的优势

      关联数据利用RDF技术将数字资源分解为独立的、具有语义关系的数据节点,从而使得数据的处理和利用更加灵活、方便。RDF化的资源具有无数个可互联的节点,通过RDF谓语,资源间的语义关系形象化地被表达,同时语义互联关系也可以简单、灵活地被建立。与其他的资源聚合模式[39]相比,在关联维度、关联阶度、关联粒度方面具有独特的优势。

      4.1 关联强度

      资源聚合可通过RDF的直接链接和间接链接完成。最直接相关的资源间,关联强度最大,即相关性最大,可直接建立语义链接。如,书名和作者之间,可直接通过RDF谓词rdf:author of,来展示固有的属性关系,并建立链接。不同领域或不同主题的资源间,不能直接通过RDF谓词建立链接,关联强度比较弱,此时可以利用一个或多个与这两个互联资源直接相关的中间资源,间接实现语义链接和知识关联,这样建立的语义关系比较弱,但在数据挖掘中有巨大的潜在价值。

      4.2 关联维度

      关联维度即关联数据互联的资源的结构、类型和来源。关联数据能够从多个维度来实现数字资源的资源聚合。关联维度涉及资源类型、领域、机构、系统等方面。关联数据可以在数据描述中提供尽可能多的相关资源的URI标识,这样导致不同领域、不同机构、不同系统均对现实世界中对同一数据给出相应的URI标识,而不同领域、不同机构、不同系统再通过RDF对数据对象给予不同维度的描述,即关联数据通过RDF化,建立语义链接关系的同时也建立起不同数据集之间的关联。关联数据描述的资源包括两类:信息资源和非信息资源。关联数据不但可以建立同一领域中资源间的语义链接,同时能够借助多领域共同认可的公理、概念等,实现不同领域资源的互联,包括生命科学、政府、出版物、地理、社交网络等m个维度。关联数据互联的资源可能是由不同机构(n个维度)维护的各种类型的数据,也可能是同一个机构中不同系统(p个维度)里的尚未实现互操作的数据。所以关联数据可以从w个维度来语义描述和互联相同或不同领域中、机构内或机构间、相同系统或不同系统中、各种结构类型的数字资源。由此,仅通过RDF+HTTP URI如此简单框架即实现资源的多维度关联,进而实现多维度资源聚合,并在此基础上进行知识发现。

      4.3 关联阶度

      关联阶度指关联数据可以聚合不同关联强度的数字资源。资源间的语义关系分为直接关系和间接关系,相应地,语义链接也分为直接链接和间接链接。间接的语义关系又分为不同的相关层次,这也将资源间的语义链接分为不同的阶度,如图3所示。关联阶度表达了资源间相关性的大小,关联阶度最低的资源间具有某种直接的关联关系,可以通过RDF谓词直接建立链接。关联阶度较高的资源间相关性比较弱,通过多个RDF谓词互联在一起,但这种高阶度链接可能隐含着直接的语义关系,所以高阶度的语义链接在知识发现中更具有研究价值。关联数据的关联阶度使得资源聚合的范围更加广泛,网络空间中的所有资源都可以通过某种直接的或间接的语义关系相互链接在一起。

      

      4.4 关联粒度

      关联粒度是指关联数据细粒度地组织和互联数字资源。关联数据通过RDF使资源“碎片化”,即无论资源最初以什么样的结构和类型存在,最终都将转化为主、谓、宾三元组。一个三元组构成语义互联最小的结构单元,主语和宾语通过多个谓语与其他数据对象链接。这些三元组不是松散的,而是通过不同类型的属性关系紧密连接在一起。资源间的互联方式由无链接、片段链接转化为数据节点式链接,链接种类和数量大幅增加,语义关系表达的更明确,数据的处理和利用变得更加灵活。在关联数据网络中,任何一个数据节点都可以作为资源聚合的起点,与其他相关资源建立链接,同时充当资源链接的中间节点,将具有间接语义关联的资源联系起来,将隐性关系显性化。

      5 结语

      与社会网络分析、文献计量、分总分类法等其他资源聚合方式相比,基于关联数据的资源语义聚合是实现当下资源聚合最有效的途径。由RDF描述的不同数字资源特征,在不同数据资源结构聚合方面,它通过将资源颗粒化的方式有效地解决数据的异构问题,而且关联数据和本体技术结合在一起,能够细粒度地组织和聚合不同结构、类型、来源和关联强度的数字资源。在数字资源内容聚合方面,实现语义互联关系的构建、发现及推理,提出基于关联数据的语义互联策略,可以层层深化数字信息资源聚合的层次,从概念类聚到概念广度关联再到挖掘概念的深度语义。此外,数据节点又作为中间节点与其他相关资源建立链接,揭示资源之间的隐性联系。

      然而,基于关联数据的语义聚合在未来的发展和应用中也面临着挑战:本体构建的科学性、可行性、适用性以及本体语义表达能力的提高;应用层中,建立高效、可靠的用户交互模式,提高用户交互体验;丰富的关联数据导致的搜索迷航问题;数字资源语义聚合进一步可视化展示涉及信息检索与整合、语义分析、人工智能等技术需进一步的研究和深化等问题。下一步研究工作将层层深入解决关联数据语义聚合应用中的问题,更好地满足用户对知识信息的深层次需求,增进知识理解,促进知识扩散,推进知识创新。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于关联数据的数字资源语义聚合策略_数字图书馆论文
下载Doc文档

猜你喜欢