信息可视化与知识组织_信息可视化论文

信息可视化与知识组织,本文主要内容关键词为:可视论文,化与论文,组织论文,知识论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

收修改稿日期:2006-04-20

【分类号】C931.6

1 引言

在“信息爆炸”的今天,“信息迷航”问题日益严重。针对这一问题,学术界提出了不同的理论和方法,其中包括信息可视化和知识组织。

信息可视化不仅给信息以形象,为我们提供直观的结果,方便我们观察;而且能够揭示信息之间的关联,挖掘隐含的模式和结构,让我们有效地利用信息、发现知识[1-4]。目前,信息可视化系统主要采用树(Trees)、图(Graphs)、地图(Maps)及虚拟现实(Virtual Reality)等隐喻方式完成信息及其结构的可视化呈现[1,7]。

1998年,Web的发明者Tim Berners-Lee提出了语义Web的概念,试图在当前的Web上加上清楚的语义及领域知识解决当前Web应用中的问题[5,6]。其中,领域知识的组织与描述是关键问题,学术界提出的知识组织工具包括主题地图(Topic map)以及本体(描述语言包括RDF、OWL)。主题地图由三部分构成:主题(Topic),关联(Association),呈现(Occurrence)。主题通过关联相联系,通过呈现指向相应的信息资源[7]。本体起源于哲学范畴,在信息科学领域,本体被定义为一种明确的共享概念化的形式说明[8]。

然而,一个主题可能包含许多维度,例如,名称、类型、呈现以及角色等;而且主题地图可能含有成千上万个主题及关联。因此,主题地图相当复杂。同样,本体所包含的术语数量也相当大。为了有效地表达、利用主题地图与本体,学者们把信息可视化领域的相关方法、技术应用到这些研究领域。

2 主题地图可视化

2.1 主题地图可视化模型

Auillans提出了一个基于图论的主题地图处理及可视化的形式化模型[9]。该模型应用了图论中的图、子图、树、路径、环、距离、超图(Hypergraph)、二部图(Bipartite Graph)等术语来描述主题地图中的相关概念。其中,超图H被定义为一个五元组H=(V,λv,E,λ[,E],I),其中,V是H的顶点集合,E是H的边集合,I是H的关联集合,λv是V到I所有子集的映射,是E到I所有子集的映射。主题地图Tm定义为(H,θ),其中,H=(T,λ[,T],A,λ[,A],I)是Tm的同质超图,θ是Tm的所有主题(T)到Tm的所有元素(T,A,I)的映射。

主题地图自身的相关特征影响可视化形式的选择以及图形的绘制。首先,要考虑主题地图的尺寸大小,即图的顶点和边的数量。当没有缩放机制时,一个包含数千个顶点的主题地图对用户来说,意义并不大。同时,主题地图的拓扑结构也相当重要。因此,主题地图的可视化可以根据尺寸大小分为两类:小主题地图可视化(顶点数量小于100个)以及大主题地图可视化[10]。

小主题地图可视化根据拓扑属性可以分为树形可视化、等级可视化以及图可视化。树结构容易实现,而且满足实时处理。我们可以通过子图抽取算法从图中获取树结构,例如家族关系。一些拓扑结构虽然不是树状,但是具有较好的等级关系,例如顶点问路径的抽取。图1给出了一个例子,该图显示了顶点01、07之间距离为4以内的所有路径。两个顶点分别在图形的上下两端,中间显示了所有路径。图可视化根据主题地图可以描述为二部图的特性选择相应工具来实现。

图1 d4(01,07)路径等级可视化

大主题地图可视化有两种策略:简单绘制和减小尺寸。简单绘制需要提供缩放机制以使用户掌握细节信息,这一策略的最大优点是提供了图的总览。减小尺寸通过聚类算法对原图进行有限划分,生成尺寸合适的子图进而可视化。

2.2 主题地图可视化要求

Le Grand和Soto对主题地图可视化开展了一系列研究[9,11-13],提出了主题地图可视化的基本要求,并结合现有可视化技术对其进行了验证。主题地图可视化的目的是帮助用户快速定位相关信息,轻松识别相关结构。因此,主题地图可视化包括两类要求:表现要求(Representation Requirements)和导航要求(Navigation Requirements)。好的表现形式帮助用户定位感兴趣的位置,有效的导航机制帮助用户快速查看所需信息。

表现机制不仅给用户提供主题地图的总览,而且提供不同细节层次的多比例缩放机制,用户可以从总体上把握主题地图,同时可以聚焦主题地图的各个层次细节。总览提供了主题地图的主要特征,用户一眼可以发现主题地图的主要特性。用户首先要了解主题地图有哪些概念及总体特征。这些信息应体现在表现机制上以帮助用户区分不同的主题地图。可视化空间中主题的位置应体现主题间的语义距离。主题地图是多维知识库,主题、关联、呈现具有许多属性,这些也应体现在表现机制上。最后,可视化表现形式应动态满足用户的实时需求。

有效的导航机制允许用户快速探索主题地图、查找相关信息。系统提供给用户的可视化空间是信息空间,而用户导航所形成的空间是用户的认知空间。不同用户的认知空间并不一致,导航机制的目的便是帮助用户快速、准确地建立自己的认知空间,吸收、理解所需信息。另外,对于初学者,他们可能并不知道从何处开始探索,因此,导航机制应提供向导,协助用户探索。

Le Grand和Soto比较了现有的主题地图可视化工具,包括Empolis的K42[14]、TM4J(Topic Maps for Java)[15]、Mondeca Topic Navigator[16]、Ontopia Omnigator[17] 以及UNIVIT(Universal Interactive Visualization Tool)[11]。这里,介绍一下Le Grand和Soto开发的基于虚拟现实技术的主题地图可视化工具[13],该工具较好地满足了上述两个要求,如图2所示。不同的建筑描述不同主题,主题的坐标由语义距离确定。用户能够自由导航或者跟随一个向导。主题的属性由相应建筑的特征来描述,如名称、颜色、高度、宽度以及深度等。关联和呈现显示在屏幕下面的两个窗口里。同时,还提供了一个二维地图给用户提供导航,虚拟现实和二维地图始终保持一致。

图2 基于虚拟现实的主题地图可视化

2.3 TM4L

TM4L[18] 是美国温斯顿塞伦州立大学计算机科学系开发的电子学习环境,教学资源基于主题地图组织和管理。教师使用可视化的环境编辑、开发、管理和维护教学资源,学生使用可视化的基于概念的检索工具获取相关资源。TM4L的建模语言基于主题地图的相关标准,可视化环境基于开源项目TM4J的TMNav桌面应用[19]。TMNav是Java/Swing的一个桌面应用,旨在提供主题地图编辑和浏览的直观、图形化界面。TM4L环境由TM4L Editor、TM4L Viewer两部分组成。TM4L是免费的,可以从http://compsci.wssu.edu/iis/nsdl/download.html下载。

TM4L Editor界面以树形来呈现,屏幕左边的面板显示树,右边的面板显示当前选择的节点的属性。树的节点包括主题及其关联,并提供不同细节层次的主题层次。主题的属性、资源以及关联显示在不同的面板里。

TM4L Viewer是浏览、检索学习资源的图形化界面,并提供了图形视图(Graph View)、文本视图(Text View)和树形视图(Tree View)3种视图以满足不同的探索形式[20],如图3所示。可视化界面在探索的每一阶段仅显示当前所选择的主题以及与其密切相关的主题,同时,在图形视图中也没有主题的相关资源。因此,图形视图仅描述了相关主题及其关联。TM4L Viewer还提供了可视化操作,用户可以根据需要移动图形,重新设置图形的大小甚至改变图形的拓扑结构。另外,对于当前选择的可视化对象高亮度显示,以呈现用户当前的探索模式。

图3 TM4L Viewer

3 本体可视化

开源本体构建工具Protégé提供了许多可视化插件,帮助用户构建本体、查看本体以及检查概念一致性。

3.1 Protégé可视化插件

OntoViz[21] 基于成熟图形可视化软件GraphViz[22] 实现。节点描述类和实例,有些弧描述类之间的关系,节点和有向弧的标识及位置是以最小化重叠为原则,而不是图形的尺寸。该插件不能提供本体的总览,因此图形元素很容易变得模糊。

Jambalaya[23] 基于SHriMP(Simple Hierarchical Multi-Perspective)实现,SHriMP是独立于领域的可视化技术,用以增强人们在复杂信息空间中浏览、探索信息的能力。动态视图方便用户在不同的细节层次浏览类及其关系,但本体相当复杂时,标识容易重叠,且难以理解类及实例间的关系。

TGViz[24] 类似于OntoViz以图的方式可视化本体,但节点和弧的位置计算采用了TouchGraph[25] 库中的Spring算法。这一方法的最大优点是动态分布节点和弧。但细节层次与缩放比例难以协调,图形常常相当拥挤。

ezOWL[26] 与前面的插件不同,提供了可视化的本体编辑界面,其思想来源于UML,以图形化的方式构建本体。使用ezOWL,对OWL不熟悉的用户也可以轻松构建本体。但这一方法也难以表达本体的总体情况。

3.2 OntoSphere

上述插件都是在二维空间中可视化本体,OntoSphere则实现了在三维空间中可视化本体,正在优化和修改以成为Protégé的可视化插件[27]。OntoSphere基于Java 3D API实现了本体概念和关系的三维交互表达,本体装载和管理基于Jena语义框架。

OntoSphere提供了三个情景模式:根聚焦情景(Root-Focus Scene)、树聚焦情景(TreeFocus Scene)以及概念聚焦情景(ConceptFocus Scene)。根聚焦情景的目的在于告诉用户某个本体是关于什么方面的,让用户从总体上认识相应本体。根聚焦情景在一个球体上显示根概念集合,每个概念用小的球体表示,原子概念用小的蓝色球体表示,其它概念用白色球体表示,球的大小由这一概念所包含的子概念数量决定。树聚焦情景用来描述一个概念的子树,显示类之间的层次关系及其它语义关系,系统一次仅显示3个层次的类,但系统可以根据用户操作自动进行重建。概念聚焦情景描述一个概念的所有关联信息:子概念、父概念、前辈概念、后辈概念以及语义关系。直接关系使用不透明颜色且距离概念近,继承关系则使用透明颜色且距离较远。概念聚焦情景一般用来检查概念一致性。

为了验证OntoSphere能否有效处理复杂本体,开发者使用它来可视化SUMO(Suggested Upper Merged Ontology)通用本体。SUMO包含大约2000个概念,6000多条公理。装载整个SUMO本体只需3.5秒,并且能够满足实时浏览。图4显示了“Process”根概念的“Internal Change”分支的可视化情况。

图4 OntoSphere可视化SUMO

4 结语

信息可视化在人和信息之间架起了一座桥梁,知识组织实现了知识单元的有序化和知识关联的网络化。然而,随着知识量的增加,如何呈现知识成了信息利用的瓶颈。因此,把信息可视化的相关方法和技术应用到知识组织中将是必然的选择。

标签:;  ;  

信息可视化与知识组织_信息可视化论文
下载Doc文档

猜你喜欢