评价信息可视化技术的指标研究,本文主要内容关键词为:指标论文,评价论文,技术论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G350.7 [文献标识码]A [文章编号]1003-2797(2007)04-0080-05
信息可视化(Information visualization,InfoVis)是情报学领域一个较新的研究热点。在过去的20多年里,信息可视化技术的不断发展,它的应用领域也在不断深入和扩展。人们研究开发了大量形式各异的、有着不同目的的信息可视化技术并在相应的系统中加以实现。随着不同应用问题的具体要求,信息可视化的具体技术也开始突出个性,一些专门表现结构,而另一些技术主要处理高维数据。因此如何判断一个具体技术的好坏以及它的适用环境显得越来越突出。从信息可视化系统目前发展情况来看,无论在国外还是国内,都还处于很强的实验阶段。出现这种情况的原因有许多,其中之一就是评价指标体系的滞后和不完善,因此加强信息可视化系统评价方法的研究,对提高信息可视化技术的开发、加速其走向实用具有重要意义。本文从信息可视化的目的出发,在分析大量信息可视化技术的基础上,给出一个有效的、可操作的信息可视化技术评价标准体系。该指标体系融合了信息可视化的本质特征,并将其从对象、认知、视觉表现和交互能力几个方面表现出来。
1 早期研究
所谓评价,一般是指按照明确目标测定对象的属性,并把它变成主观效用(满足主体要求的程度)的行为,即明确价值的过程[1]。评价必须有目的,但评价本身并不是目的,评价的最终目标是为了决策。信息可视化技术评价的目的是为了帮助人们选出适用的具体技术。这与图形、图像处理的评价有一些相同点,但比大多数图形、图像系统的评价都要难。这是因为我们很难判断可视化软件是否帮助了人们在理解信息时容易一些。信息可视化的本质是从抽象数据到可视结构的映射。从专家角度来说,图像质量的判断常由计算机图形、图像专家通过视觉观察来完成;从目前对信息可视化技术的报道来看,专家们常常只研究实验情形、可以进行那些分析工作,而具有指标体系的综合评价工作则比较少。
从查阅的文献资料看,早期对于信息可视化技术的评价工作可以分为两个阶段,首先是一些设计者或开发部门对技术进行的局部测试;随后一些学者给出了某些评价角度。他们往往根据当时的研究背景着重强调了一个或几个方面。将这些角度综合起来,经过量化是可以成为综合评价指标体系的组成部分的。
1.1 技术局部测试
这一阶段主要是一些信息可视化技术的设计者或开发部门针对可能的需求,在不同环境下测试他们的技术的实用情况。这往往发生在该技术的提出者的研究初期,他们在提出信息可视化技术方案的同时给出技术的适用范围和条件;第二种情况来源于应用人员,他们为自己的信息管理问题选择多个信息可视化技术,经过一段时间后,测试他们在某一方面的优缺点,并得出他们的顺序。例如,Wiss等人对三种可视化技术(Cam Trees、Information Cube和Information Landscape)进行了对比[2],其评价是根据Shneiderman定义的任务进行的。作者实现了上述三种技术,并分析它们能支持那些任务。Cugini等人对搜索结果的三维可视化进行了两方面的研究,其中之一是对其进行评价[3]。NIRVE(NIST Information Retrieval Visualization Engine)是其中的一部分,其中涉及了对不同视觉表示方法的评价。
这一阶段的评价有两个特点,一是在技术种类上局部地评价信息可视化技术。一般只是评价了若干种,甚至一种技术,没有给出对所有技术的评价。二是在结果上的笼统评价,没有对可以形成评价指标的各个特点进行评价。当然对整体结果的测试反映出的是用户观点,也应是综合评价的组成部分。
1.2 单一角度评价
随着信息可视化技术的发展和应用的深入,人们发现必须确定一些标志来判断一项技术的好坏。
最早人们用表现力(Expressiveness)和有效性(Effectiveness)两个标准来评价信息可视化的效果。表现力是指可视化的结果使所有的数据得到表现,而且没有其它的东西被引入;有效性是指可视化能够使用户充分发现数据之间的关系和理解数据。研究合适的可视化模型是充分体现表现力和有效性的最佳方法。
Brath提出了一种评价可视化技术的三维静态表示效率的定量标准[4],主要是关于曲线图(Graphs)的功能。他没有涉及到可视化技术的交互功能。对每一个显示,他测量数据点的数量(反映数据密度)、维的数量(反映认知复杂度)、闭塞率(Occlusion rate)和数据点的可识别程度(identifiable)。Freitas等的研究将Brath的研究结果总结为认知复杂度(Cognitive complexity)和空间组织(Spatial organization)两个标准。
作为应用性很强的技术,信息可视化系统的评价还需要从用户角度给出,但信息可视化的潜在用户常常有他们自己的一些分析工具,如统计软件。他们在数据分析的第一阶段不一定能够认识到信息可视化技术的好处。因此,只有熟练用户才能给出自己的判断。
与图形、图像相关的技术大都有美学上的要求,不同的图表绘制算法都遵循各自的美学标准。信息可视化技术是以图形、图像技术为基础的,美学效果自然也受到关注。在信息可视化的通用图表绘制中重要的美学标准是由迪·巴塔萨等人在1994年制定的。科尔曼在1996年同样也给出了一组对用户透明的工具来面向力争达到美观的图表设计算法,对于普通的类和图表可以通过设计达到一定的满意效果。表1显示了各种未限定制图的标准,主要有对称性(Symmetric)、均匀分布的节点(Evenly distributed nodes)、统一边界长度(Uniform edge lengths)和最少的边交叉数(Minimized edge crossings)。多数标准强调平均分布至高点和统一的边界长度。一些算法在将边界的交叉最小化方面取得显著成就,另有一些则不在这方面下工夫。这里的一些标准是互相排斥的。例如,对称图表可能需要有许多边界交叉,即使这些边用处不大。统一边界长度方法可能不总是产生最多的适当结果。一个注重实效的方法应当有足够的弹性,以允许特别的软件能够裁剪算法。
表1 信息可视化图表绘制算法美学标准
标准 Eades Kamda Fruchterman Battista Davidson Niche
1984
1989 19911994 19961997
对称性 √ √√
均匀度 √ √√ √√
统一边界长度
√ √√ √√ √
交叉度√√ √√
2 基于信息可视化本质特征的评价标准
如何给出信息可视化技术的若干评价标准,是评价该问题的一个首要问题。Freitas等认为已经出现的信息可视化技术评价标准可以分为两大部分,首先是可视化技术的视觉表现(Visual representation),其次是交互机制(Interaction mechanisms)的问题[5]。他们的研究表明,用户不会在选择可视化技术时割裂可视化技术的数据表现能力和交互机制。信息可视化技术的评价既要测试视觉表现又必须考察其交互机制。例如,通常重要的视觉表现问题是对象闭塞(Object occlusion)和视觉混乱(Visual disorder)。而视觉混乱是由一些用户操作引起的。例如,一个方面(如交互)会影响到另一个方面(如视觉表现)。因此,很显然在评价信息可视化技术时,这两个方面是十分重要的。
除数据的视觉表示能力和交互机制标准外,第三个方面涉及到信息可视化技术的使用——数据的可用性(Data usability)。由于信息可视化的目的是从表示信息的数据中发现抽象的东西,所以视觉表现和交互机制都不应该妨碍用户使用数据的过程。
2.1 信息可视化的特征
本文认为信息可视化是在计算机、网络通讯技术支持下,以认知为目的的,对非空间的、非数值型的和高维信息进行交互式视觉表现的理论、技术与方法[6]。建立信息可视化的评价标准应该从它的基本特征出发,全面反映其本质。基本特征有:
(1)先进的工具。计算机是信息可视化必然选择的工具。随着信息通讯手段的提高,网络成为信息交流和分布的主要形式。信息可视化必须能应用在网络平台上。事实上Web上的信息可视化就是目前信息可视化的一个重要热点,所以网络通讯技术也必然成为信息可视化不可缺少的运行平台。除硬件平台之外,软件平台也是重要的考虑角度。
(2)认知的目的。信息可视化的目的是对信息进行认知。认知的程度可分为观测、理解、洞察等不同深度,或认知深度从表面特征到内部特征,甚至是促使联想等。
(3)抽象的对象。其处理对象是一类被限定的信息。所以信息可视化中关注的信息主要有非空间的、非数值型的和高维信息三种。同时对象的规模往往是非常巨大的。对于小规模的数据,人们通过自我“观察”便可以发现其中的规律,因而是不需要各种信息处理技术的。对象的复杂程度和量的多少无疑都是反映信息可视化技术质量的标志。
(4)视觉化手段。信息可视化是通过视觉形式表现信息的,视觉形式主要有图形、图像、动画等。视觉指标是重要组成部分。
(5)交互式过程。信息可视化的过程是一个人机交互的过程。人机交互界面技术是新一代信息系统取得成功的保证。交互式系统使得用户更加高效地认识概念及它们之间的关系。与科学计算可视化的用户大都是专业人员不同,信息可视化的用户是普通人员。一般不能在开始就明确自己的认知问题。因此,交互性有利于发挥用户的主体作用。交互式环境中用户可以按照自己的需要、兴趣来选择所要进行的操作,逐步逼近目标。与一般的信息系统不同,信息可视化系统是用户与计算机两个“智能系统”之间的通讯和对话。
2.2 基于信息可视化特征的评价指标
2.2.1 工具
早期的信息可视化技术有些实现在单机系统上,目前随着网络技术的发展,运行平台基本上都以网络环境为背景。正是这个原因,在信息可视化定义中,一般都认为,一项信息的视觉表示只有在网络或计算机环境下实现了,才能认为是信息可视化的范畴。同时实现信息可视化的软件环境也大体相同。由于在工具方面,各项技术都具备了几乎相同的条件,我们不再将工具列为评价标准。
2.2.2 对象
针对可视化对象的评价指标,可以分为可测数据规模、有用性。
可测数据规模是一个可视化算法在规定速度下可以处理的数据集合大小。Tamara Munzner最早指出了可量测性(Scalability)标准应该成为评价可视化技术的一部分。可视化系统或技术能显示的节点数是一个很有用的可测量的指标。Tamara Munzner给出了当时条件下部分技术的处理节点数的比较(有趣的是这个比较也是以可视化的方式给出的)。人们手工绘制几千个节点或者是几百个节点都十分困难,而下页列图显示大部分真实世界的数据集合确实是十分巨大的。整个Internet上的主机个数超过七千万,字典包含了上百万个互相解释的单词;Web由几十亿个超链接文献组成;即使中等规模的Web单个站点,如Stanford图形研究组的站点也有100,000篇文献。
尽管大量的信息可视化模型和技术在不停地出现,而在每一次应用时人们都必须做一个特别的研究,以便选择一个对其应用是可用的或有用的具体技术[7]。可用性是描述用户进行应用系统使用质量的[8]。在信息可视化的界面上用户不仅可以使用交互功能按钮,也要使用支持决策的数据,这会受到信息提供的方法的影响。在信息收集和处理过程中,常会有一些噪音数据;大规模的信息也需要约简才能被决策问题使用;处理过程的选择也会对原始数据集合的质量产生影响。正是这些原因,才需要用数据可用性(Data usability)来描述信息可视化应用中的信息质量。数据可用性与以下三个原则有关:①数据可靠性(Data reliability),描述收集数据过程的可行性和可信度。②数据变化的最小影响(Minimal impact on data changing),系统尽量减少对信息的改变,并能在需要时恢复原始信息。实际上,不对数据作改变是不可能的。例如,在将高维数据映射到2D或3D空间上时,必须减少一部分信息,这将使可视化世界的结果与真实世界不一致。在可视化过程中,我们不能做到数据的不变化,但是要尽量减少变化带来的影响。③支持决策(Support decision-making),这意味着数据的表示应该是能够被理解的,从而帮助用户进行决策。
数据集合规模以及若干可视化技术能够处理的节点数示意图
2.2.3 认知
有关认知的标准可以从被表达的对象的深度和表达出来的复杂度来考虑。
对被表达的对象,揭示其内涵(Insight)到什么程度是决定认知水平的重要基础。一般情形下只反映对象的表面特征,进而是内部特征、结构关系甚至是规律等。
另一项指标是认知复杂度(Cognitive complexity)。一幅图像的认知复杂度可以由数据密度(Data density)、数据的维数(Data dimension)和相关信息的显示(Display of relevant information)来度量。例如,一幅图像的节点的个数可以测量数据密度,数据的维数与同时显示的维数相关。
数据的语义内容的显示会受到限度(Limitations)的影响,主要有几何上的或视觉上的约束,例如,显示区域的大小、数据元素的最大数量等。
2.2.4 视觉表现
评价信息可视化技术的视觉表现的指标包括空间组织、信息编码和状态转换几个方面。
空间组织(Spatial organization)关系到视觉表现的整体布局,它包括分析如何能方便地在显示区域定位信息元素,方便地感知信息元素的分布。当信息元素的布局没有按照其某些特点的逻辑顺序(Logical order)组织时,或其显示被其他信息对象所闭塞(Occlusion),用户很难在屏幕上对其定位(Objects location)。所以对象的闭塞程度和逻辑顺序是视觉表现所要考虑的角度。空间方位(Spatial orientation)可以帮助用户感知信息元素的布局,它主要可以显示参考内容(Reference context)和显示特定元素的细节(Display details)。
附加的信息编码(Information coding)也是评价可视化技术的一个重要方面。除将数据元素映射(Information mapping)成视觉元素外,附加符号或真实符号(Realistic techniques)的使用可以用来促进对信息元素的观察,构建新的表示(如表示聚类中的元素组)。
信息可视化表现能力的最后一个是当用户发出一个操作后,可视化界面上需要重建的部分是如何转换(State transition)的。这包括完成该功能需要花费的图像生成时间(Image generation time)和结果图像的视觉方位(Visual/Spatial orientation)组织,它们都影响着对信息的观测。
2.2.5 交互机制
信息可视化技术交互机制的评价指标主要有三方面。
交互机制的功能之一是使用户操作变得方便,如给一些提示手段,可以纠正误操作等。该项指标中可以分成以下三项:细节层次控制(Control level of details),该功能起到定位程度的作用;重做/撤消(Redo/undo)用户的操作,在Windows的资源管理器中其“后退”功能表示完成该项功能;附加信息的表示(Representation of additional information)。最简单的情形是对各个图形配上某种形式的文字说明,但对被可视化对象本身并不需要如此,因为可视化技术本身是对文字说明不好,而对图方式对象表示更合适的一种处理。所以这里的附加信息是与交互操作有关的信息,如用户在浏览复杂的网络结构时所经过的路径。
导航和查询(Navigation and querying)是评价交互功能的又一个重要角度。其中可以细分为数据元素选择(Selection of objects)的容易程度、能否改变用户的观点(Viewpoint manipulation)、操纵数据元素的几何表示(Geometric manipulation)、搜索和查询(Search and querying)功能的有无、扩展聚集/隐藏的数据元素(Expanding clustered/hidden data elements)等。
第三组指标是关于数据集约简(Data set reduction)功能。其中过滤(Filtering)可以使在同一时刻的同一区域上显示较少的信息,从而以更快的速度转换到感兴趣的对象上;聚类(Clustering)功能使得可以用特殊的符号表示信息对象的子集;而修剪(Pruning)功能则直接除去与理解视觉表示不相关的信息。
综上所述,我们得到了一个如表2所示的信息可视化技术评价指标体系。该方法综合了目前对信息可视化技术的多方面因素的考虑,并从其本质特征的角度进行了分类。它不仅可以用来评价信息可视化技术,而且也为用户选择实用的技术提供了指导工具。