信息检索可视化的主流路径_信息检索论文

信息检索可视化的主流路径,本文主要内容关键词为:路径论文,信息检索论文,主流论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G354[文献标识码]A[文章编号]1003-2797(2008)05-0024-04

可视化主要是利用人的视觉来理解信息。人的视觉系统是信息获取的主要渠道,据研究,人类70%的信息主要是通过视觉来获取的。科学家们发现,视觉不仅是信息获取的手段,同时也是信息处理的手段。这种处理不是线性的,而是并行的处理过程。并行的处理过程在效率和方式上都比线性处理更优越。

可视化一般可以分为科学可视化和信息可视化,科学可视化是指对象和对象之间存在着一种固有的、可以继承的关系,而信息的可视化没有这种固有的可以继承的关系。比如心脏的左右心室,DNA的双链结构等,这些对象人们虽然看不见,但它们有一种内在的固定的结构,对这些对象的可视化就是科学的可视化,科学可视化的应用包括医学成像、DNA排列和天体物理学等。信息的可视化描述的对象和科学可视化中具体的对象不同,它描述的都是一些抽象的对象,如数据库中的对象,高维数据空间中的对象,这些对象之间没有一种固有的特征来进行描述,对这些抽象数据进行可视化就是信息的可视化。虽然科学可视化和信息可视化都是用视觉空间的形式来展现对象之间的联系,但两者也有很大的不同,信息可视化没有一种固有的空间结构或几何形态来展示数据,而科学可视化则有固有的空间结构提供数据的展示,也就是说,在信息可视化中,要探索并创建一个适合展示信息(数据)之间语义关系的空间结构。

信息检索可视化是信息可视化的一个研究方向,信息检索包含两个基本的、广泛认同的检索方式:提问式的检索和浏览。在信息检索的发展历史中,提问式的检索占了很大的比重,导致在很多信息检索的过程中,忽略了信息浏览的作用。提问式的检索采用的是关键词匹配后返回给用户按相关性排序的一组文档列表,用户只能看到这些单个的文档,而不能够看到这些文档之间的逻辑关系。这种文档之间按照逻辑关系形成的语义图对信息检索来说是非常重要的,它能够使用户对文档的内容进行整体的跟进,使用户能够真正确定查找的方向,这也说明了信息检索可视化的重要性。

信息检索可视化就是将一个数据集中看不见的抽象数据和数据之间的语义关系以一种可视化的方式展现给用户,同时将内部检索过程也可视化展现给用户。一般来说,信息检索可视化包含两个部分:可视化的信息展现和可视化的信息检索,可视化的信息展现为可视化的信息检索提供了一个平台。

信息检索可视化是一种信息的可视化,它没有内在的固有的结构可以继承,科学可视化有一种结构来评价可视化,但信息可视化由于是抽象体的描述,在把它映射到二维空间后,对它的评价缺乏一种固有的准则,这是信息检索可视化的负面影响。由于信息检索可视化没有一种内在的结构可以继承,造成了信息检索可视化方法的多样性,因此人们开发了多种信息检索可视化的模型和工具。

要进行信息检索的可视化,首先要确定数据集,不同的数据集有不同的可视化方法;其次要确定数据集可视化对象,在一个大的数据集或者网络环境下,可视化对象多种多样,它既可以是网页,也可以是网络上的用户等等;确定了可视化的对象之后,就要确定对象之间的逻辑关系,这是建立可视化模型的基础;接下来就要建立一个可视化的逻辑空间,一般来说不能高于三维;确定可视化空间之后要确定整个可视化的语义框架,这个框架对于信息检索可视化来说是非常重要的;最后一步就是通过投影算法,将可视化的对象和它们之将的逻辑关系映射到这个语义框架中来。

1 信息检索可视化的常用方法

信息检索可视化模型有很多种,主要有多参考点模型(The Multiple Reference Point Based Models,MRPBM)、欧几里德空间特征模型(The Euclidean Spatial Characteristics Based Models,ESCBM)、自组织图(The Self-organizing Maps Models,SOM)、路径搜寻相关网络模型(The Pathfinder Associative Network Models,PFNET)、多维尺度模型(The Multidimensional Scaling Models,MDS)。这几种方法是目前可视化中比较成熟、主流且并被广泛应用和得到认可的方法,同时也是信息检索可视化中具有代表性的方法。上述每种方法都能够适用于多种情况,派生出一组相关的算法,有很大的适应性和扩展性。同时,这些方法能代表信息检索可视化的特点,揭示信息检索对象之间的深层语义和复杂的关系。

1.1 多参考点模型

参考点(Reference Point)是一种信息检索的标准,利用这种标准可以从数据库里检索相关的信息,从广义上讲,它代表了用户的信息需求和任何跟用户需求相关的信息。参考点可以是当前或者以前的检索词(Term)、检索出来的文献、用户的检索偏好和用户的背景知识等等。参考点主要是通过提供一种体系保证检索的正确性,通过参考点可以辅助修正原始查询,得到更加符合特定用户的查询结果。

参考点可以是固定的也可以是动态的。这里我们介绍一种基于固定多参考点的模型——Info Crystal,这是一种针对布尔模型而设计的系统。Info Crystal是用二维空间来可视化检索结果,参考点是查询式(Query)中的检索词(Term),它也可以是多个检索词的集合,这样就构成了多参考点。

图1演示了一个多参考点环境下的4参考点构造模型,在图中r1、r2、r3和r4是分布在正方形四个角上的四个参考点,图中的四个层(tier)是因为有四个参考点,第一层里的结果表示只和一个参考点相关的文档,第二层里的表示和两个参考点相关的文档,依此类推,第三、四层里的分别表示与三或四个参考点都相关的文档。如r1附近的圆表示与r1相关的结果集,r1和r2中间的长方形表示与r1和r2相关,每个层次的结果集用不同的图标表示,使人一目了然。这个模型中充分体现了布尔模型中的AND思想。

VIBE是为向量空间模型设计的基于移动多参考点的系统,它同样支持多参考点,这些参考点在可视化系统内部是可以移动的,同时它有更强的用户操作性。

图1 固定多参考点环境下的4参考点演示图(Spoerri,1993a).2003 IEEE.

图2 投影文档和相关的两个参考点示意图

图2演示了一个简化的移动多参考点模型,是映射在可视化空间中的两个参考点,是投影在这个二维空间的一个文档,设r1为之间的相似度,r2为之间的相似度,则可以得到:

r1越大时表示的相似度越大,就会更靠近,反之亦然。如果文档和都相关,那么投影后的点一定是在的连线上,但是在这条线上的点不一定与都相关,因为这时该点可能与其他的多参考点相关联而又恰好落在了的连线上,因此可以拉伸这条线,使该条线上与不相关的点分离出来,这就在一定程度上避免了高维空间向低维空间转换后带来的信息检索的模糊性。

1.2 欧几里德空间特征模型

欧几里德空间特征主要体现在方向和距离上,这种方向性和距离性的特征可以应用在信息检索上。距离性是指在欧几里德空间中,距离越近的两个点越相似;方向性是计算欧几里德空间中两个向量之间的夹角,夹角越小则越相似,但这种相似是比例性的相似。在信息检索的Cosine向量模型中,判断相似性的标准采用的就是方向性。因此在信息检索评价相似性时,如果是比例性的相似,就应该采用方向性的算法,如果是评价完全相似,则应该采用距离算法。

就欧几里德空间特征,这里介绍3种可视化模型:DARE、TOFIR和GUIDO。这三种模型都是在二维空间中可视化展示方向、距离或者两者的结合,一般用两个参考点来构造可视化空间,一个叫做KVP(Key View Point),另一个叫做AVP(Auxiliary View Point)。

DARE是一个基于距离—角度的模型,它展示了查询和检索到文档之间的语义关系,能够可视化Cosine模型和距离模型,支持非传统的不对称的信息检索模型。在一个多维空间中,不管维数多高,两点之间的距离和角度都是绝对存在的,也是可以计算的,这样以距离和角度来建立一个直角坐标,可以将所有高维空间的文献映射到这个二维空间,得到一个开放性的长方形的映射空间。用户可以在这个二维映射空间中划一条水平线,将这条线沿Y轴移动,就可以限制检出文献的数量。

TOFIR是一个基于角度—角度的模型,它首先定义两个参考点R1和R2,并分别定义为KVP和AVP,则任何一个文档在高维的向量空间中和这两参考点都有一个夹角,将这两个夹角映射到二维空间中的两个坐标,可以得出这个可视化空间是一个三角区域。有了这个三角区域的可视化空间之后,就可以设置各种参数来确定检索区域。

GUIDO是一个基于距离—距离的模型,它运用文档D和两个参考点之间的距离来映射,映射后得到的区域如图3。这是一个由三条线确定的开放性长方形区域,R1和R2是两个参考点,由于文档D到R1和R2的连线与R1到R2的连线构成了一个平面上的三角形,因此得到了这个可视化区域。

得到这个可视化的区域后,就可以用各种模型来确定检索结果的区域,如距离模型、椭圆模型、Cassini模型等。在距离模型中,如果两个参考点中的R1被定义为KVP,R2被定义为AVP,则R2只是提供一种辅助的功能(如以前的查询式),可以将高维空间中闭包上的点到R2的距离确定为固定值d,这样映射到图3中的二维空间后,就是划一条到x轴距离为d的水平线,这样就确定了一个检索的区域。在椭圆模型中,设文档到R1和R2的距离是一个固定值,这样文档就是在以R1和R2为圆心的椭圆边框上,映射到图3之后就可以得到一个可移动的长方形检索结果区域。

图3 GUIDO的可视化演示区域示意图(Nuchprayoon and Korfhage,1994)

通过这些可视化的模型方法,可以将多维空间中看不见的闭包映射到可视的二维空间中,使一些高维空间看不到的检索结果文件能够方便地显示在二维空间的检索区域中,除了将文献之间的关系映射出来,还将一些模型也可视化了。以前的信息检索模型相对于参考点来说是对称的检索模型,系统在两个参考点形成相同大小的闭包,但是查询词对用户的重要性是不同的,这就要求系统在不同的参考点旁形成不同的闭包,在高维空间中要做到这一点是非常困难的,但是映射到低维空间之后,这种非对称检索方式就很容易实现了。这种高维向低维映射的可视化方法为信息检索由对称向非对称转换提供了理论的依据。

1.3 自组织图

自组织是人工神经网的一个分支。人类在对科学艺术探索的过程中,虽然积累了很多宝贵的知识,但到目前为止,还没有弄清人的大脑是如何存储、处理信息的,但科学家们没有中止对人类大脑的探索,开发出很多模型来模拟人的神经网络。

自组织图方法最初是在上世纪70年代由一位瑞典专家提出来的,后来经过许多专家的不断完善,最终Kohonen简化和优化了前人的成果,提出了一个更加实用、健壮的算法,并命名为Kohonen自组织图算法。自组织图的可视化空间是一个二维的网状特征图,它可以应用在基于向量的信息检索模型中。SOM有一个学习器,能够自动地对输入数据进行处理并生成特征图,且具有处理模糊数据和进行复杂计算的能力。

自组织图的体系中包括一个输入层和一个输出层,输入层的数据经过神经网系统进行处理后,生成一个网状结构的二维特征图进行输出。在网状结构图中,每一个网状单元(神经元)对应于一个加权向量(Weight Vector),用于存储、记录在学习过程中所获得的知识和经验。

自组织图算法的过程如下:首先在训练过程开始之前,对特征图节点中的所有加权向量进行初始化,使接近于零的值被随机分配到特征图节点的加权向量中(该处理有利于最后得到合理化的结果);输入的信号经过一定的算法处理后由系统进行推理,对每一个信号在可视化的空间中找到一个最匹配的节点(Winning Node),然后对这个节点周围一定范围的其

它节点按照相似性进行调整,距离越远调整得越少,越近则调整得越多;随着不断地调整,这个范围越来越小并逐渐接近该节点以至最后汇合,这样,整个训练过程也就结束了。经过对数据库中的数据进行训练后,最终产生了一个特征图(Feature Map),以可视化的方式展示了文献的组织结构。

1.4 路径搜寻相关网络模型

一个复杂的网络体系经过路径搜寻相关网络模型(PFNET)的处理之后可以产生一个最省、最简洁的网络,也就是说它只保留网络中两个节点的最短距离。PFNET主要是利用平面空间中三角形两边之和大于第三边的原理,它有1个主要参数,即路径长度,其值不能大于节点的个数。

PFNET可以应用于信息检索的很多方面,例如,网络资源都是以超链接组织起来的,但由于超链接的复杂性,人们很难清楚地了解这些网络资源之间的关系,通过PFNET的计算就可以将多余的、重复的网络去掉而保持最简洁的网络,这样在信息检索的时候,从一个点到另一个点找的就是最短路径点;PFNET也可以应用于文献之间的关联分析,比如文献之间经过互引或同被引而产生的关联,或者通过文献语义产生的关联等;也有研究人员用PFNET对检索提问式进行研究,根据提问式对用户进行分类,形成一个网络。

在PFNET生成相关网络后,可以用该网络来修改叙词表、提供检索的辅助以及了解数据库的整个结构等。

1.5 多维尺度模型

多维尺度模型是一个比较成熟的算法,它在信息可视化中主要用于计算数据集中数据的相似性,并用矩阵来表示,然后以这个矩阵为输入,将高维空间中的数据进行降维后映射到低维空间。用在多维尺度模型中的数据不受数据分布和数据形态的限制。

在计算可视化对象之间的语义距离时,多维尺度模型根据高维空间中的距离对低维空间中的距离进行动态调整,如高维空间中的距离近,就在低维空间中把相应的距离调近点,如果距离远,就在低维空间中把距离调远点,这样动态地进行调整,直到高维空间中距离的方差减低维空间中距离的方差小于某一固定值。由此看来,多维尺度模型就是用低维空间中的抽象距离来模拟高维空间的抽象距离的。

2 方法的比较

那么,上述各种方法有何区别呢,我们可作如下总结:

(1)在输入的待处理数据方面,MRPBM和ESCBM的输入数据是文档—属性的向量,而PFNET、SOM和MDS处理的数据是对象—对象的邻接矩阵。

(2)在可视化空间的投影坐标上,ESCBM是将角度、距离等空间特征直接投影到二维空间的坐标轴上;MRPBM中对象之间的相似度则不是和投影空间的坐标轴相关联,而是用参考点来获得更灵活的操作性;SOM和MDS也没有将对象属性和坐标轴相关联;PFNET则采用一个网络以节点和路径来表示可视化对象之间的关系。

(3)在语义框架方面,ESCBM定义了一个有效的固定的几何形状区域如三角形、开放性的长方形等,对象被可视化地投影到这个区域;PFNET和SOM的语义框架分别为网络和网格;而MRPBM和MDS在可视化空间中则没有任何固定的语义框架。

(4)在投影的参考体系方面,ESCBM有两个参考点的固定参考体系,MRPBM也有多参考点的投影体系。而其它的三个方法则没有固定的参考体系,是动态的。

此外,在上述的五种方法模型中,只有ESCBM可以可视化信息检索的模型,如闭包的大小等;当然这五种方法都可以突出显示检索的结果。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

信息检索可视化的主流路径_信息检索论文
下载Doc文档

猜你喜欢