超媒体检索中的“迷航”问题及其解决方法,本文主要内容关键词为:解决方法论文,媒体论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
超文本(Hypertext)是一种把块状信息根据需要按一定逻辑顺序接成网状结构的信息管理 技术。它由节点和链组成。如果超文本节点中的信息除文本块以外,还有图形、图像、声音 、视频等多媒体信息,则称为超媒体(Hypermedia)。
超媒体是一种管理多媒体信息的超文本系统,它建立多媒体信息间的联系,是支持各类应 用 和存取多媒体信息的有效方法和技术,具有多方面、多层次的表现力。超媒体是对多媒体和 超文本的高层描述,实现了以计算机为媒介进行类似于人脑思考的、对多媒体信息单元之间 的快速检索和浏览。超媒体是多媒体的网络式表达。超文本和超媒体的结构思想一样,只 是管理对象不同。超文本向超媒体发展,从一般线性和静态的文本媒体,向多维和动态的多 媒体信息过渡。
1 超媒体的含义及优势
(1)超媒体系统是一种大容量的多媒体知识库,它是多媒体信息的一种组织结构。所包含的 内容丰富,形式为多媒体信息,如文本、数值、图形、图像、动画和声音或它们的组合等。 超媒体系统一定是多媒体系统,但多媒体系统不一定是超媒体系统。
(2)超媒体系统的节点和链组成具有一定逻辑结构和语义的网状结构系统。每个节点即一个 信息块,可以是计算机的若干屏、文件或更小块的信息。链是节点之间的指针,表示节点之 间的关系。节点之间的连接是靠计算机的推理和演绎。
(3)超媒体系统提供检索和导航工具,用户可方便地检索知识库中的信息而不至于迷失方向 。
超媒体采用非线性网状结构的方式将若干个有关的信息块进行逻辑组织。其知识库的组织 方式类似语义网络理论中关于“人类记忆是一种网状结构”的理论。把一个文档从平板式的 文本结构转化为超文本形式,可以使之更接近自然的表示方式,其主要特点是非顺序性,即 一个思维过程不是一个顺序过程,而是一个并行过程,是在一系列的前提下,在不同的思维 层次和思维观点上,一个同时不断发展或排除某些想法的过程。任何一个想法均可能依赖于 其他想法,同时也可给其他想法的产生提供依据。相对于传统的基于提问式的查询检索方式 ,超媒体的浏览方式由用户在信息网络中航行实现,属于联想式、跳跃式的浏览检索。
超媒体的节点和链反映了人类认知结构中的概念节点和关系,提供了现成的认知结构,减 少了用户从计算机呈现信息到人脑存储信息的转换过程。其媒体的符号系统与认知结构相符 合,因此将促进我们对信息的解码和理解。任意两个信息块之间可有若干个不同的路径,没 有固定的顺序。
超媒体的环境提供了相当大的弹性,超媒体的链和节点可以动态地改变,可以加入新节点 和新链路,使新知识和新的关联可以顺利地整合到原先已储存的知识库中,而不必将网络结 构加以重新编码,这种信息的组织方式揭示和分解了信息的复杂性。
超媒体使一个交互式的信息呈现系统,每一步都由用户选择具体的路径,决定通过哪一条 路径到达哪一个节点,以检索所需的信息。
2 超媒体的组成及迷航问题
一个超媒体系统的基本构成是节点和链。超媒体的物理结构是由一些独立单元(如条目或词 条)按顺序排列而成,而逻辑结构则是非线形的。用户通过沿链访问网络中的节点,可以很 容易地进行信息的浏览、编辑和查询等操作。链通常是通过被称为热标的技术实现的。热标 是文档中的一个信息段,是触发指向其他节点的触发点。
在现有超媒体系统中检索,一般都是通过用户在信息网络中航行实现的,属于联想式的浏 览检索。从一个节点跳至另一个节点,进而遍历整个网络,这种联想和跳跃的方式给用户提 供了一种全新的尝试和很大的自由度。但对于大型系统而言,因为涉及到的节点和链太多, 超文本网络过于庞大,用户在其中航行时,很容易迷失方向(disorientation)——迷航和产 生认知的过载。
迷航就是“在信息空间中迷路”,更准确的解释是“在非线性文献或信息组织结构中失去 方向和位置感的趋势”。具体表现为:不知道自己在超文本网络中身处何处,不知道下一步 该 沿哪条链继续浏览,也不知道如何从当前所在结点到达网络中另一个已知结点。认知过载是 指“一次需要记忆和保持的线索太多以至于超出人们的认知力”。根据认知理论,在超媒体 信息网络中造成认知过载的主要原因是,从当前的信息节点(直接、间接或无意到达的)的多 条链中选择沿哪条路径浏览,链越多越难选择。这两个问题造成了多媒体信息访问的瓶颈 ,随着超媒体结构的复杂化而更加明显。
可以说,正是超媒体高度灵活的内部互联结构,在给检索带来方便的同时,也带来了一定 程度的混乱。这两个问题造成了多媒体信息访问瓶颈,随着超媒体结构的复杂化而更加明显 。一方面超媒体网络中存在大量的信息资源,另一方面用户却难于获取所需信息。为了在超 媒体信息网络中高效地定位、浏览、检索、过滤、获取所需信息,必须解决迷航问题。
产生迷航问题的原因是多方面的[1]:(1)超媒体网络过大,节点和链太多,结构关系复 杂,缺乏有力的导航工具。(2)超媒体的结构很灵活,而且用户浏览的自由度很大。(3)用户 可能对一个大的超媒体数据库描述的领域并不熟悉,因而很难确定从哪儿开始浏览。这就需 要有效的搜索机制。缺乏搜索能力将明显影响用户对数据库的存取效率。(4)超媒体的数据 模型尤其是链缺乏语义,用户难以从链直接了解到链接的内容。例如:只描述了节点内容之 间的关系,缺乏关于链源和链目的的内容的信息,导致需要复杂的链和不必要的导航支持来 帮助用户寻找有关信息。为了支持有效的搜索/查询,为了帮助用户决定浏览方向,数据模 型应能描述关于节点之间更多信息和链之间的关系。(5)数据模型的模块化程度不够,不能 反映数据的逻辑层次和抽象。(6)缺乏超媒体应用的概念模型。应使超媒体进一步结构化, 并结合知识的利用,以允许概念导航。(7)传统的导航机制往往单纯考虑文本因素,很难利 用其他媒体作为检索/查询的手段。
3 迷航问题的解决方法
针对超媒体检索中的大量迷航问题,除超媒体系统所特有的、用户跟随链的走向不断打开 各节点窗口或历史地返回进行浏览,系统必须要有强有力的导航工具。对迷路问题的解决方 法统称导航方式。现有的导航方式很多,如检索、线索、帮助、浏览等,各有优缺点。在设 计和使用时,要根据超媒体系统的应用领域、用户情况和其他具体环境决定采用哪种导航方 式或哪些导航方式的组合。
按系统的大小选择导航方式,有以下三种情况:(1)小于250个结点的小系统,按常规沿链 浏览的方式已经够用。(2)中等规模的系统,即可在一个界面中显示所有相关节点的系统, 采用面向显示的方法,以单一显示为中心,任务是创建和管理这个显示,以及隐含不重要的 信息,多数信息访问都是通过这个显示,很少有节点间的导航。(3)节点数目比较大的 系统,每个节点均应包含导航信息,否则用户将迷路,通常还要辅以搜索/查询机制,以便 在任何位置到达想要去的节点[2]。
按导航方式的特点,主要有以下几种浏览与导航方式:
3.1 用户界面方法
通过改善用户界面来帮助导航。将超媒体数据库中的节点及其关系部分或全部以图形方式 显示出来,使用户对节点内容、节点之间关系和系统的整体轮廓有清晰的认识。这是目前最 常用的导航方法,也是其他导航方法的基础。
(1)设立主节点和路标(Dominant node and path mark)。超媒体系统中的不同信息节点可 以 形成线形或层次的结构。将线形结构中的头节点、层次结构中的祖先节点定义为一个浏览序 列中的主节点或初始节点,如将一个超媒体文档的目录作为主节点,这样,当用户进行信 息浏览时遇到迷路问题时,可选择相应的命令按钮直接返回到主节点。路标是根据用户的熟 悉程度、可记忆性或重要性确定的节点。路标可用来定义路径[3]。
(2)导游线路(Guided Tours),又叫导游方法或路径机制。即预先设置一个能贯穿整个信息 网络的主航线。路径是按信息内在逻辑关系预先定义的、对若干链的有序游历,对系统中的 各 个节点按照它们的内容由浅入深地安排阅读顺序,在节点之间形成一条导游线路。它是最简 单的航行方法,为信息旅程提供了一条主干线,去掉了用户的航行需求,当用户处于导游线 路上的任一点时,可以自由地选择前进或后退,此外还可随时随地地根据节点之间的关系链 进行跳转[4]。在实际应用过程中,可以根据系统需要,利用节点之间不同的关系链定义 不同的导游线路。不同类型的用户可选择不同的路线。路径机制是对浏览级导航的有益补充 ,但降低了用户阅读的自由性,其创建和维护都较困难[5]。
(3)历史记录(History List)。跟踪用户在信息网络中的游历过程,逐一记录用户访问的节 点,对前面走过的路径(Beaten Path)进行标识和记忆。通过对历史记录中的节点进行选择 ,可以返回访问过的任意位置[6]。
(4)书签(book mark)。与日常生活所使用的书签意义相同,通过在节点定义书签可帮助用 户记忆,以备以后用户可以直接访问该节点。不同于历史记录的是,历史记录只是对当前浏 览过程的记录,只对本次浏览有效,而书签若不是用户主动删除,则作为永久的记录存在[ 7]。
(5)导航图(Overview diagram)。是一种信息空间可视化技术,利用计算机图形学和可视化 计算技术在不同结构层次和角度上以形象、直观的二维或三维空间图形展现超媒体的信息语 义结构,综合其他浏览检索辅助机制,快速获取主题信息。它对于缓解迷航和认知过载,高 效利用超媒体的信息资源,提高信息服务水平有着重要意义。
导航图是超媒体系统中的地图,是对超媒体信息网络的可视表现。它允许用户依总的结构 网络图确定自己的位置、定位特定信息,是一般超媒体系统中对信息浏览进行导游的主要手 段[8]。与静态数据库的节点和链一一对应,将节点及其相互关系部分图示出来,使用户 对节点内容及其相互链接关系和整个系统结构有一个全面清楚的认识。导航图可以页的基本 顺序,实现基本层次链,通过热标,如热字、热区、按钮等维持非层次关系,实现交叉索引 链。导航图应该是层次结构,可以是全局图或局部图。全局地图往往由于太大而难以查看、 不够恰当;局部地图可以根据用户所处位置,只显示与其相关的局部图,忽略关系不大或无 关的节点信息,它只包含当前用户感兴趣的信息,是超媒体网络的一个子网,实际上是一个 用户视图。地图的结构一般是层次结构(如树结构)。图中各个节点缩影响成一个个小点,节 点间的链根据链型采用不同的颜色或不同的线型表示,可以跟随用户位置的变化而变化,通 过显微镜可以对信息结构显示的细节程度进行调整[9]。导航图与记录用户浏览步骤和过 程的动态数据库相结合,可使用户在必要时返回感兴趣或觉得重要的节点。导航图适用于节 点数目较少的系统,目前它是实际运用中最常见的方法[10]。
鱼眼(fisheye)视图模型是一种局部地图。它利用了鱼眼透视效果,即对距离近的事务或距 离远但有明显标记的事务比较、熟悉和了解。可根据用户感兴趣的程度,动态反映用户所关 心的信息内容(焦点),详细显示当前位置附近的情况,简单显示远离当前位置处的情况。随 着用户当前位置的变化,鱼眼视图动态地变化。理想的鱼眼视图应能提供用户在大结构中所 处位置的局部细节和全局轮廓[11]。
3.2 文本分析方法
适于宏文本系统中的导航。宏文本系统处理的是多个文档,强调文档之间的链(而非单个文 档内部各部分之间的链),以及在文档库中对文档的搜索(而非单个文档内的浏览)。在文 本分析方法中,通过对各文档中的词频进行统计分析,可用重要的检索词(term)给各文档加 索 引,从而使读者能够利用这些检索词来帮助检索和导航。
3.3 结构化方法
前面两种方法通过分析节点中所含信息,以及链的语义在超媒体中导航,均未能利用超媒 体的结构。而描述一复杂系统的最佳途径是分层抽象。将超媒体结构化可使之易于组织和理 解[12]。
超媒体的链按功能可分为基本链、交叉索引链和节点内的注释链。基本链提供了节点间的 层次关系,通过索引链可将节点连接成网状结构,实现交叉参考及对相关信息的查找。但这 使得原有的层次关系变得不清晰,以致迷路。如果对节点和链按语义关系进行抽象和组合, 形成一种简化的分类层次树结构。按树结构对系统进行组织,将信息块依其相似性分组, 叶子节点对应于单个信息块,非叶子节点对应于信息组,离根节点越近的非叶子节点,其子 节点对应的信息组之间的相似程度越低[13]。通过分析超媒体中的链结构,识别由很强语 义联系的节点构成的组,使这类节点聚类形成更抽象的节点,帮助用户理解。使用户能识别 和解释节点内容,确定浏览方向,从而达到简化系统结构,减少迷路的目的 [14]。其技 术较成熟,容易组织信息,也容易让人接受。但需要预先处理好节点的分类,设计工作量大 。
3.4 搜索/查询方法
采用查询机制是解决迷航问题的一种基本手段。利用这种机制,根据用户给出对目标信息 的描述,系统自动定位要查询的信息。
搜索/查询机制分为内容查询(Content Search)和结构查询(Structure Search)两类。在内 容查询中,网络中所有信息实体(节点、链)都被看作独立的实体,与给定的查询条件进行相 似性匹配,寻找出所要检索的内容。它允许用户将搜索范围局限在信息空间的一个子空间, 并且查询语言与数据库使用的语言基本相似,应用较多。这种方法与传统的线型文本检索 很类似。但它忽略了超媒体网络的结构。结构查询主要检索与给定查询模式相匹配的子网, 更 适合于超媒体系统。其前提是需要设计一种查询语言对超文本网络结构进行描述[15]。采 用搜索/查询方法的好处是灵活性大,最能体现跳跃性的思维。在任何时候、任何浏览位置 ,用户均可使用它找到需要的内容,查询结构只与用户的需要和系统存储的信息有关。但它 很不直观,用户必须事先了解一些基本的查询语言,对系统的结构也要有所了解。查询结果 一般采用列表方法,用户从中找到需要的节点要耗费一定的时间[16]。
查询实际上是超文本界面中的一种信息过滤机制,界面只显示网络中与查询相匹配的那些 信息,无关的信息都被过滤掉了。搜索/查询方法也是一种辅助方法,与浏览机制在系统中 互相配合,交互使用,效果更好[17]。
3.5 基于媒体内容的导航方式
多媒体信息引入超媒体技术后,如何直接利用形状、颜色、静态图像的结构、动画的移动 、声音的语调等线索来浏览超媒体系统,而不需文本释译就可进行用户与系统的交互成了急 需解决的问题。基于媒体内容的导航方式就是根据媒体内容的语义进行查询[18]。当用户 不能确切知道超媒体内容时,利用媒体对象进行检索,指定某一媒体对象或对象中某个内容 /结构,作为示例,依此示例进行基于内容的查询。但这一方法可能由于用户给出的线 索过于模糊,而使系统匹配发生困难或出现错误以及查找结果范围过大等。
3.6 人工智能方法
现有超媒体系统仍是一种被动的信息存储与检索系统,它具有定义、存储、浏览的功能, 但不具有推理机制和学习机制。如能结合人工智能方法,建立超媒体系统的智能机制,就能 给用户的检索提供主动的帮助和多层次的有针对性的导航。超媒体系统与基于知识的系统十 分相似。超媒体的应用显示:一旦与用户的交互影响到后续的信息存取,就不可避免地要求 超媒体具有计算能力,而不是仅仅在静态网络中迁移和运动[19]。基于知识的技术在减少 迷路方面非常有用。通过对超媒体系统添加外部智能控制或在系统内部嵌入知识规则,使超 媒体网络包含计算推理能力并使多媒体信息的表达智能化。根据不同用户的需要、用户知识 状况和浏览顺序,自动提供最有效的浏览路径帮助用户在系统中顺利阅读,这是最有效的导 航工具[20]。通过它超媒体可以真正体现人脑思维过程,是超媒体技术的重大飞跃。
目前给超媒体提供智能机制来帮助用户导航主要有两种方法[21]:(1)将智能机制作为一 种外部机制。将相应的知识库作为与超媒体系统本身独立的外部实体,它对用户领域或系统 建模,可通过标准的编程接口创建、访问和修改超媒体网络中的信息。它可以指导超媒体网 络中的信息检索。(2)在超媒体系统中嵌入知识。将相应的知识库分割成若干知识规则节点 ,在超媒体的链和节点中嵌入知识或规则,使得超媒体系统本身能主动地处理存储在网络中 的信息。嵌入的知识包括结构语义、领域语义和上下文知识。根据节点中所含信息和嵌入 的知识,可进行关于链的推理(如链的自动生成)。
在实际系统中,这些方法常常结合起来使用,从而改善有超媒体系统的检索能力。