信息检索交互模型研究_信息检索论文

信息检索交互模型研究,本文主要内容关键词为:信息检索论文,模型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G354 [文献标识码]A [文章编号]1003-2797(2007)05-0084-04

近年来,用户信息搜寻行为重要性及交互风格多样性的研究日益显现,究其原因可归结为资源过载:可用信息的海量快速增长导致获取相关信息的难度增大,因此如何更好地支持用户的信息搜寻活动也就成为现在的一个研究重点。对此,我们需要更好地理解IR(information retrieval,即信息检索,后文中将用IR简称)中的交互过程,这也是TREC年会的“interactive track”的目标之一。为达到这一目的,我们需要分析IR中的交互,以及IR系统中的交互过程,以便更好地理解用户同信息系统间交互的本质,信息检索交互模型正是进行这种分析的有力工具。

众多研究者对信息搜寻活动各方面的属性进行了分类总结并构建了一些模型,但是这些模型无法统一为单一模型,因此无法统一地表示交互,进而进行研究和比较。即,我们无法对用户及IR系统间的交互进行推理,从而也就无法指出哪种系统能更好地支持哪种用户。现代信息检索本质上是一个交互过程,由多个交互步骤组成。按照IR交互发生情境的不同,IR交互可以大致分为两类:贯穿多个步骤的交互(多步交互);步骤内的交互(单步交互)。

第一类的例子包括:搜索/熟悉某种信息源;熟悉系统提供的检索手段;构建信息检索策略。目前,不少研究者都采用增强人机交互界面的方式帮助用户检索/熟悉特定信息源,常用的技术有:信息可视化、语义地图、聚类等,其目的都是为了展现信息源中概念、文献、词之间的关系。而熟悉系统所提供的检索手段同用户构建信息检索策略这两种交互之间是紧密关联的:用户的信息搜寻策略是一般化的,在使用特定系统时还会进一步演化,用户搜寻成功与否,用户对系统的满意度并不一定依赖于系统所提供的交互功能,而是依赖于系统对用户策略的支持程度,以及它如何引导用户理解系统的运作机制。

具体到每个单一搜索步骤内:这两大类交互主要体现为查询构建和查询后交互(基本操作就是相关度反馈)。当然这种划分也不是绝对的,因为有些系统可能并不要求用户一定要显式的构建查询,而有些系统的相关度反馈则要求用户显式的重构查询。在查询构建交互中,用户如何输入查询词,受控词表如何使用,查询限定等都是可能影响用户对系统理解的方面。相关度反馈交互的总体目标是引导查询更贴切用户的实际信息需求。其基本方法是自动对查询词重新加权或采用查询扩展功能加入新的查询词。除了使用语义关系分析、词语共生信息及词频信息分析等方法自动扩展查询外,查询扩展还可以使用交互的方式完成,即由用户指定要添加的词,候选词则由系统扩展生成或由词表指定。

在实际应用中,增强用户对上述交互过程的控制并不能保证检索效率的提高,其原因是:虽然我们可以就何时在交互中进行相关度反馈能提高/降低检索效率总结出一些经验性原则,但是这些原则过于抽象,无法具体比较和预测交互的效果;同时,这些原则仅适用于信息搜索的总体过程,很难应用到搜索过程的单个步骤[1]。

现有的信息搜寻模型(Information Seeking Model,后文中我们用ISM简称)倾向于从总体上描述用户在信息搜寻过程(Information Seeking Process,后文中我们用ISP简称)中作了什么。依据建模角度不同,这些ISM可以分为三大类:

(1)信息搜寻行为的分类与界定;

(2)搜寻活动的复杂性研究;

(3)信息搜寻行为的功能支持研究。

1信息搜寻行为的分类与界定

Belkin在经过对用户交互行为的长期研究后,对用户在ISP中可能采用的策略(information-seeking strategies,后文中用ISS简称)进行了分类总结,并提出如下假设:不管是单步交互还是多步交互,用户都会采用多个ISS。以此假设为基础,Belkin结合ISS的分类给出了一个研究IR系统中交互的框架[2]。

该框架中,每个ISS由四个二元变量[M、M、G、R]表示,它们代表了信息搜寻的四个基本方面:

(1)搜索方法(Method):该变量的取值表示用户当前采用的是浏览还是查找行为,它代表用户使用系统的目的,查找表示用户在寻找特定信息,浏览则表示用户在随意察看可能会感兴趣的信息。

(2)检索模式(Mode):该变量的取值表示用户是在进行识别活动还是描述活动,前者表示用户直接指定某物件是相关的,后者则代表用户在描述满足什么条件的信息物件是相关的。该变量描述用户是如何进行查找的,是通过识别还是描述(如查询或其它描述信息需求的方式)。

(3)检索目的(Goal):该变量的取值表示用户是在学习还是在选择,它反映的是用户在检索中特定时段的检索目的:进一步学习系统、信息源/数据库,还是选择信息物件进行检索或反馈。

(4)交互资源(Resource):该变量的取值表示用户正在交互的资源类型是元信息(如词表/索引)还是信息(如文献)。

这四个二元变量的取值变化最终可以产生16种ISS,从一种ISS跳转到另一种ISS被认为是用户在不同策略之间的切换。在Belkin等人看来,ISS是固定、离散的行为(步骤),而不是用户ISP自我调整所表现出来的在总体检索策略上的一种自然、连续的转化。实际上,从上述模型的定义可以看出,Belkin模型关注的采用什么样的ISS分类能更好地描述用户需求,完全忽略了ISS之间的转化,但是在IR交互模型中,描述用户搜寻策略间的转化是非常重要的,因为这种转化的描述对应着模型如何预测用户交互行为。

在研究信息搜寻行为分类与界定的模型中,还有一个比较重要的模型,那就是Ellis的模型。Ellis在分析了一批社会学家及物理学家信息搜寻模式的样本后,给出了一个基于搜索者行为及该行为同信息搜寻设计间关系的分类模型。该模型定义了八种状态,每种状态由一组实际行为构成,这八种状态的组合使用可以表示任何个体的信息搜寻模式。这八种状态是:starting、chaining、browsing、differentiating、monitoring、extracting、verifying、ending,这八种状态在信息搜寻中会按照一定次序出现[3-4]。Ellis的模型提供了一种描述个体信息搜寻模式的方法,但是却无法预测上述八种状态出现的次序/组合方式,只能从总体上大致说明特定用户群体的总体信息搜寻模式,这是一个重要的不足。同Belkin的模型不同,Ellis的模型侧重于用户试图利用系统完成什么任务的分析,是一种比较泛的目标,而不是用户正在做什么这样的细微的目标。

Kuhlthau在其模型中,也提出了一组状态:initiation、selection、exploration、formulation、collection、presentation[5-6]。与Ellis模型不同的是,Kuhlthau不强调状态之间的次序,同时他还引入了情感、认知等要素。如,在exploration状态下,用户可能面临不确定、困惑等情感的影响,思维会集中进行各种认知活动,同时受到情感和认知因素的驱动,用户会采取各种行为去定位相关信息并将新信息同已有信息进行关联。该模型的核心概念实际上是不确定性:无论是不同状态间的跳转还是用户具体行为的选择,都用不确定性进行标识,整个搜索过程被视为从初始的“模糊的思维、焦虑的情绪及探索式的行为”逐步演化为“清晰的思维、自信的情绪及精确的行为”。该模型的主要贡献在于:研究了促使用户在搜索中特定点选择特定行为的因素。

这三种模型从不同角度研究了信息搜寻,但是它们并不是对同一事物的不同描述,相反每一个模型都给IR用户交互带来新的研究点,在IR交互系统和模型中,这三者都应该得到相应的支持和体现。

2搜寻活动的复杂性研究

上一部分中所述模型主要关注信息搜索中与系统无关的方面,但是这些方面的行为必须最终映射为用户在特定系统上的一系列动作。这些模型揭示的是:用户策略是相对抽象或者不确定的,用户期望取得的目标与系统如何支持用户达成该目标之间是可能存在差异的。这种从概念目标到用户系列动作之间映射或翻译的难易程度会影响用户使用系统的方式。

Bates研究了信息搜寻中这种映射对IR交互的影响,发现目前绝大多数IR系统对比较复杂的用户信息搜寻模式只能以非常有限的交互方式提供非常少的支持。Bates依据IR系统对这种映射的支持程度,将IR交互划分为四个层次[7]:

(1)单步交互。对应一个单一动作或想法,如标识某一文献相关或选择某一查询词,是交互的基本单元。Bates认为目前绝大多数的IR交互都处于这一层。

(2)策略交互。由一个或多个单步交互组成(如,使用替代词修改查询)。目前有一些IR交互在向这个层面突破,但是这些系统的支持并不完善,用户必须手工完成各个单步,而且系统也不提供比较各个单步效果的功能。

(3)战略交互。由多个策略组成(如确定感兴趣的领域,然后浏览或从某一引文开始,查看所有引用该文的文献),Bates认为战略交互实际上对应着IR系统采用特定交互风格收集信息的不同方法。

(4)谋略交互。由一系列单步、策略及战略组成的用于整个信息搜索过程的计划。这是交互的最高层面,但是也是最难在IR中应用的,因为用户在交互过程中会针对系统提供的信息自我调整。

尽管Bates模型的这四层交互每一层都是由一系列单步交互组成,但是它们不是简单的叠加,而是一种系统叠加,如右图。Bates认为区分交互发生层面决定因素不是单步交互的数目或其组合的复杂性,而是用户当前正试图通过交互获取什么。该模型的主要贡献是对用户信息搜寻任务的复杂度进行了区分,但该模型同前文中的模型一样也不适用于研究单用户交互。

Bates的四层交互模型示意图

3信息搜寻行为的功能支持研究

对IR行为采取功能支持分析的代表模型是Ingwersen的中介模型(mediator model)[8]。Ingwersen试图在实验数据和以往研究成果的基础之上构建一个良好的用户交互模型并将其一般化。该模型的特点是:其建模的对象不是系统也不是用户,而是能支持信息搜寻的智能中介,该中介机制负责帮助用户明确自己的信息需求,了解用户的不确定状态以及用户问题空间中的问题求解任务。

中介模型由13个组件/功能构成,每种功能对应交互中一种特定的机制或知识源,下页列表为这13个功能的简单描述。从总体上来看,这13个功能可以分为三大类:包含任务知识的知识源/机制;生成数据库、信息需求及用户相关知识的知识源/功能;选择ISS、审查用户反应、同用户进行交互的知识源/功能。

该模型框架的基本原理有三个:

(1)将中介被视为信息检索交互中一个独立的、同时面向用户和信息系统的参与者。也就是说,中介应该与信息检索环境(系统)及用户的认知任务相适配,后两者是信息检索要求的主要生成因素。

(2)除了适配特性以外,中介还应该是一种透明的支持机制。中介模型利用用户模型构建器从用户那里获得足够的支持,以便尽可能地利用人类的思维和推理能力。

(3)中介模型可以建立在预定义的领域模型、系统模型和用户模型之上。Ingwersen认为,至少在一定程度上可以对用户的集体认知结构以及用户可能的搜索行为、期望和工作任务等进行预分类。也就是说,中介模型可以采用固定的背景模型为用户提供交互支持,只有当这些模型的作用比较弱或缺乏这样的模型时,中介才会启动相应功能修改这三个模型。

在中介模型功能中,领域、系统和用户模型是整个模型的基础,其余十项功能则在实时、动态分析这三项功能的基础上行使各自的职能。从理论上来 说,领域、系统和用户模型应该是动态的时变模型,而且应该是通用的结构化模型,这三个模型主要通过领域研究及构建认知任务模型实现。

中介模型功能组件表

功能

描述

领域模型 包含领域工作任务、主要主题和情感领域、可能的典型观点、

概念地图(即概念之间的关系)等方面的知识

系统模型 包含系统设置知识,即此领域相关信息系统、信息源、信息检索

技术、数据库结构和描述(范围)、表示规则、主机的软件(包括

反馈工具)等方面的知识

用户模型 包括通用的检索行为、用户偏好、用户评价与期望、与领域工作

任务相关的用户意图以及用户知识状态和水平等方面的知识

系统模型适配器通过询问,利用系统模型属性产生导致系统学习的远程数据库系

统知识

用户模型构建器在用户模型中的特性或(最少)与领域模型和系统模型相关的属

性的基础上生成实际用户特征知识

检索策略 根据系统模型和用户模型以及用户模型构建器和提问模型构建

器生成的实际用户模型,在本地或(远程)检索系统上选择和执行

(或为用户提供)适当的检索策略

响应生成器确定和检查用户的响应,即评价检索策略的效果,形成反馈、转

换或系统模型适配(询问)

反馈生成器根据实际情况生成内部或外部的概念反馈

提问模型构建器分析用户实际信息需求和以概念及概念关系的形式表示的潜在

问题,生成相应知识

映射 生成、更新和存储来自个体用户模型的相关知识,映射提问构建

器生成的知识与检索策略、响应生成器、反馈生成器生成的知识

之间的概念联系,即保存用户指定的检索词和概念关系

解释 为合适的用户描述中介机制和远程IR系统的操作、性能等,主

要取决于用户模型构建器和映射功能

转换器根据用户模型构建器和映射知识,确定对话模式;在用户输入和

系统输出之间进行数据转换以取得一致

计划器根据中介系统实现的用户意图、期望和评价形成处理其他功能的

规则

Ingwersen的中介模型提供了一个非常详细的研究信息搜寻的框架,但是它没有解决交互过程的比较问题。

4 结语

本文研究了一些IR交互系统所用的模型,这些模型总体上可以分为两大类:描述型和指示型。描述性模型,如Ellis和Kuhlthau的模型,描述交互中有哪些常见的阶段或过程,这类模型试图将与信息搜寻相关联的现象进行分类或进行有序组织。指示性模型,如Belkin和Ingwersen的模型,则指出IR系统应该支持哪些交互行为,应该支持到何种程度,以及如何进行支持。这两类模型是互补的:一类描述信息搜寻的本质,另一类则说明如何在实际应用中实现相关支持。

当然,这些模型也存在一些缺陷:如同我们在前文中所述的,这些模型代表了信息检索交互的不同研究领域,无法统一为单一模型,因此也就无法统一表述交互,并进行研究和比较,故而无法对用户及IR系统间的交互进行推理,从而也就无法指出哪种系统能更好地支持哪种用户。

但是,这些模型存在的缺陷并不影响它们在特定的交互领域发挥指导作用。

标签:;  ;  ;  

信息检索交互模型研究_信息检索论文
下载Doc文档

猜你喜欢