态势驱动的交互式信息检索集成研究框架_信息检索论文

情境驱动的交互式信息检索集成研究框架,本文主要内容关键词为:情境论文,框架论文,信息检索论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G354 [文献标识码]A [文章编号]1003-2797(2008)06-0044-07

1 介绍

Ingwersen和Jrvelin[1]2005年提出了信息查寻与检索(ISR)的集成研究框架。他们认为,信息检索嵌套在信息查寻行为的情境之内,其本身则处于与工作相关或日常的工作任务情形和领域情境之中。该研究框架有助于研究者形成关于研究问题、数据集和研究方法的研究设计。而集成研究框架和研究设计的目的是:①信息检索系统的设计和评价;②在任务、领域和信息系统情境下用户行为的分析。它重点强调了研究的核心内容及其特征,即交互式信息检索的研究变量,例如,信息检索系统算法、界面、其自身的交互过程和情境中的用户(见图1)[2]。简言之,集成研究框架旨在为参与者研究信息检索交互的重要问题和它们之间的关系提供研究方法。

研究框架在本体论、概念性、事实性、认识论和方法论问题上有着共同的假设;而研究模型是框架内的对象和关系(或过程)的明确(经常是正式的)表达,原则上,它也可以包含行动者和组织机构。在主流信息检索研究中仅存在一个活跃的研究框架—信息检索的实验室研究框架(图2)[3],但是参评的信息检索模型却有多个,且算法各异,如概率模型、语言模型或向量空间模型等。

图1 信息查寻和交互式信息检索中系统/社会情境的循环

在更面向用户的信息检索或信息查寻研究中存在一些不同的研究框架(和概念模型)。一般来说,它们关注信息交互的不同方面,包括信息检索交互。由于没有实际的信息查寻者参与,实验室框架具有一定的优势。实际上,以用户为中心的框架和模型包含这些查寻者但很少对框架的算法部分建模。总体来看,实验室信息检索框架简单而活跃,而且对一些已知变量进行了控制;而其他的框架则比较复杂,多多少少存在一些模糊定义的、难于控制的变量。

目前已有一些文献试图论证Ingwersen和Jrvelin提出的情境信息查寻与检索(ISR)集成研究框架如何把两种类型的研究框架和模型融合到一个可靠统一的实体内(包括主流信息检索、交互式信息检索和查寻研究)。他们主要关注研究所涉及的变量集,以及针对不同研究目的需要考虑的情境因素。下文首先简单讨论了集成研究框架的一般模型和主流实验室信息检索框架。然后,探讨了集成研究框架的情境特性和界限;第四部分论证了信息查寻与检索(ISR)研究必须考虑的集成研究框架的维度和变量范围;最后,文献通过对框架应用的简单讨论对其贡献进行了总结。

图2 评估信息检索结果的实验室研究框架(包括实验室模型)

2 集成研究框架

图1显示了信息查寻与检索(ISR)集成研究框架的概念模型[4],它依赖于情境中信息交互的认知观点,比如,它旨在观察信息查寻与检索(ISR)中的认知行动者、及其之间的关系和表现(或认知表达)。在模型的每个构件中,不同的行动者可能对世界做出不同的解释,从而共同形成了构件的特征。查寻行动者(或组)是中心构件之一;作者在一段时间所形成的信息对象也是中心构件。模型的形状不仅暗示了社会—组织或文化环境可以作为信息查寻者和信息系统(对象、信息技术和界面)的情境;同样,“系统化”模型的左侧也是其它构件的情境。交互过程的基本构件通过连接了模型的两个主要情境元素,加强了这种平衡。

图2描绘了实验室信息检索研究框架,位于其核心的是实验室信息检索模型。该模型包括一个文档集和一个检索请求,并采用相同的索引算法(检索请求被看做小的文档),最后在数据库中进行查询匹配操作。如果搜索引擎的第一次运行结果无法满足要求,就可能需要进行“伪相关反馈”来修正查询形式以进行第二次检索。伪相关反馈是指自动地反馈假定相关文档集,比如提取前五个文档组成匹配结果(一般按照算法相关性排序)。实验室框架的其它特征涉及评估检出文档的信息检索评价过程,评价通过比较检索结果文档集和标准结果集来实现,标准结果集由与预定义请求集相关的文档所组成。这些相关性评估需框架,它嵌套在一个(实验室)凹槽中,信息搜索者和其他情境因素处于凹槽之外。信息检索研究的核心实验室模型和更广泛的实验室研究框架嵌套在集成的研究框架之内(见图1模型的左侧部分)。Jrvelin[5]通过比较更早类型的集成研究框架、交互式信息检索认知模型(Ingwersen,1996),从理论上探讨了实验室框架。

图3以嵌套模型的形式更好地显示出了这种集成效果[6]。从图中可以看出,实验室信息检索模型处于信息查寻过程的情境之中,因为信息检索仅仅是获取信息的多种途径之一,信息查寻又嵌套于查寻行动者所感知的工作任务情境之内,而该任务过程又嵌套于社会—组织和文化情境之内。

该嵌套模型与Wilson[7]模型的不同之处在于,它考虑了其它的情境特征,包括影响搜索任务、搜索过程、交互行为以及检索过程的与工作相关或日常的工作任务。而Wilson的模型只关注信息行为情境下的信息查寻。从这点来说,图3的嵌套模型更接近于Saracevic[8]提出的层次模型,该层次模型为他的相关性类型定义和交互层次分析奠定了基础。

图3中嵌套模型的优点是它涉及工作任务、实现这些任务所执行的过程并且指出了任务的结果。因此,查寻(和检索)任务将受到工作任务的影响;为了应对工作任务环境的挑战,模型还指出,除了如满意度和查全率/查准率这些可用性方法外,形成新颖的信息检索结果评估方法的必要性。

图3 工作任务和社会—组织及文化环境下信息检索和信息查寻行为的嵌套模型

为了探讨Saracevic[9]、Cosijn & Ingwersen[10]和Borlund[11]的相关性类型的地位,Cosijn 2004年构造了一个替代的情境模型(见图4)[12]。该模型非常详细,且与图3中的嵌套模型、图1中的概念性集成研究框架和Saracevic的层次模型高度相关。

图4 信息查寻和检索(ISR)的情境相关性类型和评估模型

位于图4左上角的信息检索实验室模型像一种黑盒子,它通过界面(也可能是一个人类中介)保持与情境的开放性。而在盒子内部可以通过一定检索算法进行算法相关性的评估,并由界面显示最终结果。该模型的思想是当从情境特征(即上图右下角)移向系统时,搜索和检索行为就会产生,当然其中也可能伴随着多次查询修正的循环过程。人们发现,社会性的交互过程产生于个人、他/她所处的社会情境和从该情境中感知的工作任务之间。在信息查寻环境下,每一个盒子中都会发生关于搜索行为和内容的新的感知和修正。从相反方向移动,即从信息系统移向模型右侧的情境特征时,根据Cosijn & Ingwersen[13]的观点,信息利用将会发生,相关性类型也开始发挥作用,这正是该模型的优点。

Saracevic和Borlund[14]与Cosijn对相关性理解的不同之处在于对“社会—认知”相关性的不同解释[15]。“情境相关性”高度个体化时,“社会—认知”类型的相关性是指行动者群体或网络给特定对象赋予一定的相关性,比如可以通过长期形成的科学引用或是用户推荐的形式来实现,其中,用户推荐可以通过搜索引擎日志抽取获得。有人认为除引用分析外,数据挖掘也利用了各种各样的社会—认知相关性结构。以上两种类型的分析都是知识管理方面的尝试,以控制和可视化多种剧增的、质量不一的信息流[16-17]。

3 情境所包含的范围

很显然,对于图1-4所示模型的每一个构件及其本身的交互过程,人们都可以描绘研究设计所包含的对给定项目产生影响的研究变量集合。在概括和讨论这些变量之前,需要明确定义所考虑情境的边界范围。迄今为止,所有模型主要关注的是信息检索系统、搜索行动者及行动者感知的工作任务情形,在一定程度上,这些都是基于社会—组织和文化环境的;但是更广泛的社会环境是什么?一个人掌握相关情境特征需要达到什么程度或范围?Kelly[18-19]对之做出了进一步的研究。

一般来说,需要考虑的情境应满足以下两个特点:(1)与当前研究问题的中心构件是邻近的(见图1-4);(2)作为科学研究的可能偏差是可探测的。比如,对于“信息对象检索”这个问题的研究,就必须考虑来自邻近构件的变量(如图5),至少应考虑信息检索系统的算法、检索和交互过程(包括检索请求和查询类型)及信息查寻者的特征。在理想情况下,一些变量是独立的,而大部分变量是中立、受控的。“可探测”意思是指,如果某一研究领域内的一系列研究在给定时间点的情境特征中仅受到微不足道的影响,即使其在理论或认识论意义上可能有很大的影响力,那么也不应该考虑这一特征。然而,后来信息技术的发展或其他状况的发生确实可能使这些特征在研究中发挥作用,意味着这时需要考虑这些特征。例如,对于“信息查寻者”所处的情境而言,信息检索交互过程中的“时间显示”就是这种类型的变量,尽管到目前为止,它看起来似乎与相关性评估并无(正面或负面的)联系[20]。

图5 以信息检索系统的信息对象为中心的情境类型的嵌套模型

(Ingwersen[21];Ingwersen & Jrvelin,[22]的扩展)

表1 信息查寻和检索(ISR)的整合研究框架的九个维度

由于嵌套取决于实证研究中所强调的中心,图5的模型对先前图1-4所示模型的构件进行了重组。图5中所示的特殊结构以“信息对象”为中心,显示了研究中值得探究的邻近情境元素。Ingwersen对其它结构进行了论证和讨论。他认为,模型存在如下六个嵌套的情境类型:

(1)对象内部结构:项、短语、图像特征、像素、句子、段落、章节等;

(2)对象内部情境:链接、引用、各类文档簇等;

(3)交互(会话):搜索和创造过程的证据,例如眼睛/鼠标移动、工作任务描述、精确相关反馈、搜索任务路径;算法化的信息检索过程特征、自动标引关键词串等;

(4)取决于中心构件的单个情境:主观的如行动者、当前的工作任务感知等;客观的如引擎逻辑/算法、界面功能等;

(5)取决于中心构件的集体局部情境:(局部)社会—组织—文化结构/状况如领域词汇、自然工作任务、组织偏好、搜索者的工作任务感知、社会—认知相关性评估和推荐、模糊相关反馈行为;(局部)系统化状况等;

(6)技术—经济—政治—社会基础设施,它影响所有行动者、构件和交互式会话。

另外,历史情境在整个层级发挥作用,例如所有参与者的以往经验构成了他们的期望。所有交互式信息检索过程和行为均处在这种临时情境之中。

显然,当不断接近集体局部情境(5)到达社会—经济整体情境(6)的边界时(见图5),有关情境的研究设计中存在一个实际的制约因素。但是,就像Dick[23]所指出的那样,当利用这个模型分析发展中国家的信息状况时,对于如何在这些国家及其机构内开展信息工作(和信息查寻与检索(ISR)),技术和政治基础设施(6)是一个强有力的决定因素。在国际化和区域化的层次上,技术—经济结构和历史情境在正确理解该国家和区域的各种发展进步中起着关键性的作用。在更狭义的有关信息查寻与检索(ISR)的信息研究意义上,研究设计一般涉及图1-4中情境构件的各种变量。信息查寻与检索(ISR)的集成研究框架也包括来自“集体局部情境”(5)的变量,根据实证观察和图1、3-4中的模型,这个情境对其它模型构件具有强烈的影响力。搜索者基于所感知的与工作相关的或日常工作任务形成信息需求。特别是在某些知识和人力资源繁重的组织中,这些工作和搜索任务作为本地知识管理系统的一部分是客观存在的,例如医药和生物公司的“良好作业规范(GMP)”或“良好实验室规范(GLP)”以及类似的知识源。同时,本地雇员在工作过程中的行为记录,或数百万的本地或全球搜索者的搜索日志也是这种情境的一部分。

4 信息查寻与检索(ISR)的集成研究框架

九个维度的变量共同构成了集成的研究框架,它们与图1—图4中模型的构件和图5中(1)到(5)的情境相关。表1显示了这九个维度及其与信息查寻与检索(ISR)构件之间的关系,每个维度包含许多变量,每一个变量具有一个以上的值[24](见表2和表3)。下文将对表1所示内容进行简单介绍。

首先,前两个维度,即“自然工作任务”和“自然搜索任务”与社会—组织和文化情境构件相关。上文已简单地讨论过,这两个变量集关注客观工作和搜索任务,而且存在于工作和日常生活环境中。其次,行动者构件由三个维度组成,其中两个与感知的“自然工作/搜索任务”变量有关;另外一个维度关注行动者的个体特征,如领域专长和查寻知识层次。

“文档维度”概括了与文档特征相联系的已知变量,如“文档类型”、“种类”或“结构”。变量存在两个“算法维度”:其中一个维度处理搜索引擎及其算法性检索模型或自动标引中“权重的利用”,而另一个维度是关于界面变量的。

5 讨论

在许多研究环节中已经对其中一些变量进行了研究,例如搜索者的专长和知识层次。而对于其它变量,很少或几乎没有在自然环境下进行研究,比如工作任务的“粒度”。

可以将单个或一组维度与先前显示的(交互式)信息检索模型相联系。在图2的信息检索实验室框架中,中心维度是“文档和来源”与“搜索引擎和信息技术构件”。当与主流信息检索中的实际研究比较时,笔者注意到仅最近的实验室信息检索涉及像“文档种类”或“文档自身”(元数据)这样的变量。只有很少的情况下不同的变量才会交叉,如为了理解每个模型的优点和其对信息检索性能的影响,需要比较不同的文档类型和种类,这些文档类型和种类与不同检索模型测试时的文档结构和布局相关。

在实验室信息检索框架中基本不考虑“界面”维度,但是人们越来越意识到请求类型(请求模型构建函数)和信息需求类型对信息检索结果的影响。在图1、图3和图4中所谓的“light”信息检索交互中[25]包含了情境维度,如基于“会话”搜索环节中的“行动者”和“感知的工作/搜索任务”等。在“ultra-light”信息检索交互类型中(仍旧在实验室框架之内,见图2),查寻行动者可能仅执行一次程序以提供相关反馈,或基于先前知识的情境特征来模仿搜索者行为。因为测试者在单一检索过程中具有学习效应。一系列连续的尝试确实可能使研究设计具有现实性,但是这样会使检索结果无法与图2中已建立的“测试集”中的相关性评估进行比较。

根据图4中的Cosijn模型,“light”信息检索交互涉及进行相关性评估的搜索者。像Borlund[26]建议和测试的那样,一般的,“light”信息检索研究设计可能涉及问题指派、更好的工作任务情形模拟等。任务情形模拟的优点是搜索阶段保留了某种程度的实验控制,但是也考虑了测试人员信息需求和请求表达的个人自由;缺点则是通过模拟来替代实际任务和需求情形时必须非常谨慎。

在完全自然的信息检索交互和信息查寻行为领域研究中,所有九个维度都可能有助于变量被选择为独立变量、受控或中间变量或只是被简单看作“隐变量”,从而产生具有潜在偏差的结果。根据各种研究问题和信息查寻与检索(ISR)集成研究框架应用的例证,Ingwersen & Jrvelin[27-28]提供了不同的研究环节和方案。

(收稿日期:2008-09-25)

标签:;  ;  ;  ;  

态势驱动的交互式信息检索集成研究框架_信息检索论文
下载Doc文档

猜你喜欢