信息检索中的相关模型_信息检索论文

信息检索中的相关性模型,本文主要内容关键词为:相关性论文,信息检索论文,模型论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

〔分类号〕G350

1 引言

自上个世纪50年代Mooers、Taube、Perry等将计算机技术应用于信息检索之后,相关性(relevance)就成了该领域的核心研究内容。在过去的50多年里,相关性研究已经形成了面向系统与面向用户两个学派,其中代表性的观点有系统观、信息观与情境观[1]。系统观的代表人物除了前面提到的 3位之外,还包括Salton等,其研究主要围绕检索系统的分析、设计以及评估展开,其核心研究内容是检索模型以及查询表达式与文档或其替代品间的匹配算法。信息观的代表人物有Cooper、Ingwersen、Lancaster等,主要研究查询请求与文档间的概念关联性。情境观的代表人物有Wilson、Hatter以及Schamber等,主要研究信息与用户信息需求情境间的关系,其基本观点认为只有用户才能完成有效的相关性判断。三者相较,系统观主要从客观的视角进行相关性研究;情境观主要基于主观的角度;信息观则介于两者之间,主观与客观兼具。

以上观点对该领域研究的意义是显然的,不过有必要对其加以反思与梳理,以免陷入具体的细节中。Saracevic、Mizzaro、Cosjin以及Borlund等构建的多种相关性模型完成了该方向的研究,使相关性研究实现了系统化,达到了既见树木,又见森林的目的。下面分别从其他学科以及信息科学的视角讨论相关性模型。

2 相关性模型——其他学科的视角

除信息检索外,相关性也是哲学、逻辑学、心理学以及通讯科学的主要研究内容。由于哲学等学科的发展历史较信息检索要久远得多,其开展相关性研究的历史也明显早于信息检索领域,因而对信息检索领域相关性研究的探讨无法绕开这些领域所提供的良好背景。除学术圈之外,相关性也是日常生活中广泛应用的概念,不过人们在使用时似乎并没有遵循什么严格的定义与框架,而完全基于直觉。

2.1 相关性的直觉理解

《美国传统词典》相关性词条的解释是“pertinence to the matter at hand”(与手头的事务有关);《汉语大字典》以及《现代汉语词典》对相关的解释是“彼此关联”。这些权威词典的解释实际上就是对相关性的直觉理解。几乎每天,甚至每时每刻,相关性都会出现在人们的日常生活、学习以及工作中,例如人际交流、信息检索以及信息咨询等交互式活动,人们都会根据直觉的理解将其应用于过滤、评价、推理、排序、接受、拒绝、联系、分类等任务,几乎没有人质疑过其定义问题。相关性是一个基础的认知概念,正如自然科学中的公理是相应学科开展研究的基础一样,相关性也已经成为信息检索领域开展研究与应用的基础[2]。相关性在日常各个领域的广泛应用,使得以相关性为基础的信息检索系统能够获得广泛的成功,其内在的原因就是人们依据相关性的直觉能够非常容易地理解所检索的一切。

相关性的直觉理解认为相关性的基本属性是动态的,是随着用户意图、认知水平以及手头事务的不同而变化的。虽然相关性的直觉理解在日常应用中没有遇到什么障碍,但不足之处在于缺乏对其本质的认识与思考。

2.2 哲学视角的相关性

哲学领域中,专门以相关性为主题展开研究的主要是 Schutz[2],他认为相关性是决定“生命世界”(lifeworld)中复杂联系的基本属性,并将其分为相互独立的3种类型,即:主题相关性(topical relevance)、解释相关性(interpretational relevance)以及动机相关性(motivational relevance),三者之间的关系见图1。其中,主题相关性是指从情境(horizon,指社会背景、个人经验等)中分离出来的主题(theme);解释相关性是指基于情境、知识积累以及过去的经验等对主题的解释;动机相关性主要指的是选择,即在多个解释中选择其一。Schutz认为这3类相关性之间存在动态交互以及相互依赖的关系,并将其称为“相关性系统”(system of relevancies)。

Schutz研究的优势在于首次从理论上解释了多种不同类型相关性的存在及其交互性与依存性,从哲学角度为该领域存在的多种不同类型的相关性提供了坚实的理论基础,对信息检索领域的相关性研究具有重要的指导意义。

图1 相关性系统

3 相关性模型——信息科学的视角

在信息科学领域,Mizzaro与Saracevic分别构建了各自的相关性模型,而Cosjin与Borlund的研究则在Saracevic的基础上又前进了一步。

3.1 四维模型

Mizzaro在文献[3]中对信息检索领域的相关性研究进行了全面的综述,在此基础上提出了相关性的四维模型[4]。

3.1.1 第一维:信息源 Lancaster提出了“相关性是两个集合中元素间的关系”的观点[5],该观点已经成为学界的共识。 Mizzaro的四维模型中也包括这样的两个集合,其中第一个集合主要包括文献、文献的替代品和信息3个元素,第二个集合是下文即将介绍的用户信息需求表示。

● 文献,指用户从检索系统中检索出的物理实体 (physical entity)。

● 文献的替代品(surrogate),指文献的表示,包括下列部分项目或全部:题名、关键词列表,作者以及文摘等书目数据。

● 信息,指用户在阅读检索出的文献时所获得的非实体性内容。

Mizzaro认为三者的关系是:替代品〈文献〈信息,但这种关系不是一成不变的,在某些条件下可以修正。

3.1.2 第二维:用户信息需求表示 该维的思想主要来自 Belkin的ASK研究[6-7]。Belkin认为用户与检索系统的交互过程包括以下几个阶段:

● 最初,用户处于有问题需要信息的辅助予以解决的状态,即他有真实的信息需求(RIN,real information need)。

● 然后,RIN被用户感知(perceive)并构建感知到的信息需求(PIN,perceived information need)。PIN是RIN的心理表示,由于有时用户可能并不能以正确的方式或方法感知RIN,因而PIN有别于RIN。

● 其后,用户通过查询请求(request)表达(expression)PIN,即用自然语言描述PIN。

● 最后,用户(可能在检索中介的帮助下)借助于检索语言将查询请求形式化(formalisation)为查询表达式(query)。

4个元素(RIN,PIN,查询请求,检索表达式)与3项操作(感知、表达、形式化)间的关系见图2:

图2 信息需求的转化

3项操作实际上并不像看起来那么简单,其中有许多重要问题有待解决。首先,当用户处于RIN状态时,从RIN到PIN的感知过程是非常困难的,用户必须了解一些他还不熟悉的内容,Belkin引入了ASK以强调用户可能不知道他到底想要了解什么。其次,表达可能受到下列诸问题的影响而产生偏差:①标签效应,实验证实用户信息需求的表达是通过“标签”或者关键词等实现的,而不是完整的陈述。②词表问题,源于文献中词汇与查询请求中词汇的不匹配,也源于词表词汇的无二义性以及自然语言中的同义现象。③形式化的难度,主要是用户难以掌握检索系统的检索语言。

图3 二维空间的相关性模型

由于这些问题的存在,用户不一定意识(PIN)到自己实际上想查询什么信息(RIN),他所表达出来的需求也可能与 BIN甚至PIN存在一段距离;由于查询表达式(query)只是需求的形式化表示,与前三者也可能存在差异。

基于以上认识,Mizzaro认为相关性反映了两个集合(信息源与用户信息需求表示)中元素之间的两两关系(见图 3),比如替代品与查询表达式的相关性、信息与用户RIN之间的相关性等;认为相关性是二维平面上的交点,图中的箭头表示偏序关系。通过图3可以解释许多已经得到广泛认同的相关性类别。比如,Vickery的“主题相关性”以及“用户相关性”分别对应图中的点1与3,而Cranfield实验以及 TREC所依赖的相关性则为点1或点2。

3.1.3 第三维:时间 早先多数学者只考虑了上述二维的情况,实践证明这是远远不够的。文献、替代品或者信息对于某一特定的查询而言,可能在某一时刻是相关的,在其他时刻又是不相关的。这种变化常发生于用户已经学习了新知识或者RIN发生改变的时候。因此,图3的二维平面必须修正以适应用户与信息检索系统的动态交互过程(见图4)。

图4 三维空间的相关性模型

时间维典型地体现了相关判断的动态性,由于用户具备的知识及其RIN都会随着时间的推移而变化,因此其对文献相关性的判断也必然是动态变化的。目前,时间因素对相关性的影响已经得到学界的认同,但也随之产生了另一个难以解决的问题,即相关性判别标准的制订更为棘手。

3.1.4 第四维:构件 Mizzaro认为图3与图4中的每一点可以分解为主题(topic)、任务(task)和背景(context)3个构件。其中主题是用户的兴趣域;任务是用户信息查询后在所获文献的基础上开展的活动;背景则包含了主题与任务之外的所有内容。

总之,Mizzaro认为相关性集合可以定义为前面四维各自所形成集合的笛卡儿积,即信息源×用户信息问题表示×时间×构件。四维模型虽然将相关性的各个层面分析得淋漓尽致,但也已经将相关性置于无法准确测度的境地。

3.2 交互模型

上个世纪50以及60年代的信息检索系统是静态的批处理系统,从70年代开始,由于计算机网络技术的进步,信息检索系统逐渐发展成为动态的交互系统。实践中,交互已经成为信息检索系统一个非常重要的特征。Ingwersen、Belkin以及Saracevic分别提出了信息检索交互的认知模型、片段模型以及层次模型。

3.2.1 认知模型 Ingwersen的认知模型集中于发掘所有信息检索过程所涉及的认知元素,包括信息对象、信息检索系统与设施、界面、用户的认知空间以及社会/组织环境等(见图5)。该模型的主要观点包括:①信息检索交互是一组认知过程的集合,并隐含在信息检索的所有过程中。②用户在与系统的交互过程中完成大量的认知建模。除了系统之外,用户还与信息对象进行交互。③用户的认知空间是一组结构化的且具有因果关系的元素集合,其中用户的认知以及语境(situational contexts)是主要的影响因素。④交互是高度动态的[8-9]。

该模型似乎没有明确地对相关性予以阐述,不过由于认知表示与建模都是围绕或者基于相关性进行的,因此它对相关性的处理也是高度隐含的。

图5 信息检索认知模型

3.2.2 片段模型 Belkin认为信息检索的核心问题不是如何表示信息对象,而是如何描述用户的ASK,即认知以及情境层面才是用户求助于信息检索系统的真实原因。据此,Belkin提出了信息检索交互的片段模型,该模型认为用户与信息检索系统的交互是一系列发生于信息查询片段中的交互(见图6),其中,核心的交互过程是用户与信息的交互。在不同的时刻,用户交互的内容是不同的,每种交互都依赖于不同的因素,例如用户的当前任务、目标、意图、片段的历史等。不同类型交互的存在是因为它们支持不同的过程,例如表示(representation)、比较(comparison)、摘要(summarization)、导航(navigation)以及可视化(visualization)等。因此,相关性只存在于部分类型的交互中,不过相关性是多种类型交互的基础[10-12]。

图6 信息检索片段模型

3.2.3 层次模型 Saracevic提出的层次模型(见图7)也是将交互融入传统信息检索模型的一次尝试。该模型的基本假设包括:①用户与信息检索系统交互的目的是为了利用信息。②信息利用是与认知以及情境相联系的。该模型力图:①协调强化以系统为中心及以用户为中心的相关性研究,以充分发挥两者的优势,同时尽量避免两者的不足。②形成对信息检索领域相关性的本质认识[13-15]。层次模型借鉴了人机交互的研究成果以及语言学中的分层理论。

图7 信息检索的层次模型

Saracevic对层次模型的阐释源于获取-认知-应用(A -C-A)模型。在信息检索中,获取(acquisition)是指获取信息,认知(cognition)指的是吸收信息或者基于认知对信息加以处理,应用(application)则是利用所吸收的信息同时也基于认知、特定的情境以及环境对信息进行处理。A-C-A涉及不同的元素,而这些元素则具有不同的作用、目的、过程。信息检索交互是用户与系统之间通过界面的对话,该对话可以重复进行,其主要目的是影响与用户手头事务紧密相连的认知状态。

Saracevic认为信息检索交互是发生在几个互相联系的层面上的,每个层面包括不同的元素与过程。在用户方面包括认知、情感以及情境等层面。在计算机方面则包括工程、处理以及内容等层面。

——用户方面

● 认知层面。用户与信息资源进行交互,并依据信息资源构建认知结构,用户对信息资源的解释、理解、吸收以及处理都是基于认知的,其中必然涉及基于用户现有的知识储备进行的相关性推理。

● 情境层面。用户与手头问题进行交互,而该问题是产生信息需求以及与之相关联的查询的源动力。交互过程中情境可能被重新解释,作为结果的信息需求以及查询也得以更新,相关性是从认知到情境层次推理的必然结果。

● 情感层面。用户与之交互的内容包括:目的、动机、满意度、焦虑、成功以及失败等。相关性在所有其他层次上所起的作用都是通过情感层次的激发实现的。

——计算机方面

● 工程层面。主要包括硬件、设计属性以及内嵌的特征,比如容量、性能、处理能力等。

● 处理层面。着重考虑软件层面。在信息检索中主要是指处理用户层面与计算机层面在交互过程中的文本、查询表达式以及界面等的一些算法或方法。

● 内容层面。主要集中了信息源,是信息对象及其表示等,还包括元数据。

Saracevic基于层次模型阐述了相关性的本质,认为用户与计算机交互的主要目的就是处理相关性。在交互过程中存在许多层次,每一层次都涉及相关性的思考与推理,反过来相关性也可以在不同层次的思考中得以提升。也就是说,信息检索中存在着动态的、相互依赖的相关性系统。假如接受信息检索中相关性的本质是相互依赖的相关性系统,则必然存在以下的推论——不能将该相关性系统中的任何一个层次或者元素作为单独的或者唯一的相关性的观点。研究中不能只突出其一而忽略其他层次的相关性。情境的、心理的或者系统的相关性不存在也不可能存在于各自的真空中。

简言之,信息检索中的相关性是用户与系统之间交互式信息交流效果的反映。交互包括不同的层面,在这些层面中相关性是可推理的,这导致了相互依赖的相关性系统的存在。实践中,相关性系统使得交互在信息检索中的意义上得以实现,并且将不同的层面紧密结合起来。如果不存在这样的相关性系统,则目前使用的信息检索系统也将不复存在。

3.2.4 层次模型的改进Saracevic以层次模型为基础,阐释了相关性的基本属性(关系、意图、背景、推理以及交互)与类别(系统/算法相关性、主题相关性、认知相关性、情境相关性以及动机相关性)。Cosjin与Borlund对Saracevic的情感/动机相关性定义提出了改进意见,即情感相关性不是动机相关性的同义词,动机相关性已经包含在相关性的意图属性中[16-17]。该观点可以简单地从Saracevic有关意图与动机相关性的观点中得出结论,即意图是目标、任务、期望以及动机;动机相关性“描述了意图、目的以及用户的动机与检索出的文本或现存的文本之间的关系”。对两者简单分析一下就可发现:动机相关性也处理用户的意图、目标以及动机,其所有内容都已包含在意图属性中,因此动机相关性显得冗余。情感相关性是高度个性化的,也是非常主观的,Schamber以及Barry等的研究表明它贯穿了所有主观相关性类型的特征[2,18]。据此,Cosjin修正了Saracevic的相关性模型,没有将情感相关性作为一个类别,而是作为一个与时间相关联的维度,并用社会-认知相关性取代了动机相关性。Cosjin认为社会-认知相关性是由用户与环境中群体的交互过程决定的,而情境相关性则与其存在明显区别——后者是完全主观的,这些差别在意图、推理以及交互属性方面尤其明显。改进后的模型见表1。

表1 修正相关性的属性与类别

┌──┬────────────────────────────────────┐

││类 别 │

│├──────┬─────────────────────────────┤

│属性││情感相关性│

││ 系统/算法 │ │

││├───────┬───────┬──────┬──────┤

│││主题 │ 认知/有关

│情境/有用牲 │社会-认知

├──┼──────┼───────┼───────┼──────┼──────┤

│││ │ │已经感知到 │在社会文化 │

││查询表达式 │查询表达式│知识状态/认

││背景中感知 │

││〈=〉信息

│中的主题〈│知信息需求│的手边的情 │到的手头的 │

│关系││=〉信息对 │〈=〉信息 │境、任务或同│情境、任务或│

││对象(基于 │ │ │题〈=〉信

││

││特征) │象│对象 ││问题〈=〉

│││ │ │息对象 │信息对象│

├──┼──────┼───────┼───────┼──────┼──────┤

││(a)系统依 │(a)用户/评 │ │高度个性化 │高度个性化 │

││赖的│估者的期望│高度个性化││的主观的/

│童茁│(b)隐藏在 │(b)隐藏在

│的、主观的且 │的、主观的且│组织决策,与│

││算法中的意 │查询表达式│与信息需求│与工作任务 │用户的经验、│

│││中的意图 │ │相联系的│传统以及科 │

││图 │ │ 相联系的 ││学范型相联 │

│││ │ ││ 系│

├──┼──────┼───────┴───────┴──────┴──────┤

││调整搜索引 │所有主观相关性类型的定义都是背景依赖的(用户或者评│

│背景│擎性能(例 │ │

││如TREC)│估者的背景》 │

├──┼──────┼───────┬───────┬──────┬──────┤

│││ │认知/实用的

│用户以有意 │对环境有意 │

││权重或者排 │关于性以及│解释、选择以 │义的方式利 │义的背景下 │

│推理││语义层次的│及过滤的主│用信息对象 │用户(组织)│

││序函数 │ │ ││ 利用信息对 │

│││主题解释 │观的,个性化 │的能 力 ││

│││ │的过程││象的能力│

├──┼──────┼───────┼───────┼──────┼──────┤

││自动的相关 │相关性判断│相关性判断│││

│交互│反馈成者查 │是内容依赖│是内 容、特

│包括与环境 │包括环境中 │

││询修正 │的│征、形式以│││

│││ │及表达依赖的 │的交互 │的交互 │

├──┴──────┴───────┴───────┴──────┴──────┤

│ 增加

时间 依赖 =〉│

└───────────────────────────────────────┘

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

信息检索中的相关模型_信息检索论文
下载Doc文档

猜你喜欢