相关性基础理论及其在检索建模中的作用研究,本文主要内容关键词为:相关性论文,基础理论论文,建模论文,作用论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 概念界定与研究基础
1.1 相关性概念
相关性是情报学和信息检索研究中的一个基本概念,不同的学者对相关性有着不同的界定,呈现出百家争鸣的局面。代表性的定义如下:
Robertson将相关性定为“系统外部的二元变量,此变量对于系统而言起到基础作用”[1]。Robertson将相关性等同为有用性(Usefulness)或用户满意度(User Satisfaction),此陈述是信息检索系统研究学者们对相关性较为一致的观点的代表。
Schamber,Eisenberg和Nilan则明确指出:“情报学家必须最终给出相关性的理论的和经验的理解和定义,相关性是(情报学的)基本概念”[2]。这样的论述,从一个侧面说明了相关性概念内涵尚不十分明确,但同时这也有助于不同学派的学者发表自己的见解,形成完备有效的理论体系。
进行用户研究的学者则认为相关性体现一种关系[3],或者是一种关系和度量(Measure)[4]。二者均侧重于系统和用户之间的关系研究。这里,英文“Measure”姑且翻译作“度量”,后文将说明它不是严格意义上实变函数中研究的“测度”,这一理解对系统相关性的研究影响很大。
1.2 相关性的哲学基础
到目前为止,就“相关性的哲学基础”这一命题还没有人给出明确的答案。但是某些哲学思想,尤其是从哲学领域论述相关性问题的哲学思想,事实上成为某些相关性模型的基础。Saracevic认为与相关性有关的哲学分支或流派包括逻辑学、现象学、认识论、解释学和语言游戏等[4]。其中,逻辑学主要来自相关逻辑的研究,一些情报学学者使用命题逻辑来定义相关性。Schutz[5]和Luckman[6]的现象学研究对情报学,尤其是Saracevic的分层模型影响很大。Hjφrland使用认识论四大学派来证明相关性标准[7]。
1.3 相关性在情报学中的地位
相关性的研究在情报学和信息检索的研究中所处的地位非常重要。Saracevic指出,相关性是“情报学的关键问题,同时也是最令人头疼的问题”[8]。早在1975年,Saracevic指出“相关性是情报学独立发展,而不是作为图书馆学或文献学一部分发展的基础”[9]。他认为相关性是图书情报分立的基础和核心原因,是使得情报学区别于图书馆学和计算机科学(人工智能)的核心要素。
Schamber,Eisenberg和Nilan则着重研究相关性对于情报学本身的作用,认为“自从20世纪四五十年代情报学成为一门独立学科以来,相关性就被确定为基础和核心概念”,但是他们也同时承认“这一概念并不十分清晰”[2]。
1.4 概要述评
Saracevic总结了1975年之前的相关性研究;讨论了关注相关性的学科;按系统、主题文献、主题知识和实用等综述已有的工作[9]。Saracevic还重点介绍了相关性模型、表现方式和与相关性有关的用户行为等问题[4,10-11]。Saracevic的分层模型见图1。
图1 Saracevic的分层模型
Mizzaro总结了相关性研究的7个方面,提出了一个分析框架,并用编年体的方式综述了已有的代表性相关性研究[12]。Mizzaro进一步深入详细地讨论了相关性的4个维度[13]。
Cosijn和Ingwersen从认知的角度讨论相关性问题。着重讨论其中的认知、社会认知、情境和情感因素,有强烈的“认知”特色[3]。
此外,从20世纪80年代晚期到90年代中期,Syracuse大学的研究者在相关性的研究中起到了非常重要的作用。他们最大的贡献是研究方法的创新,将相关性的研究纳入了用户行为研究的框架。在相关性的术语方面,“用户定义标准”(User Defined Criteria)、“文献特征”(Document Characteristics)等专业术语已经固化在如今的相关性研究之中[12]。
2 相关性基础理论
2.1 相关性理论
2.1.1 相关性的类型与表现方式 相关性的类型繁多,目前理论界广泛承认有多种相关性(Many Relevances)。不同的研究者对相关性的研究和认识都有自己的侧重,但是,这也使得“什么是相关性”这样一个问题成为情报学基础研究中说不清楚的问题。
具体说来,相关性有系统相关、内容相关、认知相关、情境相关、情感相关等,分别对应于语法、语义、认知、语用和情感(动机)。从这样的表现方式来看,它是有层次的。由于目前用户研究,尤其是用户行为研究在相关性研究中占有绝对优势,相关性的研究则更侧重“交互”中的相关性,认为系统相关是“弱相关”(Week Relevance)。这种认识对目前的相关性研究影响很大。
2.1.2 相关性模型 Mizzaro的相关性框架能够较为清晰地说明相关性的多维度(4个维度)、多层面和动态性的特点;明确说明了信息检索和利用过程中的信息损失。从Mizzaro相关性理论形成的过程和其代表性框架而言,Mizzaro的相关性模型具有典型的问题解决的特征。此相关性模型从真实需求产生的时点开始,通过一系列的问题解决途径,最终达到真实需求的满足。
Saracevic的相关性模型是一个分层模型,同时也是一个动态的过程。在这个模型中,更多的是交互问题。Mizzaro的真实信息需求、感知的信息需求、检索请求和查询都存在于用户的大脑之中;而Saracevic的系统相关、内容相关则存在于客观的载体之中,这与Saracevic研究用户行为的背景有关。但是应该承认相关性是“动态的”,这在一定程度上为相关性的建模带来挑战。
2.1.3 相关性的属性与维度 在相关性的研究之中,“维度”这一概念并没有明确的指称,不同学者有着不同的诠释。Mizzaro使用“维度”的概念,代指其相关性研究框架中的4种影响因素。Cosijn和Ingwersen使用“维度”的概念,将Saracevic所指“属性”和“表现方式”组成二维表,在此二维表中讨论相关性,对情感相关进行质疑,并用社会认知相关代替情感相关(见表1)。
2.2 研究方法与方法论
2.2.1 相关性研究方法之争论——谁为核心 系统相关通常采用非常简化的相关性假定。事实上,对于系统设计而言,很难对用户的认知和行为建模。Saracevic在认识到“相关性研究由于有人的因素而变得困难”的同时,没有意识到“对人建模更加困难”。
用户相关通常把相关性划分成若干类型。这些学者认为其研究能够使各种能指相关性更接近用户的所指相关性。目前,用户研究方法成为相关性研究的主要方法,这也决定了其研究对象和研究结果侧重于用户相关性。但是,这些相关性很难被建模、计算。
尽管争论还在持续,目标只有一个——为情报学学科的发展而服务。系统相关和用户相关的学者们一起在构建“通天塔”,它是我们的努力方向。而寻找系统相关与用户相关的契合点和共同发展基础,则可能是这一领域研究发展的关键。
2.2.2 相关性研究方法论 在相关性的研究中通常使用归纳法,尤其是在构建相关性模型和相关性研究的统一框架时经常使用。演绎法在相关性研究中使用较少,主要原因是相关性研究确实与人的主观因素联系较大,在国外主要是从事用户行为研究的团队在做相关性的研究,习惯于使用归纳方法。
以Schamber等人为代表的“Syracuse学派”使用一系列情境的、动态的用户行为研究方法来研究“相关性行为”。在Schamber,Eisenberg和Nilan的文章的第六节中详细讨论了她们的方法论体系,对相关性研究有很大影响[2]。
2.3 相关性判定
相关判定与相关性有所区别。“相关判定是判定者在某一特定时点上对相关性赋值的行动”[13]。但另外一方面,某些相关性的定义本身就模糊了相关性和相关性判定这两个不同的概念。事实上,我们对相关性判定了解得更少,连相关性判定最基本的属性都没有达成共识。如果考虑到相关判定,整个与相关性有关的研究则更为复杂。
尽管存在各种批评,目前相关性判定遵循以下范式(假设)[4]:内容相关、二元假设、独立假设、稳定假设、一致假设、完全性。尽管用户相关学派在相关性研究中拥有优势话语权,但是实际的相关性判定都依照系统相关学派的假设进行。究其原因,应该是我们对相关性进行建模,尤其是量化研究不深入造成的。
相关判定经常与信息检索系统评价混为一谈。首先,信息检索系统评价本身就是一个相关判定的过程。信息检索系统评价离不开相关性、相关判定作为支撑。评价指标体系也是在一定的相关性及其判定为基础的前提下设计出来的。在这个意义上说,信息检索系统评价是相关判定的一种表现。此时相关判定是一个“反应”(Reactive)的过程。用户在选取相关的文献(或替代品),点击选中的网页,或者对系统进行相关反馈时,这些过程本身也是相关性判定的过程。此时相关判定是一个“被动”(Positive)的过程。最重要的,系统接收用户查询,返回检索结果,这个过程本身是系统相关判定的过程。此时,相关判定是一个“主动”(Active)的过程[2]。
3 相关性与信息检索模型
3.1 标引与相关性
在所有的相关性模型之中,均没有提到“词相关”或“术语相关”的概念,因为在各种信息检索模型之中,标引词的权重事实上是“相关性”这个概念的载体。扩大开来,任何一种相关性,在目前几乎所有的相关性学派之中,都使用词(或符号系统)作为相关性的载体。
对于系统相关而言,给标引词赋权重的过程就是将标引词纳入一定的相关性框架的过程。对于用户行为的相关性而言,其相关性的表达、交互和利用都是凭借标引词或者类似的符号系统完成的。对于用户认知的相关性而言,词语和符号是其认知和理解的过程。而对于系统(或主题)相关性而言,Hutchins认为标引实际上就是标引员对文献进行标引的过程,其中含有了标引员对文献及其相关的内容相关的判断[14]。内容相关性(Aboutness)与标引过程有密切关系。笔者亦是在这样的假设基础上进行深入研究。
3.2 主要信息检索模型中的相关性因素
在经典布尔模型中,相关性是一个抽象的概念,相当于英语中的“it”,它的作用并不十分清晰。相关判定是二值的。此时,标引词的存在与否不能作为相关性的体现,因为这种简单的存在并没有一个需要系统来判断的过程。对于经典布尔模型而言,相关性是外赋的,没有“主动的”相关性存在。整个空间的特性异常简单。
在向量空间里有了距离的概念,Rijsbergen证明这个线性空间是Hilbert空间。但是这样的Hilbert空间在Rijsbergen的证明中最终落到“聚类”研究[15]。也即我们现在清楚了文本空间的特性,以及查询向量映射到文本空间的情形,但是我们不清楚匹配函数的特性。在向量空间模型的文本空间中,相关性体现在为标引词赋值的过程中,它是系统对相关性判定以词为载体的体现。不同的文档向量之间有“相似”,这里的相似与相关有类似属性,均为判断一种关系,但是可能具有不同的性质。在整个线性空间的模型之中,我们最清楚的是它的度量;与经典布尔模型相比,相关性体现得更为具体一些,相当于英文中的“it is”。
概率模型基本假设存在相关集合R和非相关集合I,通过决策函数来决定是否相关——概率排序原理。在概率模型中,所有的问题都变成了与概率有关的问题。通常对排序依据有两种解释。其一是概率,此时相关是一个连续的量,它分布于整个概率空间,而相关判定是二值的。另一是分值(Score):此时相关是二值的;而相关判定是连续的的量,表征了离开“所指”相关的远近程度。在概率模型中,相关性体现得更为具体——相关集合R,相关性相当于英语中的“it is a”。
模糊集合模型是对经典布尔模型的一种修正。而这里面所修正的,就是在其中添加了“相关性”的因素。模糊集合模型中,隶属函数可以认为是相关判定。则既体现了相关性,又体现了相关判定。但是在另一方面,我们对模型空间本身的认识却不如向量空间或概率模型来的透彻。
Dominich使用模糊集合论的框架,将模糊集的隶属函数特化成度量函数或概率排序函数等,建立了信息检索统一空间[16]。Dominich进一步证明这样的空间是Hausdorff空间,这为我们掌握空间的结构提供了有力的支持。这样的空间中,能够较清楚地找到相关性和相关判定的影子;并且相关性满足的性质要比相似(距离)满足的性质要弱。
3.3 查询与伪相关反馈
查询是将信息检索系统与用户联系起来的过程,也是长期以来信息检索研究的重点和主要瓶颈。查询包括两个过程:首先,将查询向量映射到关键词文档空间得到映射后的向量,这个过程就是在系统实施中的沿索引查找的过程;然后,映射后向量与文档向量进行匹配,返回命中文献,这个过程是排序的过程。
这里没有讨论M的平移不变性,可以证明M具有平移不变性,但是现在看来它对实际的信息检索研究意义不大。查询与文档空间的性质两相对比,显然后者在数学上的性质更好。
上述对比使我们有如下印象:文本空间本身具有很好的特征,而当用户需求以查询形式输入时,查询匹配过程便将这些很好的性质抹杀掉,成为信息检索的瓶颈因素。因此,需要用户在查询中“注入”更多的需求和相关性判断,这个过程就是相关反馈的过程。
3.4 相关性在信息检索模型中的作用
在统一的空间表示中,相关性可能与具体的公理或者定理有关,Hausdorff空间的特征为我们研究模型中的相关性提供了线索。但是我们也可以看到,与用户需求越远,空间性质就越好;反之,与用户需求离得越近,其空间性质就越不好(数学意义上)。排序函数一直是信息检索系统实现的瓶颈,从本文研究的结果而言,主要原因是其不可测。
对于信息检索模型而言,匹配函数(或排序函数)事实上就是相关性判定的体现。从这个意义上讲,相关性判定是不可测的。在某些场合下,我们需要相关性因素的注入,也即用户告诉系统哪些是相关的,这个注入的过程就是相关反馈。
4 结束语与进一步研究工作
4.1 重新审视相关性研究
目前主流的相关性研究均来自用户行为团队,强调用户是他们的特色。可以认为这些学者是相关性研究的“理论派”,主导了相关性研究的发展方向。由于研究线索上的继承性,使得目前具有影响的相关性研究以Schutz的哲学思想为基础,事实上构造了一个从哲学基础到认知和行为研究的框架。但在强调用户的能动作用的同时,忽视了系统相关性的深入研究,片面地认为系统相关是弱相关,把这样一种思想作为事实而不加论证。
但是,不能仅仅因为Schutz从哲学的角度论证过“相关性”这一问题,就将其作为我们进行相关性研究的基础。完全从用户角度认识相关性和交互过程,也无助于相关性研究的发展。相关性的研究,应该是用户与系统并重。
相关性的研究应该是“全局”的,而不是打着全局的幌子,做着用户研究的事情。并且,我国的情报学研究中,用户研究并不占优势,完全使用别人的理论基础无益于我国情报学发展。但是我们也必须加强在用户方面的研究,尤其是对用户本身而不是与服务相关的用户研究。随着实践的发展,情报学的理论也在不断地发展,一些新的相关性的表现形式也会出现。对这个理论基础的认识是一个动态的过程,不可能一劳永逸,一些成熟理论也需要重新认识。
4.2 系统相关的演进:从文献相关到模式相关
Swanson认为“新的知识,或曰完成的智力活动,从大量储藏的碎片中形成……使用存储的数据是高度的交互过程,此时‘信息检索’是不合适甚至有误导性的隐喻……用户需要的是相关的模式而不是相关的文献”[17]。目前,一些寻找模式的研究正在逐渐兴起,甚至有些已经颇为成熟。但是,目前对于“模式相关”的研究,尤其是纳入用户的模式相关的研究,仍然少之又少。而对相关性的理解引导着信息检索的发展方向,模式相关的研究需要我们加以注意。
但是,没有人定义过与模式有关的相关性,也没有对模式需求的具体分析。模式要求的性质太好,而相关判定的性质与寻找模式的要求存在差距。如果把视野放在“信息检索”这样的情境下,可能无法彻底解决这样一个问题。尽管困难仍然存在,但是用户研究是必要的,关键是我们是否有像软件工程那样的方法论体系,将需求有效地转化为系统实现。另一方面,问题空间可能不是完备的,但是我们可以尝试构造尽可能好的模型或算法。
多媒体信息基于内容的检索更多地涉及模式问题,与之相应的相关性其实可以认为是模式相关性的一种表现形式。可是,目前对多媒体信息检索,其相关性研究仍然沿用Syracuse学派的范式,从用户切入。但是,仅仅靠用户研究无益于我们最终解决问题,在人机交互、需求表达和分析等方面做的仍然不够。计算机、信号处理等领域的研究者在从事多媒体检索研究的时候没有意识到这样一个问题。指标体系通常沿用文本检索的评价指标体系,对相关性的理解是朴素的。这就需要我们从事情报学研究的工作者加以注意,最终解决这一问题。
4.3 进一步研究工作
系统相关仍然值得注意,它不是用户研究的学者所称的“弱相关”。在进一步的研究中,可以继续寻找相关性的线索,最好能够找到与模式有关的相关性;寻找对用户相关性有效的建模手段和方法,将用户相关性抽象出参数或模块纳入系统相关性之中;同时深入研究信息检索空间,尤其是有纳入用户特征的信息检索空间的研究。
收稿日期:2008-04-07