相关性与情报学,本文主要内容关键词为:情报学论文,相关性论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
相关性(Relevance)是情报学尤其是信息检索研究中最基本的概念,迄今为止,国内外已有大量的学者对信息检索中的相关性进行了深入的研究。马费成先生曾提出,相关性是情报学的基本原理之一[1-2]。但如何理解和认识这一论断,却鲜见文章对此展开讨论。笔者试图在总结相关性研究的基础上,探讨相关性与情报学的关系,进一步证明马费成先生上述观点的正确性,并提出自己对相关性的理解和认识。
1 早期的相关性研究
纵观国外的相关性研究,从20世纪30年代算起至今已有近80年历史,形成了两个主要流派,分别是面向系统和面向用户的相关性研究。其间共出现了两次研究高峰,第一次是在20世纪60年代和70年代,此后研究兴趣有所下降,到20世纪90年代后,相关性研究又再次活跃,出现了第二次研究高峰。多年来,众多的学者从理论分析和实证研究两个方面对相关性展开了大量研究,人们对相关性的认识不断深化,得到了一系列重要的研究成果。早期的相关性研究得到了以下发现:
1)相关性是一个多等级现象。即对检索者来说有些文献比其他文献更相关。众多研究者研究了等级相关性,提出了不同的相关性等级量表。而Granfield测试集有5级的相关性评估。
2)相关性是一个多维的认知概念。它的意义在很大程度上依赖于检索者的信息洞察力及其信息需求状况。
3)相关性是一个动态概念。相关性是动态的,因为人们对事物的评价是会随着时间改变的。它依赖于检索者在某一个时点对信息和信息需求之间(感知到的)关系质量的判断。
4)从检索者的角度来看,相关性是一个复杂的但可测度的现象。
5)相关性可以分为主题相关(即系统相关)与用户相关两种模式,主题相关性属于以系统为出发点的客观概念,而用户相关性则更多地涉及主观因素。
6)相关性判断不应是二元的。它应随着文献特征的不同而变化,也随着用户状态(包括需求、态度、偏见以及知识储备等)的不同而不同。
7)相关性评估有多重特征。它与用户的经验、认知状态和思考紧密相连,而且包括了多个层面的交互。
8)相关性研究不应局限于系统层面,应扩展到用户和认知层面。
在相关性研究方面,形成了两条路径。一条路径寻求在相关性的类型、标准和测度指标方面的理论进展,从而将其与实验室信息检索评估联系起来。第二条路径侧重于在现实环境中开展包括检索者在内的实证研究。
2 相关性研究进展
近年来,除了传统的系统相关和用户相关类型的研究外,研究者们开展了一些重要的相关性理论和实证研究。其中特别是在相关性的类型及其关系、相关性评价方面取得了显著进展。
2.1 相关性类型及其关系
相关性类型有多种划分方法,学者甚至已经发现了很多种相关性,其划分方法并不统一。近年来对此方面的研究取得了较大进展,学者们进一步发现和阐释了算法相关、主题相关、需求相关、情景相关与社会认知相关这5个不同的相关性类型及其关系[3]。
1)算法相关(Algorithmic Relevance)(a):类似于检索引擎处理后的排序结果,是指通过给定的程序或算法,展现出请求(或查询式)与检索对象之间的关系,它比较的是文献和查询式各自的特征。
2)主题相关(Topical Relevance) (用Int.t表示):通常也被称作主题性(Topicality),主要描述的是命中文献的内容和查询请求之间的相关性关系,该类相关性假设查询请求与信息对象(文献)能够通过主题或主题词加以描述。这种相关性主要由人来进行评价,因此它不是客观的,具有主观的情感和智力特征。
3)需求相关,也即针对性(Pertinence)(p),是指在给定时点时命中文献的本质与检索者感知到的信息需求之间的关系。
4)情景相关(Situational Relevance)(S):是指命中文献与个体检索者感知到的工作任务(或日常生活)情景之间的关系。它是根据感知到的情景、任务或者现有问题与用户感知到的信息对象有用性之间的关系进行评估。决策支持中的可用性、问题解决中的信息性以及不确定性的减少都是情境相关性推理时所采用的标准。
5)社会认知相关(Socio-cognitive Relevance):是指领域、情境和集体性的情境偏好。社会认知相关是客观和真实的,它表示由一些认知行动者对情景相关进行评估和解释,这种评估和解释是由认知行动者与环境中的群体的交互过程决定的,会随着时间的推移而发生变化。例如,某个会议的计划委员会或编辑部成员就他们个人(或情景)的偏好进行沟通,在特殊事件的当前情境、领域影响和传统(文化)的基础上作出决定。会议程序或期刊的内容目录等,由此成为社会认知相关决定的客观结果。对信息对象的引用(或链入)也是人们过去做出的对社会认知相关性判断的表现。它意味着一定程度地承认、接受和利用,并可能增加被引用或链入的人、期刊、机构或会议在认知上的权威性。
这5种类型相关性的主观性依次不断增加,相关性类型及其关系如图1所示[4]。
图1 主要的相关性关系类型示意图
图1包括情景相关和社会认知相关在内的主要相关关系类型的说明,包含在随时间而变的信息查寻与检索活动中。X[n]的上角标表明X随时间变化。图1中,认知行动者感知到的工作任务(或日常任务或兴趣)情景(PS~PS[n])随着信息查寻与检索活动的会话而发生动态变化,但可能在短期内(PS)保持稳定,如在一个单独的检索会话时段。由PS引发的信息需求状态也可能变化更快,它取决于所观察的信息对象的影响和相关性。认知行动者通过信息查寻与检索活动可能会产生一个产品(P),该产品可能进行以下比较:①它是否完成了最初的工作任务(或兴趣)情景(F)。②在检索会话过程中有多少信息对象(文献)以及哪些对象实际应用在最终产品之中(i),也即信息量(Informativeness)的测度。
Cosijn于2003年指出,算法相关、主题相关、针对性以及社会认知相关这4种相关性类型相互嵌套[5]。
2.2 相关性评价
在上述5种类型的相关性中,对算法相关和主题相关的研究最多,但对其他3种相关性的判定和评价研究还没有得到深入的开展。
1)算法相关和主题相关方面的研究最为充分,相应的判定和评价都相对比较成熟,如用于评价主题性的查全率、查准率以及其他指标。目前主题性评价在文本文献中非常容易实现,但对于在其他媒介中的信息对象来说却非易事。例如,在音乐、图片以及视频中,就难以进行主题性评价。然而,只要这些信息对象中有一些可获得的内容特征,这些特征就能被用于主题性的测度,由检索者或由第三方以非常客观的方式进行。
2)对针对性的评估也是切实可行的。除了主题性以外,针对性标准对检索者来说是有新颖性的,它可以表示信息对象的时效性或作者、联盟、网站或期刊所感知的认知权威性,以及其他的客观存在特征。只有执行检索的认知行动者可以评估针对性。
3)社会认知相关性评估是有形的,例如依靠对对象的引用(或链入)。被博学的同行引用通常意味着在一定程度上的承认、接受和使用,以及认知的权威程度。在这方面,应该注意学术性引文和网络链接之间的区别。前者与同行评定的科学质量相关,而后者则未必。
4)情景相关性则不同。主题性、针对性和社会认知相关性,都是对信息对象的有形特征的利用,情景相关则关注所查寻对象的有用性。在某种程度上,评价对象的所有特征都是具有潜在情景相关性的关键词,然而人们还无法确定哪个特征或特征的哪种特别组合在给定时点上会决定对象的相关性。因此,情景相关的判定和评价都较困难,只有检索者个体才能评价这种主观的情景相关性。在认知观看来,情景相关性与任务或特殊情境中的事件相关,也与检索者在特定时点所处的情境及其认知状态有关。总的来说,目前情景相关性的可操作性还不强,情景相关性评价倾向于使用已用于主题性和针对性的相同特征。
除了理论研究之外,很多学者还开展了一系列重要的相关性实证研究[1]。这些重要的理论和实证研究进一步丰富和完善了相关性概念,这不仅体现在对相关性理论的深化和拓展上,也体现在实证研究中更加注重方法学和更多地综合运用多种方法。
3 主要观点与讨论
3.1 相关性的概念和类型
尽管相关性概念还没有一个公认的统一的定义,但笔者基本上认同了以下提法[1]:
相关性(Relevance)是指认知行动者或算法设备对感知到的主题、针对性、有用性和实用性等方面作出的评价。相关性评价是依据信息情境作出的,情境是对一个既定时点上的工作任务情景、问题状态或信息需求表达。相关性判断总是随着时间变化。相关性可以具有低阶的客观性,也可以具有高阶的主观多样性。它的测度可以是二元的或分级的。
相关性类型(Relevance Types)是指除评估对象的形式之外的相关性,即书目相关性或文献相关性。涉及到以下5种类型的相关性:算法相关性,主题相关性(即主题性),需求相关性(即针对性),情景相关性,社会认知相关性。后4个相关性类型是高阶的相关性类型,因为它们具有主观性,而且情景相关性与这些类型有关。
3.2 对相关性的理解
1)相关性是一个不断发展的概念。随着信息检索从传统的实验室信息检索发展到用户导向的信息检索和认知导向的信息检索,使得人们对相关性的理解和认识也不断深化,并识别出不同的相关性类型及其关系。
2)不同的相关性对应着不同的研究阶段和研究范畴。在传统的实验室信息检索时代,主要是在信息检索系统的范围内来研究相关性,主题相关或算法相关是最重要的相关性类型;而发展到用户和认知导向的信息检索时期,相关性就开始跨越了系统和用户这两个范畴,并且开始从用户和认知的角度来理解和研究相关性;后来人们又逐渐认识到信息检索又是嵌套于信息查寻(Information Seeking)活动之中,这样人们又将相关性研究置于了一个更加广泛的视野中,开始从情景、情境和任务角度来理解和研究相关性,情景相关性和针对性开始受到重视;而信息查寻又是人类信息活动的组成部分,整个信息活动特别是知识管理活动又是嵌套于组织活动之中,这样一来,我们就开始从组织范围内研究相关性,从社会和交互层面来理解相关性,从知识管理的角度来认识相关性。与之相对应地,社会认知相关性作为一种新的相关性类型而被提出。见表1。
至此,相关性涵盖了整个人类社会的信息活动,它不再是一个以往专用于信息检索等专业领域的特殊概念,其概念的内涵和外延都得到了进一步的扩展和深化。
3)相关性已经成为情报学整个领域中都涉及到的基本概念问题。事实上,它已经从系统和IR设置扩展到用户;从认知行动者个体扩展到集体和组织;从静态的、二元论的系统观点扩展到动态的、多维的认知观点,并将信息检索系统和认知行动者这两个最重要的要素通过认知、情境与交互而有机地联系在一起。事实上,它已经覆盖了从信息检索、信息查寻到信息活动和知识管理等多个领域。
4)相关性成为联系情报学、图书馆学等其他相关学科的纽带和桥梁。信息检索是情报学的传统核心领域,相关性是其中的一个非常重要的核心概念;而信息查寻与用户研究则属于图书馆学的传统领域,相关性也是其中重要的研究对象。随着相关性研究的不断深入,人们逐渐认识到,相关性在更广泛的范围内普遍存在,是贯穿人类社会整个信息活动的一种普遍现象。事实上,它已经不单单是一个情报学概念,而是覆盖了情报学、图书馆学等其他相关学科,甚至包括更广范围的信息管理乃至知识管理。
5)相关性确实是情报学的基本原理之一。马费成先生曾著文论述过情报学的基本原理和理论体系[1-2],其中将相关性作为情报学的基本原理之一。但他只论述了情报检索中的相关性和知识系统中的情报相关性,对相关性本质的阐释和论述还不够深入全面。笔者虽然也是情报学专业毕业并从事情报学研究的专业人员,但开始时对相关性的理解也很片面,当时也不能理解相关性为什么会成为情报学基本原理之一,而在后来的科研工作特别是在情报学基础理论研究工作中,随着认识的不断深入,逐渐地开始理解相关性并真正地认识到“相关性是情报学基本原理之一”这一观点的正确性。本文愿作为对马费成先生论文的补充,更加令人信服地证明,相关性的的确确是情报学的基本概念,它作为情报学的基本原理是当之无愧的。
6)对相关性的深入研究将进一步推动情报学发展。人们对于算法相关和主题相关已经展开大量的研究,对针对性也研究颇多,但在新形势下如何认识和理解情景相关性和社会认知相关性、其相关性判定和评价标准、评价尺度等方面的研究还不够,还有很多研究工作要做。对这些相关性类型的深入研究,必将推动情报学理论和实践的进一步发展。