相关性标准研究,本文主要内容关键词为:相关性论文,标准论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 G354
CLASS NUMBER G354
学术界已经普遍认同将信息检索中的相关性研究分为两个学派,即面向系统与面向用 户的相关性研究。目前,两个学派的研究内容都很丰富,其中相关性标准研究一直是面 向用户相关性研究中的一个核心课题。相关性标准研究可以追溯到上个世纪60年代分别 由Cuadra与Katter(1967)以及Rees与Schultz(1967)完成的两项相关性实验。其后,有 关该项研究的综述甚多,而实证研究甚少,进入上个世纪80年代中后期之后,该方向的 实证研究再次引起了学者的重视。60年代的研究主要基于实验室完成,而其后的研究则 主要基于自然主义方法。为了便于组织,本文将相关性标准研究分为两个阶段:基于实 验室的第一阶段以及基于自然主义的第二阶段。
1 第一阶段的研究
1967年,Cuadra与Katter以及Rees与Schultz两个小组分别完成了相关性标准的实证研 究。这两项研究产生了深远影响,至今仍被频繁引用。
其中,Cuadra与Katter在研究设计阶段列出了38种可能影响相关性判断的标准,并将 它们归纳为5类:文献类型;信息需求的陈述;实验对象的经验、背景及态度;判断条 件;表达方式。实验阶段研究者选取其中的19项标准进行了验证,结论认为焦点变量、 界限变量、情境变量、刺激材料变量、个体差异变量以及量化尺度模式在相关性判断中 起着重要的作用。Rees与Schultz的研究测试了40个影响相关性判断的标准,其中包括 主要标准(如研究阶段、判断组、文献集以及文献描述等)、次要标准(如教育、专业经 验以及研究经验等),以及附属标准(包括实验对象在特定时间内对相关性的评估值), 结论认为实验对象及其认知在相关性判断中起主要作用。
1.1 Saracevic
Saracevic(1975)在对上述两项研究的数据加以分析后认为,影响相关性判断的标准可 以归结为5类:文献及文献表示、检索表达式、判断情境、标度以及实验对象。其中, 涉及文献及文献表示的结论有:文献是所有类别中最重要的;文献以及查询表达式的主 题是该类中最重要的;主题的专指度对相关性的影响是正面的;文献的题名、全文、文 摘在相关性判断中存在差异;文献体裁的影响。
涉及查询表达式的结论有:实验对象对查询表达式、查询过程的讨论情况与相关判断 的一致性正相关;查询表达式和文献中文本的相似度与相关性正相关;文献和查询表达 式的文字共现概率与相关性正相关;实验对象对查询本身的了解程度与相关的文献量呈 负相关。
涉及实验对象情境的结论有:情境影响相关性判断;不同的相关性定义对相关性判断 没有必然的影响,实验对象更倾向于从直觉的角度使用相关性;情境的压力与相关性正 相关。
涉及标度的结论有:不同的标度对实验结果有细微的影响;标度等级在3至10之间较合 适,但不存在通用的最优标度;实验对象对标度两端的使用远超过中间部分;不同实验 对象相关性判断的相对值是非常一致的,即相对值要优于绝对值。
涉及实验对象的结论有:实验对象的主题知识量是相关性判断最重要的标准,二者之 间负相关;检索中介倾向于提高文献的相关性;文献的潜在用途影响相关性判断;不相 关的一致性比相关的一致性更容易获得。
1.2 Schamber
Schamber(1994)也对包括Cuadra与Katter(1967)以及Rees与Schultz(1967)的研究数据 进行了分析,总结出了80项影响相关性判断的标准,并将其分为6类:实验对象、查询 请求、文献、信息系统、判断情境以及标度的选择。他认为:“相关性的多维性仅仅是 总体上的结论。实际上,存在更多影响相关性判断的标准,完整地将其列出是不可能的 ,这里列出的80项仅仅是一个比较合理的抽样而已。”
2 第二阶段的研究
2.1 Saracevic与Kantor
针对用户及判断情境,Saracevic与Kantor(1998)的研究,认为下列情况会提高用户的 相关性判断:查询请求明确的用户;对能检索到的信息有较高期望值的用户;善于词汇 联想的用户;善于在文摘中进行词汇学习的用户;检索时间比较少的用户。
针对查询请求及文献,该研究认为下列情况会提高用户的相关性判断:表述比较含糊 的查询请求;较复杂以及先决条件较多的查询请求;多次交互的检索;主题词比较少的 检索;已经被不同的检索者或者检索提问检索多次的文献;在费用、问题的解决等方面 用户有着较高评价的检索结果。
2.2 Nilan
Nilan(1998)等开展的研究主要集中于信息源的评估标准,实际对象主要来自存在严重 健康问题的人群,其信息源主要是自身或人际交往。实验对象对信息源的评价标准主要 包括:权威性或者专业性、友好性或者可获得性、诚信度或者值得尊敬的程度、信息源 与用户关系的紧密程度、能力或者控制、社会压力、获得的容易程度、使用容易程度、 信息源的获取在技术或者设备方面的难易程度等。
2.3 Eisenberg与Barry、Huang
Eisenberg与Barry(1988)深入探讨了文献排列顺序对相关判断的影响,发现两者间存 在“顺序效应”(order effect)。当文献根据相关程度由高到低排列时,高相关文献的 相关性通常会被低估,而反之,则低相关文献的相关性往往会被高估,这是“赌注效应 ”(hedging effect)的具体体现。Huang(2004)则对顺序效应与文献量之间的关系进行 了研究,发现检索结果集的文献量在15和30的时候,顺序效应非常明显,而文献量在45 和60时,该效应已经减弱,而文献量在5和75的时候,该效应已经消失。当文献量只有5 时,由于文献量太少,顺序效应无法体现,而文献量达到75的时候,实验对象会出现“ 疲劳效应”(fatigue effect),从而限制了做出精确判断的能力。
2.4 Schamber
Schamber(1991)认为,相关性标准主要涉及信息、信息源以及表现形式的质量等,并 将它们归并为10类:准确性、实时性、特异性、地理接近性、可靠性、可获取性、可验 证性、简明性、动态性、表现形式的质量等。
Schamber(1996)的研究目的包括两方面,一是识别出一组能够清晰且一致地描述相关 性标准的术语,二是考察用户在相关性评估中标准的应用。研究者首先从Schamber(199 1)、Su(1993)和Barry(1994)的研究中选择了119项相关性标准,然后要求实验对象依据 自己对信息检索的总体认识解释这些标准的涵义。通过内容分析,他成功地将119个标 准削减到83项,并划分为5类(见表1)。
表1 用户相关性标准
类别
标准
关于性关于主题、适当的、有关的、相关的、可用的
实时性当前的、最近的、最新的
可获取性 可获取性、可获得性、便利的、易于获得的
简明性清晰性、可读性、可理解性
可靠的、专家、了解该出版物、了解该信息源、
可靠性显著的、可信赖的、有声誉的、行文流畅的
2.5 Janes和Mckinney
Janes和Mckinney(1992)探讨了不同类型实验对象对相关性判断的影响,实验对象包括 用户与非用户(图书情报学研究生及心理系本科生),其中图书情报学研究生长于检索知 识,而心理系本科生则长于主题知识。研究结果显示:与用户相比,非用户更容易将不 相关信息判断为相关,图书情报学研究生尤甚。对此现象的解释是:图书情报学研究生 由于缺乏学科背景,或是害怕遗漏重要的相关信息,因此对没有把握的文献,倾向于当 做相关文献处理。该研究的结论还包括,不同实验对象对文献不相关判断的一致性要高 于相关文献。
Janes(1994)也比较了非用户与用户的相关性判断行为,其中非用户包括图书馆员、图 书情报学高年级本科生和新生。结果显示,非用户都倾向于提高文献的相关判断水平, 新生为最。在相关判断的一致性上,馆员的表现比高年级学生要好,而后者又优于新生 。由此可以肯定,专业训练和工作经验有助于提高相关性判断的质量。这两项研究同时 也证实了判断者的知识、认知对相关性判断的决定性影响。
2.6 Park
Park(1993)认为影响用户相关性判断的标准可以分为3类,即用户的内部情境、外部情 境和问题情境。内部情境主要包括对引文中各元素的认识、经验、研究领域的知识、对 以往文献的熟悉程度、教育和训练等;外部情境主要包括对检索质量的认识、检索目的 、信息可获得性、信息需求的优先级、研究阶段以及研究成果的形式等;问题情境主要 包括用户对引文用途的思考,例如获得定义、背景信息、方法、问题的框架等。
2.7 Cool
Cool(1993)将研究对象分为两组,分别是约300名大学新生和11名人文学科教师。学生 组的研究通过布置一篇课程论文,然后调查学生在完成课程论文过程中的文献调研情况 。通过对问卷结果的内容分析,发现存在约60项左右影响用户相关性判断的具体标准, 并将其归并为6类:主题、内容或信息、格式、表述、价值取向以及用户自身等。对教 师组则采用访谈进行,研究结果显示:(1)教师在进行相关性判断时,通常依赖文献多 方面的特征,并且将其与多任务相关联。(2)教师对主题标准的认识与学生组存在一定 差异,比如教师认为主题仅仅是进行相关性判断的第一步,并且是非常复杂的。(3)其 他标准方面,教师组也与学生组存在明显差异,比如教师没有将文献的表现形式以及格 式作为相关性判断的标准。
2.8 Barry
Barry(1994)的研究发现了23项影响相关判断的标准,并将其分为7类,具体见表2。
表2 相关性标准
类别标准
文献深度及探讨的重点、文献的正
文献内容 确性、可应用程度、效率高低、清晰
程度、出版年代
用户背景 经验、理解能力、内容的新颖性、来
源的新颖性、文献的新颖性
用户的信仰及喜好
读者主观认知的正确性、个人偏好
论点的一致性、其他学者对研究结
与其他信息源的关系 果的认同、信息的可获取性、个人
拥有该信息的程度
文献来源的品质期刊的信誉、期刊的质量
文献实体 获得文献的可能性、花费
时间的限制、用户和文献著者间的
用户情境 关系
2.9 Wang
Wang(1994)的研究分两阶段进行。第一阶段发现了11项相关性判断标准:主题性、倾 向性、学科、新颖性、期望的质量、实时性、阅读时间、可获得性、特别需要、权威性 以及关系或起源。第二阶段的研究又增加了14项标准,包括:认知需要、真实的质量、 深度、经典的或奠基性的、公开性、声誉、多产的作者、期刊的发文范围、同行评论、 实验对象、规范、目标期刊以及可信度等。
2.10 Tang
Tang(1998)的研究采用个案调查法完成。在实验对象的相关性判断中使用了以下类别 的相关性标准:主题相关、文章的类型、相似的主题、复本、实时性、长度、深度和广 度、语言、地理集中。第一阶段的结论还包括:(1)实验对象智力模型的构建存在变化 ,智力模型由相关文献组成。(2)实验对象采用了包括自身情境判断标准、自我意识到 的相关主题的构建、相关文献等三方面标准完成相关性判断。(3)实验对象在判断和完 成任务方面都显示了自信的增加。第二阶段的结论有:(1)在文献评估过程中,通过实 验对象进一步陈述以及不断求精的行为显示了实验对象智力模型的进一步变化。(2)在 不同轮次的相关性评估中,存在着相关性洞察力的变化。
2.11 Spink
Spink(1998)等的研究主要集中于探询部分相关的判断标准及其价值。采用4组独立的 调查进行,3组的实验对象是研究生,另一组实验对象是教师,实验在完全开放的环境 中进行,实验对象依据自己真实的信息需求完成检索并做出判断。研究证实:(1)对最 初用户而言,部分相关的文献提供了新的信息,从而常常能修改用户对初始需求的理解 及用于相关性判断的标准。而中介检索不能独立证实这些变化。(2)部分相关信息提供 了用户问题定义方面的信息。(3)用户对手头问题了解得越少,越倾向于将更多的信息 判定为部分相关。(4)手头问题与检索出的信息越内聚,则更多的信息将被判断为相关 。(5)部分相关信息与变化是相联系的,然而由于判断在本质上是模糊的,因此变化也 是模糊的。
2.12 Bateman
Bateman(1998)的调查结果显示,在相关性判断方面影响较大的标准有11个,可分为3 类:信息质量(包括实时性、行文流畅、可理解性、一致性以及聚焦性)、信息信赖程度 (包括主题相关、可信赖性、准确性)、信息完整性(包括可理解性、通用性、适合性以 及详细程度)。通过对这些标准的分析,Bateman发现标准“实时性”在相关性标准中应 具有独特的维度,“易于获取”和“免费或者价格便宜”也应成为一类独立的标准即“ 信息可获取性”,同时,信息主题性也应该单独归类。若此,Bateman的相关性标准就 形成了6类:信息的质量、可靠性、完整性、主题性、实时性以及可获取性。
2.13 Maglqughlin
Maglqughlin(2002)等通过用户在相关和不相关判断中所使用的相关性标准为基础对用 户在部分相关中的判断标准进行了研究。实验对象包括12名社会科学研究生,他们的信 息需求包括准备博士论文、硕士论文和发表论文等。对访谈结果的内容分析显示:有29 个标准影响着实验对象对书目记录的相关、部分相关和不相关的判断,根据单个相关性 标准的焦点和目标,这些标准被归并为6类(具体见表3)。
表3 相关性的类别以及具体的标准
类别 标准
文摘 可引用性、增进知识
作者知名度、学科、附属的机构、已经获得
作者 的地位
准确性/可靠性、背景、内容新颖性、对比、
深度/范围、领域、以前遇到的情况、与其
内容 他信息的关系、与其他兴趣的关系、稀有
程度、题材
读者、文献新颖性、阅读价值(文献类
全文 型)、可能的内容、文献可用性、实时性
期刊的新颖性、主要着眼点、已经得到认
期刊/出版者
可的质量
个人 竞争力、所需要的时间
3 结论
综合上述相关性标准的研究,至少在以下几方面是值得注意的。
第一,不同学者对相同研究得出的结论存在明显的差异,比如Saracevic与Schamber都 是根据Cuadra与Katter以及Rees与Schultz的研究并结合自己的分析得出了相应的相关 性标准,不过4位学者的结论差异明显。该差异有些类似于软件工程实践中采用面向过 程的软件开发模式所导致的情况,由于这种模式过分注重功能,不过功能却是软件系统 中最容易变化的部分,从而导致软件的生命周期很短暂,而目前软件工程中主流的开发 模式已经转变为面向对象模型,而对象是软件系统中最稳定的部分,因而该模型显著提 高了系统的生命周期、健壮性和可移植性。
上述众学者的研究在描述相关性标准时都是围绕着一个个具体的标准完成的,而不同 情境中的标准是最容易变化的,因而也就导致了各位学者得到的相关性标准差异明显, 这种状况意味着在相关性标准的研究中缺乏一个良好的描述框架。为了避免各位学者在 相关性标准研究中所采用的简单枚举方式,本文认为可以采用现在软件工程中广泛采用 的面向对象模型完成相关性标准的描述,即围绕信息检索交互模型中的对象来实施相关 性标准的研究,从而避免相关性标准罗列比较混乱。
第二,在相关性标准的研究中,尽管学者们使用了一组相异的术语,不过大都认为用 户是相关性判断的核心力量,同时认为用户的评估行为是一种认知现象。比如Rees和
Schultz的研究表明:(1)个体差异对相关性判断的影响很大,尤其是当实验对象和文献 、文献表示发生变化的情况下。(2)实验对象对主题科学内涵的熟悉程度与被判断为相 关的文献量成反比。(3)当实验对象熟悉了更多领域的知识后,对文献的相关性评价呈 下降趋势。后两项结论说明相关性判断依赖个体知识储备的内在差别或动态变化,据此 ,Rees和Schultz建议在以后的相关性研究中应引入认知层面的考察。再比如Janes(199 2,1994)的研究中所体现出来的,对相同的文献,相同的实验对象,仅仅因为文献排列 顺序的差异,就可能产生差异明显的相关判断结果,这充分反映了相关性是随人类认知 、知识以及感觉不断变化的基本属性,也是相关性动态性的有力证据。
第三,除了相关性的认知本质以及动态性,众研究还证实了相关性的下列属性:(1)主 观的,即依赖于人(包括用户以及非用户)的判断,并且它不是文献或信息的内在特征。 (2)情境的,即与个体用户的信息需求紧密相连。(3)多维的,即受到多项标准的影响。 (4)可测度的,即在某个特定的时刻是可评估的(Schamber,1994)。
第四,60年代的实证研究中检索提问由专家准备,而相关性判断是由项目组成员完成 的。这种基于实验室的研究方法缺陷明显,不能反映用户相关性判断的真实情况。因此 ,80年代中后期的研究者们似乎都意识到自然主义研究方法的重要,而纷纷摒弃了基于 实验室的研究方法,即面向开放的环境,针对用户真实的信息需求完成相关性的研究, 以客观地反映包括主题在内的多种标准。
第五,尽管研究者的实验对象不同、研究环境也差异明显,不过通过对研究结论的简 单分析就可以发现,不同研究中的相关性标准存在一定的重叠。例如,Saracevic(1998 )只是在证实自己以前结论的基础上,又发现了一些新的标准;Schamber(1996)与
Schamber(1991)之间也存在很多相同与相似的标准,Cool(1993)的两阶段研究也证明了 相同的结论。这些简单的分析可以得出一个基本的结论:存在一个核心的、可以跨不同 用户类型、问题情境以及信息源环境的相关性标准集是完全可能的。
进入21世纪,相关性标准研究又有了新的拓展,Zhang(2002)认为上述研究过分强调主 观以及私有知识在相关性判断中的作用,这种方法有两个主要缺陷:首先它排除了社会 交互或者真实情境中的合作,因此不能完整地反映情境的全貌。现实情境中,检索可能 发生在团体或者组织的背景之下。检索者完全可以与他人或者同事共享检索结果。其次 ,相关性的主观性导致相关性判断的不一致性从而使得难以计算,这是查全率与查准率 这两个基于相关性判断的评估指标经常招致学者们批评的主要原因。Zhang的研究认为 ,个人用户的主观判断是相关性判断的决定性因素,然而,同事或者组织成员的意见应 当予以考虑。现实生活中,信息检索通常是一个合作的过程,相关性判断亦然。个人判 断通常会受到他人意见的影响,检索者因受同事的推荐或者小组讨论的影响而改变对一 些文献的相关性判断是完全可能的。