信息检索的大理论及其实践,本文主要内容关键词为:大理论文,信息检索论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
信息检索一直不是一个理论性强的研究领域,以此为核心的情报学范式也因而缺乏一个学科应有的理论高度。即使是以信息检索理论家自诩的Robertson也承认,“信息检索缺乏一个可以大写的理论(capital-T Theory)”[1]。建立大理论(Grand Theory)成为一些情报学理论家的心结,Ingwersen就是这样的情报学家。2005年他和Jarvelin推出专著《转折:在情境中集成信息查寻与检索》[2],进一步拓展其多年来大力提倡的认知观,继续着他誓将情报学认知观建设成范式理论,统合现有信息检索理论的尝试。专著提出在整体主义认知观的基础上,将信息查寻(Information Search,IS)和信息检索(Information Retrieval,IR)两个领域在情境中集成,并提出相应研究框架(IS&R)。此研究框架以Ingwersen 1992年的专著《交互信息检索》为基础[3],将认知观与相关情境结合,在理论上更为完整。两位作者在前言中称,新框架拓展了情报学认知观,能和谐地涵盖技术、人类行为及其协作等各方面[2]。
认知学观产生于20世纪70年代中后期,是以认知科学为依托,以认知过程为参照,观察、解释信息现象,展开情报学研究的学术观点。在情报学发展史上,认知观被认为是迄今最有影响力的学术思想,常被称作“认知转折”[4]。不同于关注算法与实验、以Cranfield、TREC为代表的情报学“物理范式”,认知观关注人对信息的利用与吸收,强调知识结构、认知能力、认知风格等主观因素在信息的感知、接收及创造活动中的关键性作用。尽管认知观给情报学研究提出了不同的研究视角,但由于过分强调个体认知状态,而忽视社会维度在人们认知中的作用,受到不少学者质疑。自从上世纪90年代,Ingwersen等人开始重视在社会或特定领域背景下研究用户的认知特征,多视角观察信息传递过程,研究其中发生的所有互动现象[5],提出诸如社会认知观、领域分析、集成式认知信息检索观等新理论、新模型或新研究框架,弥补传统情报学认知观的缺陷,其中集成式认知信息检索与相关情境是该领域国内外的研究热点之一。
2 情境中的集成信息搜寻和信息检索(IS&R)研究框架
2.1 IS&R研究框架
Ingwersen基于不同时间和不同认知对象的理解,提出了一个适用于任何认知行动的概念认知模型作为IS&R集成研究框架[2]。如图1所式,该模型由5个核心组件:认知操作要素;界面;社会、组织、文化的情境;信息系统;信息对象。这些组件通过认知空间的交叠联系在一起。
框架描述信息查寻与检索领域的各种操作要素(actors),如何在相关情景中相互作用。以认知操作要素中的信息查寻者为例,它处在模型的中央,被几种情景环绕,其中有操作要素的社会、组织和文化所属,有信息对象、信息系统以及利用它们所需的界面等,每一个节点的情景又都包含所有其他节点。该框架涵盖信息行为所涉及的个体与社会两个方面,包括信息的生产、查寻、检索与利用。正如作者提到的以界面为切分线,左边由信息对象、信息系统、界面三元交互构成信息检索部分,整合了实验室信息检索的各种系统导向的模型;右边的认知操作要素则整合了以用户为导向的信息查寻模型。此模型综合了各种信息搜寻行为模型的优点,将信息搜寻行为中的参与者归纳为信息对象、信息系统、界面、认知要素四个组件。从认知要素组件再向右延伸,扩展至社会、组织、文化各种情境组件,体现了情报认知观从注重个体的认知观转向社会认知观的研究调整,显示了信息查寻过程中的社会构成主义的领域分析方法和社会认知观[6]。
图1 信息查寻与检索的集成研究框架(Ingwersen、Jarvelin)
2.2 理论基础
IS&R研究框架以整体主义认知观、信息的认知概念、情境观为理论基础。整体主义认知观最初是De Mey提出的,他认为“任何形式的信息处理,无论是知觉的还是符号的,都由一个范畴或概念体系所媒介。对于信息处理体而言,这一体系是其世界模型[7]。”其中信息处理体可以是人也可以是机器。整体主义认知观的提出为信息搜寻和信息检索两个相互隔绝的研究领域建立起沟通和交流的平台,奠定了两个领域集成的理论基础[8],IS&R的研究框架就是在整体主义认知观的平台上,集成系统导向的主流信息检索研究、用户导向的信息查寻研究和交互信息检索研究的研究框架。
另外,Ingwersen进一步明确了基于认知观的信息概念。认为信息概念必须满足两个必要条件[2]:一方面信息是生产者的认知结构(包括意图、接受者的模型、知识状态,以符号表示形式)发生转化的结果;另一方面它可以被意识到并能影响和改变接受者的知识状态。认知信息概念的明确,为信息搜寻和信息检索领域的集成提供了概念基础。
Ingwersen将认知观专注的个人认知状态扩展到整个社会环境中——情境,即认知主体在信息行为过程中所处的特定环境和状态[2]。信息搜寻和信息检索的行为都处在情境中,因此两个互不相同的领域能够实现沟通和交流。情境观的提出,使信息搜寻和信息检索的集成成为可能。从对信息对象认知空间的理解来看,IS&R研究框架在本质上是以信息检索系统的信息对象为中心,将个体的认知状态扩展为整个信息行为的认知、乃至社会组织的世界模型中的嵌套模型,这种嵌套不仅是认知空间的嵌套,而且是在时间维度上历史情境的嵌套,所有认知个体的认知经验构成他们的期望,当前的所有交互式信息检索过程和行为构成临时情境。
3 IS&R研究框架理论与实践研究之间的鸿沟
纵观IS&R模型的理论基础和研究框架,可以看出Ingwersen关注情报学的宏观层面的问题:从整体主义的认知观的把握,到认知信息概念的延伸扩展,从跨越时间与认知空间的情境观,到包含系统技术与人文关怀的研究框架,都体现出这样的研究取向。这与Ingwersen尝试在信息检索或情报学领域建立大理论(Grand Theory)的努力是一致的,正如其明确指出,IS&R研究框架旨在“和谐地涵盖技术、人类行为及其协作”的各个方面,与情报学是“分散、包含多种学科”[9]的传统认识形成鲜明对比。大理论的产生固然值得欣喜,但作为一个面向情报学实践的理论框架,能在情报学实践活动中有所成果则是人们所期待的。然而IS&R研究框架由于基于整体主义认知观,通盘考虑的因素众多,而且所有因素之间不是简单的堆砌,需要考虑各因素之间的协同影响,单是涉及的领域,从人类认知与行为,到统计与概率,跨度巨大,内容繁杂,利用现有科学研究方法对IS&R研究框架众多因素研究的可行性令人生疑。
3.1 观察与实验
科学研究过程大约包括五个步骤:对现实调研,形成假设、模型、理论,对结果进行预测,设计研究实验,验证模型或理论并得出结论。研究方法主要有观察法和实验法[10],在不同的研究领域分别有不同的地位。许多学科都是由实验室的实验法驱动的,如化学、物理学的力学部分等。有些学科在发展过程中,研究方法由实验法主导向观察法主导转变,例如生物科学中的生物化学。而有些学科以观察法为主,不运用实验法,如天体物理学、地质学等。实验法在某些学科中难以运用,一方面与学科自身性质有关,另一方面与实验法自身的局限有关。实验室试验的本质是抽象(abstraction),模型、理论的形成需要对现实中的现象进行抽象。其原则是从现实世界的复杂与无序中,确定有代表性的若干方面,并从中抽取一小部分变量进行试验,前提是这些变量能够在实验室抽象情景中被定义、并在其中经得起严谨测试。由此获得的理论与模型,有助于人们更有效方便地理解现实世界。然而有些现实现象不易抽象,导致这些现象很难在实验室中用实验法来研究,此时观察法可以弥补实验法的缺陷。观察法适合不是经常发生、有较多变量的科学研究。在实际科学研究的过程中,某一现象的研究不止使用一种研究方法,通常是两种方法结合使用。
3.2 观察法和实验法在情报学中的应用
Cranfield实验室信息检索和以用户为中心的信息查寻是情报学中的两大领域,由于两个领域研究对象不同,在研究过程中运用的研究方法侧重点也不同,Cranfield实验室信息检索强调以实验为基础的最佳匹配查询与加权相关反馈研究,重点在于相关模型、方法及算法的发现,适合用实验法来验证假设或模型;在信息查寻研究过程中,人机之间的交互、人与人之间信息行为的协作、用户的认知状况等适合用观察的研究方法。当然研究方法的运用不是绝对的,例如在语义网、知识引擎的相关研究,跨语言匹配的平行语料库中获得结构化资源等,用观察的研究方法更为适宜;在交互任务中类似TREC的项目、在Web环境中用户获取信息的算法需要用实验室的研究方法研究。但是无论是信息检索的实验室实验设计,还是信息用户的查寻行为的研究,都需要将现实现象抽象成研究模型或者理论,再运用合适的研究方法进行实证研究。这些研究都是一个范围由大到小、研究对象由复杂到简单、研究变量由多到少的过程。
3.3 IS&R研究框架的可操作性
Ingwersen在专著中总结了信息检索与信息查寻领域的研究方法[2],他认为研究方法包括三个方面:研究策略、数据采集和分析方法,以及研究类型。在信息查寻领域,研究策略包括调查、实证研究、定性方法、扎根理论和话语分析等,数据采集方法有调查问卷、访谈、观察、内容分析及历史来源分析等等。传统信息查寻行为领域所采用的这些具体研究方法均隶属于科学研究方法论中的观察法,在实证研究中需要将现实现象进行抽样,以使变量更具可操作性。Ingwersen在其专著中指出,所有研究方法若被恰当运用,都会对认知IS&R模型研究有所贡献。然而,IS&R研究框架是建立在整体认知主义基础上、以信息检索系统的信息对象为中心将个体认知空间延伸到社会认知空间的研究模型,正如Ingwersen在专著中论述的“将以前专著中的个人主义的观点延伸到包括产生信息、搜索信息和利用信息的社会性的信息行为中”[2]。“延伸”即把一个小范围的研究对象呈现在更大的、更复杂的环境中,结果在IS&R研究框架中增加了许多研究变量,使研究的不可控因素增加。特别是与情境变量有关的不可控因素大大增加、边界模糊,令IS&R研究框架的研究难度增大。2006年,“基于情境的交互信息会议”曾讨论过“什么不是‘情境’?”的主题[11]。与会者认为,对于IS&R模型,情境似乎无处不在、无所不是,从个体的认知空间到社会、组织、文化的世界认知,都可以理解为影响信息行为的情境因素,更成问题的是,在如何细化这些因素方面,目前尚无规则可循。当然会议的主旨不是否定情境对信息对象的认知状态的影响作用,而是希望通过讨论将情境的边界进行界定,使之在现有的研究方法中具有可操作性。
对于情境观的研究无论是采用实验法还是观察法,都不能对整体认知的情境变量予以控制,反而忽略了临近情境构件对认知空间的重要影响作用。Dick在分析发展中国家的信息状况时指出,对于如何在这些国家及机构开展信息工作(信息查寻和检索),技术和政治基础是工作开展的决定因素,社会、文化等情境对信息工作影响甚微;而从国际化和区域化层次上,文化、社会等历史情境对于理解一个国家的经济发展具有关键作用,而这样的情境因素在利用实验法和观察法的研究设计中均难以开展。所以当情境的范围从个体情境不断接近集体局部情境,到达社会经济整体情境的边界时,有关情境的研究设计中就存在着实际的制约因素[12]。这些因素在不同的层次上对研究结果具有不同的影响,在某些层次上,个体情境和集体局部情境构件对模型的影响力比整体构件的影响更大,在研究方法和研究设计上是可行的。所以对于情境观的研究更应趋于具体情境研究,Kelly认为情境应满足两个特点:①与当前研究问题的中心构件是临近的,②作为科学研究的可能偏差是可探测的。将情境具体化缩小了情境研究的范围,同时也便于抓住事物的研究重点,有利于运用实验和观察的方法进行实证研究[13]。
4 结语
理论具有解惑、预测的能力,好的理论能在一段时期解释和预测许多现象,所以理论研究属于研究工作的一部分,决定着某一领域的发展方向。构建主义者甚至认为理论研究是实践研究的前期准备,在这个意义上,理论研究是一种隐性的实践[14]。IS&R研究框架实现了人文传统与技术传统的集成,不仅丰富和发展了情报学认知观,而且为情报学开辟了新的研究领域。但是Ingwersen在整体认知观基础上为情报学提出的大理论模型,在实践应用中存在天然的缺陷,导致研究框架实证研究难以开展。诚如Robertson[15]所言:缺少大理论的情报学,更应该注重具体领域和基础逻辑(low-logic)的研究,情报学领域的理论一方面应具有很强的预测能力,另一方面能够利用现有的实验法或者观察法来验证,最好是两种方法的结合使用,同时情报学的研究不仅需要理论上的创新,更需要足够的实证研究。Robertson断言,在信息检索或情报学领域,如欲建立大理论,其必须统括检索的方方面面,而这方方面面是如此之多,使得这样的目标遥不可及。