从系统的角度思考信息检索_信息检索论文

系统视角下的信息检索思考,本文主要内容关键词为:视角论文,信息检索论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G354.4 [文献标识码]A [文章编号]1003-2797(2010)06-0066-06

Internet的日益普及和网上信息的激增在大大扩展了人们可利用的信息空间的同时,也为信息的查找带来了更大的挑战。因而,信息检索的重要性日益凸显。随着研究的深入,信息存储与检索技术逐渐成为IT产业的核心技术,并取得了一系列的创新性成果;与此同时,技术的进步也使得信息检索的理论方法和手段不断丰富,推动着信息检索向便捷化、可视化和智能化等方向发展。本文试图从系统的视角出发,对信息检索的理论和实践进行梳理,理清脉络,把握方向,以利于领域研究者更好地开展研究工作。

1 信息检索的历史

1950年,“信息检索”一词首次由Calvin Moorers提出。此后,涌现出了大量关于信息检索的研究。1955年,Allen Kent和他的同事在《美国文献工作》中公开发表了一篇文献,该文献介绍了检索性能评价的两个主要指标:查准率和查全率。这两个指标的出现对后来信息检索的发展起到了极其重要的作用。

20世纪60年代是信息检索发展尤为关键的时期。上世纪60年代早期,Gerard Salton在哈佛大学致力于信息检索研究,后来移居康奈尔大学,与康奈尔大学的同仁一起开发了SMART系统。该系统[1]为文本信息检索构建了一个很好的研究平台。在此期间,许多信息检索的理论与模型被提出,并且被证明对当时所能获得的数据集是有效的。其中最为著名的是Gerard Salton提出的向量空间模型[2-4],至今该模型还是信息检索领域最为常用的模型之一。1962年,Cyril W.Cleverdon进行了Cranfield评测研究[5],提出了许多目前仍然被广泛采用的评价指标。1964年,Karen Sprck Jones在剑桥完成了她的学位论文Synonymy and Semantic Classification,之后她继续计算语言学在信息检索中的研究工作,奠定了现在从语言学角度研究信息检索的基础。1965年,Nelson提出超文本(hypertext)的概念,以表示复杂形式相连的信息,后广泛应用于万维网中,成为描述多媒体信息的有力工具;该概念详细阐述于Nelson后来的著作Computer Lib/Dream Machines中。

此后的几十年里,信息检索取得了进一步的发展。1971年,N.Jardine和C.J.Van Rijsbergen发表了《分层聚类在信息检索中的应用》一文,阐明了群集假说。上世纪80年代中期,很多研究致力于开发商业信息检索系统(如DIALOG、ORBIT)的终端用户版本,应用领域拓展到商业领域。1978年,第一届ACM SIGIR国际情报检索会议召开,它是信息检索领域的顶级学术会议,此后,每届SIGIR都会有来自世界各国的信息检索领域的学者发表学术论文、探讨学术课题,增进彼此了解。1985至1993年,信息可视化的概念首次由Robert R.Korfhage提出,开辟了新的研究领域。1989年,第一代World Wide Web由Tim Berners-Lee在欧洲原子核研究会CERN建立,使得信息检索的研究平台更宽广。1992年首届文本检索会议(TREC)举办。它是文本检索领域人气最旺、最权威的评测会议,由美国国防部和美国国家技术标准局(NIST)联合主办。会议负责组织收集并向与会者提供标准的语料库(Corpus)、检索条件和问题集(Query Set)以及评测办法(Evaluation),与会者则被要求在规定的时间内构造检索系统并提交检索结果(Runs),由会议负责评测各个检索结果的优劣,最终依据评测结果撰写会议论文,进行学术交流。TREC解决了信息检索长期以来缺少语料库的问题,使得许多旧的检索技术得以改进,新的检索技术得以发展。

2 信息检索相关概念

信息检索这一概念的理解通常有广义和狭义之分,信息检索的广义理解包括两部分,即信息的组织(存储)与检索,它包含信息的获取、表示、组织、存储、访问、操作和结果显示等过程。狭义的理解是针对用户需求,在信息系统中查找相关信息的过程。

2.1 信息检索与信息组织

信息组织(存储)是依据信息资源的主题内容或特征,对信息进行加工处理,将无序的信息资源组织为有序集合的过程。信息的检索则是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。广义的信息检索实际上包含信息组织,两者相互依存,不可分割。信息组织是信息检索的基础,其目的是信息检索;信息检索则是信息组织的目的和归宿,是信息组织的反向过程。因此,信息组织与信息检索互为逆过程,且相互对应,每一种信息组织形式都有相应的信息检索方法。

2.2 信息检索的三要素

信息检索实质上是对用户的信息需求和一定的信息集合进行匹配的过程,它主要包括用户、信息源和信息检索系统三个要素。

(1)用户是信息检索系统的使用者,满足用户需求是信息检索发展的动力,故而对用户的研究在信息检索领域有着举足轻重的地位,研究内容包括用户查询心理、用户信息需求分析,用户检索行为研究等。

(2)信息源是人们在科研、生产及其他一切人类活动中产生并积累下来的成果和各种原始记录,以及对这些成果和原始记录加工整理后得到的产品[6]。它是信息检索的源泉,是整个信息检索过程的重要保障。近年来,在新技术革命的推动下,世界科学文化事业得到飞速发展,潜在可利用的信息源呈爆炸式增长,为信息源的开发利用带来了一定的挑战。

(3)信息检索系统是联系用户和信息源的桥梁,它是一类具有信息存储和检索功能的信息服务设施(或工具),具有“信息存储”和“信息查询”两大功能模块,它能将序化处理的数据(及数据之间的联系)存储在系统中,用户可按照相对应的检索方式从系统中检索出所需信息。

3 信息检索的核心内容

对于信息检索而言,信息检索模型、词权重算法、相似性计算和聚类算法是它的核心部分,任何一部分的缺失都会影响到信息检索的效果。

3.1 信息检索模型

模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述。信息检索模型是用来描述信息和用户查询的表示形式以及它们之间相关性的框架。通常信息检索模型主要包括以下四个方面:知识组织和表征机制、信息需求表征机制、知识表征与用户需求表征之间的匹配机制和检索结果排序机制。

根据信息与用户查询相关性的匹配策略可以将信息检索模型分为三种:基于集合论的模型(Set-theory-based models)、基于代数论的模型(Algebra-theory based models)和基于概率论的模型(Probability-theory-based models)。其中,基于集合论的模型包括布尔模型和扩展布尔模型;基于代数论的模型则包括向量空间模型、潜语义标引模型以及扩展布尔模型;这里需要指出的是,扩展布尔模型既可隶属于集合论模型,也可划分到代数论模型范畴,因为它用布尔代数来解释一元布尔运算的距离,兼有集合论模型的特征和代数模型的特征[7]。基于概率论的模型主要包括概率检索模型和语言检索模型。上述三种模型之间的划分并不是绝对的,实际上存在交叉覆盖的部分,如图1所示。

图1 三种检索模型之间的关系

3.2 词权重算法

在信息检索中,词的作用并不是相同的,通常是用词权重加以区分的。词权重是指词在信息集合中的相对重要程度,定义为代表文本主题的程度,它是一个相对的概念。词权重算法在信息检索中的地位举足轻重,在设计词权重算法时,通常要考虑以下因素:①词的内在特征,主要参考位置特征,明显地,词在一个句子中、段落中及全文中的不同位置,往往具有不同的权重;②词的外生特征,主要由数据集合来界定,包括数据集合中数据(信息)资源的深度和广度,以及词在数据集合中的区分度;③词的语言学特征等。

3.3 相似性算法

相似性是指数据集中对象之间的相似程度,是用来测度对象表征同一主题的程度,这里的对象可以是数据集中的文档、查询表达式、网页、作者、机构等。

相似性算法首先要选取特定的测度指标,然后运用相应的数学公式,计算指标值。主要有以下几种算法:基于空间特征的算法,主要选取距离和夹角作为测度值;基于概率的算法;基于词重复的算法;基于链接的算法;基于用户信息转移的算法;基于共引、共现的算法;基于语义特征的算法等。值得指出的是,由于语义检索的发展,基于语义特征的算法可能成为将来的一个研究方向。

相似性算法的选取与很多因素有关,包括选择的检索模型,不同的检索模型有它适用的相似度算法,检索模型在很大程度上限定了相似度算法的选择范围。另外,信息在计算机内部存储的表示形式,上下文语境及被描述对象的特征等也对会相似性算法的选取产生影响。

与相似性相关的另一个概念是相关性。信息检索中的相关性是一个多维的、动态的概念,它与上下文语境密切关联,是任务相关和时间敏感的,并涉及人的认知和推理过程。Mizzaro曾用四维模型来解释信息检索中的相关性[8],在该模型中,相关性涉及了信息源、用户、时间和构件四个维度。Saracevic的分层模型[9]也由低到高将相关性划分为系统或算法相关、主题相关、认知相关、情境相关和动机相关等多个层次。然而,目前绝大多数信息检索中的相关性只涉及四个维度中的信息源维度及用户维度的部分因素,或者分层模型中主题相关层次的相关性。相似性是系统内的观点,相关性是系统外的观点;相似性是一种客观的测度指标,而相关性是一种主观的评价标准。其一,相似性计算的是对象之间的相似程度,它是客观存在的;而相关性计算的是人之于对象的一种主观判断,它是主观的、因人而异的。其二,相似性判断过程中不需要人的参与,只需预先设定好公式,即可由程序自动完成;然而,相关性判断过程往往涉及人的认知活动。

3.4 聚类算法

聚类是信息检索中的一个处理过程,可以优化检索效果,呈现给用户更有规律的信息。聚类算法是一种数据分析方法,依据特定的数据聚合的标准将数据集划分为不同的类。这种划分出来的类允许具有层级结构。在聚类算法中,相似性算法是关键,因为聚类的标准是对象之间的相似性。聚类中一个重要的环节是聚类合并,合并主要有两个方向:至下向上和至上向下。合并策略是聚类的关键技术,合并策略主要有基于质心、簇内距离、簇外距离和簇密度的方法。策略的选择取决于聚类对象的数据类型、应用目的和限定条件等。

以上四部分组成了信息检索的内核,四者之间存在一定的联系,其中,信息检索模型是最根本的,处于核心地位,在它的基础上依次衍生出词权重算法、相似度算法、聚类算法,且四者的研究内容逐渐增多,外延不断加大,呈现一种层层嵌套的模式,见图2所示。

图2 信息检索核心内容各部分间关系

4 信息检索途径与宏/微观信息

目前,在信息检索领域,广泛认同的检索途径是检索和浏览。在信息检索的发展历史中,检索占了很大的比重,成为主流的、基本的检索方式;而浏览处于配角的地位,未被充分开发利用,它的作用很大程度上被低估,甚至被忽略。检索必须有基于关键词的数据集和简单的用户接口作为前提,用户通过输入关键词、短语甚至句子,与系统进行交互;而浏览需要更复杂的平台,如主题目录、检索结果列表、超链接和可视化环境等。

数据集中的信息可以分成微观层面和宏观层面,类似于屏幕上的像素和图像。理想的信息检索应该能够检索出这两个层面的信息。单个的、不连续的、孤立的微观信息在总体上能显示信息的聚合形态,如趋势、模式、结构或个体对象的整体观等。

信息检索的两种途径理论上应可以获取到数据集中这两个层面的信息。检索一般对应于微观层面的信息,用户在检索之前对数据库中的信息结构没有宏观的感知,通过输入查询式,与微观层面的单个对象匹配,反馈的信息达到一定规模就形成了一定的宏观形态的信息;而浏览模式下,一方面,用户可能对所要查找的信息所属集合有一个整体感知,即宏观信息,头脑中形成对所查找信息的初步定位,另一方面,反馈给用户的结果集中就一条条记录而言是微观的,实际对应用户真实的需求点。简而言之,检索是一个信息流从微观到宏观的过程,而浏览则包含直接获取宏观信息和信息流从微观流向宏观两个获悉信息的过程。图3给出了从宏/微观信息角度分析信息检索途径的视图。

图3 信息检索途径与宏观/微观信息

当然这只是一种理想状态,实际中还面临许多亟待解决的问题,如数据集中数据整合方案、数据的可视化呈现形式、浏览手段及检索效率评价问题等。

5 基于语言学的信息检索

当前,语言学知识对于信息检索的重要性与日俱增。在信息检索的处理中,既涉及大量语言信息的一般性处理,也涉及对自然语言的分析与理解。从语言学角度看信息检索,主要包括词法、语法和语义三个层面。

(1)词法层面的信息检索。此种模式下,单个的、独立的词汇是信息检索的逻辑单元,该层面主要考虑词的总体分布特征(词频)、词干、前缀和后缀等。

(2)语法层面的信息检索。这一模式将整个句子作为信息检索的逻辑单元,较之词法层面,它添加了词语间的联系和语法属性,语法结构分析成为检索过程的一部分,词汇的含义更加精确。

(3)语义层面的信息检索。处于此级别的信息检索是真正意义上的自然语言查询,它能理解语言的含义,包括一些复杂的语言现象(如暗指和隐喻)。当然语义级别需要考虑的因素也更多,如事件和人物背景,句子、段落、章节甚而整篇文章的语境,社会、文化和技术的影响等。同时该模型集成了推理机制,检索结果不是简单地基于关键词的匹配,而是基于推理的,因而检索结果更准确。

目前,信息检索过程中使用的语言学知识还比较多地局限于词法和语法层面,语义层面的应用还非常有限。然而信息检索领域的某些难题,如自动摘要、语义检索等,对语义的要求非常高,因此,语言学的角度的分析对信息检索具有重要的价值。此外,信息检索中检索模型、相似性算法、词权重算法和聚类方法也与语言学方面的知识密切联系。相信,随着计算机语义理解的不断深化,信息检索的效果将得到极大改进。

6 信息检索的研究前沿

信息检索在发展的过程中,融入了许多新的时代性的特征,形成信息检索领域的热点与前沿研究方向。从最初的文档检索到细粒度的检索,如实体检索、基于知识单元的语义检索等;从单纯的文本检索到现在基于多种媒体的检索,如音乐检索、图像检索、视频检索和混合媒体检索等;从单一语言的检索到现在的跨语言检索;从单一的结果展现方式到现在的交互式、动态的结果展现方式,如检索可视化;从少数领域扩散到广泛的应用领域,如生物信息检索、医学信息检索、化学信息检索等;信息检索处理的方法也处在不断地发展之中,如分类、聚类、过滤、信息摘要、信息抽取、数据挖掘、自然语言处理等。此外,网络搜索引擎、新的检索模型的研究、查询扩展也是该领域的研究热点。

(1)语义检索。目前万维网上的信息虽然是机器可读的,却不是机器可理解的。由于HTML缺乏语义性,使得网上的信息难以被计算机自动处理,而面对海量的网络信息,人工处理也不现实。由此导致基于关键词检索的万维网搜索引擎的检索质量和效果远不能令人满意。语义检索有望改善这一现状。语义检索是一种基于知识的分析检索,通常在自然语言理解的基础上借助统计模型、计算语言学应用,在知识关联模型下完成检索。其根本特性在于检索匹配不是基于字面的机械匹配,也不是基于字段的匹配,而是基于知识单元的、面向语义的匹配,从而大大提高了信息检索反馈的相关性和准确度。鉴于本体在知识建模和知识组织方面的优势以及W3C在语义Web和本体标注方面所做的工作和成果,基于本体和语义Web的语义检索已成为研究热点[10]。

(2)跨语言检索。跨语言检索能够有效地消除数字鸿沟,促进信息交流和利用,降低国际组织和机构的沟通成本,所以近年国内外的研究机构都不遗余力地投入跨语言检索的研究之中,并且得到了所属国家和地区的支持。20世纪90年代后期,一些实验性跨语言信息检索系统相继问世,特别是最近一两年来,大型的搜索引擎(如Google、Yahoo等)通过“语义工具”实现了真正的跨语言信息检索,使跨语言信息检索的研究与应用达到了一个新的高度[11]。

(3)多媒体信息检索。多媒体信息检索是当前信息检索领域的研究前沿之一,其主导性研究思路是基于内容的检索技术。目前,针对图形、图像、视频等信息类型,研究人员已提出了一些基于颜色、形状、纹理、空间位置关系、摄像机动作等视觉特征提取与匹配的算法思想,有关的试验也取得了积极的进展,并涌现出一批示范性或试验性检索系统,例如,IBM公司的QBIC系统、美国哥伦比亚大学的WebSeek系统等。在音频信息检索方面,研究人员针对语音类信息具有语法、字、词等要素的特点,提出利用自动语音识别技术,将语音信息转换成文本再进行检索;而对音乐类信息,则针对其所具有的听觉特征,提出基于旋律、节奏、音乐乐谱等的检索匹配思想。所有这些研究方法还不够成熟,因此还需付出更多的努力[12]。

(4)信息可视化。信息可视化起源于图形学、计算机图形学、人工智能、科学可视化以及用户界面等领域[13]。它的目标是实现信息的知觉化、感性化。信息可视化集成了多方面的内容,包括:信息抽取和描述、人机交互、数据挖掘、制图学和成像学。它涉及了信息特征的识别与确认,计算机支持的抽象信息的交互式可视化描述,它们用于更好地理解信息的本质和更方便地操纵信息。能够用于生成信息可视化的资料包括:文本、图像数据、声音、语音、视频,当然还包括其他所有的数字化资料。信息可视化是一个过程,将抽象的、典型的非数字化信息(如文本)转换为二维或三维图形的形式。在可视化空间建立之前,信息可视化方法一般需要将非数字化信息转换为数字化形式。现代的可视化空间常常不局限于单纯的观察静态数据,而是提供给用户一个动态的、灵活的环境,在这种环境中,用户可以控制信息、分析数据、并进行某些操作。信息可视化正在成为信息科学一个重要的研究分支[14],而检索可视化是信息可视化的重要研究内容之一。

(5)自然语言处理。自然语言处理问题的研究是要寻求计算机对人类语言的自动理解和处理,进而实现更自然、更便捷的人机交流与通讯。自然语言的处理过程是复杂的。首先需要对自然语言进行分析与理解,针对语言内部的层次化结构,研究人员把自然语言理解划分为不同的层次:语法分析与理解、句法分析与理解、语义分析与理解。这种层次划分实际上也正代表了自然语言理解研究的不同难度水平,目前,基于语法与句法水平的自然语言处理和分析技术已经达到了实用程度,而语义水平上的正确理解则还存在较多困难,对更多语言学知识与工具的应用是研究的热点[12]。

标签:;  ;  ;  ;  ;  

从系统的角度思考信息检索_信息检索论文
下载Doc文档

猜你喜欢