现代情报检索模型理论比较与发展研究,本文主要内容关键词为:情报论文,模型论文,理论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G354[文献标识码]A[文章编号]1003-2797(2004)03-0007-05
1 情报检索相关性及其模型研究的作用
情报检索是寻找相关情报的过程,而检索过程自始至终都涉及相关性问题。相关性是情报需求内容与文献内容之间的一种关系。为了正确地解释检索过程,就必须给相关性一个合理的衡量。为此,人们提出了一系列检索模型,试图从理论和实践上给出一个合理的解答。
一般来说,模型的建构有两种基本的类型:一种是基于描述性、说明性的目的而建构的模型。这种模型的结构比较简单,其建构的目的也只是为了介绍系统建设者早期的工作,描述系统的一些属性。另一种则是标准的模型建构。这种类型的模型建构功能较为强大,用这种方法建构出的情报检索模型可以对模型的活动实施预控制[1]。在情报检索领域中还有第三种类型的模型建构法。它是从前两种传统方法中演化出来的,是基于预见性的目的来建构一个模型。具体来说,就是通过一个简单的模型设置运行所谓的“抽象化实验”,来预算出真实系统的活动行为。一个系统的基本属性或是整个一类系统的行为都能通过这类模型的建构被分析推算出来。许多研究者认为通过这种方法所建构出来的模型将是可行可信的,因为它的运行不会受到那些模型中被抽象掉的(非基本)因素的影响。
无论用哪种方法来建构情报检索模型,为了能得到较为理想的效果,我们都必须对情报检索和信息的各种性质有更完整的了解。情报检索的研究人员一直比较关注情报检索模型的建构,因为这些模型的建构会有助于对情报检索基础理论的研究。检索模型的主要作用表现在以下几个方面:
(1)更精确地描述出文献与文献、文献与提问之间的相关关系,使之能比较和计算。
(2)安排更合理、更便于检索的文献存储形式。
(3)在此基础上设计出合理的检索式,便于检索提问。
(4)除情报检索外,进行一些情报辅助分析工作[2]。
本文拟从比较与发展的角度,按时间顺序介绍布尔模型、向量空间模型、概率模型、模糊模型、逻辑模型、概念模型及网络模型等,并将情报检索模型的发展划分为以下几个阶段,分别进行论述。
2 情报检索模型理论研究的几个阶段
2.1 描述提问的结构化阶段
布尔检索模型是最早也是最简单的一种检索模型,其理论已基本成熟。过去以及现在的许多检索系统,特别是在我国,很多都是采用这种检索模型为工作原理的。传统的布尔检索是将用户查询与文献进行逻辑的(而非数值的)比较而获得结果的检索。
布尔检索模型的突出优点在于这种结构化的提问方式与用户的思维习惯相一致。其中的查询要求(条件)A、B…可以分别用若干个标引词来表示,并可以用布尔逻辑算符将用户的提问“翻译”成系统可以接受的形式。同时,这种模型把复杂的检索过程简单化,能够将较复杂的情报提问按其概念组面的逻辑关系描述出来,从而变成可以由计算机执行的逻辑运算,变成机器根据事先确定的程序进行自动匹配的过程,这种运算上的简单易行是布尔检索系统的又一突出特征。此外,用布尔检索进行操作的某些系统允许用户通过给他使用的一个有结构的词典来缩小或扩大检索。所谓有结构的词典是指对任何一个给定的标引词都存储了与之相关的更一般的(上位)或更精确的(下位)关键词的词典。布尔检索很容易利用这些相关项来改进检索。
布尔检索在理论上存在的种种缺陷也是不容忽略的。具体包括下列方面:①布尔逻辑式的构造不易全面反映用户的需求;②匹配标准存在某些不合理的地方;③检索结果不能按照用户定义的重要性排序输出;④很难控制输出量的大小;⑤对用户的素质有很高的要求。
为了克服上述缺陷,Waller和Kraft在1979年提出的加权布尔检索模型[3],Salton于1983年提出了扩展布尔检索模型[4]。扩展模型是传统布尔检索模型完全匹配的严格性和向量模型提问的无结构性的折中,在保持布尔检索的结构式提问的同时,也吸取了模糊模型和向量空间模型的长处。而且该模型中巧妙地引入了一个模型参数p,通过适当调节这个参数,Salton模型可以分别表现为布尔模型、向量空间模型和模糊模型。
2.2 描述相关性的量化阶段
随着电子计算机应用于情报检索,数学应用于情报检索理论,并建立了多种数学模型,因而对相关性的描述进入了量化阶段。由于理论基础和基本思想的不同,可以归结为以下三种模型。
2.2.1 向量空间模型
向量空间模型是所有情报检索模型中最富有想象力和创造性的,最能揭示文献之间的关系,但也是使用最复杂、要求条件最高的模型。20世纪70年代中期,杰拉尔德·索顿(Salton)提出了检索系统的向量模型[5],定义了文献向量、提问向量、文献提问相关系数以及属性文献相关矩阵、标引词相关矩阵与文献相关矩阵。把文献和查询用向量来表示,这是建立向量空间模型的基本前提。这样,就把文献与查询的匹配这个检索问题转化为一个关于向量空间的计算问题,其相似系数S(d[,i],q)可定义为:
似系数超过某一特定值的文献作为加诺结果输出,或者,先把所有文献按相似系数的大小排序后,再将前1篇文献作为检索结果输出,其中1为用户所希望检出的文献篇数。
2.2.2 概率模型
向量空间模型是建立在术语无关假设基础上的。随着情报检索工作的不断深化,人们认识到,术语无关假设是不合理的,只有术语相关(term-de-pendence)才能必然而合理地反映相关检索的本质。因此,概率模型应运而生。
众所周知,文献对于用户的相关性判断具有一定的随机性和事前不确定性。一篇文献作为相关文献的可能性大小是一个随机事件,该随机事件的概率表示文献关于相关性的隐蔽特性。对于该概率的计算或估计,可以解除文献相关性的事前不确定性。它将文献向量与查询向量间的相似程度概率化,主要研究表示文献的随机向量在相关文献集和无关文献集中的概率分布。
在假设“任意两篇文献的相关与否是互相独立的”情况下,Van Rijsbergen给出了确定输出文献的线性判别函数g(X)[6]。
这里p[,i]是当文献X是相关文献时用第i个主题词标引的条件概率,q[,i]是当X是无关文献时用第i个主题词标引的条件概率,p(w[,1]),p(w[,2])分别是文献集合中任一文献是相关和无关文献的概率,I[,ij]代表把事件w[,j]判断为w[,i]的损失函数。输出标准一般为g(X)≥0。
对于某个给定的提问,式中的C与X无关,可以看成一个常数。它包含的是先前的检索过程中得到的有关文献相关性的先验信息和决策统计理论决定的决策标准。
概率模型最大的特点也是最大的优点就是引入了相关性概念,可以说相关性原理及排序原理是概率模型的理论核心。而有关概率的计算及其数据来源,则是概率模型的技术难点。
2.2.3 模糊模型
由于信息检索中的相关性与不相关性不是绝对的,有时甚至是相关与不相关之间也没有明确的界线,这就为模糊理论介入检索系统提供了基础。Tahani于1976年首先提出并给出了模糊检索模型[7]。接着Radecki等人进行了更深入的研究[8]。Radecki研究思想的特点是给出查询语言的λ水平语义,λ水平语义是标引词与文献内容在语义比较上的一个测度,而测度是通过标引词与文献内容相关度的隶属函数来反映的。Radecki模型中λ水平语义的隶属函数建立在Zadeh算子上[9]。
Radecki给出了模糊检索模型的数学描述。首先定义了它反映的是文献d对查询q的相关程度。因此,查询q可以定义为文献信息集合D上的一个模糊子集,即:
关程度大小排序输出的形式。用户可调整λ值以输出合适的文献信息。
在必要时,用户可以指定两个λ水平:λ[,max]和λ[,min]。前者表示用户要求达到的最低水平,后者表示用户最满意的水平。实际中,λ很难一次定准,需要经过多次实验、调整。这在目前的网络环境中是很容易做到的。
2.3 定性评价与定量计算相结合的阶段
布尔模型(古典逻辑模型)在实践中大都仅能提供“真或假”的判断,且它的查询并不匹配那些部分相关的文献,对于推理过程中存在的不确定因素也无可奈何。目前,解决这些问题有两个方向:一是将推理过程d→q量化;二是在定性评价的时候同时运用非确定性理论(theory of uncertainty),以体现文献的部分匹配与非确定性。目前,很多研究人员都在努力运用第二种方法来发展情报检索的逻辑模型,其目标是先确定合适的逻辑和不确定性原理,然后确定一种方法使它们完美结合,以达到对相关性的量化表示。
现有的许多逻辑模型是基于Van Rijsbergen于1986年提出的逻辑不确定性原理,它将逻辑与情报检索模型的关系第一次清晰描绘出来:“给出两个命题x、y,对于和已知集合相关的‘y→x’的不确定性的度量是通过向数据集合中输入使‘y→x’为真所需的最小信息量确定的。”向数据集合中输入信息,是通过逻辑来完成,而不确定性的度量是通过不确定性原理来完成的。这些模型大致有:基于可能世界的模态逻辑的情报检索模型,其代表人物有Nie[10]、Chevallet等;基于映象(image)的情报检索模型,其代表人物有Harper[11]、Crestani、Van Rijsbergen[12]等;基于近似理论(plausible reasoning)的情报检索模型,其代表人物有Bruza[13]等。此外,还有Bruza和Huibers提出的情报检索的元模型(Meta-models)[14~15]。
Lalmas[16]认为逻辑模型的一个最大优点就是允许对情报检索模型和它们的特性进行规范的研究,因为需要对情报检索模型的运行和特性进行评价,所以这一点就显得越来越重要。
3 网络条件下情报检索模型的优化
3.1 基于语义表述的概念模型
Internet作为世界上最大的信息库,如何为普通大众提供更方便简捷高效的检索方式,就成为众多网络服务商必须解决的问题。对于用户来说,质量胜于数量,深度胜于广度,用户希望在大量的信息中,快速找到“含金量”高的信息。但是目前查询工具的查询能力有限,特别是缺乏识别、理解和使用深层信息语义的能力。在这样的背景下,国内外的学者提出了“基于概念的情报检索模型”(Conceptbased Information Retrieval Model),试图让情报检索系统能够利用信息的语义知识,去“理解”用户的检索需要,通过知识学习、分析理解和推理归纳,来实现“智能化”的信息检索[17]。
基于概念的情报检索模型,克服了以往的检索模型中以词为中心建立关联而忽略了词之间的语义联系的缺点。基于概念的情报检索模型以包含语义联系的概念为中心,利用概念的关系来进行信息检索。概念检索的主要内容包括两个方面:同义扩展检索和相关概念联想。前者能够提高检索的查全率(Recall),而后者会大大加强搜索引擎与人的交互,使其具有一定程度的智能[18]。目前,概念检索的实现方法多种多样,但一般都采用人工智能技术和知识库来实现特定领域的概念检索。
在概念检索模型的构建中,概念词典和概念树的构建是关键。概念词典是模型的接口,是从词汇到概念的桥梁,它包含了语法和词汇信息,通过它能使词汇迅速被抽象为概念。
概念树是一个对领域知识的层次或分类结构,它的作用主要有两个:一是表明概念之间的关系;二是建立了从概念节点到基于概念数据库的关联。它是整个模型的核心。
搜索引擎通过对用户输入的查询进行分析,转换成概念组合。通过查询所表达的概念与目标文档所包含概念的匹配来返回查询结果。目前,基于概念的情报检索模型研究,主要集中于算法、概念树的导航浏览及概念词典的调整策略等方面。
3.2 基于超链分析的排序模型
在网络检索中,由于提问式的不专指和信息资源量巨大的矛盾,系统往往会返回数量庞大的检索结果。没有很好的排序算法,用户就需要花费很大的精力进行浏览筛选,所以较之传统的情报检索系统,排序算法在搜索引擎技术中占有更加核心的地位[19]。
以往网络搜索引擎的排序算法大多是基于词频统计的,但这种从传统情报检索理论发展的排序算法在网络搜索引擎中的应用有其局限性。由于网络资源的数量巨大,词频相同的两个网页质量可能相差很远,但用这种排序算法得出的排序位置却是一样的。
搜索引擎面对网络这个新的检索环境,必须使用新的排序技术才能获得较好的检索效果。在这一背景下,基于超链分析的排序算法被搜索引擎界提出,其中以Jon Kleinberg提出的HITS算法[20]和L.Page等提出的PageRank算法[21]最为典型。其中PageRank技术在搜索引擎Google中得到了非常成功的应用。
传统情报检索理论中的引文分析方法是确定学术文献权威性的重要方法之一,即根据引文的数量来确定文献的权威性。PageRank的发明者对网络超链接结构和文献引文机制的相似性进行了综合研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。PageRank除了考虑网页得票数(即链接)的纯数量之外,还要分析为其投票的网页的重要性,重要的网页所投之票有助于增强其他网页的“重要性”。简单地说,PageRank就是要从链接结构中获取网页的重要性,而网页的重要性决定着同时也依赖于其他网页的重要性。
令F[,u]为网页u指向的所有网页的集合,N[,u]=|F[,u]|,即u的出度;B[,u]为指向u的所有网页的集合,常系数c<1,用于保证所有网页排名值的总和保持为常量。理想情况下,网页u的排名值R[,u]可由以下公式计算:
以上方法的缺点是,当两个页面互相指向,但不指向任何其他页面,也不存在指向这两个页面的链接时,在迭带中,将造成陷阱,不断地累加排名值而不传递出去。对此,提出了改进的模型:
其中,E[,u]表示网页u的初始排名,c取最大可能值,且‖R′‖[,1]=1.
超链接环境下基于链接结构的网页排序算法在信息检索中的作用是明显的,具有广泛的应用前景。下一步的工作将是,在服务器端结合其他网页相关度评价模型(如向量空间模型等),客户端结合智能代理技术、自然语言处理技术及聚类技术等,进一步优化结果,满足信息检索的需要。
4 现代情报检索模型理论的发展[22]
4.1 研究的重点依然是向量空间模型和概率模型
早在1985年,索顿先生曾在《信息科学研究札记》一文中提出了信息检索领域的十大课题,并强调了向量模型和概率模型。最近发表的有关检索模型方面的文章也大多是关于这两种模型的改进和研究的。而且,在TREC-3(TREC-Text Retrieval Conference,由NTIS和ARPA联合举办、赞助的国际大型检索实验)的角逐中,概率检索模型与向量空间模型及其演化改进的模型显具优势。如康奈尔大学的SMART系统采用向量空间模型;麻省理工学院的INQUERY系统采用的是概率推理网络,属概率模型,这两个系统均已商业化,从它们在TREC中取得的成绩及其已商业化的事实,就可看出其先进性与实用性。在TREC的参赛系统中,还有许多其他系统也采用了概率检索模型和向量空间模型,这也反映了这两种模型的光明前景和商业价值。
4.2 各种模型的融合及取长补短
在布尔逻辑中吸收概率模型和向量模型的优点,扩展布尔检索模型就可对检索命中文献的输出加以控制;在概率模型和向量模型中,除加强对词间关系计算、相似度计算、极值科学化等方面的研究外,还可吸收布尔逻辑的结构化特色,发展概率检索模型的布尔查询方式或向量模型的布尔查询方式等。
4.3 检索模型的智能化
目前,Internet上的人工智能产品正像雨后春笋层出不穷,有智能搜索引擎(Intelligent Search Engine)、智能浏览器(Intelligent Browser)、学习智能体(Learning Agent)、知识共享智能体(Knowledge-Sharing Agent)等,已经走出实验室,进入商品化阶段。如Alta Vista在自然语言的翻译上有所建树,Excite能够自动编制文摘,AskJeeves允许用户直接使用自然语言提问。
4.4 综合性的多媒体检索模型是发展趋势
随着因特网和多媒体技术的发展,网络检索和多媒体情报的检索显得越来越重要,这就要求能够建立综合性的多媒体情报检索系统,根据用户的需要,对图形、图像、文本、声音、动画等多媒体情报进行检索。多媒体信息覆盖面宽,对象多且复杂,功能要求多样性;同时,文字与图像、声音需并发处理,这就要求它们之间在时间和空间组合上匹配。因而需要研究一种普遍适用的检索模型,既适合多媒体对象的组织,又符合多媒体对象的构造,并在此基础上建立一种高层的查询机制,用来对多媒体及其各成分进行统一检索。同时,也可以根据实际情况,改造现有的情报检索模型和相应的数据结构,以满足多媒体信息处理的需要。现在已经有许多依据内容特征进行图像检索的系统或搜索引擎,如IBM公司开发的QBIC(Query By Image Content)系统、Web-Seek(http://www.ctr.columbia.edu/webseek)、Virage(http://www.virage.com)等,但尚处于实验和探讨阶段。
总之,随着计算机技术、网络技术、多媒体技术、人工智能技术等的发展,情报检索模型已由传统的布尔逻辑模型发展到了定量化阶段,并不断向智能化、网络化方向发展。未来的检索模型将发展成为智能化、网络化、综合性的多媒体检索模型。