网络环境下信息检索模型的理论开发与评价体系研究_布尔逻辑检索论文

网络环境下情报检索模型理论发展及评价体系研究,本文主要内容关键词为:评价体系论文,情报论文,模型论文,理论论文,环境论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 检索相关性及其在网络环境中的存在

无论是传统检索还是目前的网络信息检索,其检索过程自始至终都涉及相关性问题,这是由信息生产者、加工者、系统设计者及用户之间难以达成共识这个根本原因所致。研究检索模型就是为了正确地解释检索的相关性过程,并从实践上给出相关性一个合理的评价。

在网络检索中,由于提问式的不专指和信息资源量巨大的矛盾,系统往往会返回大量不相关的检索结果。没有很好的对相关性进行计算的模型和算法,用户就需要耗费许多的精力进行浏览筛选。如果搜索引擎能按照检索结果网页的价值和与用户提问的相关度进行排序,那么对于减轻用户负担、提高检索效率无疑会产生积极作用。因此,与传统的情报检索系统相比,检索模型以及相关算法在搜索引擎技术中占有更加核心的地位[1]。

2 检索模型理论研究的几个阶段

情报检索模型是随着计算机技术在检索中的应用而产生的,并且随着计算机技术、网络技术、多媒体技术、人工智能技术等的应用,正在由传统的模型向定量化、智能化、网络化方向发展。本文从对相关性的表述及研究方法的角度,将检索模型的发展划分为如下3个阶段:描述提问的结构化阶段、描述相关性的量化阶段、定性评价与定量计算相结合的阶段。

2.1 描述提问的结构化阶段

布尔检索模型是最早也是最简单的检索模型,其理论已基本成熟。过去以及现在的许多检索系统,都采用这种检索模型为工作原理。传统的布尔检索是将用户查询与文献进行逻辑的(而非数值的)比较而获得相关结果的检索。

它的突出优点在于这种结构化的提问方式与用户的思维习惯相一致。其中的查询要求(条件)A、B……可以分别用若干个标引词来表示,接着可以用布尔逻辑算符“∧”、“∨”、“┓”将用户的提问“翻译”成系统可以接受的形式。但布尔模型在理论上所存在的种种缺陷也是不容忽略的。具体包括下列方面:①布尔逻辑式的固定结构策略很难确切反映用户可变的、潜在的信息需求;②布尔逻辑的匹配标准存在某些不合理的地方,例如,在响应某个用“∧”连接的检索时,对提问式“A and B and C and…and Z”,系统把只含有其中一个或数个但非全部检索词的文本看作与那些根本不含有其中任何一个检索词的文本一样差,同样加以排除;③在处理检索结果上尚不能按照用户定义的重要性排序输出;④很难控制输出量的大小;⑤对用户的专业素质有很高的要求。

为了克服上述缺陷,Walker和Kraft在1979年提出了加权布尔检索模型。Salton[2]于1983年提出了扩展布尔检索模型。这两种模型是传统布尔检索模型固定式匹配的严格性和向量模型提问的无结构性的折中,即在保持布尔检索的结构式提问的同时,也吸取了模糊检索和向量检索模型可以进行量化计算的长处。而且该模型中巧妙地引入了一个模型参数p,通过适当调节这个参数,Salton模型可以分别表现为布尔模型、向量模型和模糊模型。

2.2 描述相关性的量化阶段

由于传统的布尔检索是将用户查询与文献进行逻辑的(而非数值的)比较而获得结果的检索,不能对相关性进行量化,所以促使人们探索新的检索模型。另一方面,电子计算机、数学开始应用于情报检索理论,许多数学模型对相关性的描述使检索由定性向量化阶段发展。其中比较典型的模型有向量空间模型、概率模型和模糊模型。

1)向量空间模型在所有情报检索模型中最富有想象力和创造性,最能揭示文献之间的关系。其基本思想就是把文献和查询用向量来表示,这样,就把文献与查询的匹配问题转化为一个关于向量空间的计算问题,其相似系数S(d[,i],q)可定义为:

但该理论模型应用方面难度大,要求条件高。目前在应用中都采取了一些简化算法。

2)文献对于用户的相关性判断具有一定的随机性和事前不确定性,即一篇文献作为与用户需求相关文献的可能性大小具有随机性。该随机事件的概率表明检索相关性的隐蔽特性,对于该概率的计算或估计,可以解除文献相关性的事前不确定性。因此,从数学上处理的方式看,概率检索模型可以视为对向量检索模型理论的扩充。因为,它可以将文献向量与查询向量间的相似程度概率化,专门研究文献的随机向量在相关文献集和无关文献集中的概率分布。特别是在对相关性无知或知之不多的情况下,应用这种理论可以通过接收和汇集所有反映每篇文献相关性的数据,来确定表示文献的随机向量的概率分布和数字特征,以便得到每篇文献(对某一用户)的相关概率。

3)模糊模型是建立在模糊集合论、模糊逻辑及可能性理论基础上来处理各种不确定性的一类模型。模糊模型充分考虑了情报检索相关性判断的模糊性,使检索过程中的匹配机制更符合客观检索实际。Tahani于1976年首先提出并给出了模糊检索模型。接着Radecki[3]等人进行了更深入的研究。他给出了模糊检索模型的数学描述:

模糊模型在检索加权方面得到推广应用。但对于权值的选定,还停留在主观判断或词频统计水平上。

2.3 定性评价与定量计算相结合的阶段

为了解决部分匹配和推理过程的不确定性,有两个发展方向:一是将推理过程d→q量化;二是在定性评价的时候同时运用非确定性理论(Theory of Uncertainty)以体现文献的部分匹配与非确定性。目前,很多研究人员都在努力运用第二种方法来发展情报检索的非古典逻辑模型:目标就是确定合适的逻辑和不确定性原理,然后确定一种方法使它们完美结合,以达到对相关性的量化表示。

现有的许多逻辑模型是基于Van Rijsbergen于1986年提出的逻辑不准确性原理。非古典逻辑模型第一次将逻辑与情报检索的关系清晰地描绘出来,“给出两个命题x、y,对于和已知集合相关的‘y→x’的不确定性的度量通过向数据集合中输入使‘y→x’为真所需的最小信息量确定的。”向数据集合中输入信息,是通过逻辑来完成;而不确定性的度量是通过不确定性原理来完成的。这些模型归纳起来大致有:基于可能世界的模态逻辑的情报检索模型,其代表人物如Nie、Chevallet等;基于映象(Imaging)的情报检索模型,其代表人物如Harper、Crestani、Van Rijsbergen等;基于近似理论(Plausible Reasoning)的情报检索模型,其代表人物如Bruza等;以及Bruza、Huibers等提出的情报检索的元模型(Meta-models)。

Lalmas[4]认为逻辑模型的一个最大优点就是允许对情报检索模型和它们的特性进行规范的研究,尤其在对情报检索模型的运行和特性进行评价时更为重要。正如Smeaton[5]所说的:“毋庸置疑,如果说情报检索领域会取得重大突破的话,那么它一定来自于对逻辑模型的研究。”

3 网络环境下的情报检索模型理论的发展

3.1 基于语义表述的概念模型

面向世界上最大的因特网信息库,如何快速准确地从中寻找到符合需求的信息是广大网络用户热切关注的,同时如何为普通大众提供更方便快捷的检索方式成为众多网络服务商面临的重要课题。在这样的背景下,国内外的学者提出了“基于概念的情报检索模型”(Concept-based Information Retrieval Model),试图让信息检索系统能够利用信息的语义知识,去“理解”用户的检索需要,通过知识学习、分析理解和推理归纳来实现更高“智能化”的信息检索[6]。

基于概念的情报检索模型,在于改变了以往的检索模型中以词为中心建立关联而忽略了词之间的语义联系的缺点。其主要内容包括两个方面问题:同义扩展检索和相关概念联想。前者能够提高检索的查全率(Recall),而后者会大大加强搜索引擎与人的交互,使其提高智能性[7]。概念检索的实现方法多种多样,但一般都采用人工智能技术和知识库来实现特定领域的概念检索,目前已经有商业化的搜索引擎采用了类似的技术,如Excite使用了“智能概念提取”技术(Intelligent Concept Extraction)构建了一种词表,通过同义词、近义词、语义联想等方式表示词汇间的相互联系。

在概念检索模型的构建中,概念词典和概念树的构建是关键。概念词典是模型的接口,是从词汇到概念的桥梁,它里面包含了语法和词汇信息,通过它能使词汇迅速被抽象为概念。概念树是一种对领域知识层次或分类结构的描述,它的作用主要有两个,一是表明了概念之间的关系;二是建立了从概念节点到基于概念数据库的关联。它是整个模型的核心。

搜索引擎对用户输入的查询进行分析,转换成概念组合,通过查询所表达的概念与目标文档所包含概念的匹配来返回查询结果。

目前,基于概念的检索模型研究主要集中于算法、概念树的导航浏览、概念词典的调整策略等方面。

3.2 基于案例的检索模型

作为信息用户都有这样的体会,很多时候很难将自己的信息需求准确地表达出来(或许自己也不太清楚),往往会遇到像“把类似的文章找出来”这样的要求。特别是在目前的网络环境下,人们在随意浏览互联网的时候经常会产生变换不定的需求,但顺链查找效率仍然非常低。为此,全球掀起了研究案例检索的热潮,美国马萨诸塞州大学的智能信息检索中心(Center of Intelligent Information Re-trieval)是从事这方面研究的主要机构之一。

所谓案例检索(Case-based Search或Example-based Re-trieval),实质上就是要在用户给出案例之后,检索系统能够自动地从案例中提取出主题等特征信息,通过相似性比较找出与用户所指定的案例完全相同或部分相同的结果,而且要求输出结果能按符合于用户要求的程度进行排序,将符合提问相似程度高的优先输出。相似性一般包括3方面的内容:结构相似性,语义相似性,目标相似性。相似性比较的模型和算法也多种多样,王永成教授介绍了两种算法,分别为“滚雪球”法和模糊K路并队法[8]。

目前有些商业化的搜索引擎采用了类似的技术,比如Excite提供一种“相似检索”(More Lidē this),可以检索出与目前这个网页类似的网页;Lycos的“Similar Pages”链点具有同样的功能,即以当前网页包含的词汇为检索词,找出与该页面词汇分布类似的网页。目前,案例检索模型理论上还不成熟,实践上正处于实验阶段。

3.3基于超链分析的排序模型

在网络检索中,为了满足用户信息需求的相对专指性,解决排序算法在搜索引擎技术中占有更加核心的地位。

以前网络搜索引擎的排序算法大多是基于词频统计的。由于传统的基于词频的排序算法在网络搜索引擎中具有一定的局限性,如无法充分利用网络信息的超文本结构、不能区分信息的权威性和重要性,基于超链分析的排序算法成为研究的热点。其中以J.Kleinberg提出的HTTS算法[9]和L.Page筹提出的PageRank算法[10]最为典型。PageRank算法在搜索引擎Google中得到非常成功的应用,取得了很好效果。

传统情报检索理论中的引文分析方法是确定学术文献权威性的重要方法之一,即根据引文的数量来确定文献的权威性。PageRank对网络超链接结构和文献引文机制的相似性进行了综合研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数。其方法是,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性。简单地说,PageRank就是要从链接结构中获取网页的重要性,而网页的重要性决定并依赖于其他网页的重要性。

L.Page解释了PageRank的简单定义:令F[,u]为网页u指向的所有网页的集合,N[,u]=|F[,u]|,即u的出度;B[,u]为指向u的所有网页的集合,常系数c<1,用于保证所有网页排名值的总和保持为常量。理想情况下网页u的排名值R[,u]可由以下公式计算:

超链接环境下基于链接结构的网页排序算法在信息检索中的作用是明显的,并具有广泛的应用前景。下一步的工作将是,在服务器端结合其他网页相关度评价模型(如向量模型等),客户端结合智能代理技术、自然语言处理技术、聚类技术等,进一步优化结果,满足信息检索的需要。

4 网络环境中检索模型评价指标体系

前面基本上按照时间的顺序对各种检索模型的理论、特点、应用作了简要的描述。从研究的热点看,布尔模型、概率模型、向量模型和模糊模型最流行,也最为大家所熟知,它们都是基于文本的检索模型。逻辑检索模型则是将逻辑理论引入模型的建构,是一个崭新的领域,它的出现,预示了一条认识检索相关性的新角度,并为在逻辑化的基础之上建立智能化的、多种检索入口的情报检索系统打下理论基础。由于因特网上的信息具有许多不同的特点(多样性、分布性、冗余性);传统的检索模型很难扩展其用武之地。在这样的背景下,国内外的学者提出了“基于概念的情报检索模型”(Concept-based Information Re-trieval Model),试图使检索系统能够利用信息的语义知识(概念之间的关系),来“理解”用户的检索需要,通过知识学习、分析理解和推理归纳来实现“智能化”的信息检索。案例检索模型(EBR,也称实例检索模型)之所以成为当今世界的研究热点之一,因为它是人工智能(AI)的一个分支,具有灵活的推理方法,较广的适用范围,除了可以应用于检索领域外,还可以应用于基于案例的英汉翻译系统、机械加工、CAD设计等广泛的领域。随着互联网的普及,大型的商业化的搜索引擎逐渐站到了信息检索的最前沿。基于超链分析的排序模型在网络信息检索中具有明显的优势。

可见,各种检索模型都有自己的特征、优势和不足之处。它们的发展并不是同步的,而是交叉、互补的。因此不仅对它们进行分析比较不太容易,建立评价指标体系就更难。特别是许多检索模型还处于理论探索和实验系统阶段,在应用上还各有侧重,即使有实验数据,由于采集的样本不同(由于适用范围不尽相同),也很难对各种模型进行定量比较和评价。本文仅从以上各模型的应用角度试图建立一套定性的比较评价指标(见表1),以供今后研究提供参考。

表1 检索模型比较的评价指标体系

┌───────┬──────┬───────┬───────┬───────┬──────┬───────┬─────┬─────┐

│ │ 布尔模型 │ 向量空间│ 概率模型│ 模糊模型│ 逻辑模型 │ 概念模型│ 案例模型│基于超链的│

│检索模型 ││ │ │ ││ │ │ │

│ │(A)

│ 模型(B)

│(C) │(D) │(E)

│(F) │ (C)

│模型(H) │

├─┬─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│ │用户需求的│可以用逻辑算│用非结构化的 │用非结构化的 │仍要用逻辑算 │利用非古典 │以概念(而│通过已有的│半结构化的│

│ │表达形式、│法清晰地表达│形式表达用户 │形式表达用户 │符表达用户提 │逻辑推理来 │不是关键词) │案例来表达│图形界面表│

│ │深度和复杂│用户提问,表│的情报需求, │的情报需求, │问,是布尔模 │表达用户提 │为中心来表│用户需求 │达用户需求│

│ │度│达式复杂│不必构造复杂 │不必构造复杂 │型的延续 │问 │达用户提问│ │ │

│ │ ││的逻辑式 │的逻辑式 │ ││ │ │ │

│ ├─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│从│可供使用的│手段单一│手段多样,包 │检索算法 、手 │与布尔模型相 │模型和方法 │多种算法 │多种算法 │多种算法 │

│用│检索手段 ││括余弦检索│段多种多样│似,手段也比 │多种多样│ │ │ │

│户│ ││法、椭圆检索 │ │较单一││ │ │ │

│角│ ││法、合取检索 │ │ ││ │ │ │

│度│ ││法、析取检索 │ │ ││ │ │ │

│进│ ││法、角距联检 │ │ ││ │ │ │

│行│ ││索法等│ │ ││ │ │ │

│比│ ││ │ │ ││ │ │ │

│ ├─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│较│界面友好性│界面呆板,黑│可视化界面, │可视化界面, │界面较为友│界面友好│可视化界面│智能界面 │可视化界面│

│ │ │箱操作 │更为友好 │更为友好 │好,可以对查 ││ │ │友好易用 │

│ │ ││ │ │询词加权 ││ │ │ │

│ ├─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│ │用户对检中│无法控制检索│可以控制检中 │可口控制检中 │通过输入λ-水 │可以控制检 │可以控制检│通过反馈调│文献按相关│

│ │结果的控制│结果│文献的数量│文献的数量│平控制检中文 │中文献的数 │中文献的数│整检索结果│性大小输出│

│ │权││ │ │献的数量 │量 │量│ │结果可控 │

├─┼─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│ │标引环境要│自动、手动标│自动标引 │自动标引 │自动加权标引 │自动标引│自动抽取概│不需标引,│自动搜索和│

│从│求│引均可,但无│ │ │ ││念、分类并│只需存储案│标引 │

│文│ │法充分利用标│ │ │ ││建立索引 │例│ │

│献│ │引带来的数据│ │ │ ││ │ │ │

│操│ │资源│ │ │ ││ │ │ │

│作│ ││ │ │ ││ │ │ │

│ ├─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│的│处理后的文│无法揭示词间│反映词间关系 │反映词间关│揭示文献内容 │无 │揭示概念、│无│能够揭示文│

│角│献表现形式│的深层次的联│(G矩阵)、揭 │系、揭示文献 │程度,用于文 ││文献之间的│ │献之间的关│

│度│及其对内容│ 系 │示文献内容程 │内容程度深│献聚类││关系 │ │系│

│进│的揭示程度││度深 │ │ ││ │ │ │

│ ├─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│行│对文献聚类│文献聚类能力│通过概念空间 │通过相关概率 │可以对文献信 │无 │概念聚类 │通过案例相│通过超链接│

│比│的处理能力│弱 │聚类文献 │聚类文献 │息进行模糊聚 ││ │似性聚类文│进行文献聚│

│较│ ││ │ │类││ │献│类│

├─┴─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│检索的实现方式│逻辑匹配法 │数值匹配法│数值匹配法│数值匹配法│逻辑的非确 │数值匹配法、 │案例间的相│基于超链分│

│ ││ │ │ │定性推理│利用概念树进 │似性比较 │析│

│ ││ │ │ ││行导航浏览│ │ │

├─┬─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│系│对硬件的要│不高│高│高│高│无 │高│ 高

│高│

│ │ ││ │ │ ││ │ │ │

│统│求││ │ │ ││ │ │ │

│ ├─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│开│对软件的要│不高│高│高│高│无 │高│高│高│

│发│求││ │ │ ││ │ │ │

├─┼─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│费│算法的复杂│不复杂 │复杂 │复杂 │复杂 │无 │复杂 │复杂 │较复杂│

│用│程度 ││ │ │ ││ │ │ │

│角│ ││ │ │ ││ │ │ │

│度│ ││ │ │ ││ │ │ │

├─┼─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│系│是否有实验│成熟的大型商│康奈尔大学的 │麻省理工学院 │小型模拟系统 │大型试验系 │实验系统 │实验系统 │商业化的搜│

│统│系统或商用│用系统 │SMART系统 │的 INQYERY

│ │统 (例如 │ │ │索引擎│

│的│系统 ││ │系统 │ │TREC)正在 │ │ │ │

│应│ ││ │ │ │进行当中│ │ │ │

│ ├─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│用│响应速度 │快 │较慢 │较慢 │较慢 │ 无│较慢 │较慢 │快│

│ ├─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│效│检索结果是│不可以 │可以 │可以 │可以 │可以│可以 │可以 │可以 │

│果│ ││ │ │ ││ │ │ │

│ │否可以排序││ │ │ ││ │ │ │

├─┴─────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│模型的理论基础│否 │先进,容易理 │较强的理论基 │模糊理论,先 │不确定性逻 │先进 │先进 │先进 │

│是否先进 ││解│础(相关性理 │进│辑推理,先 │ │ │ │

│ ││ │论) │ │进 │ │ │ │

├───────┼──────┼───────┼───────┼───────┼──────┼───────┼─────┼─────┤

│模型的逻辑性 │古典逻辑│无│无│无│非古典逻辑 │无│无│无│

└───────┴──────┴───────┴───────┴───────┴──────┴───────┴─────┴─────┘

标签:;  ;  ;  ;  ;  ;  ;  ;  

网络环境下信息检索模型的理论开发与评价体系研究_布尔逻辑检索论文
下载Doc文档

猜你喜欢