元搜索引擎研究综述,本文主要内容关键词为:搜索引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔分类号〕G353
1 元搜索引擎的起源与发展
Internet自诞生以来不断成长,信息容量呈爆炸性趋势增长。这一方面方便了人们获取信息;但另一方面也给人们查询信息带来了麻烦,常常使用户陷入“信息过载”和“资源迷向”的困境。搜索引擎的出现大大增强了人们收集信息的能力,但随着Web内容的飞速发展,信息膨胀速度远远超过了搜索引擎检索范围,一个搜索引擎通常不能找到用户所需的全部信息,用户在进行检索时需要在多个搜索引擎间进行切换,找到自己真正需要的信息仍如同大海捞针般困难。在这种情况下,一个能集合多个搜索引擎检索结果并能对此做出整合处理的检索工具——元搜索引擎出现了,它有效解决了独立搜索引擎信息覆盖率不足和查准率不高的问题。
自1995年第一个元搜索引擎MetaCrawler推出以来,国外元搜索引擎技术迅速发展,目前网络中已经有上百个元搜索引擎,其中不乏优秀的元搜索引擎,如Mamma、MetaCrawler、SavvySearch等。国内的中文元搜索引擎发展较为缓慢且数目不多,如万纬、MetaFisher、北斗星等,其检索效果也不理想,未来发展空间很大。
2 元搜索引擎研究现状
2.1 元搜索引擎的原理及其分类
元搜索引擎(meta-search engine)是一种基于搜索引擎的搜索引擎,亦称“搜索引擎之母”。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将各独立搜索引擎返回的所有查询结果集中处理后再返回给用户。因此,元搜索引擎可根据检索的目标搜索引擎、检索提问处理方式以及如何编译与显示结果等的不同而划分为:集中罗列式元搜索引擎(又称“集成搜素引擎”或“all-in-one式搜索引擎”)和统一入口式元搜索引擎(又称“多线索式搜索引擎”);桌面型元搜索引擎和基于Web的元搜索引擎(也可称为“在线元搜索引擎”);并行处理式元搜索引擎和串行处理式元搜索引擎。
2.2 元搜索引擎研究的主要内容与进展
目前,元搜索引擎研究活动主要集中在以下几个关键技术的实现上:
2.2.1 成员引擎的调度策略 提出了若干成员引擎的调度算法,典型的有:①普通法,即不考虑各个成员搜索引擎的特性,只是将元搜索引擎的查询请求简单地发送给自己的每个成员搜索引擎,用户可自由选择其成员引擎,如万纬搜索引擎;②定性法,如ALIWEB方法[1]、NetSerf方法[2]、D-WISE方法[3]、gGLoss方法[4]。它根据一定的评分函数预测每个成员搜索引擎的质量;③定量法,根据一些比定性方法使用的衡量标准更易理解的标准来衡量成员搜索引擎的有用性,如估计有用文件的数量或估计最相似文件的相似度[5];④基于学习的方法,根据以往检索成员搜索引擎的经验预测各引擎对新查询的有用性。检索经验可能来自多方面,如静态学习方法MRDD方法[6]、动态学习方法SavvySarch[7]和混合学习方法ProFusion方法[8]。在成员引擎的调度策略方面,国内的一些学者也提出了几种比较有特色的调度算法,如张卫丰等提出了一种基于遗传算法的调度算法[9]来实现成员引擎的调度。
通过详细分析多种调度策略的优点与不足,我们认为普通法比较简单,但查准率不高。定性法可提供一些有关成员搜索引擎数据库内容的信息,能提高查准率,但不能有效和精确地估计成员引擎数据库的有效性,因而也容易遗漏或忽略一些潜在有用的成员搜索引擎数据库,比如一篇有用的文档在某个成员搜索引擎数据库中出现频度非常低,利用定性法就可能忽略掉该成员搜索引擎数据库。定量法根据给定的查询请求计算数据的有用性,如,它试图估计成员搜索引擎数据库有用文件的数量,并以这个标准来选择数据库或者估算比较每个库中最有用文件的相关度高低,以此选出最能满足查询请求的数据库,则其衡量标准更易理解。基于学习的方法中,静态学习方法可实现元搜索引擎在实际查询中利用训练收集的分布向量选择合适的成员数据库和需要抽取的结果数目,实现查询精度最大化,但其训练收集的分布向量很难适应未来查询的变化;动态学习方法可始终更新训练结果集合以适应多变的查询任务,但搜索引擎用户有检查排在最前面文件的倾向,其结果很有可能出现成员数据库的关键词权值不能充分反映成员数据库对于该查询关键词的真实响应,所以综合静态学习与动态学习的混合学习方法在实际中用得较多。
2.2.2 搜索结果的合成 元搜索引擎在结果显示过程中,需要将与用户查询相关度高的结果放在前面,但是由于不同搜索引擎所采用的技术不尽相同,所以很难按照一个统一的标准去排列这些结果。通常,每个成员搜索引擎返回的文档根据局部相似度或全局相似度来对文档进行降序排列,代表性的结果合成算法主要方法如下:①J.P.Callana针对搜索引擎返回结果的排序、相关性分值的不同,给出了三种典型的合成算法[10]——间隔排列合成法、分值合成法、加权分值法;②Krisch提出通过修改下层搜索引擎以获得更多信息,进行合成处理[11];③元搜索引擎系统MetaCrawler引入概念可信度来决定文档与检索请求的相关程度[12];④Profusion集成规范相关度合成法和加权分值法[8];⑤Inquirus认为单凭这些信息不足以客观评价搜索结果与用户检索请求的相关性,因而采用先下载搜索结果中的文档后重新计算相关性的客户端重新计算相关性的排序策略[13]来对文档排序;⑥M.Elena等将聚类方法用于查询结果的合成[14];⑦国内张卫丰将摘要作为相关度分析的依据纳入搜索结果的合成[9]。
总结现有搜索结果合成算法,我们发现主要有两类:局部相似度调整算法和全局相似度调整算法。局部相似度调整算法,如MetaCrawler和Profusion中采用的,它根据成员搜索引擎所具有的特点来调整文档的局部相似度,使来自不同成员搜索引擎的文档的相似度归一化到一个较为统一的值域,再进行比较和排序,评估值高的成员引擎中的文档将获得较高的全局评估值,评估值的获取也较简单。全局相似度估算算法,如Inquirus方法,需要计算或估计各个返回文档的全局相似度,其实现通常需要借助搜索引擎返回文档的URL或一些额外的附加信息(如一段综述或文档开头的几句话或整个文档),计算出关键词在文档中的频率,并需要从网上下载该文档。这一方面可在文档下载时确定文档的URL是否有效(无效的可从结果集合中删去),同时还可以通过分析下载文档,可以利用其内容对文档重新排序,因为有可能文档的局部相似度是根据文档的早期版本计算的;但另一方面搜索引擎必须花大量时间来下载文档,因此该方法要以带宽、计算时间为代价,很难获得实际应用。
2.2.3 个性化搜索 个性化搜索是一种个性化信息服务,旨在帮助用户更快、更准确地找到所需信息。它主要通过收集和分析用户信息来学习用户兴趣和搜索行为,从中识别用户的需求偏好,并且能够根据用户对搜索结果的评价,自觉调整搜索策略,对于同一检索请求,不同用户能够得到各自所需的信息。在国内外搜索引擎巨头,如Google、雅虎、AOL等纷纷推出个性化搜索服务的形势下,元搜索引擎的个性化搜索也备受关注。元搜索引擎个性化搜索服务实现的核心在于用户兴趣模型的建立和获取。用户模型[15]不仅仅是用户的兴趣描述信息,而且是一种面向算法的、具有特定数据结构的、形式化的用户描述。相应地,用户建模是指从有关用户兴趣和行为的信息(如浏览内容、浏览行为、背景知识等)中归纳出可计算的用户模型的过程。近年来,有关用户建模技术的研究开始被作为个性化信息服务的基础技术来进行研究,国外的代表性研究主要有:①Syskill&Webert[16]是加州大学的Pazzani等人开发的一个辅助用户浏览的导航工具,它可以搜集用户对当前浏览页面的评价,逐渐学习用户的兴趣模型;②Morin E.等在文献中[17]提出一种基于特征词表示法的用户兴趣模型,在模型中还存放特征词之间的语义关联关系,但这种模型只是简单的特征词集合,没有对特征词按语义进行层次分类;③Navigli R.等在文献[18]中提出基于本体论的用户兴趣模型,概念按本体论的知识分类体系进行表示,通过学习扩展概念之间的语义联系。国内对用户建模也展开了研究:①文献[19]根据用户提供的各种示例文档,通过考察特征和类别的表达能力来构建用户模型;②文献[20]将个体用户的兴趣分为长期模型和短期模型,并引入时间因素来模拟用户兴趣随时间的变化,通过对用户Web缓冲区的页面进行Web挖掘特征词来更新用户的兴趣模型;③文献[21]按本体论建立用户兴趣模型,通过Web挖掘来得到概念之间的语义联系;④文献[22]提出一种加权特征词的用户兴趣模型,通过强化学习更新用户模型。
总的来说,用户建模技术的研究还处于起步阶段,还没形成成熟的技术体系,存在以下几个方面的问题:①只以单个用户为基点建立用户个体模型,而忽略了用户群体模型;②注重用户查询兴趣模型,而忽略用户对成员搜索引擎偏好、用户收藏和用户好友等与社会化搜索相关的用户兴趣信息;③为了力求准确表达用户特性,所建的用户模型过于复杂,导致搜索效率降低。因此各种用户模型离实用还有距离,还有许多关键技术尚待解决。
3 总结与展望
3.1 目前研究的局限
通过上述分析可以发现元搜索引擎的功能受成员搜索引擎和元搜索技术的双重制约:一方面,成员搜索引擎各具特色的强大功能在元搜索引擎中受到限制而不能充分体现;另一方面,任何一种元搜索技术都不能发掘和利用成员搜索引擎的全部功能,它的局限性主要包括以下几个方面[23]:
3.1.1 调用搜索引擎上的局限性 一般的元搜索引擎只是调用如Google,Alta Visa等几个主要的搜索引擎,即使某些元搜索引擎提供了让用户选择搜索引擎的选项,但也只能在其提供的为数不多的几个搜索引擎中进行选择。
3.1.2 查询请求上的局限性 元搜索引擎在查询语法转换方面的局限性限制了许多高级的查询语法。因为元搜索引擎的查询语法要考虑到它所调用的所有搜索引擎的查询语法,这种复杂性使得大多数元搜索引擎只能提供一些简单的查询语法。
3.1.3 查询结果数量上的局限性 由于网络资源的急速膨胀,单个独立搜索引擎搜集就往往会返回成千上万的搜索结果。元搜索引擎需要对多个独立搜索引擎的结果进行处理,考虑到系统运行的效率与响应时间,大多数元搜索引擎只取每个搜索引擎返回的前几条搜索结果,这样必定影响了信息的覆盖面。
3.1.4 查询结果排序上的局限性 由于不同的搜索引擎之间存在搜索信息的数量、搜集信息的范围、采用的索引方法、使用的相似度评价等方面的巨大差异,再加上元搜索引擎的设计者不能获取这些搜索引擎的很多技术细节,对不同搜索引擎返回的大额结果不能很好地进行排序。
3.1.5 搜索结果个性化上的局限性 现有元搜索引擎基本上都采用“一个搜索适用于所有用户”的搜索模型(不同的用户提交相同的关键字查询请求时,搜索引擎返回相同的搜索结果),然而,搜索本身是一项个性化的活动,不同的用户对所需要的信息要求不同,因此,现有的元搜索引擎无法满足用户的个性化需求。
3.2 未来发展方向
各种局限性使得元搜索引擎在具体应用方面搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位,它还有很多值得研究和探讨的领域,归纳起来主要有以下几个方向:
3.2.1 智能化 一个智能检索系统应该能充分利用分词词典、同义词典、同音词典改善检索效果,甚至进一步还可在知识层面或概念层面上辅助查询,可通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终可帮助用户获得最佳的检索效果。
3.2.2 个性化 在输入方面,使用自然语言输入,更加方便用户使用,更易于用户与搜索引擎的交互,更能贴近地表达用户查询需求,从而有利于提高查询的精度。在返回结果方面,应该充分发挥预处理和搜索结果集成方面的能力,考虑人的性别、年龄、地域等方面的差别而给出个性化的搜索结果。同时,按照语言的不同将用户的查询请求发送到对应的独立搜索引擎,以提供多语言的搜索功能。
3.2.3 专业化 专业元搜索引擎是个很好的概念,不但网络资源可以比普通元搜索引擎挖得更深更多,搜索负担还小得多,应该是很符合网络发展方向的。
3.2.4 中文元搜索引擎 汉语分词是其实现的关键,中文元搜索引擎研究目前还处于起步阶段,发展余地非常大。
收稿日期:2008-08-22 修回日期:2008-11-03 本文起止页码:46-49