基于Agent的中文多元搜索引擎的研究和开发

基于Agent的中文多元搜索引擎的研究和开发

王红[1]2007年在《基于Agent的元搜索引擎检索结果优化研究》文中进行了进一步梳理目前所有的搜索引擎中,没有一个能够访问全部的www资源,大多数的搜索引擎都只能覆盖整个网络资源的一小部分。由于各类搜索引擎的信息来源差异较大,因此集成多个搜索引擎而产生的元搜索引擎应运而生,它具有比传统搜索引擎覆盖信息全面、检索效果更好以及可扩展性强等优点。其中如何对各个成员搜索引擎返回的结果进行相关性排序是提高元搜索引擎效率的关键技术。搜索引擎返回的结果太多且不能根据用户的兴趣提供检索结果是当前倍受关注的问题。通过对网页文本聚类技术的研究,以概念提取为目标,提出了一种基于中频词的实时网页聚类策略。与传统的聚类方法不同,该算法将文档聚类和主题描述统一起来,具有复杂度低、灵活性高的特点。在分析目前已有的结果合成算法的基础上,提出了一种从用户浏览行为到用户兴趣的映射算法,并结合用户兴趣对主题敏感页面等级算法进行改进,实现了对检索结果的个性化排序,解决了搜索引擎的查询结果规模庞大,用户又缺乏足够耐心去浏览所有结果的问题,大大提高了用户的查询质量和效率。最后在对Agent和多Agent技术研究的基础上,设计开发了一个基于Agent的元搜索引擎原型系统,提出了基于JADE平台的元搜索引擎多代理系统框架。它使用基于多Agent的体系结构来实现信息收集过程的并行、分布式处理,由系统代替用户对搜索引擎结果进行对比,并去除冗余网页,将去重后的结果重新排序后提供给用户。相对于传统的面向对象的元搜索引擎系统,该系统具有响应速度快,耦合性低的特点。

王小朋[2]2005年在《基于代理的元搜索引擎的研究》文中研究表明目前没有一个搜索引擎能够覆盖所有的WWW资源,而且大部分搜索引擎的索引平均只能涉及到整个WWW资源5%-20%左右。由于各个搜索引擎使用了不同的索引技术和信息收集技术,使得各自搜索的信息资源在很大程度上具有相当大的差异。实践表明,对于用户的同一查询,不同的搜索引擎会返回差异很大的查询结果。如果使用单一的搜索引擎,是不可能得到所有本可得到的资源。另外,搜索引擎在查询语法上,几乎每个搜索引擎都有所不同。这样用户为了使用这些搜索引擎,就不得不去熟悉每个搜索的搜索语法和功能。由于传统搜索引擎在这几方面的不足,而元搜索引擎又较好地解决了这些问题,所以本文把工作定位在元搜索引擎的研究上。本文阐述了基于代理的元搜索引擎的系统结构和关键技术。先介绍了搜索引擎的发展趋势和元搜索引擎的基本概念,接着介绍了代理技术和多代理系统以及多代理系统的特征、分类和交互等内容,最后提出基于代理的元搜索引擎的体系结构,并详细介绍了系统各个组成部分以及工作流程。本文设计并实现了一个基于多Agent协作系统的元搜索引擎原型系统。该系统主要由信息前处理层、查询代理层和信息后处理层组成。其中详细分析了每个搜索引擎的查询语法,尽可能地抽取大多数搜索引擎共同支持的语法格式,以XML形式定义了自己的语法规范。采用并行工作的搜索引擎代理完成与选定搜索引擎的交互,缩短了系统的响应时间。描述了现有系统的查询结果合成算法,并在此基础上,提出了一种多策略合成算法,从而提高了系统的查准率。

高顺纪[3]2000年在《基于Agent的中文多元搜索引擎的研究和开发》文中研究表明自从WWW1991年诞生以来,已经发展成为拥有近亿用户和约400万站点,8亿页面的巨大分布式信息空间,而且其信息容量仍在以指数形式飞速增长。面对如此众多的Web服务器与其上面丰富的Web信息资源,如何有效快捷地进行Web信息获取变的越来越重要。 本文结合所承担的国家“九五”重点科技攻关计划(96-743-01-01-05)专题“网络信息获取前后服务处理技术”和“金桥”工程项目的“ Web信息获取系统”开发任务,采用Agent技术,对多元搜索引擎技术进行了研究。论文的主要工作包括以下几个方面: (1)分析研究了当前Internet上信息的特点以及搜索引擎技术的发展趋势,对目录式搜索引擎、机器人搜索引擎、多元搜索引擎等搜索引擎的工作原理做了综述,并根据搜索引擎评价指标,分析了现有搜索引擎的优势与不足。 (2)引入了人工智能中Agent的概念,并对Agent进行了明确的定义,进而对Agent的组成、功能和基本结构进行了研究,在Agent基础上对多Agent协作系统的特点、分类和交互进行了研究。 (3)设计并实现了一个基于多Agent协作系统(MAS)的多元搜索引擎WebHunter的原型系统。该系统的基本构成单位是Agent,主要由信息前处理层、查询代理层和信息后处理层组成。 (4)详细分析了每个搜索引擎的查询语法,尽可能地抽取大多数搜索引擎共同支持的语法格式,采用SOIF(Summary Object Interchange Format)规范,形成了WebHunter的语法规范。 (5)提出了一种通过多代理协作对多元搜索引擎中所含有的搜索引擎进行选择的方法,通过多个Agent的协同工作,并配以信息库的支持,可以使多元搜索引擎在对查询结果质量影响较小的基础上,避免对其中的全部搜索引擎都发出查询请求,从而达到减小资源消耗的目的。 (6)采用并行工作的搜索引擎代理完成与选定搜索引擎的交互,缩短了系统的响应时间。 (7)描述了现有系统的查询结果排列算法,并在此基础上,提出了一种简单、有效的对相关度进行归一化的排序算法,从而提高了系统的查询效率。

张恒[4]2007年在《基于军事应用的网络情报智能搜索技术》文中进行了进一步梳理情报的收集、处理与研究工作关系到国家各方面的发展与进步。评定一个国家军队战斗力的强弱,除战略、战术、技术装备、武器装备、教育水平等因素之外,情报工作的收集能力之强弱,是评价标准的重要组成部份,尤其在高度信息化的“第三波战争”时代,情报工作的高科技化及杰出的收集能力,已成为国防现代化最主要的努力方向。随着世界各国在各个领域的竞争日趋激烈,情报收集、研究工作也受到各个国家越来越多的重视。情报搜集是情报研究工作的基础和前提,是情报分析的物质基础,对公开军事情报资料的搜集是军事情报搜集不可缺少的组成部分。随着计算机技术和网络技术的快速发展,从互联网上获取公开的情报信息成为情报收集的一个重要途径,受到各国情报部门的普遍重视。但由于互联网具有自由、异构的特点,使得人们直接在互联网上搜集有价值的情报资料时,面临着巨大的困难,必须求助于相应的工具软件。搜索引擎技术的出现使得这一困难在某种程度上得到了缓解,但同时搜索引擎又带来了许多新的问题,如“信息过载”、“相关度差”等。本课题将以网络标准搜索引擎为依托,采用元搜索、网页信息提取与噪声消除、中文分词与歧义剔除和向量空间模型(Vector Space Model, VSM)等技术,开发基于军事应用的智能化网络搜索工具。该工具以用户自定义关键词为基础,自动进行多引擎调度,搜集Internet上的公开情报资料,通过搜寻、分类、去重、排序等综合性自动处理、将具有高相关度的公开情报信息以链接的形式存入情报数据库并反馈给用户作为最新情报信息资料。本论文的主要工作如下:1搜索技术在分析搜索引擎结构框架的基础上,提出并开发基于元搜索引擎技术的网络情报搜集系统(NISF)。以不间断运行、定时搜索的方式,进行网络公开情报资料的收集。NISF元搜索系统包括用户接口、标准搜索引擎分配和调用机制以及搜索结果处理与返回三个主要方面。在用户接口设计上,构建情报用户需求模型,提出了基于关键词列表和用户反馈的情报用户模型,通过不断收集用户的反馈信息,调整关键词权重,使用户模型逐渐趋向于用户真实需求,提高情报信息搜索的准确性。在对标准搜索引擎分配调用机制上,提出了分配系数的概念和数学模型,针对用户搜索主题描述,利用分配系数评判标准搜索引擎在该类主题上的搜索性能,选择最优的标准搜索引擎完成搜索任务。在搜索结果处理与返回上,采用数据库技术剔除搜索结果中标题或URL相同的信息,使用VSM分析计算搜索结果与用户需求模型之间的相关度,在此基础上提出了一种改进的基于用户反馈的文本自适应过滤算法。在搜索信息提取上提出了基于HTML标记符号和关键词的主题链接、主题文本内容提取算法以及Web页面文本内容提取结果评价方法与数学模型。2情报处理技术本文对情报文档处理的主要任务是实现情报分档自动分类。由于目前计算机还不能完全理解自然语言,因此常用抽取文档高频词的方法描述文档。本文在抽取高频词上提出一种基于词典和词频的中文分词方法。在比较向量空间模型和集合运算模型的基础上,采用向量空间模型计算文档相似度;在描述文档距离上,比较了余弦公式与欧氏距离的性能,最终采用余弦公式计算文档间的距离。在分类算法上采用一种VSM、KNN和SVM相结合的文档分类算法。最后将分类结果存入数据库。3软件系统开发与实现基于以上技术,在Microsoft WindowsXP系统上,采用Borland Delphi7.0开发基于军事应用的网络情报搜集系统(Network Intelligence Search Finder,NISF)。结论:1基于关键词和用户反馈的用户需求模型可以量化用户需求,比较真实地反映用户的检索请求。2分配系数能够很好地评价标准搜索引擎在搜索某个关键词上的性能,为元搜索系统调用标准搜索引擎提供了依据。3改进的基于用户反馈的自适应文本过滤算法能够使用户得到相关度更高的情报信息。4 Web页面信息提取技术在Web页面链接和文本内容提取上有很好的表现,主题信息率的提出为评价Web页面信息提取算法的性能提供了依据。5基于词典和词频的中文分词方法在抽取文档高频词中表现出众。网络情报搜索器基于军事应用构建,具有鲜明的军事特色,响应了我军“建设信息化军队,打赢信息化战争”的号召。采用自动分类、信息过滤、信息提取、自动分词等数据挖掘技术,使得情报处理更具智能化。同时,该系统既能搜索军事情报信息,又可以搜集其它专业情报资料,因此具有广泛的应用价值以及重要的军事意义和现实意义。

薛云[5]2003年在《Internet上元搜索引擎的研究与设计》文中研究说明Internet已经成为当今和未来人们获取资源和信息交流的主要场所。然而,在信息量浩如烟海的Internet上找到需要的信息,是一项极富挑战性的工作。传统的搜索引擎的发展,一方面使其实用性不断加强,部分解决了人们的信息搜索问题;另一方面,其自身的局限性,限制了人们对资源更有效的获取。因此要从Internet上获取有价值的信息,就必须有一套高效的解决方案。元搜索引擎正是这种需求的产物:它利用现有的搜索引擎的查询性能,将它们看成一个整体,为用户体提供统一的查询界面与返回结果。 本文首先概述了搜索引擎的工作原理和现状,分析了现有传统搜索引擎的不足,提出未来搜索引擎的研究方向和引入元搜索引擎的必要性;其次概述了元搜索引擎的原理和现状,分析了当前研究元搜索引擎的难点所在,并提出改进方案;接着分析了有关元搜索引擎技术的相关算法,即成员搜索引擎选择算法、文本选择算法、结果合并算法。在此基础上,提出了一个基于Agent的元搜索引擎的模型,利用Agent的自治性和协作性来完成用户的个性化搜索,并给出元搜索引擎模型的框架和其实现的关键技术及策略。 本文为该模型设计了基于用户个人喜好的成员搜索引擎算法和查询结果处理算法,采用这样的算法旨在帮助元搜索引擎更加有效的选择潜在有用的成员搜索引擎进行信息搜索;通过实验结果的分析,我们可以看出,每种选择策略都能够体现某些特征值对成员搜索引擎选择的影响。最后对该模型进行评价和总结,并提出了下一步的研究方向。

杨才峰[6]2004年在《基于自动分类的元搜索引擎的研究与应用》文中进行了进一步梳理搜索引擎是目前Web检索的主要工具,在任何一个搜索引擎中随意输入一个关键词,就可能得到成百上千、上万个检索结果,用户真正需要的信息被淹没在长长的列表中,本文针对搜索引擎存在的问题,提出了一个元搜索引擎模型,通过元搜索引擎向用户提供统一的访问服务,提高了检索的有效性,检索的查准率和查全率。本文提出了一套完整的检索结果整合的策略,运用自动分类方法对搜索引擎的返回结果进行快速分类,为用户提供一个友好的信息检索交互界面,通过用户的行为反应探视用户的兴趣,动态调整聚类结果,帮助用户快速检索到相关信息。 本文是司法部课题“刑罚信息综合分析系统”的部分内容,该课题由司法部资助(编号:03SFB3021),刑罚信息是本文关注的主要领域。

张程[7]2002年在《基于智能Agent的搜索引擎研究》文中研究指明随着Internet的迅猛发展,网上信息资源越来越丰富,网络已经成为人们获得信息的必要途径和重要手段,但是这种网上信息浩繁,具有分布、动态变化、结构复杂等特点,使得用户根本无法完全了解庞大的、瞬息万变的信息资源。在这种情况下,传统的功能固定的搜索引擎已经不能满足用户需求,人们期盼着新的,具备了智能性和用户可区分的新一代搜索引擎的出现。 本文在分析研究了国内外的搜索引擎技术的发展和未来趋势,结合人工智能技术的最新研究成果——Agent技术,提出了基于智能Agent的搜索引擎系统研究,并以此为体系架构,在Robot和用户界面方面做了大量的优化和个性化工作。采用兴趣模型,多用户协作等人工智能模型使得搜索引擎完全实现了个性化服务的特点,并提出了将对信息的“推—拉”操作融为一体的新型搜索引擎模型。其主要工作和结果如下: (1)分析和研究了传统搜索引擎的技术特点和主要的体系架构,对搜索引擎的发展历程和未来的发展方向做了较详细的探讨,从而明确指出了未来的搜索引擎发展趋势就是要引入Agent技术和个性化、专业化的发展道路。 (2)分析和研究了Agent技术的主要类别和各自的特点,结合搜索引擎的特点和实现因素的考虑,选择了Multi—Agent模型来实现搜索引擎系统。实验表明:Multi—Agent模型是容易实现并符合搜索引擎自身特点的目前技术最为实用的Agent实现模型。 (3)在Agent模型和搜索引擎功能架构的基础上,引入并改进了多个人工智能的算法和思想,结合HTML代码自身的特点,大力提高了搜索引擎系统的智能性和用户个性,其主要技术包括: a)在Robot方面,结合HTML代码的特点,在强调关键词和超链权重的基础上,提高了Robot在网页搜索和下载过程中的智能性,节省了Robot方面的开支。 b)通过标记树以及分层标记符的划分,提高了系统对于文档核心意义判定的能力。 c)采用了用户兴趣度研究,多用户兴趣协作等人工智能模型和思想,提高用户界面Agent的智能性和个性,并将信息“推——拉”理论引入到搜索引擎中,提出了一个全新的搜索引擎模型。 (4)对于以上算法和思想,考虑它们的具体实现情况,给出了具体的实现算法和图示讲解,加深对于整个研究系统的了解和熟悉。

张芳[8]2007年在《基于专业搜索引擎的元搜索引擎的研究与实现》文中进行了进一步梳理Internet已经成为当今和未来人们获取资源和信息交流的主要场所。然而,在信息量浩如烟海的Internet上找到需要的信息,是一项极富挑战的工作。传统的搜索引擎的发展,一方面使其实用性不断加强,部分解决了人们的信息搜索问题;另一方面,其自身的局限性,限制了人们对资源更有效的获取。因此要在Internet上获取有价值的信息,就必须有一套高效的解决方案。元搜索引擎正是这种需求的产物:它利用现有的搜索引擎的查询性能,将它们看成一个整体,为用户提供统一的查询界面与返回结果。由于元搜索引擎在成员搜索引擎调度、结果排序等方面存在局限性,结合专业搜索引擎及隐形网络工具的优势,给出了一种将专业搜索引擎与隐形网络工具相结合构架元搜索引擎的方法。为了提高元搜索引擎的检索速度与质量,在设计成员搜索引擎的调度方法时对基于学习方法的用户反馈调度方法进行了改进。由于查询关键词可能涉及到多个不相关的主题,在对检索结果进行融合处理时,结合专业搜索引擎的特点,采用了一种新的分词方法;建立主题词典,实现了主题的提取,并对主题域内的记录进行基于查询关键词的相关性排序;通过跟踪用户IP,为用户提供个性化服务。根据系统的结构框架,利用IIS和ASPHTTP组件实现了一个元搜索引擎Coogle。该搜索引擎具有成员搜索引擎的调度、融合处理及用户行为分析等功能。测试结果表明,与传统的搜索引擎相比,在查全率、查准率、结果重复率、分类的准确性等方面都具有明显的优越性。

胡敏[9]2007年在《基于智能代理的个性化元搜索引擎的设计与实现》文中提出单个搜索引擎的搜索覆盖面有限,且返回结果的相关性不高,用户想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。元搜索引擎在一定程度上解决了这些问题。但在自适应建立用户兴趣、搜索引擎的选择及结果融合方面还存在不足,不能很好的跟踪用户偏好,使其很难满足用户的需要。介绍了现有元搜索引擎的研究现状和发展趋势,指出其中不足,并分析了智能代理的技术特性,阐述其应用的先进性和可行性。从Web挖掘技术、信息过滤技术等方面详细阐述了基于智能代理的个性化元搜索引擎的相关技术,给出了基于智能代理的个性化元搜索引擎模型,并详细介绍了模型各个组成部分以及工作流程。为解决个性化元搜索引擎中查询扩展、搜索引擎调度和结果融合等关键问题,对相应算法进行了改进,以使该模型具有较好的搜索性能和较强的智能性。通过多个代理间的协调与协作以及知识库的建立,使该模型可以针对不同用户建立不同的用户兴趣模型,让兴趣模型将查询定位到用户兴趣领域中并扩展用户查询,使其能更清晰、准确的表达用户查询,并能提供个性化的界面定制,个性化信息服务定制以及个性化搜索引擎调度机制从而满足不同用户的个性化服务和需求。实现了一个简单的原型系统,并从几个方面对系统进行了测试。经过测试,该系统的性能和效率良好,能达到一个优良的元搜索引擎所必须的准确率和搜索速度,同时还具有一定的自学习和优化能力。在实践的基础上证明了该系统结构模型的可行性。

关心[10]2008年在《基于Agent的元搜索引擎系统研究》文中研究说明阐述基于代理的元搜索引擎的系统结构和关键技术,介绍一般搜索引擎和元搜索引擎的基本概念、存在的不足,介绍代理技术以及代理的基本结构,提出基于代理的元搜索引擎的体系结构,并详细介绍系统各个组成部分。

参考文献:

[1]. 基于Agent的元搜索引擎检索结果优化研究[D]. 王红. 中国石油大学. 2007

[2]. 基于代理的元搜索引擎的研究[D]. 王小朋. 辽宁工程技术大学. 2005

[3]. 基于Agent的中文多元搜索引擎的研究和开发[D]. 高顺纪. 北京工业大学. 2000

[4]. 基于军事应用的网络情报智能搜索技术[D]. 张恒. 第四军医大学. 2007

[5]. Internet上元搜索引擎的研究与设计[D]. 薛云. 太原理工大学. 2003

[6]. 基于自动分类的元搜索引擎的研究与应用[D]. 杨才峰. 华北电力大学(河北). 2004

[7]. 基于智能Agent的搜索引擎研究[D]. 张程. 重庆大学. 2002

[8]. 基于专业搜索引擎的元搜索引擎的研究与实现[D]. 张芳. 华中科技大学. 2007

[9]. 基于智能代理的个性化元搜索引擎的设计与实现[D]. 胡敏. 华中科技大学. 2007

[10]. 基于Agent的元搜索引擎系统研究[J]. 关心. 现代计算机(专业版). 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于Agent的中文多元搜索引擎的研究和开发
下载Doc文档

猜你喜欢