Internet信息过滤Agent的研究和实现

Internet信息过滤Agent的研究和实现

尹西杰[1]2006年在《基于智能Agent的Web个性化信息检索系统》文中指出面对Internet上的信息海洋,人们利用搜索引擎往往难以找到自己真正所需的信息和知识。Web信息挖掘技术可以有效地解决如何在异质、分布的Web上快速、有效地发现资源和知识,可以弥补搜索引擎的不足。 本文的研究目标是帮助用户在网上进行个性化信息的搜集和挖掘。本文针对当前搜索引擎输出结果太多不能准确表达用户需求的问题,在对Internet信息检索的发展历史和现存的问题进行分析,以及在研究Web信息挖掘技术和智能Agent技术的基础上,提出了一种基于智能Agent的Web个性化信息检索系统,并分析了在Web信息服务领域引入智能Agent技术实现Web个性化信息服务的理论可行性、优越性,着重对其总体思路作了论述,对其系统设计与建模作了初步探索。围绕该模型的构建和软件实现,本文的主要工作和创新有: 首先,所提出的模型系统采用多Agent体系结构,面向特定的用户。在该系统模型中同时表达了文档和用户两种信息描述模型。文档是信息处理的对象,文档模型的建立是特征提取、文档过滤等智能信息处理的基础;用户模型则体现用户的兴趣和意图,用于用户兴趣的表达和挖掘。 其次,在信息检索Agent中,研究了文本特征选取和特征匹配问题。系统由检索Agent根据用户模型在Internet上搜集文档和信息。分析、过滤Agent对所搜集到的网页进行分析,抽取文档特征,形成文档的结构化表示。另外,系统还可以按照用户的要求,对其感兴趣的部分站点,按照用户设定的检索周期,自主地从WWW上检索信息,把符合用户兴趣的最新信息按照用户预定的方式及时提交给用户。通过系统的主动信息服务功能减少用户检索次数,是提高检索效率的一个较好的解决方法。 再次,研究了学习Agent自适应地调整用户模型。学习Agent的学习过程,既是用户相关性反馈过程,也是用户兴趣挖掘过程。系统通过记录用户浏览行为、获取用户对文档的反馈,以及从网上搜集到的文档作为学习的“原始强化信号”,从而实现自适应调整用户模型。 最后,构建了一个基于智能Agent的Web个性化信息检索系统。从总体上描述了该模型框架的功能、工作流程,说明了各类Agent在系统中的结构、安排与作用,并对模型结构、算法进行了分析设计。并通过该原型系统的实现与现有信息

杨刚华[2]2005年在《基于Agent的个性化信息检索系统研究》文中研究指明Internet的飞速发展,人们比以往能够更容易、更直接地通过网络获取各种形式的信息。然而网上的信息浩如烟海,增长和更新速度越来越快,而且Internet是一个开放性、动态性和异构性的全球网络,资源分布很分散,且没有统一管理和结构,这就出现了“信息迷向”和“信息过载”;有时也有可能根本搜索不到信息。现有的Internet搜索引擎如:Google,Yahoo,WebCrawler等,可以帮助人们搜索Internet上各种信息。但由于语言的模糊性,词语具有多义性,利用现有搜索引擎用户常常难以准确地表达用户兴趣,返回的地址经常包含很多用户不需要的无关信息,用户常常花费很长的时间却没有找到对自己有用的信息;而且对于不同的用户,只要搜索关键字相同,得到的结构也相同,不能区分用户;他们也不能主动从网络上发现和收集用户需要的信息,用户要查询同样的兴趣,只能再次搜索,己获得最新的网页内容,浪费了用户大量的时间。 面对网络信息服务的这种现状,人们在寻求一种将信息用户感兴趣的信息主动推荐给用户的服务方式,这便是个性化的主动信息服务。在实现个性化的主动信息服务中,智能Agent技术起到了至关重要的作用。 本文针对目前信息检索系统存在的不足和当前用户的个性化需求,在系统地介绍信息检索研究现状的基础上,对基于Agent的个性化信息检索系统的基本结构、方法及相关技术进行了研究,并在此基础上提出了一种基于Multi-Agent的个性化信息检索系统模型。 首先,对个性化信息检索的发展、工作原理和现状进行了简要综述,并对Agent技术做了介绍。然后,从现有信息检索存在的问题入手,提出一种基于Multi-Agent的个性化信息检索系统模型。本系统由用户信息检索个性Agent、信息搜索Agent和信息过滤Agent叁个模块构成。其次,分别对叁个模块中的关键技术进行研究。信息捡索个性Agent研究是本文重点。用户信息检索个性Agent通过学习用户的兴趣,使其具有一定的智能性。通过用户信息需求的表达和信息反馈,形成并训练用户信息检索个性模型。在对用户个性化进行了深入研究时,提出了一种改进的用户兴趣模型,并详细说明了其生成和更新实现算法。再次,信息搜索Agent通过查询代理与Internet搜索引擎连接,既可实现元搜索,又可以在返回的网址较少或不满足用户的要求时,使用自身搜索工具在网络上自主搜索,而目搜索算法从查询代理返回的网址出发进行搜索,减少了搜索的范围,加快了搜索的速度。信息过滤Agent根据用户已有的信息资源分析用户喜好,采用向量空间法进行信息过滤。接着本文对具体实现进行了介绍,实现了系统的部分功能。最后,对本文的研究以及进一步研究做了总结。

侯莉莉[3]2007年在《基于多Agent的智能信息检索系统研究》文中研究指明近年来,智能信息检索(Intelligent Information Retrieval)作为人工智能(AI)的一个独立研究分支得到了迅猛的发展。随着Internet的发展和普及,越来越多的用户利用搜索引擎来搜索网上信息。尽管搜索引擎的发展已经比较成熟,但人们在使用中却发现要准确、快速地查找自己需要的信息越来越困难。面对网络信息服务的这种现状,人们在寻求一种将用户感兴趣的信息主动推荐给用户的服务方式,这就是个性化的主动信息服务。在实现个性化的主动信息服务中智能Agent技术起到了至关重要的作用。在系统地研究了基于Agent的个性化信息服务中所涉及的关键技术后,本文对Hsieh Chang Tu等人提出的智能信息检索Agent框架(简称IIR Agent)作了一些改进,将用户兴趣建模、信息搜索、信息过滤功能各用一个Agent模块实现,改进后的系统称为基于多Agent的智能信息检索系统(Intelligent Information Retrieval based on Multi-Agent,简称IIR M-Agent)。系统通过分析用户经常访问的页面,自动学习用户的浏览兴趣,帮助用户选择感兴趣的页面。首先介绍了多Agent群组的工作原理,阐述了各个Agent的任务以及它们之间如何协作完成智能检索、自动通告、导航等功能。其次具体介绍了系统的叁个主要模块——用户Agent、信息搜索Agent、信息过滤Agent的原理和实现。通过用户信息需求的表达和信息反馈,形成并训练用户Agent,负责表示、建立和更新用户兴趣模型。一般用户兴趣模型的表示采用词频法,即用户兴趣用二元组表示(兴趣词条、兴趣权重)。本文对一般的词频法作了一点改进,即计算兴趣权重不仅考虑词条在文档中出现的次数,还考虑到各个词条在文档中的不同位置体现词条的不同重要度,以及各文档在网页超链关系中引用与被引用情况体现文档的不同重要度等因素,采用修正词条使得对兴趣词条的选择更客观、准确,有效地避免了将出现频率高而意义不大的词条作为兴趣词条的问题。本文不仅对一般兴趣模型进行了改进,而且提出一种新的兴趣模型。新兴趣模型仍然使用传统的词频法来衡量某个用户的兴趣,但引进了词条新鲜度概念,用户兴趣用叁元组表示(兴趣词条、兴趣权重、词条新鲜度),词条新鲜度对兴趣词条的更新提供了更加可靠的依据。用户兴趣模型的建立和更新通过基于记忆观察的学习机制、接受反馈的机器学习机制、ID3算法的归纳学习机制叁种机器学习方法。信息搜索Agent通过查询代理与Internet搜索引擎的连接,既可实现元搜索,又可以在返回的网址较少或不满足用户的要求时,使用自身搜索工具Robot在网络上自主搜索。同时搜索算法从查询代理返回的网址出发进行搜索,减少了搜索范围,加快了搜索速度。另外,Robot采用深度受限并能动态调整深度的算法搜索网络信息。一方面由于深度受限,搜索不会陷入到无限长的超链中,另一方面由于深度的动态调整,它能在没有相关信息的链上快速结束,而在相关信息多的链上深入搜索,以避免有用信息的丢失。在保证搜索质量的同时,加快搜索的完成。信息过滤Agent根据用户已有的信息资源分析用户喜好,采用向量空间法进行信息过滤。叁个模块密切协作,从而实现了网上信息的个性化、主动性、智能性检索。

陈红英[4]2002年在《Internet信息过滤Agent的研究和实现》文中研究表明随着Internet的飞速发展,网络上的信息呈指数增长,其内容之丰富,种类之繁多堪称世界上最大的图书馆,如何有效地查询到符合用户兴趣的内容,关系到我们能否充分利用这个巨大的信息资源的问题,也是本文的研究目标。在此我们采用了多种机器学习方法和Agent技术,旨在开发一种具有智能性、主动性、高效的信息过滤Agent。本文主要研究内容为以下两个部分:信息过滤系统和兴趣学习系统。 信息过滤系统分成两个部分:中文分词部分和信息过滤部分。 中文分词部分采用了利用汉字的特点对文档进行预处理的方法和基于词库的最大匹配法和无词库的频度统计法相结合的方法。 信息过滤部分采用了基于关键词向量的信息过滤方法。并作了一些改进:其中文档方面针对Web文档的特点对文档不同标签处的关键字赋予不同的权值。用户方面用户可以直接修改模板关键字串中不同关键字的权值,得到更加精确的用户兴趣,使过滤的结果能准确的反映用户的兴趣,从而提高文档过滤的准确性。 兴趣学习系统中,我们采用了基于向量空间法的用户兴趣学习方法和基于ID3算法的用户兴趣学习法两种方法。并采用了基于用户反馈的学习方法、后台观察用户行为学习用户兴趣的方法和用户兴趣主动服务功能。 本文采用了以下几种机器学习技术:基于用户反馈的机器学习技术、基于观察记忆的机器学习方法、基于ID3算法的归纳推理、启发式学习方法、知识库技术,系统具有较好的自主性和代理性。

韦鲁玉[5]2007年在《基于Agent的个性化智能信息检索系统》文中提出随着Internet的飞速发展,人们能够比以往更容易、更直接地通过网络获取各种形式的信息。现有的Internet搜索引擎如:Google、Yahoo、WebCrawler等,可以帮助人们搜索Internet上的各种信息。但由于语言的模糊性,词语的多义性,利用现有搜索引擎用户常常难以准确地表达用户兴趣;而且不能区分用户;他们也不能主动从网络上发现和收集用户需要的信息,用户要查询同样的兴趣,只能再次搜索,己获得最新的网页内容,浪费了用户大量的时间。面对网络信息服务的这种现状,人们在寻求一种将信息用户感兴趣的信息主动推荐给用户的服务方式,这便是个性化的主动信息服务。在实现个性化的主动信息服务中,智能Agent技术起到了至关重要的作用。本课题针对目前信息检索系统存在的不足,首先,在系统地介绍信息检索研究现状的基础上对个性化信息检索的发展、工作原理和现状进行了简要综述,并对Agent技术做了介绍。然后,从现有问题入手,开发设计了一个基于Agent的个性化智能信息检索系统模型。对基于Agent的个性化信息检索系统的基本结构、方法及相关技术进行了研究。该模型由用户信息检索个性Agent、信息搜索Agent和信息过滤Agent叁个模块构成,分别对叁个模块中的关键技术进行研究。信息检索个性Agent研究是本文重点。用户信息检索个性Agent通过学习用户的兴趣,使其具有一定的智能性。通过用户信息需求的表达和信息反馈,形成并训练用户信息检索个性模型。在对用户个性化进行深入研究时,提出了一种改进的用户兴趣模型,并详细说明了其生成和更新实现算法。再次,信息搜索Agent通过查询代理与Internet搜索引擎连接,既可实现元搜索,又可以在返回的网址较少或不满足用户的要求时,使用自身搜索工具在网络上自主搜索,而且搜索算法从查询代理返回的网址出发进行搜索,减少了搜索的范围,加快了搜索的速度。信息过滤Agent根据用户已有的信息资源分析用户喜好,采用向量空间法进行信息过滤。接着本文对具体实现进行了介绍,实现了系统的部分功能。结果表明,该平台可减少搜索范围,加快搜索速度。最后,对本文的研究以及进一步研究做了总结。

盛秋艳[6]2003年在《基于Agent的个性化信息检索技术的研究》文中指出近年来,智能信息检索(Intelligent Information Retrieval)作为人工智能(AI)的一个独立研究分支得到了迅猛的发展。随着Internet的发展和普及,越来越多的用户利用搜索引擎来搜索网上信息。尽管搜索引擎的发展已较成熟,但人们在使用中却发现要准确、快速地查找自己所需要的信息是越来越困难。面对网络信息服务的这种现状,人们在寻求一种将信息用户感兴趣的信息主动推荐给用户的服务方式,这便是个性化的主动信息服务。在实现个性化的主动信息服务中,智能Agent技术起到了至关重要的作用。 本文系统地研究了基于Agent的个性化主动信息服务中所涉及的关键技术,提出了一种基于Multi-Agent的Internet信息检索系统模型。该系统由用户Agent、信息搜索Agent、信息过滤Agent叁个模块构成。通过用户信息需求的表达和信息反馈,形成并训练用户Agent。用户Agent通过基于记忆观察的学习机制、接受反馈的机器学习机制、改进的ID3算法的归纳学习机制叁种机器学习方法,学习用户的兴趣,使其具有一定的智能性。信息搜索Agent通过查询代理与Internet搜索引擎连接,既可实现元搜索,又可以在返回的网址较少或不满足用户的要求时,使用自身搜索工具在网络上自主搜索,而且搜索算法从查询代理返回的网址出发进行搜索,减少了搜索的范围,加快了搜索的速度。信息过滤Agent根据用户已有的信息资源分析用户喜好,采用向量空间法进行信息过滤。叁个模块密切协作,从而实现了网上信息的个性化、主动性、智能性检索。

吴宗树[7]2003年在《基于agent的internet信息自动提取的研究》文中研究指明随着Internet以及相关技术的发展与成熟,Internet,尤其是WWW逐渐成为人们发布和获取信息的常用平台,从网络上收集信息资源已经成为当今至未来社会人们获取信息的重要手段。然而,面对汪洋大海般的网上信息,一个普通用户使用现有手段是很难招架的。这又包括两种情况:1 主动送上门的或已经下载的信息难以消化,即所谓的“信息过载”;2用户不知道如何确切表达(目前技术也并没有提供合适的表达手段)对真正想要的网上资源的需求,也不知道如何更准确、有效地寻找资源,即所谓的“资源迷向”。 基于Agent的Internet信息自动提取的研究是一种面向个人用户和一般企业用户的实用智能化信息获取Agent,它可以通过反复学习,掌握用户的兴趣特征,自主在lnternet上搜索用户感兴趣的信息,并且将找到的信息经过过滤后提供给用户,实现智能化的主动信息服务。根据用户的偏好和反馈训练Agent,及时获取用户感兴趣的最新信息,从而获得个性化服务,帮助用户解决“信息过载”和“资源迷向”。 文章系统介绍了智能代理,机器学习和汉语分词技术,其中着重研究了Agent的智能性,代理性,主动性。本系统结合了这几种技术,集中建立一个基于Agent信息自动获取系统。 本文的系统划分成叁个子系统:数据采集子系统,数据过滤子系统,机器学习子系统。叁个子系统通过知识库有机的结合在一起,并尽可能地在系统的各个环节利用Agent的思想提高智能化,并对传统的分词算法,归纳学习算法做了融合和改进。

钟茂生[8]2003年在《基于智能Agent的个性化Web浏览器研究与实现》文中研究指明在过去的几年中,Internet尤其是WWW得到了飞速的发展,2000年9月,美国互联网委员会发布的一份名为(2000年互联网状态》的研究报告中指出,到2000年9月份为止,互联网上的网页数量已达20亿,到2001年初,达到40亿。在这浩如烟海的混乱的Internet信息世界寻找信息的过程中,人们逐渐迷失了方向。如何在Internet中快速、有效地寻找用户所需或感兴趣的信息,以及如何充分利用这些宝贵的资源是研究人员一直追求的目标。研究人员普遍认为,个性化信息服务是一个非常好的出路。 要实现Web的个性化服务,涉及到许多领域的理论和技术,主要有信息检索、信息过滤、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理、人工智能和机器学习等,所以要实现Web的个性化服务具有综合性和挑战性。 本文主要针对网络信息的个性化服务进行了一些研究工作。研究的主要目的是希望通过在客户端浏览器上引入具有自适应学习、过滤和自动搜索功能的智能Agent,以加强和改进客户端浏览器的功能,提高信息采集质量和信息搜索效率,减少网络信息的反复搜索和传输,实现面向用户兴趣的信息搜索,体现和反映用户的个性化信息服务需求。 要实现这种面向用户兴趣的个性化信息服务,面临的问题是用户兴趣如何表示、如何学习到用户兴趣、如何进行面向用户兴趣的信息搜索和面向用户兴趣的信息过滤等。本文针对这些问题进行了研究并提出了一些解决办法。这些研究工作主要体现在:①提出用户兴趣的数学表示形式——兴趣向量,并提出定量地计算用户对兴趣项的兴趣度的计算方法;②提出采用强化学习算法,使智能学习Agent能够更准确,更快速和更高效地学习到用户的兴趣和及时发现用户兴趣的转移;③提出面向用户兴趣的信息搜索和信息过滤方法;④提出一种基于对象的Agent编程模式,也称为用扩充OO建模技术或方法学的适用性来设计Agent系统。 通过对这些问题的研究,我们设计了一个个性化的智能Web浏览器,并实现了系统的部分功能。该系统目前主要具有以下功能:①用户登录注册并自动生成用户配置文件;②用户浏览网页信息;③系统可以部分学习用户兴趣并能够发现用户的兴趣转移;④网页信息过滤。系统具有以下特点:个性化、自主性、信息维护功能和知识维护功能、协作性、扩充性等。系统的功能目前不是很完善,需要以后进一步的研究和完成系统开发工作。

周斌[9]2007年在《面向公众服务的电子政务研究》文中提出随着我国经济体制从计划经济向市场经济过渡,社会处于转型期,相应的政府管理模式也正从传统的行政管理转向新公共管理。这就要求政府部门在加强经济调节和市场监管的同时,要更加注重履行社会管理和公共服务的职能,逐步实现政府的治理模式从“管制型”转向“服务型”。本文认为电子政务是实现这种转变的重要载体和途径。 我国的电子政务建设近几年得到了快速发展,但由于长期缺乏系统的规划,导致跨行业、跨部门的公共服务项目较少,并且缺乏实际有效的服务,电子政务信息孤岛随处可见,加上部分政府部门缺乏面向公众服务的观念,我国的电子政务建设遭遇了发展瓶颈。着名经济学家吴敬琏曾指出,我国的电子政务走入了重电子轻政务、重建设轻整合、重概念轻应用的误区。所以,本文把电子政务建设放在我国创建服务型政府的背景下,从面向公众服务的视角来研究电子政务,重新思考政府的服务模式。 为了从根本上改善政府与公众的关系,本文认为电子政务可以有所取舍地借鉴客户关系管理(CRM)思想。所谓CRM,包含叁层含义:首先,它是一种“以客户为中心”的经营理念,所满足的是客户个性化的需求,在电子政务中体现出来就是“以公众需求为中心”的指导思想;其次,它是一种客户导向的业务流程管理机制,在电子政务中体现为政务流程重组;第叁,它是一种管理软件和技术,包括用户服务“前台”的交互渠道整合、用户服务“后台”的系统集成、为用户提供个性化服务的技术、解决个性化所带来的个人隐私保护技术等,这些都可以用于电子政务建设。 本文的主要研究成果如下:首先比较全面地介绍了电子政务的基础理论和该领域的研究现状。然后,分析了国外电子政务建设采用CRM作为指导思想的实践经验,提出“以公众需求为中心”作为目标的面向公众服务的电子政务,重点深入地分析了客户关系管理(CRM)的核心思想应用于电子政务的适用性问题,得出的结论是电子政务对CRM只能是部分借鉴,如“客户”的概念与电子政务的服务对象---社会公众不能完全划等号;另外,由于企业追求经济利益的本性与电子政务所追求的公益性目的有着本质的不同,所以CRM中最着名的“80/20法则”就不适用于电子政务。但本文认为这不能抹杀CRM的其它理念和

李宗明[10]2008年在《网上审批系统中基于Agent技术的个性化查询系统研究》文中研究指明网上审批系统是在Internet上实现的,无形中就存在一个巨大的分布式信息资源库,并且随着网上审批系统使用范围的扩大,这些信息还以每天百万个的数量级增长。对于这些信息,我们可以在系统中设计一个搜索引擎,这样可以满足人们一定的搜索需求。但是搜索引擎存在信息迷航的问题。并且不关注用户差异,只要关键词相同就返回相同的查询内容。但实际上,用户在使用搜索引擎进行信息查询时,并不十分关注返回的结果有多少,而是看结果是否和自己的需求吻合。存在这些弊端实质性原因在于信息获取手段缺乏知识处理能力和理解能力。把信息查询从目前基于关键词层面提高到基于知识层面,是解决问题的根本和关键。本文尝试将Agent技术引入网上审批系统,利用Agent的学习性、自治性、社会性来实现用户查询的个性化。以下是本文的主要研究内容:1)研究了网上审批系统的特征,将Agent技术引入网上审批系统,以期实现个性化,同时考虑了当前个性化查询响应时间迟缓的问题,提出了一种减小搜索空间的方法。2)建立基于Agent技术的个性化信息查询多系统的框架,给出核心Agent分类,描述了基本的工作流程。研究了用户模型的表示、建立、更新,文档模型的表示和建立;用户Agent和用户群体Agent的行为模式;匹配Agent的工作机制;文档分析Agent和信息过滤Agent的工作机制;文档数据库和用户模型数据库的构建;研究了Agent之间通信机制等3)使用Gaia方法论对网上审批系统中基于Agent个性化信息查询系统进行了详细的分析和设计。

参考文献:

[1]. 基于智能Agent的Web个性化信息检索系统[D]. 尹西杰. 山东大学. 2006

[2]. 基于Agent的个性化信息检索系统研究[D]. 杨刚华. 大连理工大学. 2005

[3]. 基于多Agent的智能信息检索系统研究[D]. 侯莉莉. 兰州理工大学. 2007

[4]. Internet信息过滤Agent的研究和实现[D]. 陈红英. 广东工业大学. 2002

[5]. 基于Agent的个性化智能信息检索系统[D]. 韦鲁玉. 哈尔滨理工大学. 2007

[6]. 基于Agent的个性化信息检索技术的研究[D]. 盛秋艳. 哈尔滨工程大学. 2003

[7]. 基于agent的internet信息自动提取的研究[D]. 吴宗树. 沈阳工业大学. 2003

[8]. 基于智能Agent的个性化Web浏览器研究与实现[D]. 钟茂生. 江西师范大学. 2003

[9]. 面向公众服务的电子政务研究[D]. 周斌. 同济大学. 2007

[10]. 网上审批系统中基于Agent技术的个性化查询系统研究[D]. 李宗明. 上海交通大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

Internet信息过滤Agent的研究和实现
下载Doc文档

猜你喜欢