洪颖[1]2004年在《面向化工领域的智能元搜索引擎系统的研究与设计》文中指出现代科学技术的发展将人类带入一个前所未有的“信息爆炸”时代。随着信息量的极度增长,人们想要在信息海洋中获取自己想要的信息也变得越来越困难,这也导致了信息检索技术得到了前所未有的发展。但目前主要的搜索引擎的信息返回率都不高,尤其对于某个特定的专业或领域的检索来说,效果不太理想。所以要想获得一个比较全面的、准确的结果,就必须反复调用多个搜索引擎,元搜索引擎的出现,在一定程度上解决了这些问题,这也使得元搜索引擎有了它的生存空间。我国从80年代初开始进行化工物性数据库研究开发的,从1982年起,一些数据库开发项目列入化工部“六五”科技攻关项目。进入90年代以来,随着化工领域科技的不断发展,研究人员对化工物性数据库的系统提出越来越多的要求,然而我国目前开发的化工物性数据库系统大多基于传统的数据库理论和技术,已经满足不了发展的要求。因此,面临日益飞速增长的网络信息,必须着眼于数据信息检索方面的研究。本课题就是针对于我国特定的化工行业信息化的需要,实现的一个元搜索引擎系统在特定领域内的应用。本课题首先介绍搜索引擎技术的理论基础,主要侧重于独立搜索引擎的介绍,特别针对于化工领域的一些搜索引擎,然后重点研究了
李红梅[2]2009年在《智能元搜索引擎关键技术研究》文中研究表明现有的搜索引擎存在覆盖率低和查准率低的缺陷,无法充分满足用户对信息的快速性与有效性要求。元搜索引擎通过调用多个搜索引擎来实现搜索,能较好解决现有搜索引擎的缺陷,但仍然存在智能化程度低、搜索结果的易用性差、无法满足个性化需求等问题。本文系统综述了智能元搜索引擎技术的研究现状和发展趋势,设计了一个基于Multi-Agent的智能元搜索引擎系统结构模型,并对其中的关键技术进行了研究。数据挖掘能够提取数据中隐含的知识,Web数据挖掘技术应用于搜索引擎中,为Web信息的利用提出了新的解决方案。Agent技术的发展日趋成熟,可有效应用于用户个性化智能信息检索中。因此,Web数据挖掘技术、智能Agent技术与元搜索引擎技术相融合,可提高元搜索引擎的智能化水平,使元搜索引擎技术上升到一个新的高度。本文的主要创新性成果如下所述:1.在元搜索引擎中吸收了聚类搜索引擎和个性化检索的关键元素,提出了一个基于Multi-Agent的智能元搜索引擎系统结构模型。采用移动Agent和常驻Agent相结合的搜索机制使系统具有更强的适应性,利用并行约简算法实现了常驻Agent对搜索结果的动态合并,可有效避免在结果合成Agent处产生瓶颈。给出了用户个性化模式的表示机制和更新机制,运用个性化检索和聚类浏览相结合的检索方式既能满足用户的个性化要求,提高用户查询的查准率,又能实现对搜索结果的结构化组织,便于用户快速定位有效信息。2.提出了一种基于虚拟语言模型的成员搜索引擎选择算法。采用将成员搜索引擎数据库与概念相关联的技术,通过静态学习得到数据库与各个概念之间的相关度,并建立数据库的特征描述。对于用户查询,先将其映射到相关概念,然后利用虚拟语言模型计算查询与成员搜索引擎数据库之间的相关性,结合用户对搜索引擎的偏好度实现个性化的成员搜索引擎调度策略。本算法可以弥补Web信息检索中短查询存在的问题,同时提高数据库选择的速度。实验结果表明该算法在搜索结果的查询精度上比采用CORI算法有明显的提高。3.针对结果合成算法中搜索引擎性能不均衡带来的问题,提出了一种基于群决策的合成算法。对搜索结果的排序位置和文本信息进行规范化处理得到文档的相关分值,平衡搜索引擎之间的差异。利用搜索引擎的性能评价,提出改进的影子文档方法估算非相关文档的分值。考虑成员搜索引擎对用户查询意图的相关程度因素,引入群决策思想实现对搜索结果的排序,将与用户查询意图密切相关的结果排在搜索结果的前面,从而提高查准率。该算法充分利用搜索结果的信息,计算简单、易于实现。实验结果表明与成员搜索引擎相比,其平均相关性有明显提高,并且优于Round-robin、CombSum和CombMNZ叁种合成算法。4.为了获得明确的聚类主题,提出了一种基于概念分组的Web搜索结果聚类算法。对概念分组算法进行了改进,突破了其对查询特征项的限制,利用特征词的同现文档频率来建立概念分组,进而挖掘Web搜索结果之间的语义关联,产生对查询主题的概念描述,实现对搜索结果的聚类。类别标签的选择综合考虑了特征词在类内和文档集中的重要性,使得标签具有较强的文档区分性。算法中对特征词选择进行了优化,保证了产生的类别标签具有明确的含义;通过对搜索结果的语义挖掘,实现了对Web搜索结果的主题发现,同时,具有对同义词的扩展能力。该算法具有较低的时间复杂度,能够满足实时的、语义的、重迭聚类的要求。实验结果表明该算法聚类性能较好,明显优于K-means聚类算法,并且具有较强的自适应性。与中文聚类搜索引擎比比猫相比,在聚类质量和类别标签上都与之相近,但能够产生含义更为明确的类别标签。
徐芳[3]2008年在《利用概念检索实现专业搜索引擎的智能化》文中研究表明搜索引擎技术以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。目前的搜索引擎大多采用关键字匹配的方式,只要发现含有这个关键字,就将该文档或网页作为查询结果返回给用户。由于参与匹配的是字符的外形,而不是它们所表达的概念,因而经常出现检索不全,答非所问的情况。于是,需要采取一定的策略提高搜索引擎的知识处理能力和理解能力,这已经成为搜索技术未来发展的趋势。概念检索就是其中一种实现方式。概念检索是把信息检索从当前基于关键词检索的层面提高到基于知识(概念)检索的层面,从词所表达的内在涵义的层面上来认识和处理用户的检索请求。本文研究了实现概念检索的关键技术一知识库技术,并研究知识库的建立、表示和利用这叁个方面的问题,选取了本体技术作为解决问题的方法。本文将本体技术、Jena推理工具和Lucene全文搜索技术相结合,并对化工专业词汇特点进行深入研究,确定词汇的层次关系结构,定义其中的类和类的属性,以及类与类之间的关系,采用本体开发工具Protégé对化工专业词汇的语义信息进行表示,使用OWL作为本体的描述语言,使用Jena工具针对所建立的本体自定义推理规则,对本体进行解析和推理查询,利用Lucene作为搜索引擎内核进行具体的索引检索,从而基本实现了概念检索主要的两个功能:同义检索和相关扩展检索。本文利用实验室搜索引擎系统Spider模块,从化工专业网站上抓取网页,并利用网页转换的文本文件进行实验。通过实验数据证实,基于概念的搜索引擎提高了查全率,使搜索引擎智能化。
黄艳[4]2008年在《基于Web的个性化信息检索技术研究》文中进行了进一步梳理随着计算机技术的发展,Internet应用需求也日益扩大,各种基于Web的软件技术也得到了长足的进步。为了能够给用户提供及时、准确的信息服务,搜索引擎技术应运而生,搜索引擎作为网络信息服务最基本的手段,在一定程度上可以满足用户对WWW上信息检索的要求,但由于其通用的性质,这些通用的搜索引擎所表现的数据信息覆盖领域广、信息量大、数据不稳定、冗余度大等特性,导致用户查询的精度非常低,其效果难以满足不同背景、不同目的和不同时期的用户查询请求。元搜索引擎正是满足这种需求的产物,元搜索引擎技术是一种集成搜索引擎技术,它主要通过成员搜索引擎选择、文本选择、结果集成叁个主要步骤来完成信息检索任务,如果系统策略设计得当,成员搜索引擎选择方法合适,那么相对于独立的传统搜索引擎来说,元搜索引擎一般可以达到更高的搜索覆盖率和更好的查询效果。但是元搜索引擎也会面临与传统搜索引擎一样的问题,就是不能对用户进行个性化分析和提供相应的有针对性的服务,而且如果系统的集成策略设计地过于简单和机械化,则元搜索引擎多数情况下并不会取得更好的信息检索效果。本文针对现有元搜索引擎的局限性和当前用户的个性化需求,以用户兴趣模型为基础,提出了实现用户个性化搜索的模型,并研究其相关技术与算法。主要的研究工作包括:①提出元搜索引擎的设计思路,主要介绍元搜索引擎的总体设计模型以及各主要部分的功能,包括查询代理、搜索代理、运算代理叁大功能模块。②分析了搜索引擎的查准率不高等性能问题,对个性化技术的本质作了定义和分析,并指出了实现个性化技术的一般步骤和方法。③通过对用户行为特征的统计分析发现,用户的查询关键词和查询过程具有统计意义上的稳定性。因此,建立了以用户行为特征为基础的用户模型。④通过理论分析和性能分析探讨了个性化搜索引擎性能优化的关键技术。结合个性化搜索模型,引入新的信息抽取算法、中文切词算法,以及元搜索引擎采用的几种排序算法。⑤最后,结合用户对搜索引擎的需求发展趋势,指出了今后的主要研究方向。
盛宪锋[5]2004年在《石油化工专业网络智能信息检索系统研究与实现》文中认为随着网络信息资源的迅速增加和实时更新,如何及时准确地获取自己所需的有用信息是现代网络信息检索技术需要解决的主要问题。本课题为在石油化工专业背景下,对基于元搜索引擎的专业式、专题式、个性化网络智能信息检索系统的研究,并且给出了其框架实现。解决了人们获取信息的广度问题,同时采用了人工智能的智能体新技术,实现了基于用户兴趣的智能化检索,保证了信息的可靠性,即精度问题。为石油化工专业下的用户在Web网络中检索所需的有效信息提供了较好的方案。本系统中,专业、专题检索主要是通过建立、维护专业同义词和专题词库来实现的,用户提交的检索关键词传递到元搜索引擎接口中,调用多个搜索引擎,其返回结果由页面自动分析器分别对其进行分析整理,从而取得有效的结果信息。个性化检索的实现,首先是通过知识表示中的框架表示法对用户的知识信息进行存储,并在用户使用系统的过程中由用户的检索兴趣和对检索结果的反馈信息对用户知识做动态更新。检索结果的过滤算法应用了向量空间模型算法,将检索结果和查询条件进行矢量化,通过计算其夹角大小来衡量文档的相似度,作为结果显示的标准之一,此外还考虑了权威网站信息、元搜索引擎返回结果的权重信息等因素。
刘刊[6]2013年在《云制造资源语义发现关键技术研究》文中研究指明随着互联网通道能力和运算能力的增强以及互联网整合技术和应用服务的演进,云计算作为一种新的互联网模式应运而生。以此为基础,制造领域出现的云制造模式使得制造企业获得所需资源的机会大大增加,加快了制造企业的信息化进程。在山西省自然科学基金项目《复杂互联网环境下的制造资源发现及企业应用集成方法研究》资助下,论文综合运用语义网、本体建模开发和搜索引擎的相关技术理论,对云制造资源语义发现的关键技术进行了研究。设计了云制造资源语义发现的总体框架。本文在分析了云制造资源的特点后,设计了云制造资源语义发现的总体框架。同时,探讨了实现云制造资源语义发现的关键技术,从而为实现云制造的全球化奠定了基础。建立了基于云计算的制造资源本体库。制造资源的本体建模是规范云制造资源的基础。本文在对本体建模技术进行研究的基础上,提出了制造资源分类模型。以此为基础,对云制造资源进行了分析与建模,建立了初步的制造资源本体库。设计了制造领域本体映射的流程。统一规范没有歧义的制造资源是资源共享、资源发现和语义搜索等关键环节的基础。在分析了异构资源本体的特点后,结合本体概念相似度计算的方法,设计了制造领域本体映射的流程。在上述工作的基础上,基于搜索引擎技术构建了云制造资源语义搜索引擎系统Mris,探索性地实现了系统中的制造资源语义搜索服务。并用实验验证了该系统在语义搜索制造资源时的准确性和可行性。
宋国柱[7]2007年在《基于Agent的个性化信息服务关键技术研究》文中研究指明随着Internet的迅速发展,网上信息资源越来越丰富,网络已成为用户获取信息的必要途径和重要手段,而搜索引擎又成为用户获取信息资源的入口。但由于网络资源信息具有无组织、异构分布和动态变化、结构复杂等特点及用户检索信息时的“信息过载”和“资源迷向”等问题,传统的搜索引擎已无法满足用户的种种需求,用户期盼着一种具备智能性、个性化服务的搜索引擎出现。本文在分析研究国内外搜索引擎技术、个性化信息服务技术及现有搜索引擎不足的基础上,结合人工智能技术的最新研究成果——Agent技术,提出了基于Agent的个性化信息服务的搜索引擎框架模型。在此模型框架中,采用用户兴趣模型库和个性化知识库,多Agent协作等人工智能技术使得搜索引擎比较好地实现了用户个性化信息服务的特点,并以此框架为设计架构,简单地实现了使用Spider程序抓取网页,并对在抓取网页时使用的递归算法做了分析和限制。在个性化信息服务方面基于用户兴趣模型库和个性化知识库采用了“推”(Push)技术,用户(注册用户和非注册用户)在使用搜索引擎时,推荐Agent将用户的偏好(偏好从用户兴趣模型库和个性化知识库中获取)主动“推”送给用户。主要研究工作和结果为:(1)在分析研究Agent技术和现有搜索引擎的技术、体系结构、工作原理、搜索引擎的发展历程、发展趋势及应用现状等的基础上,针对现有搜索引擎的个性化服务、智能性比较差的特点,基于中科院计算所史忠植教授提出的信息搜索引擎结构,在查阅大量文献的基础上,设计了一个基于Agent的个性化搜索引擎框架模型。该模型由多Agent组成,自顶向下分为叁层:人机交互层、信息处理层和信息收集层,并对各层中的各Agent功能进行了阐述。(2)研究分析了搜索引擎技术中的中文分词技术,并对正向最大分词算法做了改进(我称它为“正向动态最大匹配”算法),提出了“动态最大匹配”的思想,以减少匹配时循环的次数。实验结果表明,改进后的分词速度相对于正向最大匹配算法和逆向最大匹配算法的速度有明显的提高。(3)在中文分词的“歧义”处理方面,提出了“歧义包容”思想,即将某两种分词(如“正向最大匹配分词”和“逆向最大匹配分词”)的结果做个综合,然后将这一综合的结果交给搜索引擎。(4)设计了Spider收集网页程序,Spider的核心是一个基于关键词及多个关键词对站点进行深度优先搜索、对网页进行广度优先搜索的一个递归过程。搜索结果以Java中的JTree结构显示。为了防止Spider在搜索过程中陷入死循环及内存/堆栈的溢出,笔者采取了一些措施。
陈小华[8]2006年在《数据挖掘技术在个性化信息检索系统中的应用研究》文中研究说明随着网络应用的普及,网上信息量以惊人的速度增长,并且更新频繁。人们面对的问题不再是缺乏有用信息,而是如何找到自己所需要的信息。虽然传统信息检索技术在一定程度上满足了人们的需要,但却存在着低查准率和低查全率的问题。多数商业搜索引擎提供的信息检索服务,由于侧重通用性而不能满足不同背景、不同目的用户的查询请求。针对这种现状,作者研究了基于数据挖掘的个性化信息检索系统。论文首先对搜索引擎系统的研究现状和发展趋势进行论述,探讨了将数据挖掘技术应用于个性化信息检索系统的可行性,在此基础上提出了一个基于数据挖掘的个性化信息检索系统的总体框架模型。接着对该系统的主要功能进行较深入的描述,对该系统的的关键技术进行较深入的研究。最后给出了一种基于Apriori的类别关联规则的挖掘算法。仿真结果表明基于Apriori的类别关联规则的挖掘算法能够挖掘出用户的个性化信息,同时表明用户个性化信息的质量好坏与支持度值的大小密切相关。
孙静[9]2007年在《搜索引擎网页快照的安全性研究》文中研究表明本文首先介绍了搜索引擎的发展现状,探讨了末来的发展趋势。在对搜索引擎相关技术进行了阐述之后,对搜索引擎中网页快照技术进行了研究。目前保存于搜索引擎服务器海量缓存中的网页快照在提供给用户更快捷和更方便的访问方式的同时,也将网页中可能的不安全代码一并保存并在用户搜索时一起返回给用户,使计算机在不知不觉中感染病毒。因此,本文对网页快照在实现的同时,进行了安全方面的研究。要实现网页快照的安全性判断,本文尝试采用了人工智能的先进方法——机器学习。利用机器学习中应用较为广泛的示例学习和机械学习相结合,通过建立学习解释器,对网页中的Javascript等脚本语言进行判断,去除不安全代码或者可疑代码。现在网页上的恶意代码越来越多,随之而来的,网页快照上存在不安全代码的可能性也大大增加。为了识别恶意代码,将几种含有常见的恶意代码的程序段的特征关键字作为机器学习的知识库中的示例知识,把网页中Javascript部分的代码分离出来,并将其与知识库中的关键字进行比较判断。本系统的机器学刊通过执行单元将网页的Javascript程序段与知识库进行比较,如果相同或相似则认为是恶意代码,于是就将相似代码通过学习单元将其提取特征码作为新知识存入知识库来提高学习系统的自学习能力,并将其从原来的网页代码中去掉。而对于没有检测到与知识库匹配的代码,认为是安全代码予以保留。这样,将可以进行安全判断的网页快照系统集成至现有的化工专业搜索引擎系统,改进了系统功能,为广大用户提供了更为安全的网页快照。
李晗[10]2008年在《面向石油的主题搜索引擎研究》文中进行了进一步梳理近年来,我国石油行业信息化建设发展迅速,但针对石油专业信息检索的主题搜索引擎却寥寥无几。现有的搜索引擎相关技术大多面向综合型搜索引擎,对主题信息检索的研究并不完善,因此研究和开发专业的石油主题搜索引擎具有很大的价值和意义。介绍了主题搜索引擎的发展现状和工作原理,阐述了主题爬虫的工作原理和搜索策略。在研究了国内外主题搜索引擎相关技术的基础上,分析了现有技术的不足之处,提出了几点改进。解析石油主题网页生成DOM树,设计了基于DOM的词共现模型。在该模型的基础上,根据共现信息扩充石油主题词表,从而建立石油主题词典。石油主题词典在原有词表的基础上加入了更多的石油主题词汇,具有更明显的石油主题特征。综合考虑了多种因素对权重的影响,分解了TFIDF权重公式。以文本段为单位计算相似度,改进了N层向量空间模型的权重计算公式,降低了向量空间的维数。提出了一种基于反向链接上下文的自适应主题爬行策略。利用相关网页的反向链接上下文来完善特征库,同时根据特征库来计算链接的优先值,优化了链接优先级的计算。实验证明,在性能上,基于反向链接上下文自适应算法要优于基于链接上下文的传统算法,没有主题漂移现象,且达到了自适应的效果。
参考文献:
[1]. 面向化工领域的智能元搜索引擎系统的研究与设计[D]. 洪颖. 北京化工大学. 2004
[2]. 智能元搜索引擎关键技术研究[D]. 李红梅. 西安电子科技大学. 2009
[3]. 利用概念检索实现专业搜索引擎的智能化[D]. 徐芳. 北京化工大学. 2008
[4]. 基于Web的个性化信息检索技术研究[D]. 黄艳. 西北大学. 2008
[5]. 石油化工专业网络智能信息检索系统研究与实现[D]. 盛宪锋. 北京化工大学. 2004
[6]. 云制造资源语义发现关键技术研究[D]. 刘刊. 太原科技大学. 2013
[7]. 基于Agent的个性化信息服务关键技术研究[D]. 宋国柱. 太原理工大学. 2007
[8]. 数据挖掘技术在个性化信息检索系统中的应用研究[D]. 陈小华. 西安电子科技大学. 2006
[9]. 搜索引擎网页快照的安全性研究[D]. 孙静. 北京化工大学. 2007
[10]. 面向石油的主题搜索引擎研究[D]. 李晗. 中国石油大学. 2008
标签:计算机软件及计算机应用论文; 搜索引擎论文; 信息检索论文; 搜索引擎基本工作原理论文; 智能算法论文; 云制造论文; 搜索引擎原理论文; 相关性分析论文; 数据库系统论文; web技术论文; 用户研究论文; 语义分析论文; 主题模型论文; 用户分析论文;