数据挖掘在Internet信息检索中的应用

数据挖掘在Internet信息检索中的应用

熊回香[1]2003年在《网络信息检索及其发展趋势研究》文中进行了进一步梳理随着Internet在全世界范围内迅猛发展,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。 全文主要包括六个部分,第一部分为网络信息检索述评,主要是阐述了网络信息检索所涉及到的有关概念,如信息检索技术、网络信息检索的特点及网络信息检索效果评价。第二部分重点讨论了网络信息检索的基本技术。如信息推拉技术、数据挖掘技术、信息过滤技术、自然语言处理技术等等,旨在弄清网络信息检索的技术支撑,为预测网络信息检索的发展趋势作下铺垫。第叁部分对网络信息检索的重要工具——搜索引擎进行了阐述,主要从其检索机制入手,分析了不同种类的搜索引擎的检索特点及功能。其独到之处在于对搜索引擎的基本功能进行了比较全面的概括,并对目前流行的搜索引擎进行科学的分类,旨在寻找出搜索引擎发展的内在原因,为搜索引擎发展奠定基础。第四部分分析讨论了检索技术的另一分支——基于内容的检索技术,主要从静止图像检索和视频检索两个方面进行分析研究,尤其是在阐述静止图像检索的检索时,提出了自己独到的见解。基于内容的检索多用于多媒体信息的检索,对这一部分论述的目的是为了更好是开发多媒体信息检一 索工具。第五部分则分析了网络信息搜索工具的局限,主要从文本信息检索 和多媒体信息检索两方面进行阐述。尤其是在讨论网络信息检索的局限时结 合了网络信息检索的影响因素,旨在寻找出网络信息发展的必然性和可能性, 以确定网络信息检索的未来发展方向。第六部分则以前面论述的内容为基础, 从网络信息检索的机制、检索效果、智能化检索、多媒体检索等方面预测网 络信息检索的未来发展趋势,旨在探索更新的检索技术,提高网络信息检索 的查全率和查准率,以及检索接口的人性化、可视化。其独到之处是结合许 多最新的信息技术,从网络信息检索的各个层面对其发展趋势进行了预测。

田萱[2]2003年在《基于Internet的信息检索若干问题的研究》文中进行了进一步梳理由于Internet上的信息具有数量庞大、无序性强、重复性大的特点,互联网上的各种信息检索系统——搜索引擎成为帮助人们上网获取信息的主要工具。这些搜索引擎在给人们带来很大便利的同时也暴露出许多问题。当前主要有两个关键问题需要解决:一是效率问题,现在互联网上的信息检索系统需要处理几千万上亿的网页,同时要和成千上万的客户端用户交互;二是准确性问题,信息太多,如何向用户准确提供他们所需要的内容就特别重要。因此,如何提高搜索引擎的使用效率和如何更快更准确的向用户提供检索信息成为本文关注的唯一内容。 本文致力于从Internet上信息检索系统的系统结构、文档特征表示、用户个性化模式的表示等叁个角度来分析,主要包括以下工作: 1.对现有的信息检索系统进行分析 分析了当前Internet上信息检索系统的发展过程和发展趋势,并分析了信息检索系统所涉及的关键技术及相关知识。在此基础上,分析了当前信息检索系统存在的一些不足之处,如随着Internet规模和用户的飞速发展,客户机/服务器结构引起的低效问题:以及常用的向量空间模型在表示文档特征时带来的准确率差等问题。 2.提出基于CORBA技术的分布式体系结构 针对当前搜索引擎系统客户机/服务器两层模式的传统结构设计带来的效率低下问题,提出在搜索引擎系统中引入分布式对象技术来更好的适应新的网络状况。CORBA是当今比较成熟的分布式技术,因此本文为搜索引擎设计了一种基于CORBA技术的体系结构,对其主要功能和特点进行了分析。引入CORBA技术后,搜索引擎传统的客户机/服务器结构成为具有叁层结构的分布式体系。这种分布式体系结构为适应搜索引擎向智能化、个性化发展的特点,强调应用程序服务器端实行分布式计算,因而具有良好的开放性、扩展性、集成性和较高的计算速度,对减少服务器的负载,减少网络延迟,提高速度和效率的也有一定的作用。另外,这种基于CORBA技术的分布式体系结构可以和搜索引擎传统的分布式结构进行整合,从而形成一种既在应用程序服务器端支持分布式计算又在数据服务器端支持分布式下载和查询的分布式体系结构。 3.提出一种基于BP神经网络统计文档特征项权重的方法 信息检索系统的核心技术主要包括叁个方面的内容:文档与用户查询的表示:查询匹配策略;匹配结果的相关度计算。其中文档表示是信息检索技术的基础,而文档表示包括文档特征项的抽取和文档的特征项权重的统计。本文针对现存的文档特征项 基于Internet的信目、检索若干问题的研究权重统计方法的不足,结合向量空间模型表示文档特征的方法,提出利用神经网络技术对文档的文档特征权重进行估计的方法。BP神经网络是当今应用最为广泛的一种人工神经网络,它的结构简单,工作状态稳定,可用于函数逼近,模式识别等方面。本文设汁并训练出一个适合的BP网络,给出一个文档的特征项出现频率能计算出特征项在该文档中的权重,从而表示出文档特征。从实验结果来看,这种表示方法简单实用,准确率较高。4.提出一种基于Hudria-n树形式的个性化模式表示方法及相应的文档过滤算法 如何更快、更准确的向用户提供其所感兴趣信息是当前搜索引擎系统发展的方向之一。解决这个问题的基础在于如何准确的获得用户的兴趣并把它表示出来。本文分析了表示用户个性化模式常用的几种表示方式,并提出了一种基于Huffman树形式的个性化模式表示方法。在这种个性化模式表示的基础上,给出了文档过滤算法,并对这个算法性能进行了分析。这种用户个性化模式的表示方式的最大优点能提高Web文档过滤的效率,减少用户等待时间。 本论文受山东省中青年科学家奖励基金项目(项目号:304065)和山东省科委项目(项目号:012090101)资助。

羊晶璟[3]2008年在《基于Web的个性化搜索引擎的研究与设计》文中提出随着网络信息量成爆炸式地增长,人们要在信息海洋中找寻自己需要的信息是十分困难的。因此,随之出现的信息检索系统------搜索引擎成为人们搜索信息的主要工具。虽然搜索引擎为用户的查询信息带来很多方便,但是目前大多数的搜索引擎仍然存在许多缺陷,它们没有考虑到用户的个性和兴趣,只能简单地执行用户的查询需求,只要用户使用的关键词相同,所得到的搜索结果就相同,大大降低了搜索的准确性。所以,如何将搜集的信息资源合理组织,如何从大量的信息中,针对用户不同的兴趣需求,返回用户真正需要的信息,从而实现个性化搜索,成为目前研究的重要课题。本文针对现有搜索引擎系统存在的问题,深入研究实现个性化搜索引擎系统的相关技术,设计并实现了个性化搜索引擎,并且主要专注于个性化搜索引擎的网页资源的分析组织、网页的自动分类以及个性化模型构建更新等方面来分析研究。论文的主要工作如下:(1)对目前的搜索引擎系统进行论述分析。论述分析了目前搜索引擎系统的发展历史、系统架构,并且分析了当前搜索系统存在的一些缺陷,比如查询的准确性不高,不能体现用户的个性。(2)对个性化搜索引擎中的网页特征描述进行了研究,并且提出了一种利用非线性函数改进特征词权重计算的方法。(3)网页的自动分类。研究了目前比较流行的分类算法,利用分类算法对收集到网页信息资源进行分类,从一定程度上缩小了用户的查询范围,提高了查询的效率。(4)个性化模型的构建。采用Web挖掘技术对存放在Web缓存中的历史页面进行挖掘,获取用户的兴趣信息,利用聚类算法对用户兴趣分类管理,并且利用最优二叉树的形式来表示用户兴趣。利用获取的用户兴趣信息来构建个性化模型。(5)Agent动态跟踪和个性化模型的更新。利用Agent动态跟踪用户的浏览行为,捕捉用户兴趣的变化,并通过“衰弱因子”、设置权重阈值、兴趣度阈值以及时间阈值及时更新用户兴趣,不断更新模型。(6)利用个性化模型过滤搜索结果,返回给用户的是满足其兴趣需求的个性化结果。这里提出了一种搜索结果过滤算法。

王丽[4]2009年在《Web数据挖掘在个性化搜索技术上的研究》文中指出互联网是为用户提供信息交换、共享而发展起来的Internet应用。人们上网的主要目的是查询信息。由于Internet上的信息具有数量庞大、无序性强、重复性大的特点,互联网上的各种信息检索系统----搜索引擎成为帮助人们上网获取信息的主要工具。这些搜索引擎在给人们带来很大便利的同时也暴露出许多问题。搜索引擎返回给用户的检索结果数量越来越大,人们越来越难以找到真正符合自己意图的信息。传统搜索引擎缺乏个性化的局限性日益突出,单单依靠传统搜索引擎己经无法满足人们的需求,因此,搜索引擎的个性化研究成为当今Internet信息检索方面的一个重要课题。本文首先对Web挖掘的理论基础及个性化搜索引擎进行了介绍,其中包括Web数据挖掘分类、Web数据挖掘在个性化搜索中的应用、搜索引擎的分类及检索效果主要性能指标、个性化搜索引擎的基本类型和涉及的主要技术等。其次,针对Google给出的PageRank排序算法的一个缺陷,即同一页面的所有链出页面分得该页面相同权重的PageRank值,研究了给出的具有针对性的新算法,即使得同一页面的链出页面根据自身页面的重要性分得该页面不同权重的PageRank值。再次,本文探讨了用户兴趣模型,包括用户兴趣建模常用方法、用户兴趣模型技术等。最后,设计了个性化搜索引擎模型,思想是将Web挖掘和PageRank技术结合起来,建立用户兴趣模型,引入到个性化搜索引擎中,使检索结果更加符合用户的实际需要。在论文的最后,总结了本文的研究工作与存在的不足,并对进一步的研究工作进行了分析和展望。

杨传耀[5]2007年在《中文信息检索索引模型及相关技术研究》文中进行了进一步梳理随着计算机系统性能的提高,互联网络技术的快速普及,以及企业信息化程度的提高,中文信息资源以极快的速度递增。信息检索就是从庞大的信息资源中找到人们所需信息的技术。信息检索(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。目前,信息检索已经发展到网络化和智能化的阶段。为了提高检索的准确率以及增强用户体验,对中文信息检索除了继续研究索引技术外,对索引技术之外的相关技术研究方兴未艾。跟英语的提取词根(stemming)技术类似,中文分词技术是处理中文所特有的技术,中文分词的好与坏直接影响到信息检索的精度。自动分类(聚类)在信息组织、导航方面非常有用,其目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要,有助于用户快速评价检索结果的相关程度。文本关联规则技术,特别是对文本频繁项挖掘,能给用户在对信息检索需求转为搜索关键词时提供帮助,从而给信息检索的人机交互方面增加了友好的一面。本文以中文信息检索的索引模型为研究对象,也对信息检索其它相关技术进行了研究,主要包括中文分词、文本关联分析、文本快速分类。提出了后续有序的互关联后继树索引模型、基于互关联后继树快速准确的中文分词算法、基于模拟退火算法的快速KNN分类算法和基于投影和树的频繁项挖掘算法。本文的研究工作和创新内容包括以下几个方面:1互关联后继树索引模型的改进研究互关联后继树是国内自主提出的优秀信息检索索引模型,它具有创建速度快,空间和查询效率高等特点,并且可以通过索引生成原文等优点。为了在Internet上大规模应用,在创建和更新文本索引以及全文检索速度等方面能达到实用的要求,本文对这个索引模型做了进一步的研究,提出了后续有序的互关联后继树索引模型。它的优点是在进行检索时,对有序的子树进行求交,能快速地检索出结果,从而有效地提高了信息检索的时间效率。2基于互关联后继树的快速和准确中文分词中文信息检索的查准率跟中文分词的准确率是息息相关的。目前有很多算法的准确率比较高,但是是以牺牲时间为代价获得的。在Internet上应用,分词算法的时间效率和分词准确率之间是个折衷平衡的关系,在能满足分词速度实用的前提下,尽可能提高分词的准确率。在提高分词速度方面,本文提出了用互关联后续树作为分词过程中使用的数据结构。中文分词准确率不高的主要原因是对歧义词和未登录词的划分不够准确,本文对中文机构名称和地名进行了研究分析,找出它们的特点,提出了一种结合规则和机器学习的分词方法,这种方法在对中文机构名称和地名准确划分上很有效,实验结果也表明这种方法是一种能快速划分中文词语同时准确率又很高的分词方法。3基于模拟退火的快速KNN算法在Internet信息检索应用环境上,对文本自动分类,涉及到问题主要有两个,一是文档分类的类别是变化的,另一个是文档量大。对于第一个问题,由于模板匹配类算法的特点,如KNN,它是一种懒惰(lazy)算法,将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类,不需要事先确定分类函数,因此我们选择KNN分类算法来解决;解决第二个问题,我们先对文档的高维特征进行排序,然后借用模拟退火算法的思想,在精度稍微下降的情况下,极快地对文档进行分类。试验表明,基于模拟退火算法的快速KNN算法有实际应用前景。4基于投影和树的文本频繁项挖掘算法由于文本的频繁项挖掘的时间效率是随着项的增长以指数级别增长,因此对Internet信息检索应用环境下,频繁项挖掘的时间效率更是研究者研究的重点。本文提出了一种新的数据结构—投影和树,在对项进行建树时,可以同时对项进行计数,这样在挖掘时,可以直接利用统计好的计数,不需要重新计数;另外,在对树进行挖掘时,以深度优先的方式,对树进行一次深度优先遍历即可,加快了挖掘的时间。实验表明,基于投影和树的挖掘算法比同类的算法效率要高。5为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统。利用上述创新技术,我们为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统,并取得显着的成效。尽管黄页搜索引擎(一期)系统,是一种针对黄页信息专用的搜索引擎,但从技术本身来说,对于一般搜索引擎,也同样是有效和实用的。

胡小睿[6]2005年在《基于Web挖掘的搜索引擎技术研究》文中指出Internet的迅速发展使其成为当今世界上最大的信息库,它是全球范围内传播信息的重要渠道,其中以WWW的发展最为迅速。但Internet是一个开放的网络,网上资源的分布相当分散,并且网上也没有统一的管理和结构,这导致了搜索的困难。如何快速、准确地从浩瀚的信息资源中找到有用的信息是网络用户面临的一个大问题,因此希望有新的工具来定位信息资源。 网络信息搜索技术结合了现代信息检索技术和WWW的相关技术,旨在研究开发出一个智能化的搜索软件,能在网络上自动地进行信息发现和索引,建立结构化索引库,向用户提供查询服务。 随着互联网的迅猛发展,搜索引擎的发展越来越需要借助各种技术来进一步推动。作为知识挖掘新的研究内容的web挖掘,由于自身在信息处理中的层次较高,同时与搜索引擎的关系非常密切,对搜索引擎技术有很大借鉴作用。所以搜索引擎通过应用Web挖掘技术,可以增强信息处理能力,使得信息检索发展到一个新的水平。 本文从开发和研究的角度对WWW搜索引擎的相关技术作了详细的分析和讨论,并介绍了一个针对中小型企业的基于Web挖掘的小型智能搜索系统WMSE,它通过基于Web结构挖掘思想对检索结果进行优化排序,为用户提供更加准确的信息,更好的满足用户的检索需求。 在文章的主体部分,以搜索引擎的设计流程为主线,描述了搜索引擎的几个子系统:搜集子系统、索引子系统、检索子系统和用户界面子系统。其中,特别强调了所采用的相关技术和关键算法。 最后,简要介绍了系统的性能,并对系统今后的发展提出了一些设想。

马丽娜[7]2002年在《基于Web的数据挖掘技术研究》文中进行了进一步梳理网络技术已经渗透到了社会生活的方方面面,随着因特网在世界范围的迅速发展,越来越多的数据库和信息系统不断加入网络,使得Internet发展为当今世界上门类最全、规模最大的信息库。WWW带给人们全新网络世界的同时,也将网络上的人们置于了一个庞杂的网络迷宫,面对缤纷复杂的Web空间,如何从浩如烟海的网络HTML文档中快速、高效地发掘所需信息便成为人们所关注的一个主要问题,Web数据挖掘是解决这个问题的一个有效手段。 近几年来,Web数据挖掘技术引起了研究人员的关注,低层信息的占有是发掘高层知识的前提,网络信息检索技术便成为目前Web数据挖掘的一个迫切需要深入研究的问题,因此,本文选择Web数据挖掘作为研究对象,重点研究的是基于Web的信息检索技术,对其中的一些相关内容进行了深入研究,旨在研究设计一种性能较好、能捕捉用户兴趣、提高精度的智能信息检索系统,更好的满足用户的需要。 网络上的信息检索技术虽然能够满足用户的部分信息需求,但效果并不理想,往往提供给用户信息的同时,又将用户置于系统提供的巨量信息的汪洋大海之中。目前,该领域的研究热点有多个方面,本文以信息检索模型和系统结构为出发点,在研究现有模型与结构的基础上,找出它们存在的缺点与不足,进行了一定的改进,并通过实验实例进行了分析、论证。 Web信息检索分为全文检索模型和基于内容的检索模型两种,各有其应用的场合与优缺点,其中,基于内容检索模型中的向量空间模型是效果较好、近些年来被广泛应用的一种方法。向量空间模型最大的优点在于知识表示方法上的巨大优势,用N维空间的向量表示文档,用向量之间的夹角表示文档的相似度,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题,将难以计算的文字量化成很容易计算的实数,使问题的复杂性大大减小。但是,并不能够说目前的向量空间模型是最理想的,本文通过实验证明了VCM表达信息的不精确性。 信息论是C.E.Shannon为了解决信息传递过程问题而建立的理论,能够用信息来消除不确定性。本文在前人研究的基础上,将信息增益引入到VCM权重计算方法TF IDF的整个过程中,形成结合信息增益的TF IDF相似度计算方法、标准确信度计算方法,得到最终的引入了信息增益的文本分类计算方法TF IDF IG。本文通过实验证明,改进以后的方法在兼顾词语在文档集合中分布的数量情况的同时,也考虑了词语在文档集合中分布的比例情况,不仅能够正确的区分相似度的大小关系,还能够较好的捕捉确信度的比例关系。TF IDF IG方法不仅保持了TF IDF方法对文档类别的区别性,而且还能够捕捉到这种区别性的更为详细的比例上的差别,说明在保持计算量基本不变的情况下,改进后比改进前在多个角度多个方面均有所改进,减少了不确定性和模糊性。 山东帅范大学矾上毕业论文 知识求精是知识获取必不可少的步骤,机器学习是使计算机具有智能的有效手段,0_.__。_..__,,_、,__,_,。。_.,_。。_,。。、。,_.、….__。…__._._。。_ 其中,有导师指导的人工神经网络能够以模糊的结构学习较为精确的内容,是将模糊 的知识进行模糊计算和模糊描述的理想方法。词条项与文档类别之间的模糊关系难以 用精确的方法进行精确地描述与计算,模糊的知识用模糊的方法能得到较好的解决, 因此本文将神经网络应用到信息检索模型中,将之与向量空间模型相结合,形成了一 种改进的向量空间模型 VCM ANN。结合模型按照向量空间模型的基本原理进行工作,用 神经网络对标准VCM的不精确知识进行求精,调整信息隐藏于FTART网络的连接权重 中。我们通过实验证明了人工神经方法的计算精度比改进的信息增益方法高,能够有 效地克服信息增益方法不能克服的精确性问题,计算的复杂性也比信息增益方法低, 这说明人工神经元网络方法虽然捕捉的是模糊信息,却能够较为精确的捕捉到文档中 词条项与文档的类别之间的模糊关系。 进入90年代,Agent的研究蓬勃兴起,面向Agent的计算被誉为“软件开发的又 一重大突破”、“软件界的新革命”,有人预测,Agent将是未来十年最重要的计算范型。 本文将Agent技术引入到Web信息检索中,设计了一个基于Agent能够捕捉用户兴趣 的智能检索模型InforMmer,提高信息检索系统的环境性能和客户性能,并对系统中呛 的Agent关系、结构进行了详细介绍。 本文第一章为概论部分,阐述了本文研究的背景、拟做的工作。第二章探讨了数 据挖掘、文本挖掘,以及Web挖掘相关的几个方面。第叁章着重研究了基于Web的信 息检索的基本原理、基本方法,将人工神经元网络和信息论成功的用于信息检索的计 算模型中,形成VCM与神经网络、VCM与信息论分别结合的两个模型,通过实验分析、 证

尹西杰[8]2006年在《基于智能Agent的Web个性化信息检索系统》文中研究表明面对Internet上的信息海洋,人们利用搜索引擎往往难以找到自己真正所需的信息和知识。Web信息挖掘技术可以有效地解决如何在异质、分布的Web上快速、有效地发现资源和知识,可以弥补搜索引擎的不足。 本文的研究目标是帮助用户在网上进行个性化信息的搜集和挖掘。本文针对当前搜索引擎输出结果太多不能准确表达用户需求的问题,在对Internet信息检索的发展历史和现存的问题进行分析,以及在研究Web信息挖掘技术和智能Agent技术的基础上,提出了一种基于智能Agent的Web个性化信息检索系统,并分析了在Web信息服务领域引入智能Agent技术实现Web个性化信息服务的理论可行性、优越性,着重对其总体思路作了论述,对其系统设计与建模作了初步探索。围绕该模型的构建和软件实现,本文的主要工作和创新有: 首先,所提出的模型系统采用多Agent体系结构,面向特定的用户。在该系统模型中同时表达了文档和用户两种信息描述模型。文档是信息处理的对象,文档模型的建立是特征提取、文档过滤等智能信息处理的基础;用户模型则体现用户的兴趣和意图,用于用户兴趣的表达和挖掘。 其次,在信息检索Agent中,研究了文本特征选取和特征匹配问题。系统由检索Agent根据用户模型在Internet上搜集文档和信息。分析、过滤Agent对所搜集到的网页进行分析,抽取文档特征,形成文档的结构化表示。另外,系统还可以按照用户的要求,对其感兴趣的部分站点,按照用户设定的检索周期,自主地从WWW上检索信息,把符合用户兴趣的最新信息按照用户预定的方式及时提交给用户。通过系统的主动信息服务功能减少用户检索次数,是提高检索效率的一个较好的解决方法。 再次,研究了学习Agent自适应地调整用户模型。学习Agent的学习过程,既是用户相关性反馈过程,也是用户兴趣挖掘过程。系统通过记录用户浏览行为、获取用户对文档的反馈,以及从网上搜集到的文档作为学习的“原始强化信号”,从而实现自适应调整用户模型。 最后,构建了一个基于智能Agent的Web个性化信息检索系统。从总体上描述了该模型框架的功能、工作流程,说明了各类Agent在系统中的结构、安排与作用,并对模型结构、算法进行了分析设计。并通过该原型系统的实现与现有信息

徐泽平[9]2001年在《数据挖掘在Internet信息检索中的应用》文中研究说明随着Internet在全球范围的迅速兴起,如何快速而有效地从Internet上浩瀚如海的信息空间里找到自己所需的信息,便成为了人们所关注的主要问题。搜索引擎的出现,极大地方便了Internet用户,使得快速有效地获取信息成为可能。短短几年时间里中文搜索引擎从无到有,发展非常迅速,但其效果却远未达到令人满意的程度。目前,大多数中文搜索引擎仍存在查询速度慢、查全率与查准率低、不支持自动网页分类、没有对查询结果聚类等问题。针对这些问题,我们将数据挖掘技术应用于Internet信息检索领域,设计并开发了“智能网站信息查询系统”。本文的工作是在“智能网站信息查询系统”的开发过程中,对数据挖掘技术进行了较为深入的研究,包括自动分词、用户兴趣模型、自动网页分类、网页聚类等方面。本文的主要工作如下:1.通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词的时间复杂度从目前最快的1.66提高到了1.25。2.基于对Web结构信息的分析,构建了一种用户兴趣模型,并给出了网页相似度的计算方法。在此基础上,设计并实现了一种网页相似度优先的WWW信息采集算法。3.分析了网页结构信息之后,构造了一种基于网页分类树的网页分类器,并利用该分类器对网页进行自动分类。4.在介绍了网页n-词重合度(Resemblance)的概念之后,给出了网页n-词重合度的计算方法,并设计了一个的快速网页聚类算法。5.介绍了“智能网站信息查询系统”的设计和实现过程。

张艳[10]2008年在《Web挖掘在搜索引擎个性化中的应用研究》文中研究表明随着Internet的发展与普及,网上信息量的急剧膨胀,Web己成为人们获取信息的一个重要途径,使得搜索引擎成为辅助网络信息检索的重要工具。Web挖掘为实现个性化信息检索提供了技术支持,利用用户兴趣向用户提供个性化服务已经成为Web应用领域的一个研究热点。本文针对Web挖掘在搜索引擎个性化中的应用进行研究,主要工作如下:首先,本文阐述了搜索引擎现状及存在的问题,提出了个性化搜索引擎的重要意义。分析了搜索引擎工作原理、组织结构及各部分功能,并对向量空间模型进行了详细的研究。其次,论文介绍了Web挖掘的定义、任务及与信息检索的关系,研究了Web挖掘技术及Web内容挖掘、结构挖掘和使用挖掘在搜索引擎中的应用。详细讨论了基于用户浏览行为获取用户兴趣的方法,提出了对向量空间模型(VSM)改进方法,研究了用VSM构建初始的用户兴趣模型,然后根据用户浏览行为自动学习用户兴趣并对其模型进行更新及个性化信息过滤等关键技术。另外,针对大量同义词的存在,为了提高检索覆盖率,建立同义词词典,以扩充检索词来对查询语句进行优化。最后,在上述研究的基础上,设计了一个基于Web挖掘的个性化搜索引擎模型PSE,给出了各模块的功能及实现方法,从理论上分析该个性化搜索引擎具有灵活的检索方式和个性化的查询结果等特点。论文结尾,对本文所做的工作进行了总结并对个性化信息检索的发展进行了探讨。

参考文献:

[1]. 网络信息检索及其发展趋势研究[D]. 熊回香. 华中师范大学. 2003

[2]. 基于Internet的信息检索若干问题的研究[D]. 田萱. 山东师范大学. 2003

[3]. 基于Web的个性化搜索引擎的研究与设计[D]. 羊晶璟. 江苏大学. 2008

[4]. Web数据挖掘在个性化搜索技术上的研究[D]. 王丽. 大连交通大学. 2009

[5]. 中文信息检索索引模型及相关技术研究[D]. 杨传耀. 复旦大学. 2007

[6]. 基于Web挖掘的搜索引擎技术研究[D]. 胡小睿. 武汉大学. 2005

[7]. 基于Web的数据挖掘技术研究[D]. 马丽娜. 山东师范大学. 2002

[8]. 基于智能Agent的Web个性化信息检索系统[D]. 尹西杰. 山东大学. 2006

[9]. 数据挖掘在Internet信息检索中的应用[D]. 徐泽平. 中国科学院研究生院(计算技术研究所). 2001

[10]. Web挖掘在搜索引擎个性化中的应用研究[D]. 张艳. 合肥工业大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘在Internet信息检索中的应用
下载Doc文档

猜你喜欢