基于结构分析的大规模WWW文本信息检索技术的研究

基于结构分析的大规模WWW文本信息检索技术的研究

冯国臻[1]2001年在《基于结构分析的大规模WWW文本信息检索技术的研究》文中研究表明Web是人类历史上承载数据最丰富的信息库,但在Web上查找所需要的信息却很困难。由于Web的海量规模、异构、动态等特性,使得Web IR比经典IR表现出更大的挑战性,广泛地引起了各方面的研究兴趣。本文研究了Web文本信息检索技术,将该领域当前林林总总的研究分为四大类:经典IR流派、Metadata流派、数据库流派和链接分析流派。经典IR流派继续研究IR领域理论,而其他叁种流派则抓住Web与经典IR检索对象,即文献集合的重要区别:结构性特征,在各自原有理论背景下发展起来的。本论文的工作主要包括以下方面:提出面对极其海量、异构的检索对象,将Web看作无结构文档集合的常规的“万能”搜索引擎不是好的解决方式。我们提出将Web看作是有结构的数据对象,构造多个不同检索领域、覆盖范围和检索粒度、服务特色的搜索引擎,它们相互合作形成资源消耗最低、服务最优的Web IR服务框架。提出位于Web IR服务框架根节点处的搜索引擎,检索对象是整个Web,这类搜索引擎应该全局性地覆盖索引整个检索范围,有重点地把握Web上最重要最主流的数据和结构,提出以具有相同主题的页面组取代页面作为搜索引擎的基本功能单位,提供粗粒度的概念检索服务。提出用链接分析技术挖掘发现页面之间的关系,聚类形成一个个具有各自主题的页面组,同时,链接分析技术找出的页面组包含的也是Web中质量最好最重要的一部分页面。页面组与页面相比有主题突出、稳定、数量少的特点,同时也吻合用户的大多数信息需求和Web页面隐性自发组织情况。提出采用主题式取代全文方式进行页面组的标引,避免将大量无用信息、重复信息都存入索引库。标引时着从Web和页面的结构出发,挖掘利用已经存在的、他人作的标引性文本,以及重要文本作为标引文本。论文比较了采用这种标引方式和常规标引方式构造的系统各自的检索效果。提出在检索能力之外,用查准率、前趋度作为定量评价搜索引擎检索质量的参数。为了检验Web IR中的上述技术,我们构造了大规模综合型搜索引擎原型系统SAInSE,并给出了相同的查询在SAInSE和Google上的检索实例。从实例对比可见,当查询词涉及多个主题时,SAInSE能够将相关页面分类(页面组)提交;SAInSE的页面组超越了字面匹配,对

刘悦[2]2003年在《WWW上链接分析算法的若干研究》文中指出WWW的出现对传统的信息检索技术提出了挑战,在传统的信息检索技术没有突破性进展的现状下,从Web数据本身的特点出发,充分地挖掘Web上最充足的资源——超链接,通过超链接进行搜索,建立有效的Web信息检索的模型,找到我们需要的信息,本文正是本着这样一个前提,对页面的链接分析算法作了深入细致的研究,从理论,算法和应用叁个层次上,发掘超链接在Web检索方面的作用,主要包括以下几个方面: 首先,在对当前已有的链接算法进行分析和实现的过程中我们发现:基于不同的数据环境和检索要求,对不同类型的链接,算法所采用的预处理方法、迭代规则和迭代的终止条件都会影响查询的结果。提出对于封闭数据集合链接分析算法的约束条件,通过对比封闭数据集合和实际的Web环境中的超链接的分布,将这些约束扩展到实际Web环境中,更准确地预测链接分析算法的作用;实验表明在此约束条件下,链接分析算法能够有效地提高检索效率。 其次优化与查询无关的事前链接分析算法,得到优化的事前链接分析算法Modilink(),该算法给出了超链接的预处理方法,调整的归一化方法,完备的迭代终止判定规则,实验表明该算法可以从整体上提高算法的迭代效率。 提出了基于页面质量因素扩展的与查询相关的事后链接分析算法QHA1(quality based hyperlink analysis algorithm),该算法将算法Modilink()得到的结果作为评价页面质量的因素引入超链接的权值指定算法中,使超链接能够比较客观地反映所链接的页面之间互相影响的程度:此外,将超链接的来源也考虑到超链接的权值指定上,结合页面质量因素提出另外一个优化的事后链接分析算法QHA2。对于优化的事后链接分析算法我们从理论上证明了算法的正确性和可行性,并在实验中验证了这些算法。 借鉴潜在语义分析中的方法,本文将矩阵奇异值分解引入事后链接分析算法中,提出基于SVD分解的滤噪算法,运用矩阵的奇异值分解的方法进行无关页面和超链接的滤噪,并将其应用于与查询相关的事后链接分析算法的初始基本集合的构造;提出了优化的事后链接分析算法QHA3,QHA4,算法有效地控制了主题漂移现象的产生,为准确的查找提供了一个很好的途径。

颜端武[3]2007年在《面向知识服务的智能推荐系统研究》文中研究说明“面向知识服务的智能推荐系统研究”属于图书情报与信息资源管理、信息检索与个性化服务相关研究领域。本课题研究来源于教育部人文社会科学重点研究基地重大项目“文献计量与内容分析的比较与综合研究”(项目号:02JAZJD870003),以及总装备部基础科研项目“基于门户网站的个性化信息服务技术方案及应用研究”(项目号:2004QB1505)。知识服务是信息服务的发展和延伸,它强调服务工作的个性化和专业化,强调服务过程中的知识增值和服务增值。面向知识服务的智能推荐系统IKRS是具有一定语义处理能力的、面向用户的个性化推荐式检索服务系统,可以克服传统信息检索系统存在的“服务个性化缺失”和“信息语义缺失”问题,其研究具有重要的理论和现实意义。首先,符合了信息检索语义化、信息服务知识化和个性化的发展潮流,代表了知识服务环境下信息检索系统的重要发展和应用方向;第二,为知识服务的发展推进提供有效的技术支持和保障,可以更好的满足用户的知识和信息需求;第叁,丰富和发展中文信息资源组织、信息检索和个性化服务的相关理论、方法和技术,为相关研究和应用提供借鉴和参考。本文以知识服务为导向,以网络环境下数字信息资源的高效检索服务为目标,围绕面向知识服务的智能推荐系统中所涉及的相关理论、体系结构以及若干关键技术和应用问题进行了比较广泛和深入的研究。本文的主要工作和研究内容包括以下几个方面:(1)面向知识服务的智能推荐系统的框架和体系结构研究。本文对国内外有关知识服务、个性化服务和推荐系统以及语义检索等叁个方面的研究进展进行了总结和评述,在此基础上,针对知识服务的内涵和要求,提出了一种五元组描述的、基于领域本体和数据挖掘的智能推荐系统框架。该系统框架改进和扩充了传统信息检索的四元组形式模型,用户模型、领域知识模型和文档模型叁个核心要素之间构成了动态循环的交互处理机制,可实现概念级的资源检索和个性化推荐反馈。(2)领域知识本体的构建与可视化导航研究。本体是共享概念模型的明确的形式化的规范说明,表达是概念及概念之间的关系,是IKRS系统中进行知识内容语义化处理的基础。本文研究了基于本体的领域知识建模的相关理论、方法和工具,结合国内外有关本体工程方法,以中国图书馆分类法和国防科技叙词表为基础,通过五个步骤构建了一个军用飞机领域的中文知识本体OntoAvion。本文设计并实现了基于本体推理和可视化组件进行领域本体OmoAvion可视化导航的技术方案。(3)基于概念语义的中文文本相似性测度研究。IKRS系统中,文本相似性测度可用于用户提问后的资源检索以及基于内容的资源推荐等功能模块。本文首先讨论了文本相似性与相关性的概念,相似性测度的常用计算公式,并对目前比较典型的中文文本相似性测度的处理过程及其存在的问题和不足进行了分析。在此基础上,提出了一种简单有效的从领域本体和概念语义出发,基于文本概念向量和上位概念填充的文本相似性测度方法SCSM。实验测试表明,由于领域知识背景的导入,SCSM方法相对于传统基于词汇字面向量的测度方法在排序结果上更加接近人的判断,可以运用于实现概念检索以及基于内容的检索结果和推荐结果排序。(4)本文对IKRS系统的个性化推荐技术进行了研究和探索。首先介绍了用户兴趣建模的概念和主要任务,重点研究了细粒度用户兴趣建模和兴趣资源推荐问题。本文将知识本体运用于用户兴趣描述,提出了基于用户粗兴趣向量和近邻概念聚集发现细粒度用户兴趣并进行兴趣资源推荐的方法。实验测试表明,该方法可以较好的描述用户兴趣的构成及其发展变化,使得面向特定用户的兴趣资源推荐效果更为准确和可靠。本文进一步研究了IKRS系统中的协同推荐问题,分析了协同推荐的基本原理和典型技术,提出了基于细兴趣相似用户的协同推荐方法和基于加权关联规则的协同推荐方法。(5)本文最后基于Java平台,设计和实现了一个IKRS原型系统。该原型系统包括本体处理和转换、文档资源着录和加工、用户交互以及推荐预处理等四个功能模块,可自动记录用户的访问行为,根据历史记录发现用户细兴趣,开展多种资源推荐方式,综合了个性化推荐、概念检索、关键词检索以及可视化导航等交互元素。

谢若其[4]2006年在《基于主题的WEB信息提取及智能搜索技术研究与实现》文中研究表明通用的搜索引擎虽然给人们在web上寻找有用信息提供了很好的技术手段,但是在很多情况下搜索结果并不令人满意。问题主要在于查询表示。针对一类有特定主题的查询去设计专用的搜索引擎能在一定程度上改善这个问题。该文分析并设计了一个基于主题的搜索系统。在一般搜索引擎的基础之上把crawler设计为基于主题的,并增加了聚类器以更好的表现搜索结果。主题crawler即在一般的crawler基础之上增加主题相关性判断。主题相关性判断包括URL主题相关性剪枝和页面相关性判断。聚类器主要采用的模糊C-均值(FCM)算法。并基于该算法的缺陷进行了两方面的改进:第一,将HCM算法迭代生成的聚类中心作为FCM的聚类中心的初始值;第二,聚类数优选。最后讨论了系统实现问题。包括种子URL的选取、字典生成、网页消重、MD5算法、FSM算法等技术细节及系统中用到的主要编程技术。

陈汉华[5]2010年在《基于对等网络的大地规模内容检索研究》文中研究表明随着网络技术的迅猛发展和网络应用的迅速普及,互联网日益形成一个巨大的分布式信息库。互联网应用产生的超大规模信息对现有的网络数据管理基础设施提出了新的严峻挑战。互联网信息库的无限扩张性和与生俱来的分布式特性使研究非集中式的数据管理和共享机制成为一种必然趋势。基于分布式技术的大规模内容检索研究具有重要的学术价值和应用价值。对等网络(Peer-to-Peer Network,简称P2P)打破了传统的“客户机/服务器”模式,以“自主、平等”的原则将处于网络边缘的计算、存储、通信、信息等各种资源高效地共享起来,形成分布式的协作网络。对等计算模型凭借其分布式、易扩展、容错性高等优点,日益在互联网信息共享方面显示出巨大潜力。然而,对等网络的分布式、动态性、异构性等特性,又给基于对等网络的大规模内容检索带来了巨大的挑战。首先,虽然分布式哈希表技术使现有的对等网络系统能准确、快速地定位全局数据对象,但分布式哈希映射的精确性与用户查询语义多样性的矛盾,却是构建大规模对等网络内容检索系统带来难以突破的瓶颈;其次,由于缺乏集中的索引服务器,传统集中式信息检索的模型、算法和技术在分布式对等网络环境下无法适用。大规模分布式内容检索系统的核心问题,即如何建立高效的分布式索引以支持大规模网络环境下的复杂内容检索,在国际学术界至今并没有有效解决。基于对等网络的大规模内容检索是一个极具挑战性的开放性课题。本文从这一核心问题出发,通过扩展传统对等网络的概念、结构、资源描述与组织、资源发现与路由、结果融合与排序等,在大规模对等网络内容检索方面作了一系列研究,提出了一套行之有效的新理论、新方法,全面、深入、系统地论述了利用对等网络构建大规模分布式文本内容检索系统的解决方案和关键技术。具体来说,本文主要提出了以下创新性理论或方法:1.分布式集合运算布隆滤波优化理论及其多关键字搜索协议:基于传统的分布式哈希表全局索引,进行多关键字搜索,需要在广域网上进行分布式集合运算,这将给系统带来难以接受的网络开销。本文针对此难题,提出了一套针对分布式集合运算的布隆滤波优化理论,并基于此优化理论设计了一种高效的多关键字搜索协议PWEB。在美国国家标准研究院发布的TREC WT10G大规模文本检索测试集以及主流商业Web搜索引擎的查询日志上对PWEB进行了大规模的模拟测试。实验结果表明,相对现有结构化对等网内容搜索协议,PWEB协议将查询所需的网络流量显着降低了73%,同时将查询延迟降低了41%。2.多维分布式哈希表技术及其全文索引、检索及排序策略:提出一种新颖的多维分布式哈希表技术用于更高效的支持全文索引和检索,并设计了一种分布式多维索引剪枝算法TSS。基于TREC WT10G数据集和主流商业搜索引擎查询日志的大规模实验结果表明,TSS显着地将分布式多维索引空间复杂度从O(2n)降低到了O(nlog n);将查询网络流量降低到现有算法的28%;大规模实验结果同时显示TSS算法获得了与传统集中式信息检索算法相当的检索质量和性能。3.基于语义拓扑的联邦式搜索策略:基于自主开发的P2P文献共享平台SemreX,证实了对等网内容共享网络中的“兴趣局部性”原理,基于此原理提出一种结点内容相似性度量模型,并采用此模型将对等网络中的相似结点聚集起来形成语义覆盖网络,同时进一步探索了如何利用“small world”特性改进语义覆盖网络的拓扑属性。对提出的算法进行的全面仿真测试结果显示基于语义覆盖的SemreX联邦式搜索协议将传统无结构搜索协议的总体性能提高了81.6%。4.难度感知的混合式对等网络搜索协议:通过结合结构化DHT和无结构对等网搜索协议各自的优点,混合对等网搜索策略能有效提高对等网系统的检索效率。混合对等网搜索策略的关键问题是如何高效估计网络中拥有与查询相关数据的结点的数量,并据此选择最优的查询搜索策略。现有研究基于这样的假设:如果网络中与某查询匹配的相关数据很多,则这些数据广泛地分布在网络中,对此查询使用无结构搜索协议更有效;反之,则采用分布式哈希表查找更有效。从“兴趣局部性原理”出发,指出前人的研究假设并不成立,与查询匹配的大量数据往往聚集在少量结点上,而使无结构搜索协议效率显着降低。并进一步提出了一种查询难度感知(Difficulty-aware)的混合搜索协议QRank,它能够根据查询关键字在网络中出现的频率等统计信息有效预测各种搜索策略针对此查询的搜索效率,并智能地选择高效的搜索策略。基于Gnutella网络的真实拓扑和查询跟踪数据对QRank的协议进行了大规模全面的系统仿真测试。实验结果表明QRank混合搜索协议显着地提高了混合对等系统的搜索性能。相对于现有混合搜索协议,QRank将系统查全率提高了21%,将查询延迟降低了26%,同时将查询产生的平均网络流量降低了40%。

郭浩[6]2008年在《基于语义的网上图书自动问答系统研究》文中研究表明随着Intenret的快速发展,特别是WWW的飞速发展,网上信息资源越来越丰富,网络已经成为了一个全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台,是人们获得信息的必要途径和重要手段。但是由于网上信息浩繁,具有分布分散、重复性大、动态变化、结构复杂、缺乏统一管理等特点,使得用户根本无法完全了解庞大的、瞬息万变的信息资源。随着大量的信息涌入网络,用户信息的查找与获取也就变得越来越困难,出现了“信息迷失”、“信息过载”等问题。搜索引擎是目前人们进行网络信息检索的主要工具,它在给人们带来很大便利的同时,也日益暴露出许多弊端:关键字匹配的方式检索准确率不高,返回的相关文档过多且重复性高。在这种情况下,传统的基于关键字匹配的搜索引擎已经不能满足用户需求,人们期盼着新的,具有智能处理能力的、结果表示形式更为简洁的新一代搜索引擎的出现。在这种需求的推动之下,本文致力于将自动问答处理技术和Web信息检索技术相结合,以提高现有搜索引擎对信息的智能处理能力,提供更加人性化的人机交互方式,用简洁、准确的答案,自动地回答用户用自然语言提出的问题,帮助人们快速而有效地找到所需的信息。论文在分析了传统问答系统基本架构,以及现有处理方法中存在不足的基础上,展开了面向Web信息的自动问答关键技术研究,提出了以框架语义为语义基础、以本体为知识描述的自动问答技术,并给出了其应用在图书信息领域中的原型系统-网上图书问答系统的系统架构及关键技术的实现方案。论文的主要工作可以概括为以下几点:(1)研究针对Web环境海量、异构的图书信息的批量采集、过滤及标准化描述技术,开发网上图书信息自动采集系统,将分散在多个网站、多个页面的海量的、异构的图书信息自动采集、过滤及标准化描述,提供统一的操作界面、人性化的菜单和功能键,实现不同文件格式的数据共享,达到图书信息获取、存储、搜索、浏览、阅读、输出等实用要求。(2)研究图书信息领域问句浅层语义分析技术,包括语义块的定义及词表建立,语义块的判定规则(搭配)的建立,问句向量的定义、分析及生成等;(3)在传统信息抽取系统研究的基础上,研究基于CFN的信息抽取技术,并将其应用在图书简介中,挖掘图书简介中的语义信息。传统的信息抽取技术处理的均为格式化或半格式化文本,如html、xml或关系数据库等。处理自然语言文本的信息抽取技术研究尚在起步阶段。而我们拥有汉语框架语义知识库这部深厚的语义词典资源,使得我们基于语义的信息抽取技术的实现成为可能。(4)探索领域本体构建技术,结合面向Web的图书元数据描述标准及图书简介概念模型,以七步法为本体构建方法,建立图书信息领域本体。(5)提出了网上图书自动问答系统系统架构。以问答式服务方式,为用户提供全面、可靠、高效率、智能化的信息服务。对于用户输入的自然语言问题,使用已经标注的图书信息语料库,给出符合用户要求的图书相关信息。避免了传统的死板、教条的关键字检索方式,而代以人机对话问答式服务模式,为用户提供灵活的,专业的,个性化的服务。

郑义[7]2003年在《多媒体信息自动摘要及其相关技术研究》文中指出随着Internet的高速发展,网上的多媒体信息急剧增长。我们迫切需要更加有效的信息组织、总结和分析技术,而信息的自动摘要和自动查询则是其中的关键。我们需要建立一个系统,它可以根据给定的语料库回答有关文本的问题,并且具备综合和概括信息的能力。同时它能把多媒体信息组织起来。要达到这个目标,必须研究多媒体信息自动摘要系统和问题回答系统。 本文首先全面阐述了有关多媒体信息自动摘要的一些基本理论,包括大规模文本处理技术、自动文摘技术、多媒体信息检索技术等。其中以自动文摘的理论和技术的介绍为侧重点。介绍了自动文摘系统的概念框架,并把这个框架加以引申作为统一全文各种多媒体信息自动摘要系统的出发点。 文本自动综述属于自动文摘研究领域,是最新的发展趋势。提出了一个文本自动综述系统的模型并给出其完整实现。这种方法利用了同一专题文本两个层次的语义相关性:文档内部段落的语义相关性和文档之间段落的语义相关性,从而实现了多文档的自动综述。系统综合了一些自然语言处理技术,包括文本分段、文本段聚类、向量空间模型的相似度计算等。在传统向量空间模型的基础上提出了一种利用关联词典计算文档间语义相似度的方法。所实现的文本自动综述系统具有领域无关、无需训练、易于实现、在现有框架下易于扩展等特点。该项研究成果在国内属首创,跟踪国际最新技术水平。 问题回答系统和自动文摘系统有着紧密的联系,它们即相互独立又互为补充。问题回答系统是TREC上最重要的一个任务之一。回顾了在TREC-10问题回答系统上的工作。WordNet是一种重要的词汇资源。在WordNet上作的很多基础性的工作,使WordNet成为一个容易使用的知识库。开发了一种路径搜索算法,借此可以在词对之间进行语义分析。在答案验证模块,提出并实现了一种受限语法的语义验证方法,它把语法信息和语义信息结合起来,使得答案的验证更加可靠正确,在问题回答系统中得到了很好的应用。 视频摘要技术是多媒体信息自动摘要技术的另一个重要方面。文中回顾了视频摘要的基本方法和关键技术。然后提出了一种将NLP技术和视频技术结合起来的视频摘要的方法,并实现了一个集成文本自动综述系统的视频摘要系统。这种方法是拓宽视频摘要技术研究思路的一个有益的尝试。

刘健[8]2017年在《数字图书馆资源聚合与服务推荐研究》文中提出大数据环境下,以数字化存储与呈现、网络化检索与获取为特征的数字图书馆,成为集用户获取知识、传播知识、交流等多功能为一体的知识集散中心。各种数字对象(知识作为一种对象,可以表现为各种文献、事实/科研数据、数据库、知识库和知识体系)构成了可充分集成关联的数字图书馆领域的大数据环境,数字图书馆资源规模化增长是不可逆转的客观事实。随着数字图书馆资源的迅猛增加,以及智能技术的普及,推荐服务的智能化和个性化已经成为服务推荐发展的趋势。然而传统的个性化服务已经无法满足用户需求以及数字图书馆的发展。一方面,用户需求越来越复杂,如何准确描述和充分挖掘用户的个性化复杂需求,根据用户需求向其进行资源服务推荐成为难题;另一方面,数字图书馆资源数量巨大,如何有效对海量资源聚合并支持高效检索和推荐,充分挖掘数字图书馆资源内在的语义联系成为关注重点。数字图书馆资源"聚合"旨在发现资源之间及其内在的语义关联,通过系统汇聚、挖掘利用、有效整合多源异构的数字图书馆资源,构建一个内容相互关联、多维度、多层次的资源体系,形成集概念主题、学科内容和科研对象为一体的立体化知识网络;服务推荐作为一种有效的智能化信息过滤技术,能够结合数字图书馆资源的内容特征,通过对用户的兴趣偏好和资源访问行为进行自动分析与挖掘,主动向用户推荐满足其需求的数字图书馆资源。可见,基于数字图书馆资源聚合实现服务推荐已成为满足用户精准化需求的重要途径。本文以领域本体、数据挖掘、复杂网络理论及分析方法等技术和方法为基础,借鉴相应聚合及个性化推荐的成果,提出了面向用户复杂需求的资源聚合方法与服务推荐技术,为数字图书馆资源服务推荐提供相应参考。主要研究内容如下:(1)界定了数字图书馆资源聚合及服务推荐概念,分析了数字图书馆资源聚合同服务推荐之间的关系。数字图书馆资源聚合是服务推荐的基础,服务推荐是数字图书馆资源聚合的目标。服务推荐又从用户需求方面引导聚合的质量,更进一步揭示了学科领域的知识结构与发展规律,从而能够在提高数字图书馆资源聚合能力和效率基础上满足用户个性化需求、提升服务推荐效果。(2)阐述了数字图书馆资源语义化概念,分析了数字图书馆资源语义化、语义关系以及数字图书馆资源的文本语义距离。语义概念和语义关系构成了数字图书馆资源聚合的基础,将领域本体看做由节点(语义概念)和弧线链(语义关系)组成的带有标记的有向网络。基于复杂网络理论对其进行分析,深度揭示概念之间的网络关系,进而挖掘、建立、利用资源之间的联系,将繁杂、无序的内容通过聚合以呈现关联性。(3)对数字图书馆资源聚合的特征、维度等问题进行系统研究,综合运用复杂网络理论及其指标、语义相似度计算等理论方法和工具,构建了数字图书馆资源聚合模型。总结了数字图书馆资源聚合的特征:数字图书馆资源聚合对象的多元化、数字图书馆资源聚合方法的多样化、数字图书馆资源聚合维度的立体化以及数字图书馆资源聚合过程的动态化。在此基础上,提出了数字图书馆资源聚合模型。该模型框架包括数据资源层、资源语义化层、资源聚合层、应用层四个层次,即从数字图书馆资源甄选及资源语义化(微观)到资源的系统汇聚(中观)再到资源的深度挖掘与利用(宏观)。(4)分析了基于维基百科构建的领域本体的网络结构,结合复杂网络指标中的度、集聚系数等指标测度提出了重要节点识别方法,以此作为聚合的基础。依据D-S证据理论,在识别框架(high,low)下构建基本概率分配函数,表示节点重要性程度,通过D-S证据理论合成公式进行合并,以概率的形式对节点重要性进行量化,并得到节点重要性的评价指标。对构建的领域本体进行分析,发掘网络的重要节点,能够为充分挖掘本体的语义信息、发现本体中的隐含知识、对特定领域的相关知识结构进行分析和呈现、解决领域知识共享等问题提供方法和参考。(5)通过改进基于本体的语义相似度计算方法以及基于《同义词词林扩展版》的语义相似度计算方法,提出了改进的谱聚类算法。在资源聚合中应用文本聚类分析的方法,从资源内部以及外部特征出发,利用资源聚合原理使资源呈现出集簇状,进而根据资源呈现出的层次簇状结构为之选择一种或多种合适的表示结构,从而深入地挖掘出隐含在资源之间的语义关系。(6)提出了 3种服务推荐方法:基于本体规则推理和语义相似度计算的服务推荐方法、基于关联语义链的服务推荐方法、基于谱聚类的服务推荐方法。通过对数字图书馆资源有效聚合,将资源语义化并进行语义关联,在此基础上,挖掘用户需求信息,根据用户偏好对其进行推荐。实验结果表明:在对数字图书馆资源聚合的基础上利用服务推荐方法对用户进行推荐,可以提高推荐准确性,使得推荐结果更加符合用户对于数字图书馆资源的偏好。利用本体、数据挖掘以及服务推荐等方法,对数字图书馆资源聚合以及服务推荐进行研究,为资源聚合与服务推荐的深入研究搭建了一个新的框架,从而为优化其资源再组织结构和提升知识服务能力提供有价值的参考与指导。(7)将知网文献资源作为数据源,验证了本文第4章和第5章所提出的聚合和推荐方法,从技术实现的角度采用JAVA语言和MYSQL数据库开发设计了数字图书馆资源服务推荐应用平台。该系统采用C/S系统架构,集成了本文所提出的聚合方法和推荐方法,实现了数字图书馆资源聚合及服务推荐功能。以聚合为基础为用户进行服务推荐的方法解决了传统推荐方法对用户需求挖掘不充分、冷启动以及数据稀疏等问题,实现了推荐结果与用户个性化需求的高度匹配,并提高了推荐精度,进一步扩展了数字图书馆未来开展知识服务的新视野。

付克志[9]2005年在《基于Web的文本信息检索算法的研究》文中研究指明随着互联网技术的迅速发展,网上文本数量成指数级的数目增长,如何有效检索这些海量信息成为当前研究的重要课题。文本信息检索(Information Retrieval,IR)是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。文本信息检索是处理海量文本的重要手段。该文主要是基于Web的文本信息检索算法的研究。 首先,介绍了信息检索的发展概况和相关技术,分析了基于内容的信息检索算法、基于超链分析的检索算法以及融合的信息检索算法。针对内容检索方法查全率不高、超链分析检索方法容易产生主题漂移的特点,利用了一种基于超链和标记文本内容的信息检索算法。该算法利用网页之间的链接关系和标记文本内容信息来计算网页的综合权值,在此基础上将检索结果进行排序输出。实验结果表明,该计算方法具有较高的查全率和查准率。 其次,为了提高检索的查准率和降低检索时间,在传统向量空间模型的基础上,该文对传统的向量空间模型进行改进来计算网页内容信息之间的相似度,同时在进行建立索引时,文中还利用了网页去噪技术和算法,去除一些和主题信息无关或无用的信息,提高了建立索引的效率、质量和检索的速度,大大减少了存储空间。利用改进的向量空间模型算法进行相似度计算,也避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。实验结果也表明,此算法具有更快的查询速度和更高的查准率。 最后,该文在传统信息检索算法的基础上,利用所改进算法,实现了一个基于Web的文本信息检索系统。

张友华[10]2006年在《面向智能服务的Web内容计算研究与应用》文中认为WEB是人们获取信息与知识的重要途径,它的海量性、多样性、动态性和半结构化等特性增加了其信息进行自动处理的难度,也吸引了研究者的兴趣。如何从大量的信息中发现用户感兴趣的信息是目前因特网信息搜索研究的课题;如何将WEB上丰富的信息转化为有用的知识是WEB挖掘和WEB知识发现的任务;如何使用户获取个性化信息,从而使WEB提供更多的服务功能是WEB智能需要解决的问题。目前WEB信息数据大致可以分为叁类:内容数据(Content Data)、访问数据(Usage Data)和结构数据(Structure Data),因此也形成WEB研究的叁个大的方向:WEB内容挖掘、WEB访问挖掘和WEB结构挖掘。WEB的信息载体主要是WEB页面,它的内容包含显示的数据、标记和超链接。基于WEB内容的计算就是以WEB页面为对象,研究WEB的信息提取、WEB的信息检索和WEB智能服务等涉及到的问题。本文在综合了WEB内容计算的研究基础上,重点研究并取得如下创新性成果: (1) 提出了一种增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于Web动态数据环境的关联规则挖掘。 Web页面数据的半结构化、不规则性和动态更新等特征,使得基于Web内容的数据挖掘研究具有一定的复杂性。本文总结了多种从Web页面中提取半结构化数据的理论与方法,针对Web内容数据的特点,提出的增量式挖掘方法iFP-Growth,使传统的FP-Growth方法适应于动态数据环境的关联规则挖掘。并以中国汽车市场网为例,挖掘消费者对不同类别、不同型号、不同价格轿车的购买偏好。 (2) 提出一种基于句子相关度的文本自动分类模型TCSC) 针对中文WEB文档集的分类和聚类等WEB信息检索(IR)课题中需要进行中文分词和词的多义性问题,利用语料库,提出了一种基于句子的文本特征选择,利用训练文本自动生成类别语料库,根据句内词元的类别相关性和句子位置信息,给出了基于句子类别相关度矩阵的文本分类方法,从而在分类阶段避免了分词处理,同时该方法对于词的多义性具有不敏感性。

参考文献:

[1]. 基于结构分析的大规模WWW文本信息检索技术的研究[D]. 冯国臻. 中国科学院研究生院(计算技术研究所). 2001

[2]. WWW上链接分析算法的若干研究[D]. 刘悦. 中国科学院研究生院(计算技术研究所). 2003

[3]. 面向知识服务的智能推荐系统研究[D]. 颜端武. 南京理工大学. 2007

[4]. 基于主题的WEB信息提取及智能搜索技术研究与实现[D]. 谢若其. 电子科技大学. 2006

[5]. 基于对等网络的大地规模内容检索研究[D]. 陈汉华. 华中科技大学. 2010

[6]. 基于语义的网上图书自动问答系统研究[D]. 郭浩. 太原理工大学. 2008

[7]. 多媒体信息自动摘要及其相关技术研究[D]. 郑义. 复旦大学. 2003

[8]. 数字图书馆资源聚合与服务推荐研究[D]. 刘健. 吉林大学. 2017

[9]. 基于Web的文本信息检索算法的研究[D]. 付克志. 大连理工大学. 2005

[10]. 面向智能服务的Web内容计算研究与应用[D]. 张友华. 中国科学技术大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于结构分析的大规模WWW文本信息检索技术的研究
下载Doc文档

猜你喜欢