智能搜索引擎中的同义词识别算法研究

智能搜索引擎中的同义词识别算法研究

曹晶[1]2006年在《同义词挖掘及其在概念信息检索系统中的应用研究》文中进行了进一步梳理随着Internet的飞速发展,Internet的应用深入到各行各业,Internet上的信息变得繁杂,信息的查找与获取也就变得越来越困难,如何从这个浩瀚的信息资源库中获取用户需要的信息,是人们面临的一个重要问题。传统的信息检索服务已不能满足用户的检索需求,因此智能信息检索成为重要的研究课题。概念检索是实现智能信息检索的重要方式之一。本文研究了搜索引擎特别是中文搜索引擎的相关现状,以及下一代智能搜索引擎即基于概念的检索系统的功能特点,并利用《同义词词林》作为语义体系实现了基于《同义词词林》的同义词扩展检索。并对同义词识别的算法进行了深入的研究,利用基于语义体系的相似度算法实现智能搜索引擎中的同义概念的识别,和相关词语的联想搜索。关键词检索是大多数搜索引擎的主要检索手段,然而多数搜索引擎对此不加控制。从情报语言学研究的成果以及网络信息检索的现状来看,自然语言不加以控制,检索效率与效果是不能尽如人意的。应该说,要克服关键词检索系统的弊病,必须对关键词进行有效的控制,变字面检索为概念检索。本文在分析目前概念检索系统的基础上,提出了基于同义词(概念)挖掘的概念检索系统。同义词的自动发现和识别在基于概念的信息检索领域有着重要的研究意义和应用价值,本文对国内和国外同义词识别算法进行研究和分析的基础上,对基于语义体系的同义词识别算法,即基于《同义词词林》的同义词识别算法和基于《知网》的同义词识别算法进行了深入的研究,利用词汇间的语义相似度度量来进行同义词识别,挖掘出大量的复合词形的同义词。基于《同义词词林》的同义词识别算法的实验结果表明,该算法具有较高的识别率。同义词的自动发现和识别,可以用于扩充同义词词典,提高同义词扩展检索的检准率和检全率。本文还在基于《知网》的词汇语义相似度算法的基础上提出了词语相关度计算方法,从而实现了相关概念联想功能。

朱毅华[2]2001年在《智能搜索引擎中的同义词识别算法研究》文中指出本文概述了对搜索引擎特别是中文搜索引擎的相关研究,分析了下一代智能搜索引擎的功能特点,并尝试利用相似度算法实现智能搜索引擎中的概念的识别。 关键词检索是大多数搜索引擎的主要检索手段,然而多数搜索引擎对此不加控制。从情报语言学研究的成果以及网络信息检索的现状来看,自然语言不加以控制,检索效率与效果是不能尽如人意的。应该说,要克服关键词检索系统的弊病,必须对关键词进行有效的控制,变字面检索为概念检索。 本文在对字面相似度识别算法的深入分析基础上,提出了基于词素的语义识别算法。该算法首先将复合词切分为词素,并在此基础上对词素进行语义分解和标注来进行同义判别。其主要依据是,对标引关键词的切分统计表明,专业领域中的大多数复合词可由数量有限的词素组配而成,通过建立一个专业性的词素语义信息词典,可以将复合词切分为词素,再转换为事先设计好的语义范畴代码,在相似度计算时以语义代码的比较代替字面的比较,突破了以往字面相似度算法的一些局限。 通过与字面相似度算法进行对比测试,证明该算法具有相对较高的识别率,对搜索引擎的概念检索有一定的应用价值。

陆勇, 侯汉清[3]2004年在《基于词典注释的汉语同义词自动识别》文中认为同义词识别在很多领域都有广泛的应用,例如信息检索、自动标引、后控制词表的编制、基于知识库的自动分类、基于实例的机器翻译等等,它是信息表示和信息检索领域急需解决的问题。本文论述了用于检索的同义词的定义以及同义词识别的意义,并阐述了同义词识别的现状和研究进展,目前,在国内,汉语同义词识别算法主要有基于词汇字面相似度算法、基于《同义词词林》、《知网》等语义词典的语义相似度算法以及基于词素的语义相似度算法。本文最后提出了基于词典释义的汉语同义词识别算法,并介绍了基于词典释义的同义词识别系统的设计思路、系统各功能模块的实现机理。

潘宁[4]2009年在《基于语义技术的智能搜索引擎研究》文中指出互联网作为全球最大的数据信息库,随着其覆盖范围和领域的不断扩大,存储在互联网上的数据也在海量增长。搜索引擎帮助用户从海量的数据中抽取出潜在的、有价值的信息。在针对特定领域的垂直搜索引擎的基础上,更加高效的智能化的搜索引擎的研究也就成为发展的必然。本文通过语义Web技术为搜索引擎注入基于知识和本体概念的自然语言理解能力。搜索引擎构建于知识库之上,通过语义化的索引器构建集知识与互联网数据为一体的索引库。用户的查询经过分词、语义推理和查询扩展处理,以规范化形式在索引库中进行搜索。搜索结果综合了Page Ranking算法、词义语义分析因素、检索内容与网页特征相关性叁个要素进行排序得到。采用这种方法的搜索引擎弱化了用户表达模糊对搜索的影响;克服了关键字机械匹配的缺点;使得事物间不再孤立的存在,而是以相互关联的形式表现出来;同时能够达到知识的系统化整合。

傅魁[5]2007年在《基于Web的本体学习研究》文中研究说明本体能够支持人机之间、机器之间的信息交换、知识共享与重用,而得到越来越广泛的重视、研究和应用。然而,领域本体的匮乏却是困扰本体理论研究与现实应用的最主要瓶颈之一,本体学习应运而生,它能够以自动或半自动化的机器学习方式从多种不同的数据源中获取本体。相比国外较多本体学习研究而言,中文环境下本体学习刚刚拉开序幕。本文通过对基于Web的本体学习的研究,为具有实用价值的中文本体学习系统的研发提供理论方法基础。论文在借鉴国外现有的本体学习理论、方法和技术的基础上,结合中文自然语言处理的研究成果,对中文环境下领域本体的概念获取、继承关系学习、属性关系学习和本体实例获取的理论方法展开研究。论文主要研究内容如下:(1)通用本体学习系统的体系结构。设计了一种通用本体学习系统体系结构,由建立在资源层基础上的五大功能模块构成,分别为:资源管理模块、通用资源读写模块、数据预处理模块、本体抽取模块和本体评价与编辑模块。本文所提出的基于Web的本体学习的方法可组件式地无缝集成到该体系结构中。(2)多策略领域概念获取。提出了一种融合信息抽取、中文自然语言处理、语言学和统计等多种策略的领域概念获取算法。能根据页面块特征判定结果自适应选择信息抽取或基于隐马模型和候选名词短语约简的术语获取方法,研究了基于搜索引擎的术语间同义词关系识别方法以及领域概念的过滤算法。(3)继承关系学习。提出了基于Web分类目录判定的继承关系学习方法和基于语境自学习的继承关系学习方法。前者主要包括网页中Web分类目录判定算法、分类目录标注规则、隐式分类目录模式发现机制、标注文档合并中的歧义消解算法以及继承关系映像规则。后者主要包括继承关系语境的自学习机制和基于语境的继承关系获取算法。两种方法各有优缺点,具有互补性。(4)基于知网的属性关系学习。属性关系具有重要作用,但研究很少。首先采用基于语境自学的方法获取候选属性集合;分析认为候选属性集合由非属性词汇、无效属性和有效属性构成,提出了利用知网中属性义原所描述的上下位关系实现非属性词汇过滤和利用属性一一宿主关系实现无效属性过滤的算法;研究基于领域概念树的实现属性关系映射与修剪的基本规则,设计了相应的算法。(5)本体实例的获取。分析了Web网页中个体知识表示的主要形式,提出了基于本体的网页主题概念和个体知识表示特征的判定算法,重点设计了Web表格中本体实例获取的规则,包括本体实例表格识别规则、属性单元识别规则、属性值单元识别的基本规则和扩展规则、实例名称识别规则,给出了算法总体描述。

肖淋峰[6]2018年在《面向检索信息的同义词挖掘》文中研究指明随着计算机技术的飞速发展,搜索引擎的应用深入到各行各业,使用搜索引擎对信息进行检索已经深入到人民群众的日常生活当中,信息的查找与获取变得越来越频繁的同时,信息的精准查找与获取也越来越有挑战性。如何从浩如烟海的信息资源库中,更加准确的理解用户想要搜索的关键词,使得关键词搜索内容能够得到拓展和更加准确的推荐,是信息检索领域一直以来的重要研究课题。传统的信息检索服务已渐渐不能满足用户的检索需求,智能的、基于概念的信息检索系统成为未来的发展方向。识别用户搜索关键词的可替代同义词是实现智能信息检索的重要方法之一,而要实现高效的同义词拓展,就需要一个强大的同义词表。本文中定义的同义词,是在相似的上下文语境中可以相互替代的词。随着时代的变化,语言的应用日新月异,使用传统的同义词词典查询的方法对同义词进行判别或者发现已完全不适用。使用更加智能的方法进行同义词挖掘,找到新的同义词表势在必行。近年来,随着自然语言处理技术的进步,关于同义词的研究越来越多,需要用到同义词的领域涉及方方面面,研究者们提出了众多先进的配对同义词辨析和基于语料库的同义词集提取方法。本文面向检索信息进行同义词挖掘,与使用基于特定业务的检索数据有一定的规则找出候选词对不同,本文通过设计对齐规则和短语对抽取规则,找到无特定业务query数据的同义词挖掘方法;将Distributed Representation词向量应用于特征工程;通过训练机器学习模型,使用模型对同义词对做出判定,最终在浩瀚如海的信息中挖掘出同义词,提取同义词表。本文使用这类数据来挖掘同义词表,在相当程度上克服了传统同义词表过时、无法找到新词和未登录词等弊端;结合统计特征以及Negative Sampling的Skip-gram共现矩阵模型训练的词向量特征进行模型训练。同义词的自动发现和识别,在基于概念的信息检索领域有着十分重大的研究意义和实际应用价值,本文在国内和国外短文本相似度算法、同义词识别算法进行研究和分析的基础上,对面向检索信息的同义词挖掘方法进行了深入研究。

章成志[7]2002年在《基于文本层次模型的Web概念挖掘研究》文中提出本论文针对目前Web文本挖掘工具的不足之处,综合运用文献信息自动标引和自动分类技术、数据挖掘技术、模式识别技术、数据库技术,数理统计知识,构建了一个简单易行的信息提取模型,即文本层次模型,针对因特网上叁种结构类型数据,进行了基于知识库,即基于概念语义网络的自动标引和自动分类研究。本项目研究具有如下意义:使分类知识库建设系统化和流程化;提供因特网页面和普通文本的标引源选择方案及主题提取时的权重方案;提高同义词的识别能力;增强未登录词挖掘能力。 文本分类知识库的构建主要是利用了数据挖掘技术,数理统计知识,在进行关键词与分类号的相关度度量时,我们为了克服以前度量方法的缺陷,引入了Dice测度的方法。为了确定知识库的规模,我们对Web概念挖掘系统的实际运行结果,进行抽样分析,选择了一个整体性能较好的分类知识库,另外还引入篇名知识来进一步完善分类知识库。 在进行Web文本的主题提取时,为了区分网页不同标引源的主题表达能力,本文根据一定规模的数据调查结果,确定了具有文献依据的权重方案,对文本不同标引源的测试,获得了页面和普通文本的标引源选择方案,随后还对文本多主题挖掘进行了初步的研究。 在同义词的识别上,首次引入《同义词词林》,作为语义体系,提出了基于《同义词词林》语义体系的同义词识别算法,利用词汇间的语义相似度度量,来进行同义词识别,提高了同义词识别系统的识别性能。此外,在进行文本的自动分类时,将语义相似度匹配代替了字面相似度匹配,提高了文本的自动分类能力。 为了解决未登录的挖掘问题,提出了基于字词正向扩展的未登录词识别方法,不同于N-Gram模型的是,本方法不需庞大的语料库,利用局部统计信息即可识别出具有检索意义的未登录词。 本文最后给出了系统的实际测评结果,证明整个系统的可行性。 Web概念挖掘系统采用Borland Delphi6.0,Nicrosoft Visual C++6.0以及Microsoft Visual Foxpro6.0开发。

朱玉皎[8]2012年在《个性化智能搜索引擎中查询扩展技术研究》文中进行了进一步梳理随着互联网的不断发展,网络信息量日益增加,面对海量的信息,人们对搜索引擎在查全率,查准率以及个性化方面的要求越来越高。查询扩展是个性化智能搜索引擎中的关键技术,它在搜索引擎检索用户查询前对用户查询进行扩展,有效地提高了搜索引擎的查全率和查准率。首先,我们对用户输入的查询关键词进行词义上的扩展。利用同义词词林和知网(HowNet)知识库进行词语相似度计算,找到与用户查询关键词相似度最大的词语进行关键词的同义词、近义词扩展,提高搜索引擎的查全率和查准率。其次,我们对用户输入的查询问句进行语义上的扩展。这一功能的实现由两部分组成,一方面进行问句关键词的提取和扩展,对问句进行去冗余,中文分词,词性标注,去停用词等一系列操作,提取出问句中包含用户核心语义的关键词或关键词集合,然后对取得的关键词进行关键词扩展;另一方面利用问句答案常用词对问句进行扩展,构建问句分类体系,对用户查询问句进行分类,同时利用问句答案语料库,统计每种类型的问句答案中常会出现的词,生成问句答案常用词词表,然后根据用户查询问句所属类别对问句进行答案常用词扩展;最终利用这两方面得到词语对用户查询问句进行扩展。然后,我们对用户浏览行为进行分析,挖掘用户兴趣。我们收集用户IE收藏夹中的网址和用户浏览历史记录,读取相应网页,提取网页正文,进行中文切词,生成文档集,然后使用基于TF-IDF的向量空间模型生成文档集对应的向量集,对向量集进行聚类,然后对聚类结果进行分析,提取用户兴趣代表词。最后,将查询扩展以及用户兴趣提取应用于个性化智能搜索引擎之中。首先对用户查询进行查询扩展,然后将扩展后的查询作为检索内容输入到搜索引擎的检索模块,并对检索模块返回的结果按照与用户兴趣的相符程度进行排序展示。

刘东飞[9]2009年在《智能双语搜索方法及搜索引擎的研究》文中提出随着我国经济与对外交流的不断发展,翻译市场规模迅速扩大,利用计算机软件等翻译工具越来越受到用户的青睐,各类机器翻译的技术和方法层出不穷。机器翻译的方法主要分为两大类,分别是基于规则的方法和基于语料库的方法。基于规则的机器翻译最大的难题就是语言歧义的消解;基于语料库的方法是采取翻译记忆的模式,用户利用已有的原文和译文,建立起一个或多个语料库,在翻译过程中,系统自动搜索库中相同或相似的翻译资源,并给出参考译文。但是,目前大量基于翻译记忆模式的翻译软件所依赖的语料库都是人工构建的,语料库容量有限,且更新缓慢。随着因特网的发展,基于Web的全文搜索引擎越来越成为信息检索的主要手段,若能将翻译技术与Web信息搜索技术结合起来,就可以为用户提供完善的、实时的和动态的翻译服务。从研究对象的角度来看,Internet所包含的数据呈现出海量性、半结构化、多样性、动态性、分布式和异构性的特点。特别是经过多年的积累,Internet网站上存储了海量的中英文双语网页资源。双语语料库对机器翻译、机器辅助翻译、双语词典编纂、双语术语自动提取、双语对比研究以及双语教学的巨大价值已经得到越来越多的认可。对于机器翻译或机器辅助翻译而言,双语语料库主要在两方面发挥作用。一方面,双语语料库可以持续不断地为基于记忆的翻译引擎提供翻译实例,另一方面,双语语料库又是一个宝藏,可以从中挖掘学习各种细粒度翻译知识,供机器翻译、机器辅助翻译使用,这些翻译知识对翻译任务的各个环节都会起到积极作用本课题的研究目的是通过对网络搜索引擎、自动积累双语语料库、机器翻译的研究,利用网络机器人技术、网页噪音过滤技术、语句匹配入库算法、数据挖掘、分词技术、双语对齐技术、智能用户接口技术、个性化搜索技术、元搜索及结果融合与排序算法、全文检索技术以及JAVA应用等多项技术,研究基于网络大规模语料库和双语网页搜索的智能双语搜索方法和搜索引擎。这既可以为专业人员提供自动的双语网页资源,又可以为用户提供高质量的辅助翻译,避免翻译的重复劳动,提高翻译质量,具有很好的市场价值和社会效益。本文在研究过程中,主要的创新工作如下:(1)在互联网海量信息中,专门针对含有中英双语信息的单页文本和双页对照文本进行研究。根据两者不同的特点,对双页双语文本首次提出了双页双语语料挖掘算法DBWCM(Double Bilingual Wepage Corpus Mining);对单页双语文本设计了分步处理算法,提出了识别与净化单页双语文本的算法IPSBW(Identification and Purification of the Single Bilingual Webpage)和双语句对匹配与语料挖掘算法BSMCM(Bilingual Sentences Matching and Corpus Mining)。通过执行它们提取网页中大量存在的双语平行翻译语料,形成大规模的语料库,为辅助翻译搜索打下坚实基础。(2)针对当前搜索引擎的用户界面现状,利用概念检索和潜在语义分析的思想,通过建立双语同义词词典对查询关键词进行双语扩展,并为用户输入提供扩展提示,实现良好的用户界面,提高了双语辅助搜索的智能性和查全率。同时为提高查询的准确率,满足用户的个性化需求,研究了显式和隐式两种获取与更新用户个性化信息的方法,提出了双语关键词个性化扩充算法PEBK(Personalized Expansion of the Bilingual Keyword)和双语查询结果的个性化排序算法PSBR(Personalized Sort of the Bilingual Results),以便使查询结果达到因时因人因地的不同,得到用户真正想看到的结果。(3)为了扩大双语搜索的范围,将元搜索技术应用在双语翻译搜索中,通过分析元搜索的结果融合方法,针对使用PageRank算法的问题,提出了结合相关度的改进算法RSBS(Results Sort of the Bilingual Search),并对算法的效果进行验证。(4)最后,在形成双语语料库的基础上,基于Java和Lucene工具,设计网络机器人模块、网页识别与净化模块、语料匹配入库模块、索引模块、检索模块、个性化查询模块,用户接口等七个主要模块,实现双语搜索,为用户提供辅助翻译服务。智能双语辅助翻译搜索涉及的研究领域非常广泛,它涵盖了人工智能、语言学、机器翻译、搜索引擎、Web数据挖掘、数据库等多个领域知识。本文所做的工作尽管为利用网络实现辅助翻译提出了一些可行方法,但是,对于构建一个高效且智能化程度高的基于网络的辅助翻译系统还有许多问题有待进一步研究。

赵靖[10]2008年在《面向智能搜索的Web信息挖掘技术研究》文中研究表明互联网的迅速发展为用户在网上发布和获取信息提供了极大的便利,但网络信息的迅速膨胀使得用户查找有价值的信息变得越来越困难。搜索引擎技术的发展在一定程度上为用户查找信息提供了便利。目前,搜索引擎正向智能化的方向发展,它的实现需要依赖一种新的网络技术——语义网技术。语义网技术在智能搜索方面的应用研究是目前网络搜索技术研究的热点,而且语义网与Web挖掘技术的结合已经形成了一个新的研究领域。本文对智能搜索的Web信息挖掘研究的一些相关技术进行了研究。首先,本论文简单介绍了课题研究的背景和意义,阐述了智能搜索的相关理论。对于语义网和Web挖掘的相关理论进行了总结和分析,并介绍了如何将这两种技术结合起来。其次,基于以上的研究工作,本文提出了一种语义智能搜索知识发现模型框架,并对各个子系统的功能进行了详细叙述。然后,对该模型主要功能模块RDF聚类模块实现的关键技术进行了研究,提出了一种基于语义距离的RDFMS数据层次聚类的改进算法,旨在改进语义化Web的查询推理效率和语义上的准确性以提高算法的效率,并进行了算法的实例验证。最后,本文对重用通用本体WordNet构建领域本体的方法进行了研究,实验结果表明,该方法可以重用WordNet的结构并从中获取领域知识,并半自动地快速构建领域本体。

参考文献:

[1]. 同义词挖掘及其在概念信息检索系统中的应用研究[D]. 曹晶. 东北师范大学. 2006

[2]. 智能搜索引擎中的同义词识别算法研究[D]. 朱毅华. 南京农业大学. 2001

[3]. 基于词典注释的汉语同义词自动识别[C]. 陆勇, 侯汉清. NCIRCS2004第一届全国信息检索与内容安全学术会议论文集. 2004

[4]. 基于语义技术的智能搜索引擎研究[D]. 潘宁. 北京邮电大学. 2009

[5]. 基于Web的本体学习研究[D]. 傅魁. 武汉理工大学. 2007

[6]. 面向检索信息的同义词挖掘[D]. 肖淋峰. 电子科技大学. 2018

[7]. 基于文本层次模型的Web概念挖掘研究[D]. 章成志. 南京农业大学. 2002

[8]. 个性化智能搜索引擎中查询扩展技术研究[D]. 朱玉皎. 哈尔滨工业大学. 2012

[9]. 智能双语搜索方法及搜索引擎的研究[D]. 刘东飞. 武汉理工大学. 2009

[10]. 面向智能搜索的Web信息挖掘技术研究[D]. 赵靖. 哈尔滨工程大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

智能搜索引擎中的同义词识别算法研究
下载Doc文档

猜你喜欢