基于语义分析的信息检索技术探究论文_耿贞伟、邹舟

基于语义分析的信息检索技术探究论文_耿贞伟、邹舟

摘要:现阶段所采用的信息检索技术还是以关键词匹配为主,将关键词作为检索的重点,虽然也能达到检索的目的,但是时常会存在网页排序不合理和网页漏检的现象,这对于检索的使用性能带来不同程度的影响。产生上述问题的主要原因是关键词的搜索注重的是对算法的优化,而没有考虑的到关键词深层的语义,致使出现检索不规范和漏检的现象。针对上述问题我们需要加强对语义分析信息检索技术的研究,进一步强化信息检索技术的功能性质。

关键词:语义分析;信息检索,技术分析

为了加强信息检索技术的实用功能,我们在提出语义分析之后又增加了消除检索语句中的多义词和无语义的算法。这种算法是对本体特性的充分利用,根据其间的相似度来分析多义词和无关词,针对其中的语义概念和词序进行排列,进而找出其中的核心内容进行检索,这种运行模式可以很大程度的消除漏检和网页排序不合理的问题。这种检索方式的主要作用是在不改变检索意愿的前提下,利用语义分析法来拓展检索序列词,保证检索到的网页内容更加全面也更符合检索要求,有效改善关键词搜索中的漏检和网页排序不合理的现象。

一、信息检索与本体理论研究及分析

信息检索技术的主要作用是对用户的检索意愿进行分析之后在数据库中筛选出最符合用户需求的信息,并且对相关的检索信息进行排序。好的信息检索系统除了具备快速筛选有效信息的能力,还需要具备关联推荐的能力,能够根据用户的检索意愿推荐相关的检索内容,为用户带去更好的信息服务体验。而本体的主要作用是对检索词中的语义进行分析,更加准确的为用户筛选信息,在很大程度上推进了信息检索技术的发展,同时也实现了检索技术的智能化发展。

1、信息检索技术分析

信息检索技术由来已久,在计算机技术得到应用之后信息检索技术就已经存在了,发展至今已经具备较好的检索性能,能够快速完成检索活动,且随着信息数据库的不断完善,检索的信息也更加精准,很大程度上能够满足用户的检索需求。信息检索技术在应用性能上可以分为广义检索和狭义检索两种。其中的广义信息检索指的是将信息按照一定规律储存之后,利用用户提出的检索需求搜索相关信息,而狭义检索指的是在信息数据库中直接筛选用户需求信息,这个过程也就是我们平时所说的搜索过程。

由于信息检索技术能够在数据信息发达的时代快速为用户筛选信息,在近几年的应该较为广泛。实际上对于信息检索技术一直以来都没有给出明确的定义,专家和学者针对信息检索技术的发展提出了两种观念,一种认为信息检索的意义在于情报检索,即利用信息检索技术在众多的数据信息中筛选出用户所需的情报信息,它是一种在特定时间完成信息筛选的过程;另一种认为信息检索的意义在于知识检索,即根据用户的检索意愿进行知识库和资源库进行筛选,找出符合用户需求的知识资源。

通过上述观点不难看出,人们对信息检索技术的定义是根据信息内容与形式、传播途径、储存介质等信息进行判定的。处于不同的发展阶段,人们对信息检索技术的要求也存在较大差异,虽然最终目的均是通过信息检索技术来获取数据信息,但是在内容形式上存在较大差异,信息检索的目的可以体现出明显的需求差异。

2、信息检索方法

关键词信息检索方法和主题分类信息检索方法是现阶段较为常用的信息检索方法,虽然能够达到为用户提供检索信息的目的,但是在网页排序和信息推荐方面还存在一定的不足,下面就对这两种信息检索方法进行分析:

(1)基于关键词的信息检索方法。关键词信息检索方法针对那些有明确检索意愿的检索任务较为实用,用户可以利用关键词对所需求的信息内容进行表达,以此获得检索信息。我们常用的谷歌和百度均是依据关键词检索信息的网站。基于关键词的信息检索过程如下:用户将自身的检索需求应用关键词组进行表达;检索系统对用户提供的检索关键词进行初步分析,之后与信息库中的信息进行匹配,提取出与之对应的检索网页;最终的检索结果是以系统算法的排序进行显示,用户可以根据自身需求找出可用的信息。如果用户对检索的结果不够满意,还可以通过添加关键词来减少检索范围,筛选出更加准确的信息。

关键词检索的缺点。虽然关键词检索具备操作简便的优势,但是其中存在的缺点也是不容忽视的,关键词检索方法中普遍存在信息查全率低和查准率低的缺点。查全率是一项对筛选范围和质量的判定指标,用户在应用关键词进行检索时,很难使用对自身的信息需求进行全面描述,而关键词检索技术则是直接根据用户提供的关键词进行信息筛选,这种筛选模式很难满足用户对信息量的需求,会产生信息提供不全的现象。如用户在对自行车信息进行检索时,实际上是需要查找与自动车信息相关的全部内容,而实际上检索系统之后围绕关键词自动车进行搜索,与之相关的脚踏车和单车属于自动车范畴,却无法筛选相关的信息,这就是产生信息搜索不全问题主要原因。而查准率与查全率为互逆的关系,查全率越高,查准率也就越低。查准率表现为检索结果相关信息和检索结果信息总量比,为此,当存在查全率低的问题时,查准率也无法保障。

(2)基于主题分类的信息检索方法。主题分类检索方法指的是在搜索引擎中通过对主题的选择来减少搜索范围,在树型主题分类目录中逐层检索信息的过程。在国内外较为典型的主题分类网站有yahoo、搜狐、新浪等。用户通过对主题类目的选择来完成信息检索的过程实际上并不能称为搜索引擎,仅是简单的分类列表。基于主题分类的信息检索过程如下:用户进入网站之后根据网站中提供的主题分类目录选择与信息检索意愿对应的目录,直至检索到用户所需信息为止,之后检索系统会根据用户选择的检索分类对数据库中的信息进行筛选,将最终的筛选信息进行呈现。

主题分类目录的设定对检索过程和检索结果将产生直接影响,主要表现在以下几个方面:对查全率的影响为分类目录高则查全率高,分类目录低则查全率低;对查准率的影响为分类目录高则查准率高,分类目录低则查准率低;对检索时间的影响为分类目录高则使用的检索时间长,分类目录低则检索时间缩短。随着互联网络的不断发展,信息资源量在不断增多,采用主题分类检索方式已经无法达到快速检索信息的目的,在用户对检索目标无法明确的情况下,还可能对用户的检索意愿产生误导,为此,主题分类检索技术已经无法适应大部分用户的检索要求。

二、基于语义分析的信息检索模型的研究

在对传统信息检索技术中存在的不足之处进行分析之后,对本体理论的应用进行分析,以本体理论作为基础理论提出构建新型信息检索模型的方法,即MIRSA。这种检索模型即具备信息检索技术的便捷操作性能,有继承了语义分析的智能识别优势,可以有效缓解现阶段信息检索技术中存在的相关问题。

1、传统信息检索的不足

就目前的发展形式来讲,信息检索技术中较为常用的方法为关键字匹配的检索方式,忽视了语义信息,仅对用户输入的关键字进行筛选和检索,呈现出的检索结果往往不够全面,网页排序也不够合理。在现阶段使用到引擎检索服务中虽然添加了语言处理技术,但是传统信息检索技术中无法分析语义的缺陷同样存在,并不能起到改善信息检索语义识别,致使检索结果与用户实际信息需求存在一定差异,检索效果无法保障。传统信息检索技术中的不足主要表现在以下几个方面:

(1)检索机械,缺少语义分析。当前所使用的搜索引擎是以关键词描述为主,但是相同词义的词语较多,用户对自身意愿的理解不同所给出的关键词描述也就不同,而检索引擎不具备对相同意义词语的辨别能力,检索系统会自动将其划分为不同的检索任务,致使相同信息检索意愿的用户,得到的最终检索信息不同。除此之外,检索系统对多义词没有基本的辨别能力,在搜索关键词相同的情况下得出相同的检索结果,这类信息往往无法符合用户的信息需求。

(2)检索结果相关度较低。

期刊文章分类查询,尽在期刊图书馆传统检索方法中的关键词筛选信息的方法会对数据库中与关键词相关的全部信息进行检索,这就提升了检索的工作量,致使检索效率无法保证。另外,检索结束之后呈现给用户的大量信息只有少部分与用户检索信息需求相关,在信息排序上较为随意,不以相关度确定信息排序,用户还需对众多信息进行手动筛选,严重影响了信息检索的效果。

(3)检索结果缺乏引导性。现阶段使用的搜索引擎多是将检索信息结果以网页列表的形式直接展现给用户,没有按照领域和类目进行分类,用户要想获得自身领域的检索信息还需要自行进行手动查找,这大大提升了检索信息所有的时间,对检索效率产生不利影响。

2、信息检索关键技术分析

全文索引模型:指的是信息检索中的数据存储技术,它对信息检索方式和存储方式具有直接影响。现阶段较为常用的索引模型有倒排索引表、位图和署名文件三种。其中的倒排索引列表模型的主要作用是将各种关键词设置对应的链接列表,链接列表中有分成多个节点,节点中详尽记录着关键词的文档编号和位置信息等。在采用关键词检索时倒排索引表可以充分发挥自身的索引优势,快速确定检索信息,在语义分析信息检索模型构建时同样采用了这一模型;

位图是对文档存储矢量的一种表述,矢量中的位代表的是索引项的状态,如果文档中不存在索引项则是以0表示,若存在索引项则表示为1。实际检索操作时,仅需要对文档中矢量值为1的进行查看即可。针对位图的检索技术只是对位的确定,为此在关键词查询中的效率相对较高,但是由于位图模型的创建需要投入大量资金,且构建操作较为复杂,为此一直未被重用。

署名文件是利用散列函数将文档中的关键词进行矢量分配的过程,同样将矢量数值设置成1,将矢量值作为署名文件。实际检索操作时,散列函数会对检索关键词的对应位置进行确定,当矢量值为1时,证明检索关键词在文档中,当矢量值为其他数值时则证明文档中不包含检索关键词。采用散列函数确定检索关键词位置时,存在多个关键词在同一个矢量为的现象,为此,这种模型会存在错误信息分配的现象。

3、中文分词技术

在信息检索技术中中文分词是一项重要的技术,可以实现对中文信息的再次处理,保证检索内容满足用户需求。搜索引擎仅能实现对独立关键词的索引,在检索操作时是根据关键词出现的频率和位置来实现文档输出。为此,当用户搜索的内容为整句话而不是单独关键词时,需要应用中文分词技术对整句话中的关键词进行智能分解,为信息检索提供便利。中文分词技术从处理方式上又可以分为字符串匹配分词法、理解分词法和统计规律分词法。

(1)基于字符串匹配的分词方法。这种方式是将需要处理的字符串与词典中的词条进行匹配,匹配成功的则为对应的关键词,实际检索操作时会根据分词得出的关键词进行信息筛选,将最终的筛选结果呈现给用户。字符串匹配方法根据匹配方向和匹配长度可以分为逆向匹配、正向匹配、最大匹配法和最小匹配法四种方式。此种方式同样是根据系统设定的操作执行匹配分词,为此又可称之为机械分词法。

(2)基于理解的分词方法。此种方式是利用计算机技术实现对用户输入句子的语义理解和分析,通过对整个句子语法、断句和语义的分析来规范信息检索对关键词意义的正确理解,进而达到为用户提供准确检索信息的目的。采用理解分词法检索出的信息会更加贴近用户的要求,有效避免词语歧义现象的发生。

(3)基于统计规律的分词方法。从字词的构造上分析,词是若干个字的固定搭配。相邻字共现的频率越高,其构成词的概率就越大。因此相邻字共现的频率能够反映出一个词存在的可能性大小。通过计算语料中相邻共现的字组合的频度来获得它们组成词的可行性。

三、MIRSA模型构建

1、MIRSA设计目标

(1)MIRSA要明确用户的检索需求。对于用户提交的检索请求,检索模型应该在不改变用户检索意图的前提下,对检索语句进行语义扩展,明确检索需求,从而确保检索主题的正确性,避免出现检索主题偏移。

(2)MIRSA应解决多义词相关语义确定问题。传统的信息检索模型通常不会对检索语句中的多义词进行语义确定,这往往会导致检索出的结果与用户需求无关,如何在检索信息之前明确多义检索词在检索语句中的语义,便成为当前信息检索急需解决的突出问题。

(3)优化检索结果的相关性排序。如何使检索结果排序更为合理、提高用户的检索效率是当今信息检索的又一热点。对于当前的信息检索模型,用户往往花费较长时间去逐一浏览结果以确定是否是自己所需信息,有些情况下,用户要多次检索才能找到所需检索信息,这位用户带来了极大不便。MIRSA应对用户的检索需求加以理解,改进网页排序算法,以提高检索效率。

2、MIRSA工作流程

(1)用户输入检索信息。用户输入反映自身检索意图的检索语句。该语句可能只是几个检索关键词,也可能是一个完整的句子。

(2)中文分词。对于只有关键词构成的检索语句,则不需要进行中文分词处理,直接进行歧义消除即可;对于一个完整的检索语句,则需要用中文分词技术提取其中的关键词。

(3)初始检索词序列。用户输入的检索信息经过中文分词技术后,提取出了句子中的关键词,形成了初始检索词序列。多数情况下,用户的检索信息由不超过3个检索词组成。

(4)消除歧义。有些检索词是一词多义,对于这种多义词要消除歧义,以便提高检索的准确度,例如用户的检索词组为:电脑苹果。若不经过歧义消除,则关于“苹果”的各种无关信息都将成为检索结果。经过歧义消除后,确定了“苹果”为“电脑”的一个实例,这样就过滤掉了“苹果”的其它无关信息,为下面的检索词语义扩展提供了前提条件。

(5)无歧义检索词序列。初始检索词序列经过歧义消除后,去除掉了多义词的无关词义,从而形成了具有特定词义的检索词序列。

(6)扩展检索词序列。在充分考虑到近义词、同义词的基础上,利用本体的语义扩展技术对无歧义检索词序列中的关键词进行同义词、近义词、父类、子类、实例等扩展。

(7)带权重的扩展检索词序列。对于形成的扩展检索词序列,依据扩展词与被扩展词的语义关系来初始化权重,用权重来衡量检索词相对于检索序列的重要度。

(8)检索词匹配、排序算法。在基于词频位置加权排序算法的基础上,本文将概念间的语义相似度引入其中,改进了词频位置加权排序算法。改进型词频位置加权排序算法在计算出每个关键词相对于该网页的权重后,再根据该关键词在检索序列中的权重,计算出此关键词相对于用户检索意图的重要度,最后累加检索序列中所有关键词相对于用户检索意图的重要度,便得到了该网页对于用户检索意图的重要度,依据每篇网页的重要度进行网页排序,便得到有序的检索结果。

参考文献:

[1]黄梵.基于双层语义分析的文档排序方法研究[D].华中师范大学,2013;

[2]张欣慰.旅游信息检索的语义分析技术及实现[D].广西师范大学,2016;

[3]李鹏鹏.基于个性化的语义检索的新关键技术研究[D].华北电力大学,2014;

[4]毕臣.基于语段的潜在语义分析技术研究[D].沈阳航空航天大学,2014;

[5]张世博,刘博爱,柳朝阳,等.基于潜在语义分析的文档检索设计方法[J].北京石油化工学院学报,2015,23(2);

[6]李兴春.信息检索技术中基于语义的扩展查询研究[J].重庆师范大学学报(自然科学版),2013,30(4).

论文作者:耿贞伟、邹舟

论文发表刊物:《科技新时代》2018年2期

论文发表时间:2018/4/27

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于语义分析的信息检索技术探究论文_耿贞伟、邹舟
下载Doc文档

猜你喜欢