知识库单学术内容检索研究论文_孙竟华,田雪琪,何桂梅,赵娜

国家电网有限公司客户服务中心北方分中心 300300

摘要:搭建单学术内语义分析知识库,完善了基于表示文字匹配的机械对比检索系统的结构,来了解使用者真实检索目的。此知识库的单学术内容检索模型,改善了检索性能,提升检索效率。

关键词:检索;知识库;单学术内容

如今,常用的检索技术日趋成熟,基本是利用标识文字机械对比来实现检索。一般会出现如下问题:检索出的信息关联性低,使用者需要二次人工筛选结果来获取信息;未检索出需要的高权重结果;检索内容与所需内容完全无关。针对以上问题,本文设计了面向单学术内的单学术内容检索模型,把检索的文本信息延展至词意领域,了解使用者的检索目的,提高检索的效率。

1单学术内容检索现状

单学术内容检索将使用者的访问信息重新在web上规划,近年来该检索方式的研发工作大体基于知识库内单学术内容检索、机械文本加工和概念相似对比等方法。Voorhees使用检索内容中的相似性词汇的子类内容来实现检索内容的扩展;Fernández利用查询的文本信息来划分层次,用计算出的语义相似度进行文本标记,再重新建立索引,实现优化内容的检索。国内相关研究,例如《基于检索内容的信息检索模型》在内容识别的基础上搭建了多主体信息检索服务器。机械文本加工和概念相似对比的方法是另外两种常用的语义检索方法。分词、短语识别和词义消歧是自然语言处理中最为主要的技术。

2知识库的内容检索

2.1检索内容知识库

检索内容作为一种概念建模的手段,能够利用检索内容节点中概念之间的关系描述了解词汇含义,同时,也可以进行逻辑推理。域知识库内容检索是利用抽象指定域中的概念和相关性为域信息资源构建高效的组织框架。基于检索内容技术构建域知识库,分析其逻辑内容,我们就可以深挖模糊信息和引申含义之间的词汇关联。将检索内容引入知识库中,进行信息检索,再将推理机制扩展到使用者查询,把使用者从语义层面键入的查询语言推理理解,挖掘使用者的真实检索目的,消除文本信息中内容的模糊性描述,并获得使用者获取信息的智能单学术内容检索所需的有效信息。

本文使用检索内容编辑工具Protege手动构建检索内容。提取特定域的概念来设计检索内容模型,编辑检索内容中的元素,包括类,属性和实例。概念之间的主要关系是“同质的”和“较低的”。使用Jena对构造的域检索内容执行相应的推理操作。

2.2单学术内容检索模型设计

本文设计的单学术内容检索模

类型,主要由四个关键模块组成:查询自然语言预分析处理、检索内容知识推理、语料库文档预处理和检索结果排序,检索内容知识库单学术内容检索模型如图1所示。

2.2.1查询自然语言预分析处理

查询自然语言预分析处理模块接收使用者输入的自然语言,使用ICTCLAS中文分词系统对使用者查询语句请求进行分段,并对查询语句中的停用词,特殊字符和无意义词进行过滤,分解使用者查询语句。独立词汇的集合。 2.2.2检索内容知识推理具有语义推理的能力是基于检索内容知识库的单学术内容检索系统与基于关键词的检索系统相比的最大优势,也是单学术内容检索系统模型的核心。推理系统通过将推理规则和策略写入程序代码来实现语义自动推理。推理系统在早期阶段接收查询自然语言预分析处理的关键词,并结合检索内容知识库中的推理策略实现语义推理。在本文的检索模型中,由于已建立的概念之间的主要关系是“同质的”和“较低的”,本文的检索模型只能实现这两种逻辑关系的推理。在推理引擎语义推断出原始搜索关键词之后,可以将检索内容知识库中的概念相关类,对应实例和关系添加到搜索关键词中,并将原始查询扩展并提交给搜索引擎进行检索。

2.2.3语料文档前期处理

建立语义索引库是预处理语料库文档的最终目标。本文使用Web爬网程序Crawler从Internet收集近10,000个Web文档,并将它们作为测试语料库存储在搜索信息库中。过程如下:预处理Web文档,然后删除HTML标记,停用单词等,并提取存储的文档。文本中的文字信息;分割文本信息,并将特征信息提取为特征词;然后将特征词与知识库中的概念节点进行比较,并将概念的同义词添加到文档概念集中,以形成文档概念集;使用TF-IDF算法计算文档概念集的权重,并且将特定阈值内的概念用作文档的语义向量;构造倒排索引,其中概念列表存储在存储器中,倒排列表和文档集存储在盘中。 2.2.4对搜索结果进行排序

检索系统检索出来的大量结果,使用者通常只关注排在前面的那些检索结果,因此,如何对使用者最关注的返回结果进行排序与检索系统的性能有关。在本文中,查询和文档之间的相关性(即文档得分)用于对结果进行排序,TF-IDF特征权重计算方法用于计算文档得分。核心思想是查询和文档中存在不同的概念。重要程度不同,因此如何为查询中的概念分配权重是文档分数计算的基础。最终进入检索系统的查询向量由使用者的原始查询概念和推理系统推断后的扩展查询概念组成。分别计算原始查询概念和扩展查询概念的权重,然后计算查询向量中每个概念的权重。总结并获得文档分数。 3结论

在本文中,传统的信息检索系统进行了改进,在检索内容知识库介绍,并建立了基于领域检索内容知识库的单学术内容检索模型。随后的研究工作是如何提高检索内容知识库,实现了查询关键词好语义查询扩展,提高检索系统的性能,和检索文件的排序算法上进行了深入的研究,并返回相关的相关使用者首选项。高结果文档。

参考文献

[1]王旭阳 , 尉醒醒 . 基于检索内容的单学术内容检索方法 [J]. 计算机工程与设计 ,2016,37(09):2538-2542.

[2]宋峻峰 , 张维明 , 肖卫东等 . 基于检索内容的信息检索模型研究 [J]. 南京大学学报 ,2005,41(02):189-197.

[3]陈振标. 基于检索内容的单学术内容检索技术研究[J]. 情报探索,2011(166):96-98.

论文作者:孙竟华,田雪琪,何桂梅,赵娜

论文发表刊物:《基层建设》2019年第10期

论文发表时间:2019/7/3

标签:;  ;  ;  ;  ;  ;  ;  ;  

知识库单学术内容检索研究论文_孙竟华,田雪琪,何桂梅,赵娜
下载Doc文档

猜你喜欢