基于互信息和关联规则的文本特征提取方法论文_程正双

基于互信息和关联规则的文本特征提取方法论文_程正双

沈阳化工大学 辽宁省沈阳市 110000

摘要:随着互联网的不断快速发展以及信息技术的不断更新,网页数量在不断的增加,倘若依据采用传统的网页分类方法,就会给人们网络分页工作的展开带来难度。而基于互信息和关联规则的文本特征提取方法的使用,可以有效的改进词频和类间的平衡因子,进而就能避免互信息对低词频特征值放大。因此,我们就应不断的使用该方法来实现对网页的分类,以此来提高网页的运行性能,进而就能提高网络的运行效率。

【关键词】互信息;关联规则;文本特征;提取方法

引言:

就针对当前的网页分类方法而言,其主要就是通过自然语言分类的方法来实现对网页的分类,但是在实际的操作过程中,多数分类模型在文本特征稀疏性的应用效果较不明显,这样也就无法实现对网页的良好分类。而互信息方法,不仅具有计算简单的特点,而且还能提高文本分类的精度。因此,不断的将其运用在网页分类工作的开展过程中,就能有效的提高分类模型的效率。本文就针对基于互信息和关联规则的文本特征提取方法展开具体的分析与讨论。

一、相关使用技术概述

(一)、传统互信息方法概述

互信息是一种常见的提取文本特征的使用方法,其的使用可以有效的衡量特征与类别之间的互信息,并反映出两者之间的关联性,且互信息的值越大表明两者之间的关联性就越强。但是,根据相关资料表明,互信息使用方法较信息增益等方法而言,其使用效果还较不理想。这主要是由于互信息方法在使用的过程中忽略了词频信息等因素的重要性【2】,而是选择使用低词频的特征,这样就导致获取到的特征子集中含有较多的低词频,进而也就影响了整个网页的分类效果。因此,要想提高网页的分类效率,就应对传统的互信息方法进行有效创新,确保分类方法的使用可以有效的实现对语义的深度挖掘,以此也就能实现对网页文档的合理分类。

(二)、关联规则概述

关联规则主要就是指:数据挖掘中的一种无监督算法,其被广泛的应用在了金融、医学等多个领域。其中,关联规则中最著名的算法应是Apriori算法,该算法主要就是根据事务的频繁项集来挖掘数据之间的潜在联系,以此来实现对数据的有效分析。此外,该算法的使用还可以通过衡量规则的有用性和确定性来找出相应的强关联规则,这对于实现对网页的分类具有至关重要的作用。

期刊文章分类查询,尽在期刊图书馆

(三)、互信息简介

在信息论中,互信息主要就是指:衡量2个信号关联程度的尺度,其还可以对两个随机变量之间的关联程度进行有效描述。而在关联文本分类中,互信息主要被用于获取特征词【1】。因此,基于互信息和关联规则文本特征提取方法的使用,就能有效的获取文本之间的联系,以此就能有效的提高网页的分类性能。

二、基于改进的互信息提取方法

随着网页数量的不断增加,传统的网页分类方法已无法适应当前网页的分类需求,进而也就影响了网络的使用效率。因此,就应加大对网络分类方法的创新,提高文本特征提取的效率,这样就能提高网页的分类效率。下面,就针对基于改进的互信息提取方法展开具体的分析与讨论。

(一)、基于词频和类间分布的加权改进

互信息提取方法在实际的应用过程中,对于低词频的贡献较低且可能演变成为噪声特征,这样就影响了网页分类活动的顺利展开。因此,在使用的过程中,我们就可引进特征词集中因子,来实现对特征词在不同类中集中程度的合理表达。此外,为了提高网页的分类性能,还应引进类间因子,实现对特征词文档数集中程度的表达,且类间越均匀,则证明特征词的重要性就越小。

(二)、基于词关联性的改进

通过对互信息方法的创新,就有效的弥补了传统互信息提取方法在使用中的不足,进而就能实现对特征词的较好分类,以此来提高网页的分类效率。而当提取完相应的特征词后,特征值较低的特征词将会被过滤【3】。因此,基于词频和类间分布的加权改进法对于处理网页中低信息量特征多的情况还较不理想,进而也就无法提高网页的分类性能。因此,在使用互信息提取方法时,就应首先充分的利用好信息量中的文本特征,并引进相应的关联规则,通过计算互信息方法提取特征与过滤特征之间的关联性,来研究信息之间所存在的关系,这样就能有效的提高互信息提取方法的应用性能。譬如:文章中的骑行和旅游两个词,骑行一般指特征提取过后过滤的特征,而“骑行”主要就是指:特征提取后所保留的特征,这样就能通过相应的文字关联规则来找出两词之间所存在的某种联系,以此也就能有效的获得二者之间所存在的文本特征,从而促进网页分类活动的顺利展开。

三、实验结果分析

通过对相关实验的研究可知:在特征维数相同的情况下,改进后的互信息方法无论是在准确率、召回率等方面,还是F1值方面都优于传统的互信息方法。此外,就针对传统的互信息提取方法而言,其对文本的提取特征多为低频词或者噪声,这样就影响了其的低维效果。而改进后的互信息提取方法的使用,对于文本特征的提取具有较高的稳定性,且所使用的关联规则也能较好的利用部分文本特征,以此也就能有效的提高文档的分类效率。因此,为了有效的解决日益增多网页的分类问题,就应不断的运用基于互信息和关联规则的文本特征提取方法,来实现对文档信息特征的高效获取,这样就能提高网页的分页性能,以此也就能给人们的上网提供便利。

结论:

互信息作为一种提取文本特征的常用方法,其在网页分类中的使用,不仅可以有效的改善传统互信息提取方法的使用弊端,而且还能有效的提高网页的分类效果。因此,我们就应首先认识与了解相关技术概述和基于改进的互信息提取方法,进而通过对相关实验的分析,来合理的分析出基于互信息和关联规则的文本特征提取方法的使用优势,并不断的将其运用在网页的分类过程中,以此就能有效的提高网页的分类效果,进而就能不断的促进我国互联网信息行业的快速稳定发展。

【参考文献】

[1]王海涛. 基于大规模文本数据集的相似检测关键技术研究[D].吉林大学,2016.

[2]张彪. 文本分类中特征选择算法的分析与研究[D].中国科学技术大学,2010.

[3]商炳章,白清源.基于互信息规则剪枝的关联文本分类[J].南京师范大学学报(工程技术版),2008(04):173-177.

论文作者:程正双

论文发表刊物:《科学与技术》2019年第10期

论文发表时间:2019/10/16

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于互信息和关联规则的文本特征提取方法论文_程正双
下载Doc文档

猜你喜欢