数据流中利用异种分类器集成进行入侵检测的算法设计论文_陈猛

(中共河南省委党校河南行政学院 信息管理部 郑州 450000)

摘要:本文提出一种数据流中利用异种分类器集成进行入侵检测的算法设计。该算法中,我们利用距离当前较近的四个不同时间段数据学习生成四中不同的分类器。根据各个分类器在新到达数据上的的F-度量以及分类准确率计算它们的权重,进而加权平均检测数据流当中的入侵行为,同时调整滑动窗口中的基本窗口,不断更新模型。

关键词:入侵检测;滑动窗口;数据流

引言

随着计算机和网络的普及,保障计算机系统的安全是大家关注的中心问题。入侵检测技术能够保护系统免受攻击,是当前的一个研究热点,究其本质是一个分类问题。

集成分类器利用多个不同种类分类器的加权投票来提高算法的准确率。在数据流中,因为连续产生出海量的数据,并且数据的分布会随着时间的更迭而发生变化 (即概念漂移[1])。如何在海量的数据流中选择出充分的数据并训练出分类模型以进行有效地预测,正是数据流入侵检测所要解决的难点。

本文提出本文提出一种数据流中利用异种分类器集成进行入侵检测的算法设计。该算法中,我们利用距离当前较近的四个不同时间段数据学习生成四中不同的分类器。根据各个分类器在新到达数据上的的F-度量以及分类准确率计算它们的权重,进而加权平均检测数据流当中的入侵行为。

1 入侵检测的性能评价

在入侵检测问题中,评估标准可使用召回率(recall)、精度(precision)。定义如下:

2 相关知识

2.1 决策树算法

决策树采用自顶向下的分治方法构造,随着树的构造,数据集集合空间被分割成两个或多个块。在构造树的过程中会用到熵、信息增益、分裂信息、增益比率等概念。由根结点到一个叶节点的路径则构成一类分类规则。本文构造基分类器用的是比C4.5算法。

2.2 逻辑回归算法

逻辑回归算法分析数据时,如果是连续的,该算法就使用多重线性回归分析;如果是二项分布,就是Logistic回归;同理如果是Poission分布,就是Poisson回归。该算法的特点就是简单,易于理解。但是特征处理复杂,需要归一化和较多的特征工程。

2.3神经网络分类

神经网络分类算法会构造出分别由若干单元形成的输入层、隐藏层、输出层。算法运行时,分析的元祖属性就对应于神经网络的输入层,并且网络中的每个连接都被赋予一定的权值。在这里,我们使用的是后向传播算法。后向传播算法会在构造神经网络的过程中迭代地得到一组权重用于元组类标号预测。

2.4基于eEP的分类方法

在基于显露模式的分类方法中,EP是一个项集,其支持度从类A(B)到类B(A)显著地增加,因此具有很好的区分能力。给定支持度和增长率阈值,基于EP的分类方法挖掘满足支持度和增长率阈值的EP。如要对数据S进行分类,基于EP的分类方法会聚合S中的ci类EP的区分能力,计算出S属于ci类的得分,根据得分高低预测S类别。本文中构建基分类器采用的基于eEP的分类算法是对CAEP的改进算法CEEP[2]。

3算法基本思想

数据流环境下,数据不断流入,速度快且数据量大,我们不能向传统算法那样存储所有的数据来学习训练模型。为此,我们考虑使用最近时间的数据,也即滑动窗口。在滑动窗口中保留距离当前较近的|SW|个窗口的数据:我们假设滑动窗口SW是由一个基本窗口序列组成,而基本窗口BW对应一个数据流子序列。在此,可以表示为SW= bw1,…,bwi,…,bwK,利用基本窗口bwi中的数据学习得到的基分类器对应为Ci。

本文提出的数据流中利用异种分类器集成进行入侵检测的算法设计在不断变化调整的滑动窗口SW内训练4个基分类器,这四个不同种类的分类器构成的集合记为E。模型初始时,集合E是由最前端的基本窗口bw1,bw2,bw3,bw4中的数据学习生成,依次使用C4.5、逻辑回归算法、后向传播(BP)和eEP,构造的分类器标记为C1,C2,C3,C4。随着数据的流入,当模型滑动到第K+1个基本窗口时,先让每个基分类器Ci独立地做出预测;然后,根据基分类器Ci的F-度量计算它们的权重wi1。同时利用Ci的分类准确率得到权重wi2。则分类器Ci的最终权重设置为wi=wi1* wi2,然后将权重最小的基分类器Cl移出集合E,在基本窗口K+1上按照Cl的算法学习得到分类器CK+1,加入集合E。以集成分类器中C1,C2,C3,C4加权表决的方式对待分类样本进性分类。算法如下:

数据流中利用异种分类器集成进行入侵检测的算法设计具体如下:

方法:(1)利用BW1, BW2, BW3, BW4的数据学习生成不同的分类器C1、C2、C3、C4加入到E中,构造算法分别是C4.5、逻辑回归算法、后向传播(BP)和eEP。

(2) while (bwK+1数据到达) {

(3) for (Ci∈E ) {计算Ci在D上的F-度量;//公式(3)

计算Ci对应权重wi1;

计算Ci在D上的准确率计算对应权重wi2,

计算最终的权重wi=wi1* wi2}

(4) 将wi最小的基分类器Cl移出集合E;

(5) 在D上按照Cl的算法学习得到分类器CK+1,加入集合E;}

其中利用式(3)计算F度量时,λ可取值为0.5.

6总结

本文提出一种数据流中利用异种分类器集成进行入侵检测的算法设计。该算法中,我们利用距离当前较近的四个不同时间段数据学习生成四中不同的分类器。根据各个分类器在新到达数据上的的F-度量以及分类准确率计算它们的权重,进而加权平均检测数据流当中的入侵行为,同时调整滑动窗口中的基本窗口,不断更新模型。数据流入侵检测是现在研究比较热的方向,如何快速分析检测,平衡目标类召回率和精度,并且取得较高的分类准确率,是一个值得研究的问题。

参考文献:

[1]G Widmer, M Kubat. Learning in the presence of concept drift and hidden contexts. Machine Learning, 23:69-101

[2]范明, 刘孟旭, 赵红领. 一种基于基本显露模式的分类算法. 计算机科学Vol.31 No.11, pp211-214, 2004.11

论文作者:陈猛

论文发表刊物:《科技研究》2018年11期

论文发表时间:2019/1/24

标签:;  ;  ;  ;  ;  ;  ;  ;  

数据流中利用异种分类器集成进行入侵检测的算法设计论文_陈猛
下载Doc文档

猜你喜欢