Rough集和Rough关系数据库中熵的研究

Rough集和Rough关系数据库中熵的研究

乔梅[1]2005年在《基于粗糙集和数据库技术的知识发现与推理方法研究》文中研究指明基于数据库的知识发现(KDD)又称数据挖掘(DM)是一种新的用于对数据库中大量数据进行处理的智能信息处理技术,是构建智能商务、新型决策支持系统等新型智能信息系统的一种基本构件,是当前智能信息技术研究的热点。粗糙集(Roug集)理论是波兰数学家Pawlak提出的一种研究不精确和不确定问题的数学工具。是目前公认的研究数据挖掘、知识约简和粒计算等的理论基础。数据库技术是管理和操纵数据库中大量数据的最先进最有效的技术。充分利用数据库技术所具有的对数据库中数据操作的优势,来改进或设计新的适合于大数据集的高效数据挖掘算法,是许多学者正在探索的一个有效途径。本文以粗糙集理论作为研究的主要理论依据,并充分考虑和运用数据库技术的优越性,对目前数据挖掘中存在的一些问题进行了研究,提出了有效可行的解决方案。本文研究内容如下:1.对属性约简算法中基于分辨矩阵求取核属性的时空代价以及必要性进行了分析,基于Rough集的有关理论和数据库技术对基于粗糙集的属性约简算法进行了改进,实验表明在大数据集上该算法的效率大大高于一些基于主存的属性约简算法,且易于实现和使用。2.针对Rough集中刻画属性分类能力的主要机制正区域等不能全面地反映属性对分类贡献能力的问题,提出了一个在Rough集中刻画属性分类综合贡献能力的测度——属性分类粗糙度,理论分析和实验表明,作为分类算法中选择属性的测度,该测度优于信息增益,且与信息增益率相当,且计算更为简单。并基于该测度和本文其它有关研究提出了一个具有良好可扩展性和适应性的分类算法,该算法可直接生成决策树或分类规则。3.分析了目前数据挖掘算法在处理噪音数据、不一致数据方面存在的问题,基于可变精度Rough集模型提出了一个在基于等价类的分部寻优归纳的分类算法(如决策树算法)中更有效的处理噪音数据的新方法——预剪枝方法;并基于Rough集的有关理论提出了一种可与这种归纳分类方法高度融合的检测和处理不相容数据的简单有效的方法。4.提出了一个利用关系数据库组织逻辑上为树形结构的知识库的方法,以及在这种知识库组织方式的基础上基于数据库查询的推理方法。

蒋运承[2]2000年在《Rough集和Rough关系数据库中熵的研究》文中指出信息熵是度量Rough预测(Rough Set Prediction)的结果的不确定性的一种非常有效且有竞争力的方法。在Rough集中,Miao和Wang利用信息熵定义了对应的粗熵(Rough Entropy),并证明了一些重要的基本性质。Duntsch和Gediga通过定义不同的熵,给出了三种Rough预测的模型(分别为:Hoc(Q→d),H(Q→d)和丑(Q→d))。在本文的第一章中,我们讨论了Rough集理论中条件熵的表达和描述:证明了在一定条件下,由Duntsch和Gediga给出的Rough集理论中的条件熵和Rough集的粗糙性(Roughness)有一定的联系,得出了一些性质:推翻了Wang在1985年宣布的一个猜测;并建立了一个非常有价值的新结果(该结果已被《软件学报》录用),并且Duntsch和Gediga给出的一个非常重要的结果是我们所得到的新结果的特殊情况,即我们推广了Duntsch和Gediga的结果;另外,我们定义了负熵(Negative Entropy)的概念,利用负熵我们简化了条件熵H(Q→d),Hbc(d|Q)和H(d|Q)的描述和表达,并证明了有关负熵的一些有价值的性质。 在数据挖掘(DataMining)中,目前Rough集理论受到非常重要的重视,是因为在Rough集理论中新知识的获得是基于数据内部特征来描述的,它不象模糊集和D-S证据理论(模糊集需要隶属度,D-S证据理论需要先验概率)。为了获取新知识,我们需要一种好的度量方法来度量给定数据的不确定性以及度量给定数据与预测知识之间的不确定性。在信息系统理论中,许多专家认为由Shannon定义的熵是目前度量信息不确定性的一种最好的方法。另外,Pawlak定义了两个函数来刻画Rough集X的不精确性: ,oR’挚;otR’争· 基于信息理论中的熵,Duntsch和Gediga定义了Rough集中的熵和条件熵。Beaubouef定义了Rough集、Rough模式及Rough关系数据库的Rough关系的熵。在本文的第二章中,我们讨论了Pawlak定义的Rough 集的粗摘尸。00 与 Duntsch和 Gediga建立的条件嫡的联系,并得出了 几个重要的结果;详细讨论了嫡的最大值和最小值;根据 ROUgh集理论中 ,。。_————一,。_、,。__,——.._、_.l_Q_.l、。_1,、,_、,,_ 的迫切需要,我们讨论了 H—(d Q)和]Y;“一 Y;之间的关系,并得 1“----QI 出了一个非常有趣、有理论价值和实践价值的一个新结果(该结果己投《计 算机学报》);另外,我们从数学的角度对*OUgh集中的嫡(包括粗摘和条 件嫡)进行了精确的分析,说明了嫡是度量ROOgh集中不确定性的一种非 常实用的数学工具。在此基础上,我们指出了对度量 RO[Jgh集或 ROUgh关 系数据库中ROOgh关系的不确定性的方法和工具有望进一步改善和提高, 有关这方面的工作,有待于进一步研究和探索。 对于一个信息系统,摘是一个非常重要的有效的不确定性信息的数学 描述工具。信息的不确定性包括不可分辨性(indiscemibility)、模糊性 (ambiguity)和不精确性(impercision)。Rough集理论利用数据内部固有 的特征刻画了数据间不可分辨性的特点,它和模糊集中的模糊性存在着本 质的不同。许多专家认为模糊集和 ROUgh集之间是互为补充的关系。 在 ROOgh关系数据库模型中,对于每一个属性j都有一个等价关系, 并且在一些属性上的取值可以是多值的,而在传统数据库模型中属性的取 值只能是单一的,这是ROOgh关系数据库与传统数据库之间的本质区别。 Beaubouef建立了Rough关系数据库模型,定义了和传统数据库类似的关 系代数和关系操作(称为ROUgh关系代数和ROUgh关系操作),并给出了 ROUgh关系的粗嫡的定义。在本文的第三章中,我们给出了ROllgh关系数 据库中粗关系的粗摘的定义,并讨论了*。*吵关系中粗嫡的一些基本性质: 利用嫡的最大最小原则,我们讨论了RO[Jgh关系中粗嫡的最大值和最小值 问题;具体分析了两个ROUgh关系R和Q可比较要具备的一些条件;讨论 了h吧卜关系操作和粗嫡之间的一些可能的联系:并且证明了E旧)不 随ROO吵关系元组的增加而递增,也证明了E(**Q),E旧)和E(Q) 之间没有普遍意义上的联系(该结果己投《中国科学》)c有关RO[Jgh关系 操作和粗嫡之间更深层次的联系(如:ROUgh 自然连接操作与粗嫡之间的 联系)有待进一步的研究和探索。 总之,有关 ROIJgh集和 ROOgh关系数据库中摘的研究问题是目前 ROOgh 集研究中一个非常重要的课题,它具有重

陈泽华[3]2007年在《粒计算及人工选择算法理论研究》文中指出本论文主要进行了粒计算和人工选择算法的理论研究,属于智能信息处理和进化计算等学科的交叉范畴。作为一种新的智能信息处理技术,粒计算受到国内外学者的广泛关注。生物进化、人工生命与计算方法的不断融合也一直是各国学者的研究热点。本文主要研究成果包括以下四部分:提出了基于粒计算的Rough集模型,提出了基于粒计算的知识发现算法,提出了基于粒计算的工程建模新方法,提出了基于粒计算的人工选择算法(Artificial Selection Algorithm,ASA)。主要创新成果如下:1.在二进制粒的基础上定义了二进制粒矩阵,提出了基于粒计算的Rough集模型,将Rough集理论中所有的概念和运算都统一在该模型中,提供了计算Rough集边界的简单直观的粒矩阵计算方法。2.将现有的经典Rough集模型、基于概率的Rough集模型和基于包含度的Rough集模型都统一在基于粒计算的Rough集模型之上。3.定义了Rough关系矩阵,从集合论的角度完善了粗糙集的定义。证明了Pawlak教授提出的关于Rough包含、Rough相等的代数定义和隶属度函数定义在本质上是等价的,关于Rough包含和Rough相等的隶属度函数定义并非充要条件,仅仅是必要条件。4.提出了基于粒计算的知识发现算法。该算法通过二进制粒矩阵的简单运算,既能处理相容决策系统,也能处理不相容决策系统,既能进行属性约简,也能进行属性值约简。为粒计算的工程应用提供了简单的算法模型。证明了Rough集理论中传统的代数约简、信息约简都可以归结为粒矩阵的数值运算。5.提出了基于粒计算的工程建模新方法,对某火电厂600MW直流锅炉的高温过热器在喷水扰动下的汽温动态特性进行了机理建模。对传统的加热炉模型进行了模糊建模。从工程应用角度验证了基于粒计算的知识发现算法的有效性。6.提出了进化信息系统、粒度进化空间、人工选择算子、种子等概念和基于粒计算的人工选择算法。利用粒化思想对进化空间进行均匀粒化,形成多种群进化;通过基于粒计算的知识发现算法分析进化规律确定人工育种空间;然后在个体进化层次上求取种子完成人工选择过程。通过人工选择算子实现了在群体个体和基因三个不同粒度层次的进化和跳转。在相同条件下,同传统GA相比,ASA具有人工选择定向性、快速性和智能性的特点,提高了算法的收敛能力。对单调函数、多模态问题、某些类型的欺骗问题能有效求解。本文通过对测试函数的详细分析和比较,论证了算法的有效性。

林丽清[4]2007年在《Rough集和云理论在空间数据挖掘中的应用》文中研究说明随着现代科技和数据获取设备的迅速发展,空间数据库的数量和大小日益丰富,使得空间数据挖掘和知识发现变得越来越重要。而在数据挖掘过程中,存在大量冗余数据影响我们的决策,Rough集理论在得到决策规则和分类方面是最有利的根据。它不但可以在不影响数据表达信息的前提下使原来的数据量大为减少(数据约简),而且还可以产生决策规则,从而挖掘出数据中的有效模式。其次,Rough集理论不同于其他处理不确定性问题的理论,如概率方法、模糊集方法等,它无需提供任何所需处理数据集合之外的先验信息。然而Rough集理论要求所处理的决策表中的值必须用离散数据表达,因此在使用Rough集理论对数据挖掘前必须先对数据进行离散化处理。本文首先介绍了数据挖掘,空间数据挖掘的意义、使用的主要方法、获得的知识类型和过程,接着又介绍了Rough集的基础知识,为随后的深入研究做铺垫。其次开始深入研究Rough集在数据挖掘过程的核心问题—属性约简,对目前基于Rough集的属性约简算法展开分析,并比较了各种算法的性能。本文提出一种FAE算法,用于在属性约简前进行优化属性的选择,并在此基础上又建立了一个基于Rough集分析的分类器模型—FAERS模型,通过实验证明了这个算法的分类效果很好。而针对Rough集在挖掘一般决策表的最简规则或者所有规则是一个NP-hard问题,本文又引入蚁群算法,提出一种新的属性约间算法—ACR算法,将蚁群算法用于在对寻找约简属性的过程中指导搜索的方向,通过具体的例子证明了这个算法的有效性。随后,本文又介绍了云理论的相关知识,并具体研究一种基于云模型的离散化算法。在前面理论研究的基础上,本文提出一种基于GIS的空间数据挖掘原型系统,并通过具体的例子说明该系统的运行步骤。最后,在总结本文研究成果和不足之处的基础上阐述了空间数据挖掘的前景。

张文宇[5]2003年在《基于数据挖掘的智能决策研究》文中研究表明当今科学技术的飞速发展,使得数据库的规模日益扩大,存储的数据量急剧增加。因而,迫切需要有新的、更为有效的技术和工具对各种数据信息资源进行开采以发挥其应用潜能。知识发现和数据挖掘技术正是在这样的应用需求背景下产生并随着决策系统的推动而发展的。本文从系统工程进行决策分析的角度出发,借助数据挖掘技术中粗糙集的基本理论,在智能决策框架的指导下,研究了基于数据挖掘的智能决策理论及方法。主要理论包括:①如何利用粗糙集对典型的决策系统即相容性决策系统和不相容性决策系统运用不同的数据挖掘方法进行有效的数据约减和规则提取;②在增量动态的数据库环境下讨论了在典型决策系统中对原始数据和增量数据进行数据约减的方法;③分析了带有优先权属性的粗糙集数据挖掘方法;④以基本粗糙集为基础探讨了粗糙集扩展模型的数据分析方法;⑤研究了粗糙集数据预处理方法。主要研究工作及创新如下: 1.将决策系统分为相容性和不相容性决策系统,针对不同系统的特点提出不同的挖掘模型。 对相容性决策系统从两个角度作为启发式信息对条件属性进行数据约减。第一种方法利用了知识的不可分辨性,并以逻辑推演的方式对决策表进行数据浓缩;第二种方法利用了知识的粒度,并以概念的提升方式对决策表进行数据浓缩。在不相容决策系统中提出了两种改进算法即决策概念包含法和粗糙重复组法对不相容的决策系统挖掘出具有一定可信度的分类规则。 2.在增量式动态数据库中,提出了相容性和不相容性决策系统的数据挖掘模型。 在相容性决策系统中,利用决策矩阵提出改进的处理多元决策属性值的数据挖掘模型,可方便地对增量的数据进行直接处理就可得到基于全局数据集合的分类规则,并对可能性规则的可信度进行了初步探讨;在不相容性决策系统中,利用GDT表与RS概念的结合,提出利用三个参数即归纳强度、噪声、隶属度判别指标确定分类规则的强度,通过属性的概念归纳,在一定的概率条件下产生分类规则,并能有效地处理增量式的数据。 3.针对条件属性的等价关系和优先二元关系特性,提出了改进的带有优先权属性的粗糙集数据挖掘模型。 论文在粗糙集拓广理论的基础上,利用属性的有序特性即优先二元关系,提出有序属性的数据挖掘改进算法,使基本粗糙集和带有准则的粗糙集在挖掘分类精度上达到统一,且挖掘出的规则简练、更具合理性和综合性。 4.建立了粗糙集与概率统计和模糊理论的拓展模型。 利用数据的统计特征,将概率测度与分类规则结合起来,提出了相应的知识西北工业大学博士学位论文约减算法;利用模糊属性集合的特点,把粗糙集合与模糊集合有机结合起来,将粗糙集中分辨矩阵的思想引入到具有隶属度属性的隐式决策系统中进行数据约减。 5.利用数据的分布特征,提出了一种改进的领域独立的数据预处理模型。 该模型利用xZ统计值测度进行属性离散化,并提出了对条件属性值的分段间隔首先进行初始化分段算法,使其之后的归并工作大大减少,并以不一致性水平阂值作为停机条件,提高了离散化速度。 6.将本文理论部分提出的数据挖掘核心模型应用到电信CRM的客户挖掘中。 将本文提出的数据挖掘核心模型应用于电信CRM的客户挖掘中,主要对电信CRM中的客户行为进行了分组,提出了大客户识别和划分的依据,初步验证了论文相关方法的正确性和有效性。

胡峰[6]2011年在《基于分治法的Rough集高效数据挖掘方法研究》文中研究指明在诸多数据挖掘方法中,Rough集理论是一种新型的智能信息处理方法,它采用确定的方法处理不确定问题,已是处理模糊、不精确和不完备问题的重要数学工具Rough集通过数据预处理、离散化、知识约简(属性约简、属性值约简)等过程,对数据进行去粗取精、去伪存真,逐步地从原始数据集中获取知识。使用Rough集,可以对原始数据进行离散化、降维和知识约简等处理,逐步降低问题的复杂性,它是进行数据挖掘的一条有效途径。但是,作为数据挖掘研究中的一个重要课题,现有的Rough集与方法仍然存在着一些没有解决好的问题。例如,基于Rough集的高效数据挖掘方法、基于Rough集的海量数据挖掘理论与方法、基于Rough集的动态数据处理方法、Rough集的强泛化能力问题、云计算环境下的Rough集数据挖掘方法等。这些问题的存在,有待于我们对Rough集理论与方法进行更深入地研究,并提出更好的解决方案。分治法是一种有效处理复杂问题的方法,它也是一种简单的粒计算方法。分治法的思想就是将整个问题分成若干个问题后分而治之。当求解的问题规模较大时,直接求解往往是非常困难的,有的甚至根本没法直接求出,采用分治法可以将规模较大的问题分解为多个规模较小的问题,然后分别递归求解,最后将解合并,从而实现对原问题的求解。如果能将分治法应用到Rough集数据挖掘方法的研究中,则有可能设计出高精度、高效率的数据挖掘方法。本文分析了现有的Rough集理论与应用研究现状,以基于分治法的Rough集数据挖掘方法为研究主线,对多维表快速排序的复杂度分析、基于Rough集的高效离散化方法、基于分治法的Rough集的知识约简方法的抽象控制过程、Rough集的快速知识约简方法等方面进行了较为深入的研究。归纳起来,本文的主要研究工作和创新内容表现在以下几个方面:(1)将多维数据快速排序的时间复杂度改进为O(nx(m+log n)),提高了Rough集数据挖掘方法的海量数据处理能力。基于分治法原理,将多维数据快速排序的时间复杂度从O(nxmxlogn)降低到O(nx(m+logn))(其中,m为数据维数,n为数据记录数),并应用于改进传统的知识约简方法,在属性核和知识约简研究中取得了很好效果。这一成果,对实现快速、高效的海量数据挖掘,具有重要作用。(第2章)(2)提出了一个两步处理策略的高效离散化算法,解决了Rough集理论中海量数据的离散化问题。在基于Rough理论的数据挖掘过程中,离散化是一个重要的环节,现有的全局离散化算法很难兼顾高精度的离散化效果和高效率,它已成为使用Rough集处理海量数据的一个瓶颈,其主要原因在于候选断点太多造成了计算量和辅助存储空间太大。为克服这一问题,本文提出了“先在单个属性上进行候选断点的动态聚类;然后在所有属性上进行断点选择”的两步处理思路,实验结果表明,使用本方法得到的离散化结果和Skowron教授提出的贪心算法接近,但是运行效率更高。本文提出的离散化算法更适合海量数据的处理,特别是样本数量大的浮点决策表的离散化处理。(第3章)(3)提出了基于分治法的高效属性约简算法和值约简算法,有效地解决了海量数据的知识约简问题。分治法是一种有效处理复杂问题的方法,在Rough集知识约简算法的设计过程中,如果能有效结合分治法,则有可能设计出高效的算法。针对此问题,本文首先介绍了等价关系下基于分治法的决策表分解方法,该方法可用于正区域、属性核、属性约简的计算以及分辨矩阵的操作;其次,介绍了容差关系下基于分治法的决策表分解方法,该方法可用于决策表的值约简;再次,提出了基于分治法的Rough集知识约简方法的抽象控制过程,该控制过程对于设计高效的知识约简方法具有一定的参考意义。在此基础上,通过在属性空间上对论域对象进行快速分解和操作分辨矩阵,给出了基于分治法的知识约简方法。首先,改进了王珏教授提出的属性约简算法,提出了一个新的快速属性约简算法,其次,提出了一个基于分治法的高效值约简算法。实验结果表明,采用文中提出的基于分治法的Rough集高效数据挖掘方法,可以在普通PC机上进行300万网络入侵检测数据(KDDCUP99)的数据挖掘,并保持较高的正确识别率,有效地提升了基于Rough集的数据挖掘方法的数据处理能力。(第4、5章)

周鑫[7]2012年在《基于Rough集理论改进的HOG特征行人检测》文中进行了进一步梳理本论文提出了一种基于Rough集理论改进的HOG特征行人检测方法,目的是提高检测精度的同时加快行人检测的速度。原HOG特征是在64*128像素的检测窗口中提取105个Block,每个Block由2*2个cell组成,每个cell为9个通道(bin)的直方图,那么原HOG特征就是一个3780维(105*4*9=3780D)的特征向量。这一特征已经可以对行人检测作出较为正确地判断,但需要计算的Block数量过多,维度过大,导致特征计算和分类器预测时间过长,不利于一些高实时性的检测要求。本文通过利用Rough集的相关理论来对HOG特征中的Block进行筛选,并按照Block的分类能力,对其进行重要度排序,越重要的Block代表着越强的分类能力,对分类所起的作用越大。为了提高检测精度,本论文还对HOG特征进行了扩展,从原HOG特征105个Block增加到236个,并对这236个Block建立重要度排序。并以此建立一个级联的分类器,按照Block的重要度顺序,每层分类器以逐层增加Block的方式训练得到,分类器采用线性SVM。经过筛选并训练,最终的特征向量只有108到1800维之间。本文的级联的每层分类器不仅用来进行负判断,还通过设置正阂值来进行正判断,而通常的拒绝式级联分类器每层只用来排除负样本。在实现上述方法的过程中,本文还利用了基于信息熵的离散化方法来对特征维进行离散化,并提出了两种利用Rough集相关理论来评价属性重要度的方法,一种是利用条件属性区分决策属性产生的边界域的大小,边界域越小,重要度越高;另一种是利用改进的区分矩阵的方法来评价属性的重要度,在改进的区分矩阵中,出现次数越多的属性越重要。本文的行人检测过程采用滑动窗口的模式,对滑动窗口检测后的重叠窗口合并问题,总结了三种方法。同时为了加速在视频流中的行人检测,还采用了背景擦除的方式来进行预处理。本文最后还设计制作了一个行人检测系统,对行人检测部分实现细节做了探讨,并对检测结果做了分析。实验结果证实,本文的方法在检测速度上得到了大幅度的提高,并且在检测精度上也有一定的提升。

宋君义[8]2002年在《粗糙集和决策树在抽油机泵参调整中的应用》文中进行了进一步梳理随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,大量的数据背后隐藏着大量的信息,这些信息可以为企业的生产决策提供支持,现有的工具无法有效地提取这些信息。数据挖掘技术就是为满足这种需求而产生的。 数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式的一个动态过程,它包括问题定义、数据准备、挖掘操作和结果解释几个主要部分。对一个数据挖掘系统而言,问题定义和数据准备很重要,是系统能否达到预期目的的关键。数据准备既需要人的参与又可以借助于一些工具清理、提炼、集成数据,使得经过预处理后得到的数据能够满足挖掘算法的需要。 挖掘算法的选择和挖掘模型的建立是一个数据挖掘系统的核心部分。算法的选择要考虑到挖掘的任务和目标,同时结合算法的效率、计算复杂性和实现的难易程度。算法的合理选择和组织是建立好的挖掘模型的基础。粗糙集作为一种新型的数学工具,它用信息表作为知识表达工具,把定义在属性集上的等价关系看作知识,把属性约简作为规则获取的途径,是一种有效的数据挖掘工具。决策树具有效率高、易于实现,结果易于理解,实用性强等特点,是迄今为止在各种数据挖掘系统中最常用的分类算法。 抽油机泵况分析数据挖掘系统的目标是协助工程技术人员对抽油机泵和井的工作状况做正确的判定分析,及时调整泵的参数,制定合理的维修计划。它采用分箱、数据直方图、聚类、概念树等技术对数据做预处理,采用粗糙集和决策树建立挖掘模型,挖掘结果用于决策支持。用机器判别代替了人工判别,使识别过程更迅速、更准确、更经济,在实际应用中收到了良好的效果。

周辉[9]2007年在《基于粒计算理论的数据挖掘模型研究》文中指出数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。在众多的数据挖掘方法中,粒计算不失为一种有效的方法。粒计算涵盖了所有有关粒的理论、方法、技术和工具的研究。所谓粒,就是一组对象,它通过不分明性、相似性或功能性被链接到一起。粒计算的内容包括两个主要的方面,粒的构建和使用粒的计算。前者处理粒的形成、表示和解释,后者处理怎样利用粒进行问题求解。目前,对粒计算的研究已取得了不少成果,研究的主要方法有Rough集理论、模糊集理论和商空间理论等。Rough集的创立和发展,大大地影响和推动了粒计算的研究和发展,Rough集提出后,立即发现它在数据分类和约简上有成功的应用,并且迅速反映到用粒计算理论来研究这些分类和约简似乎更为得当,因此,近些年粒计算极快的形成了国内外学术界研究的热点。作者主要从Rough集理论上对粒计算理论进行探讨。本文首先回顾经典的Rough集理论,并根据当前信息系统多呈现不完备性的特征构建一种不完备信息系统的Rough集模型;接着,在Rough逻辑的基础上阐述当前粒计算理论取得的成果;最后建立一种基于粒计算的数据挖掘模型,重点分析了数据预处理模块、属性约简模块和规则挖掘模块,提出了不完备数据的一种完备化方案、基于粒度熵的属性约简算法和自定义数据挖掘的概念及其实现算法,并给出实例说明整个数据挖掘过程。

张义荣[10]2005年在《基于机器学习的入侵检测技术研究》文中提出入侵检测技术作为动态安全系统(P2DRR)最核心的技术之一,在网络纵深防御体系中起着极为重要的作用,它是静态防护转化为动态防护的关键,也是强制执行安全策略的有力工具。随着网络攻击手段的日益复杂化、多样化和自动化,传统的入侵检测系统(IDS)已不能满足安全需求。为了对付目前越来越频繁出现的分布式、多目标、多阶段的组合式网络攻击和黑客行为,提高在高带宽、大规模网络环境下入侵检测的效率、降低漏报率和缩短检测时间,把先进的机器学习方法引入到IDS中来已成为一种共识。本文的主要工作是将目前几种有生命力的机器学习策略应用于入侵检测技术中,论文从入侵检测的不同视角出发,系统深入地研究了统计学习理论、基于符号的归纳学习理论和遗传学习方法在入侵检测信号分析中的应用技术,并在可能近似正确(PAC)学习框架下,利用计算学习理论和统计假设检验方法对基于不同机器学习策略的入侵检测方法进行了性能比较和评估。在基于统计学习理论的入侵检测研究中,把入侵检测看作是一个模式识别问题,即根据网络流量特征和主机审计记录等观测数据来区分系统的正常行为和异常行为。针对训练样本是未标定的不均衡数据集的情况,把攻击检测问题视为一个孤立点发现或样本密度估计问题,采用了超球面上的One-class SVM算法来处理这类问题;针对有标定的不均衡数据集对于数目较少的那类样本分类错误率较高的情况,引入了加权SVM算法-双v-SVM算法来进行异常检测;进一步,基于1998 DARPA入侵检测评估数据源,把两分类SVM算法推广至多分类SVM算法,并做了多分类SVM算法性能比较实验。在把基于符号的归纳学习理论应用于入侵检测方面,基本思想是把入侵检测视为一个知识表达和规则提取问题。建立在不可区分关系上的粗糙集(Rough set)理论为这一类型的机器学习提供了共同的理论基础。论文详细地研究了基于Rough集知识表达和规则获取的进程正常行为的建模方法,在此基础上,结合统计机器学习理论,提出了一种Rough集约简和支持向量机分类相结合的混合异常检测算法,其基本思想是采用Rough集属性约简的方法压缩数据空间,然后利用v-SVM两分类算法处理约简和正规化后的数据,算法在不损失检测精度的前提下有效缩短了检测时间,更适用于实时入侵检测场合。在基于遗传学习的入侵检测研究中,把机器学习看作一个搜索过程,即入侵检测可视为基于训练样本集,按照既定的搜索策略对入侵规则的搜索或逼近问题。在对遗传算法(GA)实现的相关技术问题,如关键参数选择、操作设计和算法改进等内容深入分析的基础上,论文研究了基于小生境遗传算法的入侵规则自动获取方法,同时给出了相应的异常检测仿真实验结果。然后,结合基于符号的归纳学习理论,提出了一种采用Rough集约简和遗传规则提取的混合检测方法,它利用Rough集约简得到的决策规则集作为GA的初始种群,从而节省了进化代数,提高了检测精度。论文在上述研究的基础上,对基于不同机器学习方法的入侵检测技术进行了性能比较和评估。在可能近似正确学习(PAC)框架下,分析了学习算法的样本复杂度和计算复杂度

参考文献:

[1]. 基于粗糙集和数据库技术的知识发现与推理方法研究[D]. 乔梅. 天津大学. 2005

[2]. Rough集和Rough关系数据库中熵的研究[D]. 蒋运承. 广西师范大学. 2000

[3]. 粒计算及人工选择算法理论研究[D]. 陈泽华. 太原理工大学. 2007

[4]. Rough集和云理论在空间数据挖掘中的应用[D]. 林丽清. 北京化工大学. 2007

[5]. 基于数据挖掘的智能决策研究[D]. 张文宇. 西北工业大学. 2003

[6]. 基于分治法的Rough集高效数据挖掘方法研究[D]. 胡峰. 西南交通大学. 2011

[7]. 基于Rough集理论改进的HOG特征行人检测[D]. 周鑫. 南昌大学. 2012

[8]. 粗糙集和决策树在抽油机泵参调整中的应用[D]. 宋君义. 哈尔滨工程大学. 2002

[9]. 基于粒计算理论的数据挖掘模型研究[D]. 周辉. 南昌大学. 2007

[10]. 基于机器学习的入侵检测技术研究[D]. 张义荣. 国防科学技术大学. 2005

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

Rough集和Rough关系数据库中熵的研究
下载Doc文档

猜你喜欢