基于粗糙集合和信息熵的分类模型研究

基于粗糙集合和信息熵的分类模型研究

郭亚光[1]2005年在《基于粗糙集合和朴素贝叶斯模型的分类问题研究》文中研究说明KDD是在数据库和人工智能的相互融合渗透中逐渐发展起来的一个有着广阔应用前景的新兴研究领域,是从数据中提取人们感兴趣的、潜在的、可用的知识,并表示成用户可理解的形式。分类是KDD领域中重要的研究分支。由波兰数学家Pawlak提出的料糙集合理论是一种表示和处理不确定性知识的方法,在KDD领域中具有越来越重要的地位。朴素贝叶斯分类技术是以贝叶斯定理、最大后验假设等理论为基础,其分类模型由于简单、易于实现而受到普遍青睐。本文对基于粗糙集合和朴素贝叶斯的分类问题进行了研究,主要包括以下几个方面的内容:研究了不完备信息系统中粗糙集合理论的扩展,提出了一种基于属性重要度的粗集扩展模型。将粗糙集合理论引入朴素贝叶斯分类模型的研究中,提出了基于信息熵的近似属性约简算法(MAIR),改善条件属性间的依赖关系,最大程度上满足朴素贝叶斯分类条件独立性假设的要求。在MAIR算法的基础上提出了基于粗糙集合理论的朴素贝叶斯分类算法(RSBC),实验证明,该算法在分类正确率上优于朴素贝叶斯分类算法。

杨静[2]2004年在《基于粗糙集合和信息熵的分类模型研究》文中研究说明数据库中的知识发现(KDD)是当前涉及统计学、人工智能、数据库等学科的热门研究领域。数据挖掘(DM)是从数据中提取人们感兴趣的、潜在的、可用的知识,并表示成用户可理解的形式。分类是数据挖掘的一个重要分支,分类能找出描述数据类或概念的模型(或函数),以便能使用模型预测类标记未知的对象类。 粗糙集合是波兰数学家Pawlak提出的一种对不确定性知识的表示方法,粗糙集合理论凭借其独特的优势而在KDD领域中具有越来越重要的地位。信息熵是信息论的一个概念,目前被广泛用于数据分析领域。 本文提出了一种基于粗糙集合和信息熵的RSE算法模型,该算法模型包括两个组成部分一分类模型和预测模型。分类模型是以经典的粗糙集合理论和信息熵理论为基础,依据信息熵理论对属性进行筛选,依据不可区分关系确定等价类,从而提取决策规则。预测模型是以粗糙集合的扩展模型—容差粗糙集合模型为基础,依据对象与决策规则容差的定义,给出待测对象的预测类别。 此外,我们设计了基于RSE算法模型和ID3算法模型的原型系统—R-DM,该系统实现了RSE算法和ID3算法的分类模型和预测模型,在此统一的平台上,我们通过对UCI提供的多个标准测试数据集进行测试,对RSE算法和ID3算法进行了分析比较。实验证明,RSE算法确实优于ID3算法。

胡莹坚[3]2007年在《粗糙集理论及其在神经网络中的应用研究》文中认为粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息,近年来日益受到国际学术界的重视,被成功地应用于人工智能、模式识别等诸多领域。本文主要对粗糙集中的基本问题——知识约简问题和连续属性离散化问题进行了研究,对粗糙集的扩展模型进行了探讨,并在此基础上提出了叁种不同领域中粗糙集与神经网络相结合的方式。本文系统地阐述了粗糙集的基本理论和概念,在这些基本理论的框架下,主要做了以下几个方面的研究:1.粗糙集理论的知识约简问题。本文首先对经典的属性约简的方法——基于区分矩阵的方法进行了分析。接着利用在理论说明中提出的信息熵的概念,从信息的角度,对决策表中属性的重要性给出度量;在此基础上,提出了一种基于信息熵的知识约简的启发式算法。2.粗糙集理论的连续属性离散化问题。本文对原有的贪心算法及其改进算法进行了分析,综合了前几种算法的优势,提出了利用互信息对信息系统决策表中断点的重要性给出度量;并融入断点核的概念来判断断点的重要性,提出了一种新的基于互信息的贪心算法改进方法,有效地解决了前几种算法的局限性。3.针对经典粗糙集理论在实际应用中的不足,介绍了常见的两种扩展模型:模糊粗糙集模型和变精度粗糙集模型。分别阐述其理论概念,研究了各模型的属性约简算法。4.研究了粗糙集与神经网络的结合方式。本文利用粗糙集在处理不精确性和不确定性问题上的优势,对数据样本进行预处理,约简样本属性,降低样本维数,得出近似值,获得最优约简后的决策规则,以此来映射到神经网络的训练样本中去,构建神经网络的隐层数及隐层内神经元数,使神经网络更富有逻辑性,并减少了神经网络的训练时间,提高训练精度及泛化能力。针对不同的实际应用类型,提出了不同的耦合方式以及训练算法,均取得了满意的效果。

高亮[4]2013年在《数据挖掘中贝叶斯算法在入侵检测中的应用》文中进行了进一步梳理伴随着社会的发展、人类文明的进步,网络的发展也是空前绝后的,可以说今天人类社会的发展是离不开网络的。由于Internet的不断发展,导致网络上需要处理的信息量的增加速度是人们难以想象的,网络就像一把双刃剑,在给人们带来利益和方便的同时,也带来了不少负面的影响,网络上的攻击和破坏也是逐年增多。当前网络攻击日益趋向复杂化和智能化,那么,传统的网络安全防御技术(如防火墙、访问权限控制等)手段已显得难以应对。作为保障网络安全的主流技术手段——入侵检测技术(IDS)就变得备受关注。经过多年的发展,该技术领域已经日趋成熟,将数据挖掘中技术应用到入侵检测领域已经成为保障网络安全的研究热点。但是,由于入侵手段的不断发展以及入侵审计数据信息量不断增大,使得传统的经典数据挖掘分类技术在网络入侵检测的应用中已经显得捉襟见肘,无法保证入侵检测系统的检测率、实时性的要求。本文在分析了传统的朴素贝叶斯分类基础上,提出一种改进的贝叶斯分类算法和基于传统贝叶斯分类的入侵检测系统的改进模型,旨在改进传统贝叶斯分类入侵检测系统模型在检测率、检测时间上不足的问题。在此之后,提出了一种基于粗糙集理论依赖度的属性简约方法,以达到降低属性复杂度、删除冗余属性,使整个检测系统的建模时间有所降低。本文的主要研究工作如下:(1)首先对数据挖掘技术、入侵检测技术等进行了分析,分析了当今该领域国内外的发展动态,对入侵检测技术概念、分类作出了说明。(2)对传统贝叶斯分类算法进行了分析,在此基础上提出了一种改进的贝叶斯分类算法以及对基于贝叶斯分类的传统入侵检测系统模型进行了改进,在改进的系统模型中,融入了误用检测技术中的模式匹配方法,虽然在系统模型中增加了新的模块,在构建系统的初期,可能会增加一定工作量,但是通过对传统模型的改进,在入侵检测过程中,可以提高整个系统的检测率,提高检测效率。(3)对基于粗糙集合理论的属性简约方法进行了研究和分析,研究了传统粗糙集合理论中的区分矩阵的方法求解属性的简约,分析了传统区分矩阵方法的缺陷和不足,在此基础上提出一种独立于区分矩阵的属性简约方法——基于依赖度的属性简约方法,并且给出了该方法的具体求解简约过程,最后通过实例的比较,证明了基于依赖度的属性简约方法比传统的区分矩阵方法在时空性能上更为优秀。

张文宇[5]2003年在《基于数据挖掘的智能决策研究》文中进行了进一步梳理当今科学技术的飞速发展,使得数据库的规模日益扩大,存储的数据量急剧增加。因而,迫切需要有新的、更为有效的技术和工具对各种数据信息资源进行开采以发挥其应用潜能。知识发现和数据挖掘技术正是在这样的应用需求背景下产生并随着决策系统的推动而发展的。本文从系统工程进行决策分析的角度出发,借助数据挖掘技术中粗糙集的基本理论,在智能决策框架的指导下,研究了基于数据挖掘的智能决策理论及方法。主要理论包括:①如何利用粗糙集对典型的决策系统即相容性决策系统和不相容性决策系统运用不同的数据挖掘方法进行有效的数据约减和规则提取;②在增量动态的数据库环境下讨论了在典型决策系统中对原始数据和增量数据进行数据约减的方法;③分析了带有优先权属性的粗糙集数据挖掘方法;④以基本粗糙集为基础探讨了粗糙集扩展模型的数据分析方法;⑤研究了粗糙集数据预处理方法。主要研究工作及创新如下: 1.将决策系统分为相容性和不相容性决策系统,针对不同系统的特点提出不同的挖掘模型。 对相容性决策系统从两个角度作为启发式信息对条件属性进行数据约减。第一种方法利用了知识的不可分辨性,并以逻辑推演的方式对决策表进行数据浓缩;第二种方法利用了知识的粒度,并以概念的提升方式对决策表进行数据浓缩。在不相容决策系统中提出了两种改进算法即决策概念包含法和粗糙重复组法对不相容的决策系统挖掘出具有一定可信度的分类规则。 2.在增量式动态数据库中,提出了相容性和不相容性决策系统的数据挖掘模型。 在相容性决策系统中,利用决策矩阵提出改进的处理多元决策属性值的数据挖掘模型,可方便地对增量的数据进行直接处理就可得到基于全局数据集合的分类规则,并对可能性规则的可信度进行了初步探讨;在不相容性决策系统中,利用GDT表与RS概念的结合,提出利用叁个参数即归纳强度、噪声、隶属度判别指标确定分类规则的强度,通过属性的概念归纳,在一定的概率条件下产生分类规则,并能有效地处理增量式的数据。 3.针对条件属性的等价关系和优先二元关系特性,提出了改进的带有优先权属性的粗糙集数据挖掘模型。 论文在粗糙集拓广理论的基础上,利用属性的有序特性即优先二元关系,提出有序属性的数据挖掘改进算法,使基本粗糙集和带有准则的粗糙集在挖掘分类精度上达到统一,且挖掘出的规则简练、更具合理性和综合性。 4.建立了粗糙集与概率统计和模糊理论的拓展模型。 利用数据的统计特征,将概率测度与分类规则结合起来,提出了相应的知识西北工业大学博士学位论文约减算法;利用模糊属性集合的特点,把粗糙集合与模糊集合有机结合起来,将粗糙集中分辨矩阵的思想引入到具有隶属度属性的隐式决策系统中进行数据约减。 5.利用数据的分布特征,提出了一种改进的领域独立的数据预处理模型。 该模型利用xZ统计值测度进行属性离散化,并提出了对条件属性值的分段间隔首先进行初始化分段算法,使其之后的归并工作大大减少,并以不一致性水平阂值作为停机条件,提高了离散化速度。 6.将本文理论部分提出的数据挖掘核心模型应用到电信CRM的客户挖掘中。 将本文提出的数据挖掘核心模型应用于电信CRM的客户挖掘中,主要对电信CRM中的客户行为进行了分组,提出了大客户识别和划分的依据,初步验证了论文相关方法的正确性和有效性。

李岚[6]2008年在《基于信息熵的属性约简及其应用》文中进行了进一步梳理多属性群决策是一类常见的群体决策问题,所研究出来的解决方法己经成功地应用于工程、经济、市场分析、管理等实际问题中。本文重点讨论粗糙集的理论在多属性决策中的应用。粗糙集(Rough set)理论是一个新的数据挖掘方法,其主要思想是保持分类能力不变的情况下,通过属性约简,达到发掘知识并简化知识的目的。而信息熵在粗糙集理论中有着重要的应用,它可用来度量知识的不确定性、属性关联的重要性及粗糙集的不确定性等。本文从知识熵的基础知识入手,介绍基于传统信息熵的知识约简同时,从信息论的角度,对决策表中属性重要性的大小进行度量,并在此基础上,研究了基于互信息大小的知识约简算法,基于条件熵的知识约简算法,及基于正域与条件熵结合的知识约简算法。通过对基于信息熵属性约简算法的分析,讨论了启发信息的构造,进而给出了在此基础上提出的以粗糙集的代数理论为基础,以条件信息熵为属性约简的启发式信息的改进算法,来得到尽可能小的属性约简。然后分析了在知识约简过程中现有条件信息熵的不足,从一种扩展的信息观的角度出发,讨论了Rough集理论的信息论观点。并给出一种新的条件信息熵,用于粗糙集数据分析中的属性简约,以弥补现有信息熵的不足,并给出改进的算法。与基于现有条件信息熵的约简算法相比,该约简算法时间复杂度变化不大,但在对不一致决策表进行约简时,可以得到更加完备的约简。最后本文将用信息熵确定属性重要性的方法到多属性决策中。首先应用改进的算法将所给的数据属性进行约简,然后运用信息熵的相关知识给出综合评价结果。结果表明,这种方法能够充分说明实际问题,并且大大地简化了原有问题考虑的属性数目,使得最后的评价结果简单鲜明。总体来说,得到了预期的良好效果,具有一定的理论和实践的价值。

阙夏[7]2006年在《连续属性离散化方法研究》文中提出实际数据库中存在较多的连续型数值属性,而现有的很多数据挖掘方法只能处理离散型的属性,因而需要对连续属性进行离散化,因此,连续属性离散化方法成为数据挖掘领域重要的基础性工作,直接影响到数据挖掘的质量。已经出现了多种连续属性离散化算法,且各有特色和优劣。本文结合粗糙集合和信息熵的相关概念,开展连续属性离散化研究,并提出一种新的离散化方法。 论文的主要工作如下: (1)综述了数据挖掘、信息系统和信息熵的基本理论,介绍了粗糙集合的重要表示形式——决策表,简述信息论的历史和发展,阐述了信息熵的基本概念。 (2)系统分析了连续属性离散化的相关研究成果,并做了必要的比较。 (3)提出了区间类信息熵的概念;结合粗集的有关理论,提出一种处理连续属性的离散化算法——DICE算法,并从理论上对DICE算法进行了分析。 (4)实现了本文提出的DICE算法,并以实际数据对DICE离散化算法与C4.5自带的离散化方法进行比较,给出了实验分析结果并加以说明。

乔斌[8]2003年在《粗糙集理论分层递阶约简算法的研究》文中研究说明本文模仿人类认识事物的分层递阶原则,提出并且主要研究数据挖掘和信息融合的重要方法——粗糙集理论的分层递阶约简算法体系。 首先,本文提出粗糙集理论的分层递阶约简算法。该算法根据属性的获取方式、采集成本和实时性要求等对属性进行分类,使信息系统或者决策系统中的所有属性在单层次和单粒度上的知识表示变为部分属性所构成的知识在多种层次和多种粒度上的表示,从而可以逐层对信息系统进行约简。该算法非常适合应用于实际问题。 本文从信息理论的角度分别证明属性分层递阶不改变信息系统的信息熵和决策系统的互信息,从而使分层递阶约简算法体系具有严格的数学基础;分层递阶约简算法在某水泥窑炉控制决策获取中的应用证实其有效性。 其次,本文针对粗糙集理论中的两个重要数据处理过程——完备化和离散化,分别提出分层递阶约简算法的两个拓展算法;另外,引入一个分层递阶约简的拓展算法。 拓展算法一:不完备信息系统的粗糙集分层递阶约简算法将属性分为完备属性层和不完备属性层,然后分层递阶约简。本文证明该拓展算法使信息系统的信息熵(决策系统的互信息)减小,在信息理论意义上优于删除法、扩展法、默认值替代法和相似模型法等常用的完备化处理方法。并且,所得简约的应用可以避免属性获取方式复杂,采集成本高和实时性要求高等导致信息系统不完备性的原因。 拓展算法二:基于粗糙集理论和BP神经网络的分层递阶约简算法分别用粗糙集理论和BP神经网络处理决策表中的离散属性和连续属性,可以避免对象连续属性离散化产生的不确定性。同时,对于粗糙集理论比较敏感的决策系统噪声,BP神经网络可以较好地克服。 拓展算法叁:引入统计筛选和线性判别分析相结合的分层递阶约简算法。该算法使分层递阶约简算法从简单的属性分层处理拓展至属性选择和属性压缩处理。 本文对分层递阶约简的叁个拓展算法都进行详细的性质分析和实例验证。 最后,本文提出若干拓展思路,可以将分层递阶约简算法拓展,得到许多相关算法或者与其它人工智能算法结合形成针对某类问题的新型分 摘要层递阶约简算法。

杨舒晴[9]2008年在《基于粗糙集的决策树分类算法研究》文中研究表明决策树是分类应用中采用的最广泛的模型之一。与其它分类方法相比,决策树无需花费大量的时间和进行上千次的迭代来训练模型,适用于大规模的数据集,除了训练数据中的信息之外不再需要其它额外的信息,表现了很好的分类精确度。其核心问题是测试属性的选择方法,以及对决策树的剪枝。连续属性的离散化和条件属性约简也是扩展决策树算法应用范围的关键技术。本文基于粗糙集理论对上述问题进行了研究,主要内容如下:(1)综述了决策树和粗糙集的基本理论,分析了经典的决策树算法的构造方法。(2)结合粗糙集中决策表的概念,给出了一种参照性的连续属性离散化算法;针对该算法不适用于大规模数据集的特点,利用系统不相容性水平和信息熵的概念对该算法进行了改进,提出了基于信息熵的连续属性离散化算法,并用实例对上述算法进行了分析和比较。(3)对于离散化后的决策表,利用粗糙集理论中条件属性相对于决策属性的核以及条件属性的区分能力的概念,同时考虑到将要建立的决策树的规模问题,提出了一种基于分辨矩阵的启发式属性约简算法。(4)由分辨矩阵的概念可知,在分辨矩阵中出现频率大的属性可一次性区分较多的样本实例,由此提出了基于分辨矩阵的单变量决策树生成算法(STDA)和混合变量决策树生成算法(HTDA),并通过实验分析将上述两种算法与经典的ID3算法进行了对比,通过验证可知这两种算法生成的决策树规模小,决策规则简单有效。

徐黎明[10]2006年在《基于粗糙集合的属性选择方法研究》文中研究指明数据挖掘是从20世纪90年代以来迅速发展起来的一门新兴技术.其处理对象是大量的日常业务数据,目的是将隐含的、尚不为人知的,同时又是潜在有用的信息从数据中提取出来.机器学习为数据挖掘的实现提供了理论基础,包括从原始数据库中提取信息,并以可理解的形式表达知识,进而适用于各种用途.机器学习算法对其处理的数据集合一般都有一定要求,比如数据完整性好、数据冗余性少、属性之间相关性小等.然而,日常业务数据中一般都可能具有不完整性、冗余性和模糊性等特点.目前解决这一问题的有效手段是在执行机器学习算法之前对数据进行预处理,去掉不完整或冗余的数据.属性选择是数据预处理的一个重要环节.一种好的属性选择算法可以对数据集进行降噪与降维,使机器学习算法具有更好的效果.目前属性选择已经成为国内外研究的热门话题之一,已经有一些行之有效的属性选择算法.粗糙集合理论是一种描述不完整性和不确定性的数学工具,在机器学习与知识发现、决策支持与分析等方面有着广泛的应用.粗糙集合理论的精髓是数据约简,利用数据约简可以处理属性选择问题,目前已有一些属性选择算法的研究开始关注于应用粗糙集合理论,并初步得到实验验证.本文首先介绍了属性选择的相关技术,包括属性选择中非常关键的属性评价方法和属性搜索算法.其次,叙述了本文所涉及的粗糙集合理论的基本概念,特别分析了粗糙集合理论中的数据约简和利用区分矩阵计算约简的基本方法.进而,在剖析数据挖掘开源工具Weka系统中的属性选择实现的相关内容的基础之上,提出了一种新的属性选择算法,该算法以粗糙集合理论中的核集作为属性选择的初始集合,以对称不确定性作为属性评价方法,综合考虑了属性与类之间和属性与属性之间的相关性.最后,在实验中用Naive Bayes分类算法和C4.5决策树算法作为属性选择结果的评价器,在属性选择后的新数据集和原始数据集上分别运行上述两种算法,最后将各自的分类结果进行比较得出结论.由于此方法保留了对机器学习贡献较大的核集属性因此在具有核集属性的数据集上比其他利用空集作为初始集合的属性选择算法有更好的属性选择效果.

参考文献:

[1]. 基于粗糙集合和朴素贝叶斯模型的分类问题研究[D]. 郭亚光. 合肥工业大学. 2005

[2]. 基于粗糙集合和信息熵的分类模型研究[D]. 杨静. 合肥工业大学. 2004

[3]. 粗糙集理论及其在神经网络中的应用研究[D]. 胡莹坚. 浙江大学. 2007

[4]. 数据挖掘中贝叶斯算法在入侵检测中的应用[D]. 高亮. 兰州交通大学. 2013

[5]. 基于数据挖掘的智能决策研究[D]. 张文宇. 西北工业大学. 2003

[6]. 基于信息熵的属性约简及其应用[D]. 李岚. 大连海事大学. 2008

[7]. 连续属性离散化方法研究[D]. 阙夏. 合肥工业大学. 2006

[8]. 粗糙集理论分层递阶约简算法的研究[D]. 乔斌. 浙江大学. 2003

[9]. 基于粗糙集的决策树分类算法研究[D]. 杨舒晴. 江西理工大学. 2008

[10]. 基于粗糙集合的属性选择方法研究[D]. 徐黎明. 北京交通大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于粗糙集合和信息熵的分类模型研究
下载Doc文档

猜你喜欢