基于粗糙集的数据简约算法研究及设计

基于粗糙集的数据简约算法研究及设计

范敏[1]2003年在《基于粗糙集的数据简约算法研究及设计》文中研究指明粗糙集(Rough Set)理论是Pawlak提出的知识表示理论,它是一种处理含糊和不确定性问题的新型的数学工具。在这个理论中,他第一次提出了上近似、下近似、约简、核与边界区域等概念,这些概念的本质是强调对信息系统的约简。同时,这些理论使得粗糙集(RS)作为近几年兴起的“数据库知识发现”(KDD,或称为数据挖掘)研究的理论基础。这种方法对于人工智能(AI)和认知科学都是十分重要的,尤其是在机器学习,知识获取,决策分析,从数据库中发现知识,专家系统,决策支持系统,归纳的推论,模型的识别等领域更加重要。 特别地,Rough集方法已经在医学,药理学,商业,金融,市场研究,工程设计,气象学,振动分析,开关函数,冲突分析,图象处理,声音的识别,系统一致性分析,决策分析,字符识别及其他领域有重要的应用。 本文从粗糙集的基础理论入手,主要介绍了作者的两部分工作:(1)从Skowron可辨识矩阵出发,通过对属性重要性及属性间依赖性的讨论,利用条件熵构造了一种一致数据属性约简的启发式算法;通过实例和UCI数据库证明了该算法的有效性;并对文献[17]中的错误进行了修正。(2)从变论域的角度出发,利用改进的可辨识矩阵对不可分辩类进行了定义,结合属性重要性及属性间依赖性的讨论,构造了一种变论域的启发式算法,并通过实例和UCI数据库证明了该算法的有效性。

颜宏文[2]2012年在《差分进化算法及其在电力系统随机最优潮流中的应用研究》文中提出差分进化算法在处理连续域、非凸、不确定性和全局优化问题时具有优势,已在包括电力系统最优潮流在内的诸多领域得到广泛应用。电力系统最优潮流是一个复杂的非线性优化问题,要求在满足特定的电力系统运行安全约束条件下,通过调整系统中的控制手段实现预定目标最优的系统稳定运行状态,其已经成为电力系统规划、经济调度和市场交易等领域的基础性工具。实际上,电力系统运行中客观上存在诸多不确定因素,尤其是近年来随着大量新能源接入和负荷成份日益复杂,与电力系统运行决策密切相关的短期负荷预测和最优潮流问题不确定特征日趋突出。为此,本文以差分进化算法及其在电力系统随机最优潮流中的应用研究为题展开研究。结合电力系统负荷不确定性及其随机最优潮流的工程特点,对基于差分进化粗糙集决策连续属性的模糊离散化方法和模糊粗糙集属性的简约方法进行了算法创新研究;研究了基于差分进化算法的电力系统短期负荷不确定性预测方法,以获得负荷概率分布特征,研究了基于差分进化算法的考虑负荷不确定性的随机最优潮流求解问题。本文旨在通过差分进化算法及其应用的创新研究,为电力系统短期负荷不确定性预测和随机最优潮流问题求解提供新的方法,从而为电力系统分析和决策提供更加丰富的信息。该研究具有重要的科学和工程意义。影响电力系统短期负荷的因素如用电规律、温度、风速等因素具有随机、粗糙、模糊等不确定特征,短期负荷预测中属性一般是真实、连续和模糊的。虽然传统粗糙集理论在处理上述不确定问题上具有优势,但其只能直接处理离散属性。为此,本文进行了基于差分进化的连续属性模糊离散化算法设计的创新研究。算法设计采用二进制离散编码,种群个体采用实数串表示,增强对局部最优点的搜索;设计了模糊隶属度函数与适应度函数,适应度函数由离散的断点数与等价类共同确定。由此提出了一种基于差分进化算法的粗糙集理论中处理连续性和模糊性问题的新算法。算例仿真表明了算法的有效性,为处理影响短期负荷的连续和模糊属性因素提供了更加可靠的离散化处理方法。在基于差分进化的连续属性模糊离散化基础上,考虑粗糙集决策表属性存在重要性、相关性、冗余的差异且具有模糊性的实际特点,研究了模糊粗糙集的属性简约问题,提出了一种基于差分进化的模糊粗糙集属性简约新算法。算法通过二进制离散编码和适应值函数的设计,控制个体向最小的属性简约的方向进化,引入模糊正域下的决策属性对条件属性的依赖度来定义适应值函数。仿真实验表明,本文所提出的基于差分进化的模糊粗糙集属性简约新算法不但能正确而快速地搜索到最小的属性简约,而且当数据规模较大时,更能节省运算时间。与基于遗传算法的属性简约方法相比,其收敛速度快而种群规模小。应用实例表明,该新算法可方便而高效、可靠地用于处理电力系统短期负荷不确定性预测属性问题。针对影响电力系统短期负荷因素属性的不确定性和差异性实际,本文进一步提出了一种基于差分进化模糊粗糙集属性简约和支持向量机的短期负荷不确定性预测新算法。一方面将算法应用于电力系统短期负荷不确定性预测,实现基于差分进化算法对负荷预测的历史样本进行连续属性模糊离散化,通过对负荷预测的历史样本进行模糊粗糙集属性动态简约,从而挖掘出与电力负荷属性取值关系最紧密的简约属性集,运用改进后的模糊C均值算法对模糊粗糙集简约得到的主要属性进行聚类,基于蒙特卡罗方法和最小二乘支持向量基方法进行电力系统短期负荷不确定性预测。算例结果表明:与传统支持向量基算法相比,文中提出的方法具有预测平均相对误差小、算法运行时间短、预测的不合格点的个数少等优点。另一方面将算法用于含分布式电源的母线净负荷不确定性预测研究,算例结果也验证了所提算法的有效性。上述算法可获得负荷概率分布特征,从而为随机最优潮流问题中提供准确的负荷不确定性描述模型。在应用差分进化算法获得电力系统负荷不确定性分布特征的基础上,借鉴基于差分进化算法对确定性最优潮流求解方法,针对考虑负荷不确定性的随机最优潮流求解问题,提出了一种基于改进差分进化和蒙特卡罗方法的随机最优潮流求解新算法。改进差分进化算法通过采用自适应的比例因子以提高随机最优潮流求解收敛速度,算法种群中引入随机扰动,跳出局部最优,防止算法陷入早熟。通过改进差分进化算法和蒙特卡罗方法的结合,可获取随机最优潮流问题目标函数、发电机出力、系统潮流等概率分布特征。IEEE30节点标准测试系统算例仿真结果表明:与遗传算法、PSO优化算法等随机优化算法比较,该算法在同样的蒙特卡罗抽样次数下运行速度快且能获得更好的最优解均值。综上所述,本文针对差分进化算法及其在电力系统随机最优潮流中的应用科学问题进行研究,在提出基于差分进化算法的模糊粗糙集属性离散化新算法和模糊粗糙集属性简约新方法基础上,提出了一种基于差分进化的最小二乘支持向量基短期负荷不确定性预测新方法,提出了一种基于改进差分算法的考虑负荷不确定特征的随机最优潮流求解新方法。算例仿真结果验证了上述算法的有效性和优越性。本文的研究适应电力系统发展客观需求,对不确定环境下电力系统规划、优化运行决策等有重要的科学意义和工程价值。

马吴永[3]2016年在《基于粗糙集和图像信号的燃煤锅炉稳定性判定方法研究》文中指出保证煤炭稳定燃烧是燃煤电站安全运营最根本的要求,炉膛火焰是表征燃烧状态是否稳定的最直接反映。为实现燃烧稳定性状态诊断,本文运用图像处理技术从火焰燃烧的图像中提取燃烧状态的特征参数;针对火焰燃烧时呈现出来的不精确、不一致、不完整等特征,采用粗糙集理论进行分析、处理和诊断,实现燃烧稳定性的判定。煤炭燃烧时,火焰图像受到各种噪声源的影响,火焰具有很强的脉动性,提取的燃烧参数也随之波动。本文将多帧燃烧特征参数用区间数表述,采用区间-多属性决策算法对燃烧图像样本数据进行稳定性判断,生成燃烧诊断决策库。由于火焰燃烧存在无规律性的特点,仅使用区间数来描述燃烧的特征参数还无法消除燃烧图像数据的高冗余性、多属性间的复杂性和区间参数的连续不确定性,本文进一步采用离散化方法解决上述问题区间。这种离散化方法依据粗糙集理论上、下近似集的思想,对燃烧图像数据进行扩展,将燃烧属性区间属性对象之间的距离表示成上、下近似关系,定义相似度阈值确定燃烧参数的相似关系。为了得到最优的相似度阈值,引入粗糙熵的概念,通过搜索上、下粗糙熵变化关系得到最优的相似度阈值,实现用最少的离散划分区间得到较好的离散结果,降低了燃烧数据的冗余性和复杂性,提高了燃烧数据的置信度,并给出了一种粗糙区间-多属性决策燃烧稳定性判定方法。属性简约和属性值简约是粗糙集理论的核心内容。由于粗糙集数据处理对燃烧噪声比较敏感,当不同决策属性下的燃烧条件属性重要度不相同时,采用粗糙集属性简约的方法获取决策规则,会出现不相容现象,进而导致信息决策变异。由此,本文给出了一种启发式的属性简约方法。这种简约方法通过属性的信息熵作为属性重要度的衡量标准,得到属性的重要度;以属性重要度作为最大分布简约的启发信息,实现燃烧决策属性简约。最后,建立燃烧决策粗糙分类模型,实现燃烧稳定性的诊断。通过仿真验证,基于粗糙集属性值和属性简约具有较好的泛化和映射能力,能实现燃烧非线性系统稳定性判定。

李朋[4]2015年在《基于云计算的粗糙集属性约简的研究》文中研究指明粗糙集理论(Rough Set)在上世纪末由欧洲着名的学者Pawlak Z,作为一种对进行数据分析和处理工具首次被概括归纳推出,它是一种用于描述具有不确定性、含糊性较高的数据的数学工具,已被用于很多方向的研究。例如,规则发现、序列模式发掘、文本数据分析、图像数据分析等。由于粗糙集可在保持分类决策能力不变的前提下,不需要额外提供所处理数据的任何先验信息,就能有效地分析出各种不精确的、不一致的、不完整的等各种不完备信息。粗糙集还可以对数据进行分析和推理,从其中挖掘出隐含在的属性间的依赖关系、重要性、导出简练的决策规则和分类规则。基于粗糙集的属性约简在数据分析处理的相关领域里有着不可磨灭的重要作用,因此关于它的学习和研究渐渐地成为一个全球性的焦点话题。随着大数据时代的脚步渐渐地临近,我们所面临的信息数据越来越丰富,这不仅仅表现在数据量上,还表现在数据维度上。在单机上的数据处理知识挖掘平台已经无法满足大数据时代对大量样本的储存以及处理的工作。云计算相关概念技术的出现为海量异构数据的存储、知识分析挖掘的难题给出了有效的应对方法,分布式处理系统和并行编程框架,是云计算相关理论中重中之重的概念。本文在具体地描述了开源云平台Hadoop和并行编程模型的同时,基于并行编程模型对粗糙集属性约简在云环境下进行分析实现。本文的主要工作如下:基于云平台Hadoop设计了一个数据分析的框架。这个框架采用B/S模式提供了Web页面形式的交互页面,使用者根据自己的要求,来提交相应的样本数据的分析和处理。Server端依据收到的任务,然后生成一系列相应的Hive命令,再之后将生成的Hive命令生成对应一系列Map Reduce任务。Master节点根据相应的命令,对slaver节点产生相应的调度分配,将数据分析处理的任务放到云端执行。最后将分析处理后的结果数据汇总呈现用户。通过样本数的测试和根据对实验结果观察,本文设计的框架对海量异构数据的分析挖掘工作有较高的效率。通过对并行算法的平均时间复杂性的分析,并行编程模型在很多程度上降低了算法的复杂性。通过样本集的逐步变大,对数据集的处理时间变化接近线性变化。为了进一步对本算效率,我们在程序执行过程中使用了Combiner,在本地对map过程的输出做优化降低输出量,进而减少了Reduce过程的输入量。最后利用一些样本集合证明了基于云计算的粗糙集属性约简算法是正确的、高效的。

杜杰[5]2003年在《ERP环境中冷却塔产品成本计算及预估方法研究及其应用》文中研究说明企业资源计划(Enterprise Resource Planning,简称ERP)是采用先进管理思想对企业所有资源进行有效管理的集成软件系统;ERP可为企业进行决策、计划、控制与经营业绩评估等系统化管理提供重要手段。产品成本计算与预估是ERP软件的核心内容。因此本文将产品成本计算与预估作为论文的研究对象;论文以ERP框架为基础,针对冷却塔产品的特点,对成本计算与预估方法进行了研究;在此基础上,论文开发了适合冷却塔产品的ERP系统中的物料管理和成本管理子系统。 全文共分为六章。第一章为绪论,主要介绍ERP的发展历程,综述了产品成本计算与预估以及成本计算所涉及的物料清单遍历方法的研究进展。第二章对传统的物料清单(Bill of Material,简称BOM)遍历算法提出了改进,并提出了与之对应的BOM合法性检查算法。第叁章讨论了产品成本计算方法,在产品制造成本计算法基础上,提出了针对冷却塔产品成本的宏观统计法。第四章尝试将粗糙集和神经网络应用于冷却塔的物料成本预估,探讨了基于粗糙集和神经网络的冷却塔的物料成本预估方法。本文第五章以BOM遍历的改进算法和宏观成本统计法为基础,开发了适合于冷却塔产品的ERP系统中的物料管理和成本管理子系统。

李国栋[6]2011年在《基于粗糙集和SVM的国防生综合素质测评方法研究》文中进行了进一步梳理随着全球竞争日益加剧,世界各国对人才的重要性有了更深刻的认识。人事测评作为人力资源管理部门进行人事管理决策的一个重要依据,当前,不同企业和政府机关的人力资源部门都不同程度地运用人事测评以提高管理效能,然而如何提高人事测评的客观性和准确性一直是开展人事测评工作的一个难题。人事测评实质即对各类指标数据进行综合分析判断,这属于典型的非线形分类问题。随着计算机技术的不断发展,机器学习方法可以从已给数据中发现知识和规律,并指导人类进行分析判断,因而受到越来越多的关注。运用机器学习方法进行人事测评已成为当前人事测评方法研究的热点。首先构建了国防生综合素质测评指标,并明确了指标量化和评估标准。其次分析了粗糙集理论的基本原理,介绍一种对国防生素质指标进行简约的方法。然后阐述了支持向量机的分类原理,主要对支持向量机的一对多、一对一、二叉树SVMs和DAG-SVMs分类方法进行了分析,同时提出了一种结合二叉树SVMs和DAG-SVMs方法特点的混合分类方法。最后,将粗糙集和支持向量机同时运用到国防生的综合素质测评中,即首先利用粗糙集对国防生属性数据进行简约,然后利用支持向量机对简约后的国防生属性数据进行分类。实验中,以国防生的各项素质指标作为输入属性,以优秀、良好、合格和问题四种类别作为国防生综合素质判别属性。对某高校170名国防生进行的分类实验分为2组,第一组以2011年3月份采集的数据作为研究对象进行分类研究,按照叁比一的关系分配训练样本和测试样本,第二组以2011年3月份采集到的数据为训练样本,以同年5月份采集的数据为测试数据进行分类研究。实验结果表明,基于粗糙集和支持向量机的分类方法可以为国防生管理者提供客观有效的决策依据。粗糙集的使用达到了优化训练模型的目的,粗糙集和支持向量机组合方法的分类精度比单独使用支持向量机的分类精度要高。

叶晨[7]2016年在《自适应的贝叶斯网在入侵检测中的应用研究》文中进行了进一步梳理入侵检测技术作为保护网络安全的重要技术手段,自第一次被提出至今已经有了20多年的时间。由于网络环境的不断变化和黑客技术的不断的提高,网络攻击的手段也越来越复杂,对入侵检测技术的要求越来越高。寻求一种具有自适应性、高检测精度、高检测效率的入侵检测技术模型是本文的研究目标。在数据挖掘领域,贝叶斯分类算法因为其推理和预测的高准确性,成为数据分类中一种非常重要的方法。因此,很多研究人员尝试把贝叶斯分类算法应用到入侵检测模型的研究中,取得了不错的效果。但是,入侵检测的模型除了对检测的精度有很高的要求外,还要求具有一定的高效性并且能够根据当前网络环境攻击行为的变化做出自适应的应对。本文将基于粗糙集理论的属性约减算法和基于滑动窗口的窗口扩展算法结合到贝叶斯分类算法当中,并在此基础上提出了一种自适应贝叶斯网络算法。该算法使用基于粗糙集理论的属性简约算法对训练样本集进行降维处理,简约特征属性列从而减少构造贝叶斯网络时的运算成本;利用窗口扩展算法动态更新训练样本集,使得训练样本能够实时反映当前系统安全状况;研究贝叶斯网在不同训练样本情况下节点之间互信息的变化,并通过定义一个欧式距离来衡量节点之间互信息的这种变化,找到贝叶斯网络结构差异性与互信息变化之间的关系,在此基础上实现贝叶斯网络结构的自适应更新提高检测模型的自适应性。实验表明,该算法应用于入侵检测当中,不但减少了计算量,提高了检测效率,而且当不同训练样本下节点间互信息的相对欧式距离大于给定的阈值ε=1.15时候贝叶斯网络结构与之前相比发生较大的改变,分类的精度也下降明显,此时对贝叶斯网络进行结构的更新,分类的精度有了明显的提高,提高了检测模型的自适应性。

陶刚, 闫永刚, 刘俊, 邹娇[8]2014年在《基于粗糙集理论的交通事故形态成因分析》文中研究表明交通事故成因复杂且具有不确定性,难以用一两种因素表征。为提取影响交通事故的核心因素并量化各因素的影响力,引入不确定性分析方法——粗糙集理论。首先根据历史事故数据建立粗糙集信息决策表,之后利用粗糙集理论的简约算法求出各因素相对于事故形态的属性重要度,最终判断出各因素对事故形态的影响程度,为道路事故形态预测模型的建立提供科学、合理的指标选取依据。

令宝[9]2018年在《基于属性约简算法的运动员伤病预警模型构建及仿真研究》文中提出针对运动员伤病预警问题,本文从粗糙集理论中的属性约简算法着手,对目前体育竞技领域中常见的属性约简算法展开对比研究,结合运动员伤病因素的具体特点,从中选用了基于属性依赖度以及基于互信息的属性约简算法,通过构建决策表的方式,对运动员伤病特征属性进行提取,然后结合BP神经网络算法的运力,构建属性简约算法—BP神经网络的伤病预警模型,以此实现运动员伤病预警。最后,运用MATLAB仿真软件对上述的算法进行仿真验证,证明了上述方法所得出的预警结果与实际值之间仅有微小差异,因此具有一定的可行性。

邵世磊[10]2013年在《苹果病害事例库构建关键技术研究》文中研究表明苹果病害对苹果产量和品质都有较大的影响,我国在枰果病害的诊断与防治研究方面取得了大量的成果,也积累了丰富的诊断与防治经验,这些经验在生产管理中发挥了重要的作用。本文采用工智能中基于事例推理技术,以苹果病害诊断与防治工作的“经验”为研究对象,开展经验的事例化描述、检索与保存的关键技术研究。本文主要研究成果如下。1.针对苹果病害事例的特点,提出了一种适合苹果病害事例描述的事例库、事例索引库的结构,形成了完整的事例库体系结构,并系统地梳理了能够完整描述苹果病的属性集合。所设计的具有3级结构的索引表既面向事例也面向属性;既体现了每个属性在各个事例中的分布细节,也反映了每个属性在整个事例库中的存在价值,具有系统性、层次性和灵活性的特点。2.对索引表属性约简的关键技术进行了研究,提出了一种基于粗糙集理论和遗传算法的属性简约算法。该算法首先对取值为连续数值型的属性值进行了离散化处理,然后用粗糙集理论条件属性重要性度量方法来计算遗传算法中每代种群中各条染色体的适应度,最后用遗传算法实现属性约简。该算法充分考虑r属性在事例类别上的映射,能够借助遗传优化机制取得满意的约简属性子集。3.对苹果病害事例检索的关键技术进行了研究,提出了基于知识的事例检索方法。该方法首先利用索引词汇农和1级索引表对用户的查询进行了特征提取,其次根据特征的数量对事例库中各事例索引表中的异构属性进行同构化处理,然后采用基于致病因素知识的模板检索和归纳检索相结合的策略建立决策树,最后利用决策树实现事例初步匹配。这种方法提升了用户查询请求的典型特征对查询请求所发生背景的代表能力,缩小了事例检索的范围,提高了检索的效率和准确度。4.对苹果病害事例库维护和存储关键技术进行了研究,提出了一种基于事例推理性能的事例库更新机制和基于XML技术的存储结构。该机制将苹果病害诊断结果中的致病因素和病害类型作为判断事例推理性能的主要依据,通过比较新旧两个事例的推理性能,在增加和删除一个事例时对索引表进行调整。另外,针对农业生产特性和现代网络环境苹果病害事例库存储的要求,提出了一种基于XML技术的表达能力强、一致性好、安全性高的事例库存储结构。

参考文献:

[1]. 基于粗糙集的数据简约算法研究及设计[D]. 范敏. 昆明理工大学. 2003

[2]. 差分进化算法及其在电力系统随机最优潮流中的应用研究[D]. 颜宏文. 湖南大学. 2012

[3]. 基于粗糙集和图像信号的燃煤锅炉稳定性判定方法研究[D]. 马吴永. 合肥工业大学. 2016

[4]. 基于云计算的粗糙集属性约简的研究[D]. 李朋. 沈阳师范大学. 2015

[5]. ERP环境中冷却塔产品成本计算及预估方法研究及其应用[D]. 杜杰. 南京理工大学. 2003

[6]. 基于粗糙集和SVM的国防生综合素质测评方法研究[D]. 李国栋. 大连理工大学. 2011

[7]. 自适应的贝叶斯网在入侵检测中的应用研究[D]. 叶晨. 北方民族大学. 2016

[8]. 基于粗糙集理论的交通事故形态成因分析[J]. 陶刚, 闫永刚, 刘俊, 邹娇. 交通标准化. 2014

[9]. 基于属性约简算法的运动员伤病预警模型构建及仿真研究[J]. 令宝. 自动化与仪器仪表. 2018

[10]. 苹果病害事例库构建关键技术研究[D]. 邵世磊. 中国农业科学院. 2013

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于粗糙集的数据简约算法研究及设计
下载Doc文档

猜你喜欢