肖厚国[1]2008年在《基于遗传算法的粗糙集属性约简方法研究》文中认为数据库技术和Internet的发展使得收集和存储海量数据成为可能。面对越来越多迅速膨胀的数据,人们迫切需要具有强能力和高效率的信息处理技术,从大量数据中发现感兴趣的知识,从而指导决策。数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,已被公认为是数据库研究中一个极富有应用前景的领域。粗糙集是一种处理模糊和不确定性数据的工具,因而成为数据挖掘中的重要框架。属性约简是粗集理论的核心内容,数据经过约简后更有价值,更能准确地获取知识。本文将粗糙集和遗传算法二者相结合,对基于遗传算法的粗糙集属性约简进行了研究。其主要工作包括以下几个方面:首先介绍了粗糙集理论和遗传算法的基本理论、概念,并总结了粗糙集理论中基于区分矩阵、属性重要度、属性频度、属性依赖度的属性约简的经典算法以及启发式遗传算法进行了系统综述,并且对各种算法进行了比较分析。其次由于基于最初差别矩阵的属性约简的定义与基于正区域属性约简定义是不一致的,本文采用新的区分矩阵的定义,先简化差别矩阵,降低求不可区分关系的算法复杂度,然后通过对简单遗传算法进行改进,提出了一种基于免疫遗传算法的粗糙集属性约简算法。并用两个数据集对算法进行验证。最后,对遗传算法和粗糙集理论研究的基础上,通过分析现有的约简算法,提出一种基于依赖度的属性约简改进算法,改进后的算法可以求取属性的一个约简。本文将该算法应用于海上交通事故分析,得到了很好的结论。
王成龙[2]2015年在《基于数据挖掘技术的生产调度问题研究》文中进行了进一步梳理生产调度是实现现代工业先进制造与管理的核心技术。有效的生产调度技术可以增强车间的资源优化配置能力,减少资源损耗,提高企业的生产效率,从而有效提高企业的竞争力。经过几十年的发展,生产调度研究已经形成了一套较为系统的理论与方法,但相关的研究成果往往难以应用于生产实践当中。另一方面,随着信息技术的迅速发展及其在现代生产制造系统中的广泛应用,制造企业信息系统存储了越来越多有价值的数据,基于数据的生产调度方法研究正在引起工业界与学术界的普遍关注。本文主要探讨了如何采用数据挖掘技术实现基于数据的调度。在总结已有的基于数据挖掘技术的生产调度优化研究方法的基础上,进行了如下工作:(1)在离散制造业中,作业车间调度问题是最为典型的一种调度类型。针对经典的静态作业车间生产调度问题,提出一种基于Petri建模和决策树分类技术的调度知识提取方法,用于提取隐藏在基于Petri网模型表达的优化调度方案中的调度模式。所提取的调度知识可作为新的作业车间调度规则直接指导车间生产调度过程。此外,提出一种方法用于组合获取的调度知识与已有的传统优先调度规则,生成新的组合调度规则。仿真实验结果验证了所提出方法的有效性。(2)实际的生产调度过程往往存在动态随机性。因此,本文进一步考虑加工任务实时到达的动态作业车间调度问题。针对动态作业车间调度问题,探索使用数据挖掘的方法,从优化调度数据中自动学习得到新的定制化的调度规则。首先采用遗传算法获取优化调度数据,并给出了一种基于极限学习机算法的调度知识挖掘方法,以从优化调度数据中提取出隐含的调度知识。所提取的调度知识可作为新的定制化的调度规则来指导动态作业车间调度过程。仿真实验结果验证了所提出方法的有效性。(3)目前,基于数据的生产调度理论与方法研究还主要集中于离散制造业的生产调度问题中,而在流程企业生产调度中应用很少。本文以一种典型的流程行业批处理调度问题-单阶段多产品批处理调度问题为例,探索了如何将基于数据挖掘技术的生产调度方法应用于流程行业生产调度问题中。针对该问题,提出一种基于极限学习机的订单生产排序预测方法,结合已有的启发式加工设备分配规则,能够用于生成完整的生产调度方案。仿真实验结果验证了所提出方法的有效性。
苏蕊[3]2007年在《数据挖掘中关联规则算法的研究》文中研究说明现代科技发展的日新月异,给人们带来了便利的同时也产生了海量的数据,为了更好的理解这些数据并使其为人们所用,KDD和DM技术应运而生。关联规则挖掘是DM中的一个重要的研究方向,而频繁项目集的挖掘又是关联规则算法的核心问题。本文对关联规则和其经典Apriori挖掘算法进行了详细的阐述,研究、总结了经典挖掘算法的特点和局限性,并在此基础上提出了两个改进算法——基于粒计算的关联规则挖掘算法和基于遗传算法的关联规则挖掘算法。基于粒计算的关联规则挖掘算法引入粒计算的思想,即把事务数据库中每一个项看作一个粒,通过扫描一次数据库得到所有项的位图表示,利用粒的“与”和“或”运算求项集的支持度,采用循环判断的方法,将满足条件的粒直接归入频繁K-项集中,无需生成候选项集Ck。该算法优点在于只需扫描一次数据库,利用粒计算求项集支持度,只需存储频繁集,大大减少了时间耗费和空间占用,从而提高了规则挖掘的效率。同时,针对许多应用由于多维数据空间数据的稀疏性,在低层或原始层数据项间很难找出强关联规则,本文提出了基于粒计算的多维多层关联规则挖掘算法。在对多维属性进行概念分层下,该算法采用基于粒计算的规则挖掘方法来挖掘每一层上的关联规则,并且在计算高层次上项的支持度时应用了粒的层次关系,从而改善整体挖掘效率。基于遗传算法的关联规则挖掘算法,是在对传统遗传算法进行改进的基础上,将其应用到关联规则挖掘中。该遗传算法提出了一种自适应变异率方法,避免了进化早期出现的高适应度个体的过度复制而陷入局部最优值,并且改进了个体选择方法,具有较强的实用性。最后将其应用到关联规则挖掘中进行了相关实验,验证了在处理大规模项目集时基于遗传算法的关联规则挖掘方法的高效性及可靠性。
李玉龙[4]2014年在《基于粗糙集属性约简和优化理论的数据挖掘方法研究》文中研究指明数据挖掘是系统数据分析及信息处理的重要方法,其核心研究问题之一是挖掘模型的建立。为了全面分析问题,往往提出很多与系统相关的变量或影响因素。由于属性变量众多,给系统数学建模和性质分析带来困难。实际上,真实系统的仿真模型主要用于模拟系统的主要变化规律并反映重要的性质特征,因此,在缺乏先验知识的情况下,采用粗糙集属性约简方法确定出系统的核心属性、同时滤除不必要的属性,对于挖掘模型的建立和结合进化优化技术进行实际应用具有重要的意义。论文首先阐述分析了数据挖掘的基本方法、挖掘模型和应用技术,以及粗糙集的基本理论、属性约简方法和智能数据挖掘模型建立技术。在研究经典粗糙集属性约简算法的基础上,结合进化算法的特性,分别建立了基于遗传算法和粒子群算法两种粗糙集属性约简方法,并对这两种方法的性质进行了分析。面向模式挖掘和诊断分析问题,分别采用人工神经网络和过程神经网络建立挖掘模型,并提出了一种基于最优分段逼近的过程神经网络训练算法。在基于测井数据的油藏评价中,利用论文建立的的属性约简优化算法对数据属性和数据进行预处理,使得用于建模的数据维度降低,减少了信息冗余,为挖掘模型的建立提供质量较高的数据源。构建一种基于粗糙集属性约简和过程神经网络的数据挖掘模型,将其用于实际资料处理,取得了较好的应用结果。本课题提出了基于粗糙集和优化理论相结合的属性约简方法,可有效约简冗余属性、降低建模数据维度和计算复杂性。利用人工神经网络、过程神经网络提高实际系统的函数逼近能力以及建模的灵活性和自适应性,将其作为挖掘模型,并与属性约简预处理方法相结合,实现了对大数据量的测井信息关于储层岩性、储层流体性质、储层物性参数的信息挖掘,为基于油田测井数据的油气藏评价研究提供了一种新的方法,具有较大的应用价值。
芦丹丹[5]2012年在《面向社区智能服务的数据挖掘关键技术研究与实现》文中认为近几年来社区电子智能服务在中国有了突破性进展,有效地将现代信息技术和传统的社区服务紧密地融合在一起。而通过数据挖掘技术可以方便、快捷、直观的展现数据的深度应用,促进社区服务的智能化实现。聚类分析是数据挖掘领域中一个非常重要的研究内容,它主要是从数据库中的记录集中寻找数据的相似性并进行分类,从而发现数据库中隐含的有用信息。传统的聚类算法本质上是一种局部搜索算法,而遗传算法作为全局优化搜索算法,在数据挖掘方面的应用也得到了极大的重视。将遗传算法与聚类相结合,可以避免聚类陷入局部最优,得到更好的聚类结果。本文首先介绍了数据挖掘的基本概念和分析方法,重点介绍了聚类分析技术以及遗传算法的基本理论。针对聚类经典算法k-means算法无法自动得到最佳聚类数目以及对初始化敏感,易陷入局部最优的问题,提出了基于遗传算法的k-means改进算法。算法中采用浮点数编码和可变长染色体编码相结合的遗传算法进行聚类,遗传算法的交叉操作使得聚类中心集数目发生变化,在搜索过程中可以搜索到尽可能多的中心集方案,从而具有全局搜索的能力。最后,在前面研究的基础上,将改进的遗传优化聚类算法应用于社区智能服务系统中,取得了较好的结果。
张冬冬[6]2014年在《基于遗传算法的决策树优化算法研究》文中认为随着网络技术和数据库管理系统的快速发展,不同领域的企业内部都积累了海量的数据,这使得以往的数据分析工具和技术已经无法满足数据信息处理的需求,进而造成数据资源的巨大浪费。于是如何寻找这些数据中所存在的巨大信息和知识,为企业所用,成为人们关注的新视角。数据挖掘就是自动发现海量数据中隐含的、有潜在用途知识的一种新技术。其中,分类和预测是一种重要的数据挖掘研究任务。目前,决策树算法以其分类的准确率高、速度快、分类规则易于理解而作为数据挖掘分类技术中最常用的方法,评价决策树性能好坏主要取决于决策树模型分类预测的准确率和复杂度。C4.5作为经典的决策树分类算法,具有很好的分类精度(准确率),但是由于其在树的构造过程中采用贪心算法,因此构造的决策树往往存在过度拟合,规模过大等缺陷。而遗传算法是一种全局优化的智能搜索算法,具有潜在的并行性和可扩展性,容易与其他算法相结合。因而,将遗传算法组合应用到决策树分类算法C4.5中,通过两种不同的思路对决策树进行优化:(1)通过深入分析决策树经典算法C4.5的基本原理,总结出该算法在平衡决策树的分类精度和规模控制等方面的不足,从实用的角度提出了在构建决策树时应权衡好决策树的分类精度和树的规模。针对遗传算法具有搜索全局最优的特点,第四章将遗传算法直接用于决策树的优化,由于C4.5算法生成的决策树分类精度还是较高的,则先利用C4.5算法生成初始的决策树种群,可以有效地避免遗传算法刚开始盲目的搜索,但由于树的不易编码性,于是将初始种群中的决策树转换成相应的规则集,然后对规则集进行编码,通过设定适当的适应度函数和遗传操作,从而得到优化后的决策树。(2)在现实生活中,数据集中的属性对分类问题并不都是有效的,有些可能是不相关、冗余的属性,因而在数据集进行分类之前,对属性集进行合理的约简具有很好的研究价值。于是第五章提出利用遗传算法的全局寻优能力首先对数据的属性集进行约简,借助粗糙集理论对适应度函数进行合理的构造,从而得到约简的分类属性组合,然后对约简后的属性集再利用经典的C4.5分类算法构造相应的决策树,从而得到遗传属性约简后相应的决策树。最后,将以上两种优化方案分别通过天气样本数据集和经典的分类UCI数据集进行测试,针对决策树分类的准确率、规则数目(叶子结点的个数)、分类属性的个数等方面,通过和直接利用C4.5算法构造的决策树进行比较。实验结果表明,在一定的条件下,遗传优化的决策树算法在不降低决策树分类精度的前提下,有效的减小了树的规模,进而增加了分类规则的可读性。
肖光磊[7]2008年在《名老中医经验传承中的数据挖掘技术研究》文中进行了进一步梳理中医学是中华民族的优秀文化遗产,在当今世界回归大自然的浪潮下,其优势越来越突出,地位也越来越重要。中医学是一门临床经验要求比较高的学科,当代中国名老中医的诊疗经验,是他们在临床实践中与中医学理论结合、突破、创新的结果,包含了中医基础理论的原则和名老中医的独创心得或见解,是发展中医药学的宝贵财富。因此对当代名老中医学术思想临证经验的继承不仅能丰富中医药学的理论体系,还能对整个医学科学的发展产生巨大的推动作用。对名老中医学术思想和临证经验的研究,传统的方法已经越来越显示其不足,应用现代科学技术对这些名老中医的临床诊疗经验进行科学解析显得尤为迫切。数据挖掘是一种有效的信息处理技术,采用数据挖掘技术对名老中医学术思想和临证经验进行研究,可以全面解析其中的规律,分析名老中医个体化诊疗信息特征,提炼出临证经验中蕴藏的新理论、新方法、新知识,实现名医经验的有效总结与传承。本文主要对名老中医经验传承中涉及的相关数据挖掘技术进行了研究,以一位名老中医的慢性胃炎临床诊断医案为原始数据,从不同的角度研究了若干算法在其中的应用。在关联规则挖掘方面,分析了关联规则的经典算法Apriori算法和FP-Orowth算法,并针对基于支持度一置信度的关联规则挖掘算法的不足,研究了一种基于遗传算法的正相关关联规则挖掘算法。最后采用FP-Growth算法和基于遗传算法的正相关关联规则挖掘算法对中医临床数据进行了挖掘,并将两种算法挖掘的结果进行了分析。在决策树分类方面,分析了决策树学习中的两个重要算法ID3算法和C4.5算法,根据C4.5算法具有较高算法精度及较强适应性的特点,将其应用到中医辨证分类中,以慢性胃炎的中医辨证数据为实验数据,建立了关于慢性胃炎的中医辨证分类决策树,并对其进行了分析。
刘信杰[8]2007年在《基于遗传算法和朴素贝叶斯分类的邮件过滤系统研究》文中研究说明电子邮件已成为人们日常通信交流的重要手段,然而垃圾邮件却成了当前的一个严重社会问题,因此,研究一种有效的邮件过滤系统具有十分重要的意义。当前基于内容分析的文本分类技术正逐步应用到邮件过滤技术当中,并成为当前研究的热点。其中朴素贝叶斯技术是基于内容分析的邮件过滤方法中的重要方法。本文利用遗传算法和朴素贝叶斯分类技术实现了一个中文邮件过滤模型,主要工作如下:(1)根据N-最短路径方法对中文邮件进行分词处理,利用空间向量模型在计算机中表示文本,然后进行特征提取。(2)基于朴素贝叶斯分类器原理,设计和实现了一个基于遗传算法和朴素贝叶斯分类器的中文邮件过滤模型,利用遗传算法对传统的朴素贝叶斯模型进行优化。在此基础上,提出一个计算邮件的发件人地址、主题和正文这叁个重要组成部分在邮件过滤时所占权重的算法GBFT,以获得较高的邮件过滤准确率和查全率。实验结果表明该算法具有较好的性能。(3)利用贝叶斯分类器对邮件进行分类的一般过程是计算概率,通过将概率与阂值比较判断待检测邮件是垃圾邮件还是有用邮件。本文提出了一个通过利用阈值对检测结果的影响来确定阈值的方法,并通过实验得出了一个比较合理的阈值,提高了结果的准确度。
黄慧君[9]2013年在《煤矿安全培训游戏过程数据挖掘技术研究》文中进行了进一步梳理在煤矿生产中矿难发生频繁,造成严重的人身安全及财产损失,其中不规范操作等人为因素是矿难发生的主要原因,而有效的煤矿安全培训能提高培训人员安全素质,是杜绝煤矿事故的重要手段。煤矿安全培训游戏通过用户与煤矿安全生产的仿真环境之间的相互作用,并借助人本身对所接触事物的感知和认知能力,帮助用户启发思维,全方位地获取生产环境所蕴涵的各种空间信息、逻辑信息和专业知识,从而提高培训效果。该游戏对用户的培训效果是该行业管理者最为关心的问题。用户在游戏中伴随其行为会产生的数据,间接反映着用户对煤矿安全生产的认识,这些数据可以用来对用户行为进行分析,所以将数据挖掘技术引入到煤矿安全培训游戏中,以此来分析用户的操作行为,更好的提高用户的培训效果以及改善游戏的管理。为了发现游戏中用户行为的关联性,以便为管理决策提供依据以及更好的服务用户,采用关联规则挖掘用户的行为关系,研究关联规则挖掘算法的优缺点,提出改进型遗传算法关联分析方法,首先使用改进的遗传算法查找出频繁项集,再生成强关联规则。针对煤矿安全培训游戏的数据属性多样性与复杂性,选用实数编码机制,设计基于关联规则的适应度函数,重点对遗传操作进行改进,给出改进的方法。分别对交叉与变异进行改进,从性能上与传统的遗传算法比较,该算法收敛速度快、效率高,与经典关联规则算法Apriori进行对比,该算法运行时间短。分析煤矿安全培训游戏的数据,对数据按获取方式与存储方式不同进行分类,随后对获得的数据进行预处理,整理出对用户行为分析有价值的数据建立模型,将上面设计的改进型遗传算法关联规则应用到煤矿安全培训游戏管理系统中,对建立的数据模型进行遗传算法编码,将数据转换成可供遗传算法关联规则挖掘的映射数据,以建立的映射数据模型作为研究对象,对模型的数据进行关联规则挖掘。采用Qt开发平台对煤矿安全培训游戏管理系统进行界面设计,最后得到满足给定最小支持度和最小置信度的关联规则,实现数据表以及数据挖掘结果可视化,生成报告,并对获得的关联规则结果进行合理的分析,说明这些规则的价值性,并提出相应的解决方案,为煤矿安全培训游戏管理决策提供指导。
李余琪[10]2007年在《遗传算法在数据挖掘中的研究与应用》文中研究表明数据挖掘是随着信息技术不断发展而形成的一门新学科,是数据库领域出现的一个新兴的研究热点。关联规则作为数据挖掘领域的一个重要研究分支,针对关联规则挖掘中经典算法-Aprior算法的局限性,在划分技术的基础上提出了一种基于遗传算法的关联规则挖掘模型。分类是数据挖掘中最重要的方法之一,决策树作为发现分类模型的常用技术现已被广泛研究并取得了很大的进展。然而,在决策树的构造过程中采用贪心算法,造成了决策树容易过分拟合、规模过大、产生的规则长度过长等缺点。针对这些缺陷,提出了一种基于遗传算法与关联规则算法的混合分类挖掘方法。研究工作围绕着遗传算法应用于数据挖掘研究展开,基本上分为四部分:(1)对KDD(Knowledge Discovery in Database)技术进行了总体上的概述,包括KDD的含义、一般过程、主要方法和技术、研究的现状及存在的问题等,为在这一领域进行更为深入的研究打下初步基础。在此基础之上对发现分类模型的各种技术以及关联规则挖掘算法进行了较为全面的研究。(2)对遗传算法的编码方法、适应度函数、遗传操作算子、参数的选择作了全面且深入的研究。(3)对提出的基于遗传算法的关联规则挖掘方法进行了全面的描述。(4)对提出的基于遗传算法与关联规则算法相结合的混合分类方法进行了全面的分析。最后,总结了遗传挖掘的特点,并进一步讨论了未来的研究方向。
参考文献:
[1]. 基于遗传算法的粗糙集属性约简方法研究[D]. 肖厚国. 大连海事大学. 2008
[2]. 基于数据挖掘技术的生产调度问题研究[D]. 王成龙. 浙江大学. 2015
[3]. 数据挖掘中关联规则算法的研究[D]. 苏蕊. 上海海事大学. 2007
[4]. 基于粗糙集属性约简和优化理论的数据挖掘方法研究[D]. 李玉龙. 东北石油大学. 2014
[5]. 面向社区智能服务的数据挖掘关键技术研究与实现[D]. 芦丹丹. 西安电子科技大学. 2012
[6]. 基于遗传算法的决策树优化算法研究[D]. 张冬冬. 兰州交通大学. 2014
[7]. 名老中医经验传承中的数据挖掘技术研究[D]. 肖光磊. 南京理工大学. 2008
[8]. 基于遗传算法和朴素贝叶斯分类的邮件过滤系统研究[D]. 刘信杰. 合肥工业大学. 2007
[9]. 煤矿安全培训游戏过程数据挖掘技术研究[D]. 黄慧君. 湖南大学. 2013
[10]. 遗传算法在数据挖掘中的研究与应用[D]. 李余琪. 中南大学. 2007
标签:计算机软件及计算机应用论文; 遗传算法论文; 数据挖掘论文; 决策树论文; 粗糙集论文; 关联规则论文; 生产调度论文; 大数据论文; 数据挖掘算法论文; 分类数据论文; 文本挖掘论文; 算法论文;