王霞[1]2007年在《数据挖掘在油田措施规划中的建模研究》文中进行了进一步梳理随着油田开发的不断深入,为保证企业在稳产的前提下取得较好的生产效益,急需对油田措施进行合理规划。油田措施规划的关键是建立科学合理的规划预测模型。目前常用的均为固定数学模型,预测精度低。措施效果预测的本质是一个复杂的非线性系统建模问题,数据挖掘中的人工神经网络具有高度的非线性映射能力,能够较好的解决这类问题。本文在对BP算法进行了深入研究并作了适当改进后,建立了高精度措施规划预测模型,并以该模型为基础对油田措施效果进行预测,取得了较好的效果。在研究过程中,针对遗传算法存在早熟及稳定性差等问题,提出了基于非线性调整的自适应遗传算法(NLSAGA),对交叉算子和变异算子进行了优化,实现了交叉率和变异率的非线性自适应调整;针对传统的BP算法收敛速度慢,易陷入局部极小等缺点,提出了基于跳跃梯度的LMBP算法,给出了局部极小点的判断条件及梯度增加的速率等规则。然后提出了综合利用NLSAGA的全局寻优能力和LMBP算法的快速收敛能力改进学习算法并优化网络结构的两种策略。最后利用已有的实验数据样本训练神经网络,验证了本文提出的预测模型,结果显示基于NLSAGA-LMBP2算法建立的模型预测精度更高。
盛文峰[2]2007年在《面向数据挖掘的遗传算法的研究与应用》文中进行了进一步梳理在商务智能系统中,传统的聚类分析虽已广泛地应用,但还存在一些问题,例如处理大数据量时收敛较慢,以及容易陷入局部极小值,即早熟问题。针对这些问题,本文提出了一种基于改进型遗传算法的聚类分析方法,并应用于一种面向中小型企业的联机分析处理系统HBIOLAP,实验表明,该算法具有较好的聚类质量和综合性能。首先,论文详细介绍了面向数据挖掘的相关技术,并对现有聚类分析技术进行了比较和说明。其次,针对现有聚类分析的收敛慢和早熟问题,提出了基于改进型的遗传算法的聚类分析,包括染色体的编码,适应度的计算,交叉及变异算子,同时对该算法的性能与其他聚类分析算法做了比较,实验结果表明,该算法具有较好的聚类质量和综合性能。最后,阐述了面向中小型企业的联机分析处理系统HBIOLAP的设计与实现,该系统包括了联机分析处理模块和聚类分析模块。并在具体的应用场景中,对超市销售数据进行挖掘,结果表明基于改进型的遗传算法的聚类分析在超市销售系统的实际应用中取得了良好的聚类效果。
石先军[3]2003年在《面向数据挖掘的遗传算法的研究与应用》文中进行了进一步梳理随着信息化时代的到来,信息资源的经济价值和社会价值越来越明显。从大量的数据资料中发现有价值的信息或知识,达到为决策服务的目的,成为非常艰巨的任务。 数据挖掘方法的提出使这一工作成为可能,其任务就是从大型数据库中获取隐藏于其中的知识。当前,分类挖掘是数据挖掘领域非常活跃的一个部分。为了从数据库中获取知识,我们需要设计一种挖掘算法能够有效搜索整个数据库。一般而言,作为搜索空间,大型数据库中包含着海量的内容,采用穷举的方法显然是不可行的。因此,采用一种有效的搜索策略是非常重要的。一种基于遗传算法的搜索策略目前已经在许多方面得到了成功的应用。本文首先分别介绍了数据挖掘、遗传算法的一些基本知识以及实现他们的一些基本技术,然后讨论了遗传算法在数据挖掘中的设计与应用,提出了一种基于精英重组的遗传算法,分析了它的收敛性特点及时间复杂性,并利用SQL编程语言将其用于adult及nursery school数据集,得到了较好的结果。
郑旭军[4]2007年在《基于后关系型数据库的医疗体检数据挖掘的研究与应用》文中进行了进一步梳理目前全世界已有成千上万个数据库系统在运行,几乎涉及人类社会生活的方方面面,无论是企事业内部的信息管理,还是各个行业的业务处理系统,以及一般的信息加工和情报检索无不以数据库技术为基础。而医疗领域由于其具有的医疗层次关系复杂、环节众多以及医疗数据结构的多维性等特点,使得采用传统的关系型数据库难以模拟出复杂的数据关系,并且存在着存取效率的问题。同时随着医疗卫生领域中计算机技术的迅速发展,大量有关于病人的病史、诊断、检验和治疗的临床信息,以及药品管理信息、医院管理信息等医疗信息可以被精确地记录下来,从而导致医疗数据资料爆炸性增长,如何从这些海量的医疗数据中,挖掘出有用的信息,了解各种疾病之间的相互关系和各种疾病的发展规律,总结各种治疗方案的治疗效果,这将对疾病的诊断、治疗和医学研究具有重大意义。·针对医疗领域数据的特点,本文利用Cache数据库所具有的面向对象以及多维数据结构的技术优势,将其作为数据挖掘的平台,并提出基于贝叶斯定理的损失评分函数,对医疗评价指标进行改进。同时构造了基于该损失评分函数作为遗传算法的适应度函数,并将该遗传算法与决策树算法相结合构建了混合算法(C4.5/GA),该混合算法可以改进决策树算法偏向于大数据集以及遗传算法训练时间过长的不足。通过构建的混合算法对医疗体检数据进行数据挖掘,并采用基于贝叶斯定理的损失评分函数作为医疗评价指标对医疗体检数据的模型进行评估,以发现高血压与个人的饮食结构、生活习惯、生活方式等方面的关系或规律,为降低高血压的患病率提供一定的帮助。
高乾[5]2008年在《基于遗传算法的关联规则挖掘》文中研究说明近几十年来,数据库技术和海量存储器等硬件的快速发展使得人们收集数据的能力得到进一步的提高。面对信息时代海量数据的出现,如何有效地利用大量的原始数据分析现状以预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得以迅猛发展。目前,数据挖掘已经成为一个研究热点。数据挖掘所得到的知识能够为决策支持提供依据。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。本文根据关联规则挖掘的要求与特点,结合遗传算法的思想,提出了一个基于遗传算法的关联规则挖掘方法,并通过实例分析,说明是一种具有实用价值的方法。文中主要在以下几方面做了深入的研究:首先对数据挖掘进行了评述,阐明了什么是数据挖掘,为什么要数据挖掘、如何进行数据挖掘、数据挖掘与机器学习、统计学等相关学科的区别与联系、数据挖掘的主要过程、分类等问题。介绍了数据挖掘中的一个重要算法——遗传算法。文中对遗传算法的产生与发展、遗传算法的主要理论、遗传算法的特性以及遗传算法的广泛应用都进行了简要的介绍。深入地分析与研究了关联规则。对关联规则的衡量标准作了系统的研究,针对基于支持度和置信度框架模型的局限性,引入了基于多变量的提升度,用来修剪无趣的规则,从而筛选出用户真正感兴趣的规则模式。在此基础上,提出一种基于遗传算法的关联规则挖掘算法,从编码方法、适应度函数的构造、交叉算子和变异算子的设计等方面进行了详细的讨论和分析。结合商品销售系统,给出了遗传算法进行关联规则挖掘的实例。
覃华[6]2003年在《基于遗传神经网络的CRM市场营销数据挖掘模型的研究》文中进行了进一步梳理客户关系管理是一种先进的管理理念,要求企业以客户为导向,整合内外流程,持续改进对客户的服务水平。CRM也是一种管理软件和技术,它将最佳的商业实践与数据挖掘、数据仓库、一对一营销,以及其他信息技术紧密结合在一起,为企业的销售、客户服务和决策支持等领域提供了一个业务自动化的解决方案,使企业有一个基于电子商务的面对客户的前沿,从而顺利实现由传统企业模式到以电子商务为基础的现代企业模式的转化。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术。它能挖掘出潜在的模式知识,找出最有价值的信息,用以指导商业行为或辅助科学研究。 本论文以目前CRM中的数据挖掘研究现状为基础,结合遗传算法、人工神经网络等高性能数据挖掘技术,并在参阅大量外文文献的基础上,取得了以下研究成果: 1、面向CRM的数据挖掘技术是本论文的研究重点,本文阐述了数据挖掘技术的产生背景、基本概念、技术特点及一般实施过程。数据样本的质量是保证数据挖掘得出可靠知识模式的前提,所以在进行数据挖掘前,要进行必要的数据预处理。对于数据集中的异常样本值,本文提出了一种解决方案:先删除异常的属性值,然后再用遗传BP神经网络模型进行预测填补,通过实验证明这种方案的可行性。这是本论文的一个创新点。 2、人工神经网络在CRM中已有许多成功的应用案例,例如银行信用卡欺诈检测等。最为常用的BP神经网络模型本身有许多无法克服的弱点,不利于它在CRM中的有效应用,因此,研究新的BP神经网络优化方法是本文的一个重要任务。遗传算法具有良好的全局寻优特性,本文提出了一种有叁层染色体结构的遗传算法,用于同时优化BP网络的拓扑结构及权值空间,本文的实验证明了这种方案的可行性。这是本论文的一个理论创新点。对于BP神经网络的优化,本文还提出了一种带平滑因子的BP算法,通过在BP算法中嵌入平滑因子,对权值空间进行平滑优化,并通过实验证明这种方法有助于BP网络性能的提高。这是本文的一个技术创新点。 3、在CRM中,对客户进行分类有着许多重要的意义。本文提出了用遗传BP神经网络进行客户分类的方案,并通过实验证实了这种方案的可行性。通过与经典的决策树分类模型进行比较,本文分类方案具有建模简单、扩展性好、容错能力强等优点。提出用遗传神经网络进行客户分类,这是本论文的一个创新点。 4、在现代电子商务中,客户的个性化营销是一个重要的研究课题。本文提出了利用协同过滤算法来挖掘客户最可能喜欢的商品项目的方案。对于协同过滤算法,通过实验讨论了它的一些关键参数的选择依据,最后通过实验验证算法的可行性。这是本论文的一个先进性。 5、CRM的一个重要功能就是为营销、决策提供预测参考信息。本文提出了利用平滑BP神经网络模型进行商品市场占有率时序预测的方案,并通过实验证明:这种模型比一般的BP神经网络模型预测精度稍高。通过与传统的状态空间预测模型作比较,说明本模型比状态空间模型具有更好的灵活性和更高的预测精度。提出用平滑BP神经网络进行营销预测,这是本论文的一个创新点。
刘潭仁[7]2004年在《基于粗糙集和遗传算法的空间数据挖掘技术研究》文中指出空间数据挖掘是数据挖掘(Data Mining)的一个分支领域,它在遥感(Remote Sense)和地理信息系统(Geographic Information System, GIS)中有着广泛的应用。从GIS中进行空间数据挖掘所发现的知识、可用于对空间数据(Spatial Data)的理解、空间知识库(Spatial Repository)的构造、空间数据库(Spatial Database)的重组和空间查询(Spatial Query)的优化等。在GIS系统中融合空间数据挖掘等技术构建的空间决策支持系统,在资源调查、评价、管理和监测,城市的管理、规划和市政工程、行政管理与空间决策,灾害的评估与预测、地籍管理及土地利用、交通、农业、公安等诸多领域发挥重要作用。本论文结合项目主要对空间数据挖掘技术和空间决策支持系统进行了如下几个方面的研究:首先对决策支持系统(Decision Support System,DSS)发展和决策支持系统体系结构进行了研究,提出了综合分布式空间决策支持系统体系结构,着重研究了分布式数据挖掘系统的系统结构。其次介绍了粗糙集(Rough Set)和遗传算法(Genetic Algorithm)的基本理论与方法,阐述了空间数据获取和利用粗糙集进行空间数据预处理的方法。第叁介绍了基于粗糙集和遗传算法的数据挖掘改进算法——基于属性核的遗传粗糙约简算法和其并行算法。给出了基于图结构的候选序列生成算法和Hib&Dim-FP算法。在论文给出的空间数据挖掘模型下,这些算法可用于空间数据挖掘。第四就空间规则的评价和可视化解析技术进行了研究,结合多维可视化技术和地理信息系统,概括出了空间规则评价和可视化解释方案。最后利用小叁峡监管原型系统验证了论文提出的各种理论和方案。原型系统实现了地物提取模型,伪彩色模型和空间预测报警叁个业务模型。总之,论文提出了一种利用粗糙集和遗传算法进行空间数据挖掘的方法,并通过原型系统论证了方法的可行性。论文的研究工作为项目的具体实施提供了关键技术指导。
陈莉[8]2003年在《KDD中的几个关键问题研究》文中研究说明I 摘 要 数据库中的知识发现(Knowledge Discovery in Database,KDD)是在应用需求的背景下产生并迅速发展起来的、开发信息资源的一套科学方法、算法及软件工具和环境,是集统计学、人工智能、模式识别、并行计算、机器学习、数据库等技术的一个交叉性的研究领域。KDD 是识别有效的、新颖的、具有潜在用处的可理解的数据模式的过程。一般地,KDD 由数据清理、数据集成、数据选择、数据变换、数据挖掘、模式(型)评估、知识表示等过程组成。KDD 有叁个重要的环节,即数据预处理、数据挖掘和结果可视化。 本文在详细分析国内外 KDD 研究现状的基础上,借鉴生物进化、计算智能、关系代数、petri 网等概念与理论,提出了基于自适应聚类、模糊聚类进行数据预处理的算法;基于关系代数和自适应混合算法集成的关联规则挖掘算法、泛化关联规则挖掘算法;分析了分类挖掘机理及文本分类与降维技术;针对现有的数据挖掘结果的可视化理论及技术,提出了基于 petri 网的鲁棒性的、统一的可视化模型;最后,实现了一个数据挖掘的应用实例,验证了文中有关算法和方法的有效性。主要研究内容如下: (1)数据预处理是确保数据挖掘成功的关键,文中将数据库理论与自适应并行优化算法相结合,给出了 KDD 与数据库/数据仓库无缝集成的 KDD 模型,并提出了基于自适应聚类与并行优化算法混合的数据预处理算法。仿真实验证明了算法的有效性,该算法可用于分类、聚类、关联规则等数据挖掘的预处理,并可推广到不同类型数据的数据预处理中。 (2)在数据预处理的基础上,提出了利用关系代数理论、数据库与 KDD 协同理论挖掘关联规则、泛化关联规则的算法,仿真结果表明了算法的有效性。与经典的 Apriori 算法相比,该算法只需扫描一次数据库,具有良好的并行性和可伸缩性,并易于推广到模糊关联规则的挖掘。 (3)分类是数据挖掘的主要应用之一。文中给出了分类挖掘的形式化定义,分析了分类挖掘的基本机理。在此基础上,提出了一种 Web 文档分类的基本框架,分析了用于文档分类的降维技术,给出了基于主分量分析和支撑矢量机的文档分类的基本思想,分析了仿真实验的结果。 (4)数据挖掘结果及数据挖掘过程的可视化表示是 KDD 的又一个重要的组成部分。在分析了现有可视化理论及表示方法的基础上,针对其不足,提出了用petri 网表示挖掘过程及挖掘结果的统一的、鲁棒性的框架,该方法也适用于动态规则的可视化表示。 (5)以陕北黄土高原多个地貌区为试验样区,在数字高程模型(DEM)所提取的数据集的基础上,挖掘各种地形因子对平均坡度的影响程度(国家自然科 雷达信号处理国家重点实验室<WP=6>II KDD 中的几个关键问题研究学基金项目(49971065)、国家高技术研究发展计划课题(2001AA130023)),以建立适合黄土高原多种地貌类型的,DEM 所提取的地面坡度随分辨率与地形变化的模型。实验结果具有很高的精度,证明了文中有关算法和方法的有效性。将KDD 和数据挖掘理论与算法用于地学信息处理是一种新的尝试,挖掘结果既有效地估算了地理空间数据的不确定性、非线性的关系特征,又从一个侧面揭示了黄土高原 DEM 地形信息容量变化的规律性,为建立黄土高原地形信息图谱提供了重要素材。
刘念涛[9]2008年在《基于蚁群算法的聚类分析方法的研究及应用》文中进行了进一步梳理由信息技术、网络技术的飞速发展所导致的“数据爆炸但知识贫乏”的现象日益严重,在这一环境下,数据挖掘应运而生并获得了快速发展,国内主流网站评比的未来十大热门技术中,数据挖掘技术占了一席之地。数据挖掘是一个多学科交叉的研究领域,涉及到数据库技术、人工智能、机器学习、统计学,知识获取、生物计算等多门学科的理论与技术,其发展必将大大影响全球信息化的进程,对其进行系统、深入、全面、详尽地研究是信息化发展的客观需要。而作为数据挖掘分析方法之一的聚类分析更是表现突出,在包括模式识别、数据分析、图象处理,以及市场研究等许多领域得到广泛的应用。本文对数据挖掘技术,尤其是聚类分析进行了较为系统的分析和研究,提出了一些想法和改进,主要包含以下内容:数据挖掘技术的概述。介绍了数据挖掘的概念,对数据挖掘的发现模式、数据挖掘的方法及应用进行了详细的分类、归纳和总结。聚类分析技术的概述。聚类是一种重要的数据分析技术,是数据挖掘理论框架中一个必不可少的部分,通过搜索并识别数据结合,从而描述数据,发现数据之间隐含的、有趣的相互联系。本文对聚类分析的定义、数据类型、聚类分析中的主要算法及度量标准作了简要的介绍和系统的学习。为本文的全面展开奠定了基础。蚁群算法的概述。蚁群算法是一种模拟群体智能的算法,在解决基于离散空间的问题时表现出良好的性能。本文由群体智能引出蚁群算法,并对蚁群算法的原理及特征做了简要的介绍。通过分析蚁群算法的优缺点,指出该算法的一点改进的研究方向。针对蚁群算法早熟、停滞及容易陷入局部最优等缺陷,借助蚁群算法与遗传算法相融合的思想并加以改进,将融合思想由解决离散域问题向更有效的解决连续域问题过渡,引出改进的基于交叉变异操作的蚁群算法,来提高蚁群算法的性能。提高性能的蚁群聚类组合算法的研究。在研究基本蚁群聚类模型的基础上,通过对公式、半径、空间分割的改进,借助于短期记忆的思想,提出了一种改进的基本蚁群聚类方法(ILF算法),通过改进,减少了参数的设置,降低了计算的时间,并具有较强的鲁棒性。结合K-means算法,提出了一种改进的基于信息素的K-means改进算法,通过对改进信息素的转移概率判断标准来进行聚类,减少了算法的参数个数,加快了聚类的进程。针对这两种算法的聚类特点,提出一种蚁群聚类组合算法策略,该策略首先利用改进的ILF算法来完成一次聚类过程,然后收集聚类结果样本,对样本数据再利用改进的基于信息素的K-means算法进行结果的后期优化处理,进行二次聚类过程,以此得到比单个算法更优的性能。最后对各种算法进行数据测试和性能分析,并把蚁群聚类组合算法用于银行信用卡客户的消费行为分析。
金微[10]2007年在《基于遗传算法的k-means聚类方法的研究》文中指出近年来数据挖掘引起了信息产业界的广泛关注,其主要原因是存在大量的可用数据,并且迫切需要将这些数据转换成有用的信息和知识。通过数据挖掘,可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。聚类分析是数据挖掘的一项基本任务,是一个无监督的学习过程,聚类的目标是在没有任何先验知识的前提下,将数据聚集成不同的类,使得相同类中的对象尽可能相似,不同类中的对象差别尽可能大。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系。 在聚类分析中,k-means算法可以说是应用较为广泛的一种算法,但它的一个致命弱点是对初始值非常敏感而且容易陷入局部极小值,而遗传算法是一种通过模拟自然进化过程搜索最优解的方法,其显着特点是隐含并行性和对全局信息的有效利用能力,因此产生了基于遗传算法的k-means聚类方法(GKA),它既能发挥遗传算法的全局寻优能力,又能兼顾k-means算法的局部搜索能力,从而更好地解决聚类问题,但其收敛速度与k-means算法相比就比较慢。本文以进一步提高算法收敛速度为目的,提出了一种改进的遗传k-means遗传算法。该算法是以GKA算法为基础,在允许个体包含空类的前提下对算法的各项操作作出改进;同时添加了增量式操作,对类中心和目标函数可以增量式计算,使算法的收敛速度得到了提高。本文还设计了一个聚类分析系统,利用该系统,经过实验验证基于遗传算法的k-means聚类方法的收敛效果要优于k-means算法;改进的GKA算法要比原GKA算法的收敛速度快,特别是当输入的变异概率比较小的时候,这种优势更明显。另外本文还提出将改进的GKA算法用于Web日志挖掘的用户聚类系统中。利用该算法对Web用户进行聚类可以避免初始值对聚类结果的影响,并且能搜索到全局最优解,更好的为用户提供个性化服务以及对Web站点进行改进优化。
参考文献:
[1]. 数据挖掘在油田措施规划中的建模研究[D]. 王霞. 中国石油大学. 2007
[2]. 面向数据挖掘的遗传算法的研究与应用[D]. 盛文峰. 上海交通大学. 2007
[3]. 面向数据挖掘的遗传算法的研究与应用[D]. 石先军. 武汉大学. 2003
[4]. 基于后关系型数据库的医疗体检数据挖掘的研究与应用[D]. 郑旭军. 华东师范大学. 2007
[5]. 基于遗传算法的关联规则挖掘[D]. 高乾. 曲阜师范大学. 2008
[6]. 基于遗传神经网络的CRM市场营销数据挖掘模型的研究[D]. 覃华. 广西大学. 2003
[7]. 基于粗糙集和遗传算法的空间数据挖掘技术研究[D]. 刘潭仁. 重庆大学. 2004
[8]. KDD中的几个关键问题研究[D]. 陈莉. 西安电子科技大学. 2003
[9]. 基于蚁群算法的聚类分析方法的研究及应用[D]. 刘念涛. 山东师范大学. 2008
[10]. 基于遗传算法的k-means聚类方法的研究[D]. 金微. 河海大学. 2007
标签:自动化技术论文; 遗传算法论文; 数据挖掘论文; 蚁群算法论文; 聚类论文; 关联规则论文; 大数据论文; 空间数据论文; 模糊聚类分析论文; 数据挖掘算法论文; 预测模型论文; 文本挖掘论文; 空间分析论文; 分类数据论文; 面向过程论文; 数据分析论文; 算法论文;