决策树在数据挖掘中若干问题的研究

决策树在数据挖掘中若干问题的研究

倪春鹏[1]2004年在《决策树在数据挖掘中若干问题的研究》文中研究表明决策树是一种有效的数据挖掘方法。进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的发展要求具有重要的理论和实践意义。本文对决策树算法中涉及的连续属性离散化问题进行了深入研究,提出了一种高效的离散化算法并对两种新型的改进决策树方法进行了研究,主要包括以下几个方面的内容:提出了一种将神经网络和决策树相结合的数据分类新方法。该方法首先依据属性重要性将属性进行排序,然后通过RBF神经网络进行属性裁减,最后生成决策树,并抽取出规则。与传统的决策树分类方法相比,此方法可依据属性重要性直接生成最小决策树,避免了树的裁减过程,大大加快决策树的生成效率,并进一步提高了规则的预测精度。分析了基于熵的离散化标准的切点特性,提出了一种高效的基于边界点属性值合并和不一致度检验的属性离散化算法。与传统离散化算法相比,此算法只对边界点属性值进行合并,切点个数无需设定自动生成,且合并规则简单易行,大大减小了计算量,适用于处理大规模高维数据库的连续属性离散化问题。同时由于采用了不一致度对备选切点集合进行调整使本算法具有全局性。提出了一种适合于大规模高维数据库的组合优化决策树算法。相比于传统的类似算法,该算法从数据的离散化,降维,属性选择叁方面进行改进,对决策树建立过程中不适应大规模高维数据库的主要环节进行了优化,有效解决了处理大规模高维数据库问题的效率和精度之间的矛盾。

郭炜星[2]2008年在《数据挖掘分类算法研究》文中研究表明随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式的增长。这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识,而传统的数据分析工具只能利用其中的很少一部分。近年来不断完善发展的数据挖掘技术恰恰能帮助人们从数据中发现大量的隐藏知识,而分类正是其中的极其重要的技术方法。准确率、速度、强壮性、可伸缩性、可解释性是评估分类方法的五条标准,其中准确率又是重中之重。本文在这几方面研究、分析了国内外比较流行的若干种分类方法:决策树分类、贝叶斯分类、神经网络分类、支持向量机分类等等。在这些方法中,决策树是采用最广泛的模型之一。本文重点以决策树为研究对象,研究涉及决策树建立过程中的各个主要环节,对决策树现在及未来发展中遇到的主要问题做了比较深入的研究,提出了一些切实有效的新方法改善决策树的性能,为决策树的进一步应用做出了自己的贡献。本文所涉及的决策树与其它数据挖掘方法交叉的共同环节,如属性选择、降维、连续属性离散化等不仅可以用来改善决策树的性能,也可用于改善其它数据挖掘方法,对于数据挖掘技术的发展具有积极的意义。本文主要研究工作包括以下几个方面:(1)引入了一种新的降维方法;(2)提出了加权二分查找算法进行连续属性离散化;(3)改进了传统的基于信息熵的属性选择标准;(4)基于以上叁方面工作,对传统决策树进行优化整合,给出了改进算法的流程,并通过实验数据与C4.5算法进行比较,证明了该算法的优势。

李国徽[3]2007年在《数据挖掘在初中学生管理中的应用》文中提出教学质量和学生的辅导工作是每一所学校所注重的问题。它与评价和改善教学管理的各种因素息息相关。怎样从学生成绩诸多的数据中发现有效的数据,并能为教学起到指导作用;怎样在对学生调查表的反馈信息中找到有效信息。这些都是我们教育工作者所关注的。本文根据以上原因研究如何将数据挖掘技术与成绩管理,“问题学生”管理分析系统相结合,从大量数据中提取出隐藏在数据之中的有用的信息。同时根据当前成绩管理的具体情况,介绍了数据挖掘相关知识,详细分析比较了数据挖掘技术的有关内容,决定选取诀策树方法及粗糙集理论应用到学生成绩分析系统。并在文中阐述了成绩管理的作用、现状以及现有成绩管理的不足,对决策树算法及粗糙集理论进行了详细的介绍,对各自在成绩管理中的作用进行了详尽的阐述,同时对“问题学生”管理分析系统如何运用挖掘技术也有了简单的介绍。利用挖掘技术对“问题学生”管理分析系统中数据的分析,以及应用ID3算法对不同课程类型的学生成绩进行分析,找出影响学生成绩的潜在因素,使学生能够较好地保持良好的学习状态,从而为教学部门提供诀策支持信息,促使更好地开展教学工作,提高教学质量;应用粗糙集理论对我校某教学班级的数学成绩进行分析,找出对学生总体成绩影响最重要的因素,以便为数学教师改变教学方式和方法、提高整体教学质量方面提供依据,该方法还可以推广到对其他教学班不同考试科目的成绩进行分析,从而为进一步完善成绩管理系统提供技术支持。

卢东标[4]2008年在《基于决策树的数据挖掘算法研究与应用》文中进行了进一步梳理数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,已经被广泛应用于金融、保险、政府、教育、运输以及国防等领域。数据分类是数据挖掘中一个重要的内容。分类存在很多方法,常见的分类模型有决策树、神经网络、遗传算法、粗糙集、统计模型等。其中决策树算法是以实例为基础的归纳学习算法,以其易于提取显示规则、计算量相对较小、可以显示重要决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一。然而在实际的应用过程中,现存的决策树算法也存在很多不足之处,如计算效率低下、多值偏向等。因此,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的应用要求具有重要的理论和现实意义。本文针对上述数据库知识发现的不足,进行深入的研究,探索数据挖掘中决策树分类的优化算法,以便更好地提高分类的准确性,更好地应用于实际工作中。本文主要的研究工作如下:第一,从宏观上介绍了数据挖掘和分类技术的理论基础,并重点对几种常见决策树算法进行了分析和比较,例如ID3、C4.5、CART算法。第二,详细地分析了利用决策树方法对数据进行分类挖掘时常见的几个问题:属性值空缺、连续属性的处理、过度拟合数据等。这些问题都会导致决策树的分类精度下降,因此在构建决策树时必须选择合理的策略,提高决策树的分类精度。第叁,本文对决策树算法进行了优化研究,对属性值空缺、属性选择多值化、属性选择标准等问题提出了具体的解决办法。本文还提出了加权简化熵的概念,并对ID3算法进行了改进,经过比较,改进算法在总体性能上优于目前广泛应用的ID3算法。第四,利用新的决策树算法在一个棉纺厂的设备管理系统中进行数据挖掘,为厂家的决策支持提供了科学、准确的根据。

王涛[5]2007年在《数据流挖掘分类方法关键技术研究》文中进行了进一步梳理随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,导致数据出现了爆炸性增长。与此形成鲜明对比的是,对人们决策有价值的知识却非常匮乏。但是如何从海量数据中获取有价值的知识以指导人们得决策,是当前数据分析领域所面临的主要的热点和难点问题。知识发现与数据挖掘正是在这一背景下诞生的一门新学科。数据流挖掘作为从连续不断的数据流中挖掘有用信息的技术,近年来正成为数据挖掘领域的研究热点。由于数据流的快速到达和数据规模巨大等原因,传统数据挖掘技术难以满足其要求,也面临着一些新的挑战。分类技术是数据挖掘中一个非常重要的研究领域,也是数据挖掘领域商业应用最成功的技术之一。数据流模型自身的特点给数据流环境下的分类技术带来了新的挑战,本文的研究工作聚焦于数据流分类技术。从提高分类速度、提高分类精度和处理概念漂移叁个方面着手,提出了一系列的高效算法。针对数据流挖掘中连续属性的处理问题,我们在VFDT的基础上提出了基于排序二叉树的分类算法VFDTb,通过改进VFDTc的信息增益函数计算方式,该算法有效地减少了连续属性最佳划分节点选取的时间开销,从而在保持决策树大小和分类精度不变的基础上提高了分类速度。实验结果显示:相比VFDT,VFDTb的分类速度平均提高25%。线索化二叉排序树是一种高效的动态插入排序结构,基于该结构,在VFDT和VFDTc的基础上,我们提出了一种分类新的分类算法VFDTt,理论分析表明该算法具有更低的时间复杂度:(1)相比VFDT,VFDTt的样本插入时间复杂度由O(n~2)降低到O(nlogn)。当新样本到达时,VFDTc需要更新O(logn)个属性树结点,而VFDTt只需要更新相应的一个结点即可;(2)改进了VFDTc中连续属性最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的结论,相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳结点,备选划分节点数由O(n)降低到O(logn)。模糊决策树是决策树理论和模糊理论的有效结合,它既具有决策树分类精度高、计算量小和生成模型容易理解的优点,也具有模糊理论在处理不确定信息方面的优点。本文通过对模糊决策树研究领域的分析,指出了模糊决策树的优点和可能存在的问题,并分别从属性选择标准、模糊决策树构造及停止标准叁个方面对相关研究工作分别进行了深入的研究与探讨。在此基础上,提出了数据流挖掘环境下的增量模糊决策树算法IFVFDT,通过和VFDTt(或VFDTb)的有效结合,该算法利用平滑离散化方法处理连续属性中的噪声数据问题,在保持分类速度的同时提高了分类精度。实验结果显示:IFVFDT比VFDT平均执行时间减少16.66%,IFVFDT比VFDTt平均执行时间减少8.87%;在10%噪声数据情况下,VFDT的分类错误率逼近于12.5%,而IFVFDT的分类错误率逼近于8%。由于概念漂移的存在往往导致分类模型精度的下降,概念漂移问题也成为数据流挖掘中需要解决的最重要问题之一。Hulten等的CVFDT利用备选子树的方法,有效地处理了概念漂移问题。在CVFDT的基础上,我们提出了基于扩展哈希表的概念漂移处理算法HashCVFDT。该算法实现了概念漂移处理所需要的样本高效删除。通过哈希表和链表的有效结合,不仅保持了哈希表所具有的插入和查找快速的优点,而且使扩展哈希表的高效有序输出。该算法在样本插入与删除、划分节点的选取方面都具有很好的效率。实验结果表明,该算法对概念漂移问题的处理具有很好的扩展性和稳定性。

程代娣[6]2010年在《决策树在高职院校毕业生就业工作中应用研究》文中认为随着数据的海量增加、市场竞争加剧以及对知识的迫切需求,数据挖掘技术已经成为目前人们关注的热点。数据挖掘技术的研究领域较为丰富,其中分类是数据挖掘研究的一个重要研究方向。对它进行深入研究有着重要的理论意义和应用价值。分类首先是通过分析输入数据来构造一个分类模型,然后利用该模型将数据库中其他数据项映射到某一个给定的类别中。常见分类方法有决策树分类、神经网络分类、贝叶斯分类等,其中决策树方法在构造简单、可理解度、通用性和速度快等方面优于其他的分类方法。本文选择将决策树分类方法应用于高等职业院校毕业生就业工作分析中。随着我国教育体制的不断改革,高校招生规模日益扩大,其中高等职业教育发展尤为迅速,已经成为我国高等教育的重要组成部分。当前大学毕业生就业问题日益突出,已经成为社会普遍关注问题。为指导学生应业,许多高职院校都建立了毕业生就业信息管理系统,用以跟踪学生就业状况。本文在对数据挖掘的概念、算法、实际的挖掘过程等进行详细论述的基础上,针对高职院校就业信息管理系统中积累的大量数据,以安徽警官职业学院08届毕业生就业分析为例,运用数据挖掘中的决策树方法C4.5算法对相关的毕业就业数据进行分类。首先确定本文数据挖掘对象及目标、样本采集、采用数据集成、数据清理、数据转换、数据消减等数据预处理技术;其次采用C4.5决策树算法生成决策树;再次根据就业数据的特点,利用事后修剪法对决策树进行修剪,对决策树进行了一定的修正;最后由决策树产生分类规则,并评估了分类法的准确率。利用挖掘出的潜在规则为就业指导工作提供决策依据,从而推进高校就业制度改革,实现高职院校毕业生更快更好的就业。

张冬冬[7]2014年在《基于遗传算法的决策树优化算法研究》文中认为随着网络技术和数据库管理系统的快速发展,不同领域的企业内部都积累了海量的数据,这使得以往的数据分析工具和技术已经无法满足数据信息处理的需求,进而造成数据资源的巨大浪费。于是如何寻找这些数据中所存在的巨大信息和知识,为企业所用,成为人们关注的新视角。数据挖掘就是自动发现海量数据中隐含的、有潜在用途知识的一种新技术。其中,分类和预测是一种重要的数据挖掘研究任务。目前,决策树算法以其分类的准确率高、速度快、分类规则易于理解而作为数据挖掘分类技术中最常用的方法,评价决策树性能好坏主要取决于决策树模型分类预测的准确率和复杂度。C4.5作为经典的决策树分类算法,具有很好的分类精度(准确率),但是由于其在树的构造过程中采用贪心算法,因此构造的决策树往往存在过度拟合,规模过大等缺陷。而遗传算法是一种全局优化的智能搜索算法,具有潜在的并行性和可扩展性,容易与其他算法相结合。因而,将遗传算法组合应用到决策树分类算法C4.5中,通过两种不同的思路对决策树进行优化:(1)通过深入分析决策树经典算法C4.5的基本原理,总结出该算法在平衡决策树的分类精度和规模控制等方面的不足,从实用的角度提出了在构建决策树时应权衡好决策树的分类精度和树的规模。针对遗传算法具有搜索全局最优的特点,第四章将遗传算法直接用于决策树的优化,由于C4.5算法生成的决策树分类精度还是较高的,则先利用C4.5算法生成初始的决策树种群,可以有效地避免遗传算法刚开始盲目的搜索,但由于树的不易编码性,于是将初始种群中的决策树转换成相应的规则集,然后对规则集进行编码,通过设定适当的适应度函数和遗传操作,从而得到优化后的决策树。(2)在现实生活中,数据集中的属性对分类问题并不都是有效的,有些可能是不相关、冗余的属性,因而在数据集进行分类之前,对属性集进行合理的约简具有很好的研究价值。于是第五章提出利用遗传算法的全局寻优能力首先对数据的属性集进行约简,借助粗糙集理论对适应度函数进行合理的构造,从而得到约简的分类属性组合,然后对约简后的属性集再利用经典的C4.5分类算法构造相应的决策树,从而得到遗传属性约简后相应的决策树。最后,将以上两种优化方案分别通过天气样本数据集和经典的分类UCI数据集进行测试,针对决策树分类的准确率、规则数目(叶子结点的个数)、分类属性的个数等方面,通过和直接利用C4.5算法构造的决策树进行比较。实验结果表明,在一定的条件下,遗传优化的决策树算法在不降低决策树分类精度的前提下,有效的减小了树的规模,进而增加了分类规则的可读性。

曹丽英[8]2009年在《决策树在耕地地力等级评价中的应用研究》文中研究说明近年来,随着人口的增长和社会经济的快速发展,“人口、资源、粮食、环境”的结构性问题已经引起了全球的普遍关注。耕地地力的好坏直接影响到农业的可持续发展和粮食安全。土壤是农业生产的基础,耕地是人们赖以生存、不可替代的最基本的生产资料。耕地是土地的精华,是农业生产最重要的资源。作为耕地质量评价的重要范畴,耕地地力划分的任务之一就是摸清一定区域内耕地的质量、数量及其空间分布状况。开展耕地地力评价,是加强耕地质量建设和合理利用土地的重要基础。搞好耕地地力评价的主要意义在于为合理利用土地资源、防止土地退化、耕地改良利用、耕地质量保护与建设、粮食安全和农业结构调整创造条件。为此,本文以吉林省德惠市为试点进行了耕地地力调查,利用数据挖掘技术,选取SQL Server2000、Java和EXCEL作为开发工具,实现了对耕地地力的调查评价,为耕地地力等级划分建库、编辑、查询、检索和更新提供了一套顺畅的技术,取得了一定的进展。通过采用传统土壤调查方法与数据挖掘技术相结合,从吉林省德惠市的图斑数据源随机抽取20条记录,以地力等级为对象,从有机质、全氮、速效磷、速效钾四个方面来分析德惠市耕地地力等级问题,采用常用的数据挖掘中的分类算法——决策树算法,建立了吉林省德惠市耕地地力评价模型,然后应用此模型对15326条记录进行训练,得到分级结果与用层次分析法所做的分级结果进行比较,耕地地力等级分级结果基本一致,证明此方法可用于耕地地力等级评价。在地力评价方法上进行了有益探索。本文在研究过程中,构建软件系统应用于耕地地力等级划分,通过参数计算和成果图输出的自动化,摸索出了一整套运用数据挖掘技术开展耕地地力调查与质量评价的有效工作方法和技术流程,从而大大减少了数字化编辑的工作量,提高了工作效率。

房祥飞, 刘希玉[9]2006年在《决策树在数据挖掘中的新进展和发展前景》文中研究说明决策树是数据挖掘分类方法的一种。本文简单介绍了决策树及其生成过程和算法;着重叙述了决策树近年来在数据挖掘中的主要进展,探讨了各个方面的优缺点;讨论了目前决策树技术面临的挑战和发展前景。

成蓬勃[10]2007年在《基于数据挖掘技术的配电网故障诊断研究》文中认为本文紧紧围绕配电网故障诊断方法的改进这个主题,着眼于改进人工智能方法在配电网故障诊断系统应用,分析了各种人工智能方法在故障诊断中的应用特点,加强了数据挖掘技术在配电网故障诊断中的应用研究。本文首先讨论了配电网故障诊断的要求和意义,以及当前采用的故障诊断方法和存在的问题,随后对数据挖掘技术进行了详细介绍,并且尝试将数据挖掘技术中常用的粗糙集理论、神经网络技术和决策树的方法应用于配电网中。本文尝试将粗糙集的理论和方法用于配电网故障特征提取中。粗糙集是一种处理模糊和不确定知识的数学工具,它的最大优点是无需提供除问题相关的数据集合以外的任何先验信息,比较适合发现数据中隐含的、潜在有用的知识。研究表明,用粗糙集方法对配电网故障进行特征提取,效果较好。本文针对配电网故障非线性的特点和神经网络所具有的很强的学习能力、适应能力和鲁棒性的优点,用神经网络对配电网故障进行分类,并且采用VB语言作为开发工具,调用Matlab神经网络工具箱建立一个简化的故障诊断系统,并通过配电网实例验证了方法的正确性。本文尝试将多变量决策树的方法用于对配电网故障进行诊断,研究结果表明,该方法切实可行。

参考文献:

[1]. 决策树在数据挖掘中若干问题的研究[D]. 倪春鹏. 天津大学. 2004

[2]. 数据挖掘分类算法研究[D]. 郭炜星. 浙江大学. 2008

[3]. 数据挖掘在初中学生管理中的应用[D]. 李国徽. 辽宁科技大学. 2007

[4]. 基于决策树的数据挖掘算法研究与应用[D]. 卢东标. 武汉理工大学. 2008

[5]. 数据流挖掘分类方法关键技术研究[D]. 王涛. 国防科学技术大学. 2007

[6]. 决策树在高职院校毕业生就业工作中应用研究[D]. 程代娣. 安徽大学. 2010

[7]. 基于遗传算法的决策树优化算法研究[D]. 张冬冬. 兰州交通大学. 2014

[8]. 决策树在耕地地力等级评价中的应用研究[D]. 曹丽英. 长春理工大学. 2009

[9]. 决策树在数据挖掘中的新进展和发展前景[J]. 房祥飞, 刘希玉. 信息技术与信息化. 2006

[10]. 基于数据挖掘技术的配电网故障诊断研究[D]. 成蓬勃. 广西大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  

决策树在数据挖掘中若干问题的研究
下载Doc文档

猜你喜欢