数据挖掘分类算法的研究与应用

数据挖掘分类算法的研究与应用

王明星[1]2014年在《数据挖掘算法优化研究与应用》文中提出随着现代社会的高速发展,各种各样的信息以及数据呈现爆炸式的增长,积累的信息和数据越来越多。这些存放在媒介中的海量数据,在没有外部工具的帮助下,人们很难从这些巨大的数据量中找到有用的信息,这些数据将成为垃圾数据。数据挖掘技术的出现,很好地解决了这个问题。数据挖掘技术可以从大量的数据中分析学习数据中对用户有用的模式和规则,利用这些学习到的模式和规则,当有新的样本数据的时候,可以根据已有的模式和规则来预测样本数据可能的特性。数据挖掘分类是数据挖掘的重要步骤之一,而在数据挖掘分类算法中,决策树分类算法是数据挖掘中应用较广的一种分类算法,它主要有ID3分类算法和C4.5分类算法,ID3有着简单易操作的优点,但也有着偏向于处理小数据集,以及只能处理离散属性的缺点,C4.5算法可以很好的弥补ID3算法对连续属性的处理不足的缺点,但C4.5算法同样有着处理增量学习和大数据量问题的不足。解决决策树算法的增量学习问题就是本文研究的切入点。本文主要对数据挖掘中的分类算法进行详细的介绍和描述,然后将分类算法和数据挖掘增量学习技术相结合,提出了一种增量式决策树算法来解决决策树经典算法的增量学习问题,并对该算法进行了实验数据分析。针对数据挖掘中常见的分类算法,包括:决策树分类算法、最近邻居算法和神经网络这叁种最常见分类算法,进行了详细的介绍和描述,并对这叁种算法的分类性能进行了比较研究。本文选取决策树分类算法中ID3算法和C4.5算法进行详细的研究,详尽的介绍了这两种分类算法的基本步骤,包括决策树生成和决策树剪枝的基本步骤并列举实例来演示算法的原理。同时分析了ID3算法和C4.5算法的优缺点;最后,根据前面对ID3算法和C4.5算法的性能和优缺点分析,综合贝叶斯分类算法的增量学习特性,提出了一种增量式决策树算法,并通过分析实验数据,该算法很好地解决了决策树算法的增量学习问题。

李正杰[2]2016年在《基于Hadoop平台的数据挖掘分类算法分析与研究》文中研究说明随着互联网等技术的发展,数据的总量以及类型将会越来越丰富。收集、分析并运用这些丰富的数据,是如今和未来数据发展的一个主流。其中,对数据进行有效准确快速的分类,是首先需要解决的任务。传统的数据挖掘分类算法往往无法快速有效地处理大规模数据。Hadoop作为一个优秀的云计算平台,能够对海量数据进行高效、快速以及可靠的处理。本文具体说明了Hadoop平台、数据挖掘及其分类的相关概念,然后深入分析了支持向量机(SVM)算法、K-近邻(KNN)算法以及朴素贝叶斯(NB)算法这叁种性能优秀的数据挖掘分类算法,由于它们各种各样的缺点让分类的结果达不到理想的状态,因此本文对这叁种分类算法进行了分析,并通过改变计算方式和加入权重系数等方式对算法进行改进,融合各种算法的优点,摒弃它们的缺点,提出了SVM_KNN分类算法以及SVM_WNB分类算法,以解决处理上的不足。同时在这个基础上本文介绍了算法并行化的可行性和思路,将提出的两种改进算法在Hadoop云计算平台上进行并行化地处理,使得算法可以对庞大的数据进行有效地处理。最后通过实验可以发现,经过并行化处理后的算法在处理海量数据时,在处理时间和准确性上,都有了较大的提高,它们的加速比也在逐渐增大。因此可以得到结论,能够使用改进后的新算法处理大数据,并且可以预见分类效果将会得到显着的提升。

段蕾[3]2008年在《数据挖掘分类技术及其在CRM中的应用研究》文中研究指明近年来,现代市场营销理念和商业运作方式的核心逐步向客户关系管理(CRM)转移,CRM是一个将客户信息转化成为积极的客户关系的过程。随着客户信息的日趋复杂、客户数据的大量积累,分析复杂的客户数据,发现客户行为趋势,挖掘客户对企业的真正价值逐渐成为企业成功的关键因素,决策者迫切需要将海量数据转换成有价值的信息和知识。数据挖掘的出现为这一需要提供了有力的技术支持。数据挖掘在CRM中的有效运用可以从大量的客户数据中挖掘出对企业经营决策有价值的知识和规则。而分类方法是目前商业领域中应用最广泛的数据挖掘技术。分类及其在CRM中的应用研究已经成为学术界和企业界共同关注的领域。本文首先介绍了客户关系管理、数据挖掘、数据挖掘技术在客户关系管理中应用的基本理论,提出了数据挖掘技术处理CRM专业问题的详细流程。然后介绍了分类的一般过程、目前常用的分类算法;对现有的算法评价指标做了系统的概括和总结,针对这些指标在处理CRM领域具体问题时的不足,提出了一种评价指标体系,为CRM领域中应用分类方法时的总结和评价提供了新思路。同时,在研究现有分类算法的基础上,根据CRM领域问题的实际需求,提出了一种新算法。最后将新的评价指标体系和算法应用到汽车销售领域客户发现问题中,为分类技术在该领域的应用提供了一个详尽的解决方案,建模结果也证明了指标体系和新算法的科学性和实用性。在此基础上,进一步构建了分类技术应用于CRM领域的系统框架,该系统框架对于解决CRM中分类方法的应用问题具有一定的代表性,也为数据挖掘技术在CRM领域的应用发展做出了一些新的探索和尝试。随着数据挖掘分类技术的进一步发展和深化,这一研究领域也体现出越来越重要的研究价值。同时,分类技术在电子商务时代CRM中的进一步深入应用,必然使CRM具有更广泛的市场价值,为CRM带来更广阔的应用前景。因此,本文关于数据挖掘分类技术及其在CRM中应用的研究主题具有重要的学术价值和现实意义。

陈晓康[4]2016年在《基于Spark 云计算平台的改进K近邻算法研究》文中进行了进一步梳理随着现今时代信息的飞速发展,互联网已经步入大数据时代。在面对海量的数据,用户如何快速找到满足自己需求的信息成为学术界急需研究的热点难题。互联网海量数据导致数据挖掘技术要求变得越来越迫切。通过数据挖掘方法,系统可以实现从海量数据高效挖掘出精准数据。数据挖掘中的分类算法是预测数据趋势、推荐迎合用户意愿数据的有效手段。K近邻分类算法又是查询大规模空间数据的常用数据挖掘分类算法之一。算法在云计算平台运行,可以进一步提高数据挖掘算法的运算速率。Spark云计算平台是基于Hadoop云平台的进一步优化,不同于Hadoop的完全依赖HDFS文件系统,Spark实现了在内存中处理数据集,进一步提高了云平台的数据处理速度。针对用户快速获取信息的需求,本文在Spark云计算平台上,使用并行化的改进K近邻分类算法实现为用户快速提供推荐数据的目标。本文提出两个优化点:第一,本文对K近邻分类算法索引创建技术进行改进,提高算法查找最近邻数据点的效率。传统的K近邻分类算法主要制约因素是查找最近邻数据点效率低,Kd Tree是应用于K近邻分类算法索引创建的查找效率较高的数据结构。影响Kd Tree的运行效率主要在于算法运行过程最近邻节点查找中对非叶子节点的回溯。本文通过优化Kd Tree中待分类数据点范围与分割平面线的相交概率,减少K近邻分类算法在查找最近邻数据点时回溯节点的数目,实现提高K近邻分类算法的分类效率。第二,本文优化算法运行的环境,实现了提高算法分类效率的效果。本文对改进的K近邻分类算法实行并行化,使算法能很好的适应云计算平台的数据处理模型。本文使用Spark云计算平台环境实现并行化的改进K近邻分类算法,在保证算法准确度的前提下,提升了算法的分类速度。在实验数据选取上,本文选用了UCI机器学习数据集。实验对比单机情况下传统K近邻分类算法和改进K近邻分类算法的效率和准确率、Spark云平台上改进K近邻分类算法和单机上改进K近邻分类算法的算法处理效率,得到在Spark云平台运行的改进K近邻分类算法,在保证算法分类准确率的前提,较大的提高了算法效率的结论。

赵凤霞[5]2009年在《基于复杂网络的数据挖掘分类问题研究与应用》文中提出随着信息技术的快速发展,特别是计算机技术的不断普及,“数据丰富而信息贫乏”这一矛盾显得日益突出,数据挖掘技术正是迎合了这一需求,同时结合数理统计、人工智能、神经网络和信息技术等学科出现的一项新技术,并得到了迅速发展。数据挖掘的主要目的是从数据集中发现隐含的、事先未知的和用户感兴趣的知识。作为一种有效的数据分析技术,近年来分类(Classification)已成为数据挖掘领域中的一项重要研究内容,并广泛应用于商业、电子商务、基因工程和医学等诸多领域。复杂网络作为一门新兴学科,在不同的领域(如生态、人口、经济、社会、地理、军事、医学)中有着很强的应用背景,倍受广大学者的青睐和关注,已成为一个充满生命力的交叉研究领域。一切事物都是相互作用的表现,大多可以通过复杂网络来表现,如物理学研究物体间最基本的相互作用;化学研究分子间的相互作用;生物学研究基因、蛋白质以及生物体之间的相互作用;社会科学研究人和各种人类组之间的相互作用;分类问题研究数据点之间的相互作用。因此,事物作为系统,其结构可以抽象为网络,各类作用体抽象为网络节点,各种相互作用抽象为节点之间的连接线或边。基于这种思想,本文将数据集按照某种度量抽象成为复杂网络,结合复杂网络的理论、成果和已有的某些分类、聚类方法对数据挖掘分类问题进行了相关研究,提高了对大型数据库中的数据进行分类的能力,具有一定的研究价值。复杂网络的社团探测与数据挖掘中分类、聚类问题在本质上是一样的,因而社团探测的研究和分类问题的研究在某种角度上是一脉相承的。本文在复杂网络的基础上,对分类问题做了以下叁个方面的工作:提出了一种基于K-means聚类算法的复杂网络社团结构划分方法,丰富和发展了复杂网络社团探测理论和方法。算法基于Fortunato等人提出的边的信息中心度,定义了节点的关联度,并通过节点关联度矩阵来进行聚类中心的选择和节点聚类,从而将复杂网络划分成K个社团,然后通过模块度来确定网络理想的社团结构。该算法时间复杂度为线性的,适合大型网络的社团发现。通过Zachary Karate Club和CollegeFootball Network两个经典模型验证了该算法的可行性。遗传算法作为一个成熟的理论,在分类方面有着很大优势,结合复杂网络的部分新理论和遗传算法的思想,提出了一种新的分类方法。该方法将数据集按给定的相似度公式构造出具有社团结构的网络,在此网络的基础上用遗传算法的思想进行分类。算法引进社团模块度作为适应度函数,并且提出了节点归类错误率(NCM)对每次迭代产生的解进行纠错,提高了分类质量和速度。实验证明该方法在分类精度和分类速度方面都非常理想,并可实现并行性,将遗传算法的优点发挥到极致。医学图像分类对实现智能化诊断系统有着重要的实际意义,是典型的分类挖掘问题之一,同时也是一个热点的应用研究课题。为了建立高效的肿瘤自动诊断系统,克服因医学MIR图像的复杂性带来的直接从图像中看出肿瘤及良、恶性质的困难,结合复杂网络的部分理论成果和K-means聚类算法的思想,提出了基于加权复杂网络聚类的医学图像分类器。该分类器对医学图像进行预处理,建立图片特征库,构建图片加权复杂网络,在此基础上根据网络节点的加权网络特征值和连接度选取初始聚类中心进行聚类,有效地克服了传统K-means聚类算法对初始化选值敏感性的问题,从而大大提高了分类精度。通过对某医院PACS系统中的部分MIR脑部图片进行分类,表明了该方法的分类精度比传统的K-means聚类算法平均提高了8%左右。

卢东标[6]2008年在《基于决策树的数据挖掘算法研究与应用》文中指出数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,已经被广泛应用于金融、保险、政府、教育、运输以及国防等领域。数据分类是数据挖掘中一个重要的内容。分类存在很多方法,常见的分类模型有决策树、神经网络、遗传算法、粗糙集、统计模型等。其中决策树算法是以实例为基础的归纳学习算法,以其易于提取显示规则、计算量相对较小、可以显示重要决策属性和较高的分类准确率等优点而得到广泛的应用。据统计,目前决策树算法是利用最广泛的数据挖掘算法之一。然而在实际的应用过程中,现存的决策树算法也存在很多不足之处,如计算效率低下、多值偏向等。因此,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的应用要求具有重要的理论和现实意义。本文针对上述数据库知识发现的不足,进行深入的研究,探索数据挖掘中决策树分类的优化算法,以便更好地提高分类的准确性,更好地应用于实际工作中。本文主要的研究工作如下:第一,从宏观上介绍了数据挖掘和分类技术的理论基础,并重点对几种常见决策树算法进行了分析和比较,例如ID3、C4.5、CART算法。第二,详细地分析了利用决策树方法对数据进行分类挖掘时常见的几个问题:属性值空缺、连续属性的处理、过度拟合数据等。这些问题都会导致决策树的分类精度下降,因此在构建决策树时必须选择合理的策略,提高决策树的分类精度。第叁,本文对决策树算法进行了优化研究,对属性值空缺、属性选择多值化、属性选择标准等问题提出了具体的解决办法。本文还提出了加权简化熵的概念,并对ID3算法进行了改进,经过比较,改进算法在总体性能上优于目前广泛应用的ID3算法。第四,利用新的决策树算法在一个棉纺厂的设备管理系统中进行数据挖掘,为厂家的决策支持提供了科学、准确的根据。

梁勇林[7]2007年在《基于多分类器融合的数据挖掘分类算法研究与应用》文中提出数据挖掘分类算法是数据挖掘研究的一个重要课题,已在商业等领域广泛应用。学生信用分类是典型的分类挖掘问题,属于信用分类的范畴,同时也是一个新的应用研究课题。如何采用多分类器融合的方法综合不同分类器的信息,避免单一分类器可能存在的片面性,从而提高分类的性能,已成为数据挖掘分类算法研究的热点问题。本论文依托教育部“春晖计划”科研项目“高校学生个人信用评价管理系统研究”和重庆市自然科学基金计划项目“面向混合数据类型的通用数据挖掘模式研究”,采用多分类器融合的方法研究数据挖掘分类算法,并将该方法用于学生信用分类。本文的主要研究工作和成果概括如下:首先,分析了数据挖掘、数据挖掘的分类器、多分类器融合的基本理论和方法,为研究基于多分类器融合的分类算法,及其在学生信用分类数据挖掘的应用打下基础。其次,设计了基于AdaBoost的BP神经网络融合分类算法,着重讨论了算法的主要组成部分和基本分类器的构造,以及调整样本权重、训练神经网络基本分类器、确定基本分类器权重这叁个算法流程中的关键问题。最后,将多分类器融合方法与项目实际需求相结合用于学生信用分类。选择学生信用分类的数据项并进行分类挖掘数据预处理,建立了基于多分类器融合的学生信用分类模型,通过仿真验证了该算法能有效提高基本分类器的精度和泛化能力,用于学生信用分类是有效和可行的。在高校学生个人信用评价管理系统的基础上,设计和实现了学生信用分类模块。本文的研究成果为学生信用分类和助学贷款的发放提供了决策依据,同时也对信用分类的其他方面具有参考价值。

张文超[8]2013年在《基于数据挖掘的高校学科建设决策支持系统研究与实现》文中研究指明学科是高等院校组织教学的基础单元,是培养人才、发展科技文化的结合点。加强学科建设已成为当代世界高等教育发展的趋势。随着计算机技术,网络技术的不断发展,高等院校均已实现了信息化管理,大量管理信息系统的使用形成了一个庞大的,能够生产大量有效分析数据的工厂。如何利用不断积累起来的信息数据为高校的学科建设服务,提高高校学科管理决策的客观性和科学性,已成为高校学科管理者亟待解决的问题,也成为国内外学者研究的一个热点课题。本文以高校学科建设为应用背景,在研究数据挖掘技术、决策支持系统技术的基础上,有效地利用高校管理信息系统产生的数据,探索学科发展的现象、趋势,揭示高校学科发展规律和特征,继承和发展决策支持系统在高校学科管理领域的新应用。课题首先将基于数据仓库的决策支持系统结构应用于高校学科建设,构建了高校学科建设决策支持系统的架构。该架构既遵循了传统决策支持系统的结构,又将传统结构加以扩展,有效的结合了数据挖掘技术和Web技术,使系统不但可以提供决策支持能力,同时具备一定的扩展能力和交互能力。其次,课题以北京市重点学科信息平台,北京市硕、博学位授权点信息平台等管理信息系统(MIS)提供的历史数据作为数据源,研究了高校学科建设数据仓库的多维数据模型,共建立了师资队伍、科研获奖、科研成果等事实表和时间、单位级别等维度表,实现了高校学科建设数据仓库的搭建。再次,课题通过研究数据挖掘决策树算法,在基于决策树C4.5的基础上,将贝叶斯理论应用于决策树的后剪枝操作中,研究并提出一种基于贝叶斯理论的决策树后剪枝算法,该算法运用贝叶斯后验定理对决策树每个分枝进行验证,将不满足条件的分枝从决策树中剪掉,从而使决策树得到精简,提升了整个算法的泛化能力。最终课题利用该算法实现了对重点学科审批预测模型的建立。得到重点学科审批预测结果之后,课题以市教委颁布的学科评价体系为基础,进一步研究一种基于粗糙集定权的多级模糊评价方法来建立高校学科质量综合评价模型,实现对该学科的综合评价。最终,本文结合所搭建的高校学科建设的决策支持系统架构、数据仓库以及所研究的数据挖掘算法,基于J2EE标准企业体系规范,采用MVC模式,完成并实现了一个B/S结构的高校学科建设的决策支持系统的原型系统。

唐建清[9]2007年在《数据挖掘在桂林旅游信息中的应用研究》文中认为络绎不绝的游客究竟给桂林这个旅游胜地带来多少收益?看看2005年这个桂林旅游业取得历史性新成绩的一年:全市接待游客1205.08万人次,同比增长8.43%,其中入境旅游者100.09万人次,同比增长23.92%;国内游客1 104.99万人次,同比增长7.21%。但如果从旅游对桂林社会经济应该起到的支柱性地位来看,差距相当明显:2005年桂林市GDP总值为536.7亿元,其中旅游总收入57.95亿元。虽然同比增长了15.57%,但对GDP的贡献率只有11%左右。如果按增加值来比,旅游业占的比例就更小了,最多6%。一方面游人如织,一方面旅游收入却很低,问题究竟出在哪里?应用数据挖掘技术从旅游信息库中找找答案是一个可行的办法。数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘的功能包括发现概念类描述、关联规则、分类和预测、聚类、趋势分析、偏差分析和类似性分析。其中,在旅游信息数据挖掘中运用较多的是关联规则、分类和预测、聚类分析。因此本文在理论部分重点研究了数据挖掘的过程以及分类数据挖掘的主要技术。本文基于数据挖掘的分类技术,利用SAS/EM数据挖掘工具,在桂林市旅游局2005年的旅游问卷调查所产生的数据库的基础上,从两个方面对该数据库进行了分类挖掘,即:影响游客消费的因素以及影响游客对桂林旅游综合评价的因素。在此过程中,完整地实现了分类数据挖掘的全过程,包括:确定数据源及挖掘目标,数据预处理,利用SAS/EM工具生成决策树,得到相应规则,并对结果进行了分析。其中,数据预处理采用x~2统计检验来选取与挖掘目标相关的属性,这一步比较重要,因为SAS/EM中决策树TREE节点支持的C4.5算法对属性的有效性要求比较高,通过这一步,使得最后产生的决策树有比较好的形态。最后根据研究的状况,进行了总结和展望。

王飞[10]2006年在《面向电子商务的web数据挖掘的研究与设计》文中指出数据挖掘是指从大量的数据中自动地提取出有价值的知识和信息。数据挖掘已成为数据库技术和机器学习方面的重要的研究课题。当前,World Wide Web正向应用的深度和广度方面迅速发展。将数据挖掘的思想和方法应用到Web上,解决WWW中遇到的一些问题,从而形成了Web数据挖掘(Web mining)这样一个新的研究方向。Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息在内的各种Web数据,应用传统数据挖掘方法以发现有用的知识,帮助人们从WWW中提取知识,改进站点设计,更好地开展电子商务。电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展广告、推销、购买商品或服务等商务活动。相对于传统商务活动,电子商务具有不受地域限制、节省成本等众多优点本文对Web数据挖掘在电子商务中的应用进行了研究,主要做了以下工作:1.总结了数据挖掘研究现状及最新进展。提出了数据挖掘逻辑模型及存在的一些问题。2.描述了Web数据挖掘技术,Web数据挖掘的过程、数据源及用途。3.讨论了在电子商务中如何有效地利用几种可行的数据挖掘技术,如、关联规则分析、序列模式分析、分类分析和聚类分析等挖掘出用户的购买模式及浏览模式,并就其中的路径分析和序列模式分析提出了实现的方法。4.论述了Web访问信息挖掘的一般过程,将传统数据挖掘过程中的各种关键技术,如数据预处理,聚类算法,关联规则、序列模式发现等引入到对于Web信息的挖掘活动中,并通过一系列的实验进行验证及评价,在以上工作的基础上,设计并实现了一个Web数据挖掘原型系统(EWMiner)。web数据挖掘在电子商务里表现为在大型数据库里面搜索有价值的商业信息。数据仓库、数据挖掘技术和Internet/intranet的完美结合,使其在21世纪的电子商务中有广泛的应用前景。

参考文献:

[1]. 数据挖掘算法优化研究与应用[D]. 王明星. 安徽大学. 2014

[2]. 基于Hadoop平台的数据挖掘分类算法分析与研究[D]. 李正杰. 南京邮电大学. 2016

[3]. 数据挖掘分类技术及其在CRM中的应用研究[D]. 段蕾. 合肥工业大学. 2008

[4]. 基于Spark 云计算平台的改进K近邻算法研究[D]. 陈晓康. 广东工业大学. 2016

[5]. 基于复杂网络的数据挖掘分类问题研究与应用[D]. 赵凤霞. 辽宁师范大学. 2009

[6]. 基于决策树的数据挖掘算法研究与应用[D]. 卢东标. 武汉理工大学. 2008

[7]. 基于多分类器融合的数据挖掘分类算法研究与应用[D]. 梁勇林. 重庆大学. 2007

[8]. 基于数据挖掘的高校学科建设决策支持系统研究与实现[D]. 张文超. 北京工业大学. 2013

[9]. 数据挖掘在桂林旅游信息中的应用研究[D]. 唐建清. 华东师范大学. 2007

[10]. 面向电子商务的web数据挖掘的研究与设计[D]. 王飞. 四川大学. 2006

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘分类算法的研究与应用
下载Doc文档

猜你喜欢