数据挖掘聚类算法的分析和应用研究

数据挖掘聚类算法的分析和应用研究

刘秋兰[1]2008年在《基于流数据挖掘的网络行为分析及其应用研究》文中研究说明随着因特网在全球的普及和发展,计算机网络已经和人们的学习、工作紧密地联系在一起,成为生活中不可或缺的组成部分。与此同时各种网络问题也随之出现,给网络检测带来更大的挑战。网络行为检测模型的建立,在一定程度上解决了上述问题。本文首先对网络行为中的异常行为及流数据挖掘进行了研究与分析,为网络异常行为检测方法的研究提供理论基础。随后,本文介绍了网络行为检测模型的总体设计和系统结构,并描述了其数据准备模块、网络行为规则挖掘及管理模块的设计方案和功能组成,同时提出了一个流数据聚类算法,并将该算法应用到网络行为规则挖掘过程中。其中,重点介绍了网络行为规则挖掘及管理模块的设计及实现方法。最后,本文通过网关流量数据分析具体实例的应用,进一步验证了模型在实际应用中的有效性和实用性。本文提出的网络行为检测模型可以有效地帮助网管人员及时发现网络中的异常行为,为网络管理人员提供便利,具有较强的实用价值。同时,本文对流数据聚类算法的研究,对于促进同类问题的研究具有一定的理论价值和借鉴意义。

陆云[2]2007年在《聚类分析数据挖掘方法的研究与应用》文中提出随着信息技术的发展,数据挖掘技术得到了广泛的关注。在数据挖掘技术中有很多研究领域,聚类分析数据挖掘就是其中一个重要的研究方向,对它进行深入研究不仅有着重要的理论意义,而且有着重要的应用价值。聚类分析就是将一组物理或抽象对象,分组为类似对象组成的多个簇,在同一个簇中的对象彼此相似,不同簇中的对象彼此相异。目前,聚类分析已经广泛地应用于模式识别,数据分析,图像处理,以及市场研究等。在数据挖掘中,聚类是一个活跃的研究领域。目前在文献中存在大量的聚类算法。算法的选择取决于数据的类型、聚类的目的和应用。聚类算法具体可以分为划分方法,层次方法,基于密度的方法,基于网格的方法,以及基于模型的方法等。其中,在中、小规模的数据聚类应用中,划分方法在可理解度、易训练性、易实施性和通用性等方面优于其他的分类方法。在以上研究的基础上,本文探讨了聚类技术在成人高校教学管理中的应用。通过对计算机课程的相关教师“听课记录表”的数据分析,依据聚类挖掘的实施流程,进行了各项数据预处理,应用划分方法中的k-means算法,随机生成初始的聚类,然后用反复迭代重新定位质心,改进聚类结果,最终使每个簇的平方误差最小,完成了对教师“听课记录表”的C++语言的聚类实现,并对聚类结果进行了分析和验证,得出了一些有实际意义的结论用于指导教学管理。

祝曦[3]2015年在《海量空间相互作用数据挖掘及可视化》文中研究指明随着位置感知技术的发展和广泛应用,海量的空间数据变得越来越容易获取。空间相互作用(Spatial Interaction)数据,也被称为起点终点流(Origin-Destination Flow)数据,作为一种特殊的空间数据,描述两个地点之间的关联,或者两个地点之间的物体移动。该数据在日常生活中非常普遍。例如:人的移民,车辆的行径,动物的迁徙,还有疾病的传播等等。大量空间相互作用数据的研究有助于理解不同领域的复杂动态,包括城市规划,智能交通,人口学,应急管理等等。例如,研究人类移动带来的位置到位置的关联程度,可以发现伴随而来的病毒传播的规律。目前的分析方法很难从大量的空间相互作用数据中发现有用的信息,也很难完全可视化大规模的数据,这是数据本身的复杂性所决定的。数据本身的复杂性主要包括:(1)大的数据量:一个中型规模的数据集通常包含几百到几千个位置,很容易有几千或者几百万位置与位置之间的关联。(2)多种数据维度:这些数据集一般镶嵌在多种维度内,比如空间维度,时间维度,网络维度,多属性维度。(3)可更改区域单元问题(Modifiable Area Unit Problem,MAUP):数据的起始位置的形状和大小差异非常大,导致数据集的分析产生偏差。(4)多尺度问题:数据在不同的地理或时间尺度上展示不同的规律。对于这样复杂的数据集,单一的方法不可能完全的解决这些问题。本文提出了一组方法来分析和可视化大规模的空间相互作用数据,并有效地处理了上述的问题。这些方法主要包括:基于共享邻居数的(Shared Nearest Neighbors)空间点聚类方法[1],该方法按照数据点分布的规律,将数据点归纳成含有相似数据量的聚类。在点分布密集的区域,形成小的地理空间的上的聚类,在点分布稀疏的区域,形成大的地理空间上的聚类。同时,这是一种数据驱动的聚类方法,能够在数据之间找到自然分割。在聚类的结果的基础上可视化统计量度,从而发现时空模式。该方法有效地处理了上述问题中数据量和可更改区域单元问题。基于共享邻居数的空间相互作用数据层次聚类方法[2],该方法将传统的层次聚类方法扩展运用到空间相互作用数据。该方法的主要思想是,将空间相互作用数据的起点间的相似度和终点间的相似度统一为一个相似性量度,然后运用聚合式的层次聚类方法将空间相互作用数据进行聚类。本文创新地使用共享邻居数作为相似性量度,来应对数据在空间上分布不均匀的问题。文章在对空间相互作用数据聚类的基础上,进一步研究了数据类群的时间特征。该方法能有效地处理上述问题中的前叁个问题。空间相互作用数据核密度估计模型[3],这个方法的主要思想是将空间点的核密度估计方法扩展运用到空间相互作用数据,对相互作用数据集进行密度的估计,然后从密度分布中提取特征。该方法将数据进行了高度的抽象,能够很大程度上减少数据量。同时,核密度估计模型使用自适应的带宽(Adaptive Bandwidth),可以很好的处理数据分布不均的问题(可更改区域单元问题)。基于空间相互作用数据核密度估计模型的多尺度可视化,该方法主要将空间相互作用数据核密度估计模型进一步扩展。使用不同的参数进行空间相互作用数据密度估计和代表性数据选择,创新地实现了多辨率多尺度的流向地图。该方法能够非常有效的处理多尺度的问题。这些方法看似独立,但是它们从不同的角度分析了空间相互作用数据,用不同的方法增强了对复杂数据的理解。本文将多种不同但是互相补充的方法综合到一起,将计算方法、可视化方法、可视化分析方法等结合在一起分析空间相互作用数据,试图将不同方法的不同角度综合,形成一个全局整体的理解。

刘念涛[4]2008年在《基于蚁群算法的聚类分析方法的研究及应用》文中提出由信息技术、网络技术的飞速发展所导致的“数据爆炸但知识贫乏”的现象日益严重,在这一环境下,数据挖掘应运而生并获得了快速发展,国内主流网站评比的未来十大热门技术中,数据挖掘技术占了一席之地。数据挖掘是一个多学科交叉的研究领域,涉及到数据库技术、人工智能、机器学习、统计学,知识获取、生物计算等多门学科的理论与技术,其发展必将大大影响全球信息化的进程,对其进行系统、深入、全面、详尽地研究是信息化发展的客观需要。而作为数据挖掘分析方法之一的聚类分析更是表现突出,在包括模式识别、数据分析、图象处理,以及市场研究等许多领域得到广泛的应用。本文对数据挖掘技术,尤其是聚类分析进行了较为系统的分析和研究,提出了一些想法和改进,主要包含以下内容:数据挖掘技术的概述。介绍了数据挖掘的概念,对数据挖掘的发现模式、数据挖掘的方法及应用进行了详细的分类、归纳和总结。聚类分析技术的概述。聚类是一种重要的数据分析技术,是数据挖掘理论框架中一个必不可少的部分,通过搜索并识别数据结合,从而描述数据,发现数据之间隐含的、有趣的相互联系。本文对聚类分析的定义、数据类型、聚类分析中的主要算法及度量标准作了简要的介绍和系统的学习。为本文的全面展开奠定了基础。蚁群算法的概述。蚁群算法是一种模拟群体智能的算法,在解决基于离散空间的问题时表现出良好的性能。本文由群体智能引出蚁群算法,并对蚁群算法的原理及特征做了简要的介绍。通过分析蚁群算法的优缺点,指出该算法的一点改进的研究方向。针对蚁群算法早熟、停滞及容易陷入局部最优等缺陷,借助蚁群算法与遗传算法相融合的思想并加以改进,将融合思想由解决离散域问题向更有效的解决连续域问题过渡,引出改进的基于交叉变异操作的蚁群算法,来提高蚁群算法的性能。提高性能的蚁群聚类组合算法的研究。在研究基本蚁群聚类模型的基础上,通过对公式、半径、空间分割的改进,借助于短期记忆的思想,提出了一种改进的基本蚁群聚类方法(ILF算法),通过改进,减少了参数的设置,降低了计算的时间,并具有较强的鲁棒性。结合K-means算法,提出了一种改进的基于信息素的K-means改进算法,通过对改进信息素的转移概率判断标准来进行聚类,减少了算法的参数个数,加快了聚类的进程。针对这两种算法的聚类特点,提出一种蚁群聚类组合算法策略,该策略首先利用改进的ILF算法来完成一次聚类过程,然后收集聚类结果样本,对样本数据再利用改进的基于信息素的K-means算法进行结果的后期优化处理,进行二次聚类过程,以此得到比单个算法更优的性能。最后对各种算法进行数据测试和性能分析,并把蚁群聚类组合算法用于银行信用卡客户的消费行为分析。

罗增琦[5]2006年在《一个改进的蚁群聚类优化算法及其仿真实验研究》文中提出群体智能以分布性、简单性、灵活性和鲁棒性得到了越来越广泛的关注。蚁群聚类算法是数据挖掘算法的一种,它起源于科学家对群体性昆虫的观察和研究。Lumer和Faieta将Deneubourg提出的基本模型成功地推广应用到聚类分析。LF算法仍然存在一些局限性,它的算法机制无法将偶然堆迭在一起的簇分开,造成了聚类结果往往纯度不高,严重影响了查准率。为了克服LF算法的缺点,通过结合模糊聚类算法,提出了一种改进的蚁群聚类算法。该算法回溯到Deneubourg的基本模型,通过引入相似因子、相异因子的概念,改变观察分数f的计算方法,进而达到影响拾起放下概率的目的。相似因子大小由邻域内选定对象所属的等价分类的大小决定,相异因子大小由邻域内与不包含该对象的一个最大的等价分类的大小决定。在这种方法下,蚂蚁具备从感官上初步划分存在于邻域内的数据对象的能力,以此作为进行下一步决策的依据。在这种方法下,即便在邻域内,形成了两个不同的聚类核,随着聚集速度的不平衡,其中一个略有优势的聚类核会排斥掉另一个聚类核,从而避免了不同簇堆迭的情况。设计出一个基于蚁群聚类算法的数据挖掘系统,该系统具备预处理、变换、数据开采的功能。该系统能够展示可视化的聚类过程。在数据经过预处理、变换之后,得到了规一化的叁维属性数据,软件显示界面上的数据对象通过颜色值来标定其叁维属性,使聚类过程和效果一目了然。根据该系统的仿真实验,在查准率、查全率和F-measure评估标准下,改进算法比LF算法显示出更好的聚类质量。

彭丽[6]2008年在《数据挖掘中几种划分聚类算法的比较及改进》文中提出数据挖掘技术是一种多学科交叉的新兴技术,它是随着数据的大量积累以及市场竞争对信息与知识的迫切需求而产生和发展起来的,并逐渐成为人们关注的热点。聚类分析是数据挖掘领域中一个较活跃且极具挑战性的研究方向。目前聚类算法中比较流行且应用比较广泛的划分聚类算法主要有K-均值、K-调和均值、模糊C-均值和谱聚类等划分算法。但这些算法自身都存在一些缺陷,例如对初始点敏感、不适用于大数据以及收敛速度慢等。主成分分析是一种将分散在一组变量上的信息集中到某几个综合指标(主成分)上的探索性统计分析方法,同时也是一种数据降维处理技术。本文借助主成分分析的一些优点,提出一种基于最大或次大特征值的主成分分析(PCA)聚类算法。该算法同时结合主成分分析以及所选择的聚类算法的优点,通过数值实验表明该算法是一个有效可行的算法。同时,根据聚类分析中距离度量的重要性,本文在K-均值算法中引用了一种新的距离度量,得到了改进的K-均值聚类算法。该算法通过一个参数的调节可以达到非常好的聚类效果。本文首先是阐述了聚类分析以及主成分分析的一些理论基础,分析和比较了几类较流行的划分聚类算法,并在说明现有算法的不足的基础上提出了两类改进的聚类算法。通过MATLAB编程进行数值实验,数值实验结果表明,基于最大或次大特征值的PCA聚类算法在计算时间、迭代次数以及聚类结果上都有一定优势,而改进的K-调和均值算法通过调节参数也可以得到很好的聚类效果,同时在聚类时间和迭代次数方面比传统的K-调和均值算法更具优势。

吴书[7]2007年在《类属型数据的聚类算法研究》文中研究说明随着数据规模的不断增大,竞争的日趋激烈,人们迫切需要从大量数据中挖掘出知识和信息来辅助决策,数据挖掘技术随之应运而生。聚类分析是其中一种重要的技术,但以往的研究大多限于数值类型的数据。类属型数据聚类算法则被研究的较少,而且很不成熟和完善。本文对类属型数据聚类算法进行深入的研究,找出了类属型数据聚类技术的几个方面的主要缺陷,在以下几个方面开展了研究:聚类分析的初始化算法影响着聚类结果的好坏。研究人员提出了很多初始化的方法,但却没有广泛被接受的初始化算法,并且对类属型数据聚类中心的初始化方法很少有涉及到。我们提出新的初始化方法由基础步骤和限定框架两个部分组成,其基础步骤充分考虑到数据集的特征,结合了密度和距离等因素,提出了样本点成为聚类中心可能性的定义。使用限定性框架降低了算法的复杂度,同时多次循环的过程提高了初始化聚类中心选取的准确率。针对K-Modes聚类算法的缺陷,我们提出了有新的聚类中心和距离计算公式的类属型数据的聚类算法。实验分析也表明新的方法能够有效的对类属型数据进行聚类,较其他方法有更高的准确度,是稳定和可靠的。聚类的有效性指标直接决定了最终停止时聚类数目和聚类算法的结果。本文对以往的指标进行了比较,提出了具有新的结构有效性指标。同时在此基础上提出了新的类属型数据聚类的指标。实验表明新的有效性是稳定的和有效的。

赵恒[8]2003年在《数据挖掘中分类属性数据聚类研究》文中研究说明现代数据库和网络技术的发展,使得人们面对的数据量以惊人的速度增长,为了获取有价值的信息,提出了数据挖掘技术。发展自统计学的聚类分析已成为数据挖掘中的一个十分活跃的研究领域。本文详细介绍了数据挖掘技术,包括数据挖掘的研究内容,任务和功能,数据挖掘的一般过程,数据挖掘的常用工具,主要应用领域和发展趋势。在此基础上对数挖掘中的聚类分析作以详细地论述,总结了数挖掘中聚类分析的方法和特点,并对聚类结果的评价方法进行了讨论,重点讨论了分类属性数据聚类,具体研究了k-modes 算法及其变形,并指出了它们的优缺点。主要探讨了模糊k-modes聚类结果与原始数据的分类结构的对比方法,对现有的精确度定义和计算方法进行修正,在划分相似度的基础上,重新定义模糊k-modes聚类精确度。应用进化策略对属性进行加权,改进了fuzzy k-modes算法,以基于划分相似度的聚类精确度为聚类结果的评价准则,进行实验分析,获得了较好的聚类效果。

王婷婷[9]2017年在《供水管网系统DMA分区流量数据聚类分析研究》文中研究表明随着智能水表技术的发展,实时监控系统使供水部门可以拥有大量关于供水管网属性的数据。智能水表包括记录水量和通信系统两部分,可以实时传输和储存用水量数据。智能水表已经被广泛应用,大多数城市都具有这样的设备,然而智能水表传送的关于管网属性的数据,水司仅仅用于日常调度和经济效益考评,之后这些大量数据会被储存一段时间。智能水表连续传送数据,随着数量逐渐增大,水司会因为内存原因而把这些数据删除,同时删除的还有这些数据所含有的非常有价值的管网信息。随着数据挖掘技术的发展,我们有技术有能力处理分析这些数据,最大程度地挖掘数据所包含信息。分析这些数据有助于供水管网革新供水管网管理、计划和用户服务,更加充分利用水资源,保护水资源。本文根据DMA分区流量数据特点,提出一种聚类方法,即基于DMA分区用水量曲线距离和形状的聚类算法(KS),该聚类方法相对经典K-means、自主映射(SOM)和模糊C均值而言,更能体现DMA分区用水量规律。通过Y市DMA分区项目中获得43个DMA分区的流量数据,对这43个DMA分区流量数据进行数据预处理之后,进行聚类分析,比较KS、K-means、SOM和FCM四种聚类算法效果,最终表明KS的聚类效果最好,并且通过分析KS聚类结果,能够指导水司检测异常情况(漏损、偷水)。在对43个DMA分区流量数据处理过程中,通过观察43个DMA分区的用水量变化曲线,发现根据《给水工程》等教材计算出的时变化系数,小于大多数各小时用水量占全天总用水量比例。说明若继续采用《给水工程》等教材中的时变化系数公式,将不能保证如Y市这样城市的供水安全,建议进一步修正时变化系数公式。

陈小东[10]2016年在《面向数据流模糊聚类算法的应用研究》文中指出作为数据挖掘技术的研究前沿,数据流具有实时连续、高速到达以及动态变化等特点,在如无线传感器网络、金融分析市场、网络入侵检测等众多领域都扮演着十分重要的角色。聚类分析作为数据挖掘技术的主要组成部分之一,旨在发现数据中隐藏的簇类知识信息,为用户做出正确的决策提供理论指导。概念漂移检测作为数据流研究中不可避免的问题之一,主要是期望发现数据流模型何时以及因何原因发生变化,从而达到预测数据流趋势的目的。当前的聚类算法主要是在整个数据集上展开的,很难直接应用于数据流上,因此迫切需要设计出可以处理数据流的聚类及概念漂移检测算法。本文针对数据流聚类算法的研究主要分为以下叁点:首先通过分析国内外的相关文献,对数据流的研究现状和不足之处进行了综述;其次针对数据流上的聚类任务受到时间和空间限制的问题,本文提出了一种新的数据流模糊聚类算法Weight Decay Streaming Micro Clustering(WDSMC)。该算法使用改进的带权值的模糊C均值算法作为基准聚类算法,并采用微簇结构和权值衰减结构提高聚类质量。实验表明,相比于SWFCM算法和StreamKM++算法,WDSMC算法具有更好的聚类精度;最后本文对数据流中可能会出现的概念漂移现象,提出了在大小可变的滑动窗口中通过度量相邻窗口之间的聚类差异性来判断是否发生了概念漂移并提供相应的解决方案。实验表明算法能够有效地检测出数据流中的概念漂移现象,具有很好的聚类效果和很高的时间效率。

参考文献:

[1]. 基于流数据挖掘的网络行为分析及其应用研究[D]. 刘秋兰. 苏州大学. 2008

[2]. 聚类分析数据挖掘方法的研究与应用[D]. 陆云. 安徽大学. 2007

[3]. 海量空间相互作用数据挖掘及可视化[D]. 祝曦. 华中科技大学. 2015

[4]. 基于蚁群算法的聚类分析方法的研究及应用[D]. 刘念涛. 山东师范大学. 2008

[5]. 一个改进的蚁群聚类优化算法及其仿真实验研究[D]. 罗增琦. 华中科技大学. 2006

[6]. 数据挖掘中几种划分聚类算法的比较及改进[D]. 彭丽. 大连理工大学. 2008

[7]. 类属型数据的聚类算法研究[D]. 吴书. 厦门大学. 2007

[8]. 数据挖掘中分类属性数据聚类研究[D]. 赵恒. 西安电子科技大学. 2003

[9]. 供水管网系统DMA分区流量数据聚类分析研究[D]. 王婷婷. 哈尔滨工业大学. 2017

[10]. 面向数据流模糊聚类算法的应用研究[D]. 陈小东. 南京邮电大学. 2016

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘聚类算法的分析和应用研究
下载Doc文档

猜你喜欢