基于密度的海量数据增量式挖掘技术研究

基于密度的海量数据增量式挖掘技术研究

周永锋[1]2002年在《基于密度的海量数据增量式挖掘技术研究》文中进行了进一步梳理增量式挖掘,就是对于大数据集(数据库或数据仓库等),当数据递增的时候,增量地更新数据挖掘结果,而不是对每次更新后的整个数据集进行挖掘。对于许多种类的大型数据库或数据仓库挖掘,增量数据挖掘是一个诱人的目标。本文主要研究了基于孤立点因子的增量式挖掘技术。 首先讲述了数据挖掘的基本概念和方法,介绍了数据挖掘研究的一般对象和典型应用;研究了聚类挖掘技术,说明了评价聚类的一般准则,简单介绍了现有的典型的增量挖掘方法,为进一步研究和学习积累了经验,明确了需求。 在现有的大多数聚类挖掘方法中,参数的影响较大,而且常常需要用户指定参数,参数的决定成为实际应用的一个难点。本文在研究基于密度的聚类算法的基础上,提出了基于孤立点因子的聚类算法,有效地解决了这个问题;并在此基础上,提出了增量式算法,用于增量的更新聚类结果。文中同时给出了孤立点因子聚类方法的有关概念,以及相应的算法描述,详细说明了算法思想和聚类过程。 最后,实验分析了基于孤立点因子的聚类算法的有效性,并与有关算法作了性能对比,实验说明了基于孤立点因子的聚类算法对于参数的健壮性;实验也简要分析了增量式算法的有效性和效率。

夏勇[2]2008年在《聚类分析和离群点识别技术研究及其应用》文中研究指明离群点识别和聚类分析是数据挖掘研究的重要方面,基于离群点分析的各种数据挖掘算法的研究已经成为研究热门方向。但是目前大多数的离群点分析算法只是针对于静态数据集的操作,对于动态数据集一般采取对整个数据集重新进行离群点分析的方式,因此随着数据量的不断增大以及对数据集实时数据挖掘的需求不断加大,增量式离群点分析技术正越来越引人关注。本文首先总结、探讨关于数据挖掘、离群点分析、聚类算法以及计算机审计等方面取得的已有主要研究成果,并详细阐释了基于密度的聚类算法DBSCAN和基于密度的离群点识别算法LOF的主要思想、算法流程,并在此基础上,提出了基于局部密度的增量式离群点识别算法IncrementalLOF,并结合社会保障联网审计系统(N-SAS),通过实验验证了LOF与IncrementalLOF在离群点分析结果上的一致性,和IncrementalLOF在大数据量环境下更加卓越的性能,以及IncrementalLOF能对所提供的数据进行挖掘,得出一些反常的、隐藏在大数据后的有违规缴费等可能的信息,为社保审计提供可靠依据,提高审计工作效率,规范社会保险业务,减少社会保险金欺诈等。

王淑玲[3]2009年在《增量聚类算法的设计与实现》文中指出随着网络技术和数据库技术的发展,各个领域的信息量急剧增长,需要处理的数据规模越来越大;同时,对数据集实时处理的需求不断加大。这就促使了海量动态数据的出现。目前大多数聚类算法处理海量动态数据不仅需要消耗大量的时间和空间资源,并且挖掘效果不理想,其有效性和可扩展性受到了限制。在这种情况下,增量聚类算法应运而生,有效的解决了海量动态数据的聚类问题。为了实现动态、增量聚类,首先,对基于密度和自适应密度可达聚类算法(Clustering Algorithm Based on Density and Density reachable, CADD)进行了改进:第一,为密度可达包成员设置标志值,极大的提高了聚类效率;第二,改进半径和密度的计算方式,避免了重复的计算;第叁,编程实现聚类结果的可视化,可以直观的评价聚类效果。实验结果表明,改进后使得算法的复杂度明显减小。其次,在CADD算法改进的基础上重点研究了两方面内容:(1)根据CADD算法的特点,提出了基于密度可达的增量聚类算法——ICADD算法,由于该算法是非批量聚类方式,实验表明虽然聚类效果比较好,但是效率较低;(2)根据层次聚类算法BIRCH中聚类特征的概念,提出了子簇特征的概念和子簇的相似准则(包括空间位置相似性和空间分布相似性),并进一步设计、实现了基于子簇特征的增量聚类算法——ICSCF算法。此外在计算数据点密度时,还引入了抽样技术。由于ICSCF算法采用批量处理方式,理论分析和实验结果证明,该算法不仅具有较高的聚类效率,同时,通过将数据集分割、逐步动态聚类,还能实现对大型数据库的聚类分析,有良好的可扩展性,特别是在空间聚类(如图像处理)方面能够发挥重要的作用。

黄娇龙[4]2014年在《基于密度维度树的增量式网格聚类算法》文中研究说明由于数据流的快速性、海量性且持续到达的独有特性,使得以往针对传统静态数据的聚类算法失效,如何利用有限的存储空间对实时数据流进行快速分析,进而准确有效地从数据流中挖掘出有价值的知识和信息,是目前数据挖掘领域中的一个难题。因此,研究设计出适应数据流特性的聚类算法,是十分重要的,也是很有现实意义的。本文在分析研究了传统聚类算法和数据流聚类算法的优缺点后,在PDStream算法的基础上进行改进,提出了一种新的基于密度维度树的增量式网格聚类算法IGDDT。该算法引入一种模式快照策略,来确定下一次聚类的时刻以及保存模式快照的时刻,并可以充分利用前一次聚类的结果更新现有聚类簇,这种增量式的聚类方法可以有效提高聚类效率。同时,在聚类过程中采用新的网格划分策略对网格单元再次进行均匀划分,以达到精确描述聚类边缘,提高聚类的质量的目的。在真实数据集与仿真数据集上的实验结果表明,IGDDT算法不仅可以发现任意形状的聚类,而且聚类准确度以及聚类效率均要高于传统的网格聚类算法。

张净, 孙志挥, 杨明, 倪巍伟, 杨宜东[5]2011年在《基于网格和密度的海量数据增量式离群点挖掘算法》文中研究表明处理海量和高维数据已经成为设计离群点算法面临的重要任务和挑战,针对海量数据的特点提出一种基于网格和密度的增量式离群点挖掘算法IGDLOF,算法的基本思想为:采用网格的七元组信息减少数据维数和数量,利用增量更新减少内存需求.通过代表点过滤相应的主体数据,先判断再进行近似密度计算的方法减少计算量,降低算法的复杂度.通过在真实和仿真数据集的测试表明,IGDLOF增量算法可与LOF算法保持相同的精确度,而执行效率得到显着的提高.

陈峰[6]2007年在《基于聚类的增量数据挖掘研究》文中认为聚类分析向来是数据挖掘研究的重要方面,基于聚类的各种数据挖掘算法的研究历来也是研究重点。但是,目前大多数的聚类分析算法只是针对于静态数据集的操作,对于动态数据集却只能采取对整个数据集重新进行聚类的方式,因此随着数据量的不断增大以及对数据集实时数据挖掘的需求不断加大,增量式数据挖掘技术正越来越引人关注。 基于聚类的增量式数据挖掘继承了已有聚类的执行成果,通过对新增数据的逐个或者批量考查,可在很大程度上避免大量的重复计算,减少了计算量,节省了系统开支,提高了效率,尤其数据量越大时,增量式的数据挖掘技术就越能体现出其优越性,也更能为有数据挖掘需求的用户提供及时、快捷、有价值的信息内容。 本文首先主要总结、探讨了关于数据挖掘以及聚类算法等方面取得的已有主要研究成果,并详细阐释了基于密度的聚类算法DBSCAN的主要思想、算法流程,并给出了实例以演示算法。在此基础上,提出了基于DBSCAN的增量式聚类算法Incremental DBSCAN,由于Incremental DBSCAN采用了逐个考察新增数据的处理方式,为了达到更好的运行效率,进一步提出了Incremental DBSCAN的批量处理算法。 最后,通过实验验证了DBSCAN与Incremental DBSCAN在聚类效果上的一致性,以及Incremental DBSCAN在大数据量环境下更加卓越的性能。

胡瑞飞[7]2006年在《面向机械工程计算机测试系统的数据挖掘技术研究》文中指出随着科学技术和社会经济的发展,武器装备、航空飞行器、流程生产系统等被测对象日益大型化、复杂化和现代化,对测试系统的需求越来越多,同时要求也越来越高,促使现代测试系统向着智能化、自动化和网络化方向发展。目前,计算机技术、自动化技术和通信技术广泛应用于测试系统中,大量的过程数据被采集并存储下来,但是这些包含过程运行状态信息的数据并没有被有效地利用,以致出现了所谓的“数据丰富,信息匮乏”的现象。如何将这些存储的数据变为有用的信息,从中挖掘出过程运行的深层次信息,并利用这些信息提高过程监控能力,正是目前测试系统研究领域的热点之一,也是本文的研究重点。本文以中国工程物理研究院国防技术基础项目的“大量程线加速度计检测技术研究”课题为背景,以数据挖掘为主线,针对不同检测对象的特点对传统的数据挖掘方法作了不同程度的改进,提出了一些新的检测数据分析处理和故障诊断预测的方法。整个工作主要分两大部分,即线加速度计网络测试系统产生的静态数据的挖掘和航空飞行器、流程生产等监控系统产生的动态数据的挖掘。本文的研究成果及核心内容归纳如下:(1)介绍了线加速度计测试数据库及数据发掘系统的项目背景、总体目标,给出了系统的总体设计方案。并对系统开发中用到的关键技术:实时数据库建立、数据挖掘应用以及Matlab与外部程序接口进行了讨论。以运行实例的形式对系统各部分进行了介绍。(2)本论文研究了面向服务的体系结构(SOA),并应用该方法对面向数据挖掘服务的网络测试系统进行了体系结构分析和设计,并构建了原型系统。采用基于实例推理的数据挖掘向导辅助用户完成从数据清理到知识表示的知识发现的全过程。为网络化分布式测试系统共享数据挖掘服务,实现资源共享和服务集成提供了有效方法。(3)数据挖掘中聚类分析作为无监督的学习方法在海量数据的未知信息发掘中起着重要的作用,是广为研究的问题之一。本论文通过对基于密度的算法和基于网格的算法的分析,提出了一种密集单元识别与密度可达对象搜索的等效规则,并由此提出了一种基于网格和密度的聚类算法CLGRID。该算法通过分阶段聚类,并选取种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类。在此基础上针对DBSCAN算法的参数选取困难和难以发现密度相差较大的簇的问题,提出多密度阈值的DBSCAN改进算法,算法采用网格密度矩阵绘制密度分布图,自动确定密度层次划分,通过多密度层次的聚类过程得到多个密度层次上的更加精细的聚类结果,解决了因使用全局ε值而导致的聚类质量恶化问题。(4)时间序列数据挖掘是数据挖掘研究的重要内容,其中时序模式挖掘就是通过挖掘时序数据中的序列模式得到潜在的有用的知识或信息。针对航空武器监控系统和复杂流程工业监控系统中监测变量众多、参数时变、变量间关联耦合严重的现状,提出采用在关联性发现方面具有强大优势的序列模式挖掘,以发现故障产生过程中的一些关联耦合关系,为故障诊断提供依据。本文分析了复杂动态系统监测数据的高维、时变、非同步等动态特征,提出采用异常点标注、故障时窗约束和基于特征元素的时序化简将监控系统的多维时序数据转变为适合挖掘的符号序列集合,运用PrefixSpan算法挖掘体现故障特征信息的序列模式,并在化工生产过程模拟器TE仿真平台上进行了实例验证。(5)本文在国内外学者研究成果的基础上,针对工业监测系统的在线故障识别的需要,提出采用时序数据增量式DFT算法,将各维监控量的时序数据通过增量傅立叶变换的技术映射到频域,取时序序列频域的对故障分类贡献最大的若干系数作为特征系数,进行基于欧几里德距离的相似性查询,实现在线故障预测。

刘雪娇[8]2015年在《数据挖掘中的动态聚类及增量研究》文中研究说明聚类分析(cluster analysis, CA)作为数据挖掘技术的一个重要分支,在近年来一直发展较快。聚类是一个将数据集按照某种相似准则划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度,而不同组中的数据对象的差异则是尽可能大。随着科技的发展,越来越多的增量型数据的分析成为人们的关注热点,聚类分析技术能够快速有效发现空间样本的聚集情况,并能帮助人们发现群体空间密集和稀疏的结构特征,对揭示空间样本的分布规律,预测空间样本对象的发展趋势有着重要的意义。对于聚类分析这一数据挖掘技术,本文的研究内容主要分为以下几个部分:首先,对于传统的动态聚类方法K-means进行研究,针对其敏感于初始中心点选取的不足,提出了改进的基于高密度不唯一和均值半径的新方法。该方法通过使用均值半径选取出高密度样本,然后在高密度样本中通过对全局中心的距离度量,选取合适的样本作为初始中心点,使初始中心点具有局部代表性,有效的提高了聚类的质量。其次,对于K-means算法无法预先确定簇的个数k这一不足,在基于高密度初始中心点选取的方法基础上,结合有效性评价指标,对不同的k值所对应的聚类结果进行分析,发现聚类的最佳聚类簇的个数。再次,针对模糊C-均值聚类(FCM算法)的易陷于局部最优的不足,本文对具有全局搜索性能的蚁群算法进行改进,在此基础上,结合FCM算法对增量数据集做出聚类操作,提高了FCM算法的有效性,并且对增量数据有着良好的聚类结果和聚类效率。最后,基于DBSCAN思想,提出了相对密度的新的聚类方法,并在此基础上用相对密度的标准进行增量数据的聚类。新方法能够发现混合分辨率的数据集,并且有效的进行了增量数据聚类。

马飞[9]2008年在《数据挖掘中的聚类算法研究》文中指出数据挖掘是目前信息处理和数据库技术领域的前沿研究课题,被公认为最具发展前景的关键技术之一。数据挖掘汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。数据挖掘更强调的是从海量数据中发现隐含的知识和算法的可伸缩性,是一门很接近使用的技术,其技术含量高,实现难度也较大。聚类分析是数据挖掘的一个重要研究领域,是一种用于数据划分或分组处理的重要手段。聚类的应用非常广泛,在商务、市场分析、生物学、WEB文档分类等领域中都得到了充分的应用。本文对数据挖掘中的聚类技术进行了分析和讨论。首先分析了聚类算法的分类,系统介绍了各种聚类算法及关键技术;然后在原有算法基础上,本文给出了两种改进算法:一种是对k-means算法的改进,提出了一种新的初始化聚类中心的方法,该方法提高了聚类准确率;另一种是对模糊C-均值算法的改进,其基本思想是:通过对数据对象的模糊隶属度进行修正,以及在算法中引入模糊聚类有效性函数来自动确定最佳聚类数C。论文中对这两种改进算法进行了实验分析,实验表明改进是有效的。

刘少龙[10]2016年在《面向大数据的高效数据挖掘算法研究》文中研究指明数据挖掘是分析和处理数据的重要方法,它可以从数据中挖掘出有价值的信息,为决策者提供决策支持。近几年来,随着信息技术的发展,人们每天产生的数据量正以前所未有的速度增长和累积。巨大的数据量及复杂的数据类型,对已有的数据挖掘算法提出了新的挑战。特别是大数据概念的提出,由于其具有数据量大、多样性、高效性等特点,传统的数据挖掘算法受限于内存、效率、扩展性等因素而无法有效地处理大数据。如何更加高效地处理大数据,从中挖掘所需的信息,成为当前研究大数据的热点。目前,对大数据挖掘的研究,主要还是依赖于海量数据的处理技术。这些技术主要包括抽样技术、增量式技术、分布式技术、云计算等。聚类分析在数据挖掘占有重要地位,在实际中有着广泛的应用。本文把面向大数据的聚类算法作为研究对象,重点研究了基于增量式的聚类算法和基于分布式的聚类算法。在增量式聚类中,分析了单个数据块的聚类结果质量和数据块之间聚类信息的传递对最终结果的影响,并提出了改进方法,提高聚类精度。对于单个数据块,通过优化初始聚类中心,来提高聚类结果质量。对于数据块之间信息的传递,通过选取多个传递点,以传递更加精确的信息。分布式聚类可以分为局部聚类阶段和全局聚类阶段。在现有的算法中,局部聚类阶段数据块之间几乎没有信息交流,容易出现局部聚类信息丢失的现象。本文通过向各数据块传递所有局部聚类结果的方式,重新对各数据块聚类,修正局部聚类结果,以得到更纯的子类。全局聚类阶段是对局部结果的合并,本文通过综合考虑局部结果之间的距离差异性和分布差异性,改进了合并方法。最后,在典型的数据集上验证了算法,并与其它的算法进行了对比。实验证明,这两种改进算法均是可行和有效的,而且提高了聚类精度。

参考文献:

[1]. 基于密度的海量数据增量式挖掘技术研究[D]. 周永锋. 中国人民解放军国防科学技术大学. 2002

[2]. 聚类分析和离群点识别技术研究及其应用[D]. 夏勇. 哈尔滨工程大学. 2008

[3]. 增量聚类算法的设计与实现[D]. 王淑玲. 内蒙古科技大学. 2009

[4]. 基于密度维度树的增量式网格聚类算法[D]. 黄娇龙. 武汉科技大学. 2014

[5]. 基于网格和密度的海量数据增量式离群点挖掘算法[J]. 张净, 孙志挥, 杨明, 倪巍伟, 杨宜东. 计算机研究与发展. 2011

[6]. 基于聚类的增量数据挖掘研究[D]. 陈峰. 大连海事大学. 2007

[7]. 面向机械工程计算机测试系统的数据挖掘技术研究[D]. 胡瑞飞. 四川大学. 2006

[8]. 数据挖掘中的动态聚类及增量研究[D]. 刘雪娇. 哈尔滨理工大学. 2015

[9]. 数据挖掘中的聚类算法研究[D]. 马飞. 南京理工大学. 2008

[10]. 面向大数据的高效数据挖掘算法研究[D]. 刘少龙. 华北电力大学(北京). 2016

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于密度的海量数据增量式挖掘技术研究
下载Doc文档

猜你喜欢