基于支持向量机的数据挖掘

基于支持向量机的数据挖掘

张真真[1]2008年在《支持向量机在大坝安全监测资料分析中的应用》文中提出随着水资源的开发与利用,大坝的安全问题日益突出,正确地预报大坝安全监测量,对指导大坝安全运行和辅助决策具有重要的作用。大坝安全监控模型是分析、评价大坝性态的主要工具,在大坝安全监测中发挥着重大的作用,大坝安全监测资料分析及安全监测模型的建立是安全监测工作的最终价值体现。本文在分析传统的大坝监控统计模型上,利用一种数据挖掘中的新方法——支持向量机,建立了基于支持向量机的大坝安全监测统计模型,实际应用表明,将支持向量机应用于大坝安全监测资料分析是成功的。本文主要研究成果:(1)在大坝安全监测的建模分析中,建模因子主要考虑水压、温度、时效等因素,并以此建立其与效应量间的复杂关系,最小二乘回归统计方法是常用模型方法,但这种线性统计模型一般很难反映这种复杂关系,而支持向量机,通过引入核函数,将输入空间中的非线性问题映射到高维特征空间中在高维空间中构造线性函数判别,是一种很好的非线性模型,因此,本文建立了基于支持向量机的大坝安全监测统计模型。(2)支持向量机是求解一个凸二次规划,计算复杂,计算速度慢,最小二乘支持向量机采用等式约束替代不等式约束,加快了求解速度。因此,本文建立了最小二乘支持向量机大坝安全监测统计模型,加快了求解速度,减少了计算资源,比传统的支持向量机模型更具推广力。(3)针对大坝安全监测中,因子间的多重相关性,以及模型的非线性特点,本文将偏最小二乘回归与最小二乘支持向量机耦合,建立大坝安全监测模型。利用偏最小二乘回归对影响大坝渗流和变形的诸多因素进行分析,提取对因变量影响强的成分,从而克服了变量间的多重相关性问题,降低了最小二乘支持向量机的输入维数。实例分析表明,偏最小二乘支持向量机的学习训练效率比最小二乘支持向量机有较大的优势,更适合于大规模的数据建模。

刘国欣[2]2017年在《基于增量学习SVM分类算法的研究与应用》文中研究说明支持向量机(Support vector maehine,SVM)作为一种新兴的统计学习算法,以其优秀的理论基础(结构最小化理论、核空间理论)脱颖而出。它是在统计学习理论基础上发展起来的一种通用学习机器,其关键的思想是利用核函数把一个复杂的分类任务通过核函数映射使之转化成一个在高维特征空间中构造线性分类超平面的问题。支持向量机由于其优秀的学习性能,在分类问题中得到了广泛的应用。增量学习技术是一种得到广泛应用的智能化数据挖掘与知识发现技术,它基于历史的学习结果对新增加的数据进行再学习,使得学习具有一定的连续性。本文的主要工作为:首先,分析了支持向量机的理论基础、基本概念、要解决的关键技术问题以及增量学习的基本概念。随后,分析了几种现有的支持向量机增量学习算法,通过分析可知:大部分都没有充分考虑到新增样本对初始样本集中位于支持向量附近的非支持向量的影响,致使一些有用的历史数据过早的被淘汰,从而严重影响分类的精度,通过引入边界支持向量概念,提出了一种基于边界支持向量的增量学习算法,实验结果表明,基于边界支持向量的增量学习SVM算法在训练速度上及训练精度上有一定的提高。另外,针对支持向量机的多分类问题进行了分析研究,重点对基于超球结构的多分类算法进行分析,得出了一种改进的多分类增量学习算法。最后对新的算法在文本分类中的应用做了设计,验证了本文算法在实际应用中的可行性。

杨宏[3]2017年在《基于智能网联汽车的CAN总线攻击与防御检测技术研究》文中研究表明随着物联网信息产业的发展,各项关键技术的突破,基于多网融合的智能网联汽车开始进入人们的生活,车与人,车与车,车与移动设备,车与基础设施,通过云服务、大数据交换互联在一起。物联网技术极大的提高了人们的驾乘体验,引发了生活方式的变革,是未来汽车的发展方向。目前随着越来越多的电子控制设备应用到汽车当中,各个电子设备模块在汽车运行过程中需要相互配合,电子设备模块之间交流被架构成复杂的通信网络。随着车载网络规模的增大、车用电子设备数量增多,汽车上软件运行的种类和数量也随之加大,网络信息安全问题随之而来。攻击者可以经由汽车内外通信通路攻击车载软件的漏洞,向CAN总线下发异常报文,从而影响车辆的控制系统。这些潜在的隐患不再是盗取信息、钱财那么简单,而是实实在在地威胁到了我们的生命安全。通过异常检测、安全防护等技术,保护车载CAN总线信息安全具有十分重要的意义。本文针对目前智能网联汽车中采用的车载CAN网络,对其存在的可重放、易篡改等安全问题进行深入的分析和解剖,分析车载CAN总线所存在的安全漏洞,设计了针对车载CAN总线的攻击方法,阐述了如何逆向破解总线报文信息,以达到控制汽车的目的。之后在分析攻击手段和总线报文结构的基础上,提出了针对车载CAN总线的异常检测模型。主要取得的成果如下:1)在研究分析车载CAN网络通信协议的基础上,利用CAN网络存在的安全漏洞设计有效的攻击方法。利用逆向技术分析CAN报文数据包,破解车载报文指令信息,以达到控制汽车的目的。车载CAN网络不同于传统的计算机网络,其数据包没有计算机网络IP数据包那样的源地址和目的地址。本文根据CAN报文数据包结构的特点,提出了异常检测模型框架,分别从报文标识位ID和报文数据位进行异常检测,能够较为全面的检测针对车载CAN网络的攻击。2)针对CAN报文标识位ID,提出了基于特征和信息熵的异常检测系统。通过检测CAN总线中不同报文ID的概率分布,计算车载CAN总线的信息熵,以正常CAN总线的信息熵值作为异常检测阈值标准。同时将正常总线中的CAN ID列为白名单,识别总线中非正常出现CAN ID的特征。仿真实验结果显示,基于信息熵和特征结合的异常检测策略能有效的检测洪泛攻击、大量重放攻击以及少数高优先级报文攻击。3)针对车载总线CAN报文数据位,提出了基于支持向量机的异常检测系统。根据数据位的特点,将车载总线报文数据位划分为8个特征,结合支持向量机的检测方法,将正常数据报文与异常数据报文区分开来。仿真实验结果显示,基于支持向量机的异常检测系统对总线报文数据的篡改攻击有很好的检测效果。作为新兴研究领域,本文在CAN总线漏洞挖掘、入侵攻击、异常检测、安全防护等方面做了一些初步探索,其成果为车载CAN总线安全防护的进一步深入研究和应用提供了重要的参考。

刘大莲[4]2017年在《大规模稀疏支持向量机算法研究》文中进行了进一步梳理稀疏学习是一种有效处理冗余问题的方法。目前,稀疏优化方法已广泛应用于信号压缩感知、图像处理等实际问题中,其理论和算法都在快速发展中。由于大规模数据挖掘问题往往具有冗余和稀疏的特点,因此稀疏优化是处理大规模数据挖掘问题的上佳之选。而支持向量机作为通用的机器学习方法,具有坚实的统计学习理论基础,实际应用效果好,使用方便,模型参数较少,在图像、视频、声音、文本等不同领域得到了广泛的应用。国内外关于大规模稀疏支持向量机的理论研究和方法并不成熟,缺乏理论基础和模型算法,尚处于初始阶段。比如:1)稀疏模型的有效性检验指标,即如何度量模型的稀疏程度以及稀疏效果的好坏问题等;2)大规模问题的稀疏模型缺乏统一的理论基础;3)大规模问题的稀疏优化模型求解问题;4)拓展研究比较少,对其拓展有较大空间。我们拟从最优化的角度对上述多方面进行系统研究。本文共分七章,组织结构如下:第一章为引言部分,介绍本文的研究背景、研究意义、研究对象和主要工作概述。第二章详细介绍与本文研究内容密切相关的算法,包括标准的支持向量机(SVM)、最小二乘支持向量机(LSSVM)、基于Ramp损失函数的支持向量机(RSVM)、双子支持向量机(TWSVM)、非平行支持向量机(NPSVM),并比较分析了他们的优缺点。由于NPSVM具有更好的推广能力,后面的研究内容则重点围绕NPSVM展开,一方面从理论上探索其统计学习理论基础,另一方面从方法上构建更稀疏的、能处理大规模问题的NPSVM模型和算法。第叁章针对分类问题,提出一个具有稀疏性和鲁棒性的非平行超平面分类机—基于Ramp损失函数的非平行超平面SVM(RNPSVM)。RNPSVM在训练阶段可以处理含有噪音和异常点的数据,并含有较少的支持向量,从而增加了模型的稀疏程度,具有更好的推广能力。针对该模型中非凸优化问题的求解,我们引入了有效的CCCP策略。进一步,对该模型的稀疏性、复杂度、初始化等进行了理论分析,大量的数值实验也验证了该模型的有效性。第四章从U-SVM的角度构建了NPSVM的结构风险最小化原则,给出了其相应的统计学习理论解释。之后从提升计算效率的角度出发,分别给出了基于线性规划形式的NPSVM和基于线性规划形式的RNPSVM,为NPSVM方法处理更大规模的问题提供了可选择的模型。第五章首先讨论了 LSTWS VM和LSS VM的关系,证明LSS VM是LSTWS VM的退化情况。进一步,基于LSSVM,提出了一个新的稀疏和鲁棒的最小二乘支持向量机RLSSVM。在原有稀疏模型ε-LSSVM基础上,构建并引入了一个新的基于ε-不敏感损失函数的Ramp损失函数,新模型可以有效地对噪音抗干扰,并且具有更好的稀疏性。引入了CCCP策略来求解该模型中非凸优化问题,不同数据集上的数值实验证明了RLSSVM的有效性。第六章基于前面的NPS VM和RNPS VM,提出针对大规模线性分类问题的交替方向乘子法(ADMM),ADMM是目前处理大规模问题的有效优化算法。通过将NPSVM和RNPS VM中的优化问题构造为ADMM可以求解的形式,实现了ADMM在这两个算法上的应用。大量的实验证明了算法的有效性。最后一章总结了本文的主要工作以及取得的成果,并提出了进一步的研究方向。

杨铁建[5]2005年在《基于支持向量机的数据挖掘技术研究》文中研究指明数据挖掘作为一种融合了人工智能、数据库和数理统计等学科特点的新兴技术,与机器学习和统计学习密切相关。它是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。分类即通过由经验数据训练得到的分类器预测未知数据的归属,是模式识别、机器学习、统计分析等领域的一个基本问题,也是一种最常见的数据挖掘任务。 支持向量机作为一种新兴的统计学习算法,以其优秀的理论基础(结构最小化理论、核空间理论)脱颖而出。它是在统计学习理论基础上发展起来的一种通用学习机器,其关键的思想是利用核函数把一个复杂的分类任务通过核函数映射使之转化成一个在高维特征空间中构造线性分类超平面的问题。作为结构风险最小化准则的具体实现,支持向量机方法具有全局最优、结构简单、推广能力强等优点。 本文首先讨论了数据挖掘的基本概念,关键技术,挖掘任务,挖掘方法,基本过程以及发展状况。然后在研究了支持向量机的理论基础及基本概念和要解决的关键技术问题之后,又对当前各种比较通用的支持向量机训练算法进行了研究,比较了各种算法的优劣,尤其深入研究了Platt等人的SMO(Sequential Minimal Optimization)算法,指出这种SMO算法低效的主要原因是采用了单一的阈值参数,然后参考Keerthi等人的思想,提出了一种使用两个阈值参数的改进的SMO算法,在冠心病数据集和肺恶性肿瘤数据集上的试验结果表明,这种改进的SMO算法在训练速度及分类准确性上都有一定的提高。 最后本文应用径向基核函数(RBF),给出一种以支持向量机为核心的数据挖掘方案,设计完成了医疗诊断数据挖掘原型系统。本文把支持向量机引入数据挖掘,为数据挖掘系统的设计提供一种新的选择。

孟静[6]2013年在《异常数据挖掘算法研究与应用》文中研究指明异常数据是指在数据集中与大部分数据不一致或者偏离正常行为模式的数据,它往往代表一种偏差或者新模式的开始,因此对异常数据的识别会比正常数据更有价值。异常数据挖掘作为数据挖掘的重要分支之一,已广泛应用于故障诊断、入侵检测、欺诈检测、新颖文本挖掘及图像处理等领域。迄今为止,研究人员已提出了许多不同的异常数据挖掘算法,这些算法能够有效地发现数据集中的异常数据,但在实际应用中,面对复杂的应用环境这些算法往往会不同程度地存在计算时间效率低下、需要过多的人工干预、以及参数难以选择的缺点,本文针对已有异常数据挖掘算法在实际应用中的不足,从不同角度研究了这些算法并提出了改进。论文的主要工作如下:1.针对LOF算法在动态增量数据库环境中,进行二次异常数据挖掘,需要重新计算所有数据对象的局部异常因子,计算时间较长的缺点,提出了一种基于聚类和快速计算的异常数据挖掘算法。该算法利用DBSCAN算法在原数据集聚类的基础上仅对异常簇中的数据对象计算局部异常因子,当新增数据对象到达时,为避免调用DBSCAN算法重新聚类提出了一种改进的聚类算法,并在该算法的基础上,判断聚类簇中的每个数据对象是否是异常数据对象;最后仅对新增的异常数据对象和原异常簇中受影响的数据对象重新计算局部异常因子。实验结果表明,该方法在动态增量数据库环境下,不仅比LOF与lncLOF算法计算时间效率高,而且提高了挖掘异常数据的精度。2.聚类方法作为一种常用的异常数据挖掘方法已应用于入侵检测中,其中k-means算法作为一种经典的划分算法在入侵检测中得到了广泛地应用,但是该算法要事先指定聚类数目以及易陷入局部最优,为了避免上述不足,本文提出了一种自动确定聚类数的算法。该算法首先通过多次执行样本抽样技术,用最大最小距离算法产生一系列较优的聚类中心和聚类数目,作为差分进化算法的初始种群,然后在种群进化过程中以最优种群个体为指引,动态调整个体聚类中心和聚类数目,并且利用差分进化算法的全局寻优能力和k-means算法的局部搜索能力,对聚类中心和聚类数目同时进行优化,从而得到最佳的聚类划分和聚类数目。在该算法的基础上,还提出了一种异常数据检测方法,通过对KDD CUP1999网络入侵数据集的仿真实验结果表明,该算法具有较好的入侵检测效果,能够有效地检测出网络中的入侵数据。3.变压器异常故障诊断作为异常数据挖掘的一类实际应用,其关键是能够从变压器油中溶解气体数据中发现异常数据,并能识别这些异常数据的类型,支持向量机作为一种分类方法已用于变压器异常故障诊断中,但是该方法对参数选择比较敏感,为了获取最优分类参数,本文提出将萤火虫算法来优化支持向量机的参数,并建立了基于二叉树的变压器异常故障诊断多级分类模型,通过仿真实验表明该方法具有较好的故障诊断效果,优于传统的国际IEC叁比值法和神经网络的方法。

李荣岗[7]2017年在《基于支持向量机的嫌疑人特征预测算法及分布式实现》文中研究表明随着社会政治、经济和科技的高速发展,犯罪事件也以一定的速率不断增长,而且违法犯罪更具组织化、职业化和高智能化。我国公安信息系统信息化程度不高,分析研判不够智能化,决策机制有失科学性,缺乏对数据由宏观到微观的问题发现手段,如何利用数据挖掘的相关技术,充分发挥警务大数据的价值和作用,使其运用到警务工作中,提高执法效率和预防打击犯罪活动,已经成为公安信息化建设中急需解决的问题。因此本文针对大数据环境下,公安技术应用不足、备选嫌疑人众多而预测方法相对落后的问题,提出了运用支持向量机(SVM)预测犯罪嫌疑人的方法,提高侦破效率。传统的嫌疑人预测方法大都通过回归或者分类方法,对嫌疑人的可能性进行判断,这可能会导致错判的可能性。针对这一问题,本文对嫌疑人的特征进行预测,提出基于支持向量机的一种新颖的嫌疑人特征预测方法。首先,本文对支持向量机的基本原理进行介绍,在其基础上提出嫌疑人特征预测模型,并通过实验验证模型的有效性,针对大数据环境下嫌疑人特征预测问题,提出基于Hadoop的分布式嫌疑人特征预测框架。本文的研究成果主要有以下几个方面:(1)针对问题特性以及支持向量机的特点,将支持向量机算法运用到嫌疑人预测问题中。(2)提出嫌疑人特征预测模型。首先对数据进行预处理,并采用信息增益的特征选择方法进行特征选择,基于支持向量机构建嫌疑人特征预测模型,运用粒子群算法(PSO)对模型的参数进行优化,并通过实验对模型进行评估,验证其可行性。(3)提出基于Hadoop的分布式嫌疑人特征预测框架,解决海量数据嫌疑人特征预测问题。设计案件特征选择的并行化和分布式SVM的运行,并于单机的SVM进行对比实验分析,验证了Hadoop处理效率更高。本文的研究成果,不仅较好的解决了嫌疑人预测问题,也为嫌疑人预测、协助办案并提高办案效率提供了新的思路,具有一定的实际意义和借鉴价值。

王志龙[8]2007年在《基于粗糙集理论与支持向量机的数据挖掘方法算法研究》文中认为论文首先就Rough Sets(RS)理论在数据挖掘中的应用所涉及到的一些关键技术问题进行了研究。众所周知,在大型知识库中,经常存在大量的冗余数据。冗余数据的存在,不仅浪费储存空间,而且干扰了人们做出正确而简洁的决策。论文分别从知识属性体系等价的角度、属性依赖程度及重要性的角度、可识辨矩阵的角度和信息论的角度研究了信息系统的知识约简问题。通过研究得到了这五个角度实施约简的方法程序,且发现了诸如信息系统中属性增多时信息熵单调不减的规律。事实上,经典的粗糙集理论在进行分类时其类之间的分界线很严格,这样提高了知识属性对被研究对象识别分类的精度,但这种方式的容错能力很差,使得模型的实际适用性很弱,为了改变这一缺陷,接下来探讨研究了变精度粗糙集的理论及约简问题。然后,分别探讨了支持向量机的模式分类法及回归分析法的建模原理、适用范围及求解问题。同时发现,SVM在数据挖掘中的优势也是其隐患之所在。若在小样本集合中存在噪音或矛盾信息,则对小样本预测的结果会产生很大地影响。在进行支持向量机预测分类之前,发现这些问题,并进行预先处理,正好是粗糙集理论的优势。于是,基于粗糙集理论和支持向量机方法各次的优点,探讨分析了如何将两者有机的结合起来,得出了将粗糙集理论和支持向量机多分类学习机结合的方法程序,给出了利用粗糙集和支持向量机构造多分类机的方法,举例阐述了各种类型的SVM多分类机构造的具体方法。

郑建华[9]2004年在《基于支持向量机的数据挖掘》文中研究说明随着计算机技术特别是数据库技术的迅猛发展,以及人类活动范围的扩展、生活节奏的加快,人们能以更快速更容易更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。面对这些极度膨胀的数据,人们受到“信息爆炸”和“数据过剩”(Data Glut)的巨大压力。这些海量数据如果不能有效利用起来,将只会成为“数据垃圾”。对人类社会进步起到巨大作用的是知识。数据挖掘就是从大量数据中发现潜在规律、提取有用知识的方法和技术。数据挖掘包含的内容很多,其中很重要的一个方面是分类规则挖掘。分类规则挖掘可以根据训练数据,利用适当的算法训练出分类器,从而对新的未知样本作出预测。支持向量机是基于统计学习理论的一种新的分类方法。同其它分类器相比,支持向量机具有很好的推广性能,对未知样本的预测有较高的准确率,因此得到广泛应用。简单的支持向量机只能处理二值分类问题。本文在已有多分类支持向量机基础上,提出一种新的几何距离多分类支持向量分类器;在此基础上,本文将二值支持向量机的后验概率输出也推广到多分类问题,避免了一般方法使用的迭代算法,在快速预测的前提下同样提高了预测准确率。数值实验的结果表明,这两种方法都具有很好的推广性能,能明显提高分类器对未知样本的分类准确率。本文首先介绍了数据挖掘产生的背景以及相关的理论与技术基础,并介绍本文研究内容。第二章深入讨论了数据挖掘的分类、处理过程模型以及挖掘中使用较多的一些技术。第叁章介绍了用于数据挖掘的统计学习理论和支持向量机,并在第四章提出基于几何距离的多分类支持向量机,在第五章提出一种将后验概率支持向量机推广到多分类问题的方法,最后指出今后研究中需要解决的一些问题。

霍罕妮[10]2007年在《支持向量机中参数选取的一个问题》文中研究表明随着计算机和信息技术的快速发展,人们需要花费昂贵的代价收集、存储和处理海量的数据。数据挖掘源于数据库技术引发的海量数据和人们利用这些数据的愿望。用数据管理系统存储数据,用机器学习的方法分析数据、挖掘海量数据背后的知识,便促成了数据挖掘(data mining)的产生。如何从中发现有用的信息,已经成为一个迫切需要解决的问题,数据挖掘技术在这种背景下应运而生。数据挖掘就是在数据库中发现有用的、潜在的、最终可理解的模式的非平凡过程。它是一门交叉学科,涉及机器学习、数学规划、数理统计、模式识别等相关技术。支持向量机(support vector machine,SVM)是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具。它是机器学习领域若干标准技术的集大成者。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。在若干挑战性的应用中,获得了目前为止最好的性能。在美国科学杂志上,支持向量机以及核学习方法被认为是“机器学习领域非常流行的方法和成功的例子,并是一个十分令人瞩目的发展放向”。首先本文给出了一种新的计算支持向量机中正则参数和核参数的方法,与已有的一些算法不同,它是将C和γ作为优化问题中的变量来处理,并通过遗传算法和确定性算法相结合来解这个平衡约束优化问题,从而求出支持向量机(SVM)在分类问题中的正则参数C和γ。其中遗传算法用来求解以C和γ为变量的优化问题,而确定性算法对每一对C和γ值求解约束。另外通过数值计算将该方法的的结果与已有的grid search方法进行比较,可以得出用文中所述的方法求得的C和γ值能明显提高支持向量机的泛化性能。

参考文献:

[1]. 支持向量机在大坝安全监测资料分析中的应用[D]. 张真真. 西安理工大学. 2008

[2]. 基于增量学习SVM分类算法的研究与应用[D]. 刘国欣. 中北大学. 2017

[3]. 基于智能网联汽车的CAN总线攻击与防御检测技术研究[D]. 杨宏. 天津理工大学. 2017

[4]. 大规模稀疏支持向量机算法研究[D]. 刘大莲. 北京交通大学. 2017

[5]. 基于支持向量机的数据挖掘技术研究[D]. 杨铁建. 西安电子科技大学. 2005

[6]. 异常数据挖掘算法研究与应用[D]. 孟静. 江南大学. 2013

[7]. 基于支持向量机的嫌疑人特征预测算法及分布式实现[D]. 李荣岗. 合肥工业大学. 2017

[8]. 基于粗糙集理论与支持向量机的数据挖掘方法算法研究[D]. 王志龙. 兰州大学. 2007

[9]. 基于支持向量机的数据挖掘[D]. 郑建华. 天津大学. 2004

[10]. 支持向量机中参数选取的一个问题[D]. 霍罕妮. 大连理工大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于支持向量机的数据挖掘
下载Doc文档

猜你喜欢