倪春鹏[1]2004年在《决策树在数据挖掘中若干问题的研究》文中指出决策树是一种有效的数据挖掘方法。进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的发展要求具有重要的理论和实践意义。本文对决策树算法中涉及的连续属性离散化问题进行了深入研究,提出了一种高效的离散化算法并对两种新型的改进决策树方法进行了研究,主要包括以下几个方面的内容:提出了一种将神经网络和决策树相结合的数据分类新方法。该方法首先依据属性重要性将属性进行排序,然后通过RBF神经网络进行属性裁减,最后生成决策树,并抽取出规则。与传统的决策树分类方法相比,此方法可依据属性重要性直接生成最小决策树,避免了树的裁减过程,大大加快决策树的生成效率,并进一步提高了规则的预测精度。分析了基于熵的离散化标准的切点特性,提出了一种高效的基于边界点属性值合并和不一致度检验的属性离散化算法。与传统离散化算法相比,此算法只对边界点属性值进行合并,切点个数无需设定自动生成,且合并规则简单易行,大大减小了计算量,适用于处理大规模高维数据库的连续属性离散化问题。同时由于采用了不一致度对备选切点集合进行调整使本算法具有全局性。提出了一种适合于大规模高维数据库的组合优化决策树算法。相比于传统的类似算法,该算法从数据的离散化,降维,属性选择叁方面进行改进,对决策树建立过程中不适应大规模高维数据库的主要环节进行了优化,有效解决了处理大规模高维数据库问题的效率和精度之间的矛盾。
许建潮[2]2005年在《Web挖掘中若干问题的研究》文中提出提出了一种智能网站体系结构。对其中部分内容进行了详细设计。提出了一种新的基于变长度染色体遗传算法的中文网页文档特征抽取方法。该方法综合文本的频率、位置、词长、视觉效果等特征对关键词动态加权,设计了专门的并列处理算子。实验结果表明约简率和准确度都比较高。扩展了格机理论的等标注概念,提出了交集标注概念与求解算法用于多类别Web 文档的分类。实验表明算法的准确率比较高。证明了基于等价关系结合格机与粗糙集的可行性;提出了一种兼有纵向和横向约简功能的高效约简算法。基于超元组实现了数据属性重要性权值的评价;在可接受的分类精度的前提下,高效约简行和列。实验表明效果很好。提出了一种Web 信息抽取方法,仅需用户简单地标注一页网页,系统就能自动获取抽取知识,算法具有一定的自适应性。
王志强[3]2018年在《基于局部中心量度的聚类算法研究》文中认为聚类分析是数据挖掘的主流技术之一,它在人工智能领域有着广泛应用。簇的定义和聚类方法的双重多样性致使数据科学发展过程中聚类算法拥有“数量庞大”“类型多样”等特点。一般而言,能将无标签的样本点聚为若干个簇的算法都可以称为聚类算法,人们常根据这些算法的基本思想或基本假设将其分为几个常见的类型:分割聚类法、层次聚类法、密度聚类法、网格聚类法、模型聚类法等。该文提出了一类基于局部中心量度的聚类算法,其创造性成果主要体现在:1)首创性地提出了局部中心量度的概念。局部中心量度是衡量空间中任意点的局部中心程度的量,聚类过程中区分中心区域的点和边缘区域的点有赖于正确估计出样本点的局部中心程度。该文认为,密度聚类算法中选用的样本点密度起着局部中心量度的作用:密度高于预先设定的阈值的样本点被划分为核心区域的点,而密度低于阈值的样本点被划分为边缘区域的点,它们之间相互连接形成最终的聚类结果。经验上,样本点密度较大的区域通常是簇中心区域,而样本点密度较小的区域通常是簇边缘区域。因而,有着完善的数学理论基础的样本点密度最先成为局部中心量度被广泛应用。然而,样本点密度作为局部中心量度存在着缺陷:密度阈值难以先于经验给出,这将导致以样本点密度为局部中心量度的聚类算法对参数敏感;不同的簇可能有着相差较大的最佳阈值,这将导致以样本点密度为局部中心量度的聚类算法难以处理不平衡问题。因此,人们需要设计新的局部中心量度。2)设计了多个局部中心量度。局部中心量度的准确性直接影响到聚类结果的正确性,一个良好的局部中心量度除了能够正确反映样本点的真实局部中心程度外还需要考虑:局部中心量度的稳定性,即不论应用于何种分布的数据,区分中心区域和边缘区域的样本点的阈值相对稳定,易于算法参数的选取,降低算法对参数的敏感度;局部中心量度的健壮性,即计算结果不易受数据分布的不平衡性影响。该文分别从mean shift和局部引力模型出发,设计了稳定性和健壮性更强的局部中心量度。3)提出了局部引力模型和新的聚类算法。基于局部引力模型,该文借助不同的局部中心量度间的多样性,同时使用多个局部中心量度,提出了LGC算法和CLA算法。新提出的聚类算法具有易于调参,结果准确等特点。4)设计了适用于多性能指标体系下的非参数检验方法。衡量聚类算法性能的指标较多,常见的有RI、ARI、NMI等。多种指标之间的数值相互直接比较是没有意义的,如就算法甲的RI值和算法乙的NMI值进行直接比较是没有意义的。该文采用秩转化的方法,提出了叁种不同的计算秩的方法,将不同的性能指标对应的具体数值转化为秩值,通过对秩值进行统计检验完成多性能指标的融合。
刘锴明[4]2010年在《代价敏感的缺失值填充若干问题研究》文中进行了进一步梳理在数据挖掘与机器学习、模式识别和信息检索等数据分析等理论的应用领域中,数据的缺失是一个处处存在,不可避免且具有挑战性的问题。由于理论发展和实际应用的需要,国内外许多学者都较为深入地研究了缺失数据的成因、类型以及填充算法。各种用于缺失数据填充的算法已经被提出,典型的算法有:EM算法、单一填充法、多重填充算法和C4.5算法。但是,上述这些处理缺失数据的方法都是独立于具体应用的,也就是说它们是不考虑具体的应用领域而独立的填充算法。然而最新的研究结果指出这些不依赖于具体应用的填充算法对于一些机器学习任务(如代价敏感学习)来说是不适用的。在用给定的含有缺失数据的数据集训练一棵代价敏感决策树时,由于受到总代价约束的原因使得一些属性的缺失值不用去填充。故我们需要弥补代价敏感学习与缺失值填充问题之间留下的空白。在数据挖掘和机器学习领域,代价敏感问题的研究一直是一个热点问题,国内和国外的很多研究人员或研究机构在代价敏感问题方面都做了许多研究,并提出了很多新的理论与方法。这当中最受关注的是两类代价:即测试代价和误分类代价。在国外,最早针对数据缺失处理技术展开研究的是美国,它研究的出发点是纠正整个美国社会保险的数据差错。在此期间学者们提出了利用与缺失数据最近似的值来填补空缺数据的方法,例如k近邻分类、粗糙集理论、贝叶斯网、神经网络(NN)等。目前在国内,对缺失值填充问题的研究尚处在起步阶段,尽管在一些学术会议和期刊文献中也可以找到一些有关缺失值理论性研究,但是对缺失数据处理直接相关的研究成果并不常见。此外基于代价敏感的缺失值填充这种新颖的方法在国内外的研究中尚属罕见。上述前人的研究工作为本文的研究提供了坚实的理论方法基础。本论文在此之上将对现有的代价敏感的CII算法进行改进,并准备对代价敏感缺失值填充的以下几个问题进行讨论与研究:(1)研究现有考虑代价敏感问题的缺失值填充算法的优点与缺点,针对其存在的问题进行算法改进,算法策略思想予以实现,从而做为实验改进算法性能的平台;(2)提出对于代价敏感缺失值填充的有用属性的选择理论,即提出一个有效发现absent事例的方法,从而有效降低系统的填充花费且提高系统精度。
樊明辉[5]2006年在《空间数据挖掘及其可视化系统若干关键技术研究》文中研究表明数据挖掘技术已经成为解决“数据爆炸、知识贫乏”问题的有效手段,在地学数据分析领域引入数据挖掘与知识发现的概念、模式和方法,探讨适合地学应用的数据挖掘新方法,对于有效处理海量地学数据、提高地学分析的自动化和智能化水平具有重要意义。 可视化技术能为数据挖掘提供直观的数据输入、结果输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度,在地学领域,可视化与空间数据挖掘的结合已成为必然。 本文系统地讨论了基于数据仓库的空间数据集成技术,改进了空间关联规则、粗糙集和空间聚类算法,研究了契合上述挖掘算法的若干可视化技术,在此基础上,实现了一种开放式的“即插即用型”数据挖掘系统,并集成上述数据挖掘技术、可视化技术,形成一套可视化空间数据挖掘的理论框架、技术方法和原型系统。研究内容和结果可归纳为: (1) 阐述了空间数据集成和空间数据集成模型的相关理论和概念,对多源空间数据的集成模式进行了探讨。讨论了多源空间数据的一体化处理技术和多尺度空间数据的一体化处理技术,提出了基于数据仓库的数据集成总体框架,设计了一个基于Web的空间OLAP工具,并给出了具体的实现流程。 (2) 改进了Apriori算法,提出了一种基于映射的高效大项集关联规则发现算法MBAR。探讨了空间概念树和层次关联规则结合的途径,提出了基于概念树的多层次空间规则算法,给出了算法处理流程和应用实例。 (3) 探讨了应用于多准则决策分析的基于优势关系的粗糙集扩展模型,对该模型中已有的求核和知识约简算法进行了研究,提出了一个新的优势区分矩阵的定义,在该定义的基础上给出了相应的求核和求约简算法,给出了在属性约简之后提取优势规则的方法。 (4) 研究了基于空间邻接关系的空间聚类挖掘算法VSG-CLUST。该算法是一种基于图分割的可视化空间聚类算法,利用Delaunay叁角网工具和MST(最小生成树)将地理实体的邻接信息(空间相邻关系)加入并参与到空间聚类中。研究了利用多尺度的空间概念层次关系进行空间聚类挖掘的算法,将尺度因素作为一种约束条件施加于VSG-CLUST算法中MST的分割和修剪策略,即一种基于尺度约束的空间层次聚类挖掘算法。 (5) 讨论了基于OLAP的空间多维可视化方法,并给出OLAP多维可视化
白运会[6]2007年在《粗糙集理论在数据挖掘中若干问题的研究》文中研究表明随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据呈海量增长,出现了“数据爆炸但知识贫乏”的现象。在这种情形下,数据挖掘作为处理海量数据的工具便应运而生了。目前,数据挖掘中常用的方法和技术有:统计分析方法、决策树、神经网络、遗传算法、模糊集方法、粗糙集理论、可视化技术等等。在诸多方法中,粗糙集理论与方法对于处理复杂系统不失为一种较为有效的方法。粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种分析不完整、不精确、不确定数据的数据分析理论。将粗糙集理论应用于数据挖掘,具有明显的优越性——无需提供所需处理的数据集合之外的任何先验信息,利用数据集上的等价关系对知识的不确定程度进行度量。恰恰是这一点,使得粗糙集理论在数据挖掘中具有更强的生命力。目前,粗糙集理论广泛应用于数据挖掘的多个方面,比如:属性约简,连续属性离散化,关联规则挖掘等等。本文主要研究粗糙集理论在属性约简和连续属性离散化两个方面的应用。属性约简是粗糙集理论研究的核心问题之一,通过属性约简,删除决策表中不必要的属性,在不丢失决策表基本信息的前提下,简化知识的表示,这正是人们所期望的。粗糙集理论不能直接对连续属性进行处理,而现实中的决策表往往含有连续属性,这是制约粗糙集理论应用的一个重要方面。因此,在数据预处理阶段需要将连续属性离散化。针对粗糙集理论在这两个方面的应用,本文主要做了如下工作:(1)提出了一种通过构造约简树对决策表中的属性进行约简的方法。该方法方便有效、容易被人们理解,在一定程度上降低了属性约简算法的时间复杂度。(2)从逻辑代数的角度出发,定义了可辨布尔矩阵,给出了可辨布尔矩阵的性质,用来简化可辨布尔矩阵的变换,建立了用可辨布尔矩阵和线性逻辑方程组表示的属性约简模型,讨论了该模型的求解方法,给出了线性逻辑方程组有解、有唯一解的充分必要条件。提出了分类系数的概念,给出了一种基于分类系数和线性逻辑方程组的新的高效的属性约简算法。(3)将可辨布尔矩阵和线性逻辑方程组用于连续属性离散化:建立了关于断点集与可辨布尔矩阵的逻辑方程组,在逻辑方程组解的基础上提出了一种新的连续属性离散化算法。(4)将上述提出的属性约简算法和连续属性离散化算法用于数据挖掘过程中,建立了一个基于粗糙集理论的数据挖掘模型。数据挖掘本身及粗糙集理论还有许多问题值得探讨,本论文将二者结合研究肯定还有许多不完善的地方,相关工作还有待进一步研究。
隋艳茹[7]2007年在《数据挖掘方法在采购优化中的研究与应用》文中指出采购优化包括在企业生产中对原材料的消耗量进行预测,以及根据预测到的原材料消耗量来制订最优的采购方案。采购优化的目标是降低采购占用的资金,同时降低采购成本。在现代企业管理中,大多数企业的采购资金在周转资金中占用重要的比例,因此,制订合理的采购方案,对企业的经营具有重要的现实意义。制订合理的采购方案,首先必须从大量业务数据中分析原材料的消耗规律,进而预测原材料的消耗量。从20世纪90年代以来,数据挖掘技术开始逐渐应用于解决类似的商业问题。近年来,得益于计算机运算能力的不断提高,数据挖掘的研究方向开始侧重于如何使用搜索优化算法来对数据进行分析,并挖掘出所需要的信息。本文的主要工作是如何利用基于搜索优化算法的数据挖掘方法,来对采购进行优化。本文中将采购优化问题分解为两个子问题。一是对原材料消耗量的预测问题,二是根据所预测的消耗量制订最优采购方案。对于第一个问题,把原材料的消耗看作是受产品影响的概率模型。根据统计出来的消耗量数据,使用极大似然法计算原材料消耗概率模型的参数。在求解概率模型参数时,把极大似然参数估计问题转换成为约束优化问题,并应用自适应复合形法对参数进行求解。对于采购方案的制订问题,在对数据分析的基础上,找出采购方案的影响因素,并依据这些因素,给出了一个采购成本计算模型,最后通过对该模型的最优化,得到了最优采购方案。本文中的方法可以在线使用,而且适用于多种概率模型,易于扩展,具有一定的通用性。通过在某印染企业中半年以来的应用,表明这种方法能够依据历史数据来推断未来原材料的消耗规律,并能根据原材料的消耗制订合理的采购方案,实现了采购优化的目标。
杨风召[8]2003年在《高维数据挖掘中若干关键问题的研究》文中研究表明数据挖掘指的是从大量的数据中提取隐含的、事先未知的、并且潜在有用的知识的技术,是目前国际上数据库和信息决策领域最前沿的研究方向之一。在实际应用中经常会碰到高维数据,如交易数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等。由于这种数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。 随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用L_p距离作为数据之间的相似性度量,在高维空间中很多情况下这种相似性的概念不复存在,这就给高维数据挖掘带来了很严峻的考验,一方面引起基于索引结构的数据挖掘算法的性能下降,另一方面很多基于全空间距离函数的挖掘方法也会失效。解决的方法可以有以下几种:一个可以通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理;对算法效率下降问题可以通过设计更为有效的索引结构、采用增量算法及并行算法等来提高算法的性能;对失效的问题通过重新定义使其获得新生。 本文对高维数据挖掘中的相似性搜索、高维数据聚类、高维数据异常检测及电子商务中的协同过滤技术进行了研究,指出了高维给这些领域带来的影响,提出了一些解决问题的方法,具有一定的理论意义和现实的指导意义。 本文的主要工作如下: (1)通过对高维数据特点的分析,提出了一种新的相似性度量函数Hsim(),该函数可以避免在高维空间中分辨能力下降的问题,还可以将数值型的数据和二值型数据相似性的计算整合在一个统一的框架中。并将它与其它的相似性函数进行了比较; (2)结合量化交易数据的特点,提出了一种新的量化交易数据相似性搜索方法,这种算法基于一种称为特征表的结构,对数据有较高的修剪率,能大大提高相似性搜索的速度; (3)提出了一种新的基于用户评分数据的协同过滤算法,并通过实验证明该算法不仅提高了推荐的效率,还对推荐精度有一定的提高; (4)分析了高维数据聚类的算法,提出了基于对象相似性的高维数据聚类框架; (5)对高维对异常检测算法的影响进行了分析,给出了投影异常检测的概念。提出了一种动态环境下局部异常的增量挖掘算法IncLOF,并通过实验和LOF算 摘 要法进行了比较,结果表明在动态高维的环境下,当高维索引结构失效的情况下。能大大提高局部异常的挖掘效率。
吴贤[9]2015年在《社会化数据挖掘中的若干问题研究》文中进行了进一步梳理Web2.0的热潮催生了众多的以用户为中心的应用。在这些应用中,普通的万维网用户不仅仅是内容的消费者,并且是内容的生产者。例如,在像Twitter这样的微博应用中,普通用户发布微博公开自己正在做的事情,关注其他用户收听到他们发布的微博,转发他人的微博进一步传播信息;在像亚马逊MTurk这样的众包应用中,普通用户可以参加人工标注任务(标注一篇文档的类别,翻译一个句子,标识照片中是否包含头像等等)来赚取报酬;在像亚马逊,EBay这样的在线商城中,普通用户可以对商品打分并且添加评论,这些评论会帮助其他用户更好的了解商品,也给商家提供了第一手的反馈意见;在像维基百科这样的协同编辑网站中,普通用户可以协作完成像编辑百科全书这样规模巨大的项目。根据Alexa的统计,在排名前20被访问次数最多的网站中,11个是以普通用户为中心的。我们将这种借助社会上普通用户的力量的应用称为社会化应用,将普通用户通过社会化应用产生的数据称为社会化数据。各式各样的社会化应用产生了海量的社会化数据。如果应用得好,这些数据可以帮助到为数众多的数据挖掘和自然语言理解任务。例如,微博数据可以用来侦测突发事件和预测股票走向;众包数据可以为有监督的模型提供训练标注;用户评论数据可以用来训练情感分类模型;维基百科的数据可以用来构建知识库并且支撑语义网络中的众多应用。然而,社会化数据也存在着很多问题,阻碍了其在实际中的直接使用。首先,社会化数据的制造者是普通的网络用户,他们之中很多人没有通过资格考试,也没有参加过培训。由于专业水平的参差不齐,社会化数据中不可避免的包含了很多错误;其次,有些恶意用户故意散播谣言和制造垃圾信息,导致社会化数据中包含很多虚假有害信息;再次,在像商品评论,微博,博客这样的应用中,为了方便使用,往往允许用户使用自由文本或者半结构格式发布信息,这样缺乏结构的社会化数据很难直接被机器理解和自动处理。针对社会化数据中存在的问题,我们从粗粒度到细粒度的顺序,对社会化数据挖掘中的几个重点问题展开研究:对于多个用户产生的数据,我们研究如何优化众包序列标注。主要的挑战是众包标注中包含很多错误信息。为了纠正这些错误信息,我们提出了聚合统计模型,考虑了叁方面的因素来提高标注的质量:(1)多数用户赞同的标注很有可能是正确标注;(2)有过正确标注的众包参与者更值得信赖;(3)如果一个众包参与者正确标注过一条序列,那么他也很有可能正确标注其他具有类似特征的序列。通过使用聚合模型,我们可以从来自多个用户有噪音的标注中,推导出一个统一的并且质量较高的序列标注。我们进一步在聚合模型上加入了主动学习的策略,优化众包序列标注的流程。在保证标注质量的前提下,尽可能的降低众包标注的费用。对于单个用户产生的数据,我们研究一种特别的微博用户:“僵尸用户”。在微博平台上,以下两种交易导致了僵尸用户的出现:其一是购买粉丝:许多明星通过购买大量粉丝来人为制造自己的知名度,作为和广告厂商谈判的筹码。许多普通用户也有意愿购买粉丝,作为炫耀的资本;其二是购买转发:因为新浪微博使用转发量来选取热门微博,很多厂商购买僵尸用户转发广告微博,这样不仅可以扩大宣传范围,也可以让广告微博登上热门微博榜单。通过人为制造粉丝数量和转发数量,僵尸用户造成了微博数据的失真,这不仅会误导普通用户,也会影响基于微博数据的第叁方应用。为了提高微博数据的可靠性,我们利用两方面的信息来侦测僵尸用户:(1)微博用户的个体特征;(2)用户之间的社交关系。通过使用这两方面的信息,我们提出了一种半监督的检测模型来区分僵尸用户和正常用户。对于单个用户发布单条数据,我们研究一种特别的微博:“软广告”。在微博平台上,热门微博主具有很强的宣传效应,他们发布的内容可以为数千万用户所看到。很多商家会找热门微博主发布广告内容,我们称之为软广告。软广告没有特别的区分标签,因此具有很强的欺骗性,没有经验的用户会把软广告当成微博主的真心推荐。有经验的用户虽然可以区分软广告和正常微博,但是阅读夹杂着软广告的正常微博会伤害用户使用体验;对于微博平台来说,软广告会抢占他们的广告市场份额。由于软广告的隐蔽性和热门微博主的号召力,很多商家会绕过平台直接和微博主联系。为了保护用户和平台的权益,我们使用有约束的共聚类方法来识别微博软广告。这种方法同时考虑了结构化信息和文本信息。与分类方法相比,这种方法可以解决数据异构的问题,达到更高的识别精度。对于单条数据中模式,我们研究如何从用户评论中抽取出具有情感倾向性的模式。这种模式既可以用来训练情感分类器,又可以作为用户评论的摘要。我们将这个问题抽象称为频繁项集挖掘问题。由于评论数据规模巨大,常规的频繁项集挖掘算法会遇到的组合爆炸的问题。本文提出了一种新的方法:基于迭代采样的频繁项集挖掘。这种方法没有直接处理整个数据集合,而是通过迭代采样降低了问题的规模。我们从理论和实践两方面证明,通过迭代一定的次数,既可以避免组合爆炸,又可以保证较高的覆盖率。本文提出的方法非常易于并行化,并且具有很强的鲁棒性。我们在跨领域和跨语言的用户评论中挖掘出了具有情感倾向性的自由模式。
秦昆[10]2004年在《基于形式概念分析的图像数据挖掘研究》文中进行了进一步梳理随着图像数据获取设备和获取手段的迅速发展,我们获取了海量的图像数据,如何充分地利用这些图像数据,从图像数据中挖掘出隐含的、潜在的规律性的知识,是目前迫切需要解决的问题。本文对图像(遥感图像)数据挖掘与知识发现这一新的概念的内涵和外延进行了系统地深入地分析和研究,将这一概念解释为“利用空间数据挖掘的理论和方法(空间聚类分析、空间关联规则分析、空间序列分析等)从图像库(或多幅图像、一幅图像的多个分块)中提取出规律性的潜在的有用的信息、图像数据关系、空间模式等,自动抽取出具有语义意义的信息(知识),从而为图像的智能化处理服务的过程”,强调这个概念是一个动态的概念,是一个过程,其目的是为图像的智能化处理服务,可以对人量的图像数据库进行挖掘,也可以只对一幅图像进行挖掘,它是在其它相关技术的基础上发展起来的,由于还处于初期阶段,与这些相关技术之间的区别有时候可能还不是很明显。本文认为图像数据挖掘是一个具有自己的独特的研究内容的、具有自己的理论和技术框架的一门新的理论和技术。本文对这一概念与其它相关概念之间的关系进行了分析和对比,对图像数据挖掘的研究内容和研究体系进行了界定。 本文对形式概念分析(概念格)理论进行了系统地深入地分析,形式概念分析理论也称作概念格理论,是用数学的形式化的方法对人从数据中产生概念的过程进行分析的有力工具,这与数据挖掘是从大量数据中产生知识的过程是一致的,冈此,形式概念分析理论非常适合于进行数据挖掘的研究。本文对基于形式概念分析理论的数据挖掘的原理和算法进行了研究,将关联规则、分类规则、聚类规则统一成“A(?)B”的形式,从而建立了集关联规则挖掘、分类规则挖掘和聚类规则挖掘为一体的统一的数据挖掘的框架。本文重点对关联规则挖掘的算法进行了深入的研究,并研究出两种集概念格的构建和Hasse图的绘制为一体的关联规则挖掘的快速算法。其中,第二种算法建立了辞典序索引树,并根据概念格节点的内涵基数实现分层存放,经过实验验证,证明这两种算法都优于经典的关联规则挖掘算法Apriori算法,并且第二种算法比第一种算法更加快速有效。 我们对现实世界的认识是在不同的层次、不同的粒度世界里进行的,对于图像数据挖掘来说也是如此,这就涉及到一个图像数据挖掘的粒度问题。本文通过对商空间理论的分析与研究,利用商空间理论提供的形式化语言来描述图像数据挖掘的不同的粒度世界,将商空间理论与形式概念分析理论相结合,对图像数据挖掘与知识发现的机理进行了研究,从理论上提出了一个概念驱动的图像数据挖掘与知识发现的理论框架,即通过商空间理论建立图像数据挖掘的形式化分析体系,在该形式化分析体系的指导下,利用基于形式概念分析理论的数据挖掘算法,从不同粒度的图像世界中提取出不同层次的概念,分析概念之间的包含与被包含关系,从而挖掘出图像数据中隐含的潜在有用的规律性的知识。 图像数据挖掘与知识发现是一个非常复杂的过程,当我们面对一堆纷繁复杂的图像数据时,可以利用商空间的分层递阶的处理方法,首先将这个复杂的问题进行分解,根据区域、层次、图像内容等将图像数据挖掘划分成各个子问题,从不同的粒度分别进行图像数据挖掘,然后再将这些不同粒度的图像数据挖掘的结果进行集成。根据图像数据的位置,可以将图像数据划分为不同的区域,对这些不同的区域的图像数据分别进行挖掘;根据图像数据的层次,将图像数据挖掘划分为像素层次的微观粒度的挖掘、像素集团层次的中观粒度的挖掘、对象层次的宏观粒度的挖掘以及基于对像及其相关的领域信息的宏观粒度的挖掘。根据图像的内容,可以分别进行光谱(颜色)特征知识挖掘、纹理特征知识挖掘、形状特征知识挖掘、空间关系特征知识挖掘等。在进行图像数据挖掘的过程中,以提取各个层次的概念以及概念之间的关系为主要目的,从而挖掘出相关的关联知识。这样,将商空间理论与形式概念分析理论相结合,建立概念驱动的基于商空间理论和概念格理论的统一的图像数据挖掘的框架。本文重点对光谱(颜色)特征知识挖掘、纹理特征知识挖掘、空间关系特征知识挖掘等进行了实验研究,从图像数据中挖掘出了大量的光谱特征知识、纹理特征知识以及空间分布规律知识等。本文选取了大量的航空纹理样本图像,进行了基于纹理特征知识的纹理图像分类的实验,并且与基于灰度共生矩阵、基于马尔柯夫随机场的纹理分类方法进行了对比实验,实验结果证明本文所研究的集于图像数据挖掘的纹理分类方法的分类精度比另外两种纹理分类方法的分类精度更高。 利用图像数据挖掘的方法可以从图像数据中挖掘出大量的图像知识,本文对图像知识的存储与管理以及基于知识的应用等问题进行了研究。本文提出了利用关系数据库以及文本文件的方式实现图像知识的统一存储和管理的方法,建立了一个图像知识库系统,实现了图像知识的有效存储和添加、删除、查询等功能。图像数据挖掘的主要目的之一就是为图像的智能化处理服务,针对图像的智能化处理的目的,本文对图像数据挖掘的应用:基于知识的图像分类?
参考文献:
[1]. 决策树在数据挖掘中若干问题的研究[D]. 倪春鹏. 天津大学. 2004
[2]. Web挖掘中若干问题的研究[D]. 许建潮. 吉林大学. 2005
[3]. 基于局部中心量度的聚类算法研究[D]. 王志强. 华南理工大学. 2018
[4]. 代价敏感的缺失值填充若干问题研究[D]. 刘锴明. 广西师范大学. 2010
[5]. 空间数据挖掘及其可视化系统若干关键技术研究[D]. 樊明辉. 中国科学院研究生院(遥感应用研究所). 2006
[6]. 粗糙集理论在数据挖掘中若干问题的研究[D]. 白运会. 山东师范大学. 2007
[7]. 数据挖掘方法在采购优化中的研究与应用[D]. 隋艳茹. 大连理工大学. 2007
[8]. 高维数据挖掘中若干关键问题的研究[D]. 杨风召. 复旦大学. 2003
[9]. 社会化数据挖掘中的若干问题研究[D]. 吴贤. 上海交通大学. 2015
[10]. 基于形式概念分析的图像数据挖掘研究[D]. 秦昆. 武汉大学. 2004
标签:计算机软件及计算机应用论文; 数据挖掘论文; 粗糙集论文; 大数据论文; 数据挖掘算法论文; 聚类分析论文; 离散化论文; 空间数据论文; 文本聚类论文; 用户研究论文; 图像融合论文; 空间分析论文; 文本挖掘论文; 无监督学习论文; 高维空间论文; 用户分析论文; 社会化平台论文; 样本空间论文; 软广告论文; 决策树论文; 数据分析论文;