基于时空调节及基于三次遍历的快速关联规则挖掘算法的研究

基于时空调节及基于三次遍历的快速关联规则挖掘算法的研究

路燕[1]2000年在《基于时空调节及基于三次遍历的快速关联规则挖掘算法的研究》文中提出数据挖掘是当今国际上人工智能和数据库研究方面最富活力的新兴领域,其目标是为了满足用户目标,自动处理大量的原始数据,从中识别重要和有意义的模式,并将其作为知识加以表达。是从大量的数据中发现潜在的、有用的知识的过程,是解决“数据丰富,信息贫乏”的有效方法。关联规则是数据挖掘最重要的课题之一。 本文简单回顾了挖掘关联规则问题,提出了一种基于较小超集的高效的关联规则挖掘算法以及基于时空调节的关联规则挖掘算法。基于较小超集的高效关联规则挖掘算法仅须对数据库作三次遍历,在求数据库所含的频繁模式集时,能够生成较小规模的频繁模式集的候选集,即利用了非频繁模式的父模式必定是非频繁模式的原理,有效减少了生成的后选集的规模,实现方便,在很大程度上提高了效率;基于时空调节的关联规则挖掘算法,能有效利用用户能够提供的内存空间,通过采用相应的步长设定方法,去挖掘关联规则,可以大大减少扫描数据库的次数,尤其在采用改进算法后,能更有效的发现关联规则。 本文提出的算法主要有以下优点:1)效率较高。与现在已有的关联规则挖掘算法相比较,大大减少了算法须对数据库的遍历次数;2)时空调节。能够在减少遍历次数,提高效率的同时,还可在执行时间和所须的内存空间两方面取得折中,获得适合用户的最佳方案。

李长源[2]2005年在《关联规则挖掘算法研究》文中指出关联规则的数据挖掘是数据挖掘技术中非常重要和有应用前景的一种技术,一直是近几年来数据挖掘研究和应用领域活跃的前沿。尽管在算法研究上已经积累了大量的成果,但我们应当看到,数据库的规模仍然在不断飞速地膨胀,对进一步提高挖掘算法效率的要求仍然十分紧迫。关联规则发现的主要研究方向是算法的优化和扩展应用领域。典型的关联规则发现算法是由R. Agrawal等提出的Apriori算法,其核心技术为其它各类关联规则采掘算法所广泛采用。但是,在计算侯选集的支持度时,Apriori算法是在每一个循环中都要扫描整个数据库,使得挖掘效率较低。本文针对Apriori算法存在的问题,提出了两种改进算法:基于三次遍历的快速关联规则挖掘算法和基于步长调节的关联规则挖掘算法,并通过与Apriori算法从扫描数据库的次数、时间复杂度和空间复杂度三方面进行比较,最后得出了这两种算法的效率高于Apriori算法结论。

马盈[3]2013年在《基于MapReduce构造多维数据及关联规则挖掘算法的研究与应用》文中研究说明随着互联网大数据时代的到来,海量数据的处理成为诸多领域亟待解决的技术瓶颈。而以MapReduce为代表的一系列云计算技术,为这类问题提供了优秀的解决方案。越来越多的互联网应用都选择与云计算技术结合,以提升自身服务的可扩展性和处理能力,来应对海量数据带来的压力和挑战。本文的主要研究内容是在详细分析多维数据特点的基础上,基于MapReduce分布式计算模型和Hadoop分布式架构,提出了并行构造多维数据的方法,同时针对多维数据的的典型应用,提出并实现了一种高效的并行多维关联规则挖掘算法。本文首先介绍了多维数据的基本概念、形式化描述和相关应用,以及关联规则的定义、分类和挖掘过程,并对多维关联规则挖掘进行了详细的阐述。然后,在分析MapReduce计算模型的原理和特点的基础上,提出了基于MapReduce并行构造多维数据的方法;通过分析各经典关联规则挖掘算法的特点和局限性,提出了基于Apriori的并行多维关联规则挖掘算法。之后,通过模拟实验对算法的性能进行评估,并对MapReduce模型的数据流进行调优。实验结果表明,与单机执行的方式相比,并行构造多维数据方法的效率更高,具有更好的稳定性;并行多维关联规则挖掘方法在提高效率的同时,还减少了对数据文件的扫描次数,大大降低了系统的I/O负荷。

佚名[4]2006年在《自动化技术、计算机技术》文中研究说明TP11,TP317.12006011833基于LOTUS NOTES的企业CSCW办公平台设计和实现/焦传斌,李治柱,徐亚飞(上海交通大学计算机工程学院)//计算机应用与软件.―2005,22(4).―40~42.该文介绍一个基于Lotus notes

夏丽君[5]2016年在《面向工业过程故障诊断的FP-growth方法及应用》文中认为FP-growth算法是一种挖掘频繁项集的有效算法。然而,该算法因多次遍历频繁集列表而产生的庞大频繁模式树需占用大量内存,降低了运行效率。面向工业过程故障诊断的要求,论文提出了一个改进的FP-growth算法(Upgraded FP-growth,简称UFP),主要的研究工作如下:1、改进了传统的FP-growth算法,首先构造支持度函数实现各项与其支持度的映射,使算法的运行效率得到提高;其次,利用关键字筛选技术,把频繁项分成关键项表、非关键项表两部分,保证了最终获取的每条关联规则都是人们关注的有效信息;最后,根据频繁1-项集划分数据库子集并直接构造每一项的条件模式树,节省了内存空间。2、面对过程故障诊断的实际问题,建立了基于UFP的方法,给出诊断工业故障时的参数阈值设置规则、算法步骤和流程。将UFP算法应用于田纳西伊斯曼(Tenessee Eastman,简称TE)过程的故障诊断,首先完成关联规则挖掘,然后通过与主成分分析(Principal Component Analysis,简称PCA)算法在多种故障下的诊断结果对比实验,证明了UFP在故障诊断领域的优势。3、将所提出的工业过程故障诊断UFP方法应用于某工控企业的核电验证平台中,利用MFC进行挖掘结果的可视化,实现了对该平台常见的24种故障的诊断,证明了UFP算法在大型流程工业监控领域的适用性。并且,基于MFDraw软件绘制了核电项目的系统组态界面,实现了流程工业数据采集、传输、预处理、趋势图显示、关联规则挖掘和结果可视化等多种功能的集成,方便了操作员的监控管理。

樊敏[6]2009年在《基于群体智能优化算法的土地评价分类规则挖掘研究》文中研究说明随着GIS和数据库技术在土地管理领域的飞速发展,人们可以方便的管理、查询、统计和存储土地利用数据,为土地评价、土地利用规划等工作提供了海量的数据保证。然而,由于土地利用源数据来源于多个部门,存在类型多样、尺度不一、关系复杂等特点,使得人们虽然拥有海量的土地数据,却无法准确、直接的从数据中获取相关土地管理领域的知识,势必造成“数据丰富,知识贫乏”的局面。如何从海量的土地利用数据中获取能够有效解决不同土地问题所需的知识和模式,就成为土地管理领域中一个亟待解决的问题。空间数据挖掘技术,作为数据挖掘技术的一个重要分支,可根据用户的需求和领域知识的引导,从海量的空间数据库中挖掘用户感兴趣的规律和模式,目前已经广泛应用于遥感分类、土地利用变化模拟等领域。土地评价是土地管理领域中的一个主要研究课题,可为土地利用规划、土地利用决策支持等提供基础数据,是根据评价目的和类型,基于影响土地质量的参评因子,对土地质量进行鉴定的过程。空间数据挖掘中的空间分类技术,是将原始空间数据集划分为训练数据集和测试数据集,利用空间分类算法构建分类模型对训练数据集进行训练获取条件属性与决策属性之间的一种映射关系,一般表现为空间分类规则,通过测试数据集测试合理后,用以指导未知样本的数据分类。根据土地评价和空间分类技术的相似性,本文试图从空间分类技术的角度构建土地评价模型,以土地评价参评因子和评价的结果分别作为条件属性和决策属性,利用分类算法训练土地评价参评因子与评价结果之间的关联关系作为指导其它地区的土地评价知识,这种方法不依赖土地评价因子的权重,有效的避免了主观随机性。通过模型训练空间分类规则,具体而言就是通过分类算法寻找出最能代表训练数据集的空间分类规则集合,是一个逐步寻优的过程,因此本文将群体智能优化算法中比较有代表性的蚁群算法引入土地评价空间分类规则挖掘中,并针对蚁群算法容易陷入局部最优的特点,使用免疫算法对其结果进行改进,从而实现土地评价、空间数据挖掘技术和群体智能优化算法三者的有机耦合。论文首先详细分析了土地评价理论方法的研究现状,归纳目前常用的土地评价方法以及存在的缺点,以土地评价、空间数据挖掘和群体智能优化算法的理论作为指导,将群体智能优化算法作为空间数据挖掘模型的训练算法,提出基于群体智能优化算法的土地评价分类规则挖掘思路。由于空间数据挖掘涉及到数据、知识、训练算法、模型测试等诸多方面的因素,结合土地评价领域知识以及GIS与空间数据挖掘的集成模式,确定了本文所使用的GIS、土地评价与空间数据挖掘的集成模式,设计了基于GIS的土地评价分类规则挖掘体系结构。该体系结构分为四层:数据层、知识层、挖掘层和人机交互层,是以土地评价和空间数据挖掘的耦合思想以及内部协作关系为指导来设构建的,数据层为挖掘层提供数据准备,挖掘层的各项任务被知识层中的算法库、知识库和模型库所限制和引导,用户作为挖掘层和知识层之间的通讯桥梁,通过发出指令的方式指导挖掘任务,计算机利用内部机制实现数据共享,并为用户提供友好的可视化表达。空间数据具有多样性、时空差异以及冗余性等特点,在进行土地评价分类规则挖掘之前,需要针对挖掘任务对土地评价多源异构数据进行数据整合,结合土地评价数据的特点,论文从土地评价数据转换、数据清理、数据集成和数据归约四个方面进行土地评价数据整合研究,针对不同的整合要求选用不同的算法来进行,构建了模型库、算法库支持下的土地评价数据整合体系。构建基于空间数据挖掘技术的土地评价模型是本文研究的关键,在空间分类模型构建思想的指导下,论文从数据结构设计、空间数据采样、分类模型训练、分类规则剪枝和分类模型测试等几个方面分别进行阐述。首先围绕选用的训练算法设计空间数据结构并依据采样原则将整合数据库分为训练数据集和测试数据集;然后详细阐述了人工蚁群系统、人工免疫系统以及土地评价分类模型的耦合思想,旨在将群体智能优化算法引入土地评价分类规则挖掘领域;由于通过蚁群算法和免疫算法训练提取的分类规则挖掘可能存在冗余属性和冗余规则,造成土地评价分类规则库不够简洁,在模型训练后,本文还采用规则属性修剪和冗余规则剔除两种规则剪枝策略,构建了基于免疫算法的土地评价分类规则剪枝体系,获取最终的土地评价规则集合;最后将最优土地评价规则集合进行测试,合理后则可进行推广应用。由于群体智能优化算法在土地评价分类规则挖掘中的应用也是本文研究的个重点,因此,论文还进一步对土地评价分类规则模型中所涉及的群体智能优化算法进行了具体的设计,针对蚁群算法和免疫算法的运行机理分别设计了输入层、挖掘层和输出层的三层算法结构,围绕算法的数学化描述、算法训练流程以及群体智能优化算子设计三个方面展开,结合土地评价的领域知识,对土地评价分类模型训练和规则剪枝过程中的蚁群算子和免疫算子进行了详细、系统的设计。为了证明所构建的体系结构、整合框架、挖掘模型和优化算法的合理性和可行性,论文最后使用广东省普宁市农用地定级为例,以Matlab程序设计语言为支撑,集成模型、算法,实现了普宁市农用地级别规则的自动挖掘,并进一步针对基本蚁群算法和基于免疫优化的蚁群算法的结果进行性能分析比较,选择基于免疫优化的蚁群算法提取的分类规则作为最终的农用地级别规则来引导测试数据集的分类,通过最终级别分布和分类精度,证明了本文构建的模型和设计的算法有效可行。论文还选用自然、经济和交通等方面的因素,以本文方法定级结果为依托,详细分析普宁市农用地定级结果与地貌类型、农业投入产出水平以及道路影响程度之间的关系。最后,在决策树和人工神经网络两种经典分类算法结果对比的情况下,总结了各种算法的优缺点,进一步证明了群体智能优化算法用于土地评价分类规则挖掘中的可行性。

杨传耀[7]2007年在《中文信息检索索引模型及相关技术研究》文中进行了进一步梳理随着计算机系统性能的提高,互联网络技术的快速普及,以及企业信息化程度的提高,中文信息资源以极快的速度递增。信息检索就是从庞大的信息资源中找到人们所需信息的技术。信息检索(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。目前,信息检索已经发展到网络化和智能化的阶段。为了提高检索的准确率以及增强用户体验,对中文信息检索除了继续研究索引技术外,对索引技术之外的相关技术研究方兴未艾。跟英语的提取词根(stemming)技术类似,中文分词技术是处理中文所特有的技术,中文分词的好与坏直接影响到信息检索的精度。自动分类(聚类)在信息组织、导航方面非常有用,其目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要,有助于用户快速评价检索结果的相关程度。文本关联规则技术,特别是对文本频繁项挖掘,能给用户在对信息检索需求转为搜索关键词时提供帮助,从而给信息检索的人机交互方面增加了友好的一面。本文以中文信息检索的索引模型为研究对象,也对信息检索其它相关技术进行了研究,主要包括中文分词、文本关联分析、文本快速分类。提出了后续有序的互关联后继树索引模型、基于互关联后继树快速准确的中文分词算法、基于模拟退火算法的快速KNN分类算法和基于投影和树的频繁项挖掘算法。本文的研究工作和创新内容包括以下几个方面:1互关联后继树索引模型的改进研究互关联后继树是国内自主提出的优秀信息检索索引模型,它具有创建速度快,空间和查询效率高等特点,并且可以通过索引生成原文等优点。为了在Internet上大规模应用,在创建和更新文本索引以及全文检索速度等方面能达到实用的要求,本文对这个索引模型做了进一步的研究,提出了后续有序的互关联后继树索引模型。它的优点是在进行检索时,对有序的子树进行求交,能快速地检索出结果,从而有效地提高了信息检索的时间效率。2基于互关联后继树的快速和准确中文分词中文信息检索的查准率跟中文分词的准确率是息息相关的。目前有很多算法的准确率比较高,但是是以牺牲时间为代价获得的。在Internet上应用,分词算法的时间效率和分词准确率之间是个折衷平衡的关系,在能满足分词速度实用的前提下,尽可能提高分词的准确率。在提高分词速度方面,本文提出了用互关联后续树作为分词过程中使用的数据结构。中文分词准确率不高的主要原因是对歧义词和未登录词的划分不够准确,本文对中文机构名称和地名进行了研究分析,找出它们的特点,提出了一种结合规则和机器学习的分词方法,这种方法在对中文机构名称和地名准确划分上很有效,实验结果也表明这种方法是一种能快速划分中文词语同时准确率又很高的分词方法。3基于模拟退火的快速KNN算法在Internet信息检索应用环境上,对文本自动分类,涉及到问题主要有两个,一是文档分类的类别是变化的,另一个是文档量大。对于第一个问题,由于模板匹配类算法的特点,如KNN,它是一种懒惰(lazy)算法,将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类,不需要事先确定分类函数,因此我们选择KNN分类算法来解决;解决第二个问题,我们先对文档的高维特征进行排序,然后借用模拟退火算法的思想,在精度稍微下降的情况下,极快地对文档进行分类。试验表明,基于模拟退火算法的快速KNN算法有实际应用前景。4基于投影和树的文本频繁项挖掘算法由于文本的频繁项挖掘的时间效率是随着项的增长以指数级别增长,因此对Internet信息检索应用环境下,频繁项挖掘的时间效率更是研究者研究的重点。本文提出了一种新的数据结构—投影和树,在对项进行建树时,可以同时对项进行计数,这样在挖掘时,可以直接利用统计好的计数,不需要重新计数;另外,在对树进行挖掘时,以深度优先的方式,对树进行一次深度优先遍历即可,加快了挖掘的时间。实验表明,基于投影和树的挖掘算法比同类的算法效率要高。5为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统。利用上述创新技术,我们为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统,并取得显著的成效。尽管黄页搜索引擎(一期)系统,是一种针对黄页信息专用的搜索引擎,但从技术本身来说,对于一般搜索引擎,也同样是有效和实用的。

佚名[8]2010年在《自动化技术、计算机技术》文中提出TP11 2010021966离散网络化群体系统一致性H∞控制/李向舜,方华京(华中科技大学控制科学与工程系)//应用科学学报.―2009,27(5).―525~531.针对网络化群体的一致性问题给出了状态反馈H∞控制器存在的条件。通过状态分解将系统状态进行适当的分解,在此基础上结合线性矩阵不等

佚名[9]2007年在《自动化技术、计算机技术》文中提出TP13 2007012024一类时滞线性切换系统的稳定性和镇定/陈松林,姚郁(哈尔滨工业大学控制与仿真中心)//黑龙江大学(自然科学学报).―2006,23(2).―206~210.针对一类具有状态延迟的连续线性切换系统,研究了其渐近稳定性及状态反馈和输出反馈镇定控制律的设计问题。首先利用公共李亚普诺夫函数法给出了系统渐近稳定的充分条件及该条件下切换律的构造方法,然后给出了状态反馈和输出反馈镇定的充分条件,同时给出了稳定化控制律的参数化表示和相应切换律的构造方法。最后举例说明了结果的有效性。图2表0参12

参考文献:

[1]. 基于时空调节及基于三次遍历的快速关联规则挖掘算法的研究[D]. 路燕. 燕山大学. 2000

[2]. 关联规则挖掘算法研究[D]. 李长源. 哈尔滨工程大学. 2005

[3]. 基于MapReduce构造多维数据及关联规则挖掘算法的研究与应用[D]. 马盈. 东北师范大学. 2013

[4]. 自动化技术、计算机技术[J]. 佚名. 中国无线电电子学文摘. 2006

[5]. 面向工业过程故障诊断的FP-growth方法及应用[D]. 夏丽君. 北京化工大学. 2016

[6]. 基于群体智能优化算法的土地评价分类规则挖掘研究[D]. 樊敏. 武汉大学. 2009

[7]. 中文信息检索索引模型及相关技术研究[D]. 杨传耀. 复旦大学. 2007

[8]. 自动化技术、计算机技术[J]. 佚名. 中国无线电电子学文摘. 2010

[9]. 自动化技术、计算机技术[J]. 佚名. 中国无线电电子学文摘. 2007

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于时空调节及基于三次遍历的快速关联规则挖掘算法的研究
下载Doc文档

猜你喜欢