挖掘关联规则的算法研究

挖掘关联规则的算法研究

马强[1]2007年在《关联规则挖掘算法研究和应用》文中研究指明数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要目标是从大型的数据库中挖掘出对用户有价值的模式。在事务数据库中挖掘关联规则是数据挖掘领域中一个非常重要的研究课题。本文对数据挖掘技术,尤其是关联规则数据挖掘技术进行了系统、深入、全面、详尽地分析和研究,主要包括以下一些内容:第一、数据挖掘技术的分析与研究。在数据挖掘基本概念的基础上,对数据挖掘常使用的技术和研究的对象进行了详细地分类、归纳和总结,对数据挖掘技术的国内外研究现状进行了广泛而全面地归纳和分析,对数据挖掘技术的未来发展趋势和热点研究领域进行了总结和探讨。第二、关联规则数据挖掘技术的分析与研究。在介绍关联规则基本概念的基础上,对关联规则的Apriori算法进行了详细地分析和研究,并就目前针对提高该算法效率的各种优化技术也进行了详细地描述。第叁、提出一种从大型数据库中挖掘关联规则的改进算法LApriori算法,该算法以经典的Apriori算法为基础。文中给出了新算法的理论依据,以及整个算法的思路,该算法与Apriori算法相比具有如下特点:(1)对整个数据库只需访问一次;(2)k-频繁项目集的挖掘可通过(k-1)-频繁项目集得到,而无需再次扫描数据库;(3)采用二进制的存储方式将节省大量的存储空间,二进制的运算速度也可以节省大量的时间。理论分析表明,改进后的LApriori算法的应用效率高,实验结果也表明改进后的算法效率高,而且随着数据库规模的扩大,效率提高更加明显。第四、将改进算法应用到车辆违章数据挖掘中。

单明辉[2]2008年在《改进的关联规则算法在采购数据挖掘中的应用》文中认为信息化社会的到来,数据存储量急剧上升。然而,尽管面临大量(甚至是海量)的真实、有价值的数据,决策者却很难从这些数据中提取出有价值的知识,因为这些数据从表面上看,往往是杂乱的、单维的。面对这一挑战,数据挖掘应运而生,随着计算机性能提高、成本下降以及数据管理技术的成功运用,数据挖掘正越来越多的应用于各类决策体系中。数据挖掘有许多研究方向,关联规则挖掘是其中最活跃的研究方向之一,它反映了大量数据中项目之间的有意义关联或相关联系,其中最经典的算法是Apriori算法。但是该算法在挖掘频繁项集时需要产生大量的候选项集,多次扫描数据库,时间空间复杂度过高。针对这一局限性,如何提高挖掘算法的效率就成为了关联规则挖掘研究的核心问题。本文对关联规则挖掘算法进行了深入地研究,提出了一种改进方法,并将此方法应用于上海大众汽车有限公司采购信息的数据挖掘中,得到可供决策参考的关联规则。本论文具体工作如下:1.理论介绍。对数据挖掘和关联规则的基本理论进行了详尽的阐述,通过理论介绍为算法研究和系统应用奠定了基础。2.算法介绍和改进。在理论认识的基础上,深入分析了关联规则挖掘经典算法Apriori。针对关系数据库中关联规则挖掘的特点,提出了一种基于编码的新算法Coding-Apriori,对其从理论、流程各方面进行了详细介绍并演示了其实现步骤。最后通过实验将Coding-Apriori算法和Apriori算法进行了比较,验证了改进算法的有效性和优势。3.系统应用。针对上海大众采购信息数据库,设计开发了一个简易的专业数据挖掘系统,系统可以选择性地采用经典的Apriori算法和新提出的Coding-Apriori算法进行关联规则的挖掘。系统应用部分既是对算法研究和改进的一种实际验证,又是对数据挖掘应用领域的一种开拓,实现了理论研究与实际应用的结合。

吕圣军[3]2008年在《数据挖掘在房地产客户关系管理中的应用研究》文中研究说明客户关系管理(CRM)是企业的一种商业策略,它在现代企业中扮演越来越重要的角色,是企业提升竞争力的必经之路。在客户关系管理流程中,如何将大量的客户资料和交易数据转化为能够为企业决策提供支持的各种信息是房产企业面临的一个重要问题。面对快速增长的海量数据收集,企业需要有力的数据分析工具将丰富的数据转换成有价值的知识。数据挖掘是一个从大量数据中提取有用的、有趣的知识的处理过程。数据挖掘发现的知识模式有多种不同的类型,常见的模式有:关联模式、分类模式、聚类模式、决策树等。本文着重介绍了关联模式(关联规则)的基本概念、常用的算法和改进算法,以及研究现状,并指出关联规则挖掘是当前的热门。关联规则挖掘算法中,大部分算法都基于Apriori算法进行计算,其在挖掘过程中会产生大量候选项集,降低了关联规则挖掘的效率;同时关联规则挖掘会得到大量冗余规则,降低了关联规则挖掘的效率;并且关联规则挖掘的用户交互性能也较差。本文在深入研究现有算法的基础上,为了提高用户数据挖掘的人机交互性能,解决关联规则挖掘产生冗余规则的问题,提出了一种关联规则挖掘方法—Apriori+算法。Apriori+算法改进了事务数据库的存放形式,提高关联规则的效率和交互性,采用新数据预处理和用户导向的关联规则数据挖掘,其效率有明显的提高。本文基于某房地产开发企业实施的CRM项目,从房地产客户关系管理的实际需求入手,在分析了关联规则挖掘的基本原理和技术特点后,重点讨论了关联规则挖掘技术进行房地产业客户意向分析的问题,对数据挖掘技术在房地产客户管理系统中应用的方式和方法进行了详细探讨,并给出了一个成功实施的案例。

王荧[4]2007年在《并行关联规则算法优化的研究》文中认为随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,如何充分利用这些数据信息并为企业决策者提供决策支持成为一个十分迫切又棘手的问题,数据挖掘就是为了满足这种要求而迅速发展起来的。数据挖掘是帮助人们在海量数据中发现信息和知识的工具,近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注,如何提高数据挖掘的效率成为学术界热门的研究课题,而关联规则的发现是数据挖掘中最成功和最重要的一项任务,也是当今数据挖掘中一个非常活跃的研究领域,其中最着名的挖掘关联规则算法就是Apriori算法。论文对数据挖掘和关联规则的主要概念和发展状况作了综述,给出了挖掘关联规则问题的正式的描述,对典型的串行关联规则算法和并行关联规则算法作了较深入的分析,并且介绍了这些算法的思想及其各自的优缺点;针对CD算法所存在的多次扫描和冗余存储等问题进行改进。CD算法的目标是减少通信量获得较好的任务分布性,使各处理器只对本地数据并行地进行处理,但算法的I/O量较重,数据结构重复,没有有效利用整个内存。因此论文在CD算法的基础上提出了改进的算法NCD:通过对参与候选集的元素计数的方法来减少产生候选集的组合和数据库的扫描次数以达到要求。这种方法是利用多个处理器的并行计算得到候选集S′,由于候选集无法保证是超集,有可能报告失效,这时还须扫描数据一遍或多遍,直到不再报告失效为止。这种算法让各处理器在不知道其他处理器的任何信息的情况下独立地计算局部大项集,直到所有的处理器都计算出了局部大项集后,才开始交换数据,增加或删除项集,得到最终结果,这有利于提高挖掘的速度和减少数据库的I/O操作时间的开销。事实上CD算法使用了一个简单的原则,即允许在其他处理器上进行并行地冗余计算和冗余存储,尽而避免大量通信。论文对所提出的NCD算法与CD算法在实验数据集上进行测试,测试结果说明在数据集相同的情况下NCD算法效率得到了有效的提高。

张一梅[5]2008年在《基于数组的关联规则挖掘算法的改进研究》文中研究指明数据挖掘技术从一开始就是面向应用的,使用数据挖掘工具进行数据分析可以方便地获得重要的数据模式并应用于决策。关联规则挖掘作为数据挖掘的重要技术广泛应用于各大领域,特别是商业领域。随着数据集的大小和复杂度的增长,研究高效的关联规则挖掘算法,并增强其对不同数据集的适应性显得十分重要。关联规则挖掘是发现存在于数据集中的项目或属性间的关联关系。关联规则挖掘算法分两步实现,首先挖掘得到频繁项目集集合,然后根据频繁项目集集合得到强关联规则。Apriori算法是经典的生成频繁项目集的关联规则挖掘算法。随后,在基于Apriori算法的基础上提出了很多变体,不同的变体侧重于不同的改进方向。基于数组的关联规则挖掘算法,就是利用数组的结构特性提高了算法的挖掘效率。针对关联规则挖掘中,模式计数代价太高、I/O效率低下等问题,本文在详细分析Apriori算法的基础上,研究了基于数组的关联规则挖掘算法,针对算法中存在的问题:数组中存在大量的无价值元素、大量候选项集的产生,提出一种新的改进算法,该算法通过数据约束,仅生成用户感兴趣的频繁模式,有效地减少了模式计数代价,提高了挖掘质量,同时通过对算法采用数组压缩、改进连接步等方法进行改进,使得在每次数组扫描过程中都能生成不同长度的频繁模式集,能够在较少的数组扫描次数中挖掘出全部的频繁模式集,这对于提高关联规则挖掘的效率和质量,具有重要的理论和实际意义。在上述研究成果的基础上,以DELPHI7.0和SQL SERVER2000作为开发工具,设计与实现了基于数组的关联规则挖掘算法和改进算法的挖掘系统,系统使用的数据集为IBM数据生成器生成的5000条试验数据。论文中给出了该系统的流程图,详细介绍了系统的运行过程,系统运行结果表明,改进后的算法是可行的、有价值的。最后,分析了有待继续深入研究的问题和进一步拓展的方向。

苏蕊[6]2007年在《数据挖掘中关联规则算法的研究》文中研究说明现代科技发展的日新月异,给人们带来了便利的同时也产生了海量的数据,为了更好的理解这些数据并使其为人们所用,KDD和DM技术应运而生。关联规则挖掘是DM中的一个重要的研究方向,而频繁项目集的挖掘又是关联规则算法的核心问题。本文对关联规则和其经典Apriori挖掘算法进行了详细的阐述,研究、总结了经典挖掘算法的特点和局限性,并在此基础上提出了两个改进算法——基于粒计算的关联规则挖掘算法和基于遗传算法的关联规则挖掘算法。基于粒计算的关联规则挖掘算法引入粒计算的思想,即把事务数据库中每一个项看作一个粒,通过扫描一次数据库得到所有项的位图表示,利用粒的“与”和“或”运算求项集的支持度,采用循环判断的方法,将满足条件的粒直接归入频繁K-项集中,无需生成候选项集Ck。该算法优点在于只需扫描一次数据库,利用粒计算求项集支持度,只需存储频繁集,大大减少了时间耗费和空间占用,从而提高了规则挖掘的效率。同时,针对许多应用由于多维数据空间数据的稀疏性,在低层或原始层数据项间很难找出强关联规则,本文提出了基于粒计算的多维多层关联规则挖掘算法。在对多维属性进行概念分层下,该算法采用基于粒计算的规则挖掘方法来挖掘每一层上的关联规则,并且在计算高层次上项的支持度时应用了粒的层次关系,从而改善整体挖掘效率。基于遗传算法的关联规则挖掘算法,是在对传统遗传算法进行改进的基础上,将其应用到关联规则挖掘中。该遗传算法提出了一种自适应变异率方法,避免了进化早期出现的高适应度个体的过度复制而陷入局部最优值,并且改进了个体选择方法,具有较强的实用性。最后将其应用到关联规则挖掘中进行了相关实验,验证了在处理大规模项目集时基于遗传算法的关联规则挖掘方法的高效性及可靠性。

肖光磊[7]2008年在《名老中医经验传承中的数据挖掘技术研究》文中指出中医学是中华民族的优秀文化遗产,在当今世界回归大自然的浪潮下,其优势越来越突出,地位也越来越重要。中医学是一门临床经验要求比较高的学科,当代中国名老中医的诊疗经验,是他们在临床实践中与中医学理论结合、突破、创新的结果,包含了中医基础理论的原则和名老中医的独创心得或见解,是发展中医药学的宝贵财富。因此对当代名老中医学术思想临证经验的继承不仅能丰富中医药学的理论体系,还能对整个医学科学的发展产生巨大的推动作用。对名老中医学术思想和临证经验的研究,传统的方法已经越来越显示其不足,应用现代科学技术对这些名老中医的临床诊疗经验进行科学解析显得尤为迫切。数据挖掘是一种有效的信息处理技术,采用数据挖掘技术对名老中医学术思想和临证经验进行研究,可以全面解析其中的规律,分析名老中医个体化诊疗信息特征,提炼出临证经验中蕴藏的新理论、新方法、新知识,实现名医经验的有效总结与传承。本文主要对名老中医经验传承中涉及的相关数据挖掘技术进行了研究,以一位名老中医的慢性胃炎临床诊断医案为原始数据,从不同的角度研究了若干算法在其中的应用。在关联规则挖掘方面,分析了关联规则的经典算法Apriori算法和FP-Orowth算法,并针对基于支持度一置信度的关联规则挖掘算法的不足,研究了一种基于遗传算法的正相关关联规则挖掘算法。最后采用FP-Growth算法和基于遗传算法的正相关关联规则挖掘算法对中医临床数据进行了挖掘,并将两种算法挖掘的结果进行了分析。在决策树分类方面,分析了决策树学习中的两个重要算法ID3算法和C4.5算法,根据C4.5算法具有较高算法精度及较强适应性的特点,将其应用到中医辨证分类中,以慢性胃炎的中医辨证数据为实验数据,建立了关于慢性胃炎的中医辨证分类决策树,并对其进行了分析。

许珂[8]2008年在《基于群体智能的关联规则挖掘方法及应用》文中指出近十几年来,数据挖掘技术有了长足的进步。数据挖掘己经成为数据库研究、开发、和应用活跃的分支之一,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。群体智能是在近十几年来在协同进化论基础上发展起来的一种新的优化算法。它是将由单个复杂个体完成的任务交给大量简单的个体组成的群体合作完成,而后者往往更具有健壮性、灵活性和经济上的优势。群体智能利用群体优势,在没有集中控制,不提供全局模型的前提下,为寻找复杂问题解决方案提供了新的思路,是“无智能的主体通过合作表现出智能行为的特性”。作为群体智能的典型实现模式,模拟生物蚁群智能寻优的蚁群算法和模拟鸟群运动模式的微粒群算法正在受到学术界的广泛关注。由于其概念简明、实现方便,在短期内迅速得到了国际演化计算研究领域的认可。数据挖掘技术是分析大规模数据集的有效方法。由于数据内在的不精确性和多属性之间的复杂性,有时己有的方法就失效了,而软计算技术在这两方面有着独到的优势,所以以软计算技术为手段研究新的数据挖掘方法具有重要的意义。本文力图采用群体智能研究解决数据挖掘中的关联规则提取问题。本文对群体智能,尤其是蚁群算法进行了较为系统地分析和研究,结合关联规则的特点,提出了一些改进的算法,主要包括以下一些内容:(1)关联规则挖掘的综述。在关联规则基本概念的基础上,介绍了关联规则的定义、关联挖掘的过程和关联规则的种类,并对关联规则挖掘领域的代表算法进行了分析。(2)群体智能技术和遗传算法的研究。介绍了群体智能的基本概念、系统结构、主要应用等等。尤其重点研究了常用的群体智能重要模式蚁群算法,同时对遗传算法做了介绍和分析。(3)基于群体智能的关联挖掘。本文结合蚁群算法和遗传算法的优势提出混合蚁群算法,并将其运用在关联规则挖掘中,提出了一种基于混合蚁群算法的关联规则挖掘算法。传统的数据挖掘算法虽然在理论上保证了结果的高精度,然而对于商品种类过多,交易量非常大的关联发现,其计算时间却是相当可观的。我们认为,结合蚁群算法和遗传算法的优势解决关联规则的挖掘问题具有很好的研究前景,利用群体智能技术加快挖掘过程,增加挖掘的智能性,可以大大提高挖掘效率。(4)基于群体智能的关联规则挖掘的应用研究。将基于群体智能的关联挖掘算法应用于教育领域中的教师测评系统,给出了该应用的实现技术和算法。通过应用实例证明了算法的有效性,实验效果良好。

肖亚飞[9]2017年在《加权关联规则在钻井作业安全预警中的研究与应用》文中进行了进一步梳理关联规则挖掘作为数据挖掘的重要研究内容之一,主要研究事务数据库、关系数据库和其他信息存储中的大量数据项之间隐藏的、有趣的规律。加权关联规则在关联规则的基础上引入权值的概念,改善了把所有规则都视为同等重要、产生大量无效规则的缺点,和传统算法相比,加权关联规则更有利于解决数据库中项目分配不均和重要程度不同的问题。本文研究了关联规则经典算法Apriori,通过Apriori算法的思想和挖掘规则的流程知道了 Apriori算法的不足之处,然后提出了算法的优化思想。Apriori算法不能挖掘出小权值项,因此我们对关联规则加入权值思想。本文重点研究了加权关联规则算法。首先重点介绍了几种关联规则的算法模型,分析了这些算法模型的优缺点。然后研究了 New-Apriori算法、MINWAL(O)算法、权重归一化和基于概率的加权关联挖掘算法等,同时分析这些算法的优缺点,并对这些算法的不足提出优化思想。然后提出一种改进加权关联规则算法,该算法把数据存储在0-1矩阵中,利用矩阵运算提高了项的支持度运算速度,并且在整个挖掘过程中只需要扫描一次数据库,减少了存储空间占用;保留频繁项的向下封闭性,加入候选项集的剪枝操作,减少了算法中间项的产生,提升算法运行速度;在传统支持度和置信度的基础上加入兴趣度阈值,提高产生规则的有趣性。把改进的算法应用于在钻井作业安全预警中,采用石油公司日程作业安全隐患记录数据。钻井作业安全预警的隐患可以分为人的违章、物的隐患和环境因素叁大类,在挖掘过程中对这叁类危险源设置不同的权值进行实验。根据实验结果验证了基于加权关联规则的挖掘可以应用于油气钻井作业领域的安全预警、改进加权关联规则挖掘出的隐患关联规则是具有意义的、改进算法比之前的算法在时间效率和空间效率更优。

蔡昱辰[10]2013年在《面向零售业商务智能系统的关联规则增量更新算法研究与改进》文中研究说明数据挖掘作为数据库技术中的核心科学之一,已经成为从海量销售数据中挖掘有价值信息的重要手段。其中,关联规则挖掘作为数据挖掘领域的一个主要研究方向,尤其对于零售企业的决策支持,具有宝贵的研究价值和可拓展的实践前景。本文的研究内容基于合胜零售业商务智能解决系统(MRBIS),研究与改进面向增量数据和最小支持度同时变化的关联规则增量更新算法。另外,当前对负关联规则的增量更新算法的研究相对较少,但其对零售企业的销售决策有重要价值,因此,在对负关联规则挖掘知识归纳和总结的基础上,对负关联规则的增量更新算法进行研究与改进。本文的主要工作如下:(1)关联规则增量更新算法往往是研究最小支持度变化或者增量数据的情况,本文对于最小支持度和增量数据同时变化的情况,提出一种高效的算法FIM_AIUA,其修改了FIM算法的参数,并且重写了AIUA算法中的函数,在更正My_IUA算法错误的同时,提升了算法的效率,能更为高效地解决最小支持度和增量数据同时变化时的关联规则增量更新。(2)关联规则增量更新算法只需要找出更新后事务数据库的频繁项集,虽然频繁项集中也包含负关联规则,但是负关联规则却更多地出现在非频繁项集中,因此在解决负关联规则的增量更新时,要找出更新事务数据库中所有的频繁项集和非频繁项集。本文提出两种不同的负关联规则更新算法NAIUA和NIUA_NAIUA。算法NAIUA是将AIUA算法拓展到负关联规则增量更新上,以解决最小支持度变化时负关联规则的增量更新。算法NIUA_NAIUA,将算法(?)IUA和NAIUA进行拓展,以解决最小支持度变化和增量数据同时变化时负关联规则的增量更新。(3)本文的项目背景是合胜零售业商务智能解决系统(MRBIS),将提出的叁种关联规则增量更新算法应用其中,更新正负关联规则,并且,选取其中的POS交易数据,进行算法效率实验,分析实验结果,提升系统增量更新关联规则的效率。

参考文献:

[1]. 关联规则挖掘算法研究和应用[D]. 马强. 太原理工大学. 2007

[2]. 改进的关联规则算法在采购数据挖掘中的应用[D]. 单明辉. 上海交通大学. 2008

[3]. 数据挖掘在房地产客户关系管理中的应用研究[D]. 吕圣军. 浙江工业大学. 2008

[4]. 并行关联规则算法优化的研究[D]. 王荧. 山东科技大学. 2007

[5]. 基于数组的关联规则挖掘算法的改进研究[D]. 张一梅. 太原理工大学. 2008

[6]. 数据挖掘中关联规则算法的研究[D]. 苏蕊. 上海海事大学. 2007

[7]. 名老中医经验传承中的数据挖掘技术研究[D]. 肖光磊. 南京理工大学. 2008

[8]. 基于群体智能的关联规则挖掘方法及应用[D]. 许珂. 山东师范大学. 2008

[9]. 加权关联规则在钻井作业安全预警中的研究与应用[D]. 肖亚飞. 西南石油大学. 2017

[10]. 面向零售业商务智能系统的关联规则增量更新算法研究与改进[D]. 蔡昱辰. 东华大学. 2013

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

挖掘关联规则的算法研究
下载Doc文档

猜你喜欢