关联规则挖掘算法研究

关联规则挖掘算法研究

苏蕊[1]2007年在《数据挖掘中关联规则算法的研究》文中进行了进一步梳理现代科技发展的日新月异,给人们带来了便利的同时也产生了海量的数据,为了更好的理解这些数据并使其为人们所用,KDD和DM技术应运而生。关联规则挖掘是DM中的一个重要的研究方向,而频繁项目集的挖掘又是关联规则算法的核心问题。本文对关联规则和其经典Apriori挖掘算法进行了详细的阐述,研究、总结了经典挖掘算法的特点和局限性,并在此基础上提出了两个改进算法——基于粒计算的关联规则挖掘算法和基于遗传算法的关联规则挖掘算法。基于粒计算的关联规则挖掘算法引入粒计算的思想,即把事务数据库中每一个项看作一个粒,通过扫描一次数据库得到所有项的位图表示,利用粒的“与”和“或”运算求项集的支持度,采用循环判断的方法,将满足条件的粒直接归入频繁K-项集中,无需生成候选项集Ck。该算法优点在于只需扫描一次数据库,利用粒计算求项集支持度,只需存储频繁集,大大减少了时间耗费和空间占用,从而提高了规则挖掘的效率。同时,针对许多应用由于多维数据空间数据的稀疏性,在低层或原始层数据项间很难找出强关联规则,本文提出了基于粒计算的多维多层关联规则挖掘算法。在对多维属性进行概念分层下,该算法采用基于粒计算的规则挖掘方法来挖掘每一层上的关联规则,并且在计算高层次上项的支持度时应用了粒的层次关系,从而改善整体挖掘效率。基于遗传算法的关联规则挖掘算法,是在对传统遗传算法进行改进的基础上,将其应用到关联规则挖掘中。该遗传算法提出了一种自适应变异率方法,避免了进化早期出现的高适应度个体的过度复制而陷入局部最优值,并且改进了个体选择方法,具有较强的实用性。最后将其应用到关联规则挖掘中进行了相关实验,验证了在处理大规模项目集时基于遗传算法的关联规则挖掘方法的高效性及可靠性。

王丹阳[2]2008年在《关联规则挖掘的并行算法研究》文中指出从大型数据库中挖掘关联规则是数据挖掘中一个重要的课题。从挖掘要求的时间和空间上看,传统的顺序算法已很难适应于现实中不断增大的数据库规模。研究和发展高性能、可扩展的并行算法对解决这一问题就显得十分必要。本文做了如下研究工作:1.基于分布式存储的并行关联规则挖掘研究本文在研究传统的挖掘频繁项集并行算法的基础上,提出了一种多次传送重新分配数据的并行算法(MRPD),并从理论上证明了算法的正确性。MRPD算法在第1步时对数据库重新划分成若干组,并根据各节点的需要多次传送分组,各节点获得完整分组后异步地计算频繁项集。所有节点计算完成后,得到全部频繁项集。通过实验,将MRPD算法与传统挖掘算法在不同数据分布情况下做了比较。2.基于共享存储的并行关联规则挖掘的研究本文在关联规则串行挖掘算法Apriori的基础上,针对SMP系统设计了两种不同并行粒度的挖掘算法,基于HASH表的HA-1算法和基于局部数据库的HA-2算法,初步解决了分布式存储系统算法中通信开销过大、并行度低等问题。通过实验对这两种算法与传统挖掘算法的性能进行了比较。

吕圣军[3]2008年在《数据挖掘在房地产客户关系管理中的应用研究》文中研究说明客户关系管理(CRM)是企业的一种商业策略,它在现代企业中扮演越来越重要的角色,是企业提升竞争力的必经之路。在客户关系管理流程中,如何将大量的客户资料和交易数据转化为能够为企业决策提供支持的各种信息是房产企业面临的一个重要问题。面对快速增长的海量数据收集,企业需要有力的数据分析工具将丰富的数据转换成有价值的知识。数据挖掘是一个从大量数据中提取有用的、有趣的知识的处理过程。数据挖掘发现的知识模式有多种不同的类型,常见的模式有:关联模式、分类模式、聚类模式、决策树等。本文着重介绍了关联模式(关联规则)的基本概念、常用的算法和改进算法,以及研究现状,并指出关联规则挖掘是当前的热门。关联规则挖掘算法中,大部分算法都基于Apriori算法进行计算,其在挖掘过程中会产生大量候选项集,降低了关联规则挖掘的效率;同时关联规则挖掘会得到大量冗余规则,降低了关联规则挖掘的效率;并且关联规则挖掘的用户交互性能也较差。本文在深入研究现有算法的基础上,为了提高用户数据挖掘的人机交互性能,解决关联规则挖掘产生冗余规则的问题,提出了一种关联规则挖掘方法—Apriori+算法。Apriori+算法改进了事务数据库的存放形式,提高关联规则的效率和交互性,采用新数据预处理和用户导向的关联规则数据挖掘,其效率有明显的提高。本文基于某房地产开发企业实施的CRM项目,从房地产客户关系管理的实际需求入手,在分析了关联规则挖掘的基本原理和技术特点后,重点讨论了关联规则挖掘技术进行房地产业客户意向分析的问题,对数据挖掘技术在房地产客户管理系统中应用的方式和方法进行了详细探讨,并给出了一个成功实施的案例。

罗巧玲[4]2007年在《面向客户流失预测的关联规则挖掘算法应用研究》文中进行了进一步梳理随着我国电信企业运营机制的全面调整,电信业竞争更激烈。电信企业之间的争夺加剧了客户离网行为,客户离网成为影响电信公司经营状况的一个重要因素。利用数据挖掘技术科学地分析那些已经流失的客户的特征,从而预测在网客户的流失倾向,已成为电信业的一个重要研究内容。而关联规则挖掘算法基于自身的诸多优势,成为目前电信客户流失预测应用中最具有前景的数据挖掘技术之一,也得到了越来越多研究者的关注。本文通过对电信业客户流失预测和关联规则挖掘算法的文献综述,分析了现有研究中仍然存在的问题,并重点对现有关联规则挖掘算法无法高效率地对数量少、但客户价值大的电信客户进行流失预测进行了剖析,提出了一种基于数据属性约减和概率的加权多维关联规则挖掘改进算法,并进行了实验仿真,验证了算法的有效性。本文的具体贡献有如下几个方面:第一,通过对电信业客户流失预测及关联规则挖掘算法的研究综述,分析了现有关联规则挖掘算法的分类和关联规则价值的衡量,并主要针对现有多维关联规则挖掘算法进行客户流失预测时的优缺点进行了比较分析,指出了目前电信业数据复杂、挖掘效率低下;而且算法尚未对电信业中数量少、但价值大的流失客户给予足够重视,影响了客户流失预测的效果。第二,针对传统算法挖掘效率低下、且忽视了数量少但价值大的客户流失问题,提出了一种基于属性约减和概率的加权多维关联规则改进算法。其基本思路是:首先对价值大的客户利用基于粗集的属性约减方法进行属性约减,组成数据表。然后引入了基于概率的加权关联规则的概念、定义和公式,来挖掘那些数量很少但价值很大的流失客户的关联规则,并用提升度来衡量关联规则,以得到客户流失的强关联规则。第叁,使用Powerbuilder6.5编程,对提出的改进算法进行了实验仿真与测试,并与传统的多维关联规则挖掘算法(Apriori算法)进行比较,提高了客户流失预测的效率,同时实验显示,改进算法能够挖掘出传统算法所不能挖掘的数量少但价值大的客户的关联规则,使电信运营商更有针对性的挽留大价值客户,显示出了更好的预测效果。

周洪[5]2008年在《基于拓扑约束和数据挖掘的网络故障定位》文中研究指明本文结合与企业合作的课题:《基于数据挖掘的智能化移动通信网络故障管理关键技术研究》,对基于拓扑约束的关联规则挖掘技术在移动通信网络故障定位系统中的应用及其实现方案进行了研究。该课题通过研究移动通信网络及其告警信息的特征,得出告警是沿着网络拓扑进行传播的这一结论。基于此,本文提出了在关联规则挖掘算法中引入网络拓扑模型作为约束,对告警数据进行挖掘中的处理,将没有存在拓扑连接关系的关联规则过滤掉,从而提高挖掘的效率和正确性。本文主要针对关联规则经典挖掘算法存在的各种不足,提出采用FP-Growth非时序关联规则挖掘算法,并在该算法的实现过程中加入了网络拓扑关系。该算法仅扫描数据库两次,不产生候选集,具有明显的性能优势,尤其适合我们将要面对的大型数据库,可以节省大量时间,提高执行效率。作者参与了BUPTPRISMiner智能化告警分析原型系统的研发,对FP-Growth非时序关联规则算法进行了研究和实现,并配合小组成员把算法集成入BUPTPRISMiner系统,完成了模块测试、代码维护和文档编写等工作。

王少华[6]2007年在《数据挖掘中关联规则算法的研究》文中研究说明数据挖掘是面向海量数据的知识发现技术,关联规则是数据挖掘的重要模式之一,有着极其重要应用价值。文中给出了一种不需要产生候选项的频繁模式增长算法,避免了多次扫描数据库,降低了时间复杂度。由于支持度和信任度的评价标准有一定的局限性,给出了一个新的评价阈值-兴趣度,用来修剪无趣的规则,从而提高了数据挖掘结果的质量。并且通过对FP_Growth算法进行扩展,给出了一个高效的多层关联规则挖掘算法FP-CH,经实验证明该算法确实有效。

刘寒冰[7]2007年在《数据挖掘中的关联规则算法研究》文中指出目前,关联规则作为数据挖掘领域中一个非常重要的研究课题,己经取得了令人瞩目的成绩,但在实际应用中,随着数据库规模逐渐增大,出现了随着数据量递增而算法挖掘效率下降的问题,具有应用局限性。因此,必须研究和改进现有的算法,使其具有更高的效率和更广阔的应用前景。本文着重对关联规则挖掘算法进行了研究,在现有算法的基础上,提出两个适应性较强的高效挖掘算法。首先,研究了关联规则中经典的Apriori算法及其改进算法。为了解决这些算法在候选项目集和执行时间方面存在的问题,结合关联规则的性质和布尔向量的关系运算思想,提出了基于布尔矩阵的关联规则挖掘算法(Algorithm Based on Boolean Matrix,简称ABBM)。该算法在挖掘过程中仅扫描数据库一次,而且不产生候选项目集,从而减少了生成频繁项目集的时间开销,提高了算法效率,达到了算法改进的目的。其次,研究了经典的关联规则增量式更新挖掘算法及其优化算法。针对在最小支持度、最小置信度不变的情况下,新增数据集时关联规则更新效率低的问题,提出了一种高效的关联规则增量式更新挖掘算法(High-Efficient Incremental Updating,简称HIUP)。该算法采用AprioriTidList算法来发现新增数据集中的频繁项目集,并通过有效的优化策略对候选项目集进行分类和剪裁,从而减少了候选项目集的数量和扫描新增数据集的次数,提高了算法的更新效率。为了验证算法的性能,本文分别采用合成数据库和真实数据库对提出的新算法及其同类算法进行了对比测试。试验结果表明,ABBM、HIUP算法在效率上明显优于同类算法,而且挖掘的数据量越大,算法效率越高,具有较好的可扩展性和较广阔的应用前景。

张丽霞[8]2008年在《免疫克隆智能优化算法的研究与应用》文中提出生物免疫系统是一个分布式的,具有高度自适应性的系统,具有学习、记忆和模式识别的能力。人工免疫系统通过模拟和应用生物免疫系统的信息处理能力,已成为智能计算领域一个新的研究方向。本文的研究工作受陕西省自然科学基金和陕西省教育厅重点科研计划项目资助,就人工免疫系统中的免疫算法研究展开工作,围绕免疫算法、克隆选择学说等理论,对免疫克隆算法进行研究,并将其应用到函数优化和数据挖掘中。本文的主要工作如下:(1)概述了生物免疫系统的组织结构及生物免疫系统的仿生机理,对模拟其机理而产生的人工免疫系统中的算法作了详细讨论。(2)以免疫克隆算法为基础,提出一种改进的自适应克隆算法和一种改进的免疫克隆智能算法,并将其用于函数优化,仿真实验证明了文中算法的有效性和可行性。(3)将免疫克隆算法应用于关联规则挖掘,提出了基于免疫克隆理论的关联规则挖掘算法,并将文中提出的算法与传统的Apriori算法进行了比较,仿真实验证明了文中算法的有效性和可行性。

马刚[9]2008年在《关联规则挖掘在电子商务中的研究与应用》文中研究表明随着信息技术和互联网技术的发展,电子商务作为一种新型、高效的商务模式开始普及,现在用户可以在计算机前轻点鼠标就能完成复杂的商品买卖行为,但电子商务在给人们带来方便、快捷的同时也带来了信息过载的问题,尤其是对B2C电子商务而言,用户在大量产品信息中很难找需要的商品或服务。数据挖掘技术可以解决这类问题,通过关联规则挖掘,找出销售的商品之间﹑商品与客户之间的存在内在联系,对于电子商务中个性化商品推荐﹑企业的市场定位以及相应的进销存策略有非常重要的指导意义。本文详细描述了关联规则挖掘的基本理论以及关联规则挖掘的经典算法Apriori算法,分析了在电子商务领域中,Apriori算法存在着规则冗余度大、效率不高和不能挖掘定量规则等问题,文中提出了基于粗集的关联规则挖掘算法,由于粗集理论的特性,该算法能够较好的应用在电子商务领域中,处理好上述问题。本文还重点研究了电子商务发展的一个重要趋势:个性化服务。个性化推荐是实现个性化服务的技术手段,文中介绍了现在流行的几种常用的电子商务推荐技术如基于内容的推荐、基于协同过滤的推荐和基于关联规则的推荐,分析了它们存在的不足之处,并提出了基于关联规则挖掘和ART神经网络的电子商务推荐技术,该推荐技术不仅能根据用户的浏览行为或购买行为进行推荐,还将用户划分成不同的组,根据用户组的特征来进行相关的推荐,本文最后还在该推荐技术的基础上实现了一个原型的电子商务推荐系统,以验证该推荐技术的可行性及应用性。

荀亚玲[10]2017年在《集群环境下的关联规则挖掘及应用》文中提出大数据催生了各行各业的迅猛发展,各领域呈现出了新产品、技术、服务和发展业态。大数据的战略意义不在于拥有庞大的数据资源,而在于提高对数据的"加工能力",通过"加工"实现数据的"增值"。数据挖掘是实现大数据知识发现的有效手段和途径,利用数据挖掘技术能够深层次地了解大数据背后的价值。关联规则作为数据挖掘领域中的一个主要研究内容,可以在不知道或无法确定数据的关联函数或模型时,有效发现大量数据项集之间有趣的关联信息。现有的关联规则挖掘算法因其时空复杂性和I/O代价高,难以适应大数据分析处理任务。本文充分利用MapReduce集群系统的强大数据处理能力,研究了面向大数据的关联规则挖掘方法和性能优化技术,并将其应用于冷轧辊加工质量分析。主要研究成果如下:(1)提出了两种Hadoop集群环境下的频繁项集并行挖掘FiDoop和FiDoop-HD算法。FiDoop算法充分利用了 MapReduce编程模型强大的计算能力,并实现了频繁模式树的压缩存储,避免了条件模式基的递归建立,有效提高了并行挖掘效率;FiDoop的扩展算法FiDoop-HD通过降低项目集的分解代价,从而能够有效地适应于高维数据集。在Hadoop集群平台上,实验验证了该并行算法的可行性和有效性。(2)针对包含FiDoop在内的频繁模式并行挖掘任务存在的数据非本地性问题,提出一种面向频繁项集并行挖掘的数据划分策略FiDoop-DP。该策略利用Voronoi图和LSH技术,尽量将相关性高的事物尽量划分在同一个数据分区,有效地降低了网络传输和计算代价,提高了海量数据的分析效率。在Hadoop集群平台上,实验验证了该数据划分策略的有效性。(3)提出了一种基于Spark内存计算的并行频繁项集挖掘算法。该算法充分利用了 Spark集群的内存计算优势和对迭代式数据处理的支持,并利用新定义的节点计算量预估模型,解决了其在计算过程中出现的负载不均衡问题。在Spark集群平台上,实验验证了该算法的有效性。(4)设计与实现了集群环境下的冷轧辊加工质量分析原型系统。以某钢铁企业的冷轧辊产品生产为背景,利用上述频繁项集挖掘算法和数据划分策略,开发了冷轧辊质量分析原型系统,并对其冷轧辊生产数据预处理、软件体系结构及各模块功能给出了详细分析。运行结果表明该原型系统可以有效发现冷轧辊加工过程中的关键工序及工序间的相关性,从而为企业开展产品质量控制提供了一种新的技术和解决思路。

参考文献:

[1]. 数据挖掘中关联规则算法的研究[D]. 苏蕊. 上海海事大学. 2007

[2]. 关联规则挖掘的并行算法研究[D]. 王丹阳. 合肥工业大学. 2008

[3]. 数据挖掘在房地产客户关系管理中的应用研究[D]. 吕圣军. 浙江工业大学. 2008

[4]. 面向客户流失预测的关联规则挖掘算法应用研究[D]. 罗巧玲. 河北工业大学. 2007

[5]. 基于拓扑约束和数据挖掘的网络故障定位[D]. 周洪. 北京邮电大学. 2008

[6]. 数据挖掘中关联规则算法的研究[D]. 王少华. 华北电力大学(河北). 2007

[7]. 数据挖掘中的关联规则算法研究[D]. 刘寒冰. 河北工程大学. 2007

[8]. 免疫克隆智能优化算法的研究与应用[D]. 张丽霞. 西北大学. 2008

[9]. 关联规则挖掘在电子商务中的研究与应用[D]. 马刚. 上海交通大学. 2008

[10]. 集群环境下的关联规则挖掘及应用[D]. 荀亚玲. 太原科技大学. 2017

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

关联规则挖掘算法研究
下载Doc文档

猜你喜欢