关联规则挖掘的实现

刘寒冰^[1]2007年在《数据挖掘中的关联规则算法研究》文中研究说明目前,关联规则作为数据挖掘领域中一个非常重要的研究课题,己经取得了令人瞩目的成绩,但在实际应用中,随着数据库规模逐渐增大,出现了随着数据量递增而算法挖掘效率下降的问题,具有应用局限性。因此,必须研究和改进现有的算法,使其具有更高的效率和更广阔的应用前景。本文着重对关联规则挖掘算法进行了研究,在现有算法的基础上,提出两个适应性较强的高效挖掘算法。首先,研究了关联规则中经典的Apriori算法及其改进算法。为了解决这些算法在候选项目集和执行时间方面存在的问题,结合关联规则的性质和布尔向量的关系运算思想,提出了基于布尔矩阵的关联规则挖掘算法(Algorithm Based on Boolean Matrix,简称ABBM)。该算法在挖掘过程中仅扫描数据库一次,而且不产生候选项目集,从而减少了生成频繁项目集的时间开销,提高了算法效率,达到了算法改进的目的。其次,研究了经典的关联规则增量式更新挖掘算法及其优化算法。针对在最小支持度、最小置信度不变的情况下,新增数据集时关联规则更新效率低的问题,提出了一种高效的关联规则增量式更新挖掘算法(High-Efficient Incremental Updating,简称HIUP)。该算法采用AprioriTidList算法来发现新增数据集中的频繁项目集,并通过有效的优化策略对候选项目集进行分类和剪裁,从而减少了候选项目集的数量和扫描新增数据集的次数,提高了算法的更新效率。为了验证算法的性能,本文分别采用合成数据库和真实数据库对提出的新算法及其同类算法进行了对比测试。试验结果表明,ABBM、HIUP算法在效率上明显优于同类算法,而且挖掘的数据量越大,算法效率越高,具有较好的可扩展性和较广阔的应用前景。

罗巧玲^[2]2007年在《面向客户流失预测的关联规则挖掘算法应用研究》文中指出随着我国电信企业运营机制的全面调整,电信业竞争更激烈。电信企业之间的争夺加剧了客户离网行为,客户离网成为影响电信公司经营状况的一个重要因素。利用数据挖掘技术科学地分析那些已经流失的客户的特征,从而预测在网客户的流失倾向,已成为电信业的一个重要研究内容。而关联规则挖掘算法基于自身的诸多优势,成为目前电信客户流失预测应用中最具有前景的数据挖掘技术之一,也得到了越来越多研究者的关注。本文通过对电信业客户流失预测和关联规则挖掘算法的文献综述,分析了现有研究中仍然存在的问题,并重点对现有关联规则挖掘算法无法高效率地对数量少、但客户价值大的电信客户进行流失预测进行了剖析,提出了一种基于数据属性约减和概率的加权多维关联规则挖掘改进算法,并进行了实验仿真,验证了算法的有效性。本文的具体贡献有如下几个方面:第一,通过对电信业客户流失预测及关联规则挖掘算法的研究综述,分析了现有关联规则挖掘算法的分类和关联规则价值的衡量,并主要针对现有多维关联规则挖掘算法进行客户流失预测时的优缺点进行了比较分析,指出了目前电信业数据复杂、挖掘效率低下;而且算法尚未对电信业中数量少、但价值大的流失客户给予足够重视,影响了客户流失预测的效果。第二,针对传统算法挖掘效率低下、且忽视了数量少但价值大的客户流失问题,提出了一种基于属性约减和概率的加权多维关联规则改进算法。其基本思路是:首先对价值大的客户利用基于粗集的属性约减方法进行属性约减,组成数据表。然后引入了基于概率的加权关联规则的概念、定义和公式,来挖掘那些数量很少但价值很大的流失客户的关联规则,并用提升度来衡量关联规则,以得到客户流失的强关联规则。第叁,使用Powerbuilder6.5编程,对提出的改进算法进行了实验仿真与测试,并与传统的多维关联规则挖掘算法(Apriori算法)进行比较,提高了客户流失预测的效率,同时实验显示,改进算法能够挖掘出传统算法所不能挖掘的数量少但价值大的客户的关联规则,使电信运营商更有针对性的挽留大价值客户,显示出了更好的预测效果。

荀亚玲^[3]2017年在《集群环境下的关联规则挖掘及应用》文中指出大数据催生了各行各业的迅猛发展,各领域呈现出了新产品、技术、服务和发展业态。大数据的战略意义不在于拥有庞大的数据资源,而在于提高对数据的"加工能力",通过"加工"实现数据的"增值"。数据挖掘是实现大数据知识发现的有效手段和途径,利用数据挖掘技术能够深层次地了解大数据背后的价值。关联规则作为数据挖掘领域中的一个主要研究内容,可以在不知道或无法确定数据的关联函数或模型时,有效发现大量数据项集之间有趣的关联信息。现有的关联规则挖掘算法因其时空复杂性和I/O代价高,难以适应大数据分析处理任务。本文充分利用MapReduce集群系统的强大数据处理能力,研究了面向大数据的关联规则挖掘方法和性能优化技术,并将其应用于冷轧辊加工质量分析。主要研究成果如下:(1)提出了两种Hadoop集群环境下的频繁项集并行挖掘FiDoop和FiDoop-HD算法。FiDoop算法充分利用了 MapReduce编程模型强大的计算能力,并实现了频繁模式树的压缩存储,避免了条件模式基的递归建立,有效提高了并行挖掘效率;FiDoop的扩展算法FiDoop-HD通过降低项目集的分解代价,从而能够有效地适应于高维数据集。在Hadoop集群平台上,实验验证了该并行算法的可行性和有效性。(2)针对包含FiDoop在内的频繁模式并行挖掘任务存在的数据非本地性问题,提出一种面向频繁项集并行挖掘的数据划分策略FiDoop-DP。该策略利用Voronoi图和LSH技术,尽量将相关性高的事物尽量划分在同一个数据分区,有效地降低了网络传输和计算代价,提高了海量数据的分析效率。在Hadoop集群平台上,实验验证了该数据划分策略的有效性。(3)提出了一种基于Spark内存计算的并行频繁项集挖掘算法。该算法充分利用了 Spark集群的内存计算优势和对迭代式数据处理的支持,并利用新定义的节点计算量预估模型,解决了其在计算过程中出现的负载不均衡问题。在Spark集群平台上,实验验证了该算法的有效性。(4)设计与实现了集群环境下的冷轧辊加工质量分析原型系统。以某钢铁企业的冷轧辊产品生产为背景,利用上述频繁项集挖掘算法和数据划分策略,开发了冷轧辊质量分析原型系统,并对其冷轧辊生产数据预处理、软件体系结构及各模块功能给出了详细分析。运行结果表明该原型系统可以有效发现冷轧辊加工过程中的关键工序及工序间的相关性,从而为企业开展产品质量控制提供了一种新的技术和解决思路。

陈建军^[4]2008年在《关联规则算法研究及其在多媒体教学评价数据分析中的应用》文中研究指明随着数据库应用的不断深化,数据库的规模急剧膨胀,人们需要对这些数据进行分析,从中发现有价值的信息。数据挖掘已经成为机器学习、人工智能、数据库等领域的研究热点。它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段。其中关联规则挖掘是一种主要的,也是用途最广的数据挖掘方法。本文即对数据挖掘中的关联规则进行系统研究,深入分析了关联规则的传统支持度-置信度框架、相关度和有效度等衡量标准,并在此基础上将T检验思想引入到了关联规则的衡量中,提出了一种新的关联规则衡量标准-影响度。在对多媒体教学评价现状和相关理论分析的基础上,作者提出了多媒体教学评价的基本原则和多媒体教学评价数据分析的目的,指出了本研究课题中关联规则在多媒体教学评价数据分析中的应用方向。本文将关联规则衡量标准-影响度应用到多媒体教学质量评价数据分析中。采用J2EE的体系结构,用Webwork+Spring+Hibernate架构设计并开发了一个多层的教学评价数据挖掘系统,有效地提高系统的可靠性、可扩展性、可重用性和可维护性。并利用该系统对多媒体教学质量评价数据进行了分析,系统运行结果表明,利用将影响度作为关联规则的衡量标准寻找多媒体教学评价数据中潜在的关联性是可行的、有价值的,可以有效的克服现有衡量标准的一些不足,减少冗余规则的产生。

姚亮^[5]2007年在《关联规则挖掘技术在税收执法管理中的应用研究》文中研究表明应用数据挖掘技术，加强税收数据进行分析，为税务系统强化科学管理提供有价值的决策信息，已经成为当前税务系统的一个研究热点。本文针对当前税收执法管理工作中存在的不足，结合税收行业数据特点，提出了一种基于hash和项集空间划分的关联规则挖掘算法-SAVM算法，并将关联规则挖掘技术和SAVM算法应用到税收执法数据分析中，找出了税收执法过错行为和税收执法者特征之间的关联关系，为税务系统加强税收执法管理提供了非常有价值的参考信息。本文的主要工作和创新点如下：一、阐述了数据挖掘技术在税务系统的应用现状，全面介绍了税收执法管理的内容、方法和存在的不足，分析了应用数据挖掘技术开展税收执法数据分析的重要意义。二、阐述了数据挖掘的基本理论、主要技术、知识分类、常用挖掘工具和研究趋势，深入研究了关联规则挖掘技术，重点介绍了几种经典关联规则挖掘算法，分析了各种挖掘算法的优、缺点，指出了关联规则挖掘技术的研究热点和发展趋势。叁、提出一种基于hash和项集空间划分的关联规则挖掘算法-SAVM算法。将事务数据库转换成比特向量表示形式，通过向量的与运算来计算项集的支持度，在挖掘过程中只需扫描一遍数据库；运用hash技术，在第一次扫描数据库的过程中，直接生成频繁2项集，提高算法的执行效率；采用基于共同前缀的划分方法，将己生成的频繁项集划分到不同的子空间，在每个独立的子空间内生成候选项集，减少连接次数。实验结果表明，SAVM算法提高了关联规则挖掘的效率。四、将关联规则挖掘技术应用到税收执法数据分析中，详细阐述了数据选择、预处理、挖掘频繁项集和生成关联规则等处理过程，对生成的规则进行了分析，得出了对税务系统加强税收执法管理具有重要参考意义的结论。同时，也为将关联规则挖掘技术应用到税收管理的其他领域提供了一个可供借鉴的方法。

周庆^[6]2008年在《面向零售化妆品业交叉销售的数据分析与决策支持系统的设计和实现》文中认为在日益对外开放的今天,经营零售化妆品的外资企业已经纷纷入驻了中国市场。随着中国市场的日趋成熟,各个企业都面临着市场开拓停滞不前的困境;并且随着市场竞争的骤然加剧,传统的销售方式越来越难以帮助企业维持现有市场份额,更不用说对市场的进一步开拓。在这样的情况下,各个企业的市场营销人员都在尝试着新的营销手段,尝试新的科学技术试图尽早摆脱这种困境,以期待获得更多的市场份额。交叉销售是近些年来被研究的重要的营销方法之一,特别是在金融业内已经被广泛地被应用,获得了巨大的成功。但是对于零售化妆品业来说还是属于比较新鲜的事物。对于研究交叉销售来说,最简单易行的方式,就是从历史的数据中找到各个销售商品之间的联系,获得客户购买行为的共性规律,从而让企业获得新的利润的增长点。同时,由于零售交易系统在柜台上的广泛应用,大量的交易数据和客户信息已经被采集到各个公司的零售交易系统中。但是这些被零售系统采集上来的数据目前仅仅是沉淀在各个公司的服务器中,并没有很好地为企业所利用。近些年来,数据分析和决策技术的日趋成熟,这种从历史的销售数据中寻找规律的模式,为零售化妆品业带来了新的契机。因此,零售化妆品企业的管理者都纷纷对数据分析和决策支持系统产生了浓厚的兴趣。本文第一章根据零售化妆品行业的特点,从零售化妆品业的整体背景,本课题的意义,以及国内外研究的现状的角度上,对零售化妆品行业构建面向交叉销售主题的数据分析和决策支持系统的背景和意义进行了阐述。第二章概述了构建数据分析和决策支持系统所需要的模块和技术,他们分别是:数据仓库,联机分析处理,和数据挖掘技术。在第叁章中结合企业中实际需要解决的交叉销售的问题,描述了如何设计面向零售化妆品业数据分析与决策支持系统(RCADS)的数据仓库;并围绕交叉销售主题描述了数据仓库的维度表、度量表等等数据仓库关键属性。在随后的第四章和第五章展示了实现交叉销售的数据挖掘的两种方法:关联规则挖掘、决策树挖掘,和具体实现关联规则挖掘和决策树挖掘的算法:Microsoft的关联规则算法和决策树算法。第六章借助Microsoft的SQL Server 2005、Excel 2007、DBPut等现代信息工具和技术逐步地展示了零售化妆品公司交叉销售主题的数据分析与决策支持系统的建立方法和具体步骤。该系统有效地帮助企业摆脱了繁重的手工分析工作,获得了沉睡在大量交易数据中的知识和信息,使企业能够在激烈地商战中获得更多的机会和市场份额。

周洪^[7]2008年在《基于拓扑约束和数据挖掘的网络故障定位》文中研究指明本文结合与企业合作的课题:《基于数据挖掘的智能化移动通信网络故障管理关键技术研究》,对基于拓扑约束的关联规则挖掘技术在移动通信网络故障定位系统中的应用及其实现方案进行了研究。该课题通过研究移动通信网络及其告警信息的特征,得出告警是沿着网络拓扑进行传播的这一结论。基于此,本文提出了在关联规则挖掘算法中引入网络拓扑模型作为约束,对告警数据进行挖掘中的处理,将没有存在拓扑连接关系的关联规则过滤掉,从而提高挖掘的效率和正确性。本文主要针对关联规则经典挖掘算法存在的各种不足,提出采用FP-Growth非时序关联规则挖掘算法,并在该算法的实现过程中加入了网络拓扑关系。该算法仅扫描数据库两次,不产生候选集,具有明显的性能优势,尤其适合我们将要面对的大型数据库,可以节省大量时间,提高执行效率。作者参与了BUPTPRISMiner智能化告警分析原型系统的研发,对FP-Growth非时序关联规则算法进行了研究和实现,并配合小组成员把算法集成入BUPTPRISMiner系统,完成了模块测试、代码维护和文档编写等工作。

曹春静^[8]2007年在《基于XML和Web数据的关联规则挖掘研究》文中指出近十几年来，随着Internet的迅速发展，互联网上的数据越来越趋于庞大。怎样能够有效地利用这些复杂而无章的Web数据、从中发掘出有价值的信息成了现今的研究热点。随着XML的不断发展，互联网上越来越多的信息都开始使用XML表示。XML以其可扩展、平台独立、灵活、规范和简单等特点以及强大的数据表达能力，在网络和其他领域的数据表示和交换方面都扮演着越来越重要的角色。因此，人们迫切地需要寻找一些有效的方法从这些大量的XML数据中提取一些潜在的、有价值的信息和知识。但是Web上的XML数据非常复杂，没有特定的模型描述数据，是半结构化的甚至是无结构的数据。所以，面向XML的数据挖掘技术有着不同于传统数据库上的数据挖掘技术的特点。它对半结构化数据的集成和组织，对挖掘算法的性能都提出了新的挑战。本文根据Web上XML数据的半结构化的特点以及XML查询语言XQuery、．NET DOM对XML操作的支持，针对如何直接从XML数据中提取有价值的关联规则进行了探索性研究。论文首先对XQuery实现的Apriori算法作了比较深入的研究，针对Apriori算法不适应挖掘结构复杂不规则的XML文档数据和挖掘大规模的XML文档数据效率不高的局限分别作了相应地改进。实验表明，改进后的算法能够有效地从XML数据中抽取关联规则。其次，论文也重点探讨了如何使用．NET DOM对XML数据进行直接关联规则挖掘。．NET DOM采用面向对象机制将对XML的操作封装成类库，用其实现的关联规则挖掘算法更符合人类的思维方式，更容易理解。而且，．NET DOM实现的算法的可视化更强，算法编译执行，速度更快。此外，论文从电子商务网站的购物篮数据中抽取了一部分典型的挖掘数据，构造了具体的实验，根据实验的结果对上述两种算法的优缺点进行了对比分析。实验结果表明，在不同的环境需求下，两种算法有着各自的强势和劣势，从而可以指导人们在未来XML的关联规则挖掘过程中，应该根据不同的需求和挖掘环境选择不同的挖掘方法，才能使数据挖掘的效率和性能得到优化。最后，本文提出了一个基于XML和关联规则挖掘的Web挖掘系统的五层架构模型，对该模型的各个功能模块进行了详细地介绍。并且根据该模型，设计了一个面向电子商务网站的基于XML的关联规则挖掘系统模块。该模块能够处理多种数据源，支持多种关联规则挖掘算法以及挖掘结果的可视化表达，具有综合性和可扩展性的特点。

陈治国^[9]2006年在《数据挖掘技术在教学决策支持中的应用研究》文中研究说明数据挖掘是20世纪末兴起的数据智能分析技术,它可以从数据库、数据仓库以及其它各种数据库中的大量各种数据类型数据中,自动抽取或发现出有用的模式知识。数据挖掘领域目前研究的重点逐渐从方法发现转移到系统应用。数据挖掘技术的最先实际应用是在金融和商业领域,目前在教育层面上的应用只处于初级阶段。本文以本校“数字化校园”建设为背景,目的是研究如何将数据挖掘技术与现有的、已经投入使用的EDC数据库系统相结合,从具有海量特征的数据中提取出隐藏在数据之中的有用信息,为系统管理者和决策者提供综合分析、辅助决策和决策支持服务的数据挖掘工具。通过对数据挖掘基本原理、基本算法的研究,开发了基于决策树算法的学生评估工具模块和基于关联规则的学生各相关数据分析工具模块。前者以改进的决策树ID3算法为基础,根据学生成绩库中的信息以及其他库中的有关学生评价的信息,建立一个决策树成绩评估模型,对学生进行相应的综合分析评估。后者以改进的Apriori算法为基础,从学生成绩、个人基本信息、评价信息数据中进行数据挖掘,发现各个因素之间的关联关系,找到隐藏的规律,为教学决策提供支持。在具体实现时,本文也根据学生数据库数据的特点,提出了使用数据立方的方法来减小算法运行过程中与数据源的通讯开销,同时也解决了与远程数据库频繁通信的问题,提高了数据挖掘算法的效率和可扩展性。通过研究说明,把数据挖掘技术引入到教育领域,在理论上是可行的,在技术上是可实现的,同时在该领域的研究和应用也具有很大的潜力。

陈秋阳^[10]2010年在《基于数据挖掘技术的精准营销系统的设计与实现》文中研究说明精准营销作为现代商业营销的新趋势,伴随着数据库、网络等计算机技术的发展,以其客户定位精准性、实现过程技术性和商业应用广泛性而备受企业的青睐。然而精准营销系统需要的技术投入往往使得很多中小企业望而却步,因此,设计并实现一个供中小企业进行低成本精准营销的平台是一项非常有意义的研究。与此同时,电信号码百事通系统作为沟通用户与企业的桥梁,积累了海量的呼叫记录数据,如何对记录数据进行有效的知识发现,是平台设计的基础。本文的精准营销系统(Precision Marketing System,PMS),正是基于为中小企业搭建精准营销平台的需求设计的。系统从电信系统获取呼叫记录数据,采用数据分析与关联规则挖掘技术处理数据,并设计了系统应用业务,依托电信独有的号码百事通平台,使得企业通过定制业务和服务,进行精准的客户定位,并通过短信、语音等方式进行低成本的营销。系统以客户感兴趣的所有行业分类构建事务数据库,选择单层布尔型关联规则挖掘方法,运用关联规则经典挖掘算法Apriori,计算得到关联行业规则,并应用挖掘结果,将企业的营销业务发展到相关联的行业用户中。此外,系统不断提取电信数据带来事务数据库的更新,从而引起关联规则增量挖掘问题。在研究了FUP、PFUP等增量挖掘算法后,针对FUP算法和PFUP算法面对大型数据库时单机运行遭遇效率瓶颈的问题,提出了基于并行计算的关联规则增量更新算法PPFUP,该算法在无共享的工作站上,通过划分局部频繁项集并分配到结点,采用并行思想处理原数据库和新增数据库的计算任务,降低单处理机内存压力。在系统实现方面,考虑到精准营销应用逐步丰富和业务逐步扩展的要求,设计了基于J2EE规范的B/S五层系统框架。系统采用跨平台的JAVA语言,数据库接口遵循JDBC规范,消息传递将遵循XML(eXtensible Markup Language),从而使未来系统可以平滑地升级并能与各种同样开放的未来系统相集成。

参考文献：

[1]. 数据挖掘中的关联规则算法研究[D]. 刘寒冰. 河北工程大学. 2007

[2]. 面向客户流失预测的关联规则挖掘算法应用研究[D]. 罗巧玲. 河北工业大学. 2007

[3]. 集群环境下的关联规则挖掘及应用[D]. 荀亚玲. 太原科技大学. 2017

[4]. 关联规则算法研究及其在多媒体教学评价数据分析中的应用[D]. 陈建军. 中北大学. 2008

[5]. 关联规则挖掘技术在税收执法管理中的应用研究[D]. 姚亮. 合肥工业大学. 2007

[6]. 面向零售化妆品业交叉销售的数据分析与决策支持系统的设计和实现[D]. 周庆. 上海交通大学. 2008

[7]. 基于拓扑约束和数据挖掘的网络故障定位[D]. 周洪. 北京邮电大学. 2008

[8]. 基于XML和Web数据的关联规则挖掘研究[D]. 曹春静. 华东师范大学. 2007

[9]. 数据挖掘技术在教学决策支持中的应用研究[D]. 陈治国. 国防科学技术大学. 2006

[10]. 基于数据挖掘技术的精准营销系统的设计与实现[D]. 陈秋阳. 浙江大学. 2010

标签：计算机软件及计算机应用论文; 大数据论文; 关联规则论文; 数据挖掘论文; 数据挖掘算法论文; 客户分析论文; 系统评价论文; 数据分析能力论文; 面向过程论文; 数据库论文; 算法论文;

关联规则挖掘的实现

猜你喜欢