数据挖掘中快速关联规则发现算法研究及应用

数据挖掘中快速关联规则发现算法研究及应用

张红梅[1]2002年在《数据挖掘中快速关联规则发现算法研究及应用》文中认为数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。关联规则在数据挖掘是一个重要的研究内容,而频繁项目集的发现在关联规则的提取中占着主导地位。目前已有的许多关联规则采掘算法,都采用大量的循环,复杂度很高,需要占用大量时间和空间。 本文在分析以往各种算法的基础上,提出了一种适用于长模式挖掘的不产生候选集的关联规则改进算法,我们利用数据库查询语言存储FP-tree的信息而不建立FP-tree结构,提出约简属性和直接从频度表(f_list)中提取CLOSET的方法,从而节省时间和空间。同时,把这种思想运用到发现函数依赖和近似函数依赖,避免了以往算法采取的组合运算。当函数依赖的左项是长模式时,尤其能显示算法的优越性。对于短模式的提取,本文提出交互式模式提取算法,根据每步产生频繁集和非频繁集的个数来判断采用何种算法,交替的进行模式分解,每步运算都改变事务集,并且每步分解的模式用于建造下一层的数据集。当频繁集的个数小于非频繁集的个数时,采用频繁集进行模式分解,是本文的又一创新点。 实验结果证明,采用以上算法在各自适应的领域都取得了很好的结果。另外,把算法应用于教学教务数据、税务数据和电信数据,提取出的一些规则可以辅助各部门做出利于自己发展的决策。

李芸[2]2007年在《数据挖掘中关联规则挖掘方法的研究及应用》文中研究说明“数据爆炸、知识贫乏”是信息时代所面临的一个严峻的问题,而数据挖掘是解决该问题的一种十分有效的手段。该技术能从大规模的数据量中获取有用的信息,发现隐含的、先前未知的、对决策有潜在价值的知识以指导实际问题的求解,因此对数据挖掘技术的研究有着重要的应用意义。本文以数据挖掘中一个重要的领域——关联规则的挖掘为研究主题,理论结合实际应用对关联规则的挖掘方法进行了研究和分析。本文的研究工作主要包括以下四个方面:1.研究设计了“基于约束的最大频繁项集挖掘算法”,以解决数据量巨大,不能有目的,有侧重地进行挖掘的不足;2.研究设计了“基于频繁闭项集的增量式维护算法”,用于解决当数据库发生变化时,如何利用已发现的关键信息来快速地实现结果更新的问题;3.针对传统的数值型关联规则在挖掘过程中属性区间划分不尽合理的问题,本文深入研究了定性定量转换模型——云模型,对基于云模型的不确定性推理机制及云发生器的相应算法进行了研究;4.将理论方法与实际应用相结合,并且为了使挖掘出的结果有较易于理解的表现形式,本文设计了一种交互式的可视化方法,以帮助用户快速地对规则的意义进行判定。本文采用大量的数值试验对各章中所提出算法的正确性和有效性进行了充分的验证。本论文以数据库预研项目:“特通平台话单分析系统”为支撑,将研究设计的关联规则挖掘方法应用到该系统中,用于对话单数据中的关联规则进行挖掘,以发现潜在的,对决策有价值的信息。

陈莉[3]2010年在《关联规则发现及其在高校成绩分析中的应用研究》文中研究说明随着信息化技术的发展和数据库的广泛应用,人们面对的数据规模迅速膨胀,面对这些海量、混乱的数据,传统分析方法已经无法满足人们对数据处理的需求,因此,寻求能够分析大量数据的技术成为一个迫切的需求,数据挖掘技术的出现恰好解决了这一难题。关联规则是数据挖掘中一种应用最为广泛的技术,它主要用于从大量、复杂的数据中发现各个属性之间的内在联系,得到有指导意义的规则,因而具有重要的实用价值。关联规则挖掘主要分为两个步骤:寻找频繁项集和生成规则;第一步是算法的关键,因此,如何提高寻找频繁项集的效率成为目前研究的重点。论文分析了Apriori系列算法的特点及不足,同时分析了一种改进算法-AprioriTid系列算法的优点及缺陷。针对关联规则中Apriori算法多次扫描数据库的缺陷,论文利用AprioriTid算法事务压缩的思想提出一种基于索引的Apriori改进算法。改进算法利用包含候选项集的事务标识列表计算候选项集的支持度;在剪枝过程中,采用地址索引机制减少对比次数;提出了一种快速连接事务标识列表求两列表交集的方法,并通过实验证明了算法的高效性。研究目前的关联规则衡量标准,在U检验思想基础上提出影响度衡量标准,该标准在一定程度上避免了其它标准的不足,而且能够找出无效关联规则和负关联规则,同时将正关联规则分为弱关联规则和强关联规则,给用户提供更加有效的关联规则。利用改进算法,以某高校计软学院2006级学生大学四年课程考试成绩为研究对象,通过数据清理、数据转换等数据预处理操作之后,挖掘课程之间和课程类别之间的关联关系,给出了挖掘结果并对部分规则进行解释。最后对高校成绩分析系统的总体框架和数据库进行设计;实现数据选取、数据清理、数据转换功能;挖掘前期,根据用户需求实现选择挖掘内容功能;挖掘过程中引入了规则模板,挖掘结果采用表格的形式显示,用户可以从大量规则中快速发现感兴趣的规则;同时用户可以对挖掘结果进行分类并将有效规则保存至规则库中。利用规则结果可以对学生学习成绩进行预警提示,同时辅助教学部门合理安排课程,从而达到提高学校教学质量的目的。

何田[4]2008年在《基于粗糙集和概念格的关联规则挖掘研究》文中研究指明数据挖掘研究如何从大量的数据中智能地自动地抽取出有价值的知识和信息,是当前人工智能研究中非常活跃的研究领域。关联规则(Association Rules)挖掘是数据挖掘领域重要的研究分支。概念格与粗糙集都是有效的数据分析方法。粗糙集理论利用等价关系对数据表进行分类,能有效地处理模糊性和不确定性问题的数学工具,为数据挖掘提供了新的思路和基础。而概念格是基于数据表,结合序理论,尤其是完备格理论,进行概念分层讨论。它们之间的关系引起了许多研究者的关注。文章首先介绍了经典的关联规则挖掘算法,分析了需要进一步深入研究的问题:挖掘过程中需要重复多次扫描数据库;挖掘过程中产生大量候选项集;产生的规则数量过多。接着主要以上面叁个问题为突破口分别讨论了运用粗糙集、改进的概念格模型进行关联规则的提取,最后对二者的关系作进一步的探讨,并提出了粗糙概念格结构。主要内容及创新工作具体如下:1.Apriori算法优化:改进算法,缩小所需扫描的事务项集大小,并提出了一种简单的数据结构一树型结构来存储事务项集数据,使得算法在数据集量巨大时,性能得到有效提高。2.结合粗糙集理论,推导出“多属性不可分辨类”的性质。然后根据这个性质,提出了一种新的关联规则挖掘算法,该算法仅需扫描一次数据库,改善了现有的挖掘算法由于多次扫描数据库而导致时间效率低下问题。同时针对产生的规则数量过多问题,提出了基于规则约束和加权支持度的双变量约束关联规则挖掘,只对与约束条件有关的项目进行处理。3.研究了基于剪枝概念格的关联规则挖掘求解和表示。提出顺序剪枝和同步剪枝概念格的构造方法。实验表明基于剪枝概念格挖掘关联规则,减少了关联规则的挖掘空间,提高了关联规则挖掘的效率。4.对概念格与粗糙集之间的关系作进一步的探讨,并且证实粗糙集的一些概念包括等价类,上、下近似等都可以通过概念格来表示。提出了粗糙概念格RCL,采用粗糙集上、下近似集,描述概念格中内涵所拥有的外延,这种概念格结构体现了对象与特征间的确定与不确定两种关系。

李长源[5]2005年在《关联规则挖掘算法研究》文中研究表明关联规则的数据挖掘是数据挖掘技术中非常重要和有应用前景的一种技术,一直是近几年来数据挖掘研究和应用领域活跃的前沿。尽管在算法研究上已经积累了大量的成果,但我们应当看到,数据库的规模仍然在不断飞速地膨胀,对进一步提高挖掘算法效率的要求仍然十分紧迫。关联规则发现的主要研究方向是算法的优化和扩展应用领域。典型的关联规则发现算法是由R. Agrawal等提出的Apriori算法,其核心技术为其它各类关联规则采掘算法所广泛采用。但是,在计算侯选集的支持度时,Apriori算法是在每一个循环中都要扫描整个数据库,使得挖掘效率较低。本文针对Apriori算法存在的问题,提出了两种改进算法:基于叁次遍历的快速关联规则挖掘算法和基于步长调节的关联规则挖掘算法,并通过与Apriori算法从扫描数据库的次数、时间复杂度和空间复杂度叁方面进行比较,最后得出了这两种算法的效率高于Apriori算法结论。

刘亚波[6]2005年在《关联规则挖掘方法的研究及应用》文中提出本文在数据挖掘研究和关联规则挖掘研究背景下,展开了对关联规则挖掘方法的研究及应用工作,重点研究了关联规则最大频繁项目集、有序模式、用户关联和支配关联规则的挖掘方法及应用等问题,具体包括:(1)对数据挖掘技术,特别是关联规则挖掘技术研究进行了全面综述;(2)关联规则最大频繁项目集发现的问题的研究,提出了采用改进集合枚举树描述项目集、结合双向搜索策略、利用非频繁项目集对候选最大频繁项目集进行剪枝的快速发现最大频繁项目集的算法。(3)挖掘和应用有序模式问题的研究,将关联规则频繁模式的概念扩展到有序模式问题,给出了有序模式的挖掘方法,进而提出并实现了应用有序模式进行数据清洗的方法;(4)推荐系统中挖掘用户关联规则问题的研究,提出并实现了基于两阶段计数的用户关联挖掘框架和算法;(5)挖掘和应用支配关联规则问题的研究,将关联规则的一般形式扩展到支配关联规则,给出了挖掘支配关联规则的方法,提出了应用支配关联规则进行未知标准值预测的方法。本文的研究结果在关联规则挖掘方面很有理论意义和应用价值。

刘寒冰[7]2007年在《数据挖掘中的关联规则算法研究》文中认为目前,关联规则作为数据挖掘领域中一个非常重要的研究课题,己经取得了令人瞩目的成绩,但在实际应用中,随着数据库规模逐渐增大,出现了随着数据量递增而算法挖掘效率下降的问题,具有应用局限性。因此,必须研究和改进现有的算法,使其具有更高的效率和更广阔的应用前景。本文着重对关联规则挖掘算法进行了研究,在现有算法的基础上,提出两个适应性较强的高效挖掘算法。首先,研究了关联规则中经典的Apriori算法及其改进算法。为了解决这些算法在候选项目集和执行时间方面存在的问题,结合关联规则的性质和布尔向量的关系运算思想,提出了基于布尔矩阵的关联规则挖掘算法(Algorithm Based on Boolean Matrix,简称ABBM)。该算法在挖掘过程中仅扫描数据库一次,而且不产生候选项目集,从而减少了生成频繁项目集的时间开销,提高了算法效率,达到了算法改进的目的。其次,研究了经典的关联规则增量式更新挖掘算法及其优化算法。针对在最小支持度、最小置信度不变的情况下,新增数据集时关联规则更新效率低的问题,提出了一种高效的关联规则增量式更新挖掘算法(High-Efficient Incremental Updating,简称HIUP)。该算法采用AprioriTidList算法来发现新增数据集中的频繁项目集,并通过有效的优化策略对候选项目集进行分类和剪裁,从而减少了候选项目集的数量和扫描新增数据集的次数,提高了算法的更新效率。为了验证算法的性能,本文分别采用合成数据库和真实数据库对提出的新算法及其同类算法进行了对比测试。试验结果表明,ABBM、HIUP算法在效率上明显优于同类算法,而且挖掘的数据量越大,算法效率越高,具有较好的可扩展性和较广阔的应用前景。

焦亚冰[8]2008年在《关联规则挖掘算法的研究与应用》文中研究指明随着计算机技术,特别是数据库技术的发展,在各行业数据库中积累了大量的数据。如何发现隐含在这些数据中的规则和知识,并辅助决策,成了要解决的问题。数据挖掘技术的出现和发展为此提供了有力的支持。数据挖掘就是从大量的、不完备的数据中,提取出事先未知的、但具有价值的信息和知识的过程。关联规则挖掘是数据挖掘的一个重要研究分支,主要用于发现数据集中项之间的相关联系。由于关联规则形式简洁、易于解释和理解并可以有效地捕捉数据间的重要关系,从大型数据库中挖掘关联规则问题已成为数据挖掘中最成熟、最重要、最活跃的研究内容。教学评价依据一定的教学目标与教学规范,对教学活动以及教学成果给予价值判断。教学评价首先应该根据教学效果,确立教学优秀的质量标准体系,进而建立一套分类判定标准,其次应该能够发现评价标准和结果之间的规律,便于改进现有教学环节或过程中的不足之处。数据挖掘是一种决策支持过程,是深层次的数据信息分析方法,将数据挖掘技术应用于对教学的评价无疑是非常有益的,它可以全面地分析测试评价结果与各种因素之间隐藏的内在联系,通过数据挖掘分析,其评价结果能给教学带来前所未有的收获。本文首先对数据挖掘作了讨论,包括数据挖掘的概念、数据挖掘的过程和数据挖掘的任务等。然后,对关联规则挖掘算法做了深入的研究,分析了关联规则中经典的Apriori算法,指出了挖掘中的关键步骤及该算法的不足。并针对Apriori算法的不足,提出了对Apriori算法进行了改进,使得寻找频繁项集的工作得以分布化,并行化。最后将关联规则数据挖掘的方法运用到教学评价中,从教学评价数据中进行数据挖掘。找到教学效果与教师基本情况的关系,为教师提供有价值的参考,帮助教学部门进行决策,从而更好地开展教学工作,提高教学质量。

赵松[9]2006年在《Apriori算法的改进及应用》文中研究指明近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,数据资料的规模急速膨胀。于是,人们希望有新一代的技术和工具能够智能地自动地帮助人们分析已经消耗大量财力和物力所收集与整理的海量数据,以发现有用的知识,达到为决策服务的目的。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘技术应运而生,并得以蓬勃发展。数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则挖掘是数据挖掘的主要研究内容。而频繁项目集的发现是关联规则挖掘的核心问题。本文重点研究了频繁项目集的发现算法及关联规则挖掘的应用,主要工作包括以下几个方面:1、研究了数据挖掘中的关联规则挖掘的步骤。对经典的Apriori算法和Apriori_Tid算法做了全面的分析,指出了关联规则挖掘中的关键步骤和频繁项目集算法的不足。2、针对Apriori算法的不足,提出了一种高效的频繁项目集的发现算法ZS_Apriori。该算法在计算支持度计数时,只扫描一遍事务数据库,减少了事务数据库的扫描次数;在求k-候选项目集C_k前,先判断k-1频繁集L_(k-1)中的项目个数是否小于k,若小于k,则C_k=Φ,此时不再需要进行连接操作来计算C_k,尤其当k值很大时,可以节省大量的计算时间;根据频繁项目集的性质,在计算候选项目集时,减少了候选项目集的数量。3、将关联规则挖掘应用到高校教学质量评价中。从教学评价数据中挖掘关联规则,找出课题教学效果与教师状态的关系,从而为教学部门提供决策支持信息,促使更好地开展教学工作,提高教学质量。4、将关联规则挖掘应用到高校就业分析中,发现学生的受教育属性和就业属性之间的关联性,找出社会需要的应用型人才的模型,从而给决策者提供指导和数据支持,改进现有的教育模式。

马强[10]2007年在《关联规则挖掘算法研究和应用》文中认为数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要目标是从大型的数据库中挖掘出对用户有价值的模式。在事务数据库中挖掘关联规则是数据挖掘领域中一个非常重要的研究课题。本文对数据挖掘技术,尤其是关联规则数据挖掘技术进行了系统、深入、全面、详尽地分析和研究,主要包括以下一些内容:第一、数据挖掘技术的分析与研究。在数据挖掘基本概念的基础上,对数据挖掘常使用的技术和研究的对象进行了详细地分类、归纳和总结,对数据挖掘技术的国内外研究现状进行了广泛而全面地归纳和分析,对数据挖掘技术的未来发展趋势和热点研究领域进行了总结和探讨。第二、关联规则数据挖掘技术的分析与研究。在介绍关联规则基本概念的基础上,对关联规则的Apriori算法进行了详细地分析和研究,并就目前针对提高该算法效率的各种优化技术也进行了详细地描述。第叁、提出一种从大型数据库中挖掘关联规则的改进算法LApriori算法,该算法以经典的Apriori算法为基础。文中给出了新算法的理论依据,以及整个算法的思路,该算法与Apriori算法相比具有如下特点:(1)对整个数据库只需访问一次;(2)k-频繁项目集的挖掘可通过(k-1)-频繁项目集得到,而无需再次扫描数据库;(3)采用二进制的存储方式将节省大量的存储空间,二进制的运算速度也可以节省大量的时间。理论分析表明,改进后的LApriori算法的应用效率高,实验结果也表明改进后的算法效率高,而且随着数据库规模的扩大,效率提高更加明显。第四、将改进算法应用到车辆违章数据挖掘中。

参考文献:

[1]. 数据挖掘中快速关联规则发现算法研究及应用[D]. 张红梅. 河北工业大学. 2002

[2]. 数据挖掘中关联规则挖掘方法的研究及应用[D]. 李芸. 西安电子科技大学. 2007

[3]. 关联规则发现及其在高校成绩分析中的应用研究[D]. 陈莉. 河北工业大学. 2010

[4]. 基于粗糙集和概念格的关联规则挖掘研究[D]. 何田. 华中师范大学. 2008

[5]. 关联规则挖掘算法研究[D]. 李长源. 哈尔滨工程大学. 2005

[6]. 关联规则挖掘方法的研究及应用[D]. 刘亚波. 吉林大学. 2005

[7]. 数据挖掘中的关联规则算法研究[D]. 刘寒冰. 河北工程大学. 2007

[8]. 关联规则挖掘算法的研究与应用[D]. 焦亚冰. 山东师范大学. 2008

[9]. Apriori算法的改进及应用[D]. 赵松. 哈尔滨理工大学. 2006

[10]. 关联规则挖掘算法研究和应用[D]. 马强. 太原理工大学. 2007

标签:;  ;  ;  ;  ;  ;  ;  

数据挖掘中快速关联规则发现算法研究及应用
下载Doc文档

猜你喜欢