基于概念层次树的多层次关联规则数据挖掘算法研究

基于概念层次树的多层次关联规则数据挖掘算法研究

陈子阳[1]2000年在《基于概念层次树的多层次关联规则数据挖掘算法研究》文中认为数据挖掘是指从大量的数据中发现潜在的,有用的知识的过程,是解决“数据丰富、信息贪乏”的有效方法,关联规则是数据挖掘的主要研究内容。 已有对关联规则的研究只注重解决算法的时间效率,而忽视了关联规则的多层次性。同时,关联规则只用原始数据表示,由于支持度较低而难以表示数据之间的普遍联系。 本文针对已有方法的不足,利用归纳的抽象的概念层次提出了基于概念层次树的多层次关联规则算法,根据先验估计以概念层次树的中间层次为起点,在计算结点的支持度和可信度的同时对结点之间进行匹配以更高效的发现多层次关联规则。 算法有以下优点:1)高效。与其它方法比较具有较低的空间要求,而且速度更快,从而可充分利用数据,得出准确的知识;2)挖掘出的关联规则是多层次的,同时对得出的多层次关联规则进行清洗,使得到规则更加准确。

王颖[2]2012年在《基于关联规则的电子商务个性化推荐模型研究》文中提出随着互联网的不断普及和电子商务网站的快速发展,商品信息过载的问题变得愈发严峻。怎样使网站浏览者在面对大量的商品信息时快速有效地查找到其所需的商品,成为当前电子商务网站发展迫切需要解决的问题。电子商务推荐系统的出现为这些问题的解决提供了方法,但是目前已存在的一些电子商务推荐系统在实际运用中还存在着问题,推荐效率较低,有些还不能满足用户的个性化需求,因此,对于电子商务推荐系统和推荐技术的研究具有比较大的实用价值。推荐技术是电子商务推荐系统的研究重点,因为推荐技术的选取是否得当直接关系到推荐质量的优劣。当前国内外对于电子商务推荐技术的相关研究中,关联规则推荐技术是较为热门的,但在实际应用中,关联规则推荐技术也存在着一些问题,例如:发现关联规则难,在数据稀疏的情况下较难找到具体商品之间的强关联规则,算法在执行的过程中会产生大量的候选项集等,这些问题急需找到解决方法。本文针对关联规则推荐技术存在的上述问题,提出了一种关联规则推荐算法,即通过采用概念层次树与FP增长算法相结合的方法来进行关联规则挖掘,这种算法既可以解决数据稀疏以及商品具体概念繁多等问题,又在计算的过程中不会产生大量候选项目集,能够有效地克服Apriori算法的问题,在挖掘时间上有较大优势。作者使用NET平台C#语言实现了该算法,然后通过数据实验将该算法与Apriori算法以及单纯的FP增长算法进行了挖掘效率的对比,数据实验结果表明:结合概念层次树的FP增长算法相对于Apriori算法和单纯的FP增长算法来说同样具有正确性,并且挖掘效率更高,同时还可以发现出不同层次商品间隐含的有价值的关系,能够为个性化推荐模型提供更加丰富、更具普遍意义的知识,并且可以满足更多用户的需求。最后,本文以某一服装购物网站作为电子商务个性化推荐模型的应用背景,设计了基于结合概念层次树的FP增长算法的电子商务个性化推荐模型。个性化推荐模型设计的主要内容包括推荐模型的体系结构设计、推荐模型主要功能分析、推荐模型工作流程分析、推荐模型各个功能子模块的分析以及后台数据库设计等。该模型通过分析用户的历史购买记录来挖掘用户的兴趣偏好,然后在不断的更新学习中为用户提供准确的、实时的个性化推荐。

彭亚侬[3]2009年在《一种改进Apriori算法的数据挖掘算法研究》文中研究指明针对Apriori算法的缺陷,同时由于OLAP关联规则挖掘方法是一种灵活的、多维的、多层次的高性能方法,将OLAP技术和Apriori关联规则相结合,提出了一种针对Apriori算法的改进的多层次关联规则数据挖掘算法,在分析了关联规则数据挖掘结构的基础上,给出了该算法的思想与执行步骤。

樊明辉[4]2006年在《空间数据挖掘及其可视化系统若干关键技术研究》文中认为数据挖掘技术已经成为解决“数据爆炸、知识贫乏”问题的有效手段,在地学数据分析领域引入数据挖掘与知识发现的概念、模式和方法,探讨适合地学应用的数据挖掘新方法,对于有效处理海量地学数据、提高地学分析的自动化和智能化水平具有重要意义。 可视化技术能为数据挖掘提供直观的数据输入、结果输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度,在地学领域,可视化与空间数据挖掘的结合已成为必然。 本文系统地讨论了基于数据仓库的空间数据集成技术,改进了空间关联规则、粗糙集和空间聚类算法,研究了契合上述挖掘算法的若干可视化技术,在此基础上,实现了一种开放式的“即插即用型”数据挖掘系统,并集成上述数据挖掘技术、可视化技术,形成一套可视化空间数据挖掘的理论框架、技术方法和原型系统。研究内容和结果可归纳为: (1) 阐述了空间数据集成和空间数据集成模型的相关理论和概念,对多源空间数据的集成模式进行了探讨。讨论了多源空间数据的一体化处理技术和多尺度空间数据的一体化处理技术,提出了基于数据仓库的数据集成总体框架,设计了一个基于Web的空间OLAP工具,并给出了具体的实现流程。 (2) 改进了Apriori算法,提出了一种基于映射的高效大项集关联规则发现算法MBAR。探讨了空间概念树和层次关联规则结合的途径,提出了基于概念树的多层次空间规则算法,给出了算法处理流程和应用实例。 (3) 探讨了应用于多准则决策分析的基于优势关系的粗糙集扩展模型,对该模型中已有的求核和知识约简算法进行了研究,提出了一个新的优势区分矩阵的定义,在该定义的基础上给出了相应的求核和求约简算法,给出了在属性约简之后提取优势规则的方法。 (4) 研究了基于空间邻接关系的空间聚类挖掘算法VSG-CLUST。该算法是一种基于图分割的可视化空间聚类算法,利用Delaunay三角网工具和MST(最小生成树)将地理实体的邻接信息(空间相邻关系)加入并参与到空间聚类中。研究了利用多尺度的空间概念层次关系进行空间聚类挖掘的算法,将尺度因素作为一种约束条件施加于VSG-CLUST算法中MST的分割和修剪策略,即一种基于尺度约束的空间层次聚类挖掘算法。 (5) 讨论了基于OLAP的空间多维可视化方法,并给出OLAP多维可视化

王娟[5]2008年在《基于FP-Growth算法改进的多层次关联规则挖掘算法》文中提出针对FP算法的缺陷,将OLAP技术和Apriori关联规则相结合,提出了一种针对FP算法的改进的多层次关联规则数据挖掘算法,在分析了关联规则数据挖掘结构的基础上,给出了该算法的思想与执行步骤,对于关联规则数据挖掘的研究具有一定的理论意义。

胡向前[6]2005年在《基于FP-Tree的多层关联规则挖掘算法研究》文中指出数据挖掘是从大量数据中发现潜在的、有趣的知识的过程,是解决“数据丰富,知识贫乏”状况的有效方法。关联规则挖掘用于从大量数据中揭示项集之间的有趣关联或相关联系,是数据挖掘的一项重要研究内容,在现实生活中有着广泛的应用。根据规则集所涉及的抽象层的多少,关联规则可分为单层关联规则和多层关联规则。与单层关联规则挖掘相比,多层关联规则能够提供更加丰富、更具普遍意义的知识,能够满足更多用户的需求,因此对多层关联规则挖掘进行研究具有较大的实用价值。已有的多层关联规则挖掘算法如Cumulate 算法、ML-T2L1 算法,都是通过对Apriori 算法进行扩展得到的。这些算法仍采用候选生成并验证的方式得到频繁模式,该方式会在以下两个方面产生较大的开销:(1)需要反复地扫描数据库,这会导致巨大的I/O 开销;(2)需要产生大量的候选项集,并通过模式匹配来检查这些候选项集的频繁性,这会产生巨大的计算开销。因此这些算法的效率较低。FP_Growth 算法是一个高效的单层关联规则挖掘算法,它不需产生候选项集且只需扫描两遍数据库,有效地克服了Apriori 算法的缺点,因此该算法的效率较Apriori 算法有了大幅提高。通过对FP_Growth 算法进行扩展,本文提出了一个高效的多层关联规则挖掘算法MLAR-FP。MLAR-FP 算法采用的扩展措施如下:(1)在扫描数据库的过程中通过把每个项的全部祖先加入到事务中对每条事务进行扩充,该措施能够确保得到多层关联规则;(2)通过及时删除概念层次树中不是频繁项的祖先项来压缩搜索空间,提高挖掘效率;(3)避免产生冗余的频繁模式。为了验证MLAR-FP 算法的正确性和高效性,作者在某医药公司的销售数据上对其进行了实验,并和Cumulate 算法进行了对比。实验表明MLAR-FP 算法是正确的,并继承了FP_Growth 算法运行效率高的优点。MLAR-FP 算法使用分治策略挖掘频繁模式,因此该算法具有潜在的并行性。根据这个特点本文提出了针对工作站集群环境的并行MLAR-FP 算法,此算法采用的并行模型为粗粒度的主/从模型,并行策略为数据并行。考虑到各个计算节点处理能力的不同,算法使用动态分配数据的方式来平衡各个节点的负载。

姜季春, 向程冠[7]2009年在《基于多层次关联规则的Web日志挖掘》文中提出经典关联规则挖掘在Web日志挖掘应用中已经比较成熟。在此基础上,针对某些商业网站的商品板块间存在层次关系,将多层次关联规则挖掘引入Web日志挖掘,能够在细节程度更低的层次或不同的细节层次间深入、全面地提供用户浏览商品过程中的频繁访问路径和频繁访问页组,以优化网站链接,为访问网站的用户提供更能满足需求的服务。本文以淘宝网女装/女士精品销售版块的链接页面为例进行验证说明。

陈子阳, 郭景峰[8]2001年在《基于利润度的多层次关联规则挖掘算法研究》文中研究指明0.引言数据挖掘是指从大量的原始数据中发现未知的、有用的知识(如知识规则,限制等),是解决"数据爆炸"和"数据丰富,信息贫乏"的一种有效方法。关联规则由R.Agrawal等人提出,是数据挖掘的重要研究内容。关联规则的主要应用

王锐, 曹振强[9]2010年在《多层次分布式数据挖掘关联规则的研究》文中指出数据挖掘技术是近几年国内迅速发展起来的一门交叉学科,涉及到统计学、数据库、机器学习与人工智能等多个领域。计算机的应用普及产生了大量的数据,数据挖掘就是利用上述科学的技术进行大数据量的处理。

杨峰, 吴明慧[10]2004年在《多维多层次挖掘关联规则在商品房交易中的应用》文中认为讨论了一种在关系数据库中挖掘关联规则的方法.该方法利用关系数据库的特点,有机地组织概念层次树技术、关联规则挖掘技术进行多维多层次挖掘关联规则.挖掘满足要求的多维关联规则、多层次关联规则、交叉层次关联规则.

参考文献:

[1]. 基于概念层次树的多层次关联规则数据挖掘算法研究[D]. 陈子阳. 燕山大学. 2000

[2]. 基于关联规则的电子商务个性化推荐模型研究[D]. 王颖. 东北财经大学. 2012

[3]. 一种改进Apriori算法的数据挖掘算法研究[J]. 彭亚侬. 电脑知识与技术. 2009

[4]. 空间数据挖掘及其可视化系统若干关键技术研究[D]. 樊明辉. 中国科学院研究生院(遥感应用研究所). 2006

[5]. 基于FP-Growth算法改进的多层次关联规则挖掘算法[J]. 王娟. 电脑知识与技术. 2008

[6]. 基于FP-Tree的多层关联规则挖掘算法研究[D]. 胡向前. 重庆大学. 2005

[7]. 基于多层次关联规则的Web日志挖掘[J]. 姜季春, 向程冠. 科技信息. 2009

[8]. 基于利润度的多层次关联规则挖掘算法研究[C]. 陈子阳, 郭景峰. 第十八届全国数据库学术会议论文集(研究报告篇). 2001

[9]. 多层次分布式数据挖掘关联规则的研究[J]. 王锐, 曹振强. 制造业自动化. 2010

[10]. 多维多层次挖掘关联规则在商品房交易中的应用[J]. 杨峰, 吴明慧. 信阳师范学院学报(自然科学版). 2004

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于概念层次树的多层次关联规则数据挖掘算法研究
下载Doc文档

猜你喜欢