基于粗糙集理论的关联规则挖掘方法研究

基于粗糙集理论的关联规则挖掘方法研究

何田[1]2008年在《基于粗糙集和概念格的关联规则挖掘研究》文中进行了进一步梳理数据挖掘研究如何从大量的数据中智能地自动地抽取出有价值的知识和信息,是当前人工智能研究中非常活跃的研究领域。关联规则(Association Rules)挖掘是数据挖掘领域重要的研究分支。概念格与粗糙集都是有效的数据分析方法。粗糙集理论利用等价关系对数据表进行分类,能有效地处理模糊性和不确定性问题的数学工具,为数据挖掘提供了新的思路和基础。而概念格是基于数据表,结合序理论,尤其是完备格理论,进行概念分层讨论。它们之间的关系引起了许多研究者的关注。文章首先介绍了经典的关联规则挖掘算法,分析了需要进一步深入研究的问题:挖掘过程中需要重复多次扫描数据库;挖掘过程中产生大量候选项集;产生的规则数量过多。接着主要以上面叁个问题为突破口分别讨论了运用粗糙集、改进的概念格模型进行关联规则的提取,最后对二者的关系作进一步的探讨,并提出了粗糙概念格结构。主要内容及创新工作具体如下:1.Apriori算法优化:改进算法,缩小所需扫描的事务项集大小,并提出了一种简单的数据结构一树型结构来存储事务项集数据,使得算法在数据集量巨大时,性能得到有效提高。2.结合粗糙集理论,推导出“多属性不可分辨类”的性质。然后根据这个性质,提出了一种新的关联规则挖掘算法,该算法仅需扫描一次数据库,改善了现有的挖掘算法由于多次扫描数据库而导致时间效率低下问题。同时针对产生的规则数量过多问题,提出了基于规则约束和加权支持度的双变量约束关联规则挖掘,只对与约束条件有关的项目进行处理。3.研究了基于剪枝概念格的关联规则挖掘求解和表示。提出顺序剪枝和同步剪枝概念格的构造方法。实验表明基于剪枝概念格挖掘关联规则,减少了关联规则的挖掘空间,提高了关联规则挖掘的效率。4.对概念格与粗糙集之间的关系作进一步的探讨,并且证实粗糙集的一些概念包括等价类,上、下近似等都可以通过概念格来表示。提出了粗糙概念格RCL,采用粗糙集上、下近似集,描述概念格中内涵所拥有的外延,这种概念格结构体现了对象与特征间的确定与不确定两种关系。

李闯[2]2008年在《快速分类关联规则挖掘算法研究》文中提出随着现代数据库技术的不断发展及其广泛应用,数据库中的数据量和复杂程度急剧增加,急需一种技术描述和发现这些日益重要的数据所包含的信息,以及它们之间的关系。数据挖掘正是这种用来从数据中抽取未知的、潜在有用的模式和关系的方法,以被广泛地运用于商务管理、生产控制、市场分析、工程设计和科学探索等。规则是数据库中模式之间的关系的一种描述,它是数据挖掘中的一个重要领域。一般情况下,规则分为两种,即事务数据库中为解决市场篮子问题的关联规则,以及关系数据库中用来预测的分类规则。本文主要关注的是用关联规则方法挖掘分类规则,即分类关联规则。关系数据库的数据密度通常大于事务数据库,用关联规则方法在关系数据库中挖掘分类关联规则,将会遇到很多困难,比如冗于规则过多。鉴于此,本文提出了一个最优分类关联规则算法——OCARA。该算法使用最优关联规则挖掘算法挖掘分类规则,并对最优规则集排序,从而获得一个分类精度较高的分类器。将OCARA与传统分类算法C4.5和一般分类关联规则算法CBA、RMR在8个UCI数据集上进行实验比较,结果显示,OCARA具有更好性能。证明OCARA是一个有效的分类关联规则挖掘算法。另外,在不完整的关系数据库中,维度较高时,将显着增加挖掘分类关联规则集的规模和挖掘规则所用的时间。本文提出了基于粗糙集理论的快速ORD关联规则挖掘算法,该算法首先采用基于粗糙集理论的属性约简算法进行属性约简,然后采用高效的冗余项集和冗余规则修剪算法——ORD算法获取规则,实验表明该算法具有良好的性能。

王天志[3]2005年在《基于粗糙集理论的关联知识发现》文中研究指明粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。它与其他处理不确定性问题理论的最显着的区别是它无需提供问题所需处理的数据以外的任何先验信息。粗糙集理论认为知识就是人类和其他物种所固有的分类能力,粗糙集的一大优势就是其极强的分类能力[史忠植,2002]。传统的关联规则挖掘算法没有对数据集进行属性的约简,这将导致挖掘出的关联规则可能存在大量的冗余,不利于决策者的结果分析和决策。而且传统关联规则挖掘算法仅适用于布尔型(定性)的关联规则的挖掘,不能直接进行定量的规则挖掘。 有鉴于粗糙集的这些优势,粗糙集理论便被运用于关联规则的挖掘中。将粗糙集理论运用于关联规则的挖掘大致经历以下过程:预处理——将连续属性离散化,处理矛盾信息等,属性约简——包括两个过程,属性集的约简和属性值的约简,规则提取——关联挖掘。 论文主要工作: (1)对知识表达理论应用于粗糙集理论进行了研究,引用了知识量、平均知识量、熵和联合熵等概念,并将联合熵,即条件属性集和决策属性集的联合表达的平均知识量,应用于粗糙集的连续属性离散和属性约简中,作为处理的判别标准; (2)对连续属性离散化的一种方法“增类减类算法”进行了改进,提出了连续属性联合熵离散化算法。增类减类算法经历了两个过程:先将每个属性分为两类,此时判断新的属性集的支持度——是否满足与原属性集的支持度相等的条件,若相等,停止增类过程;若不等,则继续对下一个属性进行增类过程,直到满足条件。然后进行减类过程,依次对每个属性的分类数减少一个,判断新的支持度是否满足同样的条件,若满足则继续对下一个属性进行减类,若不满足,则停止减类过程,该属性的分类数即为此次减类前的分类数。而连续属性联合熵离散化算法根据支持度和属性离散的性质,只进行了一个减类过程,以初始时等价类作为初始分类,然后对各个属性按分级聚类法减少一个该属性等价数的分类,看是否满足条件属性对决策属性的联合熵相等的条件,若满足则对下一个属性进行同样的减类处理,直到支持度下降为止。 (3)为求属性集的等价类引入了等价类的二进制表示,属性集的等价类可以通过各个属性等价类的二进制表示的与运算来求解,通过属性及属性集的二进制表示还可以求解关联规则的支持度、兴趣度和准确度。在规则的发现中结合了支持度、兴趣度和准确度作为关联规则过滤的阈值。 (4)给出了决策属性等价类算法来求解决策表的属性等价类;给出了二进制支持度算法来为求解关联规则的支持度,而兴趣度和准确度都可以通过支持度来计算;为求解有效关联规则给出了有效关联规则算法。

荀娇[4]2013年在《基于粗糙集的关联规则挖掘算法研究》文中进行了进一步梳理随着信息时代的飞速发展,数据库技术的广泛应用,数据会不可避免地出现“膨胀”。人们渴望从这些“膨胀”的数据中挖掘出它们之间的联系,从而获取有用的知识。这是一项非常艰巨的任务。关联规则挖掘应运而生,其目标正是找出数据之间的关系,并形成规则。Apriori算法是关联规则挖掘领域最为经典的算法,但是该算法存在着很多不足。虽然有很多对其改进的相关算法,但是这些改进算法中,有些仍旧会产生候选项集,而有些只能适用于中小规模的数据集。近年来,数据“膨胀”更为严重,人们更是无从下手。现有的关联规则挖掘技术难以有效地从海量数据中挖掘出全部有用信息,粗糙集理论应运而生,并逐渐地向关联规则挖掘领域迈进,主要体现在叁个方面:一是在数据预处理阶段,它可以对决策表中的不完整数据进行填充、离散化等等;二是在数据集约简阶段,粗糙集理论可以通过属性约简算法对初始项集进行约简;叁是在规则生成阶段,可以利用粗糙集理论中的属性值约简算法来实现。这叁个方面充分显示出Rough集理论在关联规则挖掘领域的重要性。将Rough集理论应用于关联规则挖掘领域,一方面解决了从海量数据中挖掘有用信息这一关键问题,另一方面促进了数据挖掘领域的发展,加快了粗糙集理论的发展步伐。鉴于这些优势,本文从理论、算法、实验、模型、实例5个方面将关联规则挖掘提高到了一个新的层次,更加肯定了粗糙集理论的优势。本文重点做了以下具体工作:1、深入地研究了关联规则及关联规则挖掘等相关理论知识,重点探讨了Apriori算法的优点、存在的问题及下一步的改进方向。2、在总结和分析Apriori算法的性能和特点的基础上,针对Apriori算法及其相关改进算法存在的不足,本文引入一种新的数据结构对Apriori算法进行了改进。通过该数据结构,直接生成频繁项集,大大提高了海量数据中挖掘项集的效率。整个过程只需扫描一次数据库,不会产生候选项集。并通过实验对比了新算法与Apriori算法在时间上的运行效率,切实证明了新算法的可行性、高效性。3、在掌握好关联规则挖掘与粗糙集之间的联系的基础之上,深入研究了粗糙集理论的基本知识:知识与知识库、决策表信息系统、知识的绝对约简与相对约简、知识的依赖性表示等等;总结并分析出叁种不同属性约简算法的核心思想及其它们之间的异同,并围绕其中的一种算法进行了研究,即通过赋予属性重要度新的定义对属性约简算法进行了优化;并将其应用在关联规则挖掘实例中,经验证,新算法产生了良好的效果。4、构建了一种模型,并将粗糙集理论及其以上两个改进内容加入到了该模型中。

贾桂霞[5]2006年在《数据挖掘中关联规则及应用的研究》文中进行了进一步梳理本文主要研究关联规则挖掘理论及其算法模型在粗糙集知识表中的应用。首先,在文中系统介绍了数据挖掘的定义、方法、发展方向,针对其中的关联规则挖掘,讨论了各类关联规则算法。由于关联规则挖掘方法会产生大量规则,为了挖掘出用户感兴趣的规则,本文提出一种利润约束的关联规则挖掘算法。此外,借鉴关联规则算法模型的思想,提出一种获取缺省规则的新方法MDRBapriori,从决策表中提取具有一定支持度和可信度阈值的不确定规则。在本文中,主要做了以下工作: (1)给出了关联规则的定义,说明了挖掘关联规则的意义,研究了关联规则挖掘的步骤,并且探讨了关联规则挖掘存在的问题及发展方向。 (2)针对关联规则算法存在的一些问题,详细分析了目前提出的有关关联规则兴趣度的各种主观和客观评价方法。本文引入企业关注的领域知识——利润,提出基于利润约束的关联规则挖掘方法,以增强规则的有趣性,提高规则挖掘的针对性。 挖掘出的关联规则,加上利润度量,就可以分析出哪些商品的搭配可以获得最大的利益。一般的关联规则只是单纯的项目与项目之间的一种关系,典型的就是买A的同时会买B的可能性的一种趋势分析。而我们加入量化参数利润分析关联规则,拓宽了关联规则的表达能力,让决策者对于关联规则的意义有更进一步的认识,并从中找出能使销售利润最大化的最佳商品促销方案。 在关联规则算法的“支持度——置信度”框架中,是从“大处”着眼,关注的是出现频数较高的项目集,要挖掘符合用户预期的利润要求的模式,不得不从“小处”着眼,这是因为存在着“20%的业务带来80%的利润”这样的领域知识。本文利用相对支持度的概念来挖掘稀有数据,再进一步结合利润量参数作为约束条件,这样就可以求出零售事务数据库中所有满足用户利润要求的关联规则,不论其支持度的高低,都可以运用本文的算法挖掘出来。 (3)简要介绍了粗糙集的基本概念以及一般的属性约简方法,着重分析了Mollestad和Skowron提出的缺省规则的发现算法——投影算法的算法框架及性能。 (4)针对投影算法的一些不足,扩展了缺省规则的定义,提出一种获取缺省规则的新算法——MDRBapriori算法。本文通过对投影算法和关联规则算法模型的详细分析,发现它们求解问题的实质是相同的,因而具有一种方法被另一种方法替代的可能性。因此,基于Apriori算法提出缺省规则挖掘的新算法MDRBapriori算法,它是独立于粗糙集方法但可以获取大致相同的规则的一种方

吴陈, 李丹丹[6]2016年在《基于粗糙集的关联规则挖掘方法的研究与应用》文中研究指明基于粗糙集理论知识,对关联规则挖掘算法作出一定的改进。该算法的主要思想是把集合的近似质量作为迭代准则,初始约简集是所有的条件属性集合,在保证近似质量不变的前提下通过逐步缩减的方式来求取约简集,保证了所求的约简不会减弱对问题的分类决策能力。约简后得到新的决策表,在此基础上应用基于贪心思想的Apriori算法挖掘关联规则。算法的主要优势是在不影响对问题分类决策能力的前提下,以较小的属性和候选项集数目以及有限的扫描次数生成决策规则。通过应用实例和实验分析验证了算法的有效性。

康大伟[7]2007年在《基于GIS和空间数据挖掘的事故分析系统的研究与开发》文中指出GIS数据库中含有丰富的数据和信息,其中隐含着许多有价值的知识,而目前的GIS系统主要局限于现实数据的录入、查询、统计等功能,无法有效地挖掘数据中存在的关系和规则。数据挖掘技术能够对GIS数据进行有效的分析,发现其中隐含的知识。因而从GIS的空间数据库中进行空间数据挖掘,已经成为数据挖掘领域中一个重要的研究方向。本文首先介绍了交通事故研究现状和现有的交通事故研究方法,通过对空间数据挖掘和GIS技术的产生背景、应用特点进行介绍和分析,指出了采用空间数据挖掘和GIS技术解决目前交通事故分析中存在的问题的优势和可行性;然后详细地描述了数据预处理的方法:通过对事故数据的空间数据概化、数据归约化,将事故记录对应的谓词转化为整型数值,提高了算法的挖掘效率;通过粗糙集对不完备事故数据进行补齐,避免因为事故数据的不完备性影响事故挖掘的准确性。随后,本文将多层次空间关联规则挖掘算法应用于事故数据挖掘中,该算法不仅解决了传统算法对事故数据挖掘的局限性,而且提高了基于空间数据挖掘和GIS技术的事故分析系统的性能;此外,根据空间数据挖掘和GIS技术的特点,提出了一个基于GIS的空间数据挖掘叁层体系结构,该叁层体系结构展现了对事故数据提取、预处理、挖掘的整个过程,把空间数据挖掘应用于GIS上必将进一步拓展GIS应用领域的广度和深度。本文最后介绍了使用ArcGIS Engine和C#.NET开发交通事故分析系统的方法,给出了系统主要功能的类的实现,并实现了一个示例系统。通过对某市交警总队已有的交通事故数据进行分析,证明了该示例系统能够对数据库中杂乱的事故数据进行挖掘并将有意义的规则知识呈现给用户。综上所述,本文的主要创新处在于将空间数据挖掘和GIS技术相结合应用于交通事故分析中,解决了交通事故中相关规则挖掘的问题,并通过ArcGIS Engine和C#.NET实现了一个示例系统。事实表明,基于空间数据挖掘和GIS技术的交通事故分析系统能够有效的对事故数据进行管理和分析,为城市的交通安全和规划建设提供有效的决策。

张锋[8]2007年在《web日志挖掘系统模型研究与设计》文中指出随着Internet的迅速发展,人们面对太多的信息无法选择和消化,淹没在繁杂的信息中,这种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,用户不知道如何更有效地发现自己所需的信息资源,即信息迷失。当前我们主要采用搜索引擎来检索Web上的信息,但是大多数搜索引擎缺少主动性,没有考虑用户的兴趣偏好和用户的不同,无法有效地解决信息过载和信息迷失的问题。直接或间接解决这个问题的途径之一就是将数据挖掘技术应用于Web服务器日志的挖掘。而Web日志数据通常是大量的、冗余的,日志中的页面之间的关系也是模糊的、不确定的。粗糙集理论是有效处理不精确和含糊信息的软计算工具,而模糊逻辑可以依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似矩阵对客观事务进行聚类。关联规则挖掘是发现大量数据中项集之间有趣的关联或相关联系。它是数据挖掘中是一个重要的技术,最近几年已被业界所广泛研究。Web日志挖掘可以从网站的日志数据中获取用户的浏览模式,根据用户的行为模式,改进站点的设计和结构,为用户提供个性化服务。所以本文研究的Web日志挖掘系统模型是具有一定的理论意义和现实价值。本论文首先系统地阐述了从数据挖掘、Web挖掘到Web日志挖掘的整个过程;其次介绍了粗糙集(Rough Sets)和模糊逻辑(Fuzzy Logic)理论,以及基于粗糙集的属性约简算法和模糊聚类算法;然后提出了一种关联规则挖掘的改进算法—基于邻接表索引的Apriori算法,并设计和实现了一个Web日志挖掘系统模型。而且已经使用校园网服务器中一个月的日志记录对此模型进行了测试,并达到了较满意效果。最后,对模型的优势及不足进行了总结,并提出了进一步研究的目标。

魏娟[9]2006年在《基于粗糙集的知识发现及在CRM中的应用研究》文中研究说明随着信息技术的发展和市场竞争的加剧,产生了客户关系管理的概念,它的核心思想是改善企业与客户之间的关系,通过管理客户信息资源,及时的对每一个需求做出反应,在恰当的时间通过恰当的渠道满足特定客户的特定需求。因此,企业必须收集大量数据,利用各种分析方法,挖掘隐含在这些数据中的有用信息。知识发现技术能够帮助企业很好地解决这个问题,它按照企业既定的目标,从客户数据库或数据仓库中提取出隐含的、未知的、有价值的信息和知识,将海量、无序的数据转化为描述客户特征的模式,可以全面了解客户行为,可以说,CRM的成功在于有效的客户知识挖掘。 知识发现具有分类、聚类、关联分析等功能,迎合了企业多种客户知识挖掘的需求,包括:客户群分类、客户盈利能力、客户满意度、客户忠诚度、客户购买相关性等方面的分析。但是,有的知识发现技术建立的模型要么比较复杂,要么需要一定的先验知识、具有主观性。粗糙集作为一种新型的数学工具,与其它知识挖掘技术相比具有独特的优势,它不需要预先给定某些特征或属性的数量描述,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定给定问题的近似域,从而找出该问题的内在规律,该方法简单、易于操作。近些年,学术界掀起了对粗糙集的研究热潮,研究成果也较多,但主要是基于粗糙集的分类模式挖掘,用于聚类、关联规则挖掘的研究成果很少,因此,本文的研究具有重要的理论意义和实用价值。 本文在总结和借鉴前人经验的基础上,按照企业客户知识挖掘的需求,对粗糙集进行了系统的研究,挖掘客户数据资源中隐含的聚类、分类和关联知识,从而为企业决策提供有力的依据。 首先对基于粗糙集的知识挖掘模式进行研究。在数据预处理方面,对遗漏数据的补齐和数据的离散化两个预处理过程进行了研究,数据的质量严重影响着知识发现算法的运行效率和应用效果。分析了ROUSTIDA算法的不足,提出采用基于一致度的相似关系进行遗漏值补齐,对ROUSTIDA算法进行改进;将蚁群优化方法应用到数据离散化中,提出了离散化的思路。在聚类知识挖掘方面,利用不可区分度修改初始等价关系,形成数据集的聚类。

郑晓峰, 王曙[10]2014年在《基于粗糙集与关联规则的道路运输管理信息数据挖掘方法》文中研究表明针对道路运输管理信息数据大多不一致、不精确和不完整的特点,基于粗糙集理论中的系统归纳思想和属性约简方法,提出了粗糙集分析与经典关联规则相结合的数据挖掘方法,并利用粗糙集方法分析了规则条数与支持度、置信度之间的关系;最后通过道路运输管理的实际案例对该方法的科学性、有效性进行了验证.结果表明,该方法对于解决道路运输管理的实际问题切实可行,对于选用的实际案例可实现约简33.3%条件属性的优化效果.

参考文献:

[1]. 基于粗糙集和概念格的关联规则挖掘研究[D]. 何田. 华中师范大学. 2008

[2]. 快速分类关联规则挖掘算法研究[D]. 李闯. 湖南大学. 2008

[3]. 基于粗糙集理论的关联知识发现[D]. 王天志. 云南师范大学. 2005

[4]. 基于粗糙集的关联规则挖掘算法研究[D]. 荀娇. 山东师范大学. 2013

[5]. 数据挖掘中关联规则及应用的研究[D]. 贾桂霞. 兰州理工大学. 2006

[6]. 基于粗糙集的关联规则挖掘方法的研究与应用[J]. 吴陈, 李丹丹. 电子测量技术. 2016

[7]. 基于GIS和空间数据挖掘的事故分析系统的研究与开发[D]. 康大伟. 江苏大学. 2007

[8]. web日志挖掘系统模型研究与设计[D]. 张锋. 南昌大学. 2007

[9]. 基于粗糙集的知识发现及在CRM中的应用研究[D]. 魏娟. 哈尔滨工程大学. 2006

[10]. 基于粗糙集与关联规则的道路运输管理信息数据挖掘方法[J]. 郑晓峰, 王曙. 华南理工大学学报(自然科学版). 2014

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于粗糙集理论的关联规则挖掘方法研究
下载Doc文档

猜你喜欢