基于数据仓库的关联规则挖掘算法研究

基于数据仓库的关联规则挖掘算法研究

邢国麟[1]2007年在《轧机电气设备故障诊断中数据挖掘技术的研究》文中认为随着现代科学技术的迅猛发展,钢铁加工业生产系统正朝着大型化、复杂化、系统化和自动化的方向加速发展。这些发展都对承担着繁重生产任务的轧机电气设备的安全可靠性提出了更高、更严格的要求。由于长时间不间断运行,轧机电气设备存在着很大的故障隐患,由此而导致停产,损失往往是巨大的。所以近年来,轧机电气设备的故障诊断逐渐受到人们的重视。首先,在深入学习轧机电气设备故障诊断理论的基础上,以带动轧机运转的主要电气设备——主电机为故障诊断对象,对其结构、故障类型和常用的检测技术进行了研究。分析了现有棒材生产线在线检测控制系统存在的问题,创新性地提出将基于关联规则的OLAM挖掘技术引入轧机电气设备故障诊断领域,以期望发现大量监测数据背后所隐藏的对故障诊断有积极指导意义的信息,从而提高设备安全性和经济效益。其次,研究了数据仓库技术、联机分析处理技术、数据挖掘技术和联机分析挖掘理论,并对数据挖掘中关联规则挖掘的理论和算法进行了深入的学习,选取了适宜的关联规则挖掘算法,使其与数据立方体相结合,构建了基于关联规则的OLAM挖掘模型,并结合轧机主要电气设备——电机的故障诊断对模型组成进行了研究。最后,以钢铁公司为例,鉴于监测系统中存储了大量的电机测量数据,应用基于关联规则的故障诊断方法,在Windows XP操作平台下,使用Microsoft SQL Server 2005,建立了OLAM挖掘模型。利用选取的电机数据集对提出的模型进行了训练和考核。结果表明,基于关联规则的OLAM挖掘模型产生的规则,能够为故障诊断提供辅助决策。

杨真[2]2008年在《数据挖掘技术在商品管理中的应用研究》文中进行了进一步梳理随着信息技术的飞速发展,很多商业企业逐步由传统的商业模式转向了新型电子商务模式,借助于多种电子通讯方式实现了经营、管理的信息化和电子商务化。因此,一个良好的基于Web的信息平台的作用是非常突出的。与此同时,在电子商务化的过程中企业积累了大量的历史数据,但由于缺乏有力的分析工具,这些数据没有得到有效利用,企业决策的制定往往只凭决策者的直觉。因此,为企业建立一个决策分析系统,为决策者制定商业决策提供依据,是十分必要,也是十分重要的。数据挖掘技术正是一种数据组织和分析的技术,它可以从海量数据中提取和发现知识,如何将数据挖掘技术应用于企业的商品管理正是本课题的研究重点。本文在学习商业企业经营管理模式的基础上,构建了某商品邮购公司的电子商务系统,并对数据仓库技术,数据挖掘技术进行了深入研究,详细阐述了关联规则挖掘算法在该公司的商品销售分析中的应用。主要内容如下:首先,作为本文研究的理论基础,介绍了数据仓库的概念,特征,数据组织方式;数据挖掘技术的概念,特点,分类,常用方法和实际应用等,并对其在商品销售分析方面的应用进行了概述。其次,结合数据挖掘理论,对关联规则挖掘算法中的Apriori算法和FP-tree算法进行了简要介绍,举例说明了算法的实现过程,最后对两种算法进行了比较。再次,研究并应用J2EE轻量级框架技术,根据公司的业务和管理需求,构建了该公司的电子商务系统,实现了其中的销售管理,商品管理,库存管理和供应商管理等模块的功能。最后,应用经典Apriori算法和分段优化的FP-tree算法,实现一个商品销售分析系统,完成了对已销售商品的关联规则挖掘,并对挖掘实验结果进行了分析,得出结论。

廖海波[3]2008年在《关联规则挖掘在病案数据分析中的应用研究》文中研究表明随着数据库技术的迅速发展和医院信息系统在各大中型医院的不断普及,如何对医院信息系统积累的越来越多的医疗数据进行分析挖掘,将隐藏在临床医疗数据之中的大量有用知识提取出来,成为人们所关注的焦点。本文以对医院的实际病案数据如何进行分析挖掘为主线,围绕数据仓库、OLAP和数据挖掘叁个用于病案数据分析的核心组件进行应用研究。在全面阐述病案数据分析相关理论基础后,针对医院病案信息的具体情况,设计并实现了以病人为主题域的病案数据仓库的概念、逻辑和物理模型,并在病案数据仓库的基础之上创建了病案多维数据立方体,利用数据透视表和MDX方式完成了对OLAP的操作和数据展现,接着本文对关联规则挖掘理论进行了详细的阐述,并根据病案数据多维多层次的特点,构建并实现了基于病案数据多维立方体的关联规则挖掘结构,并对病案数据多维立方体进行了关联规则挖掘实验,通过对挖掘得到的关联规则的归纳和分析,找出了隐藏在病案数据之中的各个疾病之间的相互联系,以及病人的职业、性别、年龄等特征对病人疾病的影响,为医生对疾病的诊断治疗提供帮助。

戴新喜[4]2007年在《基于模式矩阵的关联规则挖掘算法的研究与应用》文中研究指明由于计算机应用的飞速发展,数据挖掘技术成为数据库和人工智能领域最前沿、最活跃的研究方向之一,关联规则是数据挖掘领域中的一个非常重要的研究课题,广泛应用于各个领域,既可以检验行业内长期形成的知识模式,也能够发现隐藏的新规律,有效地发现、理解、运用关联规则是完成数据挖掘任务的重要手段。随着市场不断提出新需求,关联规则挖掘技术急需高性能的、可靠的数据挖掘方案,以对各数据库中数据进行有效的挖掘,提高数据挖掘应用于数据分析和决策支持的正确性和有效性。Apriori算法是关联规则挖掘中最经典的算法,但它存在两大致命缺陷:需多次扫描数据库和产生海量的候选项目集。针对这两大缺陷,本文提出了一种基于模式矩阵的关联规则挖掘算法(简称P_Matrix算法),使扫描数据库的次数减少为一次,同时不产生候选项目集而直接产生频繁项目集,从而使算法的时间复杂度和空间复杂度大大减少,有效地提高了关联规则算法的效率。同时,将基于模式矩阵的P_Matrix算法运用到“江西省基于数据仓库的宏观经济智能决策支持系统”项目中,取得了较好的效果。

刘芳[5]2008年在《基于数据挖掘的电网数据智能分析的研究与实现》文中研究指明数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,是从大量的含有噪声的数据中挖掘出隐含其中的知识和信息,是当前数据分析的先进手段之一。数据挖掘的模式主要包括分类模式、聚类模式、时间序列模式、关联模式、序列模式等。电网数据智能分析系统借助数据挖掘领域中的各种算法模型对电网的电力设备故障、日报数据、运行数据进行智能分析,通过对大量初始记录数据的清理,根据电网安全运行特点提炼出与分析因素有联系的记录数据,装载到数据仓库,然后对其进行相应挖掘算法的处理,得到需要的知识,为保障电网的安全运行提供理论支持。电网数据智能分析系统主要包括数据ETL、知识挖掘、数据动态更新和可视化显示四个子系统。数据ETL实现数据的清洗、整理和装载,在保证不减少数据所包含信息的前提下改善数据质量,提高数据挖掘算法的性能;知识挖掘部分是系统的核心,运用合适的挖掘算法模型对数据仓库中的数据进行挖掘,得到需要的知识;数据动态更新指随电网数据的变化实现动态知识挖掘;可视化显示实现挖掘结果的图形显示。本文首先概述数据挖掘的基本概念和数据挖掘模型,阐明了电网数据智能分析系统的设计思想和体系结构,其次详细论述系统中采用的数据ETL、数据挖掘的关联规则算法、时序预测算法、数据的动态更新等关键技术及其软件实现,然后分析了系统测试结果,最后给出结论和展望。本项目课题已通过西北电网公司的验收,并在西北电网智能数据分析中得以使用,取得良好的效果。

王婷婷[6]2007年在《数据仓库和数据挖掘在学生成绩分析中的应用研究》文中提出数据仓库和数据挖掘是数据库研究、开发和应用最活跃的分支之一,也是决策支持系统的关键因素,数据仓库是一个支持管理决策过程的、面向主题的、随时间而变的数据集合,它是集成的,也是稳定的。数据挖掘是采用人工智能的方法对数据库或数据仓库中的数据进行分析、获取知识的过程。它们的结合能更好地为企业或有关部门不同范围的决策分析提供有力的依据。而目前,作为计算机和网络应用于较为普遍的高校,都在加快数字化校园建设步伐,校内不同部门都在日益完善自己的管理信息系统,这样,大量完整的数据日月积累起来,已形成非常宝贵的信息资源。但目前,这些数据主要的用途仍是提供简单的查询和统计报表,对这些数据所隐藏的深层次的信息没有充分地利用,如何利用数据仓库和数据挖掘技术发掘隐藏在高校各类数据中的重要信息,为高校管理部门决策提供重要依据,是摆在高校面前的一项重要的任务,深入开展数据仓库和数据挖掘技术的研究,对进一步提高办学水平和效益具有重要的社会意义。本文通过对数据仓库理论和数据挖掘技术的研究,结合贵州大学综合教务管理系统的成绩管理模块的特点,提出将数据仓库和数据挖掘技术运用到学生成绩分析中。首先本文介绍数据仓库和数据挖掘的新技术以及目前教务管理系统的现状;然后研究了数据仓库和数据挖掘技术在教学管理方面的应用;设计和构建数据仓库原型,介绍了利用Microsoft Analysis Service进行多维数据的建模过程。利用贵州大学教学管理信息系统,抽取了贵州大学工学部各学院学生成绩信息数据,使用SQL Sever 2000 Analysis Service设计并建立了贵州大学学生成绩数据仓库并在多维数据立方体上完成OLAP的操作与数据展现,利用Microsoft Analysis Service和数据透视表完成分析数据的再现;最后对数据挖掘关联规则挖掘算法进行了研究,引用了一种在Apriori算法基础上的改进算法,该改进算法利用新的产生候选集的方法,提高了关联规则挖掘的效率。以Visual c#开发工具,将数据挖掘中的改进算法应用于学生成绩数据仓库中,对学生成绩数据进行深入分析,以期得出相关趋势,并结合数据挖掘结果,对成绩进行分析和预测,为今后的教学管理和学生管理工作中提供相应的决策依据。

王永生[7]2006年在《基于数据挖掘的关联规则算法》文中指出在过去的数十年中,我们产生和收集数据的能力已经迅速提高。起作用的因素包括条码在大部分商业产品中的广泛使用,许多商务、科学和行政事务的计算机化,以及由文本和图像扫描平台到卫星遥感系统的数据收集工具的进步。此外,作为全球信息系统的万维网的流行,已经将我们淹没在数据和信息的汪洋大海中。存储数据的爆炸性增长业已激起对新技术和自动工具的需求,以便帮助我们将海量数据转换成信息和知识。数据挖掘是数据库系统和新的数据库应用的一个有希望的、欣欣向荣的学科前沿。数据挖掘(Data Mining),通常又称数据库中的知识发现(Knowledge Discover in Database),是自动的或方便的模式提取,这些模式代表隐藏在大型数据库、数据仓库或其他大量信息存储中的知识。数据挖掘是目前国际上数据库和信息决策领域的最前沿研究方向之一,其中关联规则(Association Rules)的挖掘是它的重要问题之一。关联规则挖掘是发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事物记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。本文重点研究了关联规则的挖掘算法,并进行了以下几方面的工作:1.介绍了数据挖掘的研究情况。2.对关联规则算法(特别是Apriori算法)进行深入研究,对Apriori算法存在的问题进行改进,提出一种高效的关联规则算法。在数据挖掘的研究领域,Apriori算法是其中比较有代表性的一个算法。关联规则的数据挖掘主要挑战性在于数据量巨大,因此算法的效率是关键。3.完成大钢集团销售系统的设计与开发,包括初步设计、详细设计以及软件开发。大连钢铁集团CIMS工程销售系统主要包括订货子系统、发货子系统、价格子系统和资金子系统。本文的关联规则挖掘主要以大连钢铁集团CIMS工程销售系统的订货子系统为背景。所开发的系统现已正常运行。4.构建了由销售系统订货子系统为背景的数据仓库初型。5.新算法并在大钢销售系统中进行应用。在关联规则理论与研究的基础上,将改进后的算法应用于大钢销售系统。

马安胜[8]2007年在《多维数据关联规则挖掘研究及系统实现》文中研究表明为了实现联机分析处理和数据挖掘的紧密结合,我们提出在多维数据模式的基础上同时支持OLAP应用和数据挖掘应用的思路。论文分析研究了多维数据立方的特征及关联规则挖掘Apriori算法,综合了数据仓库技术、联机分析处理技术和关联规则挖掘算法,给出了基于多维数据的关联规则挖掘方法,其中包括维内关联规则挖掘、维间关联关联规则挖掘和混合维关联规则挖掘。这种多维数据关联规则挖掘方法改变了传统关联规则挖掘过程中通过扫描事务数据库计算支持数的方法,而采用了扫描数据立方体来统计频繁项目集的支持数。另外针对数据立方结构以及OLAP操作,算法融入了层次的概念,给出了可选概念层次的多维数据关联规则挖掘算法,通过上钻、下钻选出的更合理的概念层次,从而在选取的概念层次上进行关联规则挖掘。算法中产生关联规则时,又结合了兴趣度、约束的概念,最终挖掘出用户感兴趣的、指定约束的、概念层次合理的、多维的关联规则。研究显示这种基于OLAP的多维关联规则挖掘算法可以准确地确定要调整的维,在挖掘过程中对维层次的高低进行判断,并利用数据立方体的上钻和下钻操作对维层次进行调整,具有较高灵活性及效率。

武玉杰[9]2011年在《基于商空间粒度计算的点击流数据仓库的构建及挖掘算法研究》文中研究说明随着电子商务的迅猛发展,点击流数据仓库的研究越来越引起重视。点击流数据包含许多对企业非常有用的信息,包括客户的来源、消费行为、访问兴趣、访问意图等。通过研究这些信息,能够对电子网站的建设起指导作用,同时也可以了解客户的购买行为,进而优化网站拓扑结构,提高点击流数据仓库的性能,预测产品销售,提升服务质量。本文构建点击流数据仓库的数据源来自某购物网站。从数据仓库的整体框架、设计模型、ETL构建等方面对购物网站中点击流数据仓库的构建过程进行了整体概述,通过实验验证整个构建过程,最后得到一个可用的点击流数据仓库的解决方案。点击流数据仓库的处理问题更多是数据源的问题,针对点击流数据源的多样性,采用基于时间特征的数据抽取策略进行数据预处理;针对点击流数据源的复杂性,采用基于商空间粒度计算的数据挖掘算法。处理过程中重点关注用户在网站上停留时间较长的站点,关注用户频繁访问的站点。通过基于商空间粒度计算的关联规则挖掘技术发现购物网站中不同站点之间的关联程度,多层次、多角度分析挖掘数据源,简化了数据收集的流程,然后结合Web关联规则的数据挖掘技术,改进了的用户频繁偏爱路径挖掘算法。利用寻找到的用户兴趣度,有目的的优化购物网站的网络拓扑结构,改进服务质量,进而增加网站产品销售量。该点击流数据仓库构建方案不仅支持点击流网站信息的日常数据分析,同时支持数据仓库Web日志基础上的用户使用模式的深层次挖掘,进一步分析销售情况。

吴少莹[10]2008年在《多维关联规则挖掘算法研究》文中认为随着数据库技术的迅速发展及其广泛应用,在数据库中积累的数据量越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够在已有的大量数据的基础上进行科学研究、商业决策或企业管理等更高层次的分析,从中提取有价值的信息,从而为管理和决策提供依据。数据挖掘就是从大量的、不完全的、有噪声的、模糊的数据中,提取隐含的、人们事先不知道的、但又是潜在有用的信息和知识的过程。本毕业设计的主要目标是研究发现多维数据间的关联性的有效方法。基于数据仓库和OLAP的多维数据分析法是以统计分析的方法对多维数据进行分析,而多维关联挖掘算法是用知识发现的方法分析多维数据之间的关联性。本论文从这两方面进行了研究。本文首先对基于数据仓库和OLAP的多维数据分析法进行了研究,主要有数据仓库的建模方法,利用OLAP对数据仓库中的多维数据进行分析的方法。并在此研究的基础上进行了高校毕业生就业状况分析数据仓库模型的设计,并利用OLAP提供的切片、切块、上卷和下钻等方法对高校毕业生就业状况进行了分析。其次,本文在对关联挖掘方法及其发展状况进行了研究的基础上,提出了一个基于SQL查询的多维关联规则挖掘算法,该算法利用SQL新标准中的CUBE运算符,并结合了SQL强大的查询功能,能够对一定数据量的多维数据集进行高效的多维关联挖掘。为实现对更大数据集的有效挖掘,采取分块挖掘的方式对算法进行了改进,本文对算法及其设计思想进行了详细的论述,并给出了对算法的一些测试结果。分析和实验表明,算法简单,易于实现,无需多遍扫描挖掘数据集,挖掘效率高。最后,为便于用户利用本算法进行多维关联挖掘,还将SQL Server数据库的强大数据处理功能和C#的面向对象的功能相结合,设计开发了可视化多维关联挖掘工具。

参考文献:

[1]. 轧机电气设备故障诊断中数据挖掘技术的研究[D]. 邢国麟. 河北工业大学. 2007

[2]. 数据挖掘技术在商品管理中的应用研究[D]. 杨真. 北方工业大学. 2008

[3]. 关联规则挖掘在病案数据分析中的应用研究[D]. 廖海波. 合肥工业大学. 2008

[4]. 基于模式矩阵的关联规则挖掘算法的研究与应用[D]. 戴新喜. 南昌大学. 2007

[5]. 基于数据挖掘的电网数据智能分析的研究与实现[D]. 刘芳. 西北大学. 2008

[6]. 数据仓库和数据挖掘在学生成绩分析中的应用研究[D]. 王婷婷. 武汉科技大学. 2007

[7]. 基于数据挖掘的关联规则算法[D]. 王永生. 大连交通大学. 2006

[8]. 多维数据关联规则挖掘研究及系统实现[D]. 马安胜. 吉林大学. 2007

[9]. 基于商空间粒度计算的点击流数据仓库的构建及挖掘算法研究[D]. 武玉杰. 兰州理工大学. 2011

[10]. 多维关联规则挖掘算法研究[D]. 吴少莹. 天津理工大学. 2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于数据仓库的关联规则挖掘算法研究
下载Doc文档

猜你喜欢