基于粗集理论增量算法的数据挖掘系统

陈洪生^[1]2002年在《基于粗集理论增量算法的数据挖掘系统》文中进行了进一步梳理数据挖掘是数据库系统和新的数据库应用的一个有希望的、欣欣向荣的学科前沿。它是一个多学科领域，从多个学科汲取营养。进行数据挖掘的方法有许多，而粗集方法便是其中的主要方法之一。本文主要研究基于粗集的增量算法的数据挖掘系统。文中在对粗集理论进行研究，并分析和综合基于粗集理论的数据挖掘算法基础上，提出了增量算法，即基于属性约简与值约简的增量更新算法，并讨论了关联规则的增量更新算法。本数据挖掘系统使用增量算法发现关联规则和提取决策规则。由于使用了增量算法，从而提高了挖掘的效率，降低了时间复杂度。通过实验，应用实例表明，文章提供的方法是可行的，具有良好的效果。

崔广才^[2]2004年在《基于粗糙集的数据挖掘方法研究》文中研究说明近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量可供使用的数据，并且迫切需要将这些数据转换成有用的信息和知识。粗糙集理论对于人工智能和认知科学是十分重要的，从它一提出来就受到到模糊数学创始人 Zadeh 的重视和高度评价，并将其列入他新提倡的软计算的基础理论之一。将粗糙集应用于数据挖掘领域，能提高对大型数据库中的不完整数据进行分析和学习的能力，具有广泛的应用前景和实用价值。属性约简是粗糙集理论中的一个重要课题。由于大型数据库中常常包含许多对发现规则来讲是冗余的、不必要的属性，研究人员发现，如果能将冗余属性删除，将会大大提高系统潜在知识的清晰度，降低发现规则的时间复杂性，提高发现效率。对于大型数据库中的海量数据，更需要的是增量地更新数据挖掘结果，而不是从每次更新的数据库重新进行挖掘。这种算法渐增地进<WP=121>行知识更新，修正和加强先前业已发现的知识。增量算法是提高学习效率的一个重要算法之一。在数据挖掘中使用增量算法，不仅复杂度较小，而且可以通过增加实例修正已有的规则集。为解决上述问题，本文研究了一些基于粗糙集和遗传算法的数据挖掘方法，主要工作包括：1．研究了数据挖掘的原理和现状，当前的数据挖掘方法已综合了数据库、人工智能、统计学、模式识别、机器学习、数据分析等众多领域的研究成果。本文从数据挖掘和知识分类的角度出发，探讨了数据挖掘的相关概念、工作步骤和关键技术。数据挖掘（DM）是指从大量的原始数据中发现隐含的、未知的、有用的知识的非平凡过程。简单的说，就是从数据到知识的过程。在数据挖掘系统中数据库被分为两部分，一部分是训练集，一部分是测试集。通过使用训练集，进行一个学习过程且获得相应的知识模式。工作步骤主要包括：数据准备、实际的挖掘、规则表述。在此基础上将数据挖掘和知识发现、在线分析等进行了比较，指出数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。从数据分析的角度来看，OLAP位于较浅的层次，而DM则处于较深的位置。数据挖掘方法主要有：决策树、神经网络、模糊论、遗传算法、贝叶斯网络和粗糙集等方法。通过总结数据挖掘的方法，得出数据挖掘系统的模型。2．深入分析了粗糙集的基本理论、属性约简的基本方法与算法、遗传算法的基本理论。粗糙集理论是一种新的处理模糊和不确定性知识的数学工具。其主要思想就是在保持分类能力不变的前提下，通过知识约简导出问题的决策或分类规则。粗糙集的核心问题是知识的约简和获取，这离不开一系列的算法作支撑，包括求等价关系、求上下近似、判断属性的重要性、求核、属性约简等，其中属性约简是粗糙集用于数据分析的主要手段。约简算法的设计和实现是粗糙集研究的<WP=122>重要内容之一。讨论了知识约简与知识依赖关系，知识表达系统和决策表的关系，探讨和比较了多种属性约简方法的实现原理，给出了各方法的优缺点。求所有约简属性集的问题实质是一个属性组合情况的搜索问题，用一些启发式规则对搜索算法进行引导，将大大降低算法的复杂度。基于属性重要性和频度的启发式约简算法需要计算决策表的核，而当决策表的属性较多时，决策表可能没有核，从而使该算法失去较好的起点。此外由于引入了用户偏好集，使算法执行前可人为指定某些人主观认为比较重要的属性加入约简，使得算法具有较高的准确性和较强的伸缩性。可是用这种方法得出的约简往往包含很多属性，使得所得到的规则前提条件很长。由于引入用户偏好集，算法最后所得的约简可能还有多余属性，并不符合约简的定义。深入研究了遗传算法实现的共性问题，并给出了各类算子的设计和实现方法。本文提出对选择算子的改进，在执行选择算子时，首先对种群个体进行分类，每类中的个体是相同的，然后对每类个体都计算适应值，若有多类个体的适应值同时为最大，则对适应值最大的几个类的个体数目进行修正，使这几类个体在种群中的数目大致相等，然后再用旋转盘算法对种群中的个体进行选择。3．研究了把信息论应用于决策信息系统属性约简的方法，并与遗传算法相结合，改善了原属性约简算法的性能。属性重要性反映了把某一属性加入到核时互信息的增量,本文将从信息论角度定义的属性重要性度量作为启发信息引入遗传算法，从而得到一种用于求解最小约简的启发式遗传算法。遗传算法中修正算子用来对种群进行修复，保证所有个体都是侯选约简，使搜索总在可行解空间上进行。并在保证侯选约简的条件下，尽可能增加个体适应值。用基于信息熵属性重要性度量和基于粗糙集的属性依赖度的加权平均和作为约简算法中的修正操作依据，由于增加了一个修正算子，使所有经过修正的个体都<WP=123>是候选约简，这使得遗传操作作用在可行候选解空间上，节省了计算资源，有效地加快了算法收敛速度。该算法在选择算子中增加了一步操作，当下一代中最差个体比上一代最好个体适应性差时，用上一代最好个体替换下一代最差个体，并适当地调整优良个体的比例，保证了种群的多样性。改进算法结束条件，使之由群体稳定性来决定，保证了遗?

文专^[3]2004年在《基于神经网络的分类数据挖掘属性选择和规则抽取研究》文中研究表明数据挖掘是一门从大规模数据中提取有用信息和知识的新兴技术，分类是数据挖掘的一项重要内容。面对大规模、高维的数据，如何建立有效的，可扩展的分类数据挖掘算法是数据挖掘研究的重要方向之一。在分类数据挖掘中，属性选择和规则抽取是两个最重要的工作。神经网络是数据挖掘的一个重要工具，而现有的神经网络属性选择方法必须对全部属性进行训练和裁剪，造成网络规模过大，训练量大，效率低下的缺陷，为了克服这些缺陷，必须提出新的方法。本文以神经网络为主要研究方法，并结合模糊逻辑技术，对分类数据挖掘中的属性选择和规则抽取两个问题提出了一些有效的算法，具体的研究工作如下：提出了一种基于输入输出关联法排序的RBF神经网络属性选择方法。由于属性选择是一个NP-HARD问题，现有的属性选择方法计算过于复杂，效率低下。本文提出一种新的属性选择方法。该方法先用输入输出关联法对所有属性进行重要性排序，然后根据属性重要性次序用RBF神经网络进行属性选择。该方法避免了现有的神经网络降维方法必须对全部属性进行训练和裁剪的弊端，大大提高了属性选择的效率。提出了一种可分性判据排序的RBF神经网络属性选择方法。该方法先用可分性判据计算每个属性的重要度，并对其进行排序，然后根据属性重要性次序用RBF神经网络进行属性选择。提出了一种基于降维的概率神经网络模糊规则抽取方法。该方法先用上面的属性选择方法从原始属性集中选择部分最重要的属性，然后对这部分属性进行模糊化处理，接着用概率神经网络进行模糊规则抽取。该方法通过属性选择减少了神经网络训练规模，避免了对神经网络进行节点裁剪，从而大大提高了规则抽取的效率。并且，用模糊规则来表现知识，规则易于理解，规则精度也有所提高。

辛旭明^[4]2003年在《基于过程监控的数据挖掘系统及其应用》文中研究说明现代工业生产自动化、连续化水平的不断提高，对生产的可靠性、安全性提出了更高的要求，因而过程监控已成为过程控制领域的重要研究方向之一。过程监控的理论与实践涉及多方面学科和技术，而过程故障检测、故障诊断规则获取一直是研究的难点和热点。为此，本课题对工业过程故障诊断进行研究和探索。随着计算机与网络信息技术的发展，故障诊断中采集的数据急剧增加，因而将数据挖掘技术应用于故障诊断中。为此，本文提出了基于故障诊断的数据挖掘系统。基于故障诊断的数据挖掘系统，既是一个数据挖掘系统，又必须满足故障诊断的特殊性。基于故障诊断的数据挖掘系统针对故障诊断提供解决方案。该系统以粗集为关键技术。从实际中获得的数据常常包含噪声，存在不确定因素和不完整信息。运用纯数学上的假设来消除不确定性，往往效果不理想。粗集作为数据挖掘方法的一种，是一种处理不精确或不完整信息的强有力数学工具，在故障诊断中的应用是一个新的研究方向。粗集能从大量数据中挖掘出有用知识，所以能有效地应用于故障诊断，并且可以克服以往存在的知识获取瓶颈。在设计算法的时候，充分考虑到故障诊断的数据和需求的特殊性，并作了优化。引入规则的置信度和支持度，提出了在故障诊断中的基于粗集的数据挖掘算法，提出了在故障诊断中的时态信息系统转换为信息系统的方法。使用数据库连接池技术。连接池技术尽可能多的重用了消耗内存的资源，大大节省了内存，提高了程序效率，同时，通过其自身的管理机制来监视数据库的连接数量、使用情况等。该系统以粗集为关键技术，采用适合故障诊断的算法，从现有的故障诊断的数据出发，能有效地处理不完备数据、不一致数据，实现提取基于过程监控的数据挖掘系统及其应用诊断规则的目的，高效快速地导出故障诊断规则。本文论述了粗集基本理论、扩展理论及时间序列数据的处理方法，提出了基于故障诊断的具体算法，并介绍了基于故障诊断的数据挖掘系统结构及功能，最后将系统应用于机械故障诊断。

吴东芳^[5]2005年在《基于粗糙集的增量式数据挖掘技术的研究》文中指出粗糙集是研究不精确、不确定和不完整性信息或知识的数学工具。该理论自提出以来，已经被成功的应用于机器学习、知识获取、决策分析、数据挖掘、专家系统和模式识别等诸多领域。今天，粗糙集理论已成为人工智能领域一个新的学术热点，而基于粗糙集理论的数据挖掘算法亦吸引着越来越多的学者进行研究。首先，本文对粗糙集理论的基本概念与性质，发展及理论成果进行了较为详细的归纳总结。接着，对经典的粗糙集数据约简算法的思想及流程作了分析总结。对基于区分矩阵的约简算法作了完整的分析和总结，并在此基础上提出了基于区分矩阵属性约简算法的两种改进的思路。其次，本文对增量数据挖掘技术进行了研究，提出了增量式属性约简的新思路，即借助于分布式挖掘算法和组合式挖掘算法解决增量式数据挖掘的问题。本文着重研究了基于粗糙集的增量式数据挖掘技术。在深入的学习了基于动态数据库的增量式挖掘算法，结合区分矩阵的挖掘算法，通过深入分析，对已有的属性最小约简的增量式算法进行了优化改进，并对改进后的算法进行了程序实现。通过理论分析和批量数据试验验证，改进后的算法比原算法在数据量增大时，运行效率有明显改善。基于此约简算法，设计实现了一个包含数据维护、属性约简等模块的属性约简测试系统。鉴于找出一个信息系统的最小约简算法就是一个NP难题，因此，文中的改进算法对于研究以提高挖掘的效率而寻求一种更高效完备的约简算法是一个有益的尝试。对促进粗糙集理论更广泛的应用于具体实践有着一定的现实意义。

陈楠^[6]2005年在《基于粗集理论的增量式属性约简研究》文中研究指明粗糙集理论是一个有效的数据挖掘方法，正越来越被人们所重视。其主要思想是保持分类能力不变的情况下，利用等价类，通过约简，达到发掘知识并简化知识的目的。首先，本文介绍了数据挖掘和粗糙集的基本理论和主要方法。然后研究了粗糙集理论的属性约简方法，并针对属性约简存在的问题提出了一种基于信息熵的属性约简算法，算法中引入了信息熵准则作为属性选择的标准。为满足数据库动态更新的需要，对该方法进行修改提出了一种基于信息熵的增量式属性约简。最后，给出了扩充特征矩阵的定义，提出了基于扩充特征矩阵的增量式规则提取方法。

朱红春^[7]2003年在《数字高程模型（DEM）空间数据挖掘研究》文中研究表明DEM是国家基础地理信息数据库的核心内容，是GIS数字地形分析的数据基础，包含着丰富的地形、地貌及相关的地学信息与知识。目前，我国测绘部门已基本上完成了4级比例尺DEM建设，面对海量的信息，研究与掌握基于DEM空间数据挖掘的理论与方法，对于指导DEM及其相关空间数据的应用具有及其重要的意义。本研究在广泛总结前人研究成果与研究经验的基础上，利用空间数据挖掘和地形地貌学的基本理论，以陕北黄土高原多地貌类型区为实验样区，以1∶10000比例尺DEM为样本数据，探讨了DEM中地形地貌数据挖掘与知识发现的理论方法和体系结构；确定了宏观和微观地形因子、地形综合特征知识的体系结构；系统总结了DEM基本地形因子的提取算法，并重点对坡长、曲率、地形的起伏度、切割深度和沟壑密度因子提取的原理与算法作了深入的分析；提出了黄土高原地区区域特征知识的基本构成及其系统完整、科学可行的挖掘提取算法；扩充了ArcView GIS软件平台中DEM空间分析的基本功能；实现了以Delphi7.0为平台的地形信息辅助挖掘系统的设计与开发；完成了对黄土高原多地貌类型区(样区)地形信息空间分异特征的分析。研究结果表明，所提出的基于DEM空间数据挖掘的理论与方法，对于区域地形、地貌信息的知识发现具有重要的理论意义和应用前景。

王宏^[8]2006年在《基于粗糙集数据挖掘技术的客户价值分析》文中指出当今的客户已经成为左右企业发展的一种决定性的力量。菲利普·科特勒指出以客户为中心的企业不仅需要建设产品，更重要的是建设客户。在现实的市场条件下任何企业要想成功，必须以客户需求为出发点，以满足市场或客户的需求为归宿，把客户对企业的信任和忠诚作为企业最重要的资产。国内外的理论和实践都已证明了忠诚的客户能为企业带来稳定而丰厚的利润，一个企业拥有了忠诚的客户群，就拥有了稳定的利润源和竞争优势，拥有了对市场的控制权。一个客户能保持忠诚越久，企业从他那里获得的利益越多。企业在培养客户忠诚时必须首先明确不同客户对企业具有不同的价值，企业应向最可能盈利的客户推销产品。基于客户差别及企业能力的限制，任何一个企业都不可能为市场上的全体客户服务。为了能与无处不在的竞争者竞争，企业需要确定它能为之最有效服务的细分市场，把目标关注于为企业带来最大利润的客户，提高他们的忠诚度。为了获得客户的忠诚，企业必须为客户提供优异的价值，因为只有价值才能驱动客户忠诚，增进客户的重复购买行为并增加企业利润。基于以上的思想，借鉴西方管理学研究的成果，本文针对客户价值分析的理论和方法展开讨论，在客户分类时采用基于粗糙集的数据挖掘技术。企业常用的客户分类方法是基于经验方法和统计方法的简单划分，这些方法虽然曾得到广泛应用并取得良好效果，但却无法满足日益增长的数据量以及日益复杂的分析需求，而基于数据挖掘技术的分类方法，为进行更深入的客户细分提供了新的实现手段。所谓数据挖掘也称为知识发现，是从大型数据库和数据中提供潜在价值的知识和规则的过程。数据挖掘技术有各种模式，如关联分析、分类和预测及聚类等。各种模式各有侧重，其中有一些已经研究得较为成熟，研究成果也较多，如挖掘关联规则、预测方法和分类模式中的一些其他方法。而分类模式中关于粗集的挖掘技术目前研究的人还不是很多，相应的研究成果也较少。因而基于粗集的数据挖掘技术有很大的研究价值。粗集理论是针对不确定性问题提出的，它的特点是不需要预先给定某些特征或属性的数量描述，而是直接从给定问题的描述集合出发，通过不可分辨关系和不可分辨类确定给定问题的近似域，从而找出该问题的内在规律。

王明春^[9]2005年在《基于粗糙集的数据及文本挖掘方法研究》文中认为数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将软计算方法之一的粗糙集理论应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值。本文研究了基于粗糙集的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题;文本挖掘中的分类规则抽取问题;以及粗糙集同模糊集相结合的数据挖掘方法。所做主要工作内容包括:将粗集和遗传算法相结合成功应用于文本模糊聚类。在聚类过程中,将权重参数的设定也通过编码由遗传算法确定,从而使得权重参数的设定具有科学性和可操作性。给出了近似规则的定义,并对χ~2值的意义进行了讨论。在此基础上提出了一种将特征选取和粗集方法相结合的文本分类规则抽取方法。该方法大大提高了文本规则抽取的效率,并使其更趋实用化。对相关文献中隶属函数的定义进行了改进,并且利用隶属函数的性质提出了一种从定量决策表转换为定性决策表的转换规则,利用此转换规则可以将原来的定量决策表转换为一个同样大小的定性决策表,这样大大减少了后面利用粗集理论进行规则抽取的计算量,而且提取的规则质量也有了很大提高。将模式聚合理论和潜在语义索引理论相结合,提出了一种文本降维新方法。它首先用PA理论对文本特征进行初步降维,在此基础上利用LSI方法对文本特征进一步降维,抽取隐藏在文本中的主要语义信息。提出了一种改进的基于粗集和Tabu搜索的属性约简算法。改进后的算法既具有较高的算法效率,又能以较大的概率得到最小属性约简。提出了基于知识简洁度的粗集聚类方法,它首先计算对象集合在每个属性下的划分;然后在对初始划分进行合并时,引进了不可分辨度的概念;在形成最终聚类结果时,引进了知识简洁度作为凝聚的终止条件。将基于次胜对手惩罚的竞争学习算法应用于文本聚类,这种方法既能自动确定聚类的数目,又具有较好的算法复杂度。

夏春艳^[10]2006年在《基于粗集属性约简的数据挖掘技术的研究与应用》文中研究指明近年来，数据挖掘引起了信息产业界的极大关注，其主要原因是存在大量可供使用的数据，并且迫切需要将这些数据转换成有用的信息和知识。进行数据挖掘的方法很多，粗集方法便是其中的主要方法之一，将粗糙集应用于数据挖掘领域，能提高对大型数据库中的不完整数据进行分析和学习的能力，具有广泛的应用前景和实用价值。属性约简又是粗糙集理论中的一个重要课题，如果能将冗余属性删除，将会大大提高系统潜在知识的清晰度，降低发现规则的时间复杂性，提高发现效率。本文主要研究基于粗集理论属性约简的数据挖掘技术。首先，对数据挖掘和粗集理论进行研究，并在分析和综合原有基于粗集理论的数据挖掘算法的基础上，提出了改进的启发式属性约简方法，即基于加权平均和频度的双向选择约简算法。其次，介绍了数据挖掘系统，一是产生规则，利用属性约简算法约简属性，从而得出规则；二是规则分类，利用已产生的规则分类新对象。最后，通过实例验证了本文提供的方法是可行的和有效的。

参考文献：

[1]. 基于粗集理论增量算法的数据挖掘系统[D]. 陈洪生. 长春理工大学. 2002

[2]. 基于粗糙集的数据挖掘方法研究[D]. 崔广才. 吉林大学. 2004

[3]. 基于神经网络的分类数据挖掘属性选择和规则抽取研究[D]. 文专. 天津大学. 2004

[4]. 基于过程监控的数据挖掘系统及其应用[D]. 辛旭明. 东华大学. 2003

[5]. 基于粗糙集的增量式数据挖掘技术的研究[D]. 吴东芳. 大连交通大学. 2005

[6]. 基于粗集理论的增量式属性约简研究[D]. 陈楠. 长春理工大学. 2005

[7]. 数字高程模型（DEM）空间数据挖掘研究[D]. 朱红春. 西北大学. 2003

[8]. 基于粗糙集数据挖掘技术的客户价值分析[D]. 王宏. 哈尔滨工程大学. 2006

[9]. 基于粗糙集的数据及文本挖掘方法研究[D]. 王明春. 天津大学. 2005

[10]. 基于粗集属性约简的数据挖掘技术的研究与应用[D]. 夏春艳. 长春理工大学. 2006

标签：计算机软件及计算机应用论文; 数据挖掘论文; 粗糙集论文; 数据挖掘算法论文; 大数据论文; 神经网络算法论文; 文本挖掘论文; 分类数据论文; 客户分类论文; 数据抽取论文; 增量模型论文; 增量更新论文; 遗传算法论文; 算法论文;

基于粗集理论增量算法的数据挖掘系统

猜你喜欢