倪枫[1]2006年在《知识发现中粗糙集基本算法的应用研究》文中提出随着数据采集工具的成熟以及海量存储设备的广泛应用,目前许多大型企业己经积累了大量的数据。为满足管理、经营的需要,这些数据必须得到有效地处理;使用传统的数据分析和检索方法处理这些数据,不仅将耗费大量的计算时间,而且依赖于事先对数据关系的假设和估计,难于得到其中的有效信息。目前面临的要求是如何自动和智能的将待处理的数据转化为有用的信息和知识。二十世纪八十年代初波兰数学家Pawlak.Z提出了粗糙集理论,它是一种处理含糊和不确定性的新型数学工具,可以有效的用于知识约简和提取。为在知识发现中更好地应用粗糙集理论,将主要研究工作集中在粗糙集约简算法以及应用粗糙集理论处理多值系统的查询和检索方面,为多值系统中的知识发现应用提供了方法,并建立了两种算法用于满足知识发现中的不同约简需要。首先,在分析属性分类能力后,给出一个易于理解、方便交互的启发式约简算法,可以有效满足知识发现中领域专家对控制并调整约简过程的需求;其次,为提高约简算法效率,对正区域进行深入的分析和研究后,给出并证明一种新的正区域等价定义,以此推导了高效的正区域基本算法;为满足大数据集上对约简算法效率的要求,通过对不同约简属性集所对应的属性子集、论域子集和正区域间的关系,以及正区域递增算法中约简属性的性质等方面,推导相应的性质和推论后,建立了一个高效的属性约简算法并证明了其完备性。实验数据的分析,表明该算法可以有效地应用于大数据集上的约简计算;最后,建立多值数据属性的检索和查询方法,使得多值系统上的知识发现应用成为可能。
刘少辉[2]2003年在《知识发现中粗糙集理论的研究》文中进行了进一步梳理粗糙集理论是一种新型的处理含糊和不确定性知识的数学工具,它能够分析隐藏在数据中的事实而不需要关于数据的任何附加知识。该理论以其独特的优势正赢得越来越多的研究者的关注,并在各个领域获得了广泛的应用。本文介绍了粗糙集理论的基本概念和研究现状,给出了粗糙集的高效算法,并进一步研究了粗糙集理论在知识发现,特别是在聚类分析、文本分类、基于范例的推理等方面的应用。本文的研究工作主要包括如下几个方面:粗糙集的高效算法:现有粗糙集算法计算的低效性在一定程度上限制了粗糙集理论的广泛应用,因此寻求高效的粗糙集算法具有重要的意义。深入分析了算法低效性的根源,围绕不可区分关系和正区域两个核心概念,研究了不可区分关系的性质,给出并证明了正区域的一种等价计算方法,从而得出高效的粗糙集基本算法。随后,进一步分析了正区域的渐增式计算,并给出了一种完备的属性约简算法。理论分析和实验结果表明,这些算法在效率上较现有的算法有显着提高。基于粗糙集的聚类算法的研究:给出了局部不可区分关系、个体之间的局部不可区分度和总不可区分度、类之间的不可区分度、聚类结果的综合近似精度等定义,在此基础上提出了一种基于粗糙集的层次聚类算法RSHC,该算法能够自动调整参数,以寻求更优的聚类结果。实验结果验证了该算法的可行性,特别是在符号属性聚类方面有较好的聚类性能。基于粗糙集的文本分类的研究:从信息粒度的角度来分析文本分类,并将粗糙集理论应用于特征选取。进而对经典的词权重计算方法进行了改进,使之更加合理。在此基础上,本文给出了一种对应多重粒度级别的多层次文本分类方法:各文档类按照一定的层次关系组织成树状结构,在对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的叶子子类。实验和实际系统表明:该方法是行之有效的,具有较高的分类准确率与召回率。基于粗糙集的CBR的研究:基于范例的推理(CBR)是人工智能发展较为成熟的分支,而范例检索是确保CBR成功的重要环节。目前,最常用的检索算法是k-近邻法,但该方法对噪声和不相关特征较敏感,而且需要确定各特征的权值。粗糙集理论在处理不精确数据方面有其独特的优势,基于此,将粗糙集理论应用于CBR中的范例检索:首先用粗糙集方法对源范例库进行约简,减少计算范例相似性过程中所涉及的特征个数,以提高检索效率;然后在属性重要度的基础上给出了新的计算各特征权值的方法;进而给出了几种基于粗糙集的范例检索算法。实验结果验证了这些算法的可行性,特别是在处理离散的特征时有较好的性能。介绍了集成粗糙集高效约简算法和基于粗糙集的多层次文本分类方法的多策略知识发现平台MSMiner:首先介绍MSMiner的主要功能和体系结构,阐述了联机分析处
梁西燕[3]2008年在《基于粗糙集理论的农业决策支持系统研究》文中提出粗糙集理论是一种新兴的处理不精确、不确定与不完全数据的数学工具。决策支持系统强大的辅助决策以及粗糙集理论强大的信息处理功能已日益显露出来并为人们所关注。本文从农业领域的数据特性展开研究和讨论,提出基于粗糙集理论的农业决策支持系统模型。本文讨论了决策支持系统以及粗糙集理论的发展状况、特点,提出了基于粗糙集理论的农业决策支持系统的实施方案。该方案从决策支持系统知识获取的决策表入手,通过利用粗糙集理论对决策表进行化简,为决策支持系统提供辅助决策所用的规则表。对属性约简算法进行了重点研究,在已知的研究成果中,Skowron提出的可辨识矩阵为求取最佳约简提供了很好的思路,该方法将信息表中所有有关属性信息都浓缩进了一个矩阵中,可通过该矩阵方便地得到决策表的属性核。本文分析了可辨识矩阵在获取属性核中的重要作用,对属性约简算法做了改进,即针对农业数据获取的特点,在限制容差关系下,提出不完备决策表的属性约简算法。根据决策支持系统的知识获取任务,建立了一种基于粗糙集理论的决策支持系统模型。在该模型中首先分析了农业数据的预处理方法,即属性的离散化和泛化问题。指出将连续属性离散化和面向属性的归纳相结合是一种适用于应用领域且行之有效的泛化方式,并提出了具体的实现方法,即与专家的经验知识结合运用。经过预处理的数据就形成了目标信息系统,采用本文改进的属性约简算法对其进行约简处理,获取规则,实现粗糙集理论在农业决策支持系统中的应用。最后,将获取的规则用于农业病虫害的诊断中,利用粗糙集理论的属性重要度计算方法,对诊断的可信度进行计算。通过对实例运行结果的比较、分析,验证了粗糙集理论与农业决策支持系统相结合方案的可行性以及属性约简改进算法的有效性和实用性。
陈达尧[4]2008年在《基于粗糙集的数据挖掘算法研究与实现》文中进行了进一步梳理数据挖掘是从数据库的大量数据中提取隐含的、有潜在价值的信息和知识的过程。数据挖掘是知识发现中最关键的步骤,是目前相当活跃的研究领域。在数据挖掘的诸多方法中,粗糙集方法不失为一种比较好的数据挖掘工具。粗糙集理论是20世纪80年代发展起来的一种处理不精确、不确定和模糊数据的新型数学工具,它能从数据本身提供的信息中发现有效的、潜在的知识。近年来该理论成功地在机器学习、数据挖掘、智能数据分析等领域得到了广泛应用,受到了众多学者的重视,取得了较大的发展。论文以四川省科技攻关项目“电信商业智能数据挖掘引擎的研究”为依托,就粗糙集理论在数据挖掘中的算法问题进行研究。本文工作主要有以下四个部分:1、介绍了数据挖掘技术的概念、产生背景、研究任务、主要方法以及研究热点。回顾了粗糙集理论的发展历程,详细介绍了粗糙集理论的基础知识,并对当前国内外粗糙集理论的研究现状进行了详细阐述。2、对粗糙集理论的约简算法进行了比较深入的研究。约简算法包括属性约简和属性值约简,其中属性约简是基于粗糙集理论的数据挖掘模型中的关键步骤。本部分介绍了基本的属性约简和属性值约简算法,针对已有算法存在的缺陷提出了改进的算法,并结合实验对改进算法和已有算法进行了对比,得出了自己的结论。其中主要包括基于信息熵的属性约简算法和基于信息熵的属性约简改进算法分析对比,以及HORAFA算法和HORAFA改进算法的分析对比。最后,提出了一种基于近似精度的约简算法,并结合实例对算法作出了分析,得出自己的结论。3、针对动态数据提出了动态约简算法,即增量式约简算法。对增量数据挖掘技术进行了研究,提出了增量式规则提取方法的一般设计原则。在此基础上给出了扩充特征矩阵的定义,提出了基于扩充特征矩阵的增量式约简算法。然后介绍了ASRAI算法,并对ASRAI算法提出了一种改进算法。4、作为粗糙集约简算法的应用,本文提出了基于粗糙集理论的电子邮件过滤模型,设计了基于粗糙集理论的针对个人用户的实时电子邮件过滤系统,并通过实验对系统模型进行了验证。
刘勇[5]2006年在《基于粒度计算的知识发现研究及其应用》文中研究表明知识发现是人工智能领域的研究热点,目前已经得到了很大的发展。然而,当前的知识发现还存在诸多重要的待解决的研究问题,如知识的表达方式过于单一、缺乏有效的复杂数据和复杂场景下的知识抽取方法(典型的场景如增量式数据情况)、缺少能够保持数据特征内在语义联系的高维数据降维方法,以及如何对发现后的知识进行有效性验证等等。 本文针对知识发现过程中的几个关键环节:知识的表达/描述方式,知识的抽取,知识降维,以及获取知识的有效性验证等,引入了粒度计算的原理和方法,对上述环节中存在的问题展开较深入的研究和探索: (1) 系统化提出了粒度计算叁大原理:粒度知识表示原理、粒度近似求解原理、粒度问题映射原理。 (2) 采用了粒度划分的知识表达形式。通过引入粒度知识表示原理,将粒度的划分作为知识表达的一种形式,将粒度的不同粗细划分作为一种知识,从而提出了一种新的知识表达方式,通过对处理对象进行粒度划分来表达不同的知识。 (3) 提出了支持非一致数据的知识抽取算法。根据粗糙集理论设计实现了一个支持非一致数据的知识抽取算法,同时提出了一个适用于复杂情况的增量式知识抽取算法,并根据粒度近似求解原理提出了可并行/串行的近似规则抽取算法。 (4) 给出了知识抽取中的特征选取和约简方法。从表结构的数据特征所能容纳的数据记录问题出发,提出了数据饱和度概念,并根据数据饱和度的特性,提出了一个综合了属性约简和属性选取两者优点的数据降维方法。 (5) 应用知识发现方法来解决复杂问题,给出验证知识有效性的实例。即利用综合粒度方法中的叁个原理解决古代建筑建模系统中的知识辨识过程问题。
刘震宇[6]2002年在《粗糙集约简算法在知识发现中的研究与应用》文中进行了进一步梳理论文的主要工作是了解知识发现的体系结构,学习粗糙集理论的基本概念,研究基于粗糙集理论的约简算法在知识发现领域中进行数据约简和离散化两个方面存在的问题,开发用于粗糙集理论算法研究的实验平台。 本文通过在数据约简方面的研究,提出了对利用属性频率函数的启发式约简算法的改进算法——HORAFA—SVDM算法,以及这个算法的增量版本——HORAFA—IA算法。同时根据实验讨论了该类算法对于无核数据集所存在的需要大量时间求约简的问题,在这个问题的探讨中,本文结合上述利用属性频率函数的启发式约简算法提出了一个可以实现算法自适应的模型——HORAFA—A。 在离散化方面,将属性频率函数引入到NS算法中,提出了相应的约简算法,同时为了解决启发式约简算法在NS算法中存在的问题提出了新的概念——候选核和基于候选核的BCC算法。 最后介绍在这次研究工作中根据一些知识发现的原型系统开发的用于粗糙集算法研究的平台——RSDMES系统。
张在美[7]2007年在《一种基于粗糙集的不完备信息处理方法研究》文中进行了进一步梳理在现实数据库知识发现过程中,由于数据采集能力有限或数据丢失等原因,使得所面临的数据库往往是不完备的信息系统,即可能存在部分对象的某些属性值未知的情况。空缺数据的处理非常关键,因为不完备的数据能够使知识挖掘过程陷入混乱,导致不可靠的输出,将严重影响挖掘的效果。粗糙集理论作为一种处理模糊、不确定知识的数学方法,其显着的优点是无需提供所需处理的数据集合之外的任何先验信息,近年来已在知识发现上取得了令人瞩目的研究成果。目前,基于粗糙集理论的不完备信息系统知识发现的理论框架已基本完整,但在具体知识获取的多样性及知识质量的提高方面还需要进一步努力。本文的主要工作就是以粗糙集理论为工具,对知识发现过程中信息不完备问题的处理方法进行研究,以提高知识发现的质量和效率。不完备信息系统的知识发现有两种实现途径:一是采用数据补齐算法对缺失值进行填充,在完备化的信息系统基础上进行知识获取;二是在不改变原不完备信息系统的基础上直接进行知识获取。本文从这两种途径入手,利用粗糙集的方法,提出了两个不完备信息处理的有效算法。首先,分析了目前数据补齐算法存在的缺陷及产生这些缺陷的原因。通过对拓展粗糙集理论模型作进一步的改进,并合理引入分治思想,提出了一种新的数据补齐算法。结合理论分析和实例阐述了算法的有效性,并通过在UCI机器学习数据库中选取的两个数据集上进行实验,验证了该算法不仅能够提高补齐率,而且能显着降低算法复杂性。其次,本文在不改变原不完备信息系统的基础上,分析了现有知识约简算法的局限性,扩展定义了不完备熵概念,与传统粗糙熵结合,对不完备信息系统中的属性重要性进行了定义,并以此作为启发式信息,提出了一种优化的不完备信息系统知识约简算法,与传统方法相比能够找出更优的最小约简。通过理论和实例分析说明了算法的有效性。
熊新惠[8]2005年在《粗糙集理论在银行数据分析中的利用》文中指出随着数据库技术的不断发展及其广泛应用,数据库中的数据量急剧增大,当大量数据不停地被收集和存储,业界人士对他们数据中项集之间的相关联系越来越感兴趣。这种数据中项集之间的有趣的相关联系称为关联规则。如今,关联规则已广泛应用于各个领域,如:医疗诊断,市场分析等。而算法效率不高、规则冗余度较大、用户仅对一部分关联规则感兴趣是目前关联规则挖掘算法普遍存在的问题,因此,从大量的数据中迅速挖掘用户感兴趣的关联规则,具有重要的现实意义。而银行的电子化经过了十多年的建设,各银行业务系统都已取得了一定的成绩。面对庞大的数据库及众多的数据,业内人士往往感到无所适从,不知道如何把这些数据利用起来。 本论文的研究工作,主要围绕着基于粗糙集理论的动态约简以求得决策规则。利用粗糙集理论的基本原理,挖掘出用户需要的决策规则。 本文主要研究了以下几个方面的内容: (1)一种改进的属性约简算法; (2)将属性约简算法与其他算法结合在一起使用。 论文首先概述了集合和粗糙集理论的基础知识,通过对粗糙集理论的研究,阐明了粗糙集理论是一种尤为适用于不确定、不完整系统的数据挖掘的数学工具。在此基础上,重点探讨了粗糙集理论的属性约简方法。最后,阐述了基于粗糙集理论的关联规则挖掘的改进算法,并详细说明了改进的关联规则挖掘算法及其步骤。并将其作用于实验数据库,获得了较好的结果,证实了原型系统具有一定的实用价值。 本文的研究工作是一个尝试,有待于进一步的深入研究。
陈才杰[9]2014年在《粗糙集理论在知识发现数据预处理中的研究与应用》文中进行了进一步梳理在对实际应用领域进行知识发现的过程中,由于数据采集能力有限和数据存储介质损坏等未知情况,所获取用于挖掘的数据系统往往是不完备的,即存在缺失数据。因为这种数据的不完备性给用来进行挖掘的数据模型引入了噪声和不确定性,从而使得挖掘出的信息会出现矛盾和混乱的问题,这会严重影响知识发现中的数据挖掘过程和结果。粗糙集理论是由波兰科学家Z.Pawlak创立的一种处理数据模糊性和不确定性的数学理论工具,它在处理信息数据的过程中无需任何先验的领域专家知识,具有一定的客观性和通用性。因此,本文以粗糙集理论作为理论工具,研究它在数据预处理过程中解决数据缺失值问题中的应用,并最终提出了一个粗糙集理论和关联规则中频繁项集的联合处理模型。首先,论文介绍了目前不完备信息系统中填补缺失值的主要方法,并分析了各自的优缺点,尤其是在国内较受关注的基于粗糙集理论的ROUSTIDA算法和国外的ClosestFit算法。在此基础上提出了一种融合了粗糙集量化容差和属性约简知识的不完备信息系统处理算法RSF,该算法在描述缺失对象和备选填补对象之间的相似精度和算法运算复杂度上有明显改善。通过实验验证,RSF方法与ROUSTIDA算法相比具有更高的填补精度,比ClosestFit算法拥有更低的运算复杂度。其次,基于以往处理不完备信息系统算法中都忽略的备选填补对象在整个信息系统中的重要性问题。本文提出了一种用关联规则中频繁项集知识来对数据缺失值进行填补的方法,该方法简便且能提高缺失值的填补精度。由于该方法中无法完成所有缺失值填补的缺点,文中最后提出将其与RSF算法联合的处理模型FI-RSF,在该模型中先利用频繁项集填补法,对余下的未能处理的缺失值再使用RSF算法继续填补。最后,通过在UCI机器学习数据库选取数据集进行实验,验证了FI-RSF方法较RSF方法在缺失值预测精度上有所提高,且随着产生频繁项集的预设支持度降低,预测精度会提高。
孟慧丽[10]2008年在《粗糙集的不确定度量理论及启发式属性约简算法研究》文中研究表明粗糙集理论是近年来发展起来的一种处理不确定、不精确、不完整数据的新的数学工具[1]。粗糙集理论自波兰科学家Pawlak于1982年提出以来,已经被成功的应用于机器学习、数据挖掘、决策支持与分析、软计算等领域[2-8]。粗糙集理论中根据等价关系对论域进行划分,不同的等价关系对论域进行划分会得到不同的划分模块,划分越粗,得到的划分模块越大,信息含量越少,不确定性越大;划分越细,得到的划分模块越小,分类越精确,信息含量越大,不确定性越小。如何度量不同等价关系对论域划分的粗细及分类的精确程度,如何度量划分的不确定性,即不确定度量理论的研究是粗糙集理论研究的一个重要方面。高效的属性约简算法是粗糙集应用于知识发现的基础,寻求快速的属性约简算法是粗糙集理论的研究热点之一。如何基于粗糙集的不确定度量理论,运用启发信息来简化计算以找出属性集的最小约简是粗糙集理论研究的一个重要方向。这就需要提出合适的度量理论,并基于该度量理论设计有效的启发式属性约简算法,因此需要对粗糙集理论中的不确定度量理论进行研究。本文对粗糙集理论中的度量理论进行了研究,给出了一个统一的度量集合间贴近度的方法,根据该方法,提出了度量信息系统、决策系统、不完备信息系统、不完备决策系统中划分之间贴近度的方法,并对这些系统中的划分贴近度分别进行了系统研究,给出各系统中划分贴近度的一些性质及相应的理论证明,根据划分贴近度设计了对以上各系统进行属性约简的启发式算法。针对信息系统,由于知识中属性的逐渐增加或减少的变化,导致知识对论域产生不同粗细的划分,并得到不同大小的信息粒,给出了两个新的度量方法---粒度熵和粗糙熵,用于度量知识随着属性的增加或减少对论域产生不同划分时的分辨能力,并基于粒度熵设计了对信息系统进行属性约简的启发式算法。决策表是一类特殊而重要的知识表达系统,多数决策问题都可以用决策表形式来表达[9]。本文根据决策系统的特点,对决策系统中决策属性集相对条件属性集的正域和依赖度进行了研究,给出了一个新的计算决策系统中正域和依赖度的方法,提出了一个基于依赖度的决策系统启发式属性约简算法。
参考文献:
[1]. 知识发现中粗糙集基本算法的应用研究[D]. 倪枫. 华中科技大学. 2006
[2]. 知识发现中粗糙集理论的研究[D]. 刘少辉. 中国科学院研究生院(计算技术研究所). 2003
[3]. 基于粗糙集理论的农业决策支持系统研究[D]. 梁西燕. 西北农林科技大学. 2008
[4]. 基于粗糙集的数据挖掘算法研究与实现[D]. 陈达尧. 电子科技大学. 2008
[5]. 基于粒度计算的知识发现研究及其应用[D]. 刘勇. 浙江大学. 2006
[6]. 粗糙集约简算法在知识发现中的研究与应用[D]. 刘震宇. 西安电子科技大学. 2002
[7]. 一种基于粗糙集的不完备信息处理方法研究[D]. 张在美. 湖南大学. 2007
[8]. 粗糙集理论在银行数据分析中的利用[D]. 熊新惠. 安徽大学. 2005
[9]. 粗糙集理论在知识发现数据预处理中的研究与应用[D]. 陈才杰. 武汉理工大学. 2014
[10]. 粗糙集的不确定度量理论及启发式属性约简算法研究[D]. 孟慧丽. 河南师范大学. 2008
标签:自动化技术论文; 粗糙集论文; 数据挖掘论文; 数据挖掘算法论文; 决策支持系统论文; 粒度论文; 数据分析论文; 算法论文;