基于粗集理论的数据挖掘的数据预处理研究

基于粗集理论的数据挖掘的数据预处理研究

刘春亚[1]2003年在《基于粗集理论的数据预处理及应用研究》文中研究表明随着数据库技术的成熟,数据应用的普及,以及互联网的高速发展,人类积累的数据量正在以指数级速度迅速增长。传统的数据分析和查询方法已不能满足人们对隐藏在数据背后的知识的迫切需要,在这种社会需求的强劲推动下,知识发现和数据挖掘应运而生,而粗集理论作为一门新的数学工具,凭借它不需要附加任何外界信息或先验知识这一特点,突破了其它数据分析工具的局限,避免了人的主观因素对数据挖掘结果的影响,逐渐成为了研究知识发现的重要的数学工具之一。 由于数据预处理是KDD处理步骤中非常重要的一环,其结果将直接影响到KDD的效率、准确度以及最终模式的有效性。而经典的粗集理论不能处理原始数据资料中的遗漏信息以及值域为实数的数据,需要经过数据预处理,包括数据补齐和离散化处理后才能进行知识获取,因此如何有效地进行数据预处理具有非常重要的现实意义。 本文围绕基于粗集的数据预处理中数据补齐和连续属性离散化展开讨论。 首先分析了当前主要的数据补齐算法的特点和不足,指出了数据补齐的原则和目标,并针对已有的基于粗集不完备信息系统补齐算法ROUSTIDA的缺陷,提出了基于量化相似关系模型和基于受限相似关系模型的数据补齐算法,以使更多的缺损数据得到科学的填补,尽量避免因采用其它方法可能导致的决策规则矛盾的问题。为了提高粗集模型抗噪音干扰的能力,又提出了基于变精度粗集模型的数据补齐算法,以使模型在数据存在噪音干扰的情况下,仍然能获得好的机器学习效果。 然后,对目前流行的离散化算法进行了详细的分析和评价,指出了离散化的方向和目标,并提出了基于粗糙信息熵的离散化算法,以便在保证划分后决策表相容性的前提下,获得比较合理的划分点。 最后,提出了电子商务的潜在客户挖掘系统,并将前面提出的基于粗集的算法理论应用到该系统中,同时和其他几种现有的数据补齐和离散化算法进行了实验比较和结果分析。并指出本文创新之处以及存在的问题和努力的方向。

陈红叶[2]2002年在《Web信息提取及知识发现方法研究》文中研究说明本文主要研究了Web信息的提取及数据库中的知识发现方法。论文的主要内容有: 首先,本文广泛综合吸收了国内外有关数据挖掘(DM)与知识发现(KDD)方面的学术研究成果,并根据所研究的课题,针对数据挖掘在Web上的应用,介绍了其基本的方法、步骤、算法以及所面临的问题等。Web作为巨大的数据源,从Web中提取知识是本文研究的一个主要问题。本文讨论了对于HTML页面,利用信息提取技术,将半结构化数据转化为结构化数据,存储于传统的数据库中,利用基于数据库的数据挖掘算法提取有用的知识,这是一种离线式Web数据挖掘方式;另一种是在线方式,将Web信息提取技术与数据挖掘算法结合为一体,直接对提取的数据进行挖掘。 其次,阐述从数据库中提取有用知识的预处理过程和分类模式挖掘算法。在数据的预处理方面,主要研究粗集理论、数据聚类、概念树、语言场等预处理方法。在挖掘模型与算法的选取中,分类是一种重要的知识发现方法,它能以简洁的模型预测新到达对象的类别。主要介绍基于粗集理论的分类规则提取。此外,由于Web上的数据信息是一典型的动态数据源,本文还以分类规则挖掘为主题讨论动态数据环境下的决策树构造方法。 最后,在上述理论方法研究的基础上,研究开发了农产品市场行情信息的提取与知识发现系统。

白爱民[3]2006年在《基于客户集群和拓扑理论的CRM模型与算法研究》文中研究指明鉴于CRM技术的迅速发展以及它在实际中的广泛应用,CRM的理论和研究正在成为管理科学中的一个热点的研究课题。本文在研究了大量国内外相关文献的基础上,以CRM在某省级电信企业的理论与应用为研究背景,对CRM的发展及其相关理论、CRM模型的建立、内外部机制、关键算法以及CRM应用系统等题进行了较深入地探讨。1.针对CRM的客户集群理论,通过对集群→企业集群→客户集群叁重概念的剖析,构建了适合于CRM的理论模型框架;对集群概念及其涵义进行了扩展和引申,建立了CRM体系结构。在对外部机制研究的基础上,对其内部核心机制的规律及运作模式进行了深入地探讨。2.采用拓扑理论方法,研究了CRM客户集群理论,构建了客户集群的数学模型,提出了企业集群、客户集群、信息集群的拓扑空间概念;并对该空间的内涵进行了深入地分析,阐述了客户集群的基、集族、子空间与映射等实体概念。3.提出了CRM客户集群核心机制的四种客户联系模式,根据客户联系的映射原理,将该理论模式与电信企业的营销实体应用进行了对应的映射分析。4.对CRM数据挖掘过程的关键环节——数据预处理存在问题和算法进行了研究。提出了一种基于密度的孤立点因子算法和一种基于粗集理论的属性类别差异数据归约算法。对CRM数据预处理与数据挖掘的孤立点异常检测方法,对采取粗集理论的预处理过程的数据约简与处理算法进行了分析和编程。5.结合省级电信企业在CRM系统应用项目的实施,对上述理论进行了实证研究,以验证理论的正确性,并给出其实际应用效果。该项研究和应用取得了显着的社会和经济效益,并具有应用和推广价值。

刘伟[4]2005年在《基于粗集理论的数据挖掘中数据预处理的方法研究》文中认为由于经典的粗糙集理论不能处理原始数据资料中的遗漏信息以及含有连续属性的数据,需要对这些数据进行补齐和连续属性离散化才能用于知识获取。因此数据预处理在粗糙集理论应用中非常重要的一环,其结果将直接影响到粗糙集理论应用的效率,准确度。所以有关基于粗集理论的数据挖掘中数据预处理的方法研究具有非常重要的意义。 本文对基于粗集的数据预处理中数据补齐和连续属性离散化问题进行讨论。 首先,对目前主要的离散化算法进行分析和评价,以中值序列分割点集为基础,提出了一种连续、离散混合离散化改进算法,保证划分后决策表相容性,获得合理的划分点。 其次,分析了当前主要数据补齐算法的特点和不足,并针对已有的基于粗糙集理论的不完备系统补齐算法ROUSTIDA的缺陷,提出了改进的数据补齐算法,使更多的缺损数据得到填补,尽量避免可能导致的决策规则矛盾问题。

梅铮[5]2011年在《商业数据流降维方法及其聚类算法研究》文中进行了进一步梳理20世纪末,数据流作为一种新的、更切合实际的数据模型广泛出现在众多商业领域。它们具有数据量大、可无限、漂移特征、变化快、要求快速响应、适合于线性扫描、随机存取代价高等特点,且蕴含着企业的运行规律、管理要求、影响因素、变化趋势等价值极高的信息,更能反映企业运行、服务内容、服务对象等动态变化情况,但与此同时,这些具有多变性和无限性的数据流也给计算机带来了存储空间、计算速度和通信能力等方面的挑战。尽管数据挖掘技术在挖掘静态数据集方面已经取得了很多成果,但将它扩展到动态数据流挖掘中,尤其是动态商业数据流挖掘中仍具有很大的挑战性。在动态数据流环境中,快速增长的数据集和数据维数的升高,导致现有针对小数据量及低维空间中的算法性能迅速下降,甚至低维空间中的距离、相似度度量将不复存在。本文采用滑动窗口作为数据流统一管理模型,在此基础上首先针对数据降维,从特征选择和特征抽取两方面对高维数据降维研究现状进行全面细致的综述与分析,并分析了最新关于数据降维的六点研究趋势。同时针对数据聚类,从传统静态和动态数据流两方面对聚类算法进行了比较分析。接着在第二章对前人研究进行综述的基础上提出了两种数据降维方法,第一种是基于粗集理论的数据降维方法,它从事务项和维度两方面对数据进行压缩,一方面在保持维特征的前提下,对事务项进行压缩,增强事务项之间的可识别性能力;另一方面通过对维间相关关系进行假设检验,有效去掉对决策结果无影响的维。第二种是基于粗糙等价类的商业数据预处理方法,它利用决策表中条件属性间相对独立性特点对数据维度进行约简处理,是一种全新降维算法,并对顾客评价表中部分数据进行了实例分析,以此表明该算法能够在保留原始信息的基础上有效进行降维。最后研究了在有限资源约束下的数据流聚类方法,设计了一种基于主成分和密度的动态数据流聚类算法,PDStream算法。它采用两阶段模型进行聚类操作,使用概要数据进行二次聚类并更新聚类簇。通过实验表明,PDStream算法显现出处理海量数据的优越性以及聚类质量高的特点。并依据数据挖掘全生命周期将PDStream算法应用于某商业领域,取得了预期效果。

辛旭明[6]2003年在《基于过程监控的数据挖掘系统及其应用》文中指出现代工业生产自动化、连续化水平的不断提高,对生产的可靠性、安全性提出了更高的要求,因而过程监控已成为过程控制领域的重要研究方向之一。过程监控的理论与实践涉及多方面学科和技术,而过程故障检测、故障诊断规则获取一直是研究的难点和热点。为此,本课题对工业过程故障诊断进行研究和探索。随着计算机与网络信息技术的发展,故障诊断中采集的数据急剧增加,因而将数据挖掘技术应用于故障诊断中。 为此,本文提出了基于故障诊断的数据挖掘系统。基于故障诊断的数据挖掘系统,既是一个数据挖掘系统,又必须满足故障诊断的特殊性。基于故障诊断的数据挖掘系统针对故障诊断提供解决方案。 该系统以粗集为关键技术。从实际中获得的数据常常包含噪声,存在不确定因素和不完整信息。运用纯数学上的假设来消除不确定性,往往效果不理想。粗集作为数据挖掘方法的一种,是一种处理不精确或不完整信息的强有力数学工具,在故障诊断中的应用是一个新的研究方向。粗集能从大量数据中挖掘出有用知识,所以能有效地应用于故障诊断,并且可以克服以往存在的知识获取瓶颈。 在设计算法的时候,充分考虑到故障诊断的数据和需求的特殊性,并作了优化。引入规则的置信度和支持度,提出了在故障诊断中的基于粗集的数据挖掘算法,提出了在故障诊断中的时态信息系统转换为信息系统的方法。 使用数据库连接池技术。连接池技术尽可能多的重用了消耗内存的资源,大大节省了内存,提高了程序效率,同时,通过其自身的管理机制来监视数据库的连接数量、使用情况等。 该系统以粗集为关键技术,采用适合故障诊断的算法,从现有的故障诊断的数据出发,能有效地处理不完备数据、不一致数据,实现提取基于过程监控的数据挖掘系统及其应用诊断规则的目的,高效快速地导出故障诊断规则。 本文论述了粗集基本理论、扩展理论及时间序列数据的处理方法,提出了基于故障诊断的具体算法,并介绍了基于故障诊断的数据挖掘系统结构及功能,最后将系统应用于机械故障诊断。

张振华[7]2002年在《粗集理论及其在数据预处理过程中的应用》文中研究指明全文分两部分。第一部分是基础理论,在粗糙集理论的基础之上,引入容差关系、等价关系、非对称相似关系,定义了不完备信息系统中集合的上逼近与下逼近,讨论了叁种上逼近与下逼近之间的关系、不完备信息系统的属性约简与完备子系统的核值之间的关系。 第二部分是算法集。1.基于可辨识矩阵与决策规则独立原则缺损数据填补方法;2.基于粗集理论不完备数据的核值ROUSTIDA算法;3.基于属性间的相互依赖性与重要性建立的动态转换算法。

张涛[8]2014年在《网络安全态势感知中非均衡数据异常分类的研究》文中认为现在的网络安全问题已经是一个非常严重的问题,如何能够有效及时的发现网络攻击,预防网络攻击具有非常重要的意义,现有的网络安全技术已经难以满足网络管理。而基于融合技术的网络安全态势感知技术必然成为网络管理的发展方向。网络安全态势感知是应用数据融合的方法,将来自不同安全检测工具的报警信息进行融合来分析当前网络的安全状况,并根据当前的状态预测下一步网络将会受到的攻击行为。网络非均衡数据异常分类作为网络安全态势感知最重要的一个环节,为安全态势提供非常重要的安全信息和决策。它运用到的技术包括数据挖掘技术、融合技术以及可视化等技术。本文主要运用数据挖掘相关技术,对整个网络安全态势感知中非均衡数据异常分类进行研究,这些数据是基于时间和主机的网络流量统计,如何实现高效准确的网络非均衡数据异常分类是网络安全所面临的一个严峻的挑战。为了解决这个问题,本文针对网络数据的特点做了如下工作:(1)通过分析传统的网络数据异常分类模型,结合数据的特点,针对异常分类系统存在的两个问题在数据预处理阶段做出改进:一是数据属性冗余和属性权重问题,运用粗集理论对各个属性赋予权重并进行属性约减;二是粗集理论中连续数据离散化问题,提出了针对数据特点的自适应离散化算法,该算法是根据属性值分布来确定离散间隔。实验表明该算法相比其他算法提高了异常分类的准确率,而且减少了断点数和剩余条件属性个数,减少了空间维数,提高了异常分类的效率。(2)在异常分类的阶段,本文针对新异常分类问题和非均衡数据提出了解决办法。随着时间的推移、技术的进步,网络中会不断出现新的异常类,针对这一问题提出了实时更新异常模型来解决新异常分类问题。另外一个问题就是网络中具体异常行为相对正常行为较低,导致数据分布非均衡,这样对网络具体异常分类效率比较低。本文针对这一问题提出先用单分类器,来处理正常数据和异常数据的分类,当出现少数异常数据的时候再用快速最近邻分类器进行分类,这样在大部分时间内是单分类器在工作,大大减少了工作量提高了效率。(3)基于以上提出的方法,应用经典的KDD99数据完成算法的仿真实验,实验对比了其他相应的算法。实验结果证明本文提出的算法高效性和准确性。

马刚[9]2008年在《关联规则挖掘在电子商务中的研究与应用》文中研究指明随着信息技术和互联网技术的发展,电子商务作为一种新型、高效的商务模式开始普及,现在用户可以在计算机前轻点鼠标就能完成复杂的商品买卖行为,但电子商务在给人们带来方便、快捷的同时也带来了信息过载的问题,尤其是对B2C电子商务而言,用户在大量产品信息中很难找需要的商品或服务。数据挖掘技术可以解决这类问题,通过关联规则挖掘,找出销售的商品之间﹑商品与客户之间的存在内在联系,对于电子商务中个性化商品推荐﹑企业的市场定位以及相应的进销存策略有非常重要的指导意义。本文详细描述了关联规则挖掘的基本理论以及关联规则挖掘的经典算法Apriori算法,分析了在电子商务领域中,Apriori算法存在着规则冗余度大、效率不高和不能挖掘定量规则等问题,文中提出了基于粗集的关联规则挖掘算法,由于粗集理论的特性,该算法能够较好的应用在电子商务领域中,处理好上述问题。本文还重点研究了电子商务发展的一个重要趋势:个性化服务。个性化推荐是实现个性化服务的技术手段,文中介绍了现在流行的几种常用的电子商务推荐技术如基于内容的推荐、基于协同过滤的推荐和基于关联规则的推荐,分析了它们存在的不足之处,并提出了基于关联规则挖掘和ART神经网络的电子商务推荐技术,该推荐技术不仅能根据用户的浏览行为或购买行为进行推荐,还将用户划分成不同的组,根据用户组的特征来进行相关的推荐,本文最后还在该推荐技术的基础上实现了一个原型的电子商务推荐系统,以验证该推荐技术的可行性及应用性。

杨宝华[10]2005年在《基于粗集的数据挖掘算法研究及应用》文中研究说明随着数据量的飞速增长,数据挖掘成为从大量数据中发现知识的重要手段。粗集是一种处理模糊和不确定性数据的工具,因而成为数据挖掘中的重要框架。约简和核是粗集理论的核心内容,数据经过约简后更有价值,更能准确的获取知识。本文针对粗集展开如下工作: 首先,本文在国内外有关数据挖掘(DM)与知识发现(KDD)方面的学术研究成果的基础上,研究了数据离散化处理和数据泛化的方法;讨论了属性约简的基本算法;研究了属性约简的典型算法,包括基于逻辑运算的属性约简算法、基于频度的属性约简算法、基于属性依赖度的属性约简算法、基于信息熵的属性约简算法,并分析了各约简算法的时间复杂度;提出了后删除属性的约简算法,该算法无需求核运算,节省了时间和空间,简化了求解过程。 其次,本文在约简的基础上研究了最简规则提取算法、典型规则提取算法;研究了决策树建立的算法,在讨论了ID3算法的基础上提出了基于粗集的决策树建立,并以实例验证其正确性。 最后,本文在上述理论方法研究的基础上,设计了基于Rough Set的知识发现工具。

参考文献:

[1]. 基于粗集理论的数据预处理及应用研究[D]. 刘春亚. 重庆大学. 2003

[2]. Web信息提取及知识发现方法研究[D]. 陈红叶. 合肥工业大学. 2002

[3]. 基于客户集群和拓扑理论的CRM模型与算法研究[D]. 白爱民. 天津大学. 2006

[4]. 基于粗集理论的数据挖掘中数据预处理的方法研究[D]. 刘伟. 长春理工大学. 2005

[5]. 商业数据流降维方法及其聚类算法研究[D]. 梅铮. 浙江工商大学. 2011

[6]. 基于过程监控的数据挖掘系统及其应用[D]. 辛旭明. 东华大学. 2003

[7]. 粗集理论及其在数据预处理过程中的应用[D]. 张振华. 昆明理工大学. 2002

[8]. 网络安全态势感知中非均衡数据异常分类的研究[D]. 张涛. 天津理工大学. 2014

[9]. 关联规则挖掘在电子商务中的研究与应用[D]. 马刚. 上海交通大学. 2008

[10]. 基于粗集的数据挖掘算法研究及应用[D]. 杨宝华. 合肥工业大学. 2005

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于粗集理论的数据挖掘的数据预处理研究
下载Doc文档

猜你喜欢