粗糙集理论在信息处理中的应用研究_粗糙集论文

粗糙集理论在信息处理中的应用研究,本文主要内容关键词为:粗糙论文,理论论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 前言

粗糙集理论作为一种全新的数学概念,为处理具有不完整、不一致及不确定性特征的信息提供了新的有效工具,它由波兰学者Z.Pawlak在1982年提出,在人工智能和认知科学,特别是在智能信息处理方面,诸如知识的表达、数据分析、机器学习、数据发掘、决策分析等领域得到了广泛的应用。目前,有关粗糙集的研究日益受到国内外学术界的重视,在世界各地掀起了粗糙集理论研究和应用的热潮。粗糙集已经逐渐成为信息处理研究的热点。本文从粗糙集理论的基本概念出发,着重介绍了其在智能信息处理中的应用。

2 粗糙集的基本概念

粗糙集理论的出发点是:根据目前已有的对给定问题的知识论域进行划分,然后对划分后的每一个组成部分确定其对某一概念的支持程度:肯定支持、肯定不支持、可能支持,分别用三个近似集合表示为正域、负域、边界。

2.1 知识表达系统和决策系统

定义1:设S={U,A,V,f}为一知识表达系统,U为非空有限集合,称为论域;A为非空有限集合,称为属性集合;V=ν[,a]ν[,a],为属性a的值域;f:U×A→V是一个信息函数,它为每个对象属性赋予一个信息值,即a∈A,x∈U,f(x,a)∈ν[,a]。如果A由条件属性C和结论属性D组成,C、D满足C∪D=A,C∩D=Ф,则称S为决策系统。为了表示简单,有时{U,C∩{d}}表示决策系统。

定义2:对于决策系统S={U,C∩{d}},BC是条件属性集合上的一个子集,称二元关系ind(B,{d})={(x,y)∈U×U:d(x)=d(y)ora∈B,a(x)=(y)}为不可分辨关系,其中x、y为U中的元素。

2.2 粗糙集

定义3:设K= (U,R)为一个知识库,定义ind(K)为K中所有的等价关系族,且ind(K)= {ind(P)/ Ф≠PR}。

定义4:设K=(U,R)为一个知识库,令XU,R为U上一个等价关系,当X能表示R某些范畴的并集时,X为R可定义的,否则X为R不可定义的。

定义5:给定知识库K=(U,R)对于每个子集XU,等价关系R∈ind(K)定义X关于R的下逼近:X=∪{Y∈U/Y|YX}。X关于R的上逼近:X=∪{Y∈U/R|Y∩X=Ф}。

进一步定义Pos[,R]=X,Neg[,R]=U-X,Bn[,R]=X-X分别为X关于R的正域、负域、边界集。

2.3 知识约简、核及其依赖度

知识库中的知识并不是同等重要的,其中某些知识是多余的,知识约简就是在保持知识库的分类能力不变的情况下,删除其中不重要的和不相关的知识,力求达到规则的最简化。

定义6:给定一个知识库K=(U,R),R为一族等价关系,PR且P≠Ф,称QP为P的一个约简它满足:

(1)ind(Q)= ind(P)

(2)Q为独立的,即对于每一个q∈Q都是Q中必要的也就是要满足ind(Q)≠ ind{Q-{q}}。

P的所有约简集合的交称作P的核。

定义7:P和Q为U中的等价关系,Q的P正域记为Pos[,P](Q)=UX

x∈U/Q

定义8:给定一知识库K=(U,R),且P,QR,当k=r[,p](Q)=|Pos[,P](Q)|/U时,称知识Q是k(o≤k≤1)度依赖于知识的。

2.4 知识的重要性

为了找出某些属性的重要性,需要从决策表中去掉一些属性,考查没有这个属性分类后的变化会怎样。如果去掉该属性相应的分类变化很大,则说明该属性的强度大,即重要性高,反之,说明该属性的强度小,即重要性低。

定义9:假设C和D分别为条件属性集和决策属性集,属性子集c’c关于D的重要性定义为σ[,CD](c’)=γ[,c](D)γ[,C-C’](D)。

3 粗糙集在智能信息处理中的应用

智能信息处理是现代信息技术的一个典型特征,它主要用于解决因信息量不全导致的系统病态问题,用数学模型难以描述的非线性和不确定性问题,以及计算复杂性和实时性问题。粗糙集理论为处理不精确、不完全信息提供了一种更符合人类认识的知识理论,将信息处理转变成一种逐层次逼近的知识获取行为,以其数据处理的有效性和实用性,而成为智能信息处理技术的新理论和新方法,并在众多领域取得了成功的应用。

3.1 机器学习

美国Kansas大学J.W.Grznmals-Busse 等在80年代末开发的LERS系统[5]就是一个“基于粗糙集的示例学习系统”,该系统在美国国家航空航天局NASA约翰逊.Johnson空间中心被作为开发专家系统的工具使用了多年,并且在不断改进。LERS已被用于医学研究、气候预测、环境保护等。文献[6]介绍了Rough在多智能体multi-agent系统近似推理和信息颗粒自适应演算中的应用。

3.2 数据挖掘

数据挖掘就是从大量的、不完全的、由噪声的、模糊的、随机的数据中,提取隐含在其中的人们事先未知、但潜在有用的信息和知识的过程。利用粗糙集理论来处理数据挖掘有着较传统挖掘工具不具备的优点。粗糙集理论处理数据不需要对数据的了解,即不再需要对数据的先验信息;比如说统计学中的概率分布、Dempster –Shafer理论中的概率赋值、或者模糊集理论中的隶属度或概率值;基于粗糙集的数学模型更易于被理解。

近年来粗糙集理论在数据挖掘中由最初的分类,随着研究的深入,在数据预处理方面(包括数据清理、数据规约、数据集成和变换、概念分层和离散化处理)显示了强大的功能,基于粗糙集理论的方法逐渐成为数据挖掘主流方法之一。

在过去的几年中,国内外建立了许多基于粗糙集的数据挖掘系统。其中最有代表性的有:KDD-R:是由加拿大的Regian大学开发的基于可变精度粗糙集模型和知识发现的决策矩阵的数据分析系统,本系统被用来对医学数据进行分析,以此产生症状与病症之间新的联系,另外它还支持电信工业的市场研究。Rough Enough:是由挪威公司开发的数据挖掘工具,该系统根据信息系统计算得到可辨识矩阵,并利用许多工具进行集合近似,最后得到约简结果。文献[7]介绍了粗糙集在智能信息检索中的应用;文献[8]提出了基于粗糙集理论的文本分类方法;文献[9]提出了一个大数据系统的数据清洗模型;文献[10]则介绍了粗糙集在核能安全方面的应用。

3.3 决策分析

波兰Poznan科技大学基于粗糙集开发了ROSE系统[11]用于决策分析,该系统可以在分析以往大量经验数据的基础上归纳出决策规则,用于辅助决策;J-Stefanowski[12]总结了基于粗糙集方法获取的决策规则集的三种类型,最小集、穷尽集、和满意集,详细讨论了其不同的算法,并通过大量的机器学习数据对各算法的性能进行了测试和比较。文献[13]运用粗糙集理论和方法对招标风险决策表的属性和属性值进行分析得出招标风险决策。

3.4 粗糙控制

Rough control是根据粗糙集理论从观测数据中获得控制策略的一种智能控制方法。W-ziarko用粗糙集方法实施城市铁路通道控制[14],将铁路沿线固定站点的交通控制看作一个决策属性表,通过粗糙集从现有数据中获取行驶方案的决策规则;文献[15]设计了逼近时间粗糙控制器将粗糙集方法与传统PID控制相结合,对卫星姿态角控制系统中的仰角进行成功的控制。

此外,粗糙集理论在材料科学、信号和图像处理、机器诊断、地震预报等领域也都有成功的应用。

4 粗糙集理论的研究方向

粗糙集理论以其独特的优势正在赢得越来越多的研究者关注,然而这仍是一门年轻的学科,其今后研究的主要热点包括以下几个方面。

4.1 高效的约简算法。已经证明约简的求解是NP-hard问题,导致此问题的主要原因是属性的组合爆炸。高效的约简算法是粗糙集应用于知识发现的基础。国内外学者在这方面做了大量的研究,现尚不存在一种非常有效的方法,因此寻求快速的约简算法是粗糙集理论的研究热点之一。

4.2 大数据集问题。现实中的数据库已经越来越大,如何降低算法的执行效率和复杂度是粗糙集理论需要应对的一个挑战。

4.3 噪音、数据缺少处理方法。粗糙集理论应用于数据分析时,会遇到噪音、数据缺少等一系列经典理论解决不够理想的问题。建立处理不完备信息系统的扩展粗糙集模型也是粗糙集理论的研究方向。

4.4 粗糙逻辑。基于粗糙集的不精确推理曾被认为是粗糙集应用研究中最重要的课题之一,粗糙集逻辑理论还待进一步系统化和形式化。

4.5 粗糙集理论与其它理论融合。粗糙集理论与其他数据分析方法不是对立的,因而粗糙集与神经网络、模糊集、随机集、图论等方法相融合的研究都是很有意义的。

5 结束语

粗糙集理论为处理不精确、不完全信息提供了一种更符合人类认知的知识理论;粗糙集理论的生命力在于它具有较强的实用性,可以适用各种实际应用,随着粗糙集理论研究的不断完善,它的应用会越来越广泛。

标签:;  ;  ;  ;  

粗糙集理论在信息处理中的应用研究_粗糙集论文
下载Doc文档

猜你喜欢