数据挖掘技术在空管自动化系统中研究论文_张彦荣

华东空中交通管理局 201100

摘要:随着民航业的发展,航班量的递增,对空管自动化系统数据的研究提出新的需求。数据挖掘技术也是现在主流的数据分析的方法,在各个领域都有研究应用,本文介绍了数据挖掘的大致流程,为未来挖掘技术在空管数据中的应用奠定基础。

关键字:数据挖掘;空管自动化;

一、数据挖掘的大致流程

通过对数据挖掘技术及空管自动化系统运行数据的特点的研究,为了达到对空管数据的充分的研究利用,数据挖掘可以按照下图1所示瀑布式过程展开。主要包括构建数据集、数据清洗、数据集成、数据规约、数据变换、数据离散化、分类分析、聚类分析的过程。

二、数据挖掘流程的阐述

2.1 构造数据集

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。数据挖掘时,首先要做的是从原始数据范围中选择合适的数据,也就是提取数据,构建所需的数据集。根据对业务需求的理解,在系统研制过程中,可以预先创建并内置一批数据集,例如收集飞行计划的信息、告警信息等。

FLIGHT_PLAN_dataset//飞行计划数据集

STCA_dataset//短期冲突告警数据集

2.2数据清洗

现实世界的数据往往是不完整的、有噪声的和不一致的。数据清理的目的就是去填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

空管自动化系统的原始数据因为种种原因,会有所缺失。例如,经常因为管制员不做"INHIBITED"操作而造成最后一个扇区出界时间的丢失;航班因雷雨或者限制等绕飞,无具体的过点信息等。

数据清理中,处理缺失值的方法有很多, 包括简单的忽略元组、人工填写缺失值、常量补充缺失值、中心度量值填充缺失值、最可能值填充缺失值等。

2.3噪声数据

噪声(noise)是被测量的变量的随机误差或方差。根据空管自动化系统的数据的特点可以采用数据光滑技术来消除噪声数据。

分箱(binning)方法通过考察数据的“近邻”(即周围的值)来光滑有序数据值。这些有序的值被分布到一些桶或箱中。由于分箱方法考察近邻的值,因此它可以进行局部光滑。

回归(陀gression):也可以用一个函数拟合数据来光滑数据。这种技术称为回归。线性回归涉及找出拟合两个属性(或变量)的最佳直线,使得二个属性可以用来预测另一个。多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。

离群点分析(outlier analysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点。

许多数据光滑的方法也用于数据离散化(一种数据变换形式)和数据归约。例如,上面介绍的分箱技术减少了每个属性的不同值的数量。对于基于逻辑的数据挖掘方法(如决策树归纳),它反复地在排序后的数据上进行比较,这充当了一种形式的数据归约。

2.4数据集成

数据挖掘经常需要通过数据集成以合并来自多个数据存储的数据。数据集成有助于减少数据集的冗余和不一致,有助于提高其后挖掘过程的准确性和速度。数据集成包含实体识别问题、数值和标称数据的相关性检验、元组重复、数据值冲突的检测与处理。

例如实体识别,来自多个信息源的现实世界的等价实体如何才能匹配?这涉及实体识别问题。例如,数据分析者或计算机如何才能确信一个数据库中的 uid 与另一个数据库中的 rec_id 指的是相同的属性?每个属性的元数据包括名字、 含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值的空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用来帮助变换数据。

在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。

2.5数据规约

数据归约(data reduction)技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性。数据归约策略包括维归约、数量归约和数据压缩。

维归约(dimensionality reduction)减少所考虑的随机变量或属性的个数。维归约方法包括小波变换和主成分分析,它们把原数据变换或投影到较小的空间。

数量归约(numerosity reduction)用替代的、较小的数据表示形式替换原数据。这些技术可以是参数的。对于参数方法而言,使用模型估计数据,使得一般只需要存放模型参数,而不是实际数据。

数据压缩(data compression)使用变换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构,而不损失信息,则该数据归约称为无损的。

2.6数据变换

在数据预处理阶段,数据被变换或统一,使得挖掘过程可能更有效, 挖掘的模式可能更容易理解。

在数据变换中,数据被变换或统一成适合于挖掘的形式。数据变换策略包括如下几种:光滑、属性构造、聚集、规范化、离散化。

2.7数据的离散化

数据离散化通过把值映射到区间或概念标号变换数值数据。这种方法可以用来自动地产生数据的概念分层,而概念分层允许在多个粒度层进行挖掘。离散化技术包括分箱、直方图分析、聚类分析、决策树分析和相关分析。对于标称数据,概念分层可以基于模式定义以及每个属性的不同值个数产生。

2.8分类分析

分类是一种重要的数据分析形式,其结果是构建分类器模型,用于预测分类的(离散的、无序的)类标号。

决策树归纳是从有类标号的训练元组中学习决策树。决策树是一种类似于流程图的树结构,其中,每个内部结点(非树叶结点) 表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点(或终端结点)存放一个类标号。树的最顶层结点是根结点。例如在航路点的归属问题上,一棵典型的决策树它可以用于决策一个离散的航路点应归于哪条航线。

大多数决策树归纳算法都沿用了自顶向下方法,训练元组集和它们相关联的类标号开始构造决策树。随着树的构建,训练集递归地划分成较小的子集。

2.9聚类分析

聚类分析(cluster analysis)简称聚类( clustering),是一个把数据对象(或观测)划分成子集的过程。每个子集是一个簇(cluster),使得簇中的对象彼此相似,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称做一个聚类。在这种语境下,在相同的数据集上,不同的聚类方法可能产生不同的聚类。划分不是通过人,而是通过聚类算法进行。聚类是有用的,因为它可能导致数据内事先未知的群组的发现。

三、总结

通过对数据挖掘技术的学习研究,以及空管自动化系统原始数据的了解,按照数据挖掘的基本思路来分析自动化系统的数据的可能应用,为日后挖掘技术在空管自动化系统的实际应用打下基础。

论文作者:张彦荣

论文发表刊物:《科学与技术》2019年第09期

论文发表时间:2019/9/30

标签:;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘技术在空管自动化系统中研究论文_张彦荣
下载Doc文档

猜你喜欢