摘要:本文对数据挖掘技术的分析,探讨了数据挖掘技术在检修系统中的应用。
关键词:数据挖掘算法;水电厂;状态检修系统;应用
1数据挖掘技术
随着信息技术的高速发展,人们积累下来的数据越来越多,如何能从海量的数据中提取出有用的知识成为人们研究的课题,由此数据挖掘应运而生,顾名思义,数据挖掘是从海量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但有时潜在有用的信息和知识的过程。数据挖掘与传统的数据分析方法(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和实用三个特征。
1.1数据挖掘的任务
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
1.1.1关联分析(associationanalysis)
关联规则挖掘是由rakeshapwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
1.1.2聚类分析(clustering)
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
1.1.3分类(classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
1.1.4预测(predication)
预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
1.1.5时序模式(time-seriespattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
1.1.6偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
1.2数据挖掘的过程
数据挖掘是指一个完整的过程,该过程从大量数据中挖掘先前未知的、有效的、可使用的信息,并使用这些信息做出决策或得到丰富的知识。数据挖掘过程中各步骤的大体内容如下:
1.2.1确定业务对象。
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。
1.2.2数据准备。
数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。数据的预处理:研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。数据的转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
1.2.3数据挖掘。
对所得到的经过转换的数据进行挖掘,除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。
1.2.4结果分析。
解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。
1.2.6知识的同化。
期刊文章分类查询,尽在期刊图书馆
将分析所得到的知识集成到业务信息系统的组织结构中去。
2数据挖掘技术在检修系统中的应用
2.1系统目标
基于数据挖掘技术的机组状态检修系统,旨在将在线监测的数据与各相关因素的数据组合起来进行探索性、系统性分析;然后,选择并运用数据挖掘相关算法进行剖析,得到各相关因素对设备状态影响的定量表示,根据这种表示,对设备的下一时段或者阶段进行状态的预测,并且绘制出相关状态预测曲线,从而准确的判断出设备的健康状况,从而制定检修方案。
2.2系统结构
状态检修系统立足水电厂智能化统一平台,通过设备数据接入模型和分析诊断模型的构建,实现全厂发电机、水轮机、变压器、断路器等主设备状态数据的采集、特征计算、实时监测、故障录波、性能试验记录及分析诊断。通过状态评价模型及风险评估模型的建立,实现设备当前健康状况的评估及风险分析,最终结合检修策略模型对设备进行综合评判和推理,给出设备综合评估报告及维修建议,为制定设备检修维护计划提供支持,以支撑状态检修工作的展开。
完整的状态检修辅助决策系统包含八大业务功能数据获取、数据处理、监测预警、状态评价、状态诊断、预测评估、风险评价、决策建议。功能的划分只表示逻辑意义上功能的分类,并不代表实际的软件模块。状态检修系统应通过数据服务总线技术实现对外部系统异构数据的访问调用,并完成与安全生产管理系统及其它外部系统的有效信息互联。
2.3数据预处理
数据预处理模块将在线监测所得的数据进行前期处理,包括检查数据的完整性、一致性,去除噪声,删除无效的数据等。除此之外,考虑到有时候经过数据处理得到的监测数据特征之间差异较大,为防止度量单位不同对数据挖掘结果造成的影响,首先要进行标准化处理,以保证各特征在同一个区间内取值。
2.4数据挖掘算法
聚类算法是应用最为广泛的数据挖掘算法之一,在对机组的状态进行预测评估的过程中,我们通过比较各种数据挖掘算法,结合环境温度、湿度、谐波情况,采用了聚类算法中的K-means算法。K-means算法是比较典型的聚类算法,它要解决的问题是为一个事件或者数据对象分类,可以根据输入的类的数目不同(即K值得不同),对数据集进行自动归类。本文分析了经典聚类算法—K-means算法,并且分析了原有算法在应用于海量监测数据时的不足,针对监测数据各维特征值差异较大的特点,优化了初始质心的选择,目的是使K-means聚类算法在监测数据挖掘中取得更好的效果。
2.4.1K均值聚类概念及基本原理
K-means算法以k为输入参数,把n个对象的集合分为K个簇,使得结果簇内的相似度高,而簇之间的相似度低。簇的相似度是关于簇中对象的均值度量,可以看作簇的质心或重心。
2.4.2改进的K-means算法
对于K均值聚类算法来讲,初始质心的选择会对聚类运算结果产生很大的影响,如果选择不恰当,不仅会增加算法的时间和空间复杂度,还会使得最后的聚类效果不理想。为了使得初始化选择能够更加合理,同时尽量减少因此而增加的时间复杂度和空间复杂度,本文针对原来随即选取K个质心的质心选择算法作了一定的优化,设计了一个新的质心选择算法,以此得到一个改进的K-means算法。
优化的质心选择算法首先计算标准化处理后的数据集中各个特征的平方和,然后使用快速排序算法按大小顺序排序,形成序列1,找到最大值MAX和最小值MIN,求出它们的差,然后除以k−1,得到平均的增加值ADD,由此形成了一个新的序列2,即(MIN,MIN+ADD, MIN+2*ADD,•••,MIN+(k−2)*ADD,MAX)。分别求出序列1中与序列2中元素距离最小的数值,然后找到原数据集中对应的数据元素,将它们作为初始质心。
3结语
随着状态监测系统在发电企业中的普遍应用,常规的人员监视进行人工故障诊断已经不能满足水力发电厂的需求,企业迫切需要通过先进的技术手段提高机组运营管理水平,为电力稳定生产提供决策支持。本文提出k-means聚类分析和关联规则的故障诊断方法来帮助电厂分析数据,为状态检修提供检修依据。
参考文献
[1]高起栋.基于数据挖掘技术的火电厂设备状态监测系统[J].工业技术创新,2017,4(6).
[2]丁洁.一种基于云平台的频繁项集数据挖掘改进算法[J].自动化技术与应用,2019(7).
[3]徐浙君.云计算下的一种数据挖掘算法的研究[J].科技通报,2018 (11).
[4]胡涛.基于关联规则的数据挖掘算法[J].电子技术与软件工程,2018(2):186-186.
[5]朱燕斌.水电厂主设备状态检修中数据挖掘技术的应用[J].环球市场信息导报,2018(43).
论文作者:王荔,袁苑,冯建伟
论文发表刊物:《电力设备》2019年第20期
论文发表时间:2020/3/16
标签:数据论文; 算法论文; 数据挖掘论文; 状态论文; 质心论文; 模型论文; 水电厂论文; 《电力设备》2019年第20期论文;