数据挖掘技术在风力发电中的应用综述论文_安宁宁,李伟

（中国广核新能源控股有限公司内蒙古分公司内蒙古呼和浩特 010000）

摘要：社会在发展，现代化建设的发展也日新月异。风能作为可再生能源中的一种，利用到电力生产行业中已有30多年的历史。近10年来，由于化石能源危机，风力发电的需求迅速增大，风电机组全球装机容量从21世纪初的24GW，发展到如今的539GW，关于风力发电各方面研究逐步推进，已由粗放向精细化转变。目前，在风力发电领域中，已有多种研究手段和分析方法。在风电机组的故障诊断中，有通过提取振动信号做频谱分析确定故障形式的方法，通过声发射技术诊断故障的方法；对传动机械的状态监测和预警以测量传感器为基础，现有机械振动、热红外、超声和声发射、润滑油光谱铁谱、温度和噪声监测；风力发电功率预测有多种研究方法，有对于功率直接预测和通过预测风速来间接预测，有通过参考地形、天气等建立预测模型的方法，还有通过风电场测量数据和功率建立映射关系的统计模型预测法。在风力发电系统最大功率跟踪的研究中，传统方法有叶尖速比法、爬山法和最佳特性曲线法。学者通常在非线性控制律设计基础上引入观测器法、模糊推理法、卡尔曼滤波法、支持向量机等辨识技术，建立一个基于辨识的复合控制模型。

关键词：数据挖掘技术；风力发电；应用综述

引言

在研究过程中，学者发现风电机组复杂多变的工况、模型的多参数非线性特性和庞大的运行数据量是研究的难题，并开始思考解决这些难题的方法。由此数据挖掘技术引起了学者们的注意，研究人员开始通过数据挖掘技术，探索风力发电机组海量运行数据中蕴含的信息。本文详细叙述了数据挖掘的概念及其算法，讨论了其在风力发电领域的应用，并对未来研究的发展方向进行了展望。简述了目前风力发电系统中所用的研究方法，然后介绍了数据挖掘技术的几种常用算法，列举了风力发电领域现有研究中数据挖掘方法的应用现状，最后展望数据挖掘技术在风力发电中应用的研究发展方向。

1数据挖掘的概念及主要算法

1）分类算法，通过对数据训练集的分析研究，发现分类规则，从而具备预测新数据类型的能力。其算法分为两个阶段：构建模型阶段和使用模型阶段。在第一阶段中，将已知的训练数据集进行分析和学习，构建一个准确率较为满意的模型来用于描述特定的数据类集；后一个阶段则是对第一阶段中构建好的模型，加入未知的数据对象，使模型对其进行分类。决策树（decisiontree）分类法是一种简单但使用广泛的分类技术，它使数据由根结点出发，经过内部结点的层层分枝分类，最终将数据分到相应的根结点类别中，随机森林（RandomForest，RF）算法则是许多个决策树分类器进行投票组合，从而提高分类准确率。K-近邻（K-nearestneighbor，K-NN）通过计算每一个测试样例与所有训练样例间的距离，找出与其最近的样例进行分类。人工神经网络（ArtificialNeuralNetworks，ANN）算法模拟了生物神经系统而研发，通过训练样本学习获得参数建立模型，继而对样本中的其余数例分类。支持向量机（supportvectormachineSVM）算法基于统计学理论，在类似超平面的高维空间计算求最优分类超平面。朴素贝叶斯（NaiveBayes，NB）分类法基于贝叶斯公式理论，依据样本先验概率与类条件概率计算属于各分类类别的概率来划分其确定类。2）聚类分析研究把相似的事物归位为一类，通过静态分类的方法把相似的对象分为不同的组别和或子集，同一个子集中的对象都有相似的一些属性，不同子集中的对象是不同的。常用的K均值（K-means）聚类算法，指定K个初始质心，样本被分派到最近的质心形成簇，基于簇中样本点的中心更新质心，重复分派直到簇不变，得到的K个聚类中每个样本点都属于离它最近的类。模糊C-均值聚类算法步骤与K-均值相仿，但其簇的边界是模糊划分的，簇中每个点拥有一个权值，表示其属于该簇的权重。3）关联分析，发掘隐藏在数据集中有意义的联系，通过关联规则或频繁项集的形式表现。风力发电应用中常见的Apriori算法是一种挖掘布尔关联规则频繁项集的算法，通过逐层搜索迭代获得频繁项集。

期刊文章分类查询,尽在期刊图书馆FP-增长（Frequent-patterngrowth）算法将频繁项集的数据库压缩到频繁模式树中并保留关联信息，FP-树被分化成条件库进行挖掘，将数据库频繁模式的挖掘问题转换成挖掘FP-树的问题。

2数据挖掘在风力发电中的应用

2.1故障诊断

早些年数据挖掘技术在风电机组故障诊断中的应用还不是特别成熟，仅局限于理论研究和仿真模拟。建立了一种改进粗糙集理论的C4.5决策树模型对风电机组齿轮箱系统进行故障诊断，准确率达88.5%，与单独的C4.5算法诊断的时间相比大大减少，提高了诊断速度。对一组风电机组故障数据采用决策树算法验证了数据挖掘在风机故障诊断中的有效性。从近几年的文献可以看出，数据挖掘技术在风电机组故障诊断中的应用研究越来越多，提出了一种模糊聚类的方法，利用聚类结果构建目标函数，将模糊传输闭包和目标函数结合挖掘敏感尺寸，以此来获得能够用于齿轮箱故障诊断的特征向量。通过实验证明挖掘出的旋转部件振动信号的敏感特征参数被用作最佳特征向量来诊断齿轮箱的故障，且有较高的可靠性。

2.2发电功率预测

建立功率曲线模型，对现代变桨调节风力发电机组数据进行性能研究。实验建立了集群中心模糊逻辑（CCFL）、神经网络和K-NN模型，开发了自适应神经模糊干扰系统（ANFIS）模型，该模型可在训练阶段调整隶属函数（MF）参数来学习非线性信号关系，依据风电机组的SCADA系统参数进行发电功率预测。分别建立单输入模型和多输入模型，单输入模型以风速为输入，多输入模型以风速、风向和环境温度为输入，输出均为功率。比较每种数据挖掘方法在两种模型中的平均绝对误差和实际有效值。在单输入模型中，几种方法差距不大，预测的结果拟合效果一般；而在多输入模型中，神经网络和ANFIS展现出了其优越的非线性建模的性能，预测曲线与实际功率非常拟合。证明风速、环境温度和风向是建立风力发电机功率曲线监测数据挖掘模型的重要参数，且后两者作为附加输入来强化算法模型能提升模型提早检测异常功率输出的性能。在4种算法中，ANFIS算法具有最佳的度量性能，且其异常功率输出检测方面的性能也为最佳。文献[23]最后提出未来这个课题的研究方向应集中在如何进一步减少预测误差的方差上。

2.3监测和预警

利用SCADA系统上收集的数据，对风力发电机的电刷故障进行早期预测。风力发电机组的SCADA系统上记录的参数有100多个，文中使用领域知识，将初始维度减少到50维，又通过卡方统计、增强树和具有遗传搜索的包装算法分别对10种参数进行计算简单平均值，评估所选参数在分类故障和正常情况中的作用，以对选择加入到故障预测的参数进行降维。使用基于Tomek链接的采样方法和基于随机森林的数据抽样方法，对大量的SCADA数据中存在的类别不平衡度进行降低，使输出类的正常和故障实例的比例较为接近。然后使用多层感知器（MLP）、增强树、K-NN和SVM数据挖掘的算法，构建时间戳的预测模型，结果增强树算法显示出对输入类不平衡的良好的鲁棒性，优于其他3种算法。再利用增强树算法对故障进行预测，在37个故障中能正确预测31个，127个正常情况正确预测101个。在增强树算法的优异表现下，将其分别和Tomek连接、Tomek连接结合随机森林的数据抽样方法结合，结果显示，第二种数据预处理方法的故障预测具有更高的准确度。

3结语

利用数据挖掘技术进行风电机组的故障诊断，能在保证故障诊断正确率的基础上同时有着较高的运算性能，实现海量监测数据下诊断对实时性和准确性的要求。在风力发电机组的故障预测方面，数据挖掘方法可以参与故障预测的参数提取、预处理、建模过程，具有一定的灵活性和创新性。

参考文献：

[1]闫萧.基于工况辨识的风电机组故障预警方法研究[D].河北保定：华北电力大学，2017.

论文作者:安宁宁,李伟

论文发表刊物:《电力设备》2019年第3期

论文发表时间:2019/6/11

标签：算法论文; 模型论文; 数据挖掘论文; 方法论文; 数据论文; 故障论文; 风力发电论文; 《电力设备》2019年第3期论文;

数据挖掘技术在风力发电中的应用综述论文_安宁宁,李伟

猜你喜欢