摘要:数据收集和存储技术的进步促使商业和科研领域产生了海量数据集,从数据中提取有用的信息的想法促进了数据挖掘技术的产生和发展。本文就数据挖掘技术在风电设备中的应用进行了探讨。
关键词:数据挖掘技术;风电设备;应用
前言
信息技术飞速发展背景下,数据规模持续扩大。大数据时代的到来,增加了数据分析和数据处理的难度。数据挖掘技术是以现代计算机信息技术为支撑,通过构建数据库的方式实现数据信息的处理。从海量数据中挖掘有价值的信息,能更好地适应大数据的发展要求。为提升数据的精准度和利用率,必须对不完全模糊数据进行信息筛除。
1 数据挖掘技术的原理
1.1 粗糙集属性约简原理
粗糙集理论由波兰学者Z.Pawlak于1982年提出,其主要作为数学工具使用,目的为处理模糊问题、不确定型问题。实际应用过程中,粗糙集理论能够基于运算进行分析与处理,将各类不精确、不一致数据通过发掘数据间联系的方式进行提取,最终实现有用信息提取、简化信息处理。技术层面中,粗糙集将客观世界的信息系统抽象对待,将客观世界作为一类“系统”。以S=(U,A,V,f)为运算公式。其中U为对应项目的非空有限集,被称为论域。A为属性的非空有限集,V为属性A的值域。f为U*A→。V为信息函数,即代表a∈A,x∈U,f(x,a)∈Va。其中,若A的表示方式为条件属性C与决策属性D,那么可以将A视为C∩D,C∩D=,即将其视为决策表。除此以外,根据信息论中关于知识定义的P(属性集合)的熵、条件熵概念,可将P的熵H(p)确认为H(P)=-(Xi)log(P(Xi))。知识属性结合过程中,Q(U\IND(Q))={Y1,Y2,…,Ym}。针对原始决策表展开分析,其中所具备的各项条件并非必要属性,实际过程中部分属性较为多余,去除此类属性不会影响原有表达效果,此即为粗糙集算法的优势所在。
1.2 朴素贝叶斯分类算法及原理
朴素贝叶斯算法为贝叶斯网络中的一种。贝叶斯网络亦可称为因果网络与信度网络,其主要原理为利用有向图形式较为直观地展现随机变量向的因果关系,并将概率信息应用至实际,体现随机变量间的因果关系同时利用条件概率将此类关系有效量化,随后展开计算。皮素贝叶斯分类为贝叶斯方法中较具有实用型的方式,适用于多种场合,能够切实以概率密度函数作为计算、阐述基础,将分析类统中的条件属性与分类属性进行明确,切实确认而这会之间的映射关系。较其他算法而言,此算法具有出错率小、容错率高的优点。针对朴素贝叶斯分类的原理展开分析,其主要假定属性变量间相互条件较为独立。且其中所存在的每个属性节点X仅存在单一关联性,即其与类节点C之间的联系。在分析合集的过程中,令U={X1,X2,X3,Xn,C}。其为离散随机变量的有限集。其中X1,X2,X3,…Xn为属性变量,而属性变量的取值范围与实际关联较为密切。可以实际过程展开假设,若故障样本为X={X1,X2,X3…Xn},可准确确定样本的故障范围。根据贝叶斯定理,其可表示如下:
其中,P(Ck)为Ck的先验概率,主要意义在于根据数据分析获得其发生概率,随后将后验概率加以分析,得到信息后进行修正,保障其概率较为标准,且反应样本数据对类Ck的影响。
2 数据挖掘技术类型
第一,统计分析型。该类型强调依照一定规律来挖掘数据,是最成熟的一种数据挖掘技术。实际应用的数据挖掘工具有变量分析、聚类分析及时间序列分析等。先通过数据分析找出存在的规律,然后运用不同模型完成数据挖掘。
第二,知识发现型,该类型的基本原理是从数据仓库中过滤有用信息,然后对其中隐含的位置信息进行挖掘。知识发现型数据挖掘技术的典型应用包括人工智能神经网络和DNA遗传序列组等。
第三,其他数据挖掘。该类型包括文本数据挖掘、空间数据挖掘、分布式数据挖掘以及万维网数据挖掘等。对于文本等非机构数据,采用文本数据挖掘;对于地理影像数据,采用空间数据挖掘;对于网络数据,采用万维网数据挖掘。
3 数据挖掘在风力发电中的应用现状
3.1 故障诊断
早些年数据挖掘技术在风电机组故障诊断中的应用还不是特别成熟,仅局限于理论研究和仿真模拟。建立了一种改进粗糙集理论的C4.5决策树模型对风电机组齿轮箱系统进行故障诊断,准确率达88.5%,与单独的C4.5算法诊断的时间相比大大减少,提高了诊断速度。对一组风电机组故障数据采用决策树算法验证了数据挖掘在风机故障诊断中的有效性。从近几年的文献可以看出,数据挖掘技术在风电机组故障诊断中的应用研究越来越多,一种模糊聚类的方法,利用聚类结果构建目标函数,将模糊传输闭包和目标函数结合挖掘敏感尺寸,以此来获得能够用于齿轮箱故障诊断的特征向量。通过实验证明挖掘出的旋转部件振动信号的敏感特征参数被用作最佳特征向量来诊断齿轮箱的故障,且有较高的可靠性。
3.2 发电功率预测
建立功率曲线模型,对现代变桨调节风力发电机组数据进行性能研究。实验建立了集群中心模糊逻辑(CCFL)、神经网络和K-NN模型,开发了自适应神经模糊干扰系统(ANFIS)模型,该模型可在训练阶段调整隶属函数(MF)参数来学习非线性信号关系,依据风电机组的SCADA系统参数进行发电功率预测。分别建立单输入模型和多输入模型,单输入模型以风速为输入,多输入模型以风速、风向和环境温度为输入,输出均为功率。比较每种数据挖掘方法在两种模型中的平均绝对误差和实际有效值。在单输入模型中,几种方法差距不大,预测的结果拟合效果一般;而在多输入模型中,神经网络和ANFIS展现出了其优越的非线性建模的性能,预测曲线与实际功率非常拟合。
3.3 监测和预警
利用SCADA系统上收集的数据,对风力发电机的电刷故障进行早期预测。风力发电机组的SCADA系统上记录的参数有100多个,文中使用领域知识,将初始维度减少到50维,又通过卡方统计、增强树和具有遗传搜索的包装算法分别对10种参数进行计算简单平均值,评估所选参数在分类故障和正常情况中的作用,以对选择加入到故障预测的参数进行降维。使用基于Tomek链接的采样方法和基于随机森林的数据抽样方法,对大量的SCADA数据中存在的类别不平衡度进行降低,使输出类的正常和故障实例的比例较为接近。然后使用多层感知器(MLP)、增强树、K-NN和SVM数据挖掘的算法,构建时间戳的预测模型,结果增强树算法显示出对输入类不平衡的良好的鲁棒性,优于其他3种算法。再利用增强树算法对故障进行预测,在37个故障中能正确预测31个,127个正常情况正确预测101个。在增强树算法的优异表现下,将其分别和Tomek连接、Tomek连接结合随机森林的数据抽样方法结合,结果显示,第二种数据预处理方法的故障预测具有更高的准确度。
结语
经济的发展使社会对电能的需求持续增长,电网规模迅速扩大。运营监控工作直接影响电网的稳定、可靠运行。电力企业面对新的发展环境,应积极探索新的方法来保证电网运营监控工作效果。将数据挖掘技术应用到电网运营监控平台建设,可实现海量数据的高效处理和深入挖掘,方便工作人员掌控和使用数据信息,保障电网的稳定、可靠运行。数据挖掘技术在风力发电机组模型建立方面的应用的良好结果非常值得关注,这对后续风力发电的研究有深刻的意义。
参考文献:
[1]叶春霖,邱颖宁,冯延晖.基于数据挖掘的风电机组叶片结冰故障诊断[J].噪声与振动控制,2018,38(S2):643-647.
[2]孙鹤旭,孙泽贤,林涛.数据挖掘技术在风电机组故障诊断中的应用[J].中南民族大学学报:自然科学版,2016,35(4):81-85.
论文作者:龚中铭
论文发表刊物:《电力设备》2019年第7期
论文发表时间:2019/9/17
标签:数据挖掘论文; 数据论文; 属性论文; 算法论文; 模型论文; 技术论文; 故障论文; 《电力设备》2019年第7期论文;