基于大数据的电网信息运维主动监控预警系统论文_刘晓林,陈惠敏,张全升

基于大数据的电网信息运维主动监控预警系统论文_刘晓林,陈惠敏,张全升

河南送变电建设有限公司 河南郑州 450007

摘要:基于减少电力信息网络运维故障的需求,设计实现了一种基于大数据的电网信息运维主动监控预警系统,系统包含采集监控、预警分析和决策辅助三个应用模块。提出了包含状态预警、阈值预警、快变预警、趋势预警、评价预警和关联预警六种方法的电网信息运维主动预警方法体系,提供了对运维故障进行提前预警的理论基础。

关键词:大数据;预警;辅助决策

1 前言

电力信息网络是电网稳定运行的重要基础,近年来,随着国家电网公司信息化建设的快速发展,公司信息系统数量不断增加,对日常运维提出了更高的标准和需求。目前主要采取在故障发生之后进行告警和抢修的被动运维模式,这种模式导致运维人员将日常大部分时间和精力都花在处理简单且重复的“被动救火”问题上,不但事倍功半而且常会出现恶性连锁反应。公司缺乏在故障发生之前对信息运维体系进行提前预警的能力,缺乏对运维隐患进行定位和分析的能力,亚需实现以预防为主的主动运维模式。

2 预警方法设计

随着公司信息运维业务的发展,大量数据不断生成和积累:从数据类型上看,除传统的结构化数据外,还产生了大量日志、工单等半结构化数据和视频等非结构化数据;从数据处理速度上看,传统计算框架大体满足业务系统总体设计。

电网信息运维主动监控预警系统由数据采集层、集成计算层、数据分析层和预警应用层组成,通过与信息通信一体化调度运行支撑平台(sG一mono)的集成,实现了对电网信息资源的统一管理;对海量电网信息运维数据的高效分析挖掘;在故障发生之前的故障定位、故障分析、故障预警和故障解决,从而全面提升电网信息运维整体水平。

1)数据采集层。基于SNMP等数据采集协议实现对电网信息资源的运行和应用数据进行采集。系统采集的信息资源主要包括:基础设施数据、信息系统运维数据和外部数据。

2)集成计算层。实现对多源异构数据的汇聚、存储和清洗,并提供批量数据和实时流数据的计算服务。系统采用HDFS+Oracle存储框架和Hadoop+Sparkstreaming计算框架。

3)数据分析层。通过大数据分析挖掘基础算法库和主动预警方法库,提供数据分析支持。大数据分析挖掘基础算法库包含回归分析、聚类分析、分类及关联规则挖掘等基础算法;主动预警方法库提供六种主动预警方法。

4)预警应用层。基于底部支撑,实现上层应用,并提供前台交互服务。系统共包含采集监控、预警分析和决策辅助三个功能模块。

实现对电力信息网络的主动预警,对电网信息系统的稳定运行具有积极意义。近年来,王阳光、丁真真和姚继军等专家学者[[4-6〕对预警理论进行了深入研究,提出了相关领域的预警方法,且具有指导意义。

根据国家电网公司信息领域运维现状,设计了包含状态预警、阂值预警、快变预警、趋势预警、评价预警和关联预警六种方法的电网信息运维主动预警方法体系。

2.1 状态预警

在确定信息资源是否可达的前提下,将其状态分为三种:正常状态、失联状态和不稳定状态。正常状态表示信息资源每次都可达,失联状态表示信息资源连续两次不可达,不稳定状态表示信息资源经常不可达,但是达不到失联标准。

期刊文章分类查询,尽在期刊图书馆目前的不稳定状态判断原则是:一个工作日探测的288次中至少有3次不可达,且不连续,则认为其处于不稳定状态。如果信息资源处于不稳定状态,需要对其进行状态预警。

2.2 阑值预警

通过对信息资源设置风险预警阂值,将当前监测数据与预警阂值进行比较,如果监测数据不在相应的预警阂值范围内,则认为监测对象符合预警条件,生成预警事件。

传统的阂值是靠运维人员手动设置的固定值,极易造成阂值与真实值不符。阂值预警方法充分利用大数据技术,通过对历史数据的分析自适应设置动态阂值。同时,系统提供接口供用户对阂值进行手动修改,弥补系统的不足。

2.3 快变预警

信息资源监测数据需要与同类数据进行比较,若变化过于剧烈,差值大于一定比例,则认为被监测资源可能处于较大变动中,需要生成预警事件。快变预警包括横向预警和纵向预警两种方式。横向预警表示与同类资源相比较形成的预警,主要针对负载均衡集群,如果集群中某台设备的负载远远大于其他设备,则认为需要对其进行风险预警。纵向预警示与自身历史数据进行比较形成的预警,主要是基于大数据统计分析技术,对历史数据进行挖掘分析,并将分析结果应用到信息运维主动预警模型。

2.4 趋势预警

趋势预警通过对信息资源监测数据的趋势分析来判断资源是否会达到预警触发条件。趋势预警通过预警触发阂值、指标与告警阂值的差值、指标增长率这三个指标来实现短期的信息资源的

2.5 关联预警

关联分析又称关联挖掘,就是在信息系统及其基础设施的海量运行和应用数据中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关}I}或因果结构。关联充分利用大数据关联分析手段,对信息系统及其基础设施的各类指标进行关联分析,挖掘相关模式,从而实现信息资源的主动预荀笙

3 系统应用设计

3.1 采集监控模块

采集监控模块通过多采集协议(SNMP}SSH} Telnet} J1VIX} WMI} JDBC}二)实现对内部信息资源的实时监控和数据采集,通过Web Service方式实现外部数据的集成,通过伍朋e实现分布式海量日志的采集、聚合和传输,通过sqoop实现oracle和Hadoop分布式文件系统E}FS的数据传输,最后将所有数据集成到HDFS,实现全量数据的统一管理和应用。采集监控模块采集的内部信息资源数据包括两类:第一类是基础设施数据,包括主机设备、网络设备、存储设备、安全设备、数据库和中间件的实时和历史数据;第二类是信息系统运维数据,包括信息系统各个主要页面是否有响应以及响应时长等指标

采集监控模块实现对各类信息资源的监控和采集,实现内外部数据的高效传输和汇聚,是上层应用的基础。

3.2 预警分析模块

预警分析模块通过对数据的分析,实现预警信息的生成、压缩和归并。预警分析模块分为主动预警引擎和压缩归并子模块。

主动预警引擎基于大数据技术,集成了状态预警、阂值预警、快变预警、趋势预警、评价预警和关联预警六种主动预警方法,通过对各类信息资源运行异常的监测和分析,实现了各类缺陷的预判和预警信息的生成。

压缩归并子模块通过对预警信息的压缩和归并,从而实现运维故障的根源定位。压缩指的是将多次发生的同一个预警事件合并为一个单独的事件,例如某台设备出现故障,它会持续的产生网络事件,此时可以通过压缩方法来剔除掉无用的网络事件,只需要保留一条预警事件;归并指的是将多个局部预警事件综台为一个整体的预警事件,例如信息网络某个关键节点出现故障,则与该节点相连的所有设备均无法正常运行,此时可以通过归并方法来剔除掉无用的大量预警事件,只需要保留关键节点设备的预警事件。

4 结束语

本文基于国家电网公司信息运维现状,基于大数据技术,研究实现了一种电网信息运维主动监控预警方案。系统建立了包含状态预警、阂值预警、快变预警、趋势预警、评价预警和关联预警六种方法的电网信息运维主动预警方法体系,提供对运维故障提前预警的依据。系统采用模块化设计,实现了对基础设施数据、信息系统运维数据和多类型外部数据的高效分析挖掘,实现了运维态势的全面感知、运维风险的实时预警及预警事件的及时处置。

参考文献:

[1]黄拓,关晓林,凌德祥.基于大数据挖掘的电网企业风险防控体系研究与应用[J].电力大数据,2019,22(03).

[2]谈韵,万顺,张谢,陈晨.基于大数据的电网规划精益分析平台研究与应用[J].电力大数据,2019,22(02).

论文作者:刘晓林,陈惠敏,张全升

论文发表刊物:《防护工程》2019年第5期

论文发表时间:2019/6/19

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于大数据的电网信息运维主动监控预警系统论文_刘晓林,陈惠敏,张全升
下载Doc文档

猜你喜欢