关键词:电力;通信网;告警;处理
0 引言
电力通信网中所传输的数据信息较多并且较为复杂,容易出现告警行为。在电力通信设备中,告警是由在特定事件发生时设备发出的通报而构成的一种事件报告,用于传递告警信息。告警表明网络或设备在某个监测点监测到的特定结果,该结果不一定是由故障导致。电力通信设备的告警有两种表现形式,一种是以灯光或声音形式在监测到相应告警的物理设备上表现,这种表现形式一般只能表明该告警的告警级别;另一种是以告警信息的形式在专业网管上表现,本文主要分析了电力通信网告警影响分析与处理实现技术。
1 电力通信网的原理
电力通信网中包括通信网络设备、传输线路和管理平台等,按照一定的通信协议实现数据信息的采集和分析。当电力通信设备发生故障时,一个故障点可能会引起几十条甚至上百条告警数据,大量的告警间存在着复杂的激励和扩散关系,在传统的电力通信运维监控工作中[1],这只能靠以往的工作经验进行分析与判断,通过对“仿真故障激励和扩散定位关键技术”的研究,提出“故障激励和扩散定位分析”的概念,实现了对大量告警的激励和扩散定位分析,将多条告警分析转化成一条包含更多信息的告警,从而迅速、准确的反映出电力通信设备故障产生的根本原因,有效的缩短了故障分析时间,加快了故障处理效率。
2 电力通信网的告警
电力通信网产生告警的影响因素较多,主要的告警类别如下所述:一是SDH设备线路端口的信号类告警,对华为SDH设备,线路端口的信号类告警可以参考SDH告警信号流来选择。二是SDH设备保护倒换类告警,华为SDH设备常见的保护倒换类告警主要有以下几种:如复用段保护倒换失败指示告警,产生该告警的可能原因有:复用段配置参数错误、复用段配置丢失。其次是复用段状态指示告警,当复用段处于倒换态时上报此告警。产生该告警的可能原因有:下发了外部倒换命令、线路信号告警导致复用段保护组进入倒换态、业务或交叉单板故障、复用段保护组属性配置错误[2]。三是电源告警,华为传输设备常见的电源类告警主要有以下几种:电源状态告警用于指示机柜支路电源的告警状态。当检测到各支路电源掉电时产生此告警。产生该告警的可能原因有:支路电源或设备的输入电源掉电、PDU故障、PMU故障。其次是电源严重欠压或过压告警,机框输入电源电压过低或过高时产生此告警。产生该告警的可能原因有:输入电源电压过低、输入电源电压过高、子架上无输入电压、子架的保护地和电源的工作地线没有共地、SCC单板故障。
四是网元设备通信告警,如网关网元设备通信失效告警,该告警只会由网络中的网关网元设备上报,表示该网关网元设备到EMS的通讯出现中断。产生该告警的可能原因有:网关网元设备到EMS的网络出现中断、网关网元设备的主控板故障、网关网元设备的监控端口失效、网关网元设备的IP地址配置出错。该告警同时会引起该网关网元设备下挂的网元设备到EMS的通信中断,产生大量的告警。五是硬件告警,如光放大器增益降低告警。当光放板的实际增益低于其标称增益3dB时,产生该告警。
期刊文章分类查询,尽在期刊图书馆产生该告警的可能原因有:单板的输入光功率过高、TDC和RDC光口之间的插损过大(OAU单板)、上报此告警的单板故障。其次是激光器发送失效告警,激光器发送光功率低于激光器输出光功率过低门限一定值后产生此告警[3]。产生该告警的可能原因有:激光器模块损坏或激光器老化。六是温度告警,如盒体温度越限告警,即当EDFA盒体实际温度偏离正常工作温度范围±5℃时产生该告警,该告警可能由单板硬件故障引起。通过将电力通信网中产生的各类告警进行不同类型分类,从而提高对于告警处理的效率,并提高电力通信数据网的安全。
3 电力通信网的告警处理技术
当电力通信网中产生了告警之后,需要分析告警产生的原因,并对问题进行排查,解决电力通信网中存在的问题或缺陷。其中对故障激励和扩散定位分析需要依托的告警采集系统来实现,并且从成本和时间条件上无法使用过于复杂的算法开发计划,因此我们选择采用基于规则的告警分析算法。故障激励和扩散定位分析对告警信息的处理主要包括7种方式,分别是:告警压缩、告警过滤、告警计数、告警抑制、告警布尔、告警泛化和故障诊断。对告警信息处理方式的选择从以下几个方面进行考虑:在故障激励和扩散定位分析过程中,考虑到电力通信硬件设备位于网络的底层,实现OSI的七层网络模型中物理层和数据链路层的功能,由此导致的故障原因主要是物理或环境因素,即使能够得到准确的故障原因仍然需要维护人员到现场处理,而无法根据故障诊断的结果通过远程处理解决故障,故障诊断功能对减轻一线运维人员的工作量作用不明显。因此我们在本次研究中主要考虑如何通过故障激励和扩散定位分析中的告警预判手段来实现电力通信故障的自动重现、精准定位,解决电力通信故障不能预演和回溯分析的问题,提升故障预判能力。
在具体的告警处理中,需要依据告警产生的原因进行分析和处理。此外按照特定的条件对任意几条存在关联的告警信息建立主从关系;所有存在主从关系的告警信息可以形成一个有序的告警队列,称为扩散告警组;该告警组中包含所有相关告警的完整告警信息,告警组中排序在前的告警是排序在后的告警的主告警,排序在后的告警是排序在前的告警的从告警;告警组中排序最前的告警是告警组内所有其他告警的主告警,作为整个告警组的代表。同时告警采集系统通过CORBA接口接收EMS发送的告警信息,而CORBA协议在传输层由TCP协议承载,在网络质量较差的情况下,TCP协议会牺牲信息的及时性来保证信息的准确性。在一般情况下,一个故障将产生数十甚至数百条告警信息,在时延大的IP网络中TCP协议会导致告警采集系统收到这些告警信息的时间产生差异,也即同一个故障产生的批量告警信息具有相同的“网管告警时间”,但“发生时间”存在数秒的差异。如果我们选取的告警相关时间窗口过小,可能导致系统将同一个故障导致的告警作为不同故障处理,这要求我们尽量选取较大的告警相关时间窗口。随着通信技术的进步,对于告警的采集也更为灵敏,也能在一定程度上提高电力通信网中的网络安全水平。
4 结论
对电力通信网中产生的告警原因及处理方法进行分析,对于提高电力通信网的运行稳定性较为关键,本文对此进行了详细的分析。同时使用一条具有更多信息量的告警信息替代多条告警信息进行故障呈现、确定能直接表明故障原因的告警、准确定位故障的过程,并在电力通信网反事故演习和优化系统平台中进行故障预演,动态呈现出故障影响的范围以及处置策略。
参考文献
[1] 江飞达, 邓振彪. 电力通信网络故障分析及处理[J]. 科技与创新(17):93-94.
[2] 李波. 电力通信传输网络常见故障分析与处理[J]. 丝路视野, 2017(25):101-103.
[3] 梁存, 徐秉仁, 陶涛. 基于人工神经网络的电力通信故障预警分析的探究[J]. 信息通信(8):9-10.
论文作者:徐静楠
论文发表刊物:《当代电力文化》2019年第15期
论文发表时间:2019/12/12
标签:故障论文; 通信网论文; 设备论文; 电力论文; 信息论文; 电力通信论文; 原因论文; 《当代电力文化》2019年第15期论文;