浅谈XX地区调度数据网双RR故障分析与解决论文_张羽松,胡昌跃

浅谈XX地区调度数据网双RR故障分析与解决论文_张羽松,胡昌跃

(贵州毕节供电局 贵州毕节 523200)

摘要:XX地区新建调度数据网在运行过程中,发现路由震荡后所有跨网业务会中断,原因是省网调度数据网无法接受到正确的地区调度数据网业务的路由,经过分析和排查,确定是路由器双RR故障导致,本文从故障表现形式、故障原因分析、处理方法和最终故障解决分别介绍。此文希望可以提供一些有价值的探讨和实践方向供大家学习和讨论。

关键词:调度数据网;路由器双RR;路由震荡

Analysis and Solution of Double R Fault in XX Area power dispatching data network

Abstract: During the operation of the new power dispatching data network in XX area, it was found that all the inter-network industries after the router oscillation occurred.The business meeting was interrupted because the provincial network power dispatching data network could not accept the correct routing of regional power dispatching data network services.After analysis and investigation, it was determined that the double RR fault of router was the cause.This paper introduces the fault manifestation, fault cause analysis, treatment method and final fault solution separately.This article hopes to provide some valuable discussion and practical direction for everyone to learn and discuss.

Key words : power dispatching data network;Router Double RR;Routing Oscillation

一、概述

近年来南方电网开始逐步建设一体化电网运行智能系统(operation smart system,OS2),以实现对电网横向到边、纵向到底的统一规范管理。电网发展方式的转变,对信息传输通道的业务兼容性、传输可靠性和承载能力提出了更高的要求。XX地区调度数据网覆盖XX地区电网35kV与110kV变电站。建设以IP技术组网,采用BGP MPLS VPN技术隔离业务。本文所述所用设备主要涉及某网络路由器RG-RSR7716和RG-RSR20-14F,及其它辅助配套设备。XX地区调度数据网于2016年底完成建设,同时为了加强调度数据网层次化管理,提高管理效率,根据南方电网公司关于建设XX地区调度数据网决定,将新建XX地区调度数据网接入省调度数据网网络,原XX供电局直连省调二次安防设备迁移至新建地区调度数据网,从而实现分级管理。将地区网核心A和500KV变电站汇聚层设备分别与省网调度数据网采用B方式跨域实现互联互通。

二、故障表现形式:

核心路由器A与业务交换机所连的链路,只要有端口shutdown或者链路故障都会引起直连路由消失,从而导致EBGP路由更新,所有跨网实时业务中断;;核心路由B与业务交换机互联的链路故障也会导致业务全部中断。当链路故障会导致业务全部中断;推断与实际相符合即是当核心路由器A或核心路由器B故障也会导致所有业务中断,无法形成冗余备份。业务中断故障时查看地区调度数据网侧查看路由表项,发现所有跨网业务路由均存在,就是无法ping通。省网调度数据网侧查看路由表项,发现XX地调侧二次安防路由全部消失。当将核心路由器A或核心路由器B的RT值删除再配置,路由重刷新,网络恢复正常,每次网络震荡必须手动刷新RT值,否则所有跨网业务中断。

三、故障原因分析:

结合现场实际拓扑分析得出,目前此路由器运行的 BGP不支持现场相同RD(1234:100)场景,其原因在于BGP的VPNV4表区分本地RD路由表和远端RD路由表,用于保存路由。本地RD路由表:通过本地重分发IGP路由协议使其学习到的相关路由条目。远端RD路由表:通过邻居通告的VPNv4路由所学习到的路由条目。当同一条路由条目分别通过本地RD路由表和远端RD路由表同时优选后,只有最后被优选的路由条目才通告给EBGP邻居,而对于邻居而言两条相同RD值的路由被认为是同一条路由就会将之前学习到的路由给覆盖(于此同时,撤销路由时只要有一条远端或本地的路由消失,都会产生撤销通告),出现了本次现场的路由覆盖的情况。下面为具体原因分析:核心路由器A与核心路由器B VRF:RT-VPN配置相同RD(1234:100),导致覆盖问题。

期刊文章分类查询,尽在期刊图书馆

路由更新过程:

VRF:RT-VPN路由192.168.11.0/28 在核心路由器A上从OSPF重分发到BGP后保存在本地表(RD:1234:100),本地优先生效后更新到省调度数据网设备,此时RT(核心路由器A同步)值是正确的。

与此同时,VRF:RT-VPN路由192.168.11.0/28在核心路由器B上BGP再发送给核心路由器A保存, 虽然RD也是1234:100,但此时保存在核心路由器A的远端RD路由表中,在远端表优选后生效后,也更新到省调度数据网设备,此时携带的RT(R2传递时携带)由于RT值相同导致更新后192.168.11.0/28只携带了核心路由器B的RT字段。对于省调度数据网设备而言,两次更新的是同一条路由,路由192.168.11.0/28是以最后接收到的为准,从而导致后更新的覆盖之前的路由、RT字段异常。

路由撤销过程:

对于省调度数据网设备而言,两次更新的是同一条路由,路由192.168.11.0/28是以最后接收到的为准。地区调度数据网路由器不论核心A或核心B在有变化(如端口关闭,路由震荡等问题时)撤销192.168.11.0/28时,都会引起省调度数据网路由器的该条路由撤销,导致没有路由到达该网段,引起路由丢失。

四、解决方案

针对该场景,提供解决方案如下

1.更改路由器RD值,地区调度数据网核心A和核心B拥有不同的RD值,这样路由更新时便不会相互覆盖,不会引发错误撤销路由,导致路由丢失。(但是根据《南方电网数据网络技术规范》第5.3.6.2 RD的设置要求RD应使用“16位:32位”格式,分配规则为“AS号:VPN类别”。根据调度数据网自治域分配表,RD设置如下:

1)实时VPN——AS:100;2)非实时VPN——AS:200。

(即是同一AS内,实时业务或非实时业务的RD值必须一致)所以此方案弃用。

2.通过路由聚合或更改路由属性:将路由器A与路由器B相互传递的相同路由进行聚合成不同掩码大小的路由(或更改路由的属性), 同一业务服务器的路由就会变成两条不同路由,这样路由在更新传递时就不会相互覆盖,设备认为是不同的路由条目,撤销时也不会发生错误。但此方法会增加人工操作,且随业务区扩展,业务IP增多或新增加新的IP段,将在一次需要人工操作,风险不定。且调度数据网传递的是Ⅰ、Ⅱ区生产业务,生产实时控制通信通道中断导致相应等级的事件。

3.路由器底层数据修改:升级地区调度数据网路由器,会针对远端路由表及本地路由表的更新逻辑做出修改。如果远端RD路由表同本地VRF的RD值一样,则此远端RD路由表不再向邻居公告路由,只能由本地VRF的路由表往外通告路由。当相同RD值的本地VRF删除之后,远端RD路由才可向外公告路由。

五、故障解决与实践

通过路由器厂家对路由器版本进行升级,更改路由器底层的处理架构。在升级过程中,先升级路由A,导致跨网业务中断,立即手动刷新路由器B的RT值,将所有跨网业务全部转移到经省网调度数据网到500kV站点到XX地调业务服务器,业务中断时间即路由表更新收敛时间10S,核心路由器A升级好以后,对核心路由器B进行升级,已经无业务中断。当两台设备升级好以后。任意切断端口和链路,业务无中断。核心路由器A和核心路由器B互为主备,实现设计初衷。

六、总结

通过上文的叙述分析,当电力通信网络的日益发展,网络会更加复杂化,会有不同厂家的设备进入电网通信网络中,不同厂家设备间的差异时刻存在着,厂验环境与实际运用环境不同的实际情况。做为通信专业一名技术人员要时刻警惕设备运行中的风险,我们要不断学习和总结经验,提高自身水平,促进电力通信系统更好的运行。本文只是简要的分析了此路由器双RR故障分析与解决,只是采用了方案三的保险解决方法,是否会引发其它一些新问题,那是我们以后还需论证分析的。

参考文献:

【1】南方电网数据网络技术规范 第1部分 中国南方电网有限责任公司 2016

作者简介:张羽松,男,汉族,贵州省遵义市,大学本科,职称:助理工程师,研究方向:电力通信技术

胡昌跃,男,汉族,贵州省毕节市,大学本科,职称:工程师,研究方向:电力通信技术

论文作者:张羽松,胡昌跃

论文发表刊物:《电力设备》2019年第21期

论文发表时间:2020/3/16

标签:;  ;  ;  ;  ;  ;  ;  ;  

浅谈XX地区调度数据网双RR故障分析与解决论文_张羽松,胡昌跃
下载Doc文档

猜你喜欢