摘要:通过对网络设备的系统了解,对防火墙,路由器,网管交换机等网络设备及网络拓扑的组成,功能进行分析解读,对日常维护生产过程中的故障,问题进行处理,对网络进行优化调整。
关键词:防火墙,HRP,故障处理,业务恢复。
1.1 故障及自愈过程
故障发生设备Eudemon8000E-X V500R002C00SPC600
故障现象: EPC防火墙倒换后有用户反馈网络访问慢,需要分析原因。
1、分析防火墙告警信息,确认11槽位SPU业务板CPU0发生复位,复位原因是该CPU下挂内存条存在多bit ECC 错误,常见于内存条松动或异常。
2、防火墙可靠性机制包括单产品可靠性和网络级可靠性。
3、分析防火墙11槽位单板的启动信息,发现该槽位CPU0存在复位记录,复位原因就是内存多bit ECC出错,系统期望通过复位CPU尝试自愈,这就是防火墙单产品可靠性:
4、当内存条松动等故障导致CPU自愈复位过程中发生自检失败后,CPU无法重新注册,此时就需要依赖网络级可靠性机制,防火墙的HRP功能可提供网络级可靠性。
5、分析防火墙日志信息,发现CPU复位时HRP立即发生倒换,从负载分担模式切换为主备模式,此时FW06所在备平面的OSPF Cost会增加,促使路由全部收敛到FW05所在(正常运行)主平面,确保业务不受影响,这就是防火墙网络级可靠性:
综上所述,防火墙CPU内存多bit ECC后已多次复位尝试自愈,最终因复位过程中内存自检失败无法注册,触发HRP倒换,双机从负载分担切换为主备,但按照HRP功能的设计,业务不应该受到影响。
1.2 防火墙HRP组网要求
1、防火墙HRP组网的设计初衷,是为了解决单平面故障。在双机负载分担场景下,当其中一台出现故障时,另外一台设备立即接管业务,由于双机之间存在会话实时同步,业务切换平面后也可以保证业务不中断。产品手册中描述如下:
2、要确保会话正常同步,HRP主备防火墙的业务板卡必须一致.
3、虽然HRP主备防火墙的业务板卡不一致时会话表无法正常同步,但根据上述HRP的设计初衷,只要确保HRP倒换成主备后业务流量全部运行在主平就面,就可以确保业务不中断。这就要求防火墙上下行设备要符合防火墙HRP组网要求,产品手册中关于负载分担组网的描述如下:
综上所述,HRP双机互为热备时要求两边业务板卡等硬件必须一致。当一个平面出现故障(如业务板)时,只要符合HRP组网要求,就可以通过HRP倒换确保业务切换到正常的另一平面,业务不中断。
1.3 业务受损的原因
1、如上所述,防火墙已于10:53:30 发生HRP倒换,FW05切换为主防火墙,FW06切换为备防火墙。
2、在故障期间,登录防火墙FW06进一步定位业务受损的原因。
3、查看防火墙的接口流量,发现公网口Eth-Trunk1仍旧有少量流量进入。
4、查看防火墙的配置,确认设备已正确开启HRP自动调整OSPF Cost值功能
5、根据上述HRP组网设计说明,发生倒换后,备防火墙会发布路由的Cost调整,公网回程流量本应该在SR之间通过横穿全部转发到主防火墙上,如下图所示:
6、但是实际上的流量走向如下图,FW06仍然有接收流量。这部分公网回程流量仍然被转发到备防火墙,由于备防火墙此时与主防火墙硬件CPU数量不一致,造成这些流量在备防火墙上备丢弃,无法正常转发。防火墙HRP会话备份机制参考说明6.1。
2.问题原因:
在防火墙CPU发生故障导致主备倒换时,部分公网回程流量无法正确的转发到主防火墙,仍旧转发到备防火墙,导致连接建立不成功,具体表现为用户访问慢的现象。
1、方案一、参考Link-group方案,当防火墙CPU故障时,同时shutdown上下联端口。
2、方案二、根据防火墙HRP组网要求,建议上行两台SR设备配置OSPF横穿,确保防火墙主备倒换时上行报文能够通过SR的横穿转发到正确的防火墙上。
其他方案:
1.4 HRP会话备份机制
针对防火墙的HRP负载分担组网,CPU之间进行一对一的会话备份,这也是要求硬件板卡、CPU个数、槽位位置必须保持一致的原因,会话备份机制说明如下:
1.4.1 正常情况,业务正常
假设每台防火墙有共3个业务CPU,防火墙接口板收到报文时会通过HASH选择上送到某个业务板CPU单独处理。两台防火墙CPU间的会话备份一一对应。如图,如果上行从FW_1出去时HASH到CPU3并建立会话,CPU3将该会话同步到对端FW_2相同位置的CPU3,而下行回程报文到达FW_2后通过HASH选择会被送到FW_2的CPU3,此时CPU3上能查到该报文的会话,报文正常处理并转发。
1.4.2 单边故障,业务正常
根据会话备份机制,上行业务报文从CE1经过FW_1的CPU1或CPU2处理后转发至SR-1,对端FW_2的CPU1或CPU2正常在位,对应的会话备份成功,当下行回程报文到FW_2时可以查询到会话并正常转发给CE2。
1.4.3 单边故障,业务受损
根据会话备份机制,上行业务报文从CE1经过FW_1的CPU3处理后转发至SR-1,由于对端FW_2的CPU3故障,对应的会话备份失败,当下行回程报文到FW_2时由于查询不到会话被丢弃。
综上所述,在以上故障场景,如果SR之间横穿不打通,部分公网回程流量仍然会到故障平面,当出现上述6.1.3中的业务流走向时,这些业务将会在备防火墙被丢弃,导致业务影响。
1.5 其它自动业务倒换方案
1.5.1 Link-group方案
针对当前故障,也可以使用link-group绑定业务板CPU的方案,具体如下:
参考文献
1.《中国移动业务故障处理流程》
2.《中国移动集团数据业务及局数据规范》
3.《IP数通设备技术与测试》
4.《中国移动网络割接管理办法》
论文作者:李鑫
论文发表刊物:《建筑学研究前沿》2019年9期
论文发表时间:2019/8/23
标签:防火墙论文; 业务论文; 报文论文; 故障论文; 公网论文; 双机论文; 流量论文; 《建筑学研究前沿》2019年9期论文;