信息技术中关于处理部分用户反馈上网慢问题防火墙分析论文_李鑫

中国移动通信集团黑龙江有限公司

摘要:通过对网络设备的系统了解,对防火墙,路由器,网管交换机等网络设备及网络拓扑的组成,功能进行分析解读,对日常维护生产过程中的故障,问题进行处理,对网络进行优化调整。

关键词:防火墙,HRP,故障处理,业务恢复。

1.1 故障及自愈过程

故障发生设备Eudemon8000E-X V500R002C00SPC600

故障现象: EPC防火墙倒换后有用户反馈网络访问慢,需要分析原因。

1、分析防火墙告警信息,确认11槽位SPU业务板CPU0发生复位,复位原因是该CPU下挂内存条存在多bit ECC 错误,常见于内存条松动或异常。

2、防火墙可靠性机制包括单产品可靠性和网络级可靠性。

3、分析防火墙11槽位单板的启动信息,发现该槽位CPU0存在复位记录,复位原因就是内存多bit ECC出错,系统期望通过复位CPU尝试自愈,这就是防火墙单产品可靠性:

4、当内存条松动等故障导致CPU自愈复位过程中发生自检失败后,CPU无法重新注册,此时就需要依赖网络级可靠性机制,防火墙的HRP功能可提供网络级可靠性。

5、分析防火墙日志信息,发现CPU复位时HRP立即发生倒换,从负载分担模式切换为主备模式,此时FW06所在备平面的OSPF Cost会增加,促使路由全部收敛到FW05所在(正常运行)主平面,确保业务不受影响,这就是防火墙网络级可靠性:

综上所述,防火墙CPU内存多bit ECC后已多次复位尝试自愈,最终因复位过程中内存自检失败无法注册,触发HRP倒换,双机从负载分担切换为主备,但按照HRP功能的设计,业务不应该受到影响。

1.2 防火墙HRP组网要求

1、防火墙HRP组网的设计初衷,是为了解决单平面故障。在双机负载分担场景下,当其中一台出现故障时,另外一台设备立即接管业务,由于双机之间存在会话实时同步,业务切换平面后也可以保证业务不中断。产品手册中描述如下:

2、要确保会话正常同步,HRP主备防火墙的业务板卡必须一致.

3、虽然HRP主备防火墙的业务板卡不一致时会话表无法正常同步,但根据上述HRP的设计初衷,只要确保HRP倒换成主备后业务流量全部运行在主平就面,就可以确保业务不中断。这就要求防火墙上下行设备要符合防火墙HRP组网要求,产品手册中关于负载分担组网的描述如下:

综上所述,HRP双机互为热备时要求两边业务板卡等硬件必须一致。当一个平面出现故障(如业务板)时,只要符合HRP组网要求,就可以通过HRP倒换确保业务切换到正常的另一平面,业务不中断。

1.3 业务受损的原因

1、如上所述,防火墙已于10:53:30 发生HRP倒换,FW05切换为主防火墙,FW06切换为备防火墙。

2、在故障期间,登录防火墙FW06进一步定位业务受损的原因。

3、查看防火墙的接口流量,发现公网口Eth-Trunk1仍旧有少量流量进入。

4、查看防火墙的配置,确认设备已正确开启HRP自动调整OSPF Cost值功能

5、根据上述HRP组网设计说明,发生倒换后,备防火墙会发布路由的Cost调整,公网回程流量本应该在SR之间通过横穿全部转发到主防火墙上,如下图所示:

6、但是实际上的流量走向如下图,FW06仍然有接收流量。这部分公网回程流量仍然被转发到备防火墙,由于备防火墙此时与主防火墙硬件CPU数量不一致,造成这些流量在备防火墙上备丢弃,无法正常转发。防火墙HRP会话备份机制参考说明6.1。

2.问题原因:

在防火墙CPU发生故障导致主备倒换时,部分公网回程流量无法正确的转发到主防火墙,仍旧转发到备防火墙,导致连接建立不成功,具体表现为用户访问慢的现象。

1、方案一、参考Link-group方案,当防火墙CPU故障时,同时shutdown上下联端口。

2、方案二、根据防火墙HRP组网要求,建议上行两台SR设备配置OSPF横穿,确保防火墙主备倒换时上行报文能够通过SR的横穿转发到正确的防火墙上。

其他方案:

1.4 HRP会话备份机制

针对防火墙的HRP负载分担组网,CPU之间进行一对一的会话备份,这也是要求硬件板卡、CPU个数、槽位位置必须保持一致的原因,会话备份机制说明如下:

1.4.1 正常情况,业务正常

假设每台防火墙有共3个业务CPU,防火墙接口板收到报文时会通过HASH选择上送到某个业务板CPU单独处理。两台防火墙CPU间的会话备份一一对应。如图,如果上行从FW_1出去时HASH到CPU3并建立会话,CPU3将该会话同步到对端FW_2相同位置的CPU3,而下行回程报文到达FW_2后通过HASH选择会被送到FW_2的CPU3,此时CPU3上能查到该报文的会话,报文正常处理并转发。

1.4.2 单边故障,业务正常

根据会话备份机制,上行业务报文从CE1经过FW_1的CPU1或CPU2处理后转发至SR-1,对端FW_2的CPU1或CPU2正常在位,对应的会话备份成功,当下行回程报文到FW_2时可以查询到会话并正常转发给CE2。

1.4.3 单边故障,业务受损

根据会话备份机制,上行业务报文从CE1经过FW_1的CPU3处理后转发至SR-1,由于对端FW_2的CPU3故障,对应的会话备份失败,当下行回程报文到FW_2时由于查询不到会话被丢弃。

综上所述,在以上故障场景,如果SR之间横穿不打通,部分公网回程流量仍然会到故障平面,当出现上述6.1.3中的业务流走向时,这些业务将会在备防火墙被丢弃,导致业务影响。

1.5 其它自动业务倒换方案

1.5.1 Link-group方案

针对当前故障,也可以使用link-group绑定业务板CPU的方案,具体如下:

参考文献

1.《中国移动业务故障处理流程》

2.《中国移动集团数据业务及局数据规范》

3.《IP数通设备技术与测试》

4.《中国移动网络割接管理办法》

论文作者:李鑫

论文发表刊物:《建筑学研究前沿》2019年9期

论文发表时间:2019/8/23

标签:;  ;  ;  ;  ;  ;  ;  ;  

信息技术中关于处理部分用户反馈上网慢问题防火墙分析论文_李鑫
下载Doc文档

猜你喜欢