摘要:在当前信息化建设进程中,网络设备和应用终端均呈几何级增长,网络拓扑日益复杂。以往的网络监控和故障判断方法已经难以适应现有的运维工作需求,本文利用nagios可视化监控系统,结合思维导图的故障梳理方法,以宁夏地震局黑石嘴台站测震仪器的故障排除过程为例,详细阐述了利用故障分析的全过程,为信息化工作人员提升运维工作效率提供了新的思路。
关键词:思维导图;nagios;台站;故障排除
1、思维导图和nagios系统简述
思维导图是由东尼·博赞博士(查尔斯王子的记忆导师)多年前研究提出的一个创意性记忆概念,又称为脑图(Mind Map)或概念图(Concept Map),是用来组织和表征知识的工具。[[ 何塞平,思维导图应用于信息技术复习课的实践探索,《中国电化教育》,2009年。]]思维导图是有效的思维模式,应用于记忆、学习、思考等的思维“地图”,有利于人脑的扩散思维的展开。
Nagios是一个在linux及unix环境下运行的监控系统和网络的应用程序, 它监控用户所指定的主机和服务, 并在情况变得更糟或更好时提醒用户注意。[[2 吴晓燕,Nagios在网络管理工作中的应用与探讨,《高原地震》,2010.
基金项目:中国地震局三结合基金“基于nagios系统的台站综合监控”(课题编号CEA-JC/3JH-163004)
2、台站仪器故障排除的现状分析
信息网络技术在地震行业中,已从最初的信息交换与共享领域发展成为行业支撑平台,我局已经建成了一套服务于本区域内的高速行业信息网络系统,覆盖测震、强震、前兆、背景场、地震应急、信息服务、专业地震台站、区市县地震局等业务系统与区域,拥有高速光纤20条、3G/4G无线通讯节点近60个,接入各类设备与观测仪器100余台套,预警项目完成后,更要增加320个各类台站,已成宁夏地震局地震监测工作中最重要的基础保障平台。
结合中国地震局“基于nagios系统的台站综合监控”三结合项目,已搭建了一套适合于在我局区域中心运行的高效、可靠、易用、开放式的业务系统运行状态监控平台,具备对各类设备进行监控(包括非SNMP设备)和各类应用服务监控的能力,有良好的监控信息展示与图形显示、监控信息统计报告、分级联动的故障报警、数据流量统计与展示、形成了较为完善的运维体系。nagios系统运行的过程中,结合可选的WEB界面用于查看当前的网络状态、通知和故障历史、日志文件等功能,在处理故障的过程中,有效提高了台站值班人员分析故障原因、排除故障办法的能力。
在台站日常的故障处理中,有时遇到的是难以明确原因的故障。特别是测震仪器中断,排查时,往往由于测震波形的连续率要求非常高,不能配合运营商长时间中断信道测试,工作人员必须争分夺秒,力图在最短时间内找到问题症结所在,然后着手解决。面对很多情况,有时台站工作人员对网络拓扑结构理解不够深刻或经验有限,不足以对问题的解决提供帮助;有时资源不足,仪器、网络设备配件无法立刻到位。而实际上从发现问题到解决问题的时间有限,必须在这种工作压力下找到最佳的解决方案。利用思维导图可以整理思路,引导我们利用发散性思维,直观形象地思考,从而尽快地解决问题。
3、基于nagios系统的思维导图在台站仪器故障排除中的实例
3.1故障现象
中卫地震台黑山嘴山洞测点数采,自2015年架设以来,一直出现无规律瞬断,由于全区此型号数采只有一台,无备机备件,且无法中断信道测试光缆,因此很难快速判断故障所在。图一为中卫地震台网络拓扑图。
3.2 思维导图
根据思维导图的方法画出本故障的思维结构,将与故障相关或相联系的放射性思考具体化,以借助可视化手段促进灵感的产生和创造性思维的形成,最终找到故障根源所在。图2 是对故障分析的思维导图。
3. 3 根据思维导图进行分析
在思维导图中先给出需要处理的核心问题:“中卫黑山嘴测震仪器断记”,对此关键词进行积极思考:
(1)与这台仪器相连的设备是什么?有哪些可能导致故障的原因?下一步该怎么办?
(2)把主要问题放在关键点上;
(3)关键点引申的连接线上,列出了故障的可能性,怎么确认或者排除故障?
(4)完成的关键词结构图联系台站网络拓扑图。可以为整体的推论创造有利的条件;
(5)极大的思维发散性,顺应大脑的自然思维模式;
(6)往往画出一个框图,下一个框图会随着思维的联想而画出。
图2中,要解决的关键问题是“中卫黑山嘴测震仪器断记”,根据测震仪器的数据传输方式,可以先判断是否为测震台网中心流服务器的故障,经与测震台网部沟通,确认区域中心流服务器工作正常,其他测震仪器数据无断记现象,故判定故障位于台站近端。第二步, 怀疑台站的网络设备或者到区域中心的通讯线路有故障。结合nagios加密观测台站的交换机、路由器、运行状态健康的服务器,观察一段时间后,在黑山嘴测震仪器断记同时,发现台站的网络设备和线路运行非常稳定,故判定故障位于黑山嘴近端。由于黑山嘴测点除了测震仪器以外,还有其他观测设备,第三步,结合nagios加密观测黑山嘴测点里的前兆设备,对比发现,前兆设备和线路运行非常稳定,更换前兆设备和数采的交换机端口后,数采仍然存在断记现象,故在没有中断线路、影响测震台网运行的情况下,判定故障原因为数采设备故障。
在故障排除的过程中,nagios提供了必要的监视手段,利用其可控的监控策略及可视化监控的图形展示,为故障的判定提供了可靠的一依据。测震数采更换后,运行率得到了有效的提高,达到了100%,满足了测震台网的运行需求,如图三所示。
3. 4 故障排除
更换中卫黑山嘴数采型号,故障排除。
四、结语
Nagios具备对各类设备进行监控(包括非 SNMP 设备)和各类应用服务监控的能力,有良好的监控信息展示与图形显示等功能,结合思维导图放射性的思考模式,在我局设备运维的过程中,能够尽快的缩小目标,整理思路,有效地解决问题。
何塞平,思维导图应用于信息技术复习课的实践探索,《中国电化教育》,2009年。
2 吴晓燕,Nagios在网络管理工作中的应用与探讨,《高原地震》,2010.
基金项目:中国地震局三结合基金“基于nagios系统的台站综合监控”(课题编号CEA-JC/3JH-163004)
论文作者:吴晓燕, 吉祥
论文发表刊物:《科技中国》2018年2期
论文发表时间:2018/7/18
标签:故障论文; 思维论文; 山嘴论文; 台站论文; 仪器论文; 中卫论文; 设备论文; 《科技中国》2018年2期论文;