智能监控技术在电信企业运维支撑系统中的应用分析
戴晨昱
(中国移动通信集团广东有限公司,广东 广州 510623)
摘 要: 近些年来,可以说监控技术的发展在突破种种障碍和困难后,才可以获取当前的成果,也就是当前受到广泛欢迎的智能监控技术。尤其是在电信企业运维支撑系统的应用,更是充分展现出了智能监控技术的优点,并有效的帮助其解决了各式各样的棘手问题。由此,文章将就智能监控技术在电信企业运维支撑系统中的应用展开分析和探讨,旨在为相关人员提供有意义的参考。
关键词: 智能监控;IT运维;解决方案
1 智能监控的工作原理
所谓的智能监控,即将平常手工方法执行的运行维护工作,逐渐转变为电子化方法和计算机技术相联合的方法去获取目标。一般来讲,我们主要将智能监控系统分为三个层次,即监控代理层、数据处理层及展现层。究其关系来看,各方之间主要是通过监控代理层,然后借助JMX采集插件、JDBC采集插件等,最终达到获取各业务平台资源指标信息的目的。完成上述步骤后,则需要将所获得的数据上传到数据处理层,通过处理数据,然后形成有用的告警信息等,并经由展现层实施配置。
在配电网中,由于受到变电站选址和通道受限的影响,往往需要对已有变电站进行升级改造,以满足长期负荷增长需求;但由于现场施工条件限制和电网安全规程要求,不得不选择全站停电改造,且改造周期较长。以某地市公司110 kV变电站为例,停电时间长达5个月,在此改造期间,配电网运行压力巨大,能否平稳度过负荷高峰时期,缺乏理论支撑和可行性论证,施工中能否安排全站停电进行升级改造缺乏有效规程参考和指导意见。
(5)DI数据仓库。主要构建面向主题级别的数据仓库,将业务数据打散为元数据,去除数据的冗余,使数据更规整,方便进行多维度的透视,生成相应的数据集市。
2 智能监控方式采取的先进技术
(1)Agent采集技术。Agent中的采集插件拥有着数据采集的作用,而且智能监控系统的数据在收集数据的过程中,就是通过Agent来达到目的的。不包括Agent采集插件在内,监控平台还拥有各种各样的插件,如JMX采集插件、SNMP采集插件等,这些插件在采集命令的引导下一同完成各自的工作使命。(2)事件压制技术。事件管理可以容纳Syslog服务器、SNMPTrap服务器,并根据一致的要求格式化事件信息,经由事件压制规则压制各种渠道的类似事件。比如Syslog服务器、SNMPTrap服务器报告了同样的事件,那么则可以压制成为同一事件。(3)事件自动关联技术。其实,事件和事件间难免会存在诸多的联系,所以在具体操作过程中,就非常有必要采取流程分析图,以此来研究已发生的事件,最终更好的辨别故障存在的情况。(4)资源可用性评估技术。基于全方面来看,资源可用性状态又可分为5个级别,即正常、警告、主要故障、次要故障以及重大故障。采取资源可用性评估技术,能够以最快的速度计算出现阶段可用性状态所处的级别,而这样则对于及时实施补救方法有着重要的作用。
3 系统组成结构及部署结构
(1)系统组成结构。事实上,智能监控系统主要组成部分包括三个层次,第一主要为Agent。Agent在采集监控数据的过程中,通过采取不同的接口等,从而达到处理监控系统的目的。第二主要为Center Server。其主要是将经过Agent处理完成的数据传输给Center Server,并借助统一数据模型从而有效的划分、存储数据,另外,所能看到的界面可以采取IE等浏览器,进而达到查看,以及配置针对性指标的目的。所有数据处理时都离不开系统的内部通信引擎,只有这样才可以达到信息互换的目的。(2)物理部署结构。物理部署结构的底层为所要监控的对象,各个监控对象部署命令服务器,上层代理为Agent,而且其能够部署在单独的一台甚至数台主机上,最后实际需要部署几台主机,则必须由监控对象的数量来决定,代理上层为服务中心,服务中心涵盖服务器和数据库服务器,服务器能够做双机。如需出报表,则还非常有必要提供报表服务器,另外,报警服务中心可利用报警服务器,从而实现语音报警的目的。顶层需配置相应数量的终端,以便维护工作者巡查系统的状态。
第一,故障发现的主动性。故障发现的主动系统经由A-gent技术,7×24h对所管理的对象资源实施智能监视,当资源所具有的性质改变时,那么就需要以最快的速度通过事件检测引擎监测事件发生。第二,告警的及时准确性。所发生的事件一旦经系统成功检测后,那么再采取针对性的压制和根源研究处理,系统就能够以多种形式迅速的告知有关运维管理者,如发短信等。此种通知的方式在某种程度上,能够通过告警规则的基本含义,从而达到提升告警、延迟告警的目的。
第一,先进的设计理念。此研究主要以引进先进的设计理念而实施设计的,主要是按照ITIL理论等IT服务管理内容而展开的,与当前IT服务管理要求相适应。第二,完善的知识储备。此研究在进一步认识和监控IT系统时,主要是通过采取IT资源结构树,从而将IT系统的物理组成结构还有逻辑关系,统统规划到系统当中来,并且可以非常清楚的掌握各项情况。
4 方案的特点与优势
第一,全方位的监控手段。IT资源结构树清楚的勾划出了IT资源的各个部分,IT资源的运行环境受到IT资源的子资源运行环境的影响,全方位的监控方法,是从监控IT资源的子资源的运行环境来就IT资源自身的运行环境来实施监控的。此种监控方法对于及时发现IT资源故障所在位置是非常有帮助的。第二,全方位的管理手段。以往的系统管理思想主要是利用底层IT构架来达到监管的目的,最终提高业务的可用性。此种方法也存在着一些不足之处,如并未基于业务工作者的层面,提供业务可用性的视图。
4.1 先进的设计理念,完善的知识储备
新时期,我国经济发展已由高速增长阶段向高质量发展阶段转变,供给侧结构的深化改革,人民日益增长的美好生活需要和不平衡不充分的发展之间的主要矛盾的出现,都促使了我国涉农企业发展所面临的经济环境发生改变,企业发展外部环境的改变诱使内部环境随之改变,加剧了涉农企业对公司治理创新优化的需求。国家对农业产业结构的调整,多种经营方式的发展,农业供给侧改革的深化,对涉农发展项目的各种补贴等,诱发了涉农企业的快速发展,也加速了企业对治理结构的优化创新动力。
4.2 全方位的监控手段和管理手段
通过上述分析发现,将智能监控技术应用在电信企业运维支撑系统中有着显著的优点,主要可从如下方面着手研究:
4.3 故障发现的主动性,告警的及时准确性
桌面虚拟化平台采用云桌面技术,集中建设云桌面集群,在后台集群为每个用户开辟一个独立的虚拟机,用户终端接入设备不留存任何信息,只有显示和输入输出功能。虚拟云桌面技术采用后台集中管理模式,可减少桌面运维工作量,节省总体应用成本,实现更安全的桌面办公,经过实践证明可以满足气象部门的工作需要[5]。本次共配置4台桌面云一体服务器,业务内网和政务外网端各2台组建集群,搭配桌面虚拟化软件和云管平台对外提供桌面虚拟化服务,如图2所示,用户端配置瘦客户机和一套外设,内外网瘦客户机分别访问内外网桌面,通过KVM切换,两套桌面系统物理隔离,提供了较高的安全性。
4.4 一键式配置特色,可配置性
第一,一键式配置特色。为了避免监控平台对服务器产生各种各样的影响,那么使用者就可调整监控服务器上不同资源的监控频度,而且整个过程也无需过于复杂的步骤。第二,可配置性。(1)展示方法的可配置按照监控对象的种类,系统权限者可配置数据的显现方法,系统提供各种各样的显示方法,如曲线图、饼图等,可配置数据是否显现,还有明确所要显现的内容。如管理者可设置在主界面上呈现出数个文件系统中设备的情况,可设置在CPU的独立显现界面中,最后采取饼图等方法显现出CPU的具体应用情况等。(2)事件类别的可配置系统权限者按照监控的所需适当增删事件类别。(3)事件产生规则的可配置系统管理者可按照具体情况和积累的新的,从而对事件产生规则的门阀值进行设置。(4)告警的可配置系统权限者,可以按照事件的重要程度,然后对所需告警的事件设置告警规则,一旦符合告警条件那么就会出现告警。基本来讲,告警规则更多是以暂停、告警转发等为主。(5)系统使用者还有权限的可配置基于角色的权限设置,在功能模块的权限控制方面实施了基于角色的权限控制;基于应用的权限设置,在监控对象上实施了基于应用的权限设置。
4.5 开放性,可扩展性
第一,开放性。何为开放性,即思想能够跟上时代发展的步伐,而智能监控技术就是一个很好的例子,其通过采取系统分层设计思想,从而有效的保证各系统间全部提供有开放的API接口,而这样在能够确保标准协议和通信协议,全部会有Syslog服务器、SNMPTrap服务器组件来实施匹配,开放型显著。另外,现阶段市场中比较受欢迎的IT服务管理软件,同样是通过智能监控技术来获取事件接口,经过应用,发现具有显著的应用价值。第二,可扩展性。可扩展性具体体现在如下两个方面。(1)数据存储方面的可扩展性。其主要是指在对数据库实施设计的过程中,实施横表变纵表的方法,而这样做的目的,主要是在于当监控对象及指标出现增多的情况时,数据库结构也无修改的必要。(2)监控对象的可扩展性。其主要是指一旦监控系统必须要添加监控对象时,也无在系统本身做任何修改,可以一步到位为新添加的扩展对象配置数据。
4.6 被管理对象资源消耗可控制性,可维护性
第一,可控制性。起初,在系统设计过程中,就需要全方位的考虑对管理对象所产生的资源消耗等。为了避免管理区域内的网络传输资源被过多地占用,系统就实施了监控代理技术,然后将监控代理安装在所需要被管理的资源系统上,而这样一来,就可以由监控代理负责监督管理被监管者的性质,而且从本质上来讲,其本身就拥有相应的智能性和功能性,能够屏蔽掉诸多无用的数据,最终规避网络传输资源被大量占用的情况发生。第二,可维护性。此方案采取分层设计思想,即将一系列复杂的问题优化为简单的问题,然后通过层与层间相互影响、相互作用的关系,最终提升系统的维护能力。
5 智能监控技术应用于电信企业运维支撑系统的建议
众所周知,作为一项全新的技术,智能监控在具体使用过程中,更是充分的展现出了自身所具有的优点,而这对于电信企业运维支撑系统而言,能够较好的提升运维系统的安全能力和稳定能力。但从另外一方面来讲,因为对此项新技术在认知上不够全面,所以经常会发生各种各样的问题,由此为了更好的克服不同的问题,就需要我们在采用智能监控技术时,一定要尽可能的发挥其所具有的优势,并主动解决当前已经存在的问题,通过丰富自身的经验,增加科学研究的力度,然后更好的健全智能监控技术,而这样才可以确保智能监控技术以更快的速度投入到市场使用当中来,同时还可通过实际行动积极宣传“技术最优”的理念,以便创造一个昂扬向上的创新文化环境,争取为我国各方面的发展提供强大的技术支持。
6 结束语
由于传统监控技术已经无法满足现如今人们对智能数字化等方面的需求,所以智能监控技术就应运而生,并成为未来发展的重头戏,被这个时代重新定义。另外,我们在实际应用此技术的过程中,因为受到不同方面原因的干扰,所以仍旧存在着诸多的问题,非常有必要引起相关人员的重视,并致力于该项技术的研讨,争取培养出更多综合素养高的技术人才,以此确保智能监控技术可以得到更快的发展和成长。
参考文献:
[1]蒋志文.大数据分析技术在数据中心运维中的应用[J].信息与电脑(理论版),2018,409(15):160-161.
[2]索宸耀,陈博,张斌.网络综合监控及智能运维平台的构建与研究[J].智能计算机与应用,2019,9(01):63-67.
[3]王东妍,沈鹍,王瑞.智能运维在高铁工务作业安全监控管理的应用[J].铁路计算机应用,2019,28(04):47-50.
Abstract: In recent years,it can be said that the development of monitoring technology can only obtain the current results after breaking through a variety of obstacles and difficulties,that is,the current widely welcomed intelligent monitoring technology.Especially in the Telecom enterprise operation and maintenance support system application,but also fully show the advantages of intelligent monitoring technology,and effectively help it solve a variety of thorny problems.Therefore,this paper will analyze and discuss the application of intelligent monitoring technology in the operation and maintenance support system of Telecom enterprises,in order to provide meaningful reference for the relevant personnel.
Keywords: intelligent monitoring;IT operation and maintenance;solution
中图分类号: TP277
文献标志码: A
文章编号: 2095-2945(2019)33-0155-02
作者简介: 戴晨昱(1971-),男,本科,高级工程师,研究方向:信息系统规划、建设、运维。
标签:智能监控论文; IT运维论文; 解决方案论文; 中国移动通信集团广东有限公司论文;