智能化运维管理平台的规划设计探讨论文_陈健勋

智能化运维管理平台的规划设计探讨论文_陈健勋

深圳市卓益节能环保设备有限公司 广东深圳 518110

摘要:随着电信运营商业务的增长,特别是4G及5G时代的到来,电信运营商数据中心的规模逐渐庞大,设备类型,数据类型,及大数据平台及云平台的出现,给传统的运维手段带来了新的挑战。但运维的操作普遍采用人工操作方式,运维效率较低,操作标准化与规范化水平较差,存在大量的安全隐患与风险。运维态势相关信息掌控不足,确保运行态势保持合理水平的能力不足,智能化运维管理平台架构设计围绕“管理理念先进”与“技术架构先进”两个立足点,建设符合运维管理需要的运维PaaS平台及运维应用体系,实现运维管理的平台化、一体化、服务化、移动化、自动化、智能化、可视化。运维平台收集的各类运维大数据,可以通过机器学习的方式,训练出相应的计算模型,以更好的支撑运维业务需要。

关键词:智能化;运维平台;5G;机器学习

引言:

随着电信运营商业务的增长,特别是4G及5G时代的到来,运营商数据中心的规模逐渐庞大,设备类型,数据类型,及大数据平台及云平台的出现,给传统的运维手段带来了新的挑战。

传统运维方式明确划分运维、开发的职责,建立相应的监控管理、配置管理、流程管理等工具。部分采用了自动化管理工具,但运维的操作普遍采用人工操作方式,运维效率较低,操作标准化与规范化水平较差,存在大量的安全隐患与风险。运维态势相关信息掌控不足,没有整体态势变化图,不成体系,确保运行态势保持合理水平的能力不足[1]。

同时由于通信运营商数据的大量增长,需要面对各类不同的数据,结构化数据和非结构化数据,这个时候对系统运维提出了新的挑战,可以应用现有成熟的大数据处理技术及新兴的机器学习算法,来解决现在系统运维面临的困难。本文根据某省级电信运营商的数据中心运营经验,初步探讨智能化运维管理平台的规划设计思路和经验。

1智能化运维管理平台整体设计

按照平台即服务的设计理念,统一运维的基础采控、数据计算、组件服务,使得上层的各类运维工具、场景、应用实现无缝打通和扩展,为运维的持续良性的发展奠定基础。

2平台功能架构

智能化运维管理平台架构设计围绕“管理理念先进”与“技术架构先进”两个立足点,建设符合运维管理需要的运维PaaS平台及运维应用体系,实现运维管理的平台化、一体化、服务化、移动化、自动化、智能化、可视化。

3运维PaaS平台设计

3.1统一采控系统

统一采控系统提供分布式的资源采控体系,实现被管理资源统一采控,支持第三方系统集成纳管。统一采控系统提供各运维工具和被管设备资源之间联络通讯的统一通道,并通过模块和插件的技术让各运维工具自由扩展采控能力,而不用关注底层的通讯和调度技术,只需要按照采控模块约定的规范编写采控脚本,并组织成策略下发给相应代理,对结果数据进行处理,即可完成机器数据采集、配置变更发布和资源操作控制[2]。

将与机器打交道的采集和控制工作交由一个统一的模块去处理,有以下优势:第一、在被管主机上只需部署一个代理就能完成所有采集和控制的操作,不但降低对被管主机的资源占用,也可以降低代理的管理复杂度。第二、所有与被管设备通讯管理都通过统一通道进行,可以进行集中优化和控制,最大限度的降低网络带宽占用,并保证管控安全性[3]。第三、通过一个模块集中完成与机器打交道的工作,并对上层应用提供统一化的交互接口,可以大大降低各运维工具的开发难度和工作量。第四、采控统一化后,可以对所有被管设备和代理进行集中管理,降低管理难度,提高管理效率。

3.2数据处理系统

数据处理系统运维集中存储与处理各类运维数据, 这些数据来自不同类型的通信IT资源,也有着完全不同的结构类型,因此专门设计数据融合管理模块来对各类数据进行标准化处理、存储与提供读取API,形成运维大数据数据分析与智能运维管理能力。

期刊文章分类查询,尽在期刊图书馆

3.2.1智能处理引擎

平台提供多种类型的数据智能处理引擎:(1)实时计算:平台对采集到的各类数据,提供实时的数据计算处理能力,以数据流式处理的方式,从各类原始数据中,实时提炼出高层业务数据[4]。(2)离线计算:平台同时提供对历史数据的定期跑批计算能力,定期加载海量数据,通过计算节点的分布式计算能力,完成大数据计算处理。(3)算法库:平台内置运维中需要使用的各类计算算法,并提供扩充库,可不断补充算法,以实现运维数据的多种加工计算要求。(4)模型训练:当数据平台积累到较大规模的数据量后,可将这些数据导入机器学习过程,实现运维业务模型训练,如生成动态基线、资源访问模式等功能。

3.2.3智能分析学习引擎

智能运维管理平台收集的各类运维大数据,可以通过机器学习的方式,训练出相应的计算模型,以更好的支撑运维业务需要。主要包括以下部分:(1)算法库:提供训练与消费服务需要的各类数据算法,平台预置如复合抖动算法、趋势预测、去噪滤波等多种算法,并允许扩展引入相关算法。(2)原始数据输入:支持从运维平台或外部数据库,加载大量用于模型训练的算法。(3)训练任务调度:将训练任务分解为有向图,每个节点代表任务中的一个计算环节,通过分布式方式分散到计算集群中,利用主机的水平扩展能力,加速模型训练与计算任务的完成。(4)模型库:训练任务完成的模型记入模型库,以用于后续的分析与消费。(5)消费服务接口:通过接口接受运维平台上层各类运维数据计算需求,根据输入调用模型进行计算,提供输出结果。

4系统监控新应用

系统支持数据中心计算、存储、网络等基础资源以及对运行于基础资源上的数据库、中间件等平台环境的监测。系统应具备大规模、分布式管理能力,能够适应大规模资源管理要求,系统的部署不会对现有环境产生影响。

4.1大数据架构监控

以HDFS为例,监控指标包括:监控指标应当包括:总容量、损坏块、数据节点(Data Node)相关指标、HDFS空闲空间、HDFS使用磁盘空间、HDFS使用空间总数、丢失磁盘块数量、主节点(Name Node)相关指标、复制的磁盘块总数。

4.2虚拟化监控

系统支持对VMWare虚拟化平台的监控管理,监控指标包括:虚拟机集群、物理机CPU、物理机内存、物理机磁盘、虚拟机CPU、虚拟机内存、虚拟机磁盘等。

4.3IaaS云管理平台监控

系统支持通过与IaaS云管理平台进行对接实现云资源监控,支持 Openstack等云平台监控。

4.4中间件监控

系统支持对各类中间件进行监控:Web 服务中间件、缓存中间件、消息中间件、大数据中间件。

结束语:

随着智能化运维管理平台的顺利上线运营, 采用了自动化管理工具,运维的操作采用自动化的方式,运维效率较之前有显著的提高,操作标准化与规范化水平提升,减少了电信运营商数据中心安全隐患与风险。 运维态势相关信息掌控程度提高,确保运行态势保持合理水平,特别是系统监控的相关新应用,可以更加适应大数据、云计算环境下的运营商数据中心的运维管理工作。

参考文献:

[1]窦继涛,代飞.基于大数据环境下智能日志分析平台运维方案研究[J].九江职业技术学院学报,2017(04):90-92.

[2].南天运维自动化平台 助力一体化、智能化运维[J].网络安全和信息化,2017(12):61.

[3]李庆华.邮储银行智能化运维实践和探索[J].金融电子化,2017(08):78-80.

[4]龚东晖. 基于BIM的商业地产运维管理应用体系研究[D].西安建筑科技大学,2017.

论文作者:陈健勋

论文发表刊物:《城镇建设》2019年12期

论文发表时间:2019/8/26

标签:;  ;  ;  ;  ;  ;  ;  ;  

智能化运维管理平台的规划设计探讨论文_陈健勋
下载Doc文档

猜你喜欢