关键词:大数据平台;影响监控;自动化运维
1 自动化运维方向
1.1 大数据趋势基础
1.1.1 提供实时计算
大数据平台最主要技术之一是数据采集,数据采集是数据的源头,在整个数据链路中是相对重要的环节,需要关注的是,数据是否完整、数据是否支持实时上报、数据埋点是否规范准确。
1.1.2 数据开放性、可扩展性、系统稳定性
数据开放和系统稳定性是相爱相杀的关系:一方面,开放了之后不再是有数据基础的研发人员来做,经常会遇到提交非法、高资源消耗等问题的数据任务,给底层的计算、存储集群的稳定性造成了比较大的困扰;另外一方面,其实也是因为数据开放,才不断推进我们必须提高系统稳定性。
1.2 运维场景解析
1.2.1 运维体系概况
根据目前营销监控项目整体建设初期的日常运维工作投入分析,各个系统的维护和管理比较分散,没有集中进行管理和维护,导致数据存储分散,数据不统一。各个系统的数据协同不能满足数据之间的关联关系,导致数据相互矛盾。
1.2.2 日常运维现状
为了充分透析自动化运维平台的研究,根据当前营销运营监控运维遇到的问题做了明确的需求分析和探讨,汇总了以下运维现状:
(1)某个指标数据从源业务系统传到数据中心再到营销监控系统的同步时间间隔异常导致的数据差异未及时发现,往往通过客户查看比对源系统指标数据后才发现。
(2)数据文件传输过程出现文件丢失或文件明细数量不完整导致的营销监控数据与源业务系统数据的差异。
(3)数据中心ETL调度程序不稳定或挂死导致调度时间不及时,造成数据不一致的情况。
1.2.3 功能介绍
(1)自动化运维系统可采集各个数据流节点间的数据文件传输状态数据,当数据流发生断点时间超过系统设定值(3min-5min)即可在平台产生告警信息,监控时间根据专业指标实际业务逻辑(实时、T+1)的数据约定传输时间可配。达到持续监控各个系统数据质量波动情况及数据质量规则占比分析。
(2)根据采集到的数据文件,在自动化运维系统库中进行明细比对分析,比对内容包括前后数据文件大小,文件明细记录数,文件字段名称一致性,字段长度一致性等。比对结果超过系统设定值范围即可在平台产生对应告警信息,及时通知运维人员进行异常分析及处理。
(3)针对数据中心ETL调度程序进行性能状态监测,出现程序异常不稳定或挂死,超过自动化运维系统设定值时间范围,即可在平台产生告警信息并通知运维人员进行异常分析及处理。
(4)源业务系统或数据中心OGG系统升级导致系统不可用,自动化运维系统可采集各个系统状态并根据平台设定的超时时间产生系统不可用的告警信息,及时通知相应运维人员进行处理和通报反馈。
(5)自动化运维平台可对数据实时性较高模块如:停电、客服对应的表数据最新记录的插入时间与当前时间进行比对,时间差不得大于系统设定值(20min左右),超过自动化运维系统设定值时间范围,即可在平台产生告警信息并通知运维人员进行异常分析及处理。
(6)自动化运维平台可对营销监控系统数据库的表空间进行监控,当表空间快达到临界值时即可在平台产生告警信息并通知运维人员进行异常分析及处理。
1.2.4 功能系统说明
(1)平台功能结构图,如图1所示。
图1
(2)异常分类包括:数据同步异常、任务调度异常、源系统数据质量异常、数据解析异常、指标结果异常。
1.3 自动化运维思路
1.3.1 建立数据质量监控管理体系
营销监控平台的数据涉及不同系统间多层链路关系,为确保指标数据的完整性、唯一性、一致性、精确性、合法性、及时性,需要建立一套标准的指标数据质量监控管理体系,通过系统定义的标准将多个系统数据采集到自动化运维平台,统一校对、统一分析、统一处理。实现数据集中化管理,全面分析决策。
为满足多系统数据检验的一致性,自动化运维平台提供标准数据服务接口,供多个系统调用分析,提高系统数据质量,实现基础数据统一管理维护功能。
1.3.2 实现智能算法,自动化处理
利用智能算法程序,根据设定的基础指标阈值条件和指标预警规则,对自动化运维平台采集到的各类营销业务指标数据进行多维度类比,分析,条件处理等一系列自动化计算操作,并根据监控事务形态,定制化生成图标、拓扑图、数据报表等。
根据程序设定的数据链路状态条件,获取数据链路性能状态值,并及时产生异常状态告警通知。
2 大数据可视化工具
大数据数据可视化可以说是无处不在,而且比以往任何时候都重要。无论是在为数据点创建一个可视化进程,还是用可视化概念来细分客户,数据可视化都显得尤为重要。作为提升自动化运维平台功能优势的一个亮点,考虑将营销监控地图服务集成到平台中。
3 营销监控数字指标地图服务
数字指标地图服务,可理解为向下连接大数据的开放数据资源,向上连接“监、管、控、析”的纵向维度指标分析可视化平台。数字地图把用户关注的对象数字化,再通过关系可视化的工具将运营对象关系管理起来。
数字地图需要多渠道的数据采集,即基于大数据资源,综合获取面向全局与面向局部内容,这些采集的数据是运营组织关注的对象,具体包括营销监控业务,以及运营人员与经验数据。
4运维数据的分析和价值挖掘
4.1 建设后的数据挖掘价值
4.1.1 数据挖掘的概念
数据挖掘就是从大量数据中提取或挖掘所需要的知识。即从存放在数据库、数据仓库及其它信息库中所存储的大量数据中挖掘知识的过程。典型的数据挖掘系统由五部分组成:数据库或数据仓库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。
4.1.2 运维数据挖掘分析
在运维自动化体系里面,数据是一个非常核心且是承上启下的重要元素,它即可以反映运维服务的效率、故障比例、高可用性,也可以衡量业务运维状态的稳定性、成本、速度、质量等。
得益于大数据平台强大的计算处理能力,自动化运维系统基于指标功能,可从时间维度(年、月、日)、指标维度(各分省地区)、业务维度(营销专业、专题)这三个维度同时实时汇聚计算,实现营销运营监控颗粒度从粗到细、横向到纵向的全方位监控。对历史指标监控数据,则可通过大数据模型进行模拟及测算,形成基于历史数据指标基线的告警区间,通过基线比对可缓解绝对告警阀值带来的误报现象,同时也可对指标数据偏离倩况进行根因分析。
5 结论
近年来,越来越多的企业单位使用信息化系统建立核心业务,使得局部出现的小故障或者小异常可能影响到全局系统或者整个企业系统,而随着信息技术的迅速发展,系统的覆盖范围、组件数量、负责性随着增加,系统出现故障的可能性因此增大,所以运维系统的可用性变得更加重要,需要运维系统及时发现故障并尽快处理故障,维持运维对象的稳定正常运行,保证业务顺利运作。
参考文献:?
[1] 夏薇.企业信息系统相关自动化运维工具研究[J].电脑知识与技术,2018(07).?
[2] 李婷婷.电力信息系统运维管理自动化解决方案[J].电子技术与软件工程,2017(01).?
论文作者:周宏燕,米加伦
论文发表刊物:《科学与技术》2019年17期
论文发表时间:2020/1/15
标签:数据论文; 系统论文; 平台论文; 指标论文; 异常论文; 时间论文; 业务论文; 《科学与技术》2019年17期论文;