摘要:为了实现高效的互联网级业务运营,提升IT运维效率,提高产品升级管理质量,针对目前运维保障的各类系统运行环境的状态监控、配置管理、故障修复、应用维护等内容,国网电商立足自身业务特点与7大典型应用场景,规划建立了一体化智能运维平台系统。
关键词:智能运维;国家电网;互联网+
国网电子商务有限公司(以下简称“国网电商公司”)是国家电网贯彻落实国家“互联网+”行动计划,利用互联网技术推动传统业务转型升级的战略部署,国网电商公司以互联网信息技术为支撑,逐步实现电子商务和互联网金融两大领域与电力行业的相互融合、协同发展。随着业务线的增加和业务规模扩大,IT系统规模和运维管理难度迅速增长,传统的IT监控工具和运维管理手段难以满足集团对电商业务提出的“实战、实用和实时”互联网级运营要求。
为了提供更好的用户访问体验和实时业务感知,提升IT运维效率,提高产品升级管理质量,针对目前运维保障的各类应用系统、基础设施、网络环境、服务器性能及系统运行环境的状态监控、配置管理、故障修复、应用维护等内容,国网电商自身业务特点与典型应用场景,规划建立了一体化的智能运维平台系统,以实现IT运维的智能化高效管控。
1国网电商智能运维需求分析
国网电商智能运维平台要构建基于国网大数据的互联网运维一体化平台系统及业务应用监控系统,通过对采集和存储不同对象的监测数据,形成IT监测资源库,利用机器学习和深度学习等算法模型对资源库的数据进行实时和历史数据进行智能化分析。把网络设备、服务器、存储、OS主机、中间件、APM、浏览器/APP性能数据等监测数据融合在一个数据平台上,进行统一的数据存储和展示,同时兼容现有的监测平台数据,避免数据采集和监测重复性,在未来系统规模不断扩大产生大量监测数据时,该平台能够无缝平滑的系统扩容。
平台需要覆盖业务系统的各支撑环节,实现IT基础设施,业务性能及业务系统持续交付管理,帮助节约大量的IT运维资源,释放运维人员的工作压力,将工作主要精力集中在业务应用性能及基础设计监测和优化,从“背锅侠”式的传统运维转变为“主动性”的智能运维。
2国网电商智能运维解决方案
基于国网电商业务系统处理数据的海量、复杂性、实时更新等特征,经过审慎的需求梳理和项目选型,我们最终采用了云智慧智能运维解决方案。方案根据大数据平台实时采集不同类型的数据源,分析需求的变化,灵活高效地进行内存级分析和运算,同时不断增强机器学习、深度学习等AI能力,实现对业务运行组件和环境的多维度监控、分析和可视化呈现及智能化告警处理。
智能运维解决方案的逻辑架构图如下所示:
智能运维平台架构采用分布式高可用架构,可做到线性且实时横向扩展,使得数据量和计算性能不再是系统瓶颈,最大限度地汇总和利用数据。对于可能的单点进行了双活冗余设计,达到真正的高可用,防止单台宕机影响整个系统,确保安全生产。系统采用自定义数据采集架构,根据数据体量,分布式部署数据采集器,分解采集任务,实现并行多任务采集,提高数据采集效率及准确性。
●目前上线的国网电商智能运维平台可分为以下模块:
●立体化监控:根据不同的监控对象和类型分别完成相关数据的实时采集。
●数据分析和处理:通过平台实现对数据源的统一接入、处理、建模等功能。
●智能分析及告警:实现数据模型、业务模型、分析模型、智能告警、机器学习等的数据查询和算法分析,提供异常检测、根因分析、性能问题跟踪、拓扑呈现、调用链追踪等应用服务。
●二次开发接口层:为运维监控应用提供不同的指标、告警和业务关联诊断接口服务。
●运维监控可视化:为应用提供不同的运维监控可视化大屏、视图定制、第三方应用界面集成。
本方案关键技术栈成熟,且在云智慧的其它智能运维项目中经过了大量验证,能满足国网电商海量运维数据处理能力和性能要求,实现风险小,保证整体智能运维平台项目的顺利实施。
3国网电商智能运维典型场景及应用价值
国网电商智能运维项目已经推进到第三阶段,实现了IT资源的全面监测和运维大数据的智能化分析,可落实到以下7大典型场景:
场景1:业务运营分析
●主要功能:业务服务可用性、运行健康分析、业务拓扑分析、业务性能诊断
●价值:业务交易过程可视化展示,实时了解业务运营情况及趋势,保证业务SLA
场景2:应用性能分析
●主要功能:实时应用性能统计及趋势分析
●价值:提供业务发布前质量评估,通过端到端全技术栈监控快速定位架构及代码性能瓶颈、解决线上应用性能问题
场景3:基础资源使用分析
●主要功能:提供IT基础资源负载及趋势追踪、资源使用率及趋势分析及容量评估。
●价值:为IT资源利用效率、容量评估和预测提供数据支撑
场景4:基于日志数据、监控数据的业务与IT资源关联分析
●主要功能:基于监控数据、日志数据的业务交易、应用性能及IT资源的实时关联分析
●价值:实时分析IT基础资源、应用性能对业务交易的影响及趋势
场景5:网络质量分析和诊断
●主要功能:提供内、外网络质量的分布式监测和实时用户体验感知分析
●价值:为业务服务提供7*24小时持续监测服务,业务故障提前发现和预警,保证服务SLA
场景6:智能告警分析/预测
●主要功能:实现不同告警源的统一接入、收敛处理、故障根源分析及智能预测
●价值:多种告警源的统一管理,避免告警风暴,提高告警的准确性和根源快速定位,针对系统异常提前预警,避免业务中断带来损失
场景7:VIP用户问题业务问题快速追踪和定位
●主要功能:提供针对VIP用户的业务问题逐层钻取追溯和分析
●价值:通过全栈监控数据和多维度深入分析,快速定位VIP用户业务访问问题的根源,保障和提升用户业务访问体验
云智慧智能运维平台立足国网电商公司的行业特点,以企业现有IT监测数据和日常业务数据为抓手,通过高性能大数据处理和业内领先的人工智能技术,对业务、应用、设备、网络等数据进行智能化分析,深入发现IT数据的核心价值,全面提升IT运维管理效率。
论文作者:李闯
论文发表刊物:《电力设备》2019年第3期
论文发表时间:2019/6/11
标签:业务论文; 数据论文; 智能论文; 系统论文; 互联网论文; 实时论文; 性能论文; 《电力设备》2019年第3期论文;