摘要:目前许多公司的IT运维已经开始从人工阶段转移到计算机处理阶段,但是分析这些公司会发现,大多数处在“半自动”阶段,都是等到服务器和业务系统出现异常之后,再由运维人员分析问题处理故障。这种机制并没有正真进入自动化的阶段。面对这种问题,本文指出如何推动公司内部信息运维工作从传统运维模式向自动化运维演进,以及如何通过自动化运维工具提高公司运维效率和水平。
关键词:传统运维的不足;自动化运维;自动化工具
1 传统运维的不足
在服务器以及业务系统的整个生命周期,运维阶段是持续时间最长、业务影响最大的阶段。因此,运维人员发挥着重要的作用。他们在负责维护并确保整个服务的稳定运行的同时,还需不断优化系统架构、优化资源利用率、提高服务整体的可靠性和高负载力。但是目前的运维环境中出现的部分情况是,公司的运维人员的大部分时间和精力都是在处理一些简单重复的问题,以至公司对运维人员的满意度不高。分析原因,将出现这种问题分为三点。
1.1运维人员面临的情况是在系统已经发生故障,并且对公司的业务造成影响时,运维人员才能够发现并且着手解决问题。对于这种被动的服务模式不仅仅使运维人员终日忙碌,而且当服务运行问题出现时,运维人员的工作主要方向也转变成为尽早恢复已经中断的业务系统,减少公司损失。针对这种模式也使的运维工作的本身质量难以得到提高。
1.2公司开展运维工作时,没能制定一套适合公司实际情况的简洁高效的运维制度。目前公司在运维管理的过程中缺少自动、高效的运维管理机制,也未能明确运维人员在运维流程中的角色定义和责任划分。始终处于私自快速解决或者是层级上报等待批复的模式。而在这两种模式下,服务系统出现问题后很难快速、准确的找到根本原因,导致无法及时找到对应的负责人进行批复或者故障处理。而且这两种模式都存在当故障找到后缺乏流程化的故障处理机制、欠缺规范化的解决方案、缺乏全面的跟踪记录的问题。
1.3缺乏自动化的运维工具。互联网行业的快速兴起和信息化建设的深入,让很多公司的工作和业务更依赖于网络设备,系统变得越来越繁杂,越来越多网络设备、服务器、中间件、业务系统也使得运维人员难以应对出现的故障,即使日常工作中努力维护、部署、管理系统也会因为内在或者外在的因素使设备或系统出现故障而导致业务中断,影响公司的正常运转而给公司造成损失。分析出现这些问题大部分原因是:公司在运维管理上仅仅靠人力监控设备的安全隐患,缺乏能够7*24小时的自动监控和诊断系统运行的运维技术工具。在没有高效的技术工具的支持下,处理突发的故障事件就很难做到到主动、快速处理。[1][2]
2 自动化运维
从运维行业出现以来,能够实现自动化运维一直是公司和运维人员追求和努力的方向。自动化运维不但能减轻公司的运营成本和减轻运维人员的工作负担,而且更重要的是运维自动化所带来的深层探知和全局分析技术,它可以推动互联网行业朝着轻体量、高负载的方向发展。
自动化运维可以根据目前服务器或者业务系统的状态,判断出现问题的几率,并在出现问题时及时找出故障根源,并且可以根据设备资源的使用情况来实现性能与服务的优化,保障设备资源收益最大化,最终实现公司效益最大化。现如今,自动化的发展和实现对于运维行业而言,已经不仅仅是运维人员与服务器和系统之间的关系,面向客户的服务决定运维能力已成为新的服务导向。
互联网运维自动化是基于流程化的所建立的服务框架,将业务事件的处理过程与计算机软件流程相关联。一旦被监控的系统软件流程发生性能超标或连接超时的情况,就会触发事先在软件中定义好的程序流程响应,系统将自动启动故障告警和处理机制,并将生成操作流程发送给对应的负责人员确认。自动化运维还可帮助运维人员完成日常重复性的工作(如巡检、备份、杀毒等),从而提高运维效率。同时,运维自动化还能够预测故障、在故障发生前能够报警、甚至能够在系统故障发生时自动处理或者通知运维人员处理,将损失降到最低。
运维流程的自动化能提高运维透明度,每个流程参与者都能看到系统做了什么和出现了什么问题。随着公司业务需求的变化,运维的方向也会出现不同的版本,而人力运维流程的不透明将会给流程定制和优化带来相当大的困难,自动化流程使用户能够一目了然看到整个流程的各个节点运转情况,在潜移默化中提升业务保障能力。
期刊文章分类查询,尽在期刊图书馆[3]
按照自动化层级的不同,以及结和百度自动化运维标准可以将其分成 L1~L5 共 5 个等级,不同等级间的区别主要体现在下面4 个方面的职能是人工还是运维系统实现的:
执行能力(Execution)将脚本发送给服务器或者设备等,通过执行脚本并获取执行结果。执行操作是否由服务器或系统完成是最基本的自动化要求,将其定义为 L1(工具辅助的自动化)和 L2(部分自动化)。
感知能力(Perception)包括感知服务的运行状态、感知服务的变更需求甚至故障事件。感知能力由系统完成后,结合人赋予的一些固定的条件规则来判断并执行,就是 L3(有条件的自动化)。
规划能力(Planning)根据其对待需求的处理情况、待解决的问题的感知状态,以及对运维主体的认识和理解。自动调用系统进程处理即将发生的故障或问题,并在处理过程中根据目标和运维主体的状态值来反馈,并且适时判断执行方法的优劣并调整执行策略。规划能力由系统完成后,并由系统辅助人来进行知识、经验的沉淀以补充系统的扩展性,可以处理全部人类已知的运维工作,即 L4(高度自动化)。从 AI 角度看,可以认为到了这个层次的自动化运维系统具有了一定的弱人工智能。
主动学习能力(Proactive Learning)主要指的是不依赖人,系统可以自行总结、提炼、抽象形成知识和经验的能力。至此,全部的运维工作都可以交由自动化运维系统处理,即 L5(完全自动化)。从 AI 角度看,可以认为这个层次是强人工智能。[4]
3 自动化运维工具
目前自动化运维工具,从前端到数据库有着各种各样的工具和版本,对于公司来言,在不涉及人工智能的层级上只需重点关注两类自动化工具:运维监控和诊断优化工具;运维流程自动化工具;
这两类工具主要应用于:
敏感参数监控自动化,是指对重要的设备实施主动式监控,如路由器、交换机、防火墙、服务器等。可以监控它们的一些系统参数如CPU、内存、硬盘容量。
配置检测自动化,是指互联网设备和部署的软件系统的配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助运维人员发现问题和维护配置。
维护事件提醒自动化,是指通过对互联网设备和业务系统的活动进程实时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关责任人。
系统健康检测自动化,是指定期配合运维团队,自动的对互联网设备的硬件和软件进行健康巡检,对系统的健康检查和监控。
维护报告生成自动化,是指定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供系统的可用性、性能以及资源利用状况分析报告。
结语:
在可预见的未来,运维角色在整个互联网运行体系中将变得越来越重要,而这种重要性的提升关键在于运维角色在整体的技术架构中的参与度及所处位置的提升。自动化运维的兴起,将以往传统运维服务上处于幕后的运维人员带到了体系架构中的服务前沿,将运维人员从以往简单的追查故障、保障服务的运维工作中抽离。随着自动化运维技术的发展,运维人员将会有更多精力、条件,投入到整个服务架构的梳理和设计中去,甚至可以通过提供基础组件的方式参与到研发过程,使得产品一上线就带有较高的运维性。总之,实现运维自动化是指通过将运维中日常的、大量的重复性工作自动化,把过去的手动执行的过程通过程序的方式转为自动化操作。运维自动化不单纯只是一个服务维护过程,更是一个管理的提升过程,自动化是运维工作的升华,是运维的较高层级,也是未来的发展趋势。
参考文献:
[1]董俊伶.《数字通信世界》,[M].2019 31-32
[2]杨震乾,毛正雄,王欢.《电子技术与软件工程》,[M] 2018 128-130
[3]辛永梅.《科学与信息化》,[M].2019 78-82
[4]百度百科:运维自动化标准
作者简介:1. 蔡玺(1982-),男(汉族),甘肃武威,研究生,工程师,主要研究方向:电力系统及其自动化。
2. 李万阳(1988-),男(汉族),甘肃白银,本科生,工程师,主要研究方向:信息运维。
3. 杨翠(1989—),女(汉族),甘肃兰州,本科生,工程师,主要研究方向:信息化项目管理。
论文作者:蔡玺1,李万阳2,杨翠3
论文发表刊物:《电力设备》2019年第19期
论文发表时间:2020/1/15
标签:系统论文; 人员论文; 公司论文; 流程论文; 互联网论文; 业务论文; 故障论文; 《电力设备》2019年第19期论文;