摘要:基于基础监控工具及日志监控分析工具对系统、网络、硬件、应用、服务、环境实现统一监控展示,实现数据采集、数据存储、指标计算、告警提示、指标展示等功能,建立一个集运维监控和IT服务管理于一身的信息系统运维管理平台,满足数据中心日常运行维护服务能力和管理水平的高标准要求,建立统一配置管理数据库,为流程运营和可视化展现提供基础数据支撑规范和优化服务流程,提供实时可视化业务系统健康状况,实时、自动、客观展现IT 相关KPI报表,降低运营风险,提高管理成熟度和效率,为今后数据中心从提供简单的“私有云”支撑技术向打造精品式的“混合云”服务模式的转型发展道路奠定安全保障基石。
关键词:ITIL技术 运维管理系统设计 广州越秀
1引言
随着数据中心架构和承载信息系统越趋复杂化,系统运维管理节点繁多对运行事件的应急响应和处置带来了新的挑战,缺乏高效的管理工具和自动化监控机制,仅依靠运维人员手工登陆检查和不定时的现场巡查的运维模式,已远不能达到集团信息化建设快速发展的安全运营保障基线要求,亟需建立一个集运维监控和IT服务管理于一身的信息系统运维管理平台,满足数据中心日常运行维护服务能力和管理水平的高标准要求,也为今后数据中心从提供简单的“私有云”支撑技术向打造精品式的“公有云”服务模式的转型发展道路奠定安全保障基石。
2数据中心运维中存在的问题
随着数据中心规模的不断扩大,数据中心的运营和维护工作变得更加的复杂和多样化,并且专业的运维管理人才较少,因此数据中心的建设和管理工作遇到了瓶颈,主要可以体现在以下部分:
(1)缺乏规范统一的系统配置平台,无法有效地进行数据信息的共享。无法对信息进行详细准确地掌握、判断,极容易造成在出现数据故障时,运维人员不能准确、快速了解具体的实际情况,导致处理问题的难度和周期受到影响。
(2)管理缺乏规范、标准的操作流程。在目前的数据运维操作模式下,用户实际应用中出现问题通常会直接联系较熟悉的运维人员进行故障的检修,而该维护人员可能并不熟悉此类故障的检修工作,导致运维、故障检修的效率受到影响。
(3)在数据中心建设规划过程中,企业没有准确、科学的产品建设定位,无长期的规划会导致数据中心建设和运维过程中,通常会为了单一解决某一种问题而进行系统的建设规划,缺乏长期与企业发展相适应的信息建设平台规划设计,导致在数据中心建设完毕后还存在各种各样的补救工程。
(4)企业对于运维工作人员缺乏规范、科学的评价体系,缺乏量化的指标和标准。由于没有规范的评价体系,用户也无法对支持的运维部门做出科学的评价。
3数据中心技术体系及?ITIL?管理体系
ITIL V3 从战略、战术和运作三个层面提出了针对 IT 业务变化的服务管理方法。服务战略是生命周期运转的轴心;服务设计、服务转换和服务运营是实施阶段;服务改进则在于对服务的定位和基于战略目标对有关进程和项目优化改进
4数据中心运维管理核心流程设计
4.1 设计原则
(1)战略性原则
综合考虑集团及子公司目前已有的、正在建设的、以及未来新增业务系统监控、管理和安全的需求,以满足系统长期的发展要求,并为将来实施的控制管理打下基础。
(2)安全可靠性原则
在系统结构、设计方案、设备选择、技术服务等方面需综合考虑,保证系统能够安全无故障运行。保证监控数据的准确和及时,不应增加被监控系统的复杂性,更不会降低被监控系统的稳定性和效率。
(3)实用性和开放性原则
充分满足集团当前业务系统的监控需求,同时还要充分考虑未来业务系统可能出现的各种个性化监控需求,制定具有通用的、可行的技术解决方案。
(4)可扩展性原则
采用符合国际国内标准的通用协议,提供易于与其他被监控系统通讯的接入口,支持各主流主机设备平台、操作系统及数据库厂商的各类软硬件产品。
(5)易维护性原则
提供简洁、方便、有效的管理工具和配置界面,以便于运维人员的日常管理和维护。
4.2 流程设计
(1)总体设计
面向集团数据中心中包括PC服务器、刀片服务器、存储等硬件、操作系统、数据库、中间件、VMWARE等基础软件、网络设备及基础环境设施等IT关键指标的集中监控、维护与管理,提供完善的监控报警功能,引入事件关联管理机制,提供对各种业务系统的个性化指标可配置监控功能,对监控系统产生的历史数据进行收集和保存,并根据需求生成各种运行情况和统计分析报表,满足运维人员对系统架构、运行环境、主机管理、存储检测、硬件检测、应用管理、报表展示等全面高效的“一站式”智能化的管理需求。具体的设计流程规划图见图1所示。
图1 系统设计规划图
(2)主要功能设计
监控系统设计
统一监控系统是基于基础监控工具及日志监控分析工具开发的对众多应用系统进行全面统一集中监控的软件系统,对系统、网络、硬件、应用、服务、环境实现统一监控展示,采用JAVA/JS/HTML5为主要开发语言,实现了数据采集、数据存储、指标计算、告警提示、指标展示等功能。
主要功能:系统监控 、网络监控 、硬件监控(机柜监控)、主机及虚机监控、应用监控(应用/中间件/日志监控)、服务监控(健康度、可用性)、环境监控、集中告警管理 、网站体验监控、大屏展示。
服务流程设计
规范和优化服务流程,降低运营风险,提高管理成熟度和效率。提供实时可视化业务系统健康状况,实时、自动、客观展现IT 相关KPI报表。建立统一配置管理数据库,为流程运营和可视化展现提供基础数据支撑。如图2所示。
图2 系统服务流程设计
系统故障告警管理系统可以实现预警、告警诊断、告警排除、告警升级、告警定位、告警显示、告警过滤等功能。其中,告警通知实现方式有手机短信、电子邮件、页面弹出。告警内容有告警来源、类型、级别、发生时间、接收时间、责任人、告警详细描述等。告警处理方式有如下形式:告警压缩、告警关联性分析、告警影响范围分析、告警定位、告警类型重定义、告警过、滤告警取消、转发工单(自动、手动)。
(3)配置管理设计
实现如下功能:CI建模、CI数据录入及关系建立、与应用、系统、网络数据接口、与变更的关联、配置数据自动采集、报表和查询、变更 影响的 CI分析、可视化展示。
5基于ITIL的数据中心运维管理实施策略与实践
广州XXX集团有限公司是XXX集团三大核心产业板块之一,金科作为XXX集团旗下唯一的科技平台,承接集团的IT战略部署,积极推进银行、证券、融资租赁、产投、担保、小贷信息系统建设;建立以信息科技公司为核心,贯穿科技管理体系的独立信息科技平台。随着数据中心架构和承载信息系统越趋复杂化,系统运维管理节点繁多对运行事件的应急响应和处置带来了新的挑战。
5.1 项目规划目标
(1)本项目建设目标主要分为两大部分,一是集中监控管理平台,二是基于ITIL标准的服务管理系统,二者相互对接,实现互连互动。
(2)面向集团数据中心中包括PC服务器、刀片服务器、存储等硬件、操作系统、数据库、中间件、VMWARE等基础软件、网络设备及基础环境设施等IT关键指标的集中监控、维护与管理,提供完善的监控报警功能,引入事件关联管理机制,提供对各种业务系统的个性化指标可配置监控功能,对监控系统产生的历史数据进行收集和保存,并根据需求生成各种运行情况和统计分析报表,满足运维人员对系统架构、运行环境、主机管理、存储检测、硬件检测、应用管理、报表展示等全面高效的“一站式”智能化的管理需求。
(3)通过利用工具设计科学、规范的流程管理模型和方法,将运维服务管理体系通过平台落地,涵盖事件管理、问题管理、变更管理等关键节点,并实现监控预警数据的实时报文对接,支持移动APP端的预警推送及响应处置功能,多维度、多渠道、多模式地全面提高数据中心运维管理响应效率和服务能力。
5.2 系统实现
(1)功能实现
兼容性:对不同版本的浏览器兼容。
高可用性:系统需要保证的服务时间(7×24小时),99.5%的可靠性。
性能要求:某个功能操作在线处理响应时间控制在5秒以内。
监控引擎系统:采用开源的、部署方便的监控系统,可对各种的机器提供多种监控方式(agent、snmp等),并针对监控指标设置阀值,发送告警信息。
(2)数据结构实现
数据层。数据层使用mysql数据库,该数据库安装、配置简单明了。数据层负责和服务层交互,数据的存储和读取以及各种处理都在此层。数据源层数据来源分两部分,一部分从监控引擎获得,一部分从本系统获取
服务层。服务层包含流程、菜单、监控等服务,该层作为数据层和应用层的纽带,数据层的数据通过服务层处理包装后提供给应用层。
应用层。应用层负责展示从服务层获取的数据。应用层通过获取底层数据,从而填充应用层。
数据处理。系统通过API接口或者JDBC方式从监控引擎获取数据并加工整理后存在本地数据库。
(3)系统安全实现
认证:数据库中存储用户信息,符合信息才可以访问本系统。
权限控制:通过系统自身对用户权限控制,用户只能访问指定权限的内容。
5.3运维管理系统的功能内容
(1)集中式全面监控:构建集中式的监控平台,支持采用高可靠、高性能服务器或虚拟机或专用硬件平台作为监控服务器,监控管理的系统对象包含:主机、操作系统、数据库、存储系统、应用系统等,可通过配置或调用外部程序实现对非标准的设备和业务系统的监控,并可以统一展现监控结果。
(2)支持灵活模块式配置的监控管理:系统应该能提供从业务系统角度来管理整个IT架构的功能。系统应该灵活定义业务系统、应用系统以及主机设备、网络设备之间的逻辑依赖关系。对逻辑依赖关系的编辑提供增加、删除、复制、移动等操作,并支持批量操作以简化业务拓扑的配置工作。
(3)可配置的个性化指标监控:对被监控系统的各种个性化监控指标,都能够通过调用脚本、外部程序或通用接口获取监控数据,可通过管理界面配置须监控的指标,最终能以统一的风格展现,不需要修改监控系统自身的程序。
(4)直观、灵活的管理视图:提供统一的管理和展现页面。在系统管理范围内的所有主机、应用系统、中间件以及业务系统都可以按照多种方式进行展现,并且在展现视图中以明显的颜色、文件来表示被管资源的状态、主要性能信息以及当前的告警状态等。
(5)基于大数据关联分析:要求对底层监控数据建立基于大数据的关联分析模型,实现各项监控指标数据的多维度关联分析和挖掘。
(6)严格的权限控制:具备监控各个业务系统用户和角色授权管理机制,对于不同角色,可以设置对被监测设备与被监测业务的读取和操作权限。并记录用户对系统的访问过程,确保系统的安全。
(7)提供多种告警方式:提供多种告警策略和告警方式,须提供短消息、移动客户端或微信推送、邮件、页面告警和语音报警等方式。管理人员可以根据自己的需要定制告警方式。
(8)完善的报表功能:报表功能具有报表生成的灵活性和呈现的多样性,能够对各种查询结果进行某一维度的统计分析,并能将统计分析以结果文本列表、图形方式(直方图、曲线图、面积图等)或报表方式显示、打印或转存为Excel报表方式输出。
(9)信息查询和发布: 系统应提供灵活、强大的查询、统计、发布及报表功能,用户可以通过该工具查询到系统配置、告警、性能等各方面的信息。
(10)技术文档:必须提供详尽的系统设计、管理和维护文档,包括但不限于产品架构、运行环境、客户端设置与展示、实施部署、后台管理及维护方法等。用户管理:有不同类型的操作用户和管理用户,按不同的数据级别或权限使用系统。
6结语
本系统通过底层监控工具的部署,实现统一的监控和预警,满足运维人员对系统架构、运行环境、主机管理、存储检测、硬件检测、应用管理、报表展示等全面高效的“一站式”智能化的管理需求。
通过利用工具设计科学、规范的流程管理模型和方法,将运维服务管理体系通过平台落地,涵盖事件管理、问题管理、变更管理等关键节点,并实现监控预警数据的实时报文对接,支持移动APP端的预警推送及响应处置功能,多维度、多渠道、多模式地全面提高数据中心运维管理响应效率和服务能力,同时为下一阶段的运维大数据分析量化积累,从而逐步实现IT运维从被动管理向主动服务的转化。
参考文献
[1]王宏旭, 杜建发. 云数据中心运维管理中的ITIL应用略谈[J]. 信息系统工程, No.293(05):56.
[2]张立斌. 军队云数据中心运维管理中的ITIL应用研究[J]. 计算机时代(9):45-48,共4页.
[3]卑风. 基于ITIL体系的银行数据中心配置管理工具的分析与设计[J]. 微型电脑应用, 2013(3):38-42.
[4]曹福凯, 高晶, 沈宏. 基于ITIL理念的数据中心管理标准化设计[J]. 煤炭技术(6):199-201.
[5]任义丽, 王贤, 朱建力, et al. 中国石油数据中心(勘探院)ITIL落地探索与实践[J]. 信息系统工程, 2012(11):51-53.
论文作者:高海
论文发表刊物:《科技新时代》2019年10期
论文发表时间:2019/12/6
标签:系统论文; 数据中心论文; 数据论文; 报表论文; 业务论文; 指标论文; 功能论文; 《科技新时代》2019年10期论文;