摘要:为解决机房基础设施传统管理体系当中存在的效率低下的问题,构建基础设施运维管理体系。采集机房基础设施的相关信息,并进行分类存储建立设备的信息档案,分别从设备巡检和远程IT 设备监控两个方面,制定设备运维的管理制度,完成机房基础设施运维管理体系构建。在故障点数量相同的情况下,构建的运维管理体系所消耗的管理时间同人工管理和传统管理体系所消耗的管理时间相比有明显缩短,因此,运维管理体系的效率更高。
关键词:机房基础设施;运维管理;体系构建
信息化技术的飞速发展,为了扩展数据中心的计算、存储、网络甚至安全应用等服务,维持信息之间的交互稳定运行,需要机房基础设施作为支撑,为数据中心提供良好的工作环境。数据中心机房当中的基础设施由主机房、基本工作间和三类辅助房间组成。主机房是信息化网络设备以及综合布线的核心区域,同时也是整个系统数据汇总中心。为了能够高效的对机房当中繁杂设备的运维管理需要构建完备的管理体系,保证机房基础设施的使用安全。
1.构建基础设施运维管理体系
1.1设备信息归档
将机房当中的所有基础设施进行统计,首先需要将不同类型和不同用途设备的信息进行采集,采集过程需要借助硬件设施提供基础支持,分别构建内网区网络和外网区网络,接入交换机,实现多层信息交换的功能。利用监控设备记录下进入机房的人员,当需要调用机房当中的基础设施时,需要向系统发送使用请求,系统查询机房基础设施数据库查看设施的运行状态,若查询结果是非故障且未被使用的状态,系统向用户端反馈允许调用的信息,并将调用用户的IP 定位以及相关信息进行登记并记录。机房内基础设施信息采集完成之后,建立机房基础设施的数据档案,其中包括硬件设备的型号、数量、种类、保质期、故障维修记录以及使用记录等。将所有的基础设施相关信息进行编号,在数据库档案当中分类存储。在日程的设备使用过程当中也需要及时对档案信息进行更新处理,保证设备信息的实时性。
1.2制定设备运维管理制度
设施运行管理制度当中需要实现设备巡检运维管理制度以及远程IT 设备监控管理制度,主要对机房环境进行实时监控,获得运维管理的实时数据情况,为机房当中的基础设施提供良好的运作环境。其中设备的运维管理制度又具体分为两个部分:
①设备巡检制度
设备巡检制度当中包括人工巡检、硬件故障巡检以及机房环境巡检。
规定每一次的巡检时间和巡检周期,借助各个硬件设备采集到的环境参数信息,具体任务就是巡检机房服务器及磁盘阵列设备的运行情况是否异常;观察机房中的照明情况有无异常状态;观察电源灯有无异常状态;观察专用空调等设备有无报警蜂鸣;查看机房温湿度监测软件温湿度记录,将机房温湿度报警服务器与短信服务器相连。将巡检情况汇总成为一套巡检工作报告,上传到数据库当中,将巡检数据与数据库当中的正常活动范围作比对,分析基础硬件设施是否存在故障隐患。在此基础上建立巡检记录表,除了规定巡检时间之外,对人工巡检情况进行记录,其中包括人工巡检人员、人工巡检时间等信息。综合服务器巡检结果以及人工巡检结果,最终生成巡检报告,由此实现巡检前数据下载和巡检后记录上传,使手持终端与巡检数据库服务器的数据同步一致。
②远程IT设备监控管理制度
网络远程IT设备监控管理制度是对机房内各类设备以及网络管理、维护的重要技术手段,标准化、流程化的远程设备监控,其最终目的是保证基础架构上的管理功能持续可用且稳步运行。网络远程IT设施监控与维护模块主要通过以下几个步骤来实现其功能。首先利用光纤电缆以及通信设备将机房当中所有的照明设备和照明电路连接到管理系统控制中心当中,由此控制中心可以调节机房的照明程度,可以按照控制监控要求对机房当中的基础设备进行全面管理。在机房区域当中安装视频监控设备,监控范围覆盖整个机房,确保监控影响当中可以监控观察到每一个机房基础设备的运行状态。
期刊文章分类查询,尽在期刊图书馆
2.运维管理制度
2.1运行维护队伍
根据运维服务工作的内容和流程确定各项工作中的岗位设置和职责分工,并按照相应岗位的要求配备所需不同专业、不同层次的人员,组成专业分工下高效协作的运维队伍,有效利用技术手段和工具,密切协同,做好各项运维工作。
①队伍组建
针对目前信息系统 IT 资源状况以及对技术的需求,组织各类别运行维护的技术人才和专家队伍,分层集中地开展运行维护工作。
②人员管理
对各级运行维护人员应制定一套切实可行的管理办法,包括人员配置、职责划分、人才库建立、人员培训、人员考核等。通过科学的管理办法和有效的激励机制,充分调动各级运行维护人员的工作积极性和责任心,为做好信息系统运行维护工作打好基础。
2.2运行维护管理流程
为加强对信息系统的运行维护管理,确保运行维护体系高效、协调运行,应依据运维管理环节、管理内容、管理要求制定统一的运行维护工作流程,实现运行维护工作的标准化、规范化和自动化。通过建立运维管理流程,可以使日常的运维工作流程化、职责角色更加清晰,从而有效提高解决问题的速度和质量,实现知识积累和知识管理,并可以帮助运维部门持续改进服务,提高服务对象的满意度。运行维护流程包含的环节有服务级别管理、事件管理、问题管理、变更管理、配置管理、信息安全管理与发布管理等。
2.3运维服务管理平台
运行维护流程的梳理和建设往往需要借助运维服务平台来实现。建设稳定、可靠、安全的综合运维管理平台,通过该平台可以统筹数据中心管理、IT 支撑平台管理、业务监控管理、运维服务流程管理、灾备管理等内容,通过各种友好的方式,可视化展现各种监控对象性能指标、告警、信息的实时状态和变化趋势。通过构建业务应用和 IT 运维环境的关联映射模型,全景展现业务系统整体可用性和健康状况,实现可视、可管、可控、可持续、可落地一体化管理,配合7×24 小时运行值守,全面提升运维技术支撑能力。
2.4应急处置及安全防护
根据应急处置流程制订完善的应急预案,建立健全信息通报机制,日常做好安全检查、隐患排查、风险评估和容灾备份,定期组织演练,加强培训学习,提高安全事件的防范意识与应对能力,在国家开展重要活动期间,重点保障机房信息系统的安全,按照事件级别启动预警响应,做到及时发现和有效处置,配合调查处理和总结评估。
结语
机房是硬件,维护的是安全。没有网络安全就没有国家安全,《网络安全法》的出台,对维护网络运行安全、保障网络信息安全具有基础性、全局性的意义,也对运维管理、运维人员提出了更高的要求。安全是底线,特别是交通行业对于关键信息基础设施安全应做到重点保障,对信息系统定级,就是对应履行的安全义务和安全责任定级。作为运维机构,应明确职责,建立健全机房运维管理体系并严格执行,固化服务流程,规范服务模型,发挥运维服务平台效能,提升服务质量,提高机房可用性,将安全管理贯彻始终、不断完善,这样运维管理工作将更有价值。
参考文献
[1]赖作财,吴华娟.基于云计算的智慧机房建设与运维管理研究[J].电子世界,2018(2):194-195.
[2]徐为,徐永峰,周彩.数字航道机房运维管理体系的建设[J].中国水运(下半月),2017,17(8):60-62.
[3]沈蕾,王芳,吴丽华.NFV 硬件资源池规划建设重点[J].电信科学,2018,34(6):113-120.
论文作者:张锦文
论文发表刊物:《电力设备》2019年第7期
论文发表时间:2019/8/26
标签:机房论文; 设备论文; 基础设施论文; 运行维护论文; 管理体系论文; 管理制度论文; 信息论文; 《电力设备》2019年第7期论文;