杨俊
广州航天海特系统工程有限公司
摘要:运维体系涉及制度、人、技术、对象四类因素。制度是规范运维管理工作的基本保障,也是流程建立的基础。运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。
关键词:交通;信息化;运维体系
运维体系涉及制度、人、技术、对象四类因素。制度是规范运维管理工作的基本保障,也是流程建立的基础。运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。
笔者有幸参加了某省交通信息化建设项目,在项目建设前期,根据交通信息化特点,为保障信息化系统在建设完成后,能够顺利运营,按照预期目标向使用对象提供安全可靠的服务,针对本项目提出了交通信息化运维管理理念,主要包括以下几个方面:
1运维管理范围
运维管理范围包括环境、网络、设备、软件、存储介质、防病毒、应用和日常操作。
1.1环境管理
数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。
在制定数据中心环境管理相关文件时,通过对各区域内所存放的信息资产的等级进行分析,将数据中心划分成不同类别的管控区域和安全区域。建议至少划分为3类区域:公共区域、办公区域、安全管制区域。
(1)公共区域:这些区域通常用于数据中心生活与展示的配套区域。该区域允许员工及获准进入数据中心的第三方、客户在遵守相关制度的前提下自由进出。
(2)办公区域:数据中心内存放日常行政办公信息处理设备和其他办公设备,开展日常工作的区域。这类区域的进入通常需要办理相关的进入申请,配备有视频监控系统。
(3)安全管制区域:数据中心内存放核心信息处理设备和供配电等基础设备,开展一线服务工作的区域。这类区域严格限制人员设备的进出,有先进的门禁及监控系统以确保信息系统安全。
在编制环境管理相关流程时应考虑人员进出的要求,还应考虑设备和物品进出的流程。设备和物品的进出应得到正式的审批,特别是对于安全管制区域所有的IT类设备、存储介质应重点控制。
1.2网络管理
网络作为数据中心重要的资源,应制定相关流程予以控制。建议网络管理流程包括如下管理内容:
(1)网络拓扑结构:应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。
(2)网络的访问管理:应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的人员负责网络接入和终止接入的管理工作。
(3)网络系统日常维护流程:应有专门的工作指引用于指导网络设备的日常维护,日志的备份、配置信息的备份。
1.3设备管理
数据中心的设备管理主要包括对设备的固定资产管理,设备维护管理等。数据中心在起草相关流程文件时应关注以下几点:
(1)编制设备清单:明确设备的所有者、管理维护人员或部门、开始使用的日期、设备的重要等级等信息。此类信息最好悬挂或张贴于设备上或设备周边的醒目位置以便于管理。
(2)制订设备的维护计划:规定具体设备的维护日期、维护人等信息,并由专人负责按照维护计划进行维护或联系、督促服务商执行维护。
(3)将设备按重要等级进行分类:设备按照等级分类,并按不同的设备重要等级制定不同的管理策略,最大限度的确保重要设备的运行。
1.4软件管理
(1)计算机系统安装软件的管理:对于数据中心的办公用计算机、监控用计算机和生产用计算机来说,其安装的软件应该受到严格的控制,避免员工随意安装软件。从软件管理角度,数据中心应建立可安装软件的认证工作,通过对软件使用的分析建立一张可安装软件的清单,对于清单范围外的软件不允许安装。对于监控、生产用的计算机及可连入生产网的计算机,其安装的软件需经过认证,并对所安装的软件进行记录,定期检查是否存在使用其他软件的情况。
(2)软件维护及补丁管理:随着各种利用安全漏洞的病毒和恶意程序的增多,软件维护和补丁的更新工作也显得极其重要。对于软件补丁的安装管理应做好以下几项管控工作:补丁的测试、补丁的发放和安装、版本控制,建议补丁的管理由专人负责。
(3)数据中心软件许可证的管理:随着知识产权意识的提高,是否使用有合法许可授权的软件已经成为越来越多数据中心和客户关注的问题。软件许可证的管理要作为数据中心的一项重要工作。其重点在于管理数据中心所拥有的合法软件许可证,确保在许可证许可范围内使用软件,确保软件的安装有记录可查。
1.5存储介质管理
数据中心经常面临大量的介质管理工作,介质管理工作的成功与否直接影响数据中心的信息安全。一个良好的介质管理工作应包括以下几方面的内容:
(1)空白介质与有数据介质保存方式的规定:两种介质分开保存并有明显标示以示区别,同时应明确介质的保存地点,做到介质统一保存。
(2)应制定统一的介质编号、标示原则:对介质作统一的编号标示,便于介质管理。
(3)有条件时建立介质管理员制度:确保介质的专人管理,可减少介质管理的混乱。
(4)有数据介质的领用查阅应得到控制:介质领用、报废应有适当的审批过程。应规定清除报废介质内残余数据和销毁处理报废介质的流程,避免信息泄露。
1.6防病毒管理
随着计算机病毒的日益泛滥,防止数据中心的生产设备、办公设备受到病毒侵害已经成为数据中心管理中不可缺少的工作内容。防病毒管理流程主要包括以下几个方面:
(1)防病毒软件的管理:这里主要包括软件的安装、软件的设置、病毒库更新,软件版本控制、定期查杀病毒等。
(2)病毒资讯:安排专人随时了解病毒最新信息,可能爆发的病毒类型、染毒后现象及对信息系统的影响,查杀方法等,并将这些信息通过定期通告和随时通报两种方式提醒数据中心相关人员查防。
1.7应用管理
应用管理包括数据库、中间件和应用系统本身在内的所有管理。
(1)将应用按重要程度进行分级。根据应用系统所提供的IT服务的重要性来对应用系统进行级别划分,并以此进行归类。这个级别的定义可以提供应用系统管理维护所涉及的多个流程,包括事件管理、问题管理、安全级别管理等最基本的信息。例如,一个一类应用(最重要)中断1小时和一个四类应用(相对最不重要)中断1小时,显然事件的等级是不一样的。所以,将应用按重要程度进行分级对于更为合理的分配资源有重要意义。
(2)制作应用地图。首先要制作系统结构图和网络拓扑图,同样,还需要制作应用拓扑图,也称为应用地图。应用地图将应用按其功能类别划分为应用群,赋予不同的色块标识进行布局,使其便于统计和管理。一个应用占用一行或一列,在这行或者这列中,从首到尾,分别在每一格列出网络设备、服务器、数据库、中间件,最后是应用。每一格都可以再标示出具体的信息,如服务器的型号,数据库的版本,应用的名称和版本等,从而清晰地表现出各个应用相关的最主要信息。应用地图是快速了解总体应用部署情况,并在应用出现故障时,迅速定位原因,最为直观有效的形式之一。
(3)了解应用数据流。深入研究并绘制多个应用系统之间数据的流向是有必要的。应用数据流可以用图形,也可以用表格来表示。应用数目较少时,用图比较直观;但当应用数目超过一定量时,表格的形式就更为合适。但不管是用图,还是用表,应用数据流都应该至少包含以下几个元素:数据提供的应用系统名称(一般称为上游应用)、提供的数据类型、文件名称、时间、周期、本应用系统名称以及数据接收的应用系统名称(一般称为下游应用)等。针对任何一套应用系统,通过应用数据流图,可以很清楚地知道一旦停运,对其他应用系统的影响,这对于事件、问题或变更的影响评估有非常重要的意义。
1.8日常操作管理
数据中心的日常操作管理主要包括数据中心内部生产系统、办公系统、动力设备、环境保护、监测系统的数据处理、操作、维护的管理,以及数据中心信息处理设施、基础设施设备的软硬件运行情况巡检等监控工作的管理。
建议为每一台设备编制相应的操作工作指引。不建议以服务商或设备制造商提供的使用说明书或技术资料直接作为工作指引使用。工作指引编制应该满足数据中心实际使用的需要,用于指导操作人员在实际环境下操作设备的各项功能。
建议制定相关的巡检工作指引,规范数据中心的日常巡检工作。工作指引应规定巡检的周期、巡检项目、判定设备正常的标准、出现异常后的记录和汇报方式以及事件管理的接口。对巡检设备及内容做成检查表,巡检记录以表格形式呈现。
2 IT运维流程
有效的流程管理机制的建立和执行,能够保证IT运维管理系统达到预期的效果和目标。根据服务项目梳理服务流程,并以标准化、规范化、系统化、信息化的方式进行管理。
■帮助台
设置专人值守的热线服务电话,提供用户的服务咨询与请求,监控系统运行状况,通过管理工具对网络运行、系统服务状况进行监控。承担对所有IT设备和系统使用人员的支持,并发起管理路程,进行故障的处理以及事件跟踪,收集、汇总、分析系统数据。
■事件管理
时间管理的目的就是能够及时解决突发事件,使IT服务尽快恢复到正常运行状态,以保证最佳的服务可用性级别,事件管理流程必须利用优势资源支持业务、开发和维护有效的时间记录及事故报告方法。
■问题管理
IT基础设施涉及不同的厂商的软硬件产品,为维持这些设施的正常运作,需要各个方面的专业人员针对不同的情况在问题管理流程中为问题的解决定义相对复杂的支持体系。
■变更/配置管理
为实现对IT运维管理系统的变更和配置管理,IT部门还需要建立专门的配置管理库。对配置的更改和跟踪都有详尽的时间记录和操作员记录,配置数据库为实现变更管理和配置管理提供可能。
■自助服务门户
建立自助门户让用户通过常见问题解答和搜索浏览工具能够找许多问题的直接答案,成功的自助服务实施是以保修电话量的减少、每次交互成本的降低以及服务质量水平的提高来测量的。以减少客户等待的时间和废弃的电话的数量。
■知识库维护
ITSM系统实施中,自助服务门户需要对常见问题进行解答和知识库进行专门维护。如果知识库的数据得不到更新,用户就会选择电话方式,把整个自助服务的功能给否决掉。因此知识库的更新及维护相当重要。
■运维服务质量管理
用户的每一次要求,都将在系统中建立服务档案,并一直被实施监控,知道问题得到圆满解决。每一个服务流程都有时限要求,以提醒和督促相关人员。需要对IT部门整个服务工作进行监控和考核。
3 业务连续性管理
维持数据中心的持续运维对数据中心具有重大意义。尤其在发生灾难的情况下如何确保数据中心的持续运作是数据中心管理人员必须关注的问题。
业务连续性管理就是负责数据中心预防灾难、增强IT基础架构在灾难发生后的恢复能力的管理流程。它着重确保数据中心在诸如地震、洪水、火灾、失窃、恐怖袭击、网络攻击、大范围停电等灾难后尽快恢复运作,减少因数据中心停止运行而带来的损失。
业务连续性管理流程主要包括制定业务连续性目标、业务影响分析、灾难恢复应急预案三方面内容:
1、制定业务连续性目标:它是数据中心制订业务连续性方案,进行风险分析的重要依据。确定数据中心发生灾难后可接受的业务停顿时间,是其主要内容。
2、业务影响分析:指对可能造成数据中心业务中断的灾难事件进行分析,重点是分析其对应的场景、业务替代难易程度、对相关业务持续的影响、对数据中心整体发展的影响、灾难事件所发生的概率等。目的是筛选出最可能影响到数据中心持续运维的灾难事件场景,为制定应急预案确定前提条件。在进行业务影响分析时应关注:
1)场景的确定:从替代性风险、中断与否、影响程度、发生概率四个方面对不同场景的不同原因进行分析,找出风险值最高的场景原因,为灾难恢复计划的制订确立场景。
2)可接受风险值的确立:在综合衡量成本与各场景的风险值后,决定数据中心对风险值的接受程度,凡风险值高于可接受程度的场景均需制订灾难恢复计划。
3、灾难恢复应急预案:应急预案是为确保发生灾难事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:
1)根据业务影响分析的结果及灾难场景的特点编写应急预案,确保当紧急事件发生后可维持业务运作,在重要业务流程中断或发生故障后在规定时间内恢复业务运作。
2)应急预案除包括特定场景出现后各部门、第三方的职责与任务外,还应评估复原可接受的总时间。
3)应急预案必须经过演练,使相关责任人熟悉应急预案的内容。
目前项目已经建设完毕并投入运营,现场制定了运维管理体系标准化文件,从执行效果来看,基本达到预期目标,并且根据现场实际情况,不断完善体系,为交通信息化提供可靠的支持。
论文作者:杨俊
论文发表刊物:《防护工程》2018年第11期
论文发表时间:2018/9/29
标签:数据中心论文; 设备论文; 介质论文; 流程论文; 软件论文; 区域论文; 业务论文; 《防护工程》2018年第11期论文;