公诚管理咨询有限公司第三分公司 广东东莞 523000
摘要:数据中心是现代企业的重要组成部分,对其智能化运行维护管理展开研究具有十分重要的意义。本文对数据中心机房的智能化运维管理现状以及相关技术展开了介绍,并分析了数据中心智能化运维管理的发展与展望。
关键词:数据中心;智能化;运维管理;现状;展望
随着我国社会经济的快速发展以及信息技术的创新进步,企业数据中心的规模越来越大,网络布线系统的密度和复杂程度也逐渐增加,这对数据中心的运维管理提出了更高的要求。而数据中心的智能化运维管理已成为数据中心发展的必然趋势,基于此,笔者展开了相关分析和介绍。
1.背景及现状
1.1技术领域发展的三个阶段
数据中心运维管理技术发展可以分为三个阶段,如图1 所示。
图1 运维管理技术发展的三个阶段
第一个阶段是人工操作、手工记录阶段。运维完全靠人工操作,设备和机房的各类配置信息、运维信息使用大量的表格、文档进行记录,自动化程度低。
第二个阶段是流程化、平台化阶段。数据中心按照ITIL 的方法论建立事件、变更、问题和应急等流程进行运维。同时建立统一的资源、配置和监控平台进行管理,大大减少表格和文档的数量。在运维操作上也引入远程操作技术手段,如KVM 集中管理、带外管理等。目前大多数成熟的数据中心都处于该阶段。
第三个阶段是自动化、智能化阶段。自动化方面,日常运维更多地依靠软件平台输出分析结果,依靠脚本等工具集中批量操作;智能化方面,将主流的新技术,如人工智能、物联网和机器人等,应用于设备和机房的智能化运维管理,针对具体的运维场景,通过技术或者算法与行业特性的结合,形成具体的智能化运维方案,大大降低人力成本。
1.2 DCIM 和机房3D 可视化管理
近几年,大型数据中心为提高设备和机房基础设施的自动化、智能化管理水平,纷纷建设数据中心基础设施管理(Data Center Infrastructure Management,DCIM)和基础设施3D 可视化软件平台。
(1)DCIM
DCIM 是近年来在数据中心运营管理领域兴起的一个热点。DCIM 概念起源于国外,不同的机构对DCIM也有不同的定义,但基本共同的观点是DCIM 不是一个软件,而是一个管理工具和方法。通过它可以架起一座连接关键基础设施和IT 设备之间的桥梁,从而帮助数据中心管理人员更高效地运营数据中心。
Gartner 对DCIM 的定义:数据中心基础设施管理(DCIM)工具可以监控、测量、管理和控制数据中心所有IT 相关设备(比如服务器、存储和交换机)和基础设施相关设备(比如PDU 和精密空调)的使用情况及能耗水平。可以看出,DCIM 定义中的Infrastructure是指支撑整个数据中心IT 系统运行的所有物理层设施,包括供配电、空调环境、安全防护、综合布线和消防场地等基础设施与服务器、存储和网络等IT 硬件基础设施,即基础设施(Infrastructure)= 场地基础设施(FacilityInfrastructure)+IT 基础设施(IT Infrastructure)。
从框架上来说,DCIM 是通过一整套包含硬件设施、传感器和特定软件组成的管理平台与工具,实现数据中心所有关联系统协调统一管理,包括IT 基础设施(服务器、存储、网络及虚拟机等)和场地基础设施(配电、制冷、布线及机柜等),对数据中心的容量规划、集中监控、智能管理、事件处置、模型预测和成本控制等目标进行管理,是信息技术和设施管理的综合集成。目前业界的DCIM 落地实施商主要以集成设施厂商为主。因此,更多的是供配电和制冷等动环监控系统的整合和集成,并没有涵盖IT 设备的管理,与DCIM 理论和框架存在偏离。
需要关注的是,DCIM 这一套理论和框架在落地实施时存在诸多的困难,主要体现在一方面需要和数据中心已有的各类配置系统、监控系统和帮助台系统进行对接和功能划分;另一方面需要改变已有的流程和工作习惯。
(2)基础设施3D 可视化管理平台
数据中心已有的资源管理系统、配置管理系统、各类基础设施监控软件和集中监控平台,甚至是集成后的DCIM 软件平台均存储和收集了大量的IT 设备和基础设施的信息。数据中心的管理者和运维人员需要依托众多的分析数据支撑来完善对数据中心的管理。而数据中心的物理性和立体性特质,决定着很多分析结果并不是一张简单的二维表格就能满足要求,需要更为直观的表达方式,基础设施3D 可视化管理平台应运而生。
近年来,大型数据中心都建立了一个集成的、更为直观的基础设施3D 可视化管理平台。3D 可视化管理平台在一定程度上也是DCIM 的一种展示方式。一方面,以3D 形式展示数据中心园区、机房、IT 设备、动力空调环境设备和安保设施等;另一方面,集成基础设施各子系统的实时监控信息进行集中展示,如机房温湿度信息、设备报警信息等。
数据中心基础设施3D 可视化管理平台还可以与资源、配置管理和能量管理系统等对接,实现对IT 设备和基础设施的可视化管理,如设备信息查询、位置规划、机房容量规划和能效管理(PUE 信息展示)等。数据中心基础设施3D 可视化管理平台可实现设备管理的可视化、环境监控的可视化、安保监控的可视化和参观演示的可视化。然而,3D 可视化管理平台只是数据中心已有各类信息的展示,展示的内容依赖于数据中心内部相关系统的建立和完善。
值得注意的是,目前DCIM 管理平台和基础设施3D 可视化管理平台都只是完成了数据收集、分析统计和可视化展示,缺少智能管理和决策的功能。
1.3智能化运维管理现状
由于人工智能、物联网和机器人等技术伴随近几年互联网技术的高速发展应运而生,相关技术尚不成熟,与数据中心的智能化运维相结合还处于起步阶段。具体到设备和机房基础设施的智能化运维,尚处于研究阶段,落地的成功案例非常少。因此,从文献查阅的情况看,该领域还未有系统全面的论述。
此外,智能化运维的科研门槛较高,它是行业领域知识、运维场景领域知识和人工智能等新技术知识三者的交叉领域,如图2 所示。
图2 智能化运维的知识领域
数据中心设备专业人员熟悉设备和机房领域生产实践中的痛点和难点,熟悉运维场景,并且对于IT 设备、动力空调设备等行业领域的知识有一定的了解,但是对人工智能、物联网和机器人等新技术不了解,不熟悉如何将实际问题转化为算法问题,不熟悉科研文献,特别是跨行业的文献的检索查阅。因此,需要数据中心设备专业人员、设备厂商的研发人员、高校和研究所的科研人员共同努力,才能推动设备和机房基础设施智能化运维管理的研究工作不断取得进展。
目前,设备和机房基础设施的智能化运维管理领域的发展出现宏观和微观两个方向。
(1)宏观方面。以部分设备厂商为代表,致力于宏观上智能化运维框架和理念的提出,并嵌入已有的软硬件产品,推出智能化运维软件平台。尽管如此,所谓的智能化运维平台中的智能分析和决策模块都没有实际落地。
最近HDS 公司提出了“智能数据中心解决方案”。该软件平台命名为Lumada。Lumada 只是个框架,其中多个模块还处于开发和设计中,需要不断充实和完善。其主要思想是将智能数据中心分为采集层、平台层和应用层。在采集层中利用物联网等技术收集IT 设备和基础设施设备的数据并汇集到平台层,大量的历史数据将做为平台层和应用层模型训练的样本。平台层进行数据存储,并基于人工智能、数据挖掘等技术进行数据的分析处理。应用层根据应用场景,实现集成监控、预测分析、智能运维和机器学习等功能。这个智能化运维平台已经比目前业界数据中心建设的DCIM 平台更进了一步,增加了数据挖掘、大数据分析和机器学习等功能,但这些模块均未有实际应用。
IBM 公司近期也在推出“面向运维场景的自动化运维平台”,但纳入这个平台的运维场景目前主要以系统和应用层面为主,如主机自动巡检、故障应急自动化、变更影响分析、应用可用性分析和故障影响分析等。
(2)微观方面。数据中心运维人员结合自身生产运维过程中的难点和痛点,挖掘需求场景,使用新技术进行解决,从若干个孤立的场景和技术的匹配来提高自动化和智能化运维水平。
微观上,数据中心运维人员致力于设备资产管理智能化、机房巡检智能化、远程辅助设备维修和设备故障预报警等。在这个层面上,IBM 公司也在进行研究和探索,主要体现在:故障的前瞻风险预测;以IBM 的Watson 认知工具为核心,开发设备报错信息的智能决策平台,以便二线工程师能根据报错信息快速、准确定位IT 设备故障问题;基于增强现实(AR)技术研究设备辅助维修,加速故障修复,但这些研究也只是处于宣传阶段。
2.发展及展望
正如前文所述,数据中心智能化管理目前正处于起步研究阶段,还未形成一套成熟的框架或者方法论。相关的研究是在运维场景知识(难点、痛点)、行业专业知识(设备、供配电和制冷等)和新技术(人工智能、物联网和机器人等)三个方面的交叉领域开展,需要各方面的合作才能完成。数据中心设备专业的研究人员可以从熟悉的运维场景入手,在具有行业专业知识的设备厂商协助下,完成需求场景的挖掘,然后再尝试同人工智能等新技术专业人员合作,完成技术与场景的匹配,形成落地实施的方案。在进行需求场景挖掘时,可以从人工重复劳动比较多的日常工作入手,考虑采用自动化、智能化方式进行替代。下面对近期业界正在探索的若干运维场景及相应的匹配技术进行简单描述。
2.1基于物联网RFID 技术的设备资产管理
数据中心一般建立资源(配置)管理系统对成千上万台设备进行资产管理。在这种管理模式下,设备上黏贴条码或者二维码,通过人工的方式进行资产数据的更新和盘点。这种资产管理模式的主要问题在于:靠人工进行信息更新,经常出现更新不及时的情况;人工盘点工作量大,差错率高;设备资产管理的自动化程度低。因此,需要研究设备位置自动跟踪、自动更新和精确定位的方案。
物联网的射频识别技术(Radio FrequencyIdentification,RFID)可以应用于设备资产管理。RFID是一种长距离识别、近距离定位的非接触式自动识别技术,其核心部件RFID 芯片是集计算机、集成电路和高精密机械加工的高科技产品。RFID 系统主要由标签、阅读器和系统软件组成。阅读器读取RFID 标签信息后传送到管理服务器,系统软件实现对标签信息的管理。在服务器设备上黏贴RFID 标签,通过感应装置(阅读器)和网络传输(有线或无线)将设备信息传递到管理服务器,通过系统软件可以实现设备的定位,进而实现设备自动盘点、资产信息自动更新、机柜空间使用情况统计和新装设备位置规划等管理功能。
此项技术的应用10 年前就已开始,但实施成本较高,未大面积推广。随着传感器价格的降低及数据中心对设备资产管理定位精度要求的提高,越来越多的数据中心将会采用该技术。
2.2基于ZigBee 无线通讯技术的电池监控
ZigBee 是一个基于IEEE802.15.4 标准的低功耗局域网协议,是一种短距离、低功耗的无线通信技术。ZigBee 协议的优势在于自组网能力,最多支持65,000个设备组网。终端传感器功耗极低内置电池供电,可以持续使用至少2 年以上。ZigBee 技术可应用于UPS 电池的无线监控。基于ZigBee 技术的电池状态监测系统,无线终端监测节点实时采集电池组的电池状态参数,再将采集得到的数据通过中继节点传送给终端程序,最后再由终端程序对采集得到的数据进行整合处理,实现对UPS 设备电池实时监控的目的。
2.3智能巡检机器人
数据中心机房巡检是数据中心运维日常工作之一,通过对各类生产设备状态的巡查和检视,能够第一时间发现故障或隐患,并及时加以维修和防范,确保生产的安全和稳定。在实际操作过程中,机房巡检一般通过人工巡检的方式进行,巡检频率通常1 ~ 3 次/ 天。
随着互联网时代数据的爆发式增长,数据中心机房的设备数量急剧上升,机房巡检的工作量大大增加。在这种形势下,用智能巡检机器人代替人工巡检能够有效提升运维工作的效率和准确性,是未来发展的趋势。
目前业内智能巡检机器人应用领域比较少,在国内,仅仅在变电站、高压输电线路等巡检上有所应用,针对数据中心机房的应用仍然是空白。
数据中心的智能巡检机器人可以采用目前已经非常成熟的移动机器人技术为基础,结合成熟的图像识别技术、传感器技术和无线通信技术等,对数据中心机房进行定时巡检,识别、存储各种生产设备的位置、运行状态并且做出初步处理,定时收集温度、湿度、洁净度和气流速度等机房环境数据,用于分析机房的环境情况分布,以及统计机柜使用率等指标,形成设备、机房整体运行状态综合评价,为数据中心运维提供及时有效的数据,实现机房的无人化和智能化。
2.4基于增强现实(AR)技术的设备辅助维修
增强现实(Augmented Reality,AR)技术的目标是将计算机生成的虚拟物体、场景或系统提示信息叠加到真实场景中,从而实现对现实场景的增强,提高用户对现实世界的感知能力和交互体验。工业制造和维修是增强现实技术被应用的第一个行业。将AR 技术应用于复杂装备维修,可在一定程度上解决新型复杂装备维修人员少、技术资料海量等问题,提高维修效率。
AR 技术在数据中心设备维护管理及辅助维修方面的应用场景包括:设备专业的新员工培训;设备专业的应急演练和设备远程辅助维修等。
3.结语
综上所述,当前,数据中心已发展成为一个由多专业组成的系统工程,其运维管理也面临的巨大的挑战。因此,需要积极探索数据中心的智能化运维管理策略,合理利用先进的信息技术和互联网技术,创新其运维管理体系,提高数据中心的智能化和自动化水平,从而促进数据中心和企业的快速发展。
参考文献:
[1]刘洋.数据中心自动化运维平台设计与实现[J].现代商贸工业,2018,39(20):195-198.
[2]钱一飞,扈永正,焦斌.数据中心运维管理之我见[J].中国新通信,2018,20(12):36.
[3]徐建波.IT计算机数据中心智能化运维监控及能效管理的探索与研究[J].电子世界,2018(07):43-45.
论文作者:彭剑玲
论文发表刊物:《防护工程》2018年第22期
论文发表时间:2018/11/22
标签:数据中心论文; 设备论文; 基础设施论文; 机房论文; 技术论文; 场景论文; 平台论文; 《防护工程》2018年第22期论文;