摘要:目前,我国科技发展十分迅速信息时代云计算、互联网、大数据等技术的也不断发展起来,承载这些技术的数据中心也象雨后春笋一般拔地而起。由于运营商在带宽资源的优势和在移动互联网时代信息业务增长的需要,因此在数据中心建设中投入巨大,也能够吸引到许多高端客户的入驻。本文主要分析了数据中心动环系统风险分析及应对策略,以供参考。
关键词:数据中心;动环系统;风险;应对策略
1、动环系统构成
1.1市电引入部分
包含市电进线高压柜、变压器、二次侧高压柜,根据数据中心的规模和容量需求市电引入分22万伏、11万伏、3.5万伏、1万伏四个等级;
1.2低压配电部分
包含变压器、低压进出线柜,电压等级为380伏;电力配电部分:包含低压分配柜、UPS设备、高压直流设备以及蓄电池组。电压等级交流220伏或直流240伏;
1.3数据机房配电部分
包括列头柜;后备电源部分:高压柴油机或低压柴油机;电源干线部分;包含连接各系统的母线和电缆。
1.4空调系统包括
中央空调部分:包含中央空调机组、冷冻水泵、冷却水泵、淋水塔、末端空调;冷却水系统:包含冷却泵、淋水塔、末端空调;专用空调部分:专用空调又分为水冷专用空调系统和分冷专用空调系统,其中水冷专用空调包括:冷却泵、淋水塔、末端空调,分冷系统:主要由专用空调主机和室外机组成;管路部分:包含连接各系统的空调管路以及控制阀门;后备冷源部分:蓄冷设备、板换。
1.5监控系统包括
采集单元、总线、服务器、应用软件等,提供实时的AI、DI、DO的数据状态,对设备运行情况实时监测,具有设备实时告警、告警过滤、远程控制、数据存储和分析、故障派送等功能。
2、动环系统安全风险分析
2.1电源设备故障及影响
电源设备故障主要指在设备运行过程中发生的设备停止、损坏,造成其后级设备出现供电中断。其中越靠近数据设备端的电源设备出现故障,其影响也越直接。如数据机房内列头柜开关如果发生跳闸故障的话,将直接造成所承载某个或某列服务器设备断电停止运行;UPS或高压直流设备作为数据机房供电设备,如果出现设备故障,特别是输出中断的话,(输出中断最主要原因有逆变器停止工作、逆变器和市电转换失败、并联冗余机组不同步,蓄电池低电压、短路或开路运行故障),将会影响到所供机房的机柜,而且设备容量越大影响的机架数也越多。
2.2空调设备故障及影响
空调设备正常运行主要是保证机房环境温度和湿度能够适合服务器设备的运行。使机房温度在短期内失控由三种原因导致的,一是设备同时停电;二是水冷末端空调冷源停止;三是水冷系统管路或阀门出现爆裂。中央空调设备作为集中供冷的冷源设备在单机出现故障时,如果有备机的情况下,不会造成影响,但一旦出现全部停机的话,就会使整个数据中心失去冷源,造成重大影响。
2.3市电停电风险
当数据中心外部电源失去时,不仅是供电设备不能工作,同时所有的冷源设备也同样停止工作,服务器设备在短时能够通过蓄电池放电延长供电时间,等待备用柴油机启动后,切换入系统供电。某系统采用中央空调单冷源设备提供冷冻水,市网断电后机房温升情况见表1。
首先冷源机房中央空调来电自启和应急启动。来电自启:当发生进线断电造成运行冷水机组停机后。BA系统会先进行判断在控制范围内的冷水机组、水泵、冷水塔状态,然后给出开启程序,共约1min。BA系统自动打开系统中的阀门、启动循环水泵和冷水塔共约2-4min。BA系统监测冷水机组是否满足开机条件(机组冷却和冷冻水循环建立、润滑油温度达到机组设置点范围),条件达到后开始启动程序。机组开始控制系统自检、润滑油泵启动、油压差建立、预润滑、导叶检测等,该过程大概需要5-10min左右。BA系统开机过程约8-15min。
表1机房负载与温度对应关系
3、应对策略
3.1电源系统和设备配置不存在单节点
单节点定义为某一个电源供电节点是唯一的通路,这个节点发生中断,那在其后面的设备产生停电。这里的节点即指设备本身,也包括设备供电出线的路由。严格意义上的双路由供电从市电进线侧一直到机房内服务器机架侧,全程都应该是物理上的双回路。
3.2空调系统要双备份
3.2.1中央空调系统和专用空调系统加末端的双冷源的精密空调,这样的系统,正常运行时以中央空调为主,精密空调以冷冻水供冷,专用空调系统作为备份,一旦中央空调设备或管路出现由于故障出现问题,冷冻水停止。前一节也分析过在市电停电时,中央空调由于启动时间过长,不能满足机房应急时的供冷,但专用空调系统在市电恢复后,能够在2s只能完成系统建立,并提供冷却水供机房精密空调制冷,所以能够应对市电停电的系统性风险,但此种模式的缺点在于冷源都倚靠水,如果碰到市网断水的故障还是存在风险。解决的方法可以通过设置应急补水系统,达到延长抢修时间的目的。应急补水系统的容量可以根据冷却水蒸发量进行计算,通常设置应满足淋水塔补水量的8h以上。
3.2.2采用中央空调系统和分冷系统加机房精密空调模式。正常时中央空调系统运行,一旦出现市电断电的系统性风险时,精密空调会自动切换到分冷系统,也是压缩机运行状态。这样的系统和第一种模式比较的优势,在于冷源不全部倚靠水系统,能够有效应对市电停电和市网断水这二种情况的系统性风险。
3.3空调设备供电分担配置原则
空调设备作为大型数据中心的重要保障设备,在设备供电必须分担设置。以抵御由于单路供电系统或设备出现的故障。例如一个机房侧精密空调设备组,需引入不同市电的配电,分别交叉供电,保障在某一路市电停电或上级开关跳闸故障时,机房精密空调至少还有一半在运行,延缓机房的温升,赢得抢修的时间。同样在中央空调和专用空调的系统和设备的供电,能够进行合理的供电分配以分散风险。
结论
综上所述,电源系统和设备配置不存在单节点;空调系统要双备份;空调设备供电分担配置原则;中压柴油机市电全自动系统。如果数据中心建设和运维符合这四项应对策略,那就能抵御各种动环风险,数据中心的动环运行始终处于安全的状态下,使客户可以放心的将设备运行在该机房内。
参考文献:
[1]GB50174-2008,电子信息系统机房设计规范[S].
[2]GB50052-2009,供配电系统设计规范[S].
论文作者:周运南
论文发表刊物:《基层建设》2016年22期
论文发表时间:2016/12/12
标签:设备论文; 市电论文; 系统论文; 机房论文; 数据中心论文; 空调论文; 空调系统论文; 《基层建设》2016年22期论文;