(华北电力大学 电气与电子工程学院 北京 102206)
摘要:随着智能电网建设的不断推进,电力行业不可避免地进入了“大数据时代”,其对于大数据处理的需求十分迫切。本文介绍了利用基于 Hadoop云计算实验平台和基于Storm实时处理平台的数据调度方法,对电力设备状态监测大数据可靠存储和调度两方面大数据处理核心问题进行了有效地解决。
关键词:云平台;电力设备;存储;调度
0 引言
随着我国经济发展进入新常态,电力生产也呈现新常态特征,电网规模不断扩大,电网结果日趋复杂,设备中进行获取与传输的各类数据也在发生几何级的增长。例如要求信号的采样频率在200Hz以上的线路的每串绝缘子放电状态监测、数据采样率高达MHz的变电站内设备状态监测 [1]。不仅有以上各类设备的状态信息,还包括大量地理信息、现场温度与湿度等大量相关数据。可见采集的数据量十分巨大。
如何对电力设备检测采样数据进行高效、可靠地储存和调度,是当前新形式下需要研究的重要问题。传统的电力设备运行状态数据监测系统采用的多是关系型数据库,这种方式不仅成本较高,而且整个系统的可扩展性不强,难以适应当前智能电网对电力设备状态监测数据的要求。针对输变电设备状态监测数据庞大、采样多源异构数据相关性复杂、价值密度低、实时性要求高等特点,云计算平台则成为目前公认的最有效的方法。
1 云平台概述
云平台的快速发展推动了变电站智能化的进程。云平台可以整合多台计算机资源,使分散在不同位置的计算机一起协同工作,能够满足变电站快速综合处理大量信息和冗余备用的要求,有效地解决智能电网环境下异构资源的整合、海量监测数据存储等问题。中国云计算产业发展白皮书[2]中指出,在未来几年,教育、医疗和电力行业都将云计算应用为重点,在大数据时代进一步发展。
采用云平台进行数据处理拥有诸多优势:
可靠性强。可以将文件存储在不同的服务器上,可以很好地避免过去由单个文件损坏导致整个系统瘫痪的情况。
扩展性强。云存储技术采用的是并行扩容方式,扩展不受任何限制,完全可以满足智能电网对运行数据处理的需求。
利用率高。所有数据都统一在信息中心进行维护,用户机则可作为终端,操作十分简单。此外,还可以分配闲置服务器,提升资源的利用率。
2 输变电设备监测数据存储方法
2.1 Hadoop平台
Hadoop平台是Apache开源组织的一个分布式计算框架,具有高可靠性和良好的可扩展性。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
2.2电力设备监测采样数据的云存储架构和实现方法
参照云计算技术的体系结构,并结合电力设备采样数据的存储与业务应用需求,提出了基于云计算的电力设备采样数据存储系统[3]。
设计的存储系统可以对来自多台电力设备的采样数据进行同步存储(要求各采集设备的系统时钟进行同步)。RowKey用于采样数据检索,由Mac地址与路号的字符串连接构成。又设计了2个列族,分别描述采集时刻的微气候值(温度、相对湿度)以及采样数据采样点的值。
期刊文章分类查询,尽在期刊图书馆
HBase索引只支持主索引,而电力设备状态监测系统很多应用场景中,采样数据的查询条件通常为多条件关联查询(如根据线路、杆塔、绝缘子ID查询绝缘子泄漏电流数据),于是基于MapReduce,自行设计了适合电力系统的复合RowKey并行查询方法。设Term1、Term2、…、TermN表示N个查询条件,将这N个条件连接在一起作为RowKey,用于唯一标识采样数据来源的Mac地址。Mac地址为 infor列族下的唯一一列,构建HBase表。根据这些信息映射出采集设备的Mac地址以及路号ID进行采样数据的查询。
2.3基于YSCB的数据存储性能测试
文献[3]以输电线路上采集的绝缘子泄漏电流数据为例,在所搭建的Hadoop集群平台上,使用YCSB对所提存储系统进行写入数据、读取数据的性能测试。得出应用HBase设计实现的电力设备状态高速采样数据的分布式存储方法,数据分布均匀,没有出现数据丢失现象;系统在导入数据、读写测试、读测试中均提供了较高的吞吐量和较低的查询延迟,能够满足智能电网状态监测数据可靠性及实时性要求。
3 基于Storm 实时处理平台的数据调度方法
3.1 Storm 实时处理框架
Storm 是一个分布式数据流实时处理框架,它可以简单可靠地处理大量的数据流。Storm 集群支持水平扩展,具有高容错性,通过自身的 ACK 机制保证每一条消息都被处理。通过 Storm 这个健壮易用的实时处理框架,在编写代码时候不用考虑数据的实时流转、交互和分布等细节,只需专注于数据间的逻辑关系。
3.2基于Storm的电力设备监测云平台调度策略
首先,确定 Storm 资源分配的目标和向集群中提交 Topology 的过程。
随后,利用基于负载均衡的公平共享调度算法,将 Topology 中的 Executor 均衡的分配到集群的 WorkerSlot中,使集群的计算资源利用率达到最大。通过实现对应的调度接口,可以编写符合特定需求的调度器。
接着,利用离线调度算法,对要解决的调度问题进行了描述,根据 Topology 的结构在运行之前对其进行调度,随后再利用自适应在线调度算法,可以在 Topology 运行过程中,根据集群的负载情况适当的进行资源的重新调整[4]。
3.3基于Storm的输变电设备监测云平台任务调度算法的实现与测试
文献[4]对输变电设备监测云平台下的任务调度算法的进行了性能测试。测试结果显示,在集群资源充足时,公平共享调度器将集群中空闲的资源按照 Topology 的权重共享分配,与默认调度器相比,得到额外共享资源的Topology 数据处理的时间缩短,提升系统的整体吞吐量。在数据量较少时,默认调度算法使用的时间比公平共享调度器少。但随着数据量的增大,公平共享调度器的效率要优于默认调度器。
此测试结果表明,将 Storm 平台引入输变电设备监测,而任务的调度的结果使集群的处理效率明显提高。
4 结束语
智能电网需要对电力生产、配送、消费提供全景的实时信息,也逐渐形成了电力行业的大数据。电力设备是整个电力行业的中心环节,建设一个能够快速处理电力设备状态监测数据的云平台,可以为电网的安全运行提供强有力的保障。
本文介绍了本文提出了基于Hadoop、HBase的电力设备状态采样数据的云存储架构和基于Storm的电力设备监测云平台调度策略,有效地实现了海量数据存储和调度,是采用云计算技术搭建智能电网信息平台的一次有益尝试。
参考文献
[1]王德文,宋亚奇,朱永利.基于云计算的智能电网信息平台[J].电力系统自动化,2010,34(22):7-12.
[2]赛迪顾问股份有限公司.中国云计算产业发展白皮书(摘录)[N].中国计算机报,2011.
[3]宋亚奇,刘树仁,朱永利,王德文,李 莉.电力设备状态高速采样数据的云存储技术研究[N].电力自动化设备,2013,33(10):150-156.
[4]袁绍光.输变电设备监测云平台中任务调度算法的研究[D].北京:华北电力大学,2015.
论文作者:朱丽萍
论文发表刊物:《电力设备》2016年第10期
论文发表时间:2016/7/24
标签:数据论文; 电力设备论文; 平台论文; 电网论文; 集群论文; 状态论文; 实时论文; 《电力设备》2016年第10期论文;