基于大数据技术的新一代电能量数据平台论文_黄宁钰,周江山,田维维,雷洪顺,马涛,史卫华

(贵州电网有限责任公司安顺供电局 安顺 561000)

摘要:随着智能电表全覆盖和低压集抄全覆盖建设工作的推进,对电能量数据需求越来越多,网级电能量数据平台采集数据项和密度都呈几何级数增加。面对海量的用电数据,当前网级平台在多方面已出现瓶颈。故此,文章对大数据环境下网级电能量数据平台建设展开研究与分析,阐述网级电能量数据平台建设原则、系统框架等,综合利用分布式消息队列技术、NoSQL型数据库、Spark Steaming、HDFS等技术。旨在确保网级电能量数据平台的功能与效果,提升电力企业电力服务质量,推动电力企业发展。

关键词:电力系统;大数据;电能量数据平台;分布式并行处理

Construction of electrical information acquisition system base on large data environment

Huang Ningyu

(Anshun Power Supply Bureau of Guizhou Power Grid Co.,Ltd,Anshun,561000)

Abstract:With the advancement of the full coverage of the smart meter and the low-voltage ensemble in China Southern Power Grid and the number of acquisition devices is increasing sharply with large amounts of data flooding into the system.In the face of massive power consumption data,the current network-level platform has bottlenecked in many aspects.Therefore,the article studies and analyzes the construction of network-level electric energy data platform in big data environment,expounds the construction principle and system framework of network-level electric energy data platform,and comprehensively utilizes distributed message queue technology,NoSQL type database,Spark Steaming,HDFS.It aims to ensure the functions and effects of the network-level electric energy data platform,improve the power service quality of power companies,and promote the development of power companies.

0序言

随着智能电网的不断建设,电能量数据作为智能电网建设中关键基础数据,为智能电网决策提供数据支撑。电能量数据平台是对电能计量装置进行数据采集、计算、分析、预测等,并在主站保存具有时标的电能量数据,为电网生产与营销业务提供重要的数据基础。[3]

目前,中国南方电网网级电能量数据平台(以下简称为网级平台)数据框架通过文件传输协议(File Transfer Protocol,FTP)上传XML数据文件的方式与五省(区)、广州供电局、深圳供电局、超高压公司的电能量数据平台建立数据接口。而这种方式的实时性、准确较低且无法满足未来业务的要求。

随着智能电表全覆盖和低压集抄全覆盖的工作推进,电能量数据平台数据项和密度都将随之增加,数据量将增加几十倍。导致现有软件架构和硬件平台遇到瓶颈,已很难支撑大数据分析应用需求,影响全网电能量大数据分析能力和电能量数据管理水平。[4]为适应网级平台未来“云、大、物、移、智”的发展趋势,支持网级平台开展全网电量分析、负荷分析、实时线损分析、综合能效、客户画像等业务,故提出一套基于大数据技术的网级平台,旨在解决当前网级平台对于海量数据计算分析时遇到的众多问题,并对全网用电数据开展容灾与备份处理。

文章根据网级电能计量相关业务需求,提出新一代网级电能量平台的建设方案。使用大数据分析技术:Hadoop核心组件、Apache kafuka分布式消息队列技术、NoSQL型数据库、Spark Steaming、Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)、Hbase技术、微服务技术,对平台的框架、性能、配置等方面进行了全面优化。

1网级电能量数据平台现状

1.1网级电能量数据平台体系结构

网级电能量数据平台是由南方电网公司计量中心建设的电能量数据综合分析管理平台,对省级计量自动化系统全量(增量)数据进行准实时采集、处理,实现对全网电能量数据监管与分析。平台由网省接口、数据分析与处理、省级电能量数据监控、网级电能量业务等模块组成。平台数据库模型采用了Oracle集群技术、负载均衡技术构建了基于J2EE的系统,采用关系型数据库存储核心数据,系统总体架构图如图1下:

1.2大数据技术下的网级电能量采集系统建设

为满足中国南方电网公司“十三五”期间提出的营销技改与电能计量规划要求,网级电能采集业务已成为核心业务,各单位对电能量采集数据需求越来越多。目前,全网变电站平均年增长5%,专变用户平均年增长率为4%,公变、低压用户平均年增长率为3%。同时2018年实现计量自动化的全网覆盖,据此推算,未来5年全网监测计量点为9296.8万。对于如此庞大的数据规模,网级平台利用大数据技术提升对海量数据计算分析能力,从而提升电力市场中的核心竞争力,故此在大数据技术下建设网级平台势在必行。

图1传统网级电能量数据平台体系结构

2主站系统建设方案

2.1传统数据分析技术与大数据分析技术

传统的关系型数据库管理系统(Relational Database Management System,RDBMS)中,使用到的写时模式的方法。由于数据是在写入数据库是对照模式进行检查,如果在加载时发现数据不符合模式,则被拒绝加载数据。随着,网级平台的不断建设,全网各单位海量数据的接入,从而导致数据入库困难、海量数据计算速度缓慢。[2]

上述问题的出现,均与目前的网级平台使用的传统数据分析技术有关。而大数据分析技术,借助Hive与Hbase技术在Hadoop平台上使用读取模式方法。而读取模式的关键在于使用原始格式存储数据,自身调用需要的模式应用于数据,这种模式的使用为系统带来灵活性、高效性。综上,面对结合当前网级平台中面临的新需求与新功能,运用大数据技术全面提升网级平台处理分析数据的能力。

2.2主流企业大数据平台架构方案

2.2.1华为FusionInsight大数据平台

华为FusionInsight大数据平台是集 Hadoop 生态发行版、大规模并行处理数据库、大数据云服务于一体的融合数据处理与服务平台,它提供了批处理、内存计算、流计算和MPPDB在内的全方位数据处理能力。其中,Porter用来简化大数据的数据集成,manager是一个分布式系统管理框架,管理员可以从单一节点操控整体集群。FusionInsight,广泛应用于大数据的分析和挖掘,其架构图如图2所示。

图2 华为大数据平台架构

2.2.2京东大数据平台

京东大数据平台集成了Spark、Hive、Mahout、Presto、Hbase等众多的技术工具,是基于Hadoop 新版本的Yarn资源管理框架来集成的。京东大数据平台主要分为离线数据平台和实时数据平台。

离线数据平台以Hadoop+Spark为主,适用于日常批量数据抽取和计算。应用Spark能够满足高效运行各种并行化挖掘和机器学习算法的需要,实现对海量数据的挖掘,以及为一些重要的任务提高效率。

实时计算平台指覆盖实时数据接入、存储、处理全流程基础的实时数据平台,其自助研发的实时数据接入系统,可满足各种数据源的实时采集,基于Kafka的分布式消息队列,满足数据的暂存、桥接,其工作原理是基于Storm的实时数据流处理。

2.3系统框架

按照网级平台功能与需求,结合当前新技术特点。设计网级平台新技术架构,分为采集层、存储及计算层、应用层。详细技术框架如下图所示:

按上述框架搭建设计网级平台,对分层具体描述如图3:

图3网级电能量数据平台体系结构

1)采集层

在网级平台侧部署统一采集调度程序,对于超高压公司及五省两市电能量采集平台采用分布式消息队列技术(Apache Kafka)获取档案及原始采集数据,而对于外部数据如经济指标数据、天气数据、GIS系统数据等通过爬虫软件或者中间库等方式获取相关信息。再利用数据仓库技术(Extract-Transform-Load)对所有原始数据进行数据清洗,将清洗后的数据写入分布式数据库及内存数据库中,并将部分未成功入库的失败数据记录缓存至内存库中,保证采集入库的可靠性与全量性。

2)计算层

该层为网级平台的核心架构层,为满足各类业务需求,需按不同数据类型选择相应计算技术:对于网级平台中实时在线流数据,利用Spark计算电量、负荷、指标等准实时性数据。采用Spark MapReduce离线批量计算技术,支撑用电分析、负荷分析等离线分析应用。随着网级平台采集数据项与密度大规模的增加,数据挖掘技术(Apache Spark ML)已成为众多决策高级应用的支撑技术,利用此计算技术支持大客户负荷预测、用户行为分析和客户画像等建模分析应用。从而提高数据计算及查询效率,支撑高级业务应用,提升用户需求侧分析响应性能,为南方电网公司提升电力服务质量与核心竞争力提供支撑。

3)存储层

存储层为网级平台核心存储架构,按业务应用情况及数据特征分为三大存储区:内存数据库(NoSQL Redis)、分布式关系型数据库(MySQL)、分布式数据库(NoSQL Hbase)。存储层采用混合型数据库结构,其中内存数据库采用集群式架构,利用Redis存储系统用于存储网级平台中原始电能量数据与实时计算结果。而分布式关系型数据库主要存储全量档案数据及数据量要求较少的传统网级平台业务,且据库档案来源全为关系型数据库。针对大数据分析计算与数据挖掘处理采用Hbase数据库,从而实现系统稳定与高效的读写数据,提升数据处理效率。以保证档案数据、原始采集数据、计算结果数据的一致性。

4)应用层

采取微服务框架技术,构建统一应用网关,微服务划分为准实时监控类微应用、业务处理类微应用、统计查询类微应用、决策分析类微应用,构建微服务中心、数据共享平台、服务共享平台,支撑综合展示、辅助决策、业务监管、数据管理、运行支撑等业务分析应用及与网级数据中心、营销监控系统、电力交易平台、移动应用平台、GIS平台外部系统数据交换。

3网级平台建设的关键技术

为适应南方电网公司“十三五”规划设计的要求,建立网级大数据平台,在搭建过程中应用诸多大数据相关技术,以支撑网级平台海量大数据分析能力。提升电能量数据应用和管理水平,展现智能电网用户侧友好开放、双向互动的用能模式。

在网级大数据平台中,主要利用Hadoop作为分布式计算框架,它为海量数据的处理、数据挖掘、存储能力提供技术支撑。在Hadoop中,主要由三大核心组件构成:分布式非关系数据库(NoSQL HBase)、离线批量计算技术(Spark MapReduce)、Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)。其中HDFS作为网级大数据平台的主要存储架构,NoSQL HBase作为网级大数据平台中数据存储分析时的非关系型数据库而使用Spark MapReduce模型实现网级平台数据挖掘。

3.1数据存储

在搭建网级平台时主要利用分布式存储技术作为其主要存储核心,解决大数据读取、分析从而显著提升网级平台拓展能力。在平台中按照不同数据类型,采用三类存储数据库:分布式缓存(Redis)、Oracle数据库、分布式文件系统(Hadoop Distributed File System,HDFS)。在大数据分析时,利用分布式文件系统在数据读写时数据时一次写入多次读取的特点,可进行并发读写操作,并且突破了传统分布式文件系统在存储容量和扩展性上的瓶颈,同时可提供良好的容错机制,大大提高了存储系统的可靠性。[4]

3.2数据计算

在网级平台中数据计算为所有业务的核心基础,分为离线计算与实时流计算。其中离线计算并行处理采用MapReduce编程模型。在MapReduce中,调用Map函数读取分割的输入数据,Reduce阶段接收Map阶段数据,进行聚合计算,从而较快的对数据进行批处理。

对于实时流计算网级平台采用Spark Streaming数据引擎,其处理流数据是将海量数据按照时间戳进行切分,采用微批处理(Micro-Batch)方式直接对数据进行操作。以提供快速、精确、高容错、可拓展的流处理服务。

图3 大数据计算结构

图3中,超高压及五省、广州、深圳电能量数据平台将采集原始数据、档案通过分布式消息队列(Kafka)传入网级平台。经过Spark Streaming计算将流数据写入HBase的原始数据分区。而MapReduce任务主要执行数据挖掘、海量历史分析计算等。通过增减计算资源数量,可动态调整系统的处理能力,从而满足系统扩展需求,同时实现资源高效利用。

4结束语

文章分别从大数据环境下网级电能量数据平台的建设原则、框架、核心技术等方面介绍,先对当前网级电能量数据平台现状进行分析。阐述在大数据环境下,网级电能量数据平台的功能需求和设计,并提出大数据技术能通过分布式存储系统、分布式数据库系统、并行分布式计算和调度支撑网级平台大数据分析能力的提升。研究具体系统架构,解读具体系统模块使,从而明确系统的整体意义与价值。最后,综合分析大数据环境下网级平台的关键技术,分别对数据存储和计算进行阐述。文章研究成果可为从事电能计量系统设计工作的工程技术人员提供有益的参考。

参考文献

[1]彭小圣,邓迪元,程时杰等.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,0258-8013(2015)03-0503-09.

PENG Xiaosheng,DENG Diyuan,CHENG Shijie.Key Technologies of Electric Power Big Data and Its Application Prospects in Smart Grid [J],Proceedings of the CSEE ,0258-8013 (2015) 03-0503-09.

[2]吕明育等.Hadoop架构下数据挖掘与数据迁移系统的设计与实现【D】.

LV MING YU.DESIGN AND IMPLIMENTION OF DATA MINING AND MIGRATION SYSTEM BASED ON HADOOP[D].

[3]张怿宁,李晋伟,冯鸫等.超高压电能量计量主站系统建设方案的设计研究[J].电测与仪表,1001—1390(2015)03—0031—06.

Zhang Yining,Li Jinwei,Feng Dong.Research on the design of the system construction scheme of extm high Voltage electric emrgy metering master station[J],Electrical Mesurement&Instmmentation,1001—1390(2015)03—0031—06.

[4]何恒靖,赵伟,黄松岭,王勃.云计算在电力用户用电信息采集系统中的应用研究木,1001—1390(2016)01—0001—07,

Research on the application of cloud computing in power user electricenergy data acquisition system

[5]危阜胜,肖勇,陈锐民.故障诊断技术在计量自动化系统中的应用[J].电测与仪表,2013,50(8):93.97.

Wei Fusheng,XiaoYong,Chen Ruimin.Fault diagnosis technology applied in metering automation systems[J].Electrical Mesurement&Instmmentation,2013,50(8):93-97.

[6]刘亚骑,张昌栋,韩为民.大数据环境下的用电信息采集系统建设[J].自动化与仪器仪表,10. 14016 /j.cnki. 1001-9227. 2018. 05. 206.

LiU Yaqi,ZHANG Changdong,HAN Weimin.Construction of electrical information acquisition system in large data environment[J],10. 14016 /j.cnki. 1001-9227. 2018. 05. 206.

作者简介

黄宁钰,1993.11,女,汉族,贵州省安顺市人,本科学历,从事用电采集系统相关工作,贵州电网有限责任公司安顺供电局。

论文作者:黄宁钰,周江山,田维维,雷洪顺,马涛,史卫华

论文发表刊物:《电力设备》2019年第2期

论文发表时间:2019/6/3

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于大数据技术的新一代电能量数据平台论文_黄宁钰,周江山,田维维,雷洪顺,马涛,史卫华
下载Doc文档

猜你喜欢