黄良1 高正浩1 曹洪1 赵立进1 刘典安2
(贵州电网有限责任公司电力科学研究院 深圳市康拓普信息技术有限公司)
摘要:在数据传输、存储和采集飞速发展的今天,各种智能终端、智能电表在电力企业中得到了广泛的推广和应用。电网运行数据呈现出价值高、类型多以及体量大的特征。基于此,本文围绕电力大数据平台设计与分析进行了研究,首先,对该平台的需求进行了分析,然后,对该平台的架构设计进行了研究,旨在为电力大数据平台的开发与研究提供帮助。
关键字:分析;设计;大数据平台;电力
引言:
电力大数据为大数据应用提供分析、计算、存储等能力以及数据基础,是电力大数据应用的技术支撑和基础[1]。与其他行业相比较,电力大数据应用具有独特性,目前,一些大数据平台无法在电力企业发挥有效的作用,因此,对电力大数据平台的开发和研究进行分析具有较强的时代迫切性以及实用价值。
1.电力大数据平台需求分析
1.1功能需求分析
(1)数据采集方面。提供强大的数据加载、转换、抽取能力。适配多种数据抽取方式(实时/离线),适配多种数据源(数据流/日志/文件/数据库),能够监控和详细的日志记录采集过程,能够对采集策略进行配置,支持集群方式运行[2]。
(2)数据存储方面。提供高扩展性、低成本的数据存储,支持半结构化、非机构化、结构化数据等存储需求。支持半结构化、结构化数据低延迟即席查询,能够对非结构化数据进行大量的加载和处理。
(3)数据计算方面。建立在线计算、分析和监测等实时数据处理平台,能够对大量异构数据进行批量、实时的分析处理。通过大数据的批量内存计算及计算等技术,与各类算法和业务逻辑进行结合,进而实现对海量数据的处理和离线分析。
(4)数据分析方面。能够提供跨业务的数据挖掘算法和分析模型,设计大数据关联算法库和分析模型库,能够实现算法的扩展和灵活配置以及数据分析模型。针对常用的数据分析算法能够实现并行化,使数据的分析性能得到有效的提升。
(5)数据展现方面。能够实现分析可视化和数据可视化,支持监控大屏、桌面终端、含pad和手机在内的移动终端等多种终端展示。
(6)数据安全方面。能够实现不同人员、业务数据的逻辑隔离,从而为数据的授权访问提供保障,同时,能够对数据的隐私进行保护。
(7)应用服务接口方面。针对大数据的应用提供数据的可视化服务、分析挖掘服务、计算服务、共享服务等,提供统一的应用服务接口。
(8)平台管理方面。对平台的任务、软件组件、服务器、存储和数据进行全面的监管。
1.2非功能需求分析
(1)稳定性。该平台能够确保较长时间的稳定运行,无故障平均运行时间应该多余3万小时。
(2)安全性。针对数据应该提供可用性、完整性、机密性的保障措施,针对敏感的数据信息应该进行加密处理和隐私处理,确保敏感的数据信息不被泄露。
(3)可扩展性。该平台内部各类数据任务调度、计算及采集的集群能够实现在线灵活扩展。
(4)响应及时性。复杂的数据查询任务平均响应时间应该在10s以内;简单的数据查询任务的平均响应时间应该在1s以内;简单的数据分析(在线/离线)平均响应时间都应该在5s以内;复杂的数据分析(在线/离线)平均响应时间应该为分钟级[3-4]。
期刊文章分类查询,尽在期刊图书馆
2.电力大数据平台架构设计
2.1应用架构
根据功能组件,大数据平台主要被分为安全部署、门户终端、自助分析、运维支撑、服务配置、数据服务以及核心平台等。
(1)安装部署指的是支持该平台安装部署的组件,包括基础配置、环境检测、模块安装等组件;(2)门户终端指的是对各类终端给予支持,包括大屏幕、移动以及桌面终端的组件;(3)自助分析包含仪表盘、自助分析、多维分析及固态报表等组件,以实现用户的自助分析;(4)运维支撑主要包含数据管控和平台管控组件,从而实现对数据的管控和平台的管控;(5)服务配置主要包含分析任务、实时任务、离线任务、抽取-转换-加载的配置;(6)数据服务包含了数据交互服务、共享服务、挖掘服务以及分析服务等组件;(7)核心平台主要包含数据驱动、算法模型、传统及新型数据处理、数据存储、数据采集等组件,实现了对数据的分析、处理、存储及采集,属于平台的核心部分。
2.2数据架构
电力大数据平台的数据流向如下:首先,外部数据源中的数据通过实时采集和批量,经过采集层ETL过程,进入传统或者新型的数据处理平台。其次,数据在数据处理平台中被进行存储和处理,其中新型数据处理平台通过对数据进行分析挖掘和海量计算,计算结果既可以直接以文件的形式存入NoSQL数据库或者输出,又能够进入传统数据处理平台的数据集市。再次,接口层与服务通过NoSQL数据库、结果文件和数据仓库对数据进行加载,从而实现对数据的分析挖掘。最后,接口层与服务通过网页方式将分析结果返回给调用者或者展示给用户。
2.3技术架构
该平台采用的是多层分层机构,并采用现阶段大数据主流技术,为该平台的技术先进性提供保障。电力大数据平台主要包括:采集层、存储与处理层、服务层、展示层、工作流层、平台管控层。
(1)采集层。电力大数据平台主要负责的是对多源异构数据源(实时数据流、数据文件数据库等)的数据采集,文件数据处理工具选用的是Kettle,数据库抽取工具选用的是Sqoop;日志采集框架选用的是Flume。(2)存储与处理层。传统的数据仓库平台选用的是Oracle或者开源MySQL数据库;新型的数据库平台中计算方面选用的是Spark、Map Reduce、Storm,资源管理选用的是Yarn框架,选用Hadoop分布式文件系统对数据进行分布式存储。(3)服务层。数据交互方面选用敏捷商业智能,数据挖掘成分布式算法和可视化挖掘工具,数据分析集成R-Studio。(4)展示层,采用HTML5+JSP,通过Web浏览器,实现可视化呈现在多终端上,主要包含大屏终端、移动终端以及桌面终端等。(5)工作流程。采用Activiti,实现对各类型任务(分析挖掘任务、计算任务、ETL任务)的调度管理和统一组装。(6)平台管控层。实现对各集群的监控,采用的是开源Ganglia。
结语
总而言之,电力大数据平台主要包含功能和非功能两个方面的需求,该平台架构设计主要包含应用架构、数据架构以及技术架构三个方面。该平台能够对大数据应用开发和电力大数据分析提供帮助,相信随着对该平台研究和开发的逐渐深入,该平台在电力行业中发挥的作用将会越来越重要。
参考文献:
[1]郑志来.大数据背景下互联网金融对中小企业融资影响研究[J]. 西南金融, 2014(11): 63-66.
[2]黄勇军,冯明, 丁圣勇, 等. 电信运营商大数据发展策略探讨[J].电信科学, 2013(3):7-11.
[3]百度大数据引擎[EB/OL].[2015-05-05].http://bigengine.baidu.com/.
[4]吕庭彦,李亚冬,蒋维,等.基于大数据挖掘技术的风电机组安全经济运行状态综合评估系统[C]//中国电力企业联合会议.北京:中国电力企业联合会,2013:10.
作者简介:
黄良1,男,1981年5月,浙江绍兴,硕士,副教授级高工。研究方向:电力设备状态监测,智能电网,电力数据分析。公司名称:贵州电网有限责任公司电力科学研究院,Electric Power Research Institute of Guizhou Power Grid Co., Ltd.邮编:550002。
论文作者:黄良1,高正浩1,曹洪1,赵立进1,刘典安2
论文发表刊物:《电力设备》2016年第8期
论文发表时间:2016/7/20
标签:数据论文; 平台论文; 的是论文; 终端论文; 电力论文; 数据处理论文; 架构论文; 《电力设备》2016年第8期论文;