(国网江苏省电力公司建湖县供电公司 江苏建湖 224700)
摘要:“大数据”作为一个专有名词成为热点,主要应归因于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、射频识别技术(RFID)和无线传感器每分每秒都在产生着成千上万的数据,数以亿计用户的互联网服务时时刻刻都在产生巨量的交互,要处理的数据量实在是太多、太大且增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应对“大数据”浪潮。根据技术研究机构—国际数据公司(IDC一一InternationalDataCorporation)的预计,大量新数据无时无刻不在涌现,它们以每年50%的速度在增长,或者说每两年就要翻一番多。今天,我们已经进入“大数据”时代,身边的一切都在“大数据”范围内。人们似乎再也没有什么秘密可言,各种信息都暴露在“大数据”之中。“大数据”几乎是无处不在。继物联网、云计算之后,“大数据”(BigData)已迅速成为近期争相传诵的热门科技概念。据专家学者们认为:“大数据技术就是下一个经济、国防、安全和社会活动等领域的制高点!”大数据时代的来临,给各行各业带来了根本性变革,让所有人都看到了大数据的挑战与机会。对于电力电气行业同样也是如此,专家学者认为,电力电气行业已经吹响了“大数据”集结号。
关键词:大数据;平台;Hadoop
目前,大数据在业内尚未形成统一的定义,引用IDC在信息基础设施推进研讨会中的描述,即大数据是具有Volume(数据体量大)、Variety(数据类型多)、Velocity(处理速度快)和Value(价值密度低)4个特征的数据集合,已在业界基本达成共识。麦肯锡全球研究院(McKinseyGlobalInstitute,MGI)在《大数据:下一个创新、竞争和生产力的前沿》报告中做了进一步的描述,即大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。
近几年,电力行业信息化也得到了长足的发展,我国电力企业信息化起源于20世纪60年代,从初始电力生产自动化到80年代以财务电算化为代表的管理信息化建设,再到近年大规模的企业级信息化建设,特别伴随着下一代智能化电网的全面建设,以物联网和云计算为代表的新一代IT技术在电力行业中广泛应用,电力数据资源开始急剧增长,快速向着异构、多源、PB级规模发展。相对于大数据,电力大数据是能源变革中电力工业技术革新的必然过程,而不是简单的技术范畴。电力大数据不仅仅是技术进步,更是涉及整个电力系统在大数据时代下发展理念、管理体制和技术路线等方面的重大变革,是下一代智能化电力系统在大数据时代下价值形态的跃升。中国电机工程学会发布的《中国电力大数据发展白皮书(2013)》中结合电力行业的业务属性,将电力大数据的特征进一步发展,在继承大数据通用特征的基础上,衍生出3个“E”的概念:数据即能量(Energy)、数据即交互(Exchange)、数据即共情(Empathy)。
1大数据的概念与特征
大数据是一个涵盖多种技术的概念,是由数量巨大、结构复杂、类型众多数据构成的数据集合,无法使用传统数据工具进行采集、处理、分析和管理的数据集,既包括传统结构化数据,也包括文本、图像、视频和音频等非结构化数据。一般意义上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。
大数据具有数据体量巨大(Volume)、数据类型多(Variety)、数据流动快(Velocity)和数据潜在价值大(Value)等“4V”特征。大数据的“大”主要体现在两个方面:一是数据集“大”到一定程度,可全面表现数据所描述的对象的特征或某种规律;二是数据的规模和复杂程度“大”到传统数据工具无法处理分析。大数据除了数据量庞大外,大数据还有一些其他的特征大数据与“海量数据”和“非常大的数据”这些概念之间的不同。
2大数据平台介绍
大数据平台中应用最为广泛的是Hadoop。Hadoop是由Apache基金会开发的分布式系统基础架构,是一个处理大规模数据的软件平台,如图1所示。
图1中,Flume和Sqoop分别是做数据采集,HDFS、HBase、Hive则是分布式数据存储、数据仓库,MapReduce、Spark、Tez分别做离线、在线、流程计算,Mahout主要是做数据挖掘。
Hadoop具有海量存储(能够处理PB级别的数据)、成本低、高效率和可靠性等特点,用户可以在不了解分布式底层细节的情况下开发分布式程序,主要包括2个核心功能:HDFS(HadoopDistributedFileSystem)和MapReduce。HDFS是分布式文件系统的简称,有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
概念“Map(映射)”和“Reduce(归约)”的主要思想都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。Hadoop极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个映射函数,用来把一组键值对映射成一组新的键值对,指定并发的归约函数,用来保证所有映射的键值对中的每一个共享相同的键组。
HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算功能。开源技术Hadoop可以提供相对廉价的分布式的存储系统,通过MadReduce的技术,进行并发、高效能的计算。大数据引擎基本上完成是存储和计算,但真正的存储计算结果还要与传统的业务系统和其他应用来使用。它主要有以下几个优点。
a.高可靠性,Hadoop按位存储和处理数据的能力值得人们信赖。
b.高扩展性,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
c.高效性,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
d.高容错性,Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
e.低成本,与一体机、商用数据仓库等数据集市相比,hadoop是开源的,因此项目的软件成本会大大降低。
3电力大数据及其应用价值
电力企业正在建设以特高压电网为骨干网架各级电网协调发展的智能电网,势必会产生大量结构多样、来源复杂的数据,为大数据提供了充足数据源,因此近年来电力企业对大数据这一研究领域产生了浓厚的兴趣。通过对大数据技术的深入理解,结合电力企业数据现状和业务需求,提出“电力大数据”的概念:电力大数据是以业务趋势预测、数据价值挖掘为目标,利用数据集成管理、数据存储、数据计算、分析挖掘等方面核心关键技术,实现面向典型业务场景的模式创新及应用提升。电力大数据主要分为生产类数据和管理类数据,涉及到发电、输电、变电、配电、用电、调度等各环节,其应用的核心价值主要体现在以下2个方面。
a.将数据视作人财物一样的企业核心资产,通过复杂的关联分析,让数据创造新的价值,提升精细化管理水平,促进管理方式和商业模式创新,典型应用有配网精细化管理、防窃电预警、业务运营监测和用电信息增值业务服务等。
b.将大数据技术应用于智能电网发、输、变、配、调、用六大环节,通过技术变革,优化电网生产方式,提升生产效率,推动智能电网创新发展,典型应用有电力负荷预测、新一代智能变电站、营配调一体化和用电信息采集等。
另外,在电力公司“SG186”和“SGERP”工程建设过程中,电力信息化领域也蕴含着海量数据,这些数据包括主机设备、网络设备、安全设备、终端设备及信息系统等在长期运行的各个环节累积的巨量日志信息,门禁、UPS、空调、电源、温湿度等机房设备及视频监控系统产生的大量数据,某电力公司信息客服热线2186产生的大量语音数据及信息通信客户服务系统中的工单记录信息等,面对每天还在不断地产生的信息数据,需借助大数据平台对这些数据进行分析和处理,从而挖掘其中的价值。
4大数据平台的应用
目前电力行业中正在逐步开展大数据应用技术,以下以统计公司信息通信客户服务系统中工单情况为例展示大数据平台的应用过程,如图2所示。统计问题是最简单也是最能体现MapRe-duce思想的程序之一,其主要完成功能是:统计一系列文件中不同数据出现的次数。
在测试环境下(1台主机,8台从机),搭建了包含9个节点的小型集群,集群环境及界面如图3所示。
从运行结果可以看到,大数据平台进行Map的时间为4586ms,进行Reduce的时间为4535ms。经统计发现,在导出的事件工单文件中出现频率最高的前6类事件类型分别为ERP系统、计算机事件、生产管理系统、其他、协同办公系统和目录系统,结果如图5所示。利用大数据平台可以快速准确的统计出文件中出现频率最高的字段,并自动生成结果展示。
随着电力企业信息化和现代化进程的不断推进,尤其是智能化电网建设的快速发展,对电力企业数据资产的利用能力和决策水平提出了更高的要求,电力大数据应用需求将向着更加多元化的方向发展,如何提升对电力大数据的在线即时分析和深度挖掘能力,实现对电力运行状况及趋势的即时告警和提前预测将是下一阶段研究的重点方向。
参考文献
[1]中国电机工程学会信息化专委会.中国电力大数据发展白皮书[R].2013.
[2]田秀霞,周耀军.基于Hadoop架构的分布式计算和存储技术及其应用[J].上海电力学院学报,2011,27(1):70–75.
[3]周鳃鹏,力仍存,颜炯等.电网规划智能辅助决策系统的设计与实现.电力系统自动化,2013,37(3):77-82.
[4]杨国庆,张宇.数据挖掘技术在电力设各状态检修中的应用.上海电力学院学报,2012,28(2):176-180.
论文作者:崔媛媛
论文发表刊物:《电力设备》2017年第2期
论文发表时间:2017/4/6
标签:数据论文; 电力论文; 分布式论文; 技术论文; 电网论文; 价值论文; 平台论文; 《电力设备》2017年第2期论文;