基于大数据及可视化技术的分布式数据质量管理系统在电力企业的实践和应用论文_廖嘉炜

(广州供电局 510620)

摘要:电力系统中,全面掌握电力数据的质量等关键技术,对我国电力行业智能电网的创建与创建可持续发展的能源社会极为有利。如何及时从电网庞大的业务数据中挖掘出对企业所需的有效有质量的信息,这对电力企业业务作出实质性指导具有着重要的意义。而应用了基于大数据及可视化技术的分布式数据质量管理系统,对于电网企业的电网行业数据工程建设与数据质量提升有着非凡的作用。本研究通过分析大数据与可视化技术,来提升电力数据的质量以及研究该技术在我国电力企业中的应用与实践。

关键词:分布式数据;质量管理系统;可视化技术;大数据;电力企业

随着近些年我国信息化社会的迅猛发展,使得大数据及可视化技术模式下的分布式数据质量管理系统备受业界关注。分布式数据质量管理系统管理着在生产、人资以及基建、4A、营销等子系统中产生大量数据。例如,电力企业基建项目运行数据、电网生产运行数据、电网营销数据等,而这些海量数据中蕴含无限可能和待挖掘的价值。广州供电局经过近几年的数据质量整改、治理工作,数据质量的提升取得了显著的成效。但在整改问题数据过程中,业务人员发现系统功能不足,给业务人员的工作带来不便。本研究通过分析大数据与可视化技术,分析基于大数据及可视化技术的分布式数据质量管理系统在我国电力企业中的应用与实践。

1大数据及可视化技术的界定及工作流程

1.1大数据及可视化技术的界定

1.1.1大数据

大数据,指的是以多元形式搜集的庞大数据组,是只有新处理模式才可具备的超强洞察力、决策力以及流程优化能力的多样化、海量的信息资产。在电网行业中,大数据涉及到生产、营销、基建、人资等各重要业务节点,实现跨专业、跨单位以及跨业务的数据挖掘与数据可视化。大数据平台增量校验,遵循“先增量,后存量”的原则,系统可实现增量进行业务院数据抽取,每日对全量数据进行准实时校验。电网设备中的大数据包括交互式数据库的PL/SQL批处理、分布式全文索引以及分布式实时数据库

1.1.2可视化技术

所谓可视化技术,指的是在电网设备中基于图形处理技术与计算机技术,挖掘电网设备数据间所存在的发展规律与逻辑关系,通过图形化方式将电网设备数据质量信息显示出来的一种技术[1]。该技术从根本上解决了以往电力行业数据质量分析耗时长、工作难以面面俱到等弊端,实现了数据挖掘的深入化、清晰化,使得管理人员可以将问题数据进行闭环管理,有效掌握数据质量实时改进情况,切实提升数据的精细化提升,具体流程如图1所示。

图1 电网设备中大数据可视化应用示意图

1.2大数据及可视化技术的工作流程

首先,获取数据信息。通过企业信息采集终端、系统网络端口等方式收集信息数据源;其次,数据分析。分析所收集的数据并加以分类;再次,数据过滤。根据数据一致性过滤缺失值或无效值的数据,保留有价值数据;第四,挖掘数据。通过计算机运算等技术对数据间所存在的逻辑关系进行分析,进而挖掘数据本身的附加价值;第五,呈现数据[2]。应用结构图表现数据信息;第六,数据交互。采用数据控制与操作等方式,确保用户可以探索与控制数据,从而实现复杂数据和工作人员间的及时交互。

图2 大数据及可视化技术的工作流程图

2基于大数据及可视化技术的分布式数据质量管理系统的应用

2.1基于大数据及可视化技术分布式数据质量管理系统的设计思路

针对目前使用的基于分布式数据质量管理系统不能全面直观查看数据质量情况,对问题数据不能闭环处理,落实到人整改;数据量大时数据校验时间较长不能及时收到数据质量考核业务消息等问题。本研究提出大数据及可视化技术分布式数据质量管理系统的解决方案。通过大数据及可视化技术,能够检测抽离问题数据,并分在在集群中存储的服务器中进行统一分析,以此使数据质量管理系统的数据质量能得到有效提升,其优势包括:①可扩展性良好,在业务增长,必须处理大量数据的情况下,能够增加多个数据节点,通过定期的ETL增量和TDT增量同步,不断对数据的全量和增量的监控校验,保证了数据仓库中数据的质量;②集群节点可用来存储与计算数据,同时存储与分析PB级别的数据;③通过应用层的数据接口,连接移动应用端的企信平台,方便业务人员随时随地把握数据质量提升情况;④建设闭环管理模块,满足落实责任整改到人;⑤利用可视化技术,建立了清晰的问题清单和指标看板,对问题数据进行详细分析。

2.2基于大数据及可视化技术的分布式数据质量管理系统的应用

2.2.1用户交互层

通过界面可在用户交互层进行规则管理、问题数据展示、警告推送、定制快报、闭环管理等具体操作,用户交互层其实就是系统和用户彼此交互的系统界面,系统设计过程中对界面便利性、可用性进行了充分考虑,与AJAX和JQUREY等技术相结合节约系统响应时间,使用户使用体验得到明显提升。为简化系统配置性工作,分布式数据质量管理系统能够依照数据生成校验规则,通过AJAX技术对元数据进行加载,使用户操作流畅度得到不断提升,进而提升规则配置效率[3]。

电力企业数据主要源自电力企业自有内部经营管理系统,通过大数据及可视化分布式数据质量管理系统,能够实现:对问题数据的实时分析和掌握,分析关键节点的数据质量;通过指标看板能展示出问题数据的出处和错误情况,将数据的纠正工作落实到位;通过PL/SQL批处理的查询,得到规则问题数和规则问题历史数据,并对其进行总结,从而修编细则,制定业务数据规则配置以达到提升数据质量的效果。

2.2.2数据管理层

在基于大数据及可视化技术的分布式数据质量管理系统中,数据处理层是核心部分,主要负责缺陷数据查询、缺陷数据统计分析、规则执行等工作,其功能包括:①策略任务的调度,主要负责策略任务调度工作的控制,根据周期启动执行策略;②分析缺陷数据,主要负责分析缺陷数据,进而生成数据质量报告;③查询与导出缺陷数据,通过由Transwarp-Inceptor所组成的Hadoop集群中将数据查询接口提供给用户交互层[4]。Transwarp-Inceptor能分析存储在HDFS、Hbase或者Transwarp Holodesk分布式缓存中的数据,可以处理的数据量从GB到数十TB,即使数据源或者中间结果的大小远大于内存容量也可高效处理。而且基于大数据及可视化技术的分布式数据质量管理系统配网终端数据,能够创建全景性电网企业数据质量信息拓扑图,并通过采集信息可视化技术在图中集中展现信息。并在企业数据质量拓扑图中在线分析以下问题:①在线监测和分析数据的质量情况;②闭环监控管理数据质量,追溯数据源;③加深数据质量的覆盖面,查找出规则校验覆盖不到的地方。

2.2.3数据采集层

图3 基于大数据及可视化技术的分布式数据质量技术架构

电力企业在数据管理方面较为复杂,且呈现结构化特征,可视化分析电力企业的管理数据,可依照源业务系统本身所具有的特性展开。比方说,电力企业财务管理系统中的业务数据,需根据现金流量特征,将平面现金流量图绘制出来,从而实现数据的动态查询。若想全面、系统的分析电网企业的管理情况,需要创建新式业务模型,以此为基础使各种可视化功能得以实现。与电网络信息拓扑图类似,能够对电力企业经营管理监测网络拓扑图构建出来,树立当前的流量网络,将企业业务流程与经营目标作为脉络,对电力企业业务流程、运营目标以及业务节点层次关系进行查找,绘制以流程指标和流程网络为基础的电力企业监测网络拓扑图,以此实现电力企业数据信息可视化功能。

规则执行引擎在数据采集层作为一个核心组件,其为数据质量管理系统的重中之重,对校验效率产生非常重要的影响。在对规则执行引擎进行设计过程中需要考虑的因素包括:①性能,数据质量管理系统的规则执行引擎主要选择基于开源定期的ETL工具和TDT数据当做缺陷数据抽取引擎,保证能在质量管理系统中抽取问题数据和对数据的增量存量进行全面覆盖的更新校验;②稳定性,执行引擎内含有更多容错处理机制;③数据源适应性,为扩充系统应用范围,引擎必须兼容更多主流数据库。

3系统的应用实践分析

3.1系统的性能对比测试

通过测试结果显示,基于大数据及可视化技术的分布式数据质量管理系统水平扩展性比较强,且利用了由Hadoop集群具体执行时间会随着数据量增加而呈现线性增长,集中式架构应用的数据读取速度大约是150MB/s,对1TB数据进行读取的时间为2h,而且Oracle处理时间整体上呈指数级增加,具体如图4所示,在数据量为500GB的情况下,SQL执行呈性能瓶颈状态。

图4 Hadoop集群和关系型数据库执行时间比较

3.2系统应用情况

现阶段,基于大数据及可视化技术的分布式数据质量管理系统开发完成,同时在广州供电局有限公司荔湾局和花都局等多个分局试运行,依照现场所收集的具体运行数据,实现了动态拓展了350条业务域规则、支持到6大业务域以及协同一致性系统的数据质量提升工作,涉及基层单位以及业务部门共541份整改工单。该系统对数据质量方面的漏洞处理有了很好的改进,极大提升了电网企业的工作效率、使得企业的日常运作更具针对性。

4总结

该研究结合广州局对数据质量精细化的管理目标,实现加强数据质量技术平台建设的要求,对企业管理业务数据进行全面整理与检查,加强和提高企业核心数据质量,优化和改进业务系统数据,充分发挥企业数据资源价值,推进企业级业务系统的实用化水平。提出基于大数据及可视化技术的分布式数据质量管理系统,同时开展了分布式存储与计算关键技术的分析,对大数据计算和存储平台进行初步搭建,基于数据质量管理系统实现了技术架构的升级与应用,在很大程度上缩短了数据质量校验时间,使系统分析与处理效率得到不断提升,为我国电力企业数据管理工作奠定了技术基础。

参考文献:

[1]李远宁,刘森,张诗军,等. 分布式数据质量管理系统在电力企业的实践和应用[J]. 电信科学,2016,32(4):169-174.

[2]潘宇晨,李宇明,张春熙,等. 基于分布式数据库Cedar的高效工单管理系统设计与实现[J]. 华东师范大学学报(自然科学版),2018,No.199(03):93-101.

[3]陈亮,王刚,王震. 并行LDA主题模型在电力客服工单文本挖掘中的应用[J]. 科技创新导报,2017,14(12):245-248.

[4]唐伟帼,韩冬. 基于分布式架构的广西移动统一开通系统的设计[J]. 信息通信,2018,No.185(05):39-40.

论文作者:廖嘉炜

论文发表刊物:《电力设备》2019年第4期

论文发表时间:2019/7/5

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于大数据及可视化技术的分布式数据质量管理系统在电力企业的实践和应用论文_廖嘉炜
下载Doc文档

猜你喜欢