摘要:在如今经济不断增长的状态下,对变电设备的的要求越来越高。变电设备状态监测数据体积大、价值密度低,传统数据处理方法不能很好地满足状态监视、评估与诊断等应用快速查询的需要。文中通过对状态监测数据特点和分布式列数据存储方法的分析,给出了变电设备状态监测的大数据处理框架。通过对监测时间、监测设备编号和设备编号等数据属性的组合,设计了3种状态监测数据复合行键结构,以提高状态监测数据行键查询的灵活性。为了解决在行键未知情况下全表扫描效率低下的问题,提出基于协处理器的二级索引构建方法,实现在非行键约束条件下的快速查询。实验结果表明,基于协处理器的二级索引方法在查询效率上比无索引和IHBase二级索引方式有了明显提高,对状态监测数据写入速度影响较小,能够较好地满足大数据环境下变电设备状态监测大数据快速、灵活查询的需要。
关键词:状态监测;大数据;行键;协处理器;二级索引
引言
对于国家的电网状态来说,必须建立支持故障诊断、状态评估和状态检修等各种类型应用的一体化输变电状态监测与评估平台,对电力设备工作状态和寿命做出评估,对故障进行分析、判断和预测,以保证电力设备的安全、可靠运行,并满足智能电网对电力设备全生命周期管理的需要。电力设备状态信息是电力设备状态监视、评估与诊断等应用的数据基础。在统一的省级集中式的输变电状态监测与评估平台中,由于接入各类设备状态监测装置,使得状态信息数据量呈几何级数快速增长,数据种类也逐渐多样化,不仅包括实时在线的状态监测数据,而且包括设备基本信息、试验数据、运行数据、缺陷数据、巡检记录、带电测试数据等离线信息,逐渐构成了电力设备状态信息大数据。
1电设备状态监测大数据处理
1.1变电设备状态监测数据的分析
变电站设备的监测数据,具有时间和空间属性的变电设备状态监测数据是变电设备状态监视与评估平台的主要数据来源,其快速查询是保障状态监视与评估诊断的技术基础。各个变电站的状态监测接入控制器(CAC)采集变电设备状态监测数据,包括变压器的局部放电、油中溶解气体、绕组光纤测温等,开关设备的局部放电、操作机构特性与储能电机工作状态等,容性设备的介质损耗因数、电容量与泄漏电流等,避雷器的全电流、三次谐波、容性电流与阻性电流等。网省公司的状态监测接入网关机(CAG)对变电站(CAC)的状态监测数据进行汇集、存储与处理。变电设备状态检修从出现故障迹象到实际功能性故障的发生有一段较长的发展过程,监测数据在现场中采集周期多为分钟级甚至小时级,可以采用较低的频度采集这些数据,观察变电设备的发展趋势。虽然变电设备状态监测数据获取频度较低,但随着时间积累,变电设备状态监测数据已经不是单纯的海量数据,而是数据量达到大数据级别,用传统的数据处理方法处理困难的数据。如何高效率地管理变电设备状态监测大数据是智能变电站所面临的重大挑战。
1.2分布式列存储数据库HBase
HBase是一种面向列存储模型的NoSQL数据库,具有分布式存储可靠性高、列查询I/O性能高、数据压缩容易等优势,目前在大数据处理领域得到了广泛研究,并已成为电力大数据平台的主要存储方法。HBase数据库由行键、列族和时间戳组成。最基本的单位是列,一列或多列形成一行。数据库按列族存储,列族由任意列组成。时间戳是每行数据插入时由系统自动生成,也可以设置将监测时间作为时间戳。
1.3变电设备状态监测大数据的处理框架
本文结合上述对变电设备状态监测数据与分布式列存储数据库的分析,设计变电站状态监测数据的处理框架台账信息等元数据存储在Oracle,MySQL等关系型数据库中。
期刊文章分类查询,尽在期刊图书馆变电设备状态监测数据具有数据量大、实时要求高等特点,传统的关系数据库在大数据存储和查询方面存在一定困难,将变电设备状态监测数据存储到HBase数据库中。本文使用Put方法将MySQL数据导入HBase中的方式,所有操作均在一个单独的客户端执行。通过HBase命令行创建HBase表,通过Java来连接集群,并将数据导入HBase,实现变电设备状态监测数据到HBase的高效迁移。首先从传统关系型数据库读取状态监测数据,导入HBase数据库中,新建数据表,获得表名、列族和列名。设计复合行键,传输状态监测数据,最终将数据导入HBase数据库中。
2变电设备状态监测数据的查询优化方法
2.1基于行键的状态监测数据查询
对行键的状态监测数据查询时,行键是确定表记录的唯一标识,主要用来检索数据。在HBase数据库中,行键本身相当于一级索引,可以实现按行键高效率查询状态监测大数据。构建复合行键即复合索引可以满足复合条件查询,增加查询灵活性。在实际存储中,HBase数据库的行键是有序的,同一行键的所有数据存储在一起,数据按顺序连续存储,因此行键数据查找效率较高。行键结构如何设计关系到变电设备状态监测数据查询的效率,简单短小的行键支持查询种类太少,而复杂的复合行键会占据较多的存储空间。
2.2基于二级索引的状态监测数据查询
在HBase数据库中,当行键未知时,数据查询效率很低,通过构建二级索引可以实现对数据的高效率查询。二级索引技术的优点是实现较简单,但是会牺牲一定的存储空间,是一种以空间换时间的方法。数据集中存储后,分布式列存储成本较低,牺牲较低的空间成本可以提高大数据的查询效率。二级索引查询方案可以在多个列上建立索引,目标列值上的二级索引实际上是一个新的列族结构。在目标数据列构建二级索引表,首先在二级索引表按行键快速查询,再在原数据表按行键检索数据,相比在原数据表通过全表扫描的方式查询目标数据,查询效率有了极大的提高,用户可以更方便地按约束条件查询数据,不仅仅是通过行键检索数据。
2.3基于协处理器的状态监测数据二级索引构建
IHBase和ITHBase是比较成熟的二级索引方案,这两种索引实现方案的原理相似,都是对HBase的源代码进行修改,不随HBase数据库中数据增加而更新,不适合更新变化频繁的状态监测数据存储查询系统。CCIndex二级索引把数据的详细信息同时存放在索引表中,极大地增加了空间开销。以上二级索引方法都存在一定的不足,本文提出基于协处理器的状态监测数据二级索引构建方法。协处理器允许用户在Region服务器上运行自己的代码,更准确地说是允许用户执行Region级操作。在客户端,用户不用关心操作具体执行,HBase的分布式框架会把这些工作变得透明。协处理器框架已经提供了一些类,主要分为Observer类和Endpoint类,其中Observer类可以实现二级索引功能,Endpoint类可以实现数据统计功能。
结语
本文通过对状态监测数据特点和分布式列数据存储方法的分析,对行键复合结构进行了优化设计,提高了行键数据检索的效率。给出的基于协处理器的二级索引建立方法,解决了非行键数据查询效率低的问题。实验验证了本文方法在变电设备状态监测大数据查询方面具有快速灵活的优点,可以较好地满足变电设备状态监视、评估与诊断等应用快速查询的需要。
参考文献:
[1]彭小圣,邓迪元,程时杰,等.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015,35(3):503-511.
[2]李明,韩学山,杨明,等.电网状态检修概念与理论基础研究[J].中国电机工程学报,2011,31(34):43-52.
[3]张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(增刊2):216-233.
论文作者:刘前元
论文发表刊物:《电力设备》2017年第34期
论文发表时间:2018/5/10
标签:数据论文; 状态论文; 设备论文; 索引论文; 方法论文; 分布式论文; 数据库中论文; 《电力设备》2017年第34期论文;