异常用电检测中解决样本不平衡问题的方法论文_祁梓豪

异常用电检测中解决样本不平衡问题的方法论文_祁梓豪

(广东电网有限责任公司东莞供电局 广东东莞 523000)

摘要:电力是我国经济社会发展的重要能源,及时处理异常用电问题,才能保证电网运行的安全性和可靠性。本文首先介绍了用电检测工作的内容和范围,然后指出异常用电检测中的样本不平衡问题,最后结合真实案例阐述了相关解决方法,以供参考。

关键词:智能电网;用电检测;样本不平衡;解决方法

对于电力企业而言,用电检查工作是按照标准流程,对电力运行数据进行监测、分析,从而保证电网安全稳定运行。分析用电检查工作的重要性,一方面是了解电力市场的需求,合理调配电力资源,确保整个线路可靠运行;另一方面能及时发现安全隐患,督促用户配合检查维修工作,防止出现重大事故。以下结合实践,探讨了异常用电检测中样本不平衡问题的解决措施。

1.用电检测工作的内容和范围

用电检测的工作内容包括:①用户执行国家电力供应与使用的方针、政策、法规、标准情况;②对受电装置工程的施工质量进行检验;③对受电装置中电气设备的安全运行进行检验;④用户保安电源和非电性质的保安措施;⑤用户反事故措施;⑥用户进网作业电工的资格,并网作业安全情况,以及作业安全保障措施;⑦用户执行计划用电、节约用电情况;⑧用电计量装置、电力负荷控制装置、继电保护和自动装置、调度通讯的安全运行情况;⑨供用电合同及协议的履行情况;⑩受电端电能质量情况;?违章用电和窃电行为;?并网电源、自备电源的并网安全情况。用电检测范围如下:①有多类电价;②有自备电源设备;③有二次变压配电;④违章现象需要延伸检查;⑤有影响电能质量的用电设备;⑥电力系统事故;⑦用户要求检查;⑧法律规定的其他检查项目。

2.异常用电检测中的样本不平衡问题

2.1 原因分析

智能电网的建成,本质上是为用户提供更加优质的电力服务,提高用电检查管理工作的效率和质量。但一些不法分子利用信息监测功能,开展窃电等恶意行为,在异常用电检测中,正常样本数据可以在用户的用电记录中采集到,异常样本数据却难以采集[1]。而且,正常样本数据多、异常样本数据少,利用常规算法时,将异常样本数据当作干扰噪声处理了,从而产生样本不平衡问题。

2.2 优化措施

针对样本不平衡问题,以往采用单分类算法,以单分类支持向量机为例,将采集到的样本作为一个大类,然后构建数据模型,最后设定阈值和相似度度量,作为新样本归属的判断依据[2]。简单来说,就是构建一个高维球体,将所有样本数据囊括其中,数据之间要紧密接触,又不能触碰到球体边界。对核参数进行优化时,一般采用留一法、交叉验证法,缺点是优化标准不统一,且寻找最优值需要依靠经验;网格搜索法能构建最优参数模型,但计算量巨大;概率密度估计算法通过调整阈值来筛选出异常数据,要求数据量足够大,且数据分布有代表性。对此,本文采用一种新的解决方法,即对正常样本数据集进行转换,从而构造出异常样本数据集,促使两类样本达到平衡状态。

3.针对样本不平衡问题的解决方法

3.1 总体思路

针对智能电网进行攻击,其目的是促使电表能耗记录低于实际能耗,或者将高电价时段能耗转移到低电价时段[3]。从这个目的出发,将正常用电数据转化为异常样本数据,总体思路如下:假设一天24小时内n个正常样本的集合为x={x1,x2,…,xn},代表实际能耗值,且x∈X,X是一个随机向量,满足泊松分布规律;电力系统从电表中接收到的最后一个读数记为y={y1,y2,…,yn}。正常样本数据满足条件y=x,异常样本数据则满足条件y=h(x);其中y∈Y,Y是一个随机向量,也满足泊松分布规律,且E(Y)≤E(X)。

期刊文章分类查询,尽在期刊图书馆分布异常样本数据的特点,理论上可以得到h(x)的表达式,例如h(x)=ax,且0≤a<1,此时可以保证E(Y)≤E(X)成立,即正常样本数据集能转化为异常样本数据集。但是,考虑到不同场景下,h(x)的表达式也不同,可以辅助利用支持向量机,不仅具有良好的学习能力,而且泛化错误率低。

3.2 算法流程

在正常样本数据集中,每天的样本使用向量表示,即x={x1,x2,…,x24},依据智能电网的不同攻击方式,异常样本数据主要包括以下几种:①h1(x1)=αx1,α=random(0.1,0.8);②h2(x1)=β1x1,当ts<t<te时,β1=0;否则β1=1;③h3(x1)=γ1x1,γ1=random(0.1,0.8);④h4(x1)=γ1mean(x),γ1=random(0.1,0.8);⑤h5(x1)=mean(x);⑥h6(x1)=X24-1。

对于以上6种情况,h1(x1)是所有样本和随机系数相乘;h2(x1)是在一段时间内将样本数据归零;h3(x1)是所有样本和随机系数相乘,并且系数也随机变化;h4(x1)、h5(x1)是所有样本取平均值,其中h4(x1)和随机系数相乘;h5(x1)、h6(x1)虽然不影响总能耗记录,但改变了实时电价计费方式,也就是将高电价时段的能耗,转移到低电价时段[4]。

4.案例分析

以某地区5000户居民的用电记录为例,利用智能电网和AMI系统,每1小时采集一次样本数据,共计持续535天。利用Matlab平台,对异常用电检测方法的使用效果进行检验。

第一步,检测One-class SVM算法,随机选取458个样本数据进行训练,其余则留作测试。面对6种攻击方式,均会产生535个数据,对数据进行标准化处理,且转化为[-1,1]的范围内进行计算。核函数选择径向基函数,利用网格搜索法确定最佳参数γ、最大训练步长v,其余参数C=50,e=0.1。5000个用户的样本数据均重复以上步骤,选取不同组合(γ,v),当DR、FPR差值最大时,说明分类效果最佳。结果显示,当HD为47%时,DR为76%,FPR为29%,可见使用单一正常数据,不考虑异常数据时,其分类效果不理想。

第二步,同时利用正常样本、异常样本训练分类器。对样本数据预处理后,利用k-均值聚类算法,计算轮廓系数、确定最佳k值,结合5000个用户的样本数据,k取值1或2时,能得到最佳结果。然后对k+1个种类的多分类SVM进行训练,数据集中包含458个正常样本、77个异常样本,通过删除重复类型,促使正常样本、异常样本实现数量平衡。核函数选择径向基函数,确定最佳参数γ、最大训练步长v,设定e=0.1,结果显示当HD为83%时,DR为94%,FPR为11%,可见多分类SVM的分类效果明显改善。

结语

综上所述,随着经济社会的发展,人们的用电需求明显增加,对用电检查工作提出了新的要求。其中,异常用电检测能及时发现窃电行为,以保证电网运行的安全性和稳定性。文中介绍了异常用电检测中样本不平衡的原因,提出解决思路和算法流程,并结合案例探讨了多分类SVM算法的应用效果,希望为实际管理工作提供经验借鉴。

参考文献:

[1] 汤典艳,林伟.异常用电检测中解决样本不平衡问题的新方法[J].工业控制计算机,2017,(3):90-92,95.

[2] 田野,张程,毛昕儒等.运用PCA改进BP神经网络的用电异常行为检测[J].重庆理工大学学报(自然科学版),2017,(8):125-133.

[3] 卢海明,郭壮志.基于粒子群算法的异常用电检测方法[J].东北电力技术,2016,(5):56-59.

[4] 王桂兰,周国亮,赵洪山等.大规模用电数据流的快速聚类和异常检测技术[J].电力系统自动化,2016,(24):27-33.

论文作者:祁梓豪

论文发表刊物:《河南电力》2018年12期

论文发表时间:2018/12/5

标签:;  ;  ;  ;  ;  ;  ;  ;  

异常用电检测中解决样本不平衡问题的方法论文_祁梓豪
下载Doc文档

猜你喜欢