基于用户负荷的用电模式分析方法∗
邓明斌 谭致远 陈广开 韩 玮 徐志淼
(广州供电局有限公司 广州 510620)
摘 要 针对目前不同行业不同用电类别的专变用户存在多种多样的用电行为,在用户用电异常分析的过程中,无法准确地判定出当前用户的用电行为是否异常的现状,提出了一种基于用户日负荷数据运用数据挖掘算法而建立的用电模式异常识别方法。该方法以用户日瞬时量数据为研究对象,首先对数据进行预处理和归一化,引进改进后的K-means聚类算法构建单一用户历史用电模式;其次利用用户测试数据到簇中心点的距离大于该簇的阈值半径定义为异常用户。最终通过量化的概率指标输出用户是否为用电模式异常,以此作为稽查人员判定用户用电异常的依据和参考。利用该方法对某供电单位专变用户进行用电行为异常进行判定,结果表明该方法处理效率较高,而且异常判别简单快捷,具有很好的实用价值。
关键词 负荷;用电行为;用电模式;K-means聚类;数据挖掘
1 引言
随着电力系统信息化程度的不断提高和配用电数据量的迅速增长,研究适用于配用电数据挖掘的算法并建立有效的知识发现模型,对配用电业务模式创新和智能电网的发展具有重要意义。然而到目前为止,“数据海量,信息匮乏”仍是电力企业面临的重要问题[1]。
电力大数据的内涵是重塑电力核心价值和转变电力发展方式。通过对市场个性化需求和企业自身良性发展的挖掘,实现由以电力生产为中心向以客户为中心转变,推动电力工业向低耗能、低排放、高效率的绿色发展方式转变。通过对配用电大数据的有效挖掘,推动以电网物理模型为核心的传统业务模式向以数据信息相关性为基础的大数据业务模式转变[2]。
本文研究的目的在于训练出用户历史用电的用电模式,判别当前用电行为是否存在异常,其作用体现在三个方面,首先,帮助营销稽查人员辅助判断用电异常嫌疑户;其次,是提高营销业务人员分析异常用户的工作效率,最后,是查获异常用户挽回供电企业损失,提高供电企业效益[3]。
建立用户用电模式采用了数据挖掘流程包括数据提取、数据处理、数据训练、异常判别、结果验证等,用电模式训练引进了数据挖掘中的K-means聚类算法,并结合当前业务对聚类算法进行了改进。
2 建立专变用户用电模式模型
建立用电模式模型主要分为两个阶段:训练阶段和异常识别阶段。选取正常天的分时电量进行训练,训练出用户正常的用电模式,再对待测数据进行检测。
规范证书签发。地方各级林业植物检疫机构要强化检疫员证书签发管理,严格按照“谁检疫谁负责”、“谁签证谁负责”的原则,认真开展现场检疫和产地检疫,杜绝只开证不检疫的现象。证书必须在“林业有害生物防治检疫管理与服务平台”上办理,填写内容符合附件3的要求。要严格执行专职检疫员手工签发制度,不得使用个人印章代替,不得由他人代签。要加强签发证书的事中事后监管,及时纠正证书签发中的不规范问题,严肃查处“只开证不检疫”、“先开证后检疫”等违规行为。
1)将预处理后的数据进行kmeans聚类成6类,因为单个用户的用电模式一般为2~3个,这里先聚成6类,再根据曼哈顿距离把模式相近的进行合并。在这里求曼哈顿距离的时候先进行了梯度归一化处理。具体步骤:先将每天的24维分时数据向量[d0,d1,d2…d23]向前作差转化成23维的向量[d1-d0,d2-d1…d23-d22],然后对所有得到的数据取80分位点作为梯度阈值gradient,事实上梯度阈值会在一个合理的范围,所以有如下判断:
梯度阈值:表示分时电量发生变化的最小幅度,超过该幅度则表示电量发生了变化。用gradient表示,由统计得出。
梯度归一化:由梯度阈值,根据分时电量是否增加,不变,减少归一化成1,0,-1。
2.1 用电模式训练阶段
2.1.1 用电模式训练流程
图1 用电模式训练流程图
1)提取用户电流数据,以用户电流平衡度来判断用户正常用电数据;
2)提取用户24h整点分时电量数据;
南宋诗人胡仲弓有一首《睡猫》诗写道:“瓶吕斗粟鼠窃尽,床上狸奴睡不知。无奈家人犹爱护,买鱼和饭养如儿。”正是宋人饲养宠物猫的生动写照。今天不少城市白领、小资将猫当成“儿子”养,看来这种事儿宋朝时已经出现了。
妊高症是妊娠期的高血压疾病,是妊娠阶段的特有疾病,主要是妊娠20周以及产后2周之间发病,患者出现了高血压,蛋白尿和水肿等表现,严重患者还会昏迷抽搐,也是孕妇和胎儿死亡的重要原因[1]。预见性护理时对患者的疾病规律进行分析,预测疾病风险,科学的进行预防护理,确保患者的治疗顺利完成,提升护理质量以及护理满意度。临床研究显示[2],对患者的病情及时发现,积极的进行处理,能够预防严重并发症,保障母婴安全。此次我们就预见性护理的效果进行了分析,有以下报道。
5)训练正常的用电参数模型,引进了改进型K-means聚类算法。
在理论和优化匹配电路条件下对AOTF实测光谱衍射强度进行测试,通过数据计算与分析可得到实测阻抗匹配衍射效率和优化阻抗匹配衍射效率,并与理论衍射效率以及Brimrose生产的AOTF衍射效率进行比较,绘制如图11的所示对比图,由图11可得在0.42 μm~1.150 μm波长范围内,优化阻抗匹配条件下的光谱衍射效率处于较高的水平且接近于光谱衍射效率理论值,与Brimrose的AOTF相比,其衍射效率较高。
4)提取有效的正常天数据;
3)对数据进行预处理,包括数据清洗、数据向量化、数据归一化处理;
MDT照护模式将各学科专业人员有机结合,为患者提供了从医院至社区及家庭的全程康复护理服务,能够提高COPD居家患者的肺康复依从性,减轻呼吸困难症状,提高运动耐力,最终改善其生活质量。另外,本研究在实施过程中,存在人力不足、工作量较大等问题,在今后研究中,可探索其他居家康复模式,如互联网+居家肺康复模式,可能会解决上述问题。
2.1.2 数据预处理
标记好正常日期后,接下来就是对数据进行预处理。具体包括:
2)计算每个簇中的点到中心点的归一化的曼哈顿距离,取75分位点作为这个簇的势力范围,如果两个簇的中心点之间的归一化曼哈顿距离分别在这两个簇的势力范围之内,则说明这两个模式可以合并。若多个簇之前可以相互合并则一起合并。合并后的簇中心点为各个簇中心点的均值。重复步骤2),直到不能被合并为止,得到最后的用电模式。
将数据按天提取成24维向量,方便计算。为保证训练数据的准确性,将不足24个点的,有空缺的天滤掉。
2.1.3 梯度聚类
2)将数据进行归一化,这里采用:value=(value-min)/(max-min)*10,其中min为用户分时电量的最小值,max为用户分时电量的最大值。放大10倍便于计算,则归一化后的数据范围为[0~10]。
聚类分析是数据挖掘技术中最重要的算法之一。常用的聚类方法可以划分为如下几种:1)划分聚类方法,包括K-means和K-medoids等算法;2)层次聚类方法,可分为凝聚算法和分裂算法;3)密度聚类算法,主要包括DBSCAN、OPTICS和DENCLUE算法;4)基于网格的方法,如STING 法;5)基于模型的SOM、COBWEB算法等。其中,K-means聚类分析法是目前应用最为广泛的一种算法,该算法由MacQueen于1967年提出,具有原理简单、计算快速的优点,尤其对于数值属性的数据,它能较好地体现聚类在几何和统计学上的意义[4]。
在进行kmeans聚类之前,先进行梯度聚类,然后将梯度聚类的结果作为kmeans聚类的初值。这样不仅使kmeans聚类有了一个比较好的初值,而且还指定了用电模式的个数。梯度聚类分为两步,第一步先进行常规的kmeans聚类聚成6类,第二步再把相似的用电模式按取均值的方式合并出最后结果。具体步骤为
专业术语说明:
① 区制主要是用来描述经济变量,在不同状态间转换的区间。具体可参考:Hamilto, James D. (1988)的研究。
将所得的23维向量value_(0-22)进行如下转化:
这样就把原数据转化成了只包含0,1,-1的23维向量,再计算曼哈顿距离,这样可以使得越平行向量之间曼哈顿距离越小。
1)首先进行数据清洗。有两类异常值会影响计算,第一类为数据空缺,第二类为计量故障得到的特别大的值,在这里直接滤掉。对于第二类异常值主要是由于计量故障引起的,得到的电量值可能是很多天的累计或者小数点移位等,导致计量的电量值可能是实际值的几十倍,甚至上百倍。对于这类异常值在数据计算前必须进行清洗,否则得到的特征值会很大,会增加异常的概率。根据数据的分布情况,这里设定临界值为99.9分位点,可以比较准确地清洗掉异常值,保留有用数据。
2.2 用电模式异常识别
2.2.1 识别流程
(1)西宁市空气质量在2018年4月4日~5日连续超标的空气严重污染过程受外来沙尘输送影响,主要是冷高压和热低压之间过渡带东移携带沙尘源地沙尘及沿途的沙尘沿着河西走廊输送到兰州,后沿着河湟谷地回流至西宁所致。
中国石油规划总院管道所高级工程师孙慧介绍了北方清洁取暖煤改气项目的综合效益比较与发展路径。在进行了北方农村地区和城市地区采暖方式经济性对比后,孙慧认为4种北方地区天然气取暖方式的发展顺序推荐为:燃气热电联产>燃气锅炉>分布式能源(内燃机)>壁挂炉。
图2 用电模式识别流程图
1)提取待测数据及相关参数,待测数据为每天24h整点功率数据,在测试过程中,对于数据缺失不太多且没有连续缺失的天采用线性插值的方法进行填充;
2)数据预处理后,计算每天的数据向量到每个簇中心点的距离,离哪个中心点近,就判定它属于哪个簇。
3)当判定测试数据属于哪个簇后,还要进行确认它是否真的属于这个簇。这里采用测试数据到簇中心点的距离与该簇的阈值半径进行比较,若大于该阈值,则认为该用电数据不属于该模式,即可判定为异常,若小于该阈值,则可判定该天正常。
4)异常结果输出。
2.2.2 异常识别结果分析
让我意料不到的是老陈居然打电话举报我。那是在我那个朋友来过之后的第二天,两个警察敲响了我的门。听到敲门声,我还以为是老陈呢。谁想开门后却发现站在门外的是两个警察。只是出乎意外的是其中的一个警察我认识,他也喜欢逛古玩市场。见开门的是我,警察小徐说,怎么是你?
用户A为大工业用户,存在一种用电模式,用电模式为双峰型,表示该用户过去长期都是这种双峰型用电模式,当前负荷轨迹与用户历史用电模型进行判别,两条曲线趋势和吻合度都很相似,判别结果为正常。
图3 正确用电模式
用户用电模式聚类结果有四类,当前测试数据与历史用电模式进行识别,最终判定出结果为异常。
图4 异常用电模式
用户B,用电模式聚类结果有四类,当前测试数据与历史用电模式进行识别,再结合用户电量数据、用户日瞬时量数据进行判断,用户从2017年4月开始功率因数总开始无序波动且功率因数一天中超过多次低于0.5,再结合用户日电量、月电量数据分析,用户电量从4月开始下降,因此最终判定出结果为异常。
南宁动物园家庭型游客休闲旅游偏好研究——兼论动物园的公益性与营利性 …………………………………… 孟 娜(6/55)
3 结语
实践表明,综合运用以上建立的模型分析法,基本能够做到及时、准确地将符合数据特征的窃电行为消灭在萌芽状态,无需另外投入,即可大大减少因窃电减少的经济损失。
参考文献
[1]中国电机工程学会电力信息化专业委员会.中国电力大数据发展白皮书(2013)[R].北京:中国电力出版社,2013,1(1):20-27.Electric Power Informatization Special Committee of CSEE.China Power Big Data White Paper(2013)[R].Beijing:Chinese Electric Power Press,2013(in Chinese),1(1):20-27.
[2]宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935.SONG Yaqi,ZHOU Guoxian,ZHU Yongli.Present Situation and Challenges of Large Data Processing Technology of Smart Grid[J].Power System Technology,2013,37(4):927-935.
[3]庄池杰.基于无监督学习的电力用户异常用电模式检测[J].中国电机工程学报,2016,1(2):379-384.ZHUANG Chijie,Detection of Abnormal Electricity Mode of Power Users Based on Unsupervised Learning[J].Journal of China Electromechanical Engineering,2016,1(2):379-384.
[4]李欣然,姜学皎,钱军,等.基于用户日负荷曲线的用电行业分类与综合方法[J].电力系统自动化,2010,34(10):56-58.LI Xinran,JIANG Xuejiao,QIAN Jun,et al.Classification and Synthesis of Electricity Industry Based on User Daily Load Curve[J].Automation of Electric Power Systems ,2010,34(10):56-58.
[5]简富俊,曹敏,王磊,等.基于SVM的AMI环境下用电异常检测研究[J]. 电测与仪表,2014,51(6):64-68.JIAN Fujun,CAO Ming,WANG Lei,et al.Based on SVM AMI environment detection of electricity anomaly[J].Electrical measurement and instrumentation,2014,51(6):64-68.
[6]鞠平,陈谦,熊传平,等.基于日负荷曲线的负荷分类和综合建模[J].电力系统自动化,2006,30(16):6-9.JU Ping,CHEN Qian,XIONG Chuanping,et al.Load Classification and Integrated Modeling Based on Daily Load Curve[J].Power System Automation,2006,30(16):6-9.
[7]赵鸿图,刘云.基于三次样条插值的小波模极大值去噪算法[J].计算机工程与设计,2014,35(08):2965-2968.ZHAO Hongtu,LIU Yun.Wavelet Modulus Denoising Algorithm Based on Cubic Spline Interpolation[J].Computer Engineering and Design,2014,35(08):2965-2968.
[8]陈沧杨,胡博,谢开贵,等.计入电力系统可靠性与购电风险的峰谷分时电价模型[J].电网技术,2014,38(08):2141-2148.CHEN Cangyang,HU Bo,XIE Kaigui,et al.Peak and valley time-of-use electricity price model for reliability and power purchase risk of power system[J].Power System Technology ,2014,38(08):2141-2148.
[9]彭显刚,赖家文,陈奕.基于聚类分析的客户用电模式智能识别方法[J].电力系统保护与控制,2014,42(19):68-73.PENG Xiangang,LAI Jiawen,CHEN Yi.Intelligent Identification Method of Customer Power Mode Based on Cluster Analysis[J].Power System Protection and Control,2014,42(19):68-73.
[10]林幕群,彭显刚,林利祥,等.基于数据挖掘技术的电价执行在线稽查模型[J].广东电力,2016,29(1):108-112.LIN Muqun,PENG Xiangang,LIN Lixiang,et al.Online Inspection Model for Electricity Price Implementation Based on Data Mining Technology[J].Guangdong Electric Power.2016,29(1):108-112.
[12]朱乾龙,韩平平,丁明,等.基于聚类-辨别分析的风电场概率等值建模研究[J].中国电机工程学报,2014,34(28):4770-4780.ZHU Qianlong,HAN Pingping,DING Ming,et al.Probabilistic Equivalent Modeling of Wind Farm Based on Cluster-Discriminant Analysis[J].Proceedings of the CSEE,2014,34(28):4770-4780.
[13]张海红.基于用电MIS系统大客户用电情况监测[J].环球信息市场导报,2014,25(8):44-46.ZHANG Haihong.Based on the electricity consumption of MIS system customer monitoring[J].Global Information Market Herald,2014,25(8):44-46.
[14]朱乾龙,魏瑶,朱伟义,等.基于数据挖掘技术的用电异常分析系统设计[J].电力信息与通信技术,2014,12(5):70-73.ZHU Qianlong,WEI Yao,ZHU Weiyi,et al.Design of Power Consumption Anomaly Analysis System Based on Data Mining Technology[J].Electric Power Information and Communication Technology,2014,12(5):70-73.
[15]邢慧霞.通过采控系统数据判别用电异常的方法与措施[J].产业与科技论坛,2012,11(14):246-247.XING Huixia.Methods and Measures for Determining Electricity Abnormality by Controlling Control System Data[J].Industry and Technology Forum,2012,11(14):246-247.
[16]黄梅,贺仁睦,杨少兵,等.东北电网负荷模型的分类与应用[J].电力系统自动化,2005,29(4):85-87.HUANG Mei,HE Renmei,YANG Shaobing,et al.Classification and Application of Load Model in Northeast China Power Grid[J].Automation of Electric Power Systems,2005,29(4):85-87.
Power Consumption Analysis Method Based on User Load
DENG Mingbin TAN Zhiyuan CHEN GuangkaiHAN WeiXU Zhimiao
(Guangzhou Power Supply Bureau Limited,Guangzhou 510620)
Abstract In view of the present situation that most power supply enterprise marketing audit mainly rely on passive methods such as artificial inspection,which are hard to detect abnormal electricity customers,an electricity price implementation online inspection model is developed in this paper based on data mining technology.Using the mass data of measurement automation system and marketing system,the model firstly uses K-means clustering algorithm to construct the typical electricity track module to identify the customer's typical electricity mode.Secondly,the Mahalanobis distance discriminant analysis algorithm is adopted to establish the abnormal customer distinguish module,which can identify abnormal electricity customers automatically.The outputs of the model are all the suspected electricity customers,which can provide power inspectors audit scopes and basis.The feasibility and validity of the proposed method are verified by analysis results of the power marketing inspection work in one regional power supply bureau in South China.
Key Words load,electricity behavior,power-mode,K-means clustering,data mining
中图分类号 F407.61
DOI: 10.3969/j.issn.1672-9722.2019.05.052
∗收稿日期: 2018年11月11日,
修回日期: 2018年12月27日
作者简介: 邓明斌,男,硕士,工程师,研究方向:营销稽查与反窃电技术。谭致远,男,硕士,高级工程师,研究方向:用电检查稽查。陈广开,男,工程师,研究方向:电力营销稽查管理。韩玮,男,助理经济师,研究方向:电力营销现场检查。徐志淼,男,硕士,助理工程师,研究方向:电力营销稽查与反窃电技术。
Class Number F407.61
标签:负荷论文; 用电行为论文; 用电模式论文; K-means聚类论文; 数据挖掘论文; 广州供电局有限公司论文;