电费回收风险预测的大数据方法应用论文_王珺

(国网临汾供电公司 山西临汾 041000)

摘要:近年来,经济的发展,促进我国科技水平的提升。随着信息技术的发展,国内开始使用数据挖掘技术分析海量用户的用电特征,并试图找出用户用电特征与欠费间的联系。本文就电费回收风险预测的大数据方法应用展开探讨。

关键词:电费回收;逻辑回归算法;指标体系

电费回收管理一直是供电企业的工作重点,且是供电企业经营活动中最为重要的环节之一。长期以来,供电企业一直采用先用电后缴费的市场规则,因此存在电费回收周期长及催费措施落后等隐患,使电费回收逐渐成为困扰电力企业的一大问题。为了解决此问题,各电力公司纷纷提出了各种行政管理手段和技术手段,并建立了基于客户风险的电费回收策略,以防范电费回收风险。但是,电网企业对于客户欠费风险的预判能力不足,不能根据客户欠费风险等级提前采取具有针对性的防范措施,是目前防范电费回收风险面临的一大难题。为了有效地提高电力企业的风险防控能力、降低企业经营风险,高效准确的欠费风险预测尤为重要。

1电费风险预测数据来源

电费回收率作为电网公司收益的主要的运营指标数据,体现了电网公司经营效益的成果。凡事预则立,不预则废,在提升电费回收率、有效地降低电费回收风险方面同样适用。深入探讨电费风险产生的原因,对风险影响因素进行分类,主要分为内部和外部两大方面的因素,电费风险预测数据主要包括:内部因素数据(用户基础信息、业扩信息、电费信息、欠费历史信息、用电检查信息、营销稽查信息等)、外部因素数据(企业基本信息、企业法人个人征信、纳税证明信息、银行贷款信息、企业经营状况、国家宏观经济环境、区域社会环境等)。(1)内部因素。营销管理系统中的用户类型信息包括企业客户、个人客户、集团客户、事业单位客户、社会团体、政府机关、军事单位客户,本文分析范围只针对电费回收风险较大的企业客户进行分析。个人客户由于基数较大、个体风险影响较低,同时事业单位客户、社会团体、政府机关等客户因负有社会责任,受外部因素影响较低。电费信息、业扩信息、稽查信息、用检信息和欠费历史信息均由营销管理系统提供,企业用户信息、业扩信息以及欠费信息均包含企业行业类别信息以及企业基本信息,通过企业信息可进行外部因素关联分析。(2)外部因素。企业基本信息包括企业名称、经营范围、法人、注册资本、税号等信息,来源于工商管理局系统,同时还需要来源于征信系统的企业法人征信信息,税务局系统的纳税证明信息,银行系统的贷款信息及还款信息,企业经营状况、宏观经济因素(资讯、视频、图片等)以及特定行业影响因素(比如农产品加工企业,需要考虑气候、产能等因素)主要从网络途径获取,考虑外部因素的难度主要在于有效数据的获取和筛查。

2主要方法

(1)最优变量分组方法。变量分组是将分类变量的某些类别合并以降低其基数,或者将数值型变量分段将其转换为分类变量的过程。变量分组的方法是基于决策树模型的分裂找到最优的分组方案,通过合并变量的类别使得预测力指标最大化,即首先以使某预测力指标最大为原则找出最优的二元分割点,然后在每个子类别中重复上一步骤,当达到最大分组个数时停止分割。(2)逻辑回归方法。逻辑回归是一种研究二分变量Y与一系列影响因素nx之间关系的多变量分析方法,是在线性模型基础上的进一步发展。其一般形式如下:

其中,P是变量Y发

生的概率,取值为0~1,β为模型建立后得到的自变量系数。逻辑回归模型的计算速度快,结果显性化且拟合效果好,目前在大数据、机器学习、经济学等领域得到了广泛应用。(3)WOE证据权重转化方法。将分类变量转化为数值型变量,以降低建模程序的复杂性,同时可以将Logistic回归模型转变为标准评分卡格式,以利于后续模型结果的解释及应用。对于某分类自变量的第i组,WOE的计算式如下。

其中,xi为某组分类自变量,pi和qi分别是x中第i类在目标变量Y中的响应个数占总体响应个数概

率和未响应个数占总体未响应个数概率,ni和n*均表示个数值。信息值表示的是当前这个组中响应的客户和未响应客户的比值和所有样本中这个比值的差异。WOE越大,信息值越大,这个分组里的样本响应的可能性就越大。经过WOE转换,将分类变量转化为数值型变量,同时不影响原始分布。

3电费风险预测技术分析

3.1数据采集

目前电力营销管理系统使用传统的关系型数据库存储用电客户、电费、业扩、用检、稽查等数据。企业基本信息、企业法人个人征信、纳税证明信息、银行贷款信息等数据需从工商管理局、银行、征信等专业系统获取,需考虑各系统的数据存储方式及获取方式的多样性。企业经营状况、国家宏观经济环境、区域社会环境等半结构化或非结构化数据主要是借助网络爬虫或网站公开API等方式获取数据。

3.2数据准备与清洗

当前国家电网公司数据源的特点是各数据表数据较为齐备,但不同来源数据间的匹配尚不理想。因此,数据清洗分2个步骤进行:对从业务系统中取得的各数据表中的数据进行单表清洗,包括对其中主键字段、其他数据字段进行逻辑性检查和取值检查,发现并正确标记缺失数据、识别有效数据(如排除缴费数据中的考核记录等)、重点数据字段的取值是否正确以及取值分布是否合理(发现可能的异常值并对异常值发生的系统性原因进行排查);在根据业务逻辑设计,将不同数据整合计算并生成模型变量的前期,对多表进行整合校验,即对不同表之间的一致性进行检查和修正。

3.3数据计算及预测分析

大规模数据的并行运算主要使用MapReduce方法,支持自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动调度计算节点(Map节点或Reduce节点)来处理相应的数据块,同时负责监控这些节点的执行状态,并负责Map节点执行的同步控制。数据挖掘预测则是通过对历史数据的输入值和输出值关联性的学习,得到预测模型,再利用该模型对未来的输入值进行输出值预测。一般地,可以通过机器学习方法建立预测模型。即假定事物的输入、输出之间存在一种函数关系y=f(x,β),其中β是待定参数,x是输入变量,则y=f(x,β)称为学习机器。通过数据建模,由历史数据学习得到参数β的取值,就确定了具体表达式y=f(x,β),这样就可以对新的x预测y。典型的机器学习方法包括:决策树方法、人工神经网络、支持向量机、正则化方法。其他常见的预测方法还有近邻法、朴素贝叶斯等。

结语

电费是电网企业的主要收入来源,其及时回收是电网企业良好运转的必要条件。在实际工作中常常存在拖欠电费现象,拖欠原因不一而足,有些是由于用户按约缴费的意识不足,不能按照约定及时、足量地完成电费缴纳;有些是由于用户资金困难而无力缴纳;有些则是由于电力企业的电费回收工作不力导致的。为此,各级电力企业多年来致力于通过种种方法提高电费回收率,但这些方法往往是利用管理手段,如加强电力企业自身领导工作、对重点企业重点关注等。这些方法能够在一定程度上改善电费回收状况,但都是以工作经验、对企业自身管理和对用户信息的定性了解为依据,缺少精准性、客观性,可重复性和可推广性也较差。近年来,随着国家电网公司信息化建设的快速发展,海量的营销数据中包含有较为完备的用户基础信息、用户用电信息、电费信息、缴费信息以及其他相关信息,数据化分析应用成为公司运营监测工作的重点方向。

参考文献

[1]张晓峰.电力大客户电费回收风险防范体系的构建[J].内蒙古科技与经济,2015(24):121-123.

[2]裘华东,涂莹,丁麒.基于标签库系统的电力企业客户画像构建与信用评估及电费风险防控应用[J].电信科学,2017,33(1):214-221.

论文作者:王珺

论文发表刊物:《电力设备》2019年第6期

论文发表时间:2019/7/9

标签:;  ;  ;  ;  ;  ;  ;  ;  

电费回收风险预测的大数据方法应用论文_王珺
下载Doc文档

猜你喜欢