摘要:供电企业作为国家和政府服务部门,应结合供电企业的特点建立自己的信誉管理体系。定风险预警登记,加强电费风险规避机制,建立以客户需求为导向以支撑营销业务快速发展为主线,以深化营销业务系统应用为基础,以拓展电费回收风险防控分析为重点应用的新型客户互动服务体系。
关键词:电费风险;预测;防控
1数据获取方式
通过收集用营销业务应用系统中的基本属性信息、用电趋势信息、缴费方式信息、业务异常信息、用电行为信息、失信记录信息,综合分析各种影响客户电费风险的因素,建立客户电费风险特征指标体系。利用大数据分析方法,进行数据提取、转换处理,采用机器学习的方式建立客户电费风险识别模型。
1.1特征变量提取
收集营销业务应用系统的历史用电数据,研究分析各类因素对用户电费回收风险的影响程度,形成用电行为指标体系。基础特征包括户名、户号、行业、行业分类、行业大类、高耗能行业、重要性等级等36个特征。分类如下:①基本属性信息;②用电趋势;③缴费方式;④业务异常;⑤用电行为;⑥失信记录。
1.2数据样本采集
观测用户的风险情况,查看出现高风险、一般风险、无风险样本比例,调整训练样本配比,初步将有风险(高风险+一般风险)和无风险样本比拟定在1:2~1:5之间。
1.3数据量
建模过程中,取5万余户高压用户作为样本,并取该些用户最近24个月的特征数据,因此每次分析数据量达500余万条。
2数据处理与分析
2.1数据预处理
当今数据库极易受噪声、丢失数据和不一致数据的侵扰,数量太大,并且多半来自多个异构数据源,导致数据质量较低,低质量的数据将导致数据分析的结果不准确,因此在模型训练之前,需要进行数据预处理。数据预处理主要从特征因素量化、缺失值处理、无效值处理等方面展开。
2.1.1特征因素量化
从营销业务应用系统采集来的基本属性信息、回款时长、业务异常等信息都是用文字或代号表示的,需要对这类变量进行数值化表示。
2.1.2缺失值处理
采集数据存在未采集或异常数据的情况,档案类数据也存在缺失的情况,需要针对这部分数据进行缺失值处理,根据不同业务规则选用不同的缺失值处理方法:
2.1.2.1默认值替换
对于某些档案中如高耗能行业、电压等级的情况,按普遍的业务规则设置默认值进行计算。
2.1.2.2个案剔除法
如果缺失值所占比例比较少,且确实的属性比较重要,则采用个案剔除法,剔除掉该条数据。例如用户档案信息中若用户id丢失,则直接剔除掉该条数据。
2.1.2.3数值插补法
如果缺失值是数值类型的,则用前后数据的线性插补来填充缺失的数据。如果缺失值是非数值类型的,则用该属性的众数来补齐缺失的数据。
2.1.2.4热卡填充法
在数据集中选择一个与缺失数据对象最相似的对象,用该对象的值代替缺失值。
2.1.3无效值处理
抛弃有效数据量太少过于单一的特征、信息熵太低的特征。
2.2特征变换
为更好地进行模型训练,需要进行特征因子化转换:(采用0/1/2/3…数字编码来表达。)例如以下特征:①行业、行业分类、行业大类、高耗能行业、用电类别、电压等级、是否预购电用户;②回款时长是否超过5天、回款时长是否超过10天、回款时长是否超过15天、是否存在逾期;③是否存在投诉记录、历史投诉次数、是否存在在途电费退补流程、是否存在在途电表申校流程、是否代扣异常、是否存在故障换表流程;④是否纳入人民银行信用平台。
期刊文章分类查询,尽在期刊图书馆
2.3特征拓展
2.3.1归一化拓展(将用户数据值设置为[0-1]之内数据作为特征)
平均回款时长、近6个月电量的波动性。
2.3.2离散化拓展(将用户数据值按大小分段作为特征)
平均回款时长、近6个月电量的波动性、预收结转次数占比、月用电量同比值、年累计电量同比值、近一年用电量首尾差异度比。
2.3.3排序特征拓展(将用户数据值按大小排序作为特征)
平均回款时长、近6个月电量的波动性、预收结转次数占比、月用电量同比值、年累计电量同比值、近一年用电量首尾差异度比。
2.3.4量少数据编码拓展(onehot0/1编码)
结清电费的累计交费次数、容量变化趋势、使用支票支付的次数、使用承兑汇票支付的次数、支票退票次数、历史投诉次数、存在违约用电或窃电行为的次数。(类别用户太少)。
2.4大数据分析构建模型
2.4.1模型特征选择
(1)针对用户属性特征,观测数据的分布均衡情况,初步分析这些维度特征对是否有风险的影响。(2)针对5类行为信息特征,观测数据的分布均衡情况,初步分析这些维度特征对是否有风险的影响。查看是否具有关联特性。(3)综合降维,探索尝试多种方法,综合各种方法的结果进行降维。
2.4.2大数据分析构建模型
将问题定义为二元分类/三元分类问题,采用随机森林、逻辑回归、决策树、支持向量机进行模型训练。
2.4.3电费风险模型算法研究
采用逻辑回归、随机森林、决策树、支持向量机(SVM)等方法来训练与建模,分别分析客户下月是否有风险。(1)逻辑回归是广义线性模型的一种,可根据一组数值变量预测二元输出。(2)随机森林是一种组成式的有监督学习方法。在随机森林中,同时生成多个预测模型,并将模型的结果汇总以提升分类准确率。(3)决策树(DT)是一种基本的分类和回归方法。在分类问题中它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。(4)SVM旨在在多维空间中找到一个能将全部样本单元分成两类的最优平面,这一平面应使两类中距离最近的点的间距(margin)尽可能大,在间距边界上的点被称为支持向量(它们决定间距),分割的超平面位于间距的中间。
2.4.4模型调优
探索采用K-S、F1score等评估方法,通过5/10折交叉验证,对模型效果进行评估,优化特征、参数。
2.5模型效果评估
运用下期的数据核对预测的下期数据,对最佳模型的准确率、召回率进行检验,评估模型效果。
2.6模型自学习
确定模型与实际情况判定不一致的样本,是否属于模型分类错误,如果过属于模型分类错误,标记为“误判”样本。将一定时期内误判样本修正后作为增量数据重新构建训练集。依据新构建的数据集训练升级版模型。完成升级版模型训练,固化模型,升级判别模块。
3结语
通过本项目的设计开发,建立科学、完善的用户电费风险预测模型,预测下一个周期可能发生电费回收风险的客户。建立覆盖客户全业务全环节的预付费/后付费方式选择、预收策略、发行时间、结算频度、交费方式、催费策略、停限电策略、电费保全策略、欠费处置策略等风险防控策略库。通过智能风险预警,控制经营风险。基于电费风险预测模型,根据风险用户的识别结果针对不同类别和风险等级的客户,及时发现工作偏差,提前采取差异化的电费回收策略和预防措施,采用“一户一策”、“一类一策”的电费风险防控策略组合,从而建立起客户从新装用电到销户的全生命周期的电费回收全面风险管控机制,对电费风险进行及时有效的防范和规避。
参考文献:
[1]王宇哲,雷霞,陈晓盛,等.基于BP神经网络电力大客户信用等级评价研究[J].电力需求侧管理,2015,17(05):49-53.
[2]李力,林懿伦,曹东璞,等.平行学习—机器学习的一个新型理论框架[J].自动化学报,2017,43(01):1-8.
论文作者:王平,迪力尼亚•迪力夏提,朱帕尔•
论文发表刊物:《电力设备》2019年第15期
论文发表时间:2019/11/25
标签:数据论文; 电费论文; 模型论文; 特征论文; 风险论文; 缺失论文; 用户论文; 《电力设备》2019年第15期论文;