大数据在电信行业的应用研究
许经伟,李公平,王文学,余 娜,涂贺元
(中国电信股份有限公司安徽分公司,合肥 230000)
摘要: 企业风险管理一直是困扰着中、大型企业,传统的企业风险管理更多依靠的是管理章程、业务审批流程以及后向的内控审计。对于大型企业,特别是运营商这一类的全国性大型服务企业,传统的企业管理章程、业务审批流程严重制约了企业的创新发展,后向的内控审计也无法及时的发现规避风险问题。加之传统的风险管理手段对一些技术性违规操作,也很难发现,避免。同时通信行业日新月异的业务变化及企业转型对风险管理也提出了更高的要求,如何利用大数据技术进行企业风险的管理,已成为当下热议的课题。
关键词: 大数据;运营商;电信;风控
1 引言
对于电信运营商来讲,大数据时代中充满了机遇。特别是如今,对于电信运营商来讲,从运营商业务模式转向为数据资产运营商已经成为了一种必然的发展趋势。特别是典型运营商所拥有的海量行为数据,使得其拥有者突出的数据优势。在这个优势之上,电信运营商可以通过各种大数据技术来打造电信大数据能力开放平台。这样电信运营商不仅仅是能够实现精准化、个性化的营销服务,还能够为企业的经营管理提供帮助。2018年,安徽电信将大数据风险管理作为企业管理创新的抓手,通过数据汇聚、数据建模、机器学习、风险识别、派单管控建立了一套完成的大数据风险管理系统与流程,发现了企业经营管理过程中大量的风险问题,挽回大量的损失。
2 大数据风控背景
随着移动互联网的快速发展,越来越多的用户和代理商享受到线上业务的便利。然而系统运营在开放式的互联网环境中,所面临的风险来自各方面。薅羊毛、恶意订单、营销欺诈、脚本访问等恶意欺诈行为既对活动推广和业务运行造成恶劣影响,也对公司的资金安全构成巨大风险。
人力资源优化配置,前提是人力资源的整体素质要提升。要从人员的培养方面制定措施,在进行培训体系建设时将员工职业生涯规划融入其中,将员工技能培养、岗位晋升和培训工作紧密联系成一个整体,形成“培训-考核-授权-上岗”的良性培训模式,为人力资源优化配置奠定基础。
安徽电信很早就已开展内部业务稽核方面的工作,包括业务稽核、审计集市、固化方式、金库系统,但离高水平的业务风险管理还有不小差距。差距主要体现在两方面:一是尚未在公司层面建立起对风险统一管理的流程、框架、策略。二是目前的风险管理不成熟及风险覆盖范围不足,主要依靠传统风控手段靠经验、分段稽核,缺乏全流程全视角的风控管理,对非业务类、流程类风险,识别滞后,未能有效防范风险发生。
通过大数据风控工作逐步实践,建立完善业务风险防护系统,建立健全风控制度,形成完整体系。
3 大数据风控思路及实施过程
(4)整改防范:对风险进行定级评级,建立风险视图持续展示、预警各风险点发生情况;通过派单确认后固化风险模型,运营稳定后纳入日常稽核流程进行整改。
同时将风险清单,进行派单管控,派单后续反馈跟踪、效果评估,进一步提高对风险原因与风险处理成效等情况的掌控,更加准确地定义和掌握各类风险的危害程度和变化趋势。
逐步建立包含风险额度评估、风险指数评估、派单处理评估和风险处理成效评估及决策支撑体系,实现业务风险现状可视化展现,为领导决策提供数据支撑。
逐步完善风险案例知识库,提炼各类典型风险案例,实现面向省市公司风险知识共享。
大数据风控重点完成风险识别和风险应对,主要是解决风险识别和通过相关系统实现风险派单和反馈,具体完成下列功能模块实施:
第三,面向技术人员:基于技术人员的业务风险模型,对技术人员使用本网业务情况、生产系统操作数据进行关联分析,输出异常行为数据。
图1 风险视图
(2)建立风险库,能够对风险点和风险场景进行定义,目前已完成已有风险库和为安徽电信三种监控对象(代理商、用户、技术人员)特殊定义的风险点案例录入。
(3)大数据平台进行风险数据加工:即风险数据的采集、抽取、清洗、转换和存储。支持采用非监督算法进行数据的分类,采用监督算法进行模型的适配。支持采用统计学算法进行数据指标的采集和计算,支持各种基于规则的数据采集、计算方法,以形成代理商、用户、技术人员的模型。
第一,面向一线人员:代理商风控模型,基于代理商的缴费、业务办理日志进行聚类分析,输出异常代理商行为;异常用户发展分析模型,对发展的用户的进行收入、活跃度、业务使用等数据进行关联分析,输出异常发展用户。
图2 智慧风控流程图
(5)按月输出风险分析报告,对风险管理活动进行记录,描述风险分析的过程,为业务活动和业务安全性评估提供相关依据,同时对风险模型迭代优化、梳理业务场景进行建模分析提供支持。
微课的出现与兴起克服了传统教学的枯燥与单调,迎合了“微”时代人们娱乐与终身学习的需要,同时也要求教师具备一定的微课制作技术。官渡区基础教育科学研究中心为官渡区初中化学教师搭建了学习平台,进行了微课制作技术培训,带领教师学习微课设计的方法及技巧,帮助教师制作微课。
(6)输出风险模型,持续跟踪:结合特定的业务场景,选择合适的分析方法建设规则模型和机器学习模型,主要分为三类:
(4)形成闭环风险管控流程,对识别的风险规则固化,产生风险清单,进行清单级派单,跟踪和优化,对风险的应对处理进行验证、效果评估,提炼各类典型风险案例,共享各类风险知识。实现风险信息管理,风险知识的一点共享,确保风险及时发现、解决。
第二,面向外部客户:增量用户价值模型,对用户业务订购、使用、缴费进行用户价值分类预测,输出用户价值分档;反欺诈模型,根据历史欺诈号码的特征行为,进行建模分析,输出疑似欺诈号码清单。
根据交通运输部办公厅印发的《公路水运品质工程评价人(试行)》的文件精神,结合对当前内河航道施工企业的现状分析,应重点在以下几个方面做好改进工作。
废水通过粗格栅、细格栅进入格栅井,利用格栅拦截大的悬浮物和漂浮物,防止堵塞管道及泵体,保证后续处理设备正常运行。格栅渠出水流至调节池。
(1)完善风险视图,支持按日、按小时的展现,也支持风险的派单和评估。子菜单功能包括风险识别情况、风险派单情况、风险应对情况、风险库情况可视化展现。
电气自动控制系统的诞生,无论是对生产力水平的提高还是对人类社会面貌的改善,都起到了巨大的推动作用。面对现阶段电气自动控制系统领域出现的新趋势,只有提高认识、加强创新,才能在未来的电气自动控制系统领域立于不败之地。
4 实施方法与核心技术
4.1 建立风险识别与处理的闭环管理
项目实施过程中使用的大量的机器学习算法,针对不同的场景,通过无监督算法做初步筛选,有监督算法进行深度分析的模式建设9个风险分析模型,识别12类风险场景,发现多起业务操作违规问题,挽回直接经济损失近600万,算法使用建议如下:
在小学数学教学的过程中,习题练习能够有效地帮助学生巩固知识记忆,同时也能够帮助教师了解学生的学习难点,从而能够有针对性地进行讲解。而在此过程中,教师也可以结合微课教学视频开展复习工作,提升学生的学习效率。
(2)风险识别:通过感知、判断或归类的方式对现实的和潜在的风险性质进行鉴别的过程。风险识别是风险管理的第一步,也是风险管理的基础。
(3)问题派单:将已识别的风险规则固化,产生风险清单,进行清单级派单、跟踪和优化,根据反馈结果固化正负样本用于风险模型优化,同时对风险的应对处理进行验证、效果评估。
(1)数据建模:风险数据的采集、抽取、清洗、转换和存储。采用非监督算法进行数据的分类,采用监督算法进行模型的适配。采用统计学算法进行数据指标的采集和计算,实现各种基于规则的数据采集、计算方法,以形成风险模型。
大数据风控是通过业务风控风险识别技术算法,对一线人员、外部客户、技术人员的业务行为进行分析建立风险模型,根据风险模型设定风险规则,快速识别业务风险,并且对业务行为的历史数据建立通过机器学习的方法勾勒风险画像,将日常业务行为和风险画像进行比对,通过K-means 算法聚类出异常点并对有差异性的行为进行风险分析,通过持续迭代过程不断发现业务风险。
4.2 机器学习算法建议
通过项目实施,总结出来“四步法”,建立起风险识别与处理的闭环管理:
4.2.1 无监督学习算法
(1)Kmeans 聚类算法:是一种基于样本间相似性度量的间接聚类方法,算法以k 为参数,把n 个对象分为k 个簇,以使簇内具有较高的相似度,而且簇间的相似度较低。是一种较典型的逐点修改迭代的动态聚类算法,其要点是以误差平方和为准则函数。缺点在于不同的划分个数和不同的初始点的选取将导致不同的结果,所以算法结果难以比较。
本文根据光伏逆变器的特点,利用关键器件TMS320F240、SG3525、ICL8038,进行逆变器的研究和设计.该系统的基本功能比较完善,成本较低,开发周期较短,适合于市场推广.
当今世界是一个竞争的社会,在综合实践活动过程中培养学生的竞争意识,有利于学生个性健康发展和整体素质的提高。为此,教师尽可能多地创设竞争环境,组织学生参加竞争活动,如组织学生参加“建国60周年书画大赛”“90年风雨历程创新成果大赛”等多项竞赛,为学生营造一种健康的、积极向上的竞争氛围,使学生敢于竞争、勇于竞争,让学生在实践活动中养成健康的竞争、道德的竞争的良好的心态,获得成功的自信和健全、健康的心理,更好地适应社会发展的需要。
(2)DBSCAN 聚类算法:核心概念是core samples,指位于高密度区域的样本。算法将聚类视为被低密度区域分隔的高密度区域。DBSCAN 发现的聚类可以是任何形状的,与假设聚类是convex shaped 的K-means 相反。缺点在于DBSCAN 对用户定义的参数很敏感,细微的不同都可能导致差别很大的结果,而参数的选择无规律可循,只能靠经验确定。
(3)孤立森林算法:它是一个基于Ensemble 的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art 算法。iForest 是一种适用于连续数据的无监督异常检测方法,即不需要有标记的样本来训练,但特征需要是连续的。对于如何查找哪些点容易被孤立(isolated),iForest 使用了一套非常高效的策略。在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。直观上来讲,那些密度很高的簇是需要被切很多次才能被孤立,但是那些密度很低的点很容易就可以被孤立。缺点在于iForest 对于特别高维的数据不适用(因为每一次对数据空间进行切割都是随机选取的一个维度,当建完树之后仍然会有大量的维度信息得不到使用,这就使得算法的可靠性得不到保障。同时高维度空间还有可能存在有大量的噪音维度或者是无关维度,会对树的构建产生影响),此外iForest 仅对全局稀疏点敏感,不擅长处理局部的相对稀疏点。
4.2.2 有监督学习算法
(1)决策树算法(decisiontree):它是一种典型的分类算法,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布,其主要优点是模型具有可读性、分类速度快。学习时,利用训练数据根据损失函数最小化的原则建立决策树模型;预测时,对新的数据利用决策树模型进行分类。
(2)Logistic 回归:它是一种分类方法,用于二分类领域,可以得出概率值,适用于根据分类概率排名的领域,如搜索排名等。Logistic 回归的扩展softmax 可以应用于多分类领域,如手写字识别等。其优点是计算代价不高,易于理解和实现;缺点是容易产生欠拟合且分类精度不高。
参考文献
[1] 吴吉义,李文娟,黄剑平.移动互联网研究综述[J].中国科学:信息科学,2015,45(01):45-69.
[2] 童晓渝,张云勇,房秉毅,雷磊.大数据时代电信运营商的机遇[J].信息通信技术,2014,8(06):63-69.
[3] 王泓正.机器学习在数据挖掘中的应用[J].中国新技术新产品,2018,380(22):103-104.
[4] 芮祥麟.大数据时代算法概论[J].软件和集成电路,2015(4).
[5] 李涛,曾春秋,周武柏,等.大数据时代的数据挖掘——从应用的角度看大数据挖掘[J].大数据,2015(4):57-80.
doi: 10.3969/J.ISSN.1672-7274.2019.09.011
中图分类号: TP391,TN919.5
文献标示码: A
文章编码: 1672-7274(2019)09-0020-02
作者简介: 许经伟,男,汉族,1985 年生,学士,高级工程师,中国电信股份有限公司安徽分公司企业信息化部从事数据挖掘、大数据建模研究。
标签:大数据论文; 运营商论文; 电信论文; 风控论文; 中国电信股份有限公司安徽分公司论文;