电信运营商网络运维智能化的应用思路与实践论文

电信运营商网络运维智能化的应用思路与实践

欧阳秀平 林 敏 叶晓斌 刘惜吾

中国联合网络通信有限公司广东省分公司 广州 510627

摘 要 当前电信运营商网络运维工作主要依赖于维护人员定期执行维护操作,存在管理盲区、效率低下的问题。文章介绍如何应用人工智能技术解决该问题的方案。一是将自然语言处理相关技术应用于故障调度中,用以解决故障调度效率问题;二是将机器学习应用于网络拥塞控制预防及路径统筹优化中,通过预设特定的约束条件,可自动对拥塞业务路径做出调整;三是将计算机视觉相应技术应用于机房管理中,可有效解决人工巡检不及时,施工人员权限难管理的问题;四是利用机器学习算法,对网络关键指标的变化趋势进行自动检测,快速发现指标异常变动。文章认为智能化手段能为传统运维工作带来革命,应予以大力推广。

关键词 机器学习;调度优化;机房管理;异常检测

1 通信行业的网络运维的现状

当下通信行业整体来说对网络运维管理主要围绕设备管理、网络优化与网络安全管理方面。智能网络运维管理平台的建设存在很多问题,除了技术探索外,在意识上也需转变。比如,网络运维也许要进一步考虑日常业务实际运作过程与网络状态的关系。除运营商外,其他各传统行业都面临传统运营手段效率低下带来的问题[1]。因此,智能化网络运维的应用方案探索和研究价值潜力巨大,同时随着AI技术的不断发展,网络运维的管理逻辑和运营机制也将发生颠覆性的改变。

本文主要聚焦在网络运维的人工成本和运作效率问题上。网络运维主要可分为四大类工作,业务变更、故障修复、主动运维、服务请求。当前网络运维工作经历了集约维护阶段,正努力向自动化、智能化维护方向迈进。在实际生产中,网络运维工作的一项主要工作是维护各设备制造商(如华为、中兴等)提供的专用网元设备,网络运维工作的开展亦依赖于厂商提供的专用系统。除对设备维护外,另一项工作内容,对机楼与外线进行管理,主要依赖于维护人员进行巡查与流程管控。

随着第5代移动通信(5G)时代即将到来,新业务新网络给运维人员带来了巨大的技术挑战。网络运维的对象将不仅包括网络,还包括业务使能平台,以及面向行业领域的应用平台(IoT、新业务平台等)。5G时代,业务更加复杂,需要自动化和智能化程度更高的运维平台,对人员能力提出了更高要求。未来的网络是信息技术(IT)与电信技术(CT)融合的架构,网络通过软件定义网络控制器(SDN-Controller)、自动化业务编排等方式实现业务需求。

5G时代,新业务新网络对网络运维带来了巨大的成本挑战。当前,运营商维护人员单人维护量普遍在50~500台,而互联网企业一支几十人的团队,可维护数万甚至数十万级的设备量。由于低下的运维效率,随着网络规模的不断扩大,运营商网络运维的成本也在逐年快速增长。

如何创新开展运维工作,提升运营效率,进而降低网络运营成本,需要运营商认真思考。

2 智能网络运维可解决的四大问题

2)自定义中文分词能力:为准确识别用户意图,需要对一段完整语句进行分词,按照词的类别获得其中的有效信息。THULAC(THU Lexical Analyzer for Chinese)是由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。对于通用文字,可使用THULAC自带的语料库,同时对于运营商专有业务场景,需建立自定义的专业词库。

2.1 基于AI算法实现智能网络拥塞控制预防及路径统筹优化

拥塞控制与路径优化依赖于网络设备的转发队列健康指数,而指数可由网络设备变频推送。SDN控制器利用时间序列算法预测机制,对健康指数进行判断,确定是否存在拥塞预期。如图1所示,SDN控制和管理面同时可以对一段时期内的拥塞数据进行分类和聚类分析,识别经常发生拥塞的局部网络特征和用户使用模式,一方面可以应用于主动式定时定期或定条件的规律性局部调整,另一方面,可用于指导其他AI驱动的动作,如路径统筹规划等。在专线业务上,通过预制策略,实现网络故障的自愈能力。

一、神矮LS—1原种苗木 指导建立最先进的1 m矮化、全矮栽培苹果高端栽培示范园。绝不环剥环割,连年丰产,使苹果综合效益提高2倍以上。

图1 智能路径优化系统架构

文献[2-3]的研究提出其他人工智能算法用于网络运维的方向,包括网络覆盖、干扰、容量等关键质量指标的建模和预测等内容。文献[[4]对比了常规运维及系统运维的效率,充分证明智能化运维的有效性与可行性。

2.2 引入计算机视觉技术,实现智慧机楼管理

机楼是所有网络设备运转的基地,由于大量施工、修复工作的存在,不可避免地导致大量人员进出机楼。机楼管理的有效与否,直接决定着网络安全的根基是否稳定。当前,包括运营商在内的传统施工质量、故障现场、远程监督等工作仍然是粗放式的管理模式,这种管理模式已经逐渐不能适应日益庞大、复杂的网络运营需求。目前机楼管理工作存在一些比较突出的问题,主要表现为:

1)施工权限、施工过程、验收各环节耗费大量人力,未严格做到现场随工保证规范操作;故障现场使用电话远程指挥,抢修不顺畅;

2)机房安全准入把关,流程、保安不够严格;

3)机房内摄像头老旧、量少,导致监控视频模糊且覆盖面小,且缺乏有效分析工具,事后回溯的有效性急需提升。

在此背景下,手段单一、形式落后的基础网络管理已成为网络运营的痛点。为满足网络安全以及IT运营的要求,建设一个现代化的智能视频监控应用平台,解决信息滞后、被动、效率低、效果差的局面,是未来基础网络管理发展的必然趋势。深度学习的蓬勃发展极大地促进了计算机视觉领域技术的研究和应用,目前比较成功的深度学习的应用,包括人脸识别、图像问答、物体检测、物体跟踪等。通过将视频监控终端、AI智能分析系统、流程与管理系统相结合,可极大提升机楼管理效率,大幅降低人员消耗。基于这个设想,本文提出以下应用场景的技术方案思路,如图2所示。

1)施工审批环节:施工方通过终端进行申请后,后台上传相应人员的个人信息与照片等资料。系统收到信息后,自动与数据库中的资质名单进行数据比对,核实成功后自动完成人员验证。

3)基于特定领域的语义表示:在智能对话交互中,自然语言理解采用的是框架语义表示的一种实现,即采用领域(Domain)、意图(Intent)和属性槽(Slots)来表示语义结果。

图2 智能机楼管理系统架构

2)入局管控环节:通过人脸识别技术,自动放行已审核的人员进入机楼,并对非经审批的尾随人员进行识别并报警。进入机楼后,根据施工权限确定其可进入的特定机房,并完成施工人员报到。一般工程项目中,除施工人员,还需监理人员也在场就位。本文设计的系统监控逻辑将在施工时间到达后,自动核查是否所有人员到齐,若有人员缺失,则自动报警。

即以长横孔为起始灵敏度需要在仪器上提高26.5 dB,在=320 mm的缺陷相当于d4.5mm长横孔当量.

4)闭环管理,全部关键时刻可回溯,施工完毕还通过摄像头可进行远程确认。通过人脸识别与追踪检测,确保相关人员按时离开。

对农产品的开发需要进行不断地创新,在进行发展的过程中,对农产品的生产需要有很严格的标准,发展海南省自身的特色农业,对产权善于利用法律的手段来保护。一方面政府要加强宣传,提出绿色农业的建设,将品质、品牌作为农业发展的第一推动力;另一方面,种植户要积极响应号召,意识到旅游、农业的相互促进作用,注重农产品的无污染、纯天然属性。

通过以上技术的部署,本文预期可减少50%的现场随工与巡检人员消耗,降低70%以上的审批时长。受限于当前AI部分技术能力的发展,目前尚无法对机房现场人员的精确行为进行管控。比如本文尚无法监控到人员是否按照要求佩戴静电手环、穿戴鞋套等,是否按规范的施工动作进行操作。后续,将尝试部署精细化物体识别能力,使得系统可识别指定的物品。同时,未来本方案将推广至更多应用场景,如为客户提供重点机房区域保障工作等,为客户提供增值服务。

图3 基于机器学习的规则挖掘

2.3 基于集成学习算法和LSTM模型,实现智能异常检测定位

基于机器学习算法可进行异常事件检测,快速发现业务异常,规避一些无常规告警、人为操作等引起的业务异常,相关的研究在文献[5]也有提出。本文通过使用时间序列+集成学习算法或LSTM模型,对流量、用户量等关键指标进行趋势变化预测与突变预测,基于3-sigma等算法进行异常判断,确认是否出现业务异常。

向100 mg的干基淀粉中加入1 mL的无水乙醇和9 mL的1 mol/L的氢氧化钠溶液,在100 ℃条件下加热10 min让其完全溶解。冷却至室温后,将淀粉溶液稀释至100 mL。向其中取2.5 mL与25 mL的去离子水混合,然后加入0.5 mL的1 mol/L醋酸溶液和0.5 mL的0.2%的碘液,最后用去离子水定容到50 mL。使用UV-3802型分光光度计在620 nm波长下检测。根据直链淀粉与支链淀粉纯品制作的标准曲线计算样品中直链淀粉的含量。每个样品测三次。

与传统的被动式异常发现相比,主动式异常检测可使异常事件的发现时间,从小时级缩短为分钟级,同时结合根因定位,降低50%以上的故障恢复时间。本方案目前面临的最大问题是数据集缺少标注信息。告警、日志均为独立事件类信息,现有生产环境中并没有储备大量的故障根因类的标注。本文将这些信息进行聚类、运算得出的根因判别难以有大量验证集进行验证。同时,根因判定必须结合人工标注与知识库,才能进一步指导下一步的自动化生产工作,如故障自愈等。

本文基于机器学习的思路,提出了一种自动实现根因定位及故障溯源的方法,如图3所示。首先搜集网络设备相关日志、告警等信息,其后将相关信息进行去重、去噪、聚合,并进行二值化、时序化处理,融合已有专家规则、因果关联算法分析,离线构建事件之间的因果关系,可形成有向无环图。将构建的模型部署在网管系统中,可实现在线根因推断。

传统营销模式下,催费需要供电营销人员到用户现场进行停复电管理,因此,在营销人员外出工作企业需要指出相应的人工费用和交通费用,而采用了基于费控策略的营销模式,营销业务平台会自动完成电力用户的停复电功能。为此,采用了费控智能营销手段后,可为电力企业节约大量的开支,以一户电力客户为例进行分析。

2.4 基于语音识别实现对监控与指挥调度系统的效率提升

4)多轮对话支持:人机对话中用户陈述的需求会首先被机器确定最终意图,然后根据用户陈述的需要进行词槽解析(词槽是多轮对话过程中将初步用户意图转化为明确用户指令所需要补全的信息),根据解析出来的槽位分析出关键字,通过机器深度学习来判断提供的关键字是否能够明确指令,如果指令不明确,那么由话术澄清模块以及机器学习模块来向用户发出提问,从而获取必须要的关键字信息。

通过应用语音识别、分词、基于相似度的语义匹配等技术,结合知识库,可实现人机多轮交互对话。该技术应用于监控、指挥调度系统,可提升监控工作和故障质检工作的自动化程度,减少现场人员的工作量。以下是本方案所依赖的几项关键技术。

3)施工过程管控:通过将可移动摄像头移动至施工区域,实施智能监控施工人员状态。对于施工中的监理人员缺失、非允许区域触碰等行为,将进行告警。同时,通过人员的移动追踪,记录机房内人员的行动路径,对于非允许的位置移动将进行预警。

1)通过语音识别技术,实现对语音输入的识别并转换为文字。

在Arneis看来,三年说快不快,谁能知道三年后自己的工作状态、家庭生活、精力会发生什么变化,而且这三年期间,产区知识也在不断更新,学习也需要随之进行调整,他相信“考试要趁早”,最好集中精力用两三年去考。“我今年就遇到两位考MS的美国人,一位考了8次,一位考了9次,用了八九年的时间去考试,跟他们聊天时,你会感觉到他们很痛苦,每次都是差一门不过,很折磨人,最后其中一个放弃了,他没法再去考了,年纪也大了,快50岁了。”

随着人工成本和响应效率需求的不断增加,智能网络运维最迫切需求解决的问题是:1)网络故障处理效率问题;2)机房监管效率问题;3)异常检测定位效率问题;4)指挥调度效率问题。以下是对各项问题的解决思路的阐述。

回看当时,2008年真的是全画幅相机井喷的一年。同年尼康也推出了D700,这款相机性能强大,并且耐用稳定,在推向市场后获得了不错的反馈。作为与5D Mark II对抗的机型,虽然D700性能当时算是出类拔萃,但由于尼康在全画幅市场上由于起步稍晚几年,份额还是稍许落后于佳能。

教师是教育事业发展的基础,是提高教育质量、办好人民满意教育的关键。教师每五年一周期的继续教育学习,在教师的专业成长中发挥着至关重要的作用。而课程则是教师继续教育这个宏大系统中的核心要素,也是开展教师继续教育活动、实现教师继续教育目标的载体,更是统整“碎片化”教研活动、提高教师职后教育质量、促进教师专业成长的重要节点。区域教师培训机构的使命之一是立足教师的专业发展,不断完善“研修一体”课程体系,开展教师研修课程创新的实践研究,提升研修的专业化水平。

传统的网管监控工作,需要依赖监控人员同时关注多个系统,监控各项关键指标或事件。当需要进行综合调度与判断时,往往需要依赖于监控人员的查看结果。由于对监控人员的依赖,会导致较多人工成本的支出,同时效率、准确度都存在极大的提升空间。

5)知识库的构建:通过获取网络原始数据、工单等信息,基于文本相似度算法(无监督)、隐马尔科夫、条件随机场等分词算法,实现实体识别。将实体关系抽取出来,词性标注、句法分析、构建分类器如SVM对关系进行分类,最后,形成实体-关系-属性的知识库。

通过语音识别、语义理解、多轮对话能力的建设,本文可以提供自助的智能查询方式,让故障处理人员无需再咨询现场各种支撑人员,提高端到端闭环的工作效率,打造智能化、高效率的少人甚至无人值守网管监控大厅。未来,该能力将与客服系统打通使用,更好的支持客户服务工作。

聚氨酯防水涂料以异氰酸酯与多元醇、多元胺以及其他含活泼氢的化合物进行加工,生成的产物含氨基甲酸酯,因此被称为聚氨酯。聚氨酯防水涂料是防水涂料中最重要的一类涂料,无论是双组分还是单组分,都属于以聚氨酯为成膜物质的反应型防水涂料。

金融精准扶贫是推进脱贫攻坚的重要一环。近年来,贵州省积极推进金融精准扶贫工作,构建普惠制金融精准扶贫体系,对贫困群众和扶贫项目给予全面的金融支持,定向精准配置金融资源,创新完善金融服务,激发贫困对象的内生发展动力,为实现稳定脱贫和可持续发展积累了重要“扶贫试验”经验,探索了金融精准扶贫的“贵州模式”,有力地推动了全省脱贫攻坚的顺利开展,得到中央的肯定。

3 AI技术应用的优化思考

电信领域智能运维面临三大挑战:算法的挑战、数据同源的挑战、生产和运营分离的挑战[6]。这个结论值得本文深度思考,也让本文意识到运营商如果要做好智能化运维,需要建立全面的智能化体系,夯实数据资源基础,主要的举措包括以下几点。

1)夯实数据基础。现在的网络数据,数据格式混乱、数据存储不集中、缺失数据标注,仅可称为“大量数据”,远远不能称之为大数据。运营商亟需建立有效的数据管理体系,实现采集存储集中化、格式规范化、标注有效化。

2)AI无法独立发挥价值,需要基础能力的支撑。AI是决策的大脑,云、大数据、SDN等基础核心能力是手,二者结合起来,才能发挥其智能决策的“大脑”作用。因此,在迈向“智能化”的路上,要考虑系统化的能力建设,注重“自动化”、“平台化”网络能力构建。

3)AI技术有其局限性,且对场景较为敏感,不同的场景所需的算法模型会有极大差别。整个行业的研究也仍处于早期,运营商应该尽早尝试应用的部署,由点至面,逐步尝试。例如对于智能化故障定位,首先可聚焦于业务异常的快速发现,其后可逐步实现故障的模糊定界,最终探索故障的根因定位,进而实现部分故障的自动愈合。

4 总结

无人值守化运维,是运维智能化的终极目标,然而它并不可能在短期内实现。在终极目标实现前,本文要做的是,发现问题早期特征与规律,实现问题根因的快速定位,从而先于用户发现前恢复正常服务, 避免对业务造成重大影响。

伴随着人工智能发展的浪潮,本文在管理手段优化、网络智能优化、故障根因定位等方面,引入语音识别、图像识别、基于数据的决策与规划能力,从而实现运维效率的大幅提升,运维成本的大幅下降。AI的分析与决策能力与SDN网络控制能力相结合,在夯实内部基础后,未来可在客户服务方面进一步挖掘其价值。

下一步,本文将深化各方面的研究与探索,重点攻关跨专业跨域的故障根因分析、单客户级的异常问题定因、隐患的智能预测、基于图像识别的现场设备资源勘查与录入的能力。

参考文献

[1] 门佩玉.智能化网络运维管理平台的研究与实现[J].中国管理信息化,2017,20(2):62-63

[2] 王西点, 王磊, 龙泉, 等. 人工智能及其在网络优化运维中的应用[J]. 电信工程技术与标准化, 2018, 250(07):86-91

[3] Vigneri L,Liakopoulos N,Paschos G S,et al.Model-Driven Artificial Intelligence for Online Network Optimization[EB/OL].[2019-01-30].https://arxiv.org/abs/1805.12090

[4] 李锐.基于无线通信网络的智能化专家运维系统研究 [J].电子技术与软件工程,2016(12):43-45

[5] 陈重韬,盛红雷,张实君,等.基于机器学习的智能运维预警系统[C]// 2017智能电网新技术发展与应用研讨会论文集. 2017

[6] 杜永生.智能运维,基于自学习的自动化运维[J].信息通信技术,2018,12(01):8-14

Thinking and Practice of Network Operation and Maintenance InteIIigence in TeIecom Industry

Ouyang Xiuping Lin Min Ye Xiaobin Liu Xiwu

China United Network Communications Group Co., Ltd., Guangdong Branch, Guangzhou 510627, China

Abstract At present, the network operation and the maintenance of telecom operators mainly rely on maintenance personnel to perform maintenance operations on a regular basis. There are problems in management and inefficiencies, which would bring considerable losses to operators every year. Firstly, the natural language processing technology can help solve the problem of fault scheduling efficiency. Secondly, to apply machine learning to network congestion control prevention and path optimization, it can automatically adjust the congestion service path by presetting specific constraints. Thirdly, applying computer vision technology to the management of the computer room can effectively solve the problem that the manual inspection is not timely and the construction personnel's authority is difficult to manage. Finally, it can automatically detect the changing trends of the network's key indicators and quickly detects abnormal changes in indicators by using machine learning algorithms. By evaluating the application effectiveness of the above four cases, the intelligent means can bring revolution to the traditional operation and maintenance work and should be vigorously promoted.

Keywords Machine Learning; Data Center Management; Scheduling Optimization; Abnormal Detection

作者简介

欧阳秀平

信息化事业部总经理,中国联通广州软件研究院负责人,中国联通集团科学技术委员会委员、产品和品牌专家委员会委员。

叶晓斌

广东联通技术总监,广东联通互联网、移动承载网的主要架构设计者,现主要从事网络AI智能化、网络SDN/NFV研究与实践。

林敏

信息化事业部副总经理,博士。主要负责移动通信业务研究和互联网产品建设运营等管理工作及国际标准化技术规范研究等。

刘惜吾

硕士,中级工程师,现主要从事智能网络维护、AI在网络中的应用规划与实践工作。

标签:;  ;  ;  ;  ;  

电信运营商网络运维智能化的应用思路与实践论文
下载Doc文档

猜你喜欢