基于层次语义理解的电力系统客服工单分类论文

基于层次语义理解的电力系统客服工单分类

杨 鹏 刘 扬 杨 青

(国网天津市电力公司信息通信公司 天津 300000)

摘 要 随着信息技术的发展,电力系统中积累了大量的电力数据,其中客服工单数据占据着非常重要的地位。根据客服工单的描述内容进行分类有利于准确地定位客户需求,对于提升电力系统运行的质量和效率具有重要的意义。对此提出基于层次语义理解的电力系统客服工单分类模型。利用深度学习方法对工单描述文本中的词和字符同时建模,从而得到层次化的工单描述语义表示,进而基于此表示对工单类别进行划分。通过在真实数据上的对比实验可以证明该方法能够准确地学习到工单的隐藏语义表示,具有优于对比方法的分类准确度。

关键词 客服工单 文本语义理解 长短期记忆网络 文本分类

0 引 言

电力行业是国家最重要的基础行业之一,近几年,电力行业信息化得到了长足的发展,电力数据资源开始急剧增长并形成了一定的规模,这为实现数据驱动的电力系统智能管理和决策提供了数据基础。在海量多样的电力数据中,客服工单数据占据着非常重要的地位,对工单数据的分析也是电力系统智能化发展进程中的一个重要研究方向。客服工作是企业面向社会的窗口,它直接和用户交流,对于企业的生存发展起着至关重要的作用。电力系统作为关系到国计民生的重要行业,其客服工单数据记录了电力用户的基本诉求,而对用户需求所属的类别进行准确定位是提供良好客户服务的基础。高效的客服工单分类方法既可以提升用户需求定位的准确程度,也可以提升人员的工作效率,对电力系统的高效运行与管理具有重要的意义。

由于工单数据通常是以文本记录的形式描述用户的具体需求,因此如何准确地理解工单描述中所包含的文本语义信息是工单类别划分的核心,也是本文的重点研究内容,主要涉及到的方法是文本语义理解方法。文本语义理解[1]是自然语言处理中的自然语言句子级分析技术的第三个层次,是运用各种机器学习方法,学习与理解一段文本所表示的语义内容,它的最终目的是理解句子表达的真实语义。一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义解析又可进一步分解为词汇级语义解析、句子级语义解析以及篇章级语义解析。一般来说,词汇级语义解析关注的是如何获取或区别单词的语义,句子级语义解析则试图分析整个句子所表达的语义,而篇章语义解析旨在研究自然语言文本的内在结构并理解文本单元(可以是句子从句或段落)间的语义关系。简单地讲,语义解析的目标就是通过建立有效的模型和系统,实现在各个语言单位(包括词汇、句子和篇章等)的自动语义解析,从而实现理解整个文本表达的真实语义。基于学习到的文本表示可以进行文本分类[2]、情感分析[3]、文本匹配[4]等任务。

近年来,国内外已有多名研究人员在电力业务数据文本语义理解方面做出了工作,并且取得了一些成果。MIT的Cynthia等学者对纽约城市电缆的数万条故障工单进行了挖掘,为检修井的巡视提供帮助[5]。Sun等[6]对社交网络(Twitter)中关于停电的文本进行了挖掘,为电网的风险管理提供了一种辅助手段。美国南加大某课题组对智能电网的语义网进行了定义,为智能电网与互联网的信息交换与共享提供了技术支持[7]

随着电力系统中所积累的数据规模逐渐扩大,基于文本语义理解的电力工单分类任务也成为很多研究工作的重点内容,有很多学者针对该问题展开深入研究,并且取得了很多研究成果。林溪桥等[8]利用主成分分析方法对具体工单内容与时间维度之间的关系进行分析,实现客服工单分类模型的优化。王震等[9]提出一种基于LDA的热点业务工单分类模型,通过对工单文本的主题进行学习实现热点业务工单的分类筛选。邹云峰等[10]首先对电力工单中的文本进行预处理,并通过计算TF-IDF值的方法获得文本表示,最后利用决策树模型实现工单分类。而随着神经网络语言模型的兴起,谢季川等[11]利用Word2vec模型学习工单文本中的词向量表示,进而得到文本的语义表示用于工单分类[12]

综合上述研究工作可以发现,现有的方法大多是利用主成分分析[7]、主题模型[8]或计算TF-IDF[10,13],从而进行主题或者词级别工单语义分析。这种方式通常停留在对文本浅层特征的表示学习,而缺乏细粒度,深层次的语义理解,这种浅层的表示方法难以全面地捕获工单描述中所蕴含的隐藏语义信息,从而导致分类性能的下降。只有对工单描述文本进行准确的理解,才能更加完整地表示其中蕴含的语义信息,实现工单类别的准确划分。

两人结婚的时候,大水已经过去一个多月。那天早晨,表姐就穿着那件侉大侉大的中山装,胳膊底下挎着一个红绸子包袱,走进了新房。新房是一些碎砖头垒起来的小庵棚,外面潦草地贴了个喜字。李石磨在门口放了挂小鞭炮,表姐清扫走门前的树叶草棍,这婚,就算结了。不发大水也奢侈不起来,那个年代,革命化的婚礼都简单。

针对上述问题,本文提出了基于层次语义理解的电力系统客服工单分类模型(简称:CHSU)。对于工单描述中的文本记录,分别利用深度学习方法对词级别特征表示和字符级别特征表示进行学习,将不同层级的表示相结合实现对工单描述的深度语义理解,学习到工单文本的细粒度、层次化的深度语义表示,从而实现精准的客服工单的类别划分,提升分类的准确性,进一步提高电力系统运行的质量和效率。

1 模型构建

客服工单记录了电力客户所提出的用户需求,通常包含自然语言形式的、长度较短的工单短文本描述以及该条工单所属的服务类型。根据数据的特点,本文基于工单描述短文本实现工单类别划分。考虑到工单描述通常是由多个词组成的,而词是由多个字符组成的,因此为了学习层次化的工单描述的语义表示,本文首先利用双向长短期记忆网络(LSTM)对每个词中的字符进行编码,得到字符级别的隐藏特征表示。进一步,将字符级别的表示与词级别的表示相结合,利用类似的双向LSTM网络进行词级别的语义编码,最终得到关于工单的层次化深度语义表示向量,并在此基础上实现工单类别划分。本文所提出的模型框架如图1所示。

图1 基于层次语义理解的电力系统客服工单分类模型

1.1 长短期记忆网络(LSTM )

长短期记忆网络[14]是一种循环神经网络特殊的类型,适合处理和预测时间序列中间隔和延迟相对较长的情况。LSTM利用三个“门”结构对细胞状态进行保护和处理,分别是输入门、遗忘门和输出门,其中门结构是通过Sigmoid函数和按位乘操作实现的。Sigmoid函数的具体计算方法如下:

(1)

Sigmoid层输出0到1之间的数值,代表有多少量可以通过,1表示允许任意量通过,0表示不允许任何量通过。在第t 个时间步,LSTM中各部分的具体计算过程如下:

f t =σ (W f ·[h t-1 ,x t ]+b f )

(2)

i t =σ (W i ·[h t-1 ,x t ]+b i )

(3)

(4)

(5)

o t =σ (W o ·[h t-1 ,x t ]+b o )

(6)

h t =o t ·tanh(C t )

(7)

CHSU-Nochar:本文所提出的方法的退化版本,即仅使用词级别的语义表示对工单文本进行建模。

LSTM首先是通过遗忘门丢弃信息,遗忘门会根据x t 和h t-1 决定哪一部分记忆需要被遗忘。利用式(2)可以得到f t 。其次是确定在细胞状态中存储哪些新信息,主要包括两个部分。一个是通过输入门i t 决定哪些值将要更新,另一个是通过tanh函数创建一个新的候选值向量加入到状态中。

该函数值代表了特征x 划分为类别j 的概率。因此工单分类的损失函数可以写为如下负对数似然函数的形式:

接着更新细胞状态,将上一时刻的状态C t-1 与f t 按位相乘,那么f t 取值接近0的维度上的信息就会被“忘记”,而f t 取值接近1的维度上的信息会被保留,从而遗忘需要丢弃的信息,接着加上生成新的状态C t 来保留需要记忆的信息。

最后,输出门会根据C t 、h t-1 和x t 来决定该时刻的输出h t 。其中,包括计算一个sigmoid层来确定细胞状态的哪个部分将被输出。接着把细胞状态通过tanh层进行处理,得到一个在(-1,1)范围内的值,并将它和Sigmoid门的输出相乘,得到输出部分。

式中:l 为工单d 的服务类型标签。通过最小化上述损失函数,实现整体模型的训练。

1.2 字符级别语义表示

工单描述文本是由词组成的,而每个词又包含多个字符,为了捕获文本中细粒度、层次化的语义表示,因此首先对字符表示进行建模。由于中文文本中的词不能像英文一样可以用空格进行分隔,因此在进行建模之前需要使用工具,例如jieba分词对工单文本预处理。对于工单描述中一个词w i ,假设其包含Q 个字符,将每个字符随机初始化为一个特征向量c iq ∈R dc ,其中q ∈[1,Q ],d c 代表字符特征向量的维度。对于该词中所有字符的特征向量,本文使用LSTM对其进行编码,学习隐藏的语义表示。而由于一个LSTM只能从一个方向进行计算,而不能建模另一个方向的语义,因此这里使用双向的LSTM来总结两个方向上的字符级别语义信息,从而获得对应的语义表示。双向LSTM包括一个前向的LSTM,它对工单的读取顺序是从c i1 到c iQ ,以及一个反向的LSTM,它对工单的读取顺序是从c iQc i1 。该编码过程的具体计算方法如下:

(8)

(9)

对于词中第q 个字符,我们将前向的隐藏状态特征和反向的隐藏状态特征进行拼接,得到其整体的隐藏表示,即该表示包含了该字符整体的上下文信息。通过将该词中所有字符的隐藏表示求平均,可以得到关于词字符级别的语义表示w ic

由于信息安全专业的交叉学科的特点,要求的基础知识面较宽,对于基础课程的设置必须慎重斟酌。应用型高校比较侧重于培养学生的实践应用能力,在课程体系的设置上应注重系统性和发展性,秉承“厚基础、重实践、强能力”应用型人才培养理念,既能快速适应企业岗位,也能保证足够的发展后劲,以案例教学、任务驱动式教学为主,培养问题的创新解决者,实现学生到职业人的渐进式蜕变,课程设置体系如图3所示。

(10)

1.3 词级别语义表示

Word2vec-SVM:Word2vec是一种将单词转换成向量形式的工具,可以将文本内容的处理简化为向量空间中的向量计算。该方法首先利用Word2vec训练得到工单文本每个词的词向量,并对词向量求平均得到工单的特征表示,然后基于该特征向量表示利用SVM进行工单分类。

w i =[w iw ,w ic ]

针对该特征,本文使用与上文类似的双向LSTM进行编码,具体计算方法如下:

血友病患者的身体各个部位都有可能发生出血,关节出血的发生率最高,占所有出血的70%~80%[5];肌肉出血次之,常见于腓肠肌、股四头肌、髂腰肌及前臂肌群;内脏出血(如腹膜后、肾脏、脾脏及消化道出血)较少见但病情较重;颅内出血是血友病患者最危重的出血,患者预后差、死亡率高;皮下、鼻、口腔、咽喉及眼等特殊部位也可能发生出血[6]。血友病出血及并发症涉及全身各个系统、各个器官,仅凭血液科难以完全胜任血友病患者综合、全面而系统的治疗,需要多科协作诊断和治疗。

(11)

(12)

同样将前向的隐藏状态特征和反向的隐藏状态特征进行拼接,得到该词整体的隐藏表示,即该表示包含了词w i 整体的上下文信息。将上述的每个词的隐藏表示求平均,得到关于该工单整体的深度语义表示特征:

(13)

基于特征表示d 可以实现进一步的工单类别划分。

1.4 工单类别划分

通过上述模块得到的工单特征表示向量包含了层次化深度语义信息,因此该表示可以做为工单分类的特征向量。本文使用一个softmax层实现工单类别划分,具体计算方法如下:

本文所指的新生代农民主要是指出生于20世纪80年代与90年代,年龄在16岁以上,在异地以非农就业为主的农业户籍人口。

p =softmax(Wd +b )

(14)

式中:W b 为待学习权重矩阵和偏置向量。softmax(·)函数为归一化指数函数,其形式为:

(15)

文化即“人类化”、“自然的人化即文化”。《辞海》这样解释休闲:“农田在一段时间内不种植物,借以休养地力的措施”。现多指人通过休息,身心放松,解除疲劳,自由自在,做自己喜欢做的事甚至是闲着不做什么,表现为一种生活方式和生活态度。它指的“是一种从外在压力下解脱出来、能以自己喜爱的方式活动并从中体验到愉悦和价值的相对自由的生活。”“休闲文化就是使人回归人的本性、使人成为人的休闲活动及其要素的总和。”就休闲文化视野下的书法,笔者以为其有以下四个特征:

(16)

北京白领人群总体心肺耐力水平低,正常36例(36.4%),减低63例(63.6%)。大量体力活动者peakVO2/Ref≥84%比例最高(75.0%),体力活动不足者peakVO2/Ref<84%比例最高(89.3%)。见表1。

2 实 验

2.1 数据简介

本文利用真实的工单记录数据对所提出方法的效果进行验证。数据采集自国网电力公司客服系统,记录了一段时间内该客服系统所收集到的工单内容。由于该数据为真实的电力工单客服记录,因此在录入过程中由于人为或系统的原因会存在部分信息缺失的情况,经过筛选,本文选择其中12 623条记录数据进行实验验证,每条记录包含一段中文文本形式的工单描述以及该条工单所属的服务类别,所选择工单分属于5种服务类别。

为了进行训练和调参,本文将整体数据集按照8 ∶1 ∶1的比例划分训练集、验证集和测试集,利用验证集上的实验结果作为调参的依据,并在测试集上测试模型的效果。

[6]Labour unrest is rising everywhere as economic growth slows.(2016-03-19)

2.2 对比方法

Word2vec-DT:该方法同样利用Word2vec模型得到工单的特征表示向量,并基于该表示利用决策树对工单类别进行划分。

TFIDF-SVM:TFIDF方法又称词频-逆文档频率算法,它通过计算词在文档以及语料库中出现的频率对词的重要程度进行加权。该方法首先利用TFIDF算法对客服工单中的文本信息进行特征向量表示,然后基于该特征向量表示利用支持向量机(SVM)进行工单类别划分。

TFIDF-DT:该方法同样利用TFIDF算法计算特征向量表示,然后利用决策树进行工单类别划分。

本文进一步对工单描述中词级别的语义进行学习。对于一个给定的工单描述D ={w 1,w 2,…,w T },T 代表工单D 所包含词的个数。将工单中的每个词随机初始化为一个特征向量w iw ∈R dw ,d w 代表词特征向量的维度,将该特征向量与字符级别的特征w ic 拼接,可以得到关于该词整体的特征向量表示,即:

在施工过程中,建设各方积极深入各个治理区域的治理方案和治理施工管理,各个治理区域施工完成之后进行分单元、分区域验收,在治理结束后,根据永久监测资料和试验检测资料所反馈的信息,对整个自然边坡的治理效果进行验收评价。

为了证明所提出方法的性能,本文将该模型与其他几种常用的工单分类方法的实验效果进行了对比,所选择的方法如下:

式中:x t 为当前时刻的输入,h t-1 表示上一时刻的输出,h t 为当前时刻的输出。f t 、i t 、o t 分别代表遗忘门、输入门和输出门,为候选值向量、C t 为当前状态。W *和b *为待学习的网络参数,分别代表权重矩阵和偏置项。

总之,调研结果总体较好,可以在一定程度上反映学校高层次人才的社会心理特征,特别是政治价值取向。但是反映出的问题也应引起重视,主要体现在:政治认同方面,受西方价值观念影响,部分海外引进高层次人才对社会主义制度有一定的疏离感,个人主义较强,参加党内活动不积极,对中华美德和传统文化认同度有待提高。价值认同方面,受到西方政治、经济和文化思潮的极大影响,有相当一部分海归人才对共产主义最终可以实现持无所谓意见。在对待虚无主义方面,极个别高层次人才对中国的历史文化持虚无主义态度。

本文方法(CHSU):即本文所提出的基于层次语义理解的电力系统客服工单分类方法,在该方法中同时对词和字符的语义进行建模,并利用一个Softmax层实现工单分类。

2.3 实验设置

本实验中所有的特征表示向量都使用随机初始化,其中词特征向量的维度设为300,字符特征向量的维度设为50。模型中所有权重矩阵同样是随机初始化,偏置向量初始化为0。由于数据较多,为了提升训练速度因此采用批处理的方式进行训练,batch的大小设为50。在参数优化过程中,本文选择Adam进行优化,训练的学习率设为0.001,最大迭代次数设为50。此外,本文在训练过程中引入dropout策略来防止出现过拟合的现象,dropout比率设为0.5。

2.4 评价指标

工单分类属于多分类问题,因此本文采用微平均F-Score(Micro_F )对分类的准确度进行评估,其具体计算方法如下:

在监督机制建设中要重点强化企业的成本监督和相关管理工作,要以成本作为监督的目标,理顺企业生产、管理的经济关系,从成本控制的角度构建起有针对性、可执行的监督平台和监督制度,真正将监督工作的重点放在对企业各项成本的控制工作上,提升企业成本管理、运营管理的效率,打造企业在生产、管理和经营上的经济、组织与成本优势。

(17)

式中:Micro_P 和Micro_R 分别为微平均准确率和召回率,通过化简可以简写为后面的形式,TP i 即为第i 类样本正确分类的个数,N 代表整体样本数。Micro_F 越大代表分类性能越好。

2.5 实验结果

基于上述实验设置,本文在真实的工单数据上进行工单分类对比实验,各方法在验证集和测试集上的实验结果如表1所示。

表1 工单分类实验结果

由表1中的实验结果可以看出,无论是在验证集还是在测试集上,本文所提出的基于层次语义理解的电力客服工单分类模型(CHSU)以及该模型的退化版本都具有优于其他对比方法的分类效果,其中CHSU相较于表现最差的Word2vec-DT方法在测试集的性能上有14.8%的提升,该结果证明了本文所提出方法的有效性。此外,CHSU的性能优于CHSU_Nochar,这证明使用字符级别的语义表示对于工单的语义理解是有帮助的,它可以使模型捕获到层次化的语义信息,加深对文本内容的语义理解,从而获得更好的分类效果。另外从其他对比方法的分类效果中可以看出,相同文本表示方法的条件下,使用SVM作为分类器的效果优于使用决策树,这说明相较于决策树,SVM更适用于本文所使用的工单数据。此外还可以看出使用TFIDF建模文本表示的结果整体优于使用Word2vec,这可能是由于本文所使用的工单数据通常长度较短,不利于Word2vec模型学习到足够的上下文信息,因此降低了模型的性能。

除上述对比实验外,本文同时对模型的参数敏感性进行分析。由于字符级别的语义表示在本文所提出的方法中扮演重要的角色,因此这里主要研究字符特征向量维度对模型分类效果的影响。图2展示了字符特征向量维度从10变化到100的过程中,Micro_F 的变化情况。

图2 分类性能随字符特征向量维度变化情况

从图2中可以看出,当字符特征向量的维度增加时,模型的性能在整体趋势上有所提升,但当维度大于50后,分类性能反而呈现下降的趋势,这是由于使得模型过于关注字符级别的语义而忽略了词级别的语义,从而导致性能下降,因此在本文的模型中将字符特征向量设为50,以达到最优的分类效果。

3 结 语

对于客服工单数据的理解和研究有利于电力公司更加高效的定位客户需求,从而提升工作效率和工作质量,具有很重要的现实意义。本文以电力公司客服系统的工单记录为研究对象,对工单描述中包含的文本信息进行了深入分析,并根据该数据的特点,建立基于层次语义理解的电力系统客服工单分类模型,同时考虑词级别和字符级别的语义表示,提升了模型的分类性能。

在电力系统的工单数据中还存在很多样本数量很少的服务类型,由于缺乏足够的训练样本,因此在建模过程中本文没有考虑此类工单,但事实上这些工单中也包含了大量的用户需求信息,因此在后续的研究工作中将对模型进行进一步的改进,使其能够建模这种数据分布不平衡的情况,达到更好的分类效果。

语文在我国教育中的重要性是不言而喻的,但是由于历史沉淀下来的文化包袱使得很多教师的教学思想和教学观念落后,一直停留在传统的填鸭式教学理念中。只是单纯性地负责教学生知识,不关心学生对知识的理解是否深入,同时他们的教学观念仅限于课堂,对学生课余和课后时间的学习漠不关心。这种落后的教学观念不利于教学合理化、科学性的设计和掌握,也不利于学生的长期发展和进步,阻碍了小学语文课堂有效性的发展。

参考文献

[1] Mackinlay J, Card S K, Robertson G G. A semantic analysis of the design space of input devices[J]. Acm Transactions on Information Systems, 1991, 9(2):99-122.

[2] 雷朔,刘旭敏,徐维祥.基于词向量特征扩展的中文短文本分类研究[J].计算机应用与软件,2018,35(8):269-274.

[3] 邢长征,李珊.文本情感分析的深度学习方法[J].计算机应用与软件,2018,35(8):102-106.

[4] 李连,朱爱红,苏涛.一种改进的基于向量空间文本相似度算法的研究与实现[J].计算机应用与软件,2012,29(2):282-284.

[5] Rudin C, Waltz D, Anderson R N, et al. Machine learning for the New York City power grid[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011, 34(2):328-345.

[6] Sun H, Wang Z, Wang J, et al.>[7] Zhou Q, Natarajan S, Simmhan Y, et al. Semantic Information Modeling for Emerging Applications in Smart Grid[C]//Ninth International Conference on Information Technology—New Generations. IEEE Computer Society, 2012:775-782.

[8] 林溪桥, 严旭, 黄蔚. 基于主成分分析法的95598客户服务工单分类优化[J]. 广西电力, 2017(4):10-12.

[9] 王震, 代岩岩, 陈亮,等. 基于LDA模型的95598热点业务工单挖掘分析[J]. 电子技术与软件工程, 2016(22):190-192.

[10] 邹云峰, 何维民, 赵洪莹,等. 文本挖掘技术在电力工单数据分析中的应用[J].现代电子技术, 2016, 39(17):149-152.

[11] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[EB].arXiv:1301.3781,2013.

[12] 谢季川, 宗振国, 刘宏国,等. 基于词向量模型的95598工单文本挖掘[J]. 电子世界, 2017(23):176.

[13] 李颢, 张吉皓. 基于文本挖掘技术的客服投诉工单自动分类探讨[J]. 移动通信, 2017(23):66-72.

[14] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.

POWER SYSTEM CUSTOMER SERVICE TICKETS CLASSIFICATION BASED ON HIERARCHICAL SEMANTIC UNDERSTANDING

Yang Peng Liu Yang Yang Qing

(Information Communication Company ,State Grid Tianjin Electric Power Company ,Tianjin 300000 ,China )

Abstract With the development of information technology, a large amount of power data has been accumulated in the power system, among which customer service ticket data occupies a very important position. According to the description content of customer service tickets is conducive to accurately locating customer needs, and is of great significance to improve the quality and efficiency of power system operation. In this paper, we proposed a classification model of power system customer service tickets based on hierarchical semantic understanding. The deep learning method was used to simultaneously model the words and characters in the tickets. A hierarchical semantic representation of tickets was obtained, and then the classification was divided based on this representation. The comparison experiment on real data proves that the method can accurately learn the hidden semantic representation of tickets, and has better classification accuracy than the comparison method.

Keywords Customer service tickets Text semantic understanding Long short-term memory Text classification

收稿日期: 2018-11-26。

杨鹏 ,工程师,主研领域:信息化管理。刘扬 ,助工。杨青 ,工程师。

中图分类号 TP3

文献标识码 A

DOI: 10.3969/j.issn.1000-386x.2019.07.039

标签:;  ;  ;  ;  ;  

基于层次语义理解的电力系统客服工单分类论文
下载Doc文档

猜你喜欢