摘要:针对传统投诉责任认定方法需要结合营销系统中的业务数据对用户申诉的内容进行分析等问题,研究了基于大数据技术的投诉责任认定系统及建设方法。在文本挖掘、图像识别与工单自动生成技术下,智能分析客户投诉数据,自动匹配关联系统数据,可以高效、简洁、实时地实现对责任认定工单的生成、发送、指派责任人等任务。通过在线开展投诉责任认定,缩短投诉责任认定周期,提高投诉责任认定规范度和优质供电服务水平。
关键词:客户投诉;责任认定系统;大数据技术
1 投诉责任认定系统总体架构
投诉责任认定系统采用B/S架构。遵循J2EE技术路线,应用面向服务架构(SOA),按照数据源层、网络层、数据层、支撑层和应用层实现多层技术体系架构,通过Web服务接口实现与其他系统的集成。根据业务需求,系统使用数据层,服务层和应用层三层架构模式。
1.1数据层
数据层使用oracle 11g软件。设计上划分为营销业务数据及投诉责任认定数据,同时采用外键关联及模块化数据对数据进行处理。
1.2服务层
服务层设计了业务关联服务,数据抽取服务,业务处理服务,数据统计服务和数据分析服务五个服务模块。通过JDBC连接池对应用层提供数据访问支持,同时通过Oracle JOB、PACKAGE等功能实现数据抽取统计及分析。
1.3应用层
应用层遵循省公司对于系统业务流程的要求,采用“一个流程”+“三个功能”的模式,设计包括投诉责任认定,投诉责任认定审核(市公司),投诉责任认定初审,投诉责任认定审核(省客服),投诉责任认定复审,投诉责任认定审批,业务报表,档案维护以及数据导入九个功能模块。
2 关键技术
2.1 文本挖掘技术
将数据挖掘的成果用于分析以自然语言描述的文本,这种方法被称为文本挖掘或文本知识发现。文本挖掘的主要过程如图2,包括:特征抽取、特征选择、文本分类、文本聚类、模型评价[1]。
基于文本挖掘技术,通过使用关键词抽取模型算法对系统中用户录入的大段文本进行关键信息提取,供业务人员查看文本中的关键信息,方便业务人员操作。
首先基于段落利用R语言进行文本分词处理,使用rmmseg4j包调用Java分词程序对语句进行分词,由于rmmseg4jz这个包发布在r-forge仓库上,所以同CRAN上发布的包的安装方法有些差异。除此之外,还可以利用基于smartcn方案的rsmartcn包进行中文分词的处理。
将段落转化为文本词后,由于文本是非结构化的数据,因此采用空间向量模型(VSM)来将文本转换成结构化数据。基于向量空间模型VSM,将用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点,通过计算向量之间的距离来判定文档和查询之间的相似程度。然后,根据相似程度排列查询结果。向量空间模型的关键在于特征向量的选取和特征向量的权值计算两个部分。选择不同的特征选择和权重计算方法,可以将文档转换为不同样式的VSM。本文选用词频-逆文档频率方法(TF-IDF,term frequency-inverse document frequency),其主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。设d是集中的文本,f是文本集的特征词,将词频标准化,计算方法如下:
表示某一个给定的词语在该文件中出现的次数;文档频率用DF来表示,代表文档集中包含某个词的所有文档数目,DF通常比较大,将其映射到一个较小的取值范围,用逆文档频率(Inverse document frequency,IDF)表示如下:
其意义在于,如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。词项的权重用来表示,计算公式如下:
通过计算可以将文档表示成n维的词项权重向量:。使用可以计算某个关键字在某篇文章里的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能,对责任认定自动生成工单的内容进行分析;精准定位至用户线上申述的业务工单,并对责任认定工单按区域分类,指定责任处理人,下发到该责任人处理。
2.2责任认定工单生成技术
通过决策树算法构建责任认定自动生成工单模型。由于用户投诉工单信息包含视频录像、pdf图片等,属于非结构化数据,要进行挖掘就必须将其转换成计算机能够识别的语言,所以必须对非结构化数据进行建模,常用的方法有决策树模型、概率模型、语言模型。
目前使用广泛并且简单高效的模型是决策树模型基本思想是将非结构化数据分为若干的特征项,通过特定的手段计算出每个特征项在非结构化数据中的结点,以代表训练样本的单个结点开始,如果样本都在同一个类中,则称为该结点的叶子,算法选择最有分类能力的属性作为决策树的当前结点,进而将整个结构化数据用以特征项的权重为结点和叶子来表示,根据当前决策结点属性取值的不同,将训练样本数据集分为若干子集,每个取值形成一个分枝,有几个取值形成几个分枝。针对上一步得到的一个子集,重复进行先前步骤,形成每个划分样本上的决策树。一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它,递归划分步骤仅当下列条件之一成立时停止:
(1)给定结点的所有样本属于同一类;
(2)没有剩余属性可以用来进一步划分样本.在这种情况下.使用多数表决,将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时也可以存放该结点样本的类别分布;
(3)如果某一分枝,没有满足该分支中已有分类的样本,则以样本的多数类创建一个树叶。
同时决策树模型的计算方法同样可以采用TF-IDF方法进行计算。
3结语
通过本研究的信息化手段,基于大数据下的图像识别和文本挖掘技术建立了投诉责任认定系统,有效提升了投诉责任认定的效率,解决了传统线下流转的局限性,能够自动识别需要进行责任认定的投诉数据,精准定位投诉责任认定最小部门,按职责权限流程化传递工单,为公司提升供电服务品质和服务形象提供决策支持。
参考文献:
[1]FELDMAN R,SANGER J.Text mining handbook:advanced approaches in analyzing unstructured data[M].Cambridge University Press,2006.
论文作者:李静 1,张雪梅 1,吴雪霞1,徐美玲1,王若晗1
论文发表刊物:《电力设备》2018年第27期
论文发表时间:2019/3/13
标签:数据论文; 责任认定论文; 结点论文; 文本论文; 向量论文; 样本论文; 模型论文; 《电力设备》2018年第27期论文;