摘要:随着数据中心的数据量正在以爆炸方式迅猛增长,数据类型已不仅限于关系型数据,这标志着我们已经进入了大数据时代,但数据量庞大,数据质量不高,为日常业务的开展以及正常的运营管理都会产生很大的风险。根据电力企业对大数据存储中心电力营销数据质量的要求,基于大数据存储架构中数据,梳理出针对电力营销业务的关键性数据项及数据项之间的逻辑关系,并形成电力营销大数据的数据质量校验与核查算法,为业务系统优化及提升数据质量,加强电力营销大数据分析与决策能力提供支持,从而提升营销客服的精益化管理水平。
关键词:客户服务;大数据;数据逻辑;数据质量
引言
电网大数据是电力企业的核心资产,能给公司带来巨大的社会价值和经济价值,大数据平台建设与应用挖掘成为公司新型信息化模式构建的关键点。近年来相关信息系统特别是电力营销系统经历了数次扩展升级,导致系统功能越来越庞大,数据关系越来越复杂,且存在部分数据录入不规范,数据质量不高的情况,一旦发生数据问题缺乏核查方式及验证手段,势必给我局大数据平台的数据精细化分析带来不利影响。因此,为保障大数据存储中心输入数据的质量,提高数据来源的有效性和准确定,急需对大数据平台内、外部关键性业务数据的逻辑关系进行分析与研究,明确不同业务系统间数据的逻辑关系,形成数据的业务规则文档,为关键数据质量排查提供科学的验证方法,保证大数据平台数据质量,从而提高电力企业数据质量和营销客服的精益化管理水平。
1.系统建设思路
1.1现状分析
目前企业级的数据中心的计算与存储资源已接近枯竭,并且在信息化高速发展的今天,业务系统所产生的数据量和数据种类也在成倍式增长,普通的关系型数据存储已经无法满足日益更新的业务需求,因此需要大数据服务平台为企业提供更好的数据存储服务。为了提供模型统一、流程规范、全景接入、实时监控等高效的数据服务,需要提高电力企业的业务数据服务质量。
基于Hadoop技术,研究如何构建企业级大数据存储中心与数据质量服务平台,在现有数据优化治理的工作基础上,以提升大数据应用与服务质量为目标,提高数据服务质量,并将数据中心提供的数据及接口统一作为数据服务,需理清数据服务的输入和输出。包括相关的数据接口和数据清洗转换规则与过程,以及数据服务部门署的硬件和软件平台资源。
目前以营销系统数据为例ODS数据量约500G左右,数据仓库中的数据量约200G左右,年均增长100G左右并有加速趋势;目前数据库中的业务库表约1300张数据表,本次需要数据清理的业务库表约为118张,清理字段747项。其中可能会面临以下问题:
1.同一数据存在多个数多源、统计口径不一致;
2.数据体量大质量参差不齐,数据冗余情况较多,部分数据无业务系统支持,缺乏统一的规范、标准和明确的数据问责;
3.数据量大检索效率不高,目前各大业务系统每天的数据增长非常快,少则几百兆,多则几个G。如此庞大的数据量中,如果没有一个规范的校验规则很难对保证数据校验效率。
4.大数据中心建成后缺少一种可对大数据中心的整体监测与管控工具。
1.2设计思路
数据源层我们采用大数据的技术将各大系统的源数据接入我们的大数据平台进入HDFS存储。
在存储层利用列式存储引擎Holodesk可以直接构建我们的数据仓库和主题分析层,兼容现有的SQL以及常用Operator和UDF,使数据集市交互式分析性能大幅提升。
计算层利用大数据的数据检索与全文检索技术,并基于业务系统数据字典、外围系统数据字典及数据模型设计说明书分系统发掘不同业务系统中数据之间的逻辑关系,形成相关的业务规则文档,将规则转化为可执行语句后发送给分步执行引擎,利用分步执行引擎的强大计算能力计算分析存储的数据中是否存在不符合规范的数据。
展示层是通过大数据 YARN技术将多个校验规则按时间、频次,按先后顺序进行调度执行,最后的校验结果用UDP平台构建可视化展示应用。
2.技术实现方法
2.1向量化计算引擎
在本项目技术架构中的执行层中引入了向量化执行引擎Windrunner,这是一种针对数据校验的高性能分布式计算引擎,可以高速地读取列式存储数据,进行快速计算。
传统大数据执行引擎通常采用标量执行的方式,不足在于当处理数据比较密集的运算时,CPU用于计算的利用效率较低。
向量化执行引擎将一次一行的处理方式改变为一次一列,当构建于选用列式存储方案的系统中时可以充分利用CPU的计算能力,对于像按字段列进行规则校验这种数据较密集的计算场景实现大幅的速度提升。有效的将硬件的强大计算能力转化为软件生产力。
总体而言,Windrunner通过采用向量化的处理方式获得了以下特性:
●通过批量的操作降低解析、传输等操作的开销。
●借助数据向量化的特点,利用CPU SIMD指令集加速。
●通过向量化算法提升系统并行化效率。
●通过实现向量化算子来最终实现SQL编译模型。
图1:总体设计架构
2.2引入大数据全文检索技术Search SQL
在大数据量的数据检索中,如果要保证检索效率就必需用到API的交互接口,用户在检索时必须掌握REST API、query的写法,甚至是只有在对API底层技术比较熟悉的情况下才能写出高效的查询条件,使用成本比较高,运维起来也比较麻烦。
为了解决这一问题,我们引入了Search SQL技术,支持通过更为通用的数据查询语言SQL,进行全文检索,很大程度上提高了大数据平台的易用性,减少应用开发成本。通过Search SQL实现全文检索的过程分为两步:
第一步是为文本指定分词器,根据指定分词器对待查询文本进行分词,生成倒排索引,对文本数据进行标准化,使文本分词后的每个单词都可以查询。这一步通过SQL语句在建内表时对列指定分词器实现。
第二步是进行查询,将查询条件根据与倒排索引相同的分词器分词,以同样的标准进行规范,再与倒排索引相匹配,返回符合条件的记录。
当从大量的文本数据查询短语或单词时,标准SQL只能通过形如like %word%的语句来实现查询,然而like操作符计算量较大,处理速度较慢,且SQL只能对检索提供较为单一的语义。相较于传统的模糊查询,使用Search SQL进行检索不仅可以提升查询性能,还定义了多种模糊查询的语法。
3实现过程
依托大数据平台以科学的技术手段开展数据质量治理,并对整改实际情况进行及时监控形成闭环处理,实现数据质量的持续提升,闭环的处理过程包括规则梳理、规则评审与固化、规则验证与整改、数据监控四大环节。
3.1校验逻辑规则梳理
各单位针对发现的问题数据进行业务效验规则的上报,将根据各单位反馈的问题,分析当前效验规则,按照规则问题和脚本优化问题分类整理出指标分析结果,重新对规则进行核查完善。整理成果如下:
3.2校验规则库建立
(1)采用大数据的HDFS存储技术,并在存储层上构建数据逻辑规则库,将数据校验逻辑固化到大数据存储中心。
(2)利用Inceptor的向量化计算引擎进行逻辑规则数据计算,其校验的结查保存于大数据存储平台之上,并利大数据平台查询技术构建数据逻辑校验问题分析
(3)通过 YARN定时调度技术,构建自动化的数据监控流程,无需人工参与,实时的进入到大数据中心的数据质量进行监控。
3.3问题数据整改
营销数据质量提升实施数据普查及完善的重要工作是做好数据质量评估及整改工作,除建立相应的组织保障考核措施外,制定合理有效的数据提升、整改方案及数据提升流程也很重要。
为了加快数据质量整改提升效率,可将共性问题数据进行人工批量更新,如编码不统一,数据类型缺失等问题。整改类数据需各单位人员完成问题数据的普查,根据结果对于数据量较小可以通过系统整改的为提高整改效率进行前台系统录入,数据量较大的可通过信息管理流程批量修改,如低压用户的计量方式为高供高计等问题。数据核查流程中需相应数据审核人员严把质量关,保证核查数据的完整和准确。
3.4问题数据监控
对数据整改、数据质量评估等过程累积的各种信息进行汇总、梳理、统计和分析,形成分类统计结果。然后根据选定的关键业务、关键指标的数据质量进行对比和分析,将对比分析结果集中展示,全面掌握营销系统各类数据质量状况,并生成对应的数据质量对比分析报告。通过数据质量对比分析报告更容易发现数据问题,有利于体现差距、总结经验、沉淀知识、改进方法和提高营销数据质量问题的处理能力。
4.成果成效
为了核查接入的电力营销数据是否符合数据质量要求,提升数据使用效率;数据质量核查小组从数据逻辑核查、业务指标溯源、数据资源共享三个方面对营销数据进行梳理,梳理结果如下:
数据逻辑核查业务库表118张,梳理字段2754个,梳理核醒规则747个,经过大数据系统的规则固化与一个月的规则校验,清查出问题数据5777条。按照目前业务系统的业务需求,将核查整改后的数据资源共享,共享资源共118张库表,字段2754个,并将字段建立数据资产模型与数据应用属性标签,提供模糊搜索字段功能,应用于客户属性标签体系,实现客户属性标签智能化生成,便于业务人员自主应用业务数据提供基础功能。
通过以上的成果梳理达到了项目立项时的建设意义,主要体现为:
●解决了因多年系统改造遗留的数据问题。提升业务数据可用性,规范性,提高业务系统实用化水平,支撑数据挖掘模型构建,提高数据分析准确性。
●解决了在大数据存储中的数据融合与治理问题。实现了数据标准统一、共享融合、快速定位,强化数据跨业务融合分析和共享交换能力,同时也为了解数据异常点提供追根溯源的分析工具。
●为数据资产目录的应用打下基础。以数据资产管理信息化为支撑手段,为提升数据资产管理效率和效果提供技术保障。
5.总结展望
本项目有助于为供电企业提供高质量的营销或其它业务数据,有助于大数据平台精准分析和精细化分析,符合供电企业自身发展的需要;数据质量提升有助于开展差异化营销服务,提升营销客服的精益化管理水平,有效支撑客户服务中心日常工作。同时研究成果将用于不同业务系统间营销数据质量排除及验证,帮助管理人员发现数据错误,快速判定错误数据源头。
从管理效益看可提升业务人员对数据参考性、可操作性;提升业务人员对异常指标分析效率。从经济效益看上可节省大量业务人员研究主题数据时间;节省大量业务人员指标异常溯源时间,提升工作效率。最终达到全面核查、扎实整改目的,不断提升营销数据完整性和准确性,满足客户服务工作和营销精益化管理的需要,从而保证营销管理系统重要数据完整性、准确性、合规性等,持续提升营销管理系统实用化水平,使其满足统计分析、高级决策和数据共享的需要。
论文作者:顾安朋1,梁哲辉1,姜浩2
论文发表刊物:《电力设备》2018年第19期
论文发表时间:2018/10/17
标签:数据论文; 业务论文; 质量论文; 规则论文; 系统论文; 逻辑论文; 分词论文; 《电力设备》2018年第19期论文;