2.安徽继远软件有限公司 安徽合肥 230085
摘 要:本文主要以电网运营在线监测系统建设为研究背景,分析了数据溯源在该系统建设过程中的重要性。简要介绍了数据溯源的定义,探索分析在该系统建设中采用的数据溯源的流程及方法,为后续实现全业务系统之间主题及场景的应用分析服务提供了数据溯源方法和参考,最后对数据溯源的研究热点以及发展方向进行了展望。
关键词:数据溯源;溯源流程;全业务。
1、前言
运监中心担负着发挥“千里眼、顺风耳、铁算盘、预警机”的作用、服务于电网公司进行风险防范和效率效益提升的重要职责,是我国电网公司的“战略运营监控中心”、“数据管理中心”和“企业价值展示中心”。目前,电网运营监测等信息系统的建设,支撑着运监中心的部分监测分析业务,但仍存在一些问题:比如由于数据及时性的原因,尚不能实现重要指标、核心资源、主要经营活动及时地在线监测、计算和分析;而随着公司经营管理的优化变革、监测分析业务不断拓展深化,运监系统在可扩展性上凸显出不足,其功能已不能满足全业务监控要求。运监信息系统的局限性一定程度上影响了监测分析工作的开展。
企业运营在线监测系统的建设在此种背景下应运而生,该系统构建监测指标库和主题分析库,将实现对电网公司在经营管理方面进行全天候、实时、在线监测分析,实现对规划、建设、运行、检修、营销、人资、财务、物资等业务全方位监测分析,实现对计划预算、资金收支、电力购销、运维检修、供电服务等全流程监测分析。通过在线监测系统,及时、全面、准确地掌握公司经营业绩、管理绩效与核心资源状况,分析研判公司经营管理状况,有效发挥运监专业作用,促进公司管理提升,服务公司战略目标实现。
企业级运营在线监测系统基于全业务数据中心建设实现,主体功能包括公司运营动态、监测成果管理、指标监测、业务主题监测、运监数据管理、系统管理等。
本文提出基于全业务统一数据中心的企业运营在线监测系统的研究与开发,分析了该系统研究开发中数据溯源的流程,并对数据溯源的思路和方法进行了分析。
2、企业运营在线监测系统研究思路
建设电网公司企业级运营在线监测系统,基于全业务统一数据中心实现对公司运行情况的“T+1”实时在线监测,全面、动态地感知公司经营管理情况。
根据企业运营在线监测系统的监测对象,数据来源于电网系统内各个专业、各个领域的业务系统数据,数据的存储与计算均基于全业务统一数据中心,数据来源的不同,也就决定了数据的类型也有所不同,该系统采取了不同的数据架构及流转路径。对于来源于ERP、PMS、营销等总部和二级部署系统的结构化数据,采用ETL、OGG方式将数据抽取到全业务数据中心的基础数据层,再通过ETL抽取到明细数据层;而对于输变电状态监测、供电电压、用电信息采集等系统的量测数据,抽取到Hbase数据库进行存储。
3、研究重难点-数据溯源
企业运营在线监测平台建设的主要难点在数据溯源和业务梳理整合上。系统建设涉及10多套系统的数据准确定位,数据溯源工作量大且协调厂家较多;指标和主题监测业务点多面广,如何对整体进行统一设计,形成统一风格、保持颗粒度一致,并满足未来可扩展需求成为数据溯源的重难点。
4、数据溯源定义
数据溯源是一个新兴的研究领域,据资料显示,起源于20世纪90年代。部分资料文献中,有对数据在整个生命周期中从产生到消亡的一系列记录的过程,将其称为数据志或数据档案;大部分文献有将其命为数据起源,有数据演变和数据演变处理之意。目前,对数据溯源因应用领域不同而定义各异,没有公认的定义,大致分为以下四种:定义(1)为从源数据到数据产品的衍生过程信息;在数据库领域,定义(2)为“数据及其在数据库间运动的起源”;定义(3)为对目标数据衍生前的原始数据以及演变过程的描述;定义(4)为数据溯源是一种元数据,用来记录工作流演变过程、标注信息以及实验过程等信息。在其它一些领域中还有其它一些叫法: 如数据族系、数据系谱、数据来源、数据世系等。
期刊文章分类查询,尽在期刊图书馆
而本文所称的数据溯源,是一个动词,是为完成或者达到某一具体项目建设目的,进行的一系列数据追本溯源的过程,即是从实际应用的角度出发,根据需求强调对数据来源的追踪的过程和方法,从而达到对数据重组,实现对数据加工的目的。
5、数据溯源流程
本系统的建设在数据溯源阶段采用的是反向查询的方式,即它是以最终项目建设目的为出发点,根据需求调研构建相关主题及指标场景模型,根据模型的调研需求得出需求字段,最后根据需求字段反向推导,找到其来源系统,从而完成数据溯源。
本次数据溯源共分9个环节:
(1)数据需求提供环节:由需求提出方提供业务数据需求,明确数据溯源模型的宽表信息,包含需求所涉及的专题名称、字段名、字段说明、字段类型、字段描述等。
(2)梳理调研提纲、调研问题环节:根据确定的数据模型对应的宽表需求信息,编写专题调研提纲,包含源系统可能涉及的数据表、字段,字段描述、表与表间关联关系、系统前台展示界面和后台存储数据表关系等;以及数据传输获取方式,频率,如何更新同步等问题。
(3)源系统调研环节:协调专题对应系统运维厂家,对调研提纲所列问题,进行沟通、咨询、记录,完成业务数据溯源。
(4)形成调研报告环节:根据调研成果,验证前台界面展示和后台存储数据一致性(需提供测试系统地址和登录账号,为减少以后沟通频率),及表之间的关联关系,梳理专题涉及表、字段、表与表之间的关联关系汇总形成调研报告。
(5)全业务统一数据中心数据接入:提交各专题涉及的源业务系统表清单至全业务统一数据中心,由全业务统一数据中心核实数据是否已经接入,若数据未接入,由全业务统一数据中心接入数据。
(6)宽表拼接脚本环节:在专题所涉及的数据已接入到全业务统一数据中心的情况下,由数据溯源厂商基于全业务统一数据中心系统,编写符合专题的后台宽表查询语句。
(7)提交查询语句验证环节:数据溯源厂商提供的查询语句,在全业务统一数据中心对宽表拼接脚本进行验证;对于仅涉及单系统的专题数据,亦可以在源业务系统对脚本和数据进行校验。
(8)生成宽表明细数据环节:基于验证脚本生成宽表明细数据,提交系统建设方进行审核。审核数据无误后形成数据溯源报告;审核不通过,需针对性的对问题数据重新开展数据溯源工作。
(9)生成数据溯源报告环节:分专题形成数据溯源报告,报告包含业务描述、涉及系统和表、数据字典、表与表之间的关联关系(ER图)、宽表拼接脚本等,提交至运监中心。
6、数据溯源应用展望
数据溯源最早仅用于数据库、数据仓库系统中,后来发展到对数据真实性要求比较高的各个领域:如生物、历史、考古、天文、医学等。随着互联网的迅猛发展以及网络欺骗行为的频繁发生,人们越来越怀疑数据的真伪,对数据的真实性要求越来越高。数据溯源成为考究数据真假的有效途径,掀起了一波数据溯源研究的热潮,因此,数据溯源追踪逐渐扩展到计算机各行各业。目前,研究领域已经覆盖到地理信息系统(GIS)、云计算、网格计算、普适计算、无线传感器网络和语义网络等。其中,数据溯源在数据库和工作流领域的研究最为流行。
未来数据溯源技术将在网络安全领域发挥重要作用。在2009年呈报美国国土安全部的"国家网络空间安全"的报告中,将其列为未来确保国家关键基础设施安全的3项关键技术之一。然而,数据溯源技术在大数据安全中的应用还面临如下挑战。
(1)数据溯源与隐私保护之间的平衡:一方面,基于数据溯源对大数据进行安全保护首先要通过分析技术获得大数据的来源,然后才能更好地支持安全策略和安全机制的工作;另一方面,数据来源往往本身就是隐私敏感数据,用户不希望这方面的数据被分析者获得。因此,如何平衡这两者的关系是需要研究的问题之一。
(2)数据溯源技术自身的安全性保护:当前数据溯源技术并没有充分考虑安全问题,例如,标记自身是否正确、标记信息与数据内容之间是否安全绑定等。而在大数据环境下,其大规模、高速性、多样性等特点使该问题更加突出。
论文作者:徐敏1,,刘翠玲1, 李立静2
论文发表刊物:《中国电业》2019年第12期
论文发表时间:2019/9/29
标签:数据论文; 在线论文; 业务论文; 系统论文; 数据中心论文; 字段论文; 电网论文; 《中国电业》2019年第12期论文;