摘要:本文以企业信息化建设为背景,围绕建设过程中反映出数据质量问题展开论述,从数据质量问题产生根源、数据质量管理及持续改善策略、数据质量管理技术实现思路、管理平台构建进行论述,也希望借以此文进一步将管理和技术手段相结合,改进企业信息化建设中数据质量问题。
关键词:数据质量管理;信息化建设;技术手段
1 引言
数据是企业重要资产。低质量数据将导致业务流程阻塞、运营成本增加和决策困难。越来越多企业开始采用一系列管理和技术手段来控制并逐渐改进企业数据质量。早期对数据质量关注主要是基于单一信息系统自身、着重提高数据准确性;后期随着企业信息系统功能和定位不断延伸,用户关注重点逐步由数据准确性扩展至完整性、一致性、及时性等方面,这些内容也属于数据质量范畴。
2 影响企业信息化建设中数据质量因素
(1)历史原因:各系统相对独立,设计实施阶段都没有统一规划;采用不同技术和架构,不同业务规范和数据模式,导致数据粒度、名称、表达方式多样性;数据分散、不完整甚至可能会有冲突。
(2)技术水平限制造成元数据不准确、数据不一致、数据重复、数据二义性等问题;
(3)设计时没有提供有效合理数据更新维护途径。
(4)缺乏数据质量监督管理措施。在信息系统建设中,往往在业务流程上倾注过多精力,人们更关心“这些数据应该往哪里去,应该由谁处理它”,对于提高数据质量不够重视,数据只不过是信息处理过程中产生“副产品”。
与物理产品不同,数据产品作为一种特殊资源存在于企业,它不可消耗、可以在不同系统不同用户之间传递和共享、可以复制和更新。但它又是脆弱,极易遭到破坏,数据不一致、重复、过时等都是常见质量问题,而且企业环境动态变换也造成了数据不稳定性,所以数据质量问题是极其复杂。
3 数据质量管理策略
从数据质量多种理解和定义可以看出,目前对数据质量理解程度不尽相同。本文认为数据质量管理是致力于整个企业数据环境中数据质量评估/诊断和持续改善一个系统、长期过程,从数据质量管理所关注质量问题来看,主要有六个方面:(1)数据准确性;(2)数据完整性;(3)数据一致性;(4)数据及时性;(5)数据可理解性;(6)数据可获取性。
在这六个方面,涉及数据对象包括各种数据源、关系表与视图、OLAP数据立方体、数据文件和明细关系属性,同时还关注与数据对象转移、加工、生产和消费相关各种应用对象,包括:ETL任务和其他应用程序组件运行状态。
数据质量问题解决策略有两种类型:企业输入数据时提高数据质量方法称为“上游”方法,而从业务系统提取数据应用程序中改善数据质量方法是“下游”方法。
4 构建数据质量管理平台架构
数据可以说是一个企业血液,随着企业运作,不断流动,流动着数据本身也不是静止,它随着数据采集和使用不断变换着,数据产品生产涉及企业方方面面,所以解决数据质量问题必须站在企业级高度进行。例如,企业中普遍存在生产经营数据问题,就需要将存在于不同部门不同系统中关于生产经营历史数据进行分析匹配,从而得到关于生产经营详细、全面、一致而不重复信息,并将其存储到企业统一中央生产经营数据库中。为此,需要在企业信息化过程中引入数据质量管理平台,以管理企业数据流,并成为企业各个子系统数据交互中心,同时在各个层次上对数据质量进行管理和监控,以建立统一企业数据模型,形成企业统一视图。
(1)数据产品定义
该模块定义包括数据来源、目、生产过程以及在生产过程中受到约束例如业务规则等在内各种要素,集中反映了数据产品特征。
期刊文章分类查询,尽在期刊图书馆数据产品生产过程是在生产模型元数据基础上定义,由一系列生产环节组成,主要:选择数据源、连接数据库、数据转换、数据存储、数据合并、数据加载、数据访问机制、数据分析和挖掘等。在一个企业中,数据流是连续变换,因此对数据质量控制在很大程度上依赖于对数据生产流程控制。把握了企业数据流,也就控制了信息流。
(2)数据质量管理
对应于每一个数据产品都应该有相应质量管理方法。该模块基于TDQM思想,对质量进行定义、度量、分析和改进。主要功能有:质量定义要求,反映数据提供者、生产者和管理者对数据产品不同角度质量要求。
度量根据数据产品及其质量定义,确定质量指标体系,跟踪数据量度,监控数据质量。
分析:分析质量问题出现原因。
改进:根据分析结果,采取措施消除产生数据质量问题根源。如采用数据清理、转换等技术方法改进如重码、数据不一致等问题,或者制定政策改进数据生产过程和管理方法。
(3)元数据管理
元数据是系统实现基础,是描述和控制系统中数据。元数据使用使得系统之间交互时可以清楚知道数据含义和格式,使得数据能够被理解和使用。元数据主要有三类:
数据模型元数据它提供关于数据实体描述,相当于数据库系统中数据字典。
生产模型元数据它提供关于数据产品生产过程描述(过程)。
质量模型元数据它提供关于质量要求和质量标准体系描述。
(4)规则库
反映与行业相关业务规则,以及数据生产过程中应遵循准则。如数据存储权限、数据完整性约束、业务流程规范等。
(5)算法库
为数据转换、数据清洗等操作提供基本算法,主要类型有:数据有效性检查,确定数据是否符合给定标准;数据标准化,将来源于不同数据源同类数据按照标准统一格式进行转换,如数据类型转换、日期时间格式转换等;字段抽取合并数据清洗算法;数据挖掘算法。
(6)回流
在应用系统中,往往只考虑数据应用,所以数据流常常是不闭合。实际上,经过清洗数据如果可以替换源系统中数据将提高源系统中数据质量,而且通过对回流数据和源数据比较,可以分析数据在使用过程中变化,或者是数量上变化。
(7)数据质量提炼
设置数据管理策略如更新机制,管理数据产品生命周期。管理规则库和算法库扩展更新,以满足业务需要和适应技术进步。从以上可以看出,此平台为三层架构,模块之间相互独立,可以直接引入比较成熟和有效工具,例如数据清洗工具、质量问题分析工具等;对应于企业分层次质量管理,可以定义不同层次数据产品及其质量要求,有利于系统逐步完善。
5 结束
随着企业信息化建设不断深入,数据质量问题也随之暴露更加明显,本文在此背景下产生,提出了数据质量管理,希望在控制数据生产流程基础上,针对不同层次质量问题进行定义、度量和改进,并且在企业中起到数据交互中心作用,为企业下一步信息化建设中数据质量持续改进提供一种系统、科学、可行建设性思路。
参考文献
[1]李金平.知识经济对企业管理影响[J].管理科学文摘,2000,(9):51-53.
[2]胡艳春.以信息化促进创新提升企业核心竞争力[J].现代企业,2008(5)
[3]姜波.信息化项目实施重要步骤[J].信息与电脑,2008(1).
论文作者:潘万民
论文发表刊物:《知识-力量》2019年10月45期
论文发表时间:2019/10/18
标签:数据论文; 质量论文; 企业论文; 质量问题论文; 质量管理论文; 产品论文; 定义论文; 《知识-力量》2019年10月45期论文;