扬州松麟科技有限公司 江苏扬州市 225001
摘要:本人长期以来致力于数据集成与优化方面的内容研究。数据质量管理是企业进行数据应用中的关键节点,同时,也是大数据应用学科中的重要研究内容之一。本文就是基于这一现状,对面向数据集成的数据清理关键技术进行了进一步的分析,希望能够通过本文的研究,为数据集成相关技术的发展提供参考。
关键词:数据集成;数据质量;数据清理;性能优化
引言
数据集成是现代信息技术发展的重要研究方向,同时也是企业、个人进行数据整合的重要方式。由于生产环境中数据源较多、数据集成包含的问题也是多种多样,基于环境、数据源以及集成目标等的不同,因此可能会产生不同的数据集成工具和集成技术。在进行数据处理的时候,要确保数据质量,做好数据清理工作,进而更好的对各个项目进行动态化的监控和管理。
1数据集成与数据质量
ETL是在数据仓库构建的过程中进行数据的转换、抽取以及加载等,通过一定的处理,满足数据仓库的要求。经过对ETL过程的分析处理之后,按照一定的周期与方法进行比对及批量处理。ETL工具也可以在进行数据处理的时候建立各个目的数据源和起源数据源之间的关联,同时还能构建相应的数据仓库模型,实现对数据进行转换的功能。
数据质量是用户对数据满意程度的说明,其中主要的技术包含数据集成、对象识别以及数据清理技术[1]。在常用数据清理技术中,重复记录检测与校验是一项较为重要的清理技术,该方法能够对多个数据源进行分析并找出其中的关系,确保各项数据之间始终能够保持一致性。对于企业而言,确保数据质量的关键就是做好数据清理,数据清理流程如图1所示。
图1Informatica的数据清理流程
2数据分析与挖掘
当前,数据分析已经成为进行数据处理的关键部分,只有将各项信息数据进行准确的处理和挖掘,才能确保更好的开展各项工作,进而实现数据应用的发展。进行数据分析的关键环节包括数据处理,特别是在数据优势越来越明显的今天,要在信息数据处理的过程中不断提高对大容量数据的分析速率,并同时对多种格式的数据进行挖掘[3]。
在进行数据挖掘的时候,要认真分析当前挖掘内容的具体状况,进而选择最佳的挖掘方法,目前常用的挖掘方法有Web数据挖掘法、分类法以及回归分析法等。
3面向数据清理的约束扩展
以往所用的数据质量管理方法主要是对数据模式库进行辅助性的设计,例如函数的依赖、否定约束等,以此实现对多个不可靠数据源数据的定位分析与偶合有一定的难度,因此,加快对依赖的扩展方法显得尤为重要。与此同时,如果要提高数据清理算法的使用效果,必须要不断提高对相关内容的推理能力与机器学习能力,任何有价值的数据清理算法都是具有一定的针对性和片面性,所以要在数据清理的同时还需要确保数据处理的准确性与完整性,并在实现的过程中还要进行优化以实现敏捷性与易用性。
4基于重构的数据清理流程性能优化
进行数据清理需要针对具体的数据源设定相应的清理流程,这在建模之后与数据集成流程存在一定的相似性,基本区别就是对数据操作的类型存在差别。本文以一种通用的数据集成流程逻辑优化方法为例,引申出数据处理流程相关内容[4]。
如果是一个特定的数据集成流程,可以分别从以下几个方面进行分析:第一,要对流程中的各项变换规则进行分析;第二,将这些识别的规则进行整理,总结其中的约束条件并建立基本的数学模型;第三,将约束条件进行定义与标识,这样有助于对操作组件的应用流程进行规则变换。除此以外,也可以通过对相关变换规则对流程执行产生的影响构建相应的执行代价偏序图,通过分析偏序图中代价最小的流程,实现代价预测,进而为更快的进行数据选择、降低数据处理误差提供参考。
5数据清理技术在数据集成系统中的应用
5.1数据处理组件模型
数据处理组件模型一般包括以下几个方面:1),数据处理组件元数据:通常将数据处理组件需要提供的元数据成为插件元数据,只有相关的插件能够满足对元数据格式的要求,才能实现对其生命周期的管理;2),数据处理组件的可视化界面配置类:可视化界面配置主要是用来显示最终结果,同时在使用者对数据处理组件参数配置的时候进行显示;3)数据处理组件的业务逻辑JET代码模板:代码模板主要是用来对数据处理和操作逻辑的设定,通过对相关用户参数的输入,结合相应的流程设计和模板文件的读取,形成专门的代码。
5.2数据集成流程管理
针对数据流程的调度执行情况,可以采取多种策略,数据集成流程的设计和管理通常是借助对模型的驱动得以完成的[2]。下面针对其中的三种模型进行分析:1)概念模型:所谓数据流程的概念模型,主要是对数据流程中的各项概念内容以及各个概念之间的联系进行说明,该模型主要是对流程处理需求进行建模,该模型中的数据处理组件主要是对数据处理单元进行表示,例如常见的排序处理组件等;2)逻辑模型:逻辑模型通常是对可供调度数据流程进行定义,其中包含对相关信息的配置;3)执行模型:数据流程中包含的调度执行策略种类较多,并且可以根据调度的不同,选择适当的执行策略,与此同时,也可以根据组件的不同,选择相应的实现途径。通常情况下,执行模型主要是对组件调度和组件执行逻辑的描述,并且在形成执行模型之后,需要借助相应的工具实现对代码的编制和部署。上述三种数据流程模型关系如图2所示。
图2数据流程模型关系
5.3自动数据清理的工作过程
通常情况下,进行数据自动清理包含以下几个流程:第一,如果数据集成流程已经设定好,就需要将其进行对应与转换,通过分析数据库中的约束集合,将数据系统中的完整性约束条件计算出来,并且采用对应的方式进行描述;第二,如果是对聚集和非聚集进行分析查询,则可以将统一完整性约束进行转化,改变成附加查询条件,并且将相关查询内容重新进行编写;第三,针对重新编写的查询序列,需要将其转换成相应的数据清理流程,迭代原有的数据集成流程;第四,在执行新编的数据处理流程的时候,就可以按照之前的设定,对与目标存在差异的数据进行筛除。
结语
数据清理技术是当前数据集成研究的重要内容之一,本文结合数据集成与数据质量等相关内容,对数据清理的约束扩展、数据清理流程的性能优化以及数据清理技术在数据集成中的应用进行整理和说明。在实际工作中,要不断完善数据集成平台,深化对数据清理技术的研究,提高数据清理技术的综合水平。
参考文献:
[1]唐成务.面向Web的数据服务描述与集成关键技术研究[D].西安邮电大学,2016.
[2]王冕.面向大数据集成的实体识别框架及关键技术的研究[D].东北大学,2013.
[3]鄂新华.面向服务的数据集成若干关键技术研究[D].北京邮电大学,2015.
[4]李文杰.面向大数据集成的实体识别关键技术研究[D].东北大学,2014.
论文作者:黄雨松
论文发表刊物:《基层建设》2017年第29期
论文发表时间:2018/1/14
标签:数据论文; 数据处理论文; 流程论文; 模型论文; 组件论文; 数据源论文; 技术论文; 《基层建设》2017年第29期论文;