大数据环境下海量异构数据集成方法研究论文_何波张继茹

（重庆理工大学计算机科学与工程学院，重庆市 400054）

基金项目：本文得到教育部人文社会科学研究规划基金项目(19XJA910001)；

重庆市教育委员会人文社会科学研究项目(18SKGH099)资助。

摘要：海量异构数据具有数据量巨大、高度分布、数据异构和增量数据不断出现的特点。现有的数据集成方法针对小规模数据，无法解决海量异构数据集成的瓶颈问题，针对这个问题，论文利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势，提出大数据环境下海量异构数据集成方法。

关键词：大数据；海量异构数据；数据集成

一、引言

海量异构数据具有数据量巨大、高度分布、数据异构和增量数据不断出现的特点。

2012年3月，美国奥巴马政府宣布推出“大数据的研究和发展计划”[1]，将“大数据”从商业行为上升到国家战略。

大数据（Big data）[2,3]是指利用常用软件工具获取、管理、挖掘和处理数据所耗时间超过可容忍时间的数据集。

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而提供全面的数据共享。

现有的数据集成方法针对小规模数据，不适合海量异构数据的集成。

MapReduce[4]，是一种大数据的计算模型，将要执行的问题拆解成Map（映射）和Reduce（归约）操作，非常适合海量异构数据的集成。

二、海量异构数据集成方法现状

数据集成将多个来源的异构数据进行集中和预处理，是进一步进行数据挖掘的基础。部分学者对数据集成方法进行了初步研究。有代表性的研究成果有：陈飞彦等发表的“一种文本数据集成方法的研究与实现”[5]，刘君强等发表的“云键-值数据仓库的并行数据集成方法研究”[6]，邱树伟等发表的“网格环境下分布式信息系统数据集成方法研究”[7]，黄盼等发表的“信息系统中的数据集成方法研究与应用分析”[8]。

上述研究成果针对小规模数据的集成，无法解决海量异构数据集成的瓶颈问题。因此，针对海量异构数据的特点，如何进行海量异构数据集成是迫切需要开展的研究。发展趋势是利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势，研究大数据环境下海量异构数据集成方法。

关联规则描述在给定的事务集中，频繁出现的项集的规则。关联规则知识发现的关键是获取频繁项集。常见的关联规则知识发现方法有Apriori、FP-growth等。

Apriori是典型的关联规则方法。采用逐层搜索的迭代，利用K项集来产生K+1项集。该方法简单，但是存在扫描数据次数多、同步次数多、执行效率低等问题。

频繁模式树为满足以下3个条件的树型结构：①它由一个标为“null”的根结点，作为根结点的孩子的项目前缀子树集合，以及频繁项目头表组成；②项目前缀子树中的每一结点包含3个域：item-name，count，node-link，其中，item-name记录项目名，count记录能到达该结点路径所表示的事务的数目, node-link为指向频繁模式树中具有相同的item-name值的下一结点，当下一个结点不存在时，node-link为null；③频繁项目头表的每一表项包含两个域：item-name, head of node-link,其中, head of node-link为指向频繁模式树中具有相同的item-name值的首结点的指针。

FP-growth方法以频繁模式树为基础，只需要扫描数据两次，大大减少了数据的扫描次数和计算时间。

三、大数据环境下海量异构数据集成方法

针对海量异构数据的特点，利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势，通过建立MapReduce、统一数据视图和大数据库Hbase，提出大数据环境下海量异构数据集成方法。

首先，对海量异构数据构建统一数据视图，建立统一数据视图与海量异构数据的映射关系；其次，按照挖掘的主题，采用Map分解任务，从不同网络的海量异构数据中抽取数据；然后，采用Reduce进行归并，将抽取的数据集成到大数据库Hbase；最后，对大数据库Hbase中的数据进行预处理，得到海量同构数据。如图1所示。

图1 大数据环境下海量异构数据集成方法图

四、结束语

论文利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势，提出高效的大数据环境下海量异构数据集成方法。下一步工作是对提出的方法进行实验和应用。

参考文献

[1]Big Data Across the Federal Government [EB].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf, 2012.

[2]Science. Special Online Collection: Dealing with Data [EB].

http://www.sciencemag.org/site/special/data/, 2011.

[3]孟小峰,慈祥.大数据管理：概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-149.

[4]张继福,李永红,秦啸,荀亚玲.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(5):1079-1095.

[5]陈飞彦,胡亮.一种文本数据集成方法的研究与实现[J].东北师大学报(自然科学),2016(1):78-83

[6]刘君强,左洪福,彭智勇.云键-值数据仓库的并行数据集成方法研究[J].计算机应用研究,2015,32(8):2458-2460.

[7]邱树伟,郑麟,黄健新.网格环境下分布式信息系统数据集成方法研究[J].广州大学学报（自然科学版）,2012,11(2):70-75.

[8]黄盼,王冬冬,王露露.信息系统中的数据集成方法研究与应用分析[J].山东工业技术,2015(7):179-179.

作者简介：何波（1978-），男，副教授，主要研究领域为大数据、数据挖掘。

论文作者:何波张继茹

论文发表刊物:《知识-力量》2019年11月50期

论文发表时间:2019/11/12

标签：数据论文; 海量论文; 异构论文; 方法论文; 结点论文; 视图论文; 频繁论文; 《知识-力量》2019年11月50期论文;

大数据环境下海量异构数据集成方法研究论文_何波 张继茹

猜你喜欢

大数据环境下海量异构数据集成方法研究论文_何波张继茹