基金项目:本文得到教育部人文社会科学研究规划基金项目(19XJA910001);
重庆市教育委员会人文社会科学研究项目(18SKGH099)资助。
摘要:海量异构数据具有数据量巨大、高度分布、数据异构和增量数据不断出现的特点。现有的数据集成方法针对小规模数据,无法解决海量异构数据集成的瓶颈问题,针对这个问题,论文利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势,提出大数据环境下海量异构数据集成方法。
关键词:大数据;海量异构数据;数据集成
一、引言
海量异构数据具有数据量巨大、高度分布、数据异构和增量数据不断出现的特点。
2012年3月,美国奥巴马政府宣布推出“大数据的研究和发展计划”[1],将“大数据”从商业行为上升到国家战略。
大数据(Big data)[2,3]是指利用常用软件工具获取、管理、挖掘和处理数据所耗时间超过可容忍时间的数据集。
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而提供全面的数据共享。
现有的数据集成方法针对小规模数据,不适合海量异构数据的集成。
MapReduce[4],是一种大数据的计算模型,将要执行的问题拆解成Map(映射)和Reduce(归约)操作,非常适合海量异构数据的集成。
二、海量异构数据集成方法现状
数据集成将多个来源的异构数据进行集中和预处理,是进一步进行数据挖掘的基础。部分学者对数据集成方法进行了初步研究。有代表性的研究成果有:陈飞彦等发表的“一种文本数据集成方法的研究与实现”[5],刘君强等发表的“云键-值数据仓库的并行数据集成方法研究”[6],邱树伟等发表的“网格环境下分布式信息系统数据集成方法研究”[7],黄盼等发表的“信息系统中的数据集成方法研究与应用分析”[8]。
上述研究成果针对小规模数据的集成,无法解决海量异构数据集成的瓶颈问题。因此,针对海量异构数据的特点,如何进行海量异构数据集成是迫切需要开展的研究。发展趋势是利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势,研究大数据环境下海量异构数据集成方法。
关联规则描述在给定的事务集中,频繁出现的项集的规则。关联规则知识发现的关键是获取频繁项集。常见的关联规则知识发现方法有Apriori、FP-growth等。
Apriori是典型的关联规则方法。采用逐层搜索的迭代,利用K项集来产生K+1项集。该方法简单,但是存在扫描数据次数多、同步次数多、执行效率低等问题。
频繁模式树为满足以下3个条件的树型结构:①它由一个标为“null”的根结点,作为根结点的孩子的项目前缀子树集合,以及频繁项目头表组成;②项目前缀子树中的每一结点包含3个域:item-name,count,node-link,其中,item-name记录项目名,count记录能到达该结点路径所表示的事务的数目, node-link为指向频繁模式树中具有相同的item-name值的下一结点,当下一个结点不存在时,node-link为null;③频繁项目头表的每一表项包含两个域:item-name, head of node-link,其中, head of node-link为指向频繁模式树中具有相同的item-name值的首结点的指针。
FP-growth方法以频繁模式树为基础,只需要扫描数据两次,大大减少了数据的扫描次数和计算时间。
三、大数据环境下海量异构数据集成方法
针对海量异构数据的特点,利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势,通过建立MapReduce、统一数据视图和大数据库Hbase,提出大数据环境下海量异构数据集成方法。
首先,对海量异构数据构建统一数据视图,建立统一数据视图与海量异构数据的映射关系;其次,按照挖掘的主题,采用Map分解任务,从不同网络的海量异构数据中抽取数据;然后,采用Reduce进行归并,将抽取的数据集成到大数据库Hbase;最后,对大数据库Hbase中的数据进行预处理,得到海量同构数据。如图1所示。
图1 大数据环境下海量异构数据集成方法图
四、结束语
论文利用MapReduce处理海量数据的优势、数据视图和大数据库Hbase集成海量异构数据的优势,提出高效的大数据环境下海量异构数据集成方法。下一步工作是对提出的方法进行实验和应用。
参考文献
[1]Big Data Across the Federal Government [EB].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf, 2012.
[2]Science. Special Online Collection: Dealing with Data [EB].
http://www.sciencemag.org/site/special/data/, 2011.
[3]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-149.
[4]张继福,李永红,秦啸,荀亚玲.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(5):1079-1095.
[5]陈飞彦,胡亮.一种文本数据集成方法的研究与实现[J].东北师大学报(自然科学),2016(1):78-83
[6]刘君强,左洪福,彭智勇.云键-值数据仓库的并行数据集成方法研究[J].计算机应用研究,2015,32(8):2458-2460.
[7]邱树伟,郑麟,黄健新.网格环境下分布式信息系统数据集成方法研究[J].广州大学学报(自然科学版),2012,11(2):70-75.
[8]黄盼,王冬冬,王露露.信息系统中的数据集成方法研究与应用分析[J].山东工业技术,2015(7):179-179.
作者简介:何波(1978-),男,副教授,主要研究领域为大数据、数据挖掘。
论文作者:何波 张继茹
论文发表刊物:《知识-力量》2019年11月50期
论文发表时间:2019/11/12
标签:数据论文; 海量论文; 异构论文; 方法论文; 结点论文; 视图论文; 频繁论文; 《知识-力量》2019年11月50期论文;