浅析大数据之Hadoop分布式系统论文_刘文妍 闻锋*

浅析大数据之Hadoop分布式系统论文_刘文妍 闻锋*

(河南大学,河南 开封 475000)

摘要:随着时代的发展,科学技术在不断的大步向前,特别是在第三次技术革命到来之后,大量信息数据接连出现,堆积如山。例如在线视频和图片共享的网站要为用户储备大量的资源数据。这类系统的面临的问题是如何在用户逐日增多,数据量越来越大的情况下,保持数据处理的稳定性,保证数据处理效率高,保证数据的价值密度等,变得尤为重要。这时就需要一个能存储大量数据,还要有强大的分析处理能力,资源集中化的应用,它就是Hadoop系统架构。

关键词:大量数据 稳定性 效率高 价值密度 Hadoop系统架构

1.基本概念

要想知道Hadoop分布式系统,首先我们需要知道分布式系统的概念:分布式系统是建立在网络上的软件体系系统,具有伸缩性,同时控制,容错机制等。接下来再来说说Hadoop,Hadoop是由甲骨文公司开发的一个分布式文件系统,可以实现海量数据的存储和处理。这个分布式系统具有着透明性,可伸缩性,容错性,并发控制,高可靠性,廉价特性等,Hadoop主要由HDFS,MapReduce,HBASE,Zookeeper等成分构成。

2.简要介绍Hadoop的组成成分

2.1 Hadoop分布式文件系统—HDFS

2.11 HDFS的特点和目标

HDFS作为Hadoop的分布式文件存储系统和传统的分布式文件系统有很多相同的设计目标。比如,在可伸缩性及可用性上。但是前者的设计前提是假设和较早的文件系统有着明显的不同之处。下面简述一下HDFS的设计特点和目标:1.兼容廉价的硬件设备:在常会出现节点失效的情况下,HDFS设计快速检测硬件故障和进行自动恢复的机制,可以实现持续见识,错误检查,容错处理和自动恢复,从而能够以流式方式来访问文件系统数据。2.流数据读写:为了提高吞吐率,从而能够以流式方式来访问文件系统数据。3.大数据集:HDFS中的文件通常可以达到GB甚至TB级别。3.简单的文件模型:HDFS采用了一次写入多次读取的简单文件模型。4.强大的跨平台兼容性:HDFS是采用java语言实现的具有很好的跨平台兼容性,支持jvm的机械都可以运行它。

2.12 HDFS的文件命名空间

NameNode:负责管理分布式文件系统的命名空间,保存了连个核心的数据结构,并且记录了每个文件中各个块所在数据节点的位置信息。

DataNode:是HDFS中的工作节点,负责数据的存储和读取,会根据调度来进行数据的存储和检索,向其他节点发送自己所块存储的列表。

2.13 HDFS的异常处理

HDFS有三种常见的异常处理方式:1.名称节点出错:HDFS设计了备份机制,把那些核心的文件同步复制到备份服务器上,备份服务器本身不会处理任何请求,只扮演备份机的角色。2.数据节点出错:每个数据节点会定期向名称节点发送心跳信息,向名称节点报告自己的状态。名称节点无法获得书籍节点的心跳信息时,这些节点就会被标记为宕机。节点上的所有信息都会变成不可读。当某个数据块的副本数量小于冗余因子时,就会启动书籍冗余复制,为他生成新的副本。3.数据出错:当读取到信息时,会采用对数据块进行校验,会对每个文件块进行信息摘录,并写入同一个路径的隐藏文件。在客户端上,如果校验出错,客户端就会到其他数据节点读取,并向名称节点报错,名称节点会定期检查并且重新复制这个块。

期刊文章分类查询,尽在期刊图书馆

2.2 Hadoop的数据处理—MapReduce

2.21 MapReduce的原理

通俗的MapReduce按三步走为:map,shuffle和reduce。它们都是以键值对的形式来输入输出的。map是对数据按照某一格式进行分割处理,分割后的数据再传给shuffle进行同键的汇总,最后再把数据传到reduce,来完成最后的整合。

2.23 MapReduce的特点和目标

当数据放入MapReduce,通常也需要一个MapReduce程序来协同工作。之后数据被分解成一个个的小数据来进行运行。MapReduce把分而治之的思想体现的淋漓精致,也就是把一个很大的数据块分解为许多很小的数据块然后依次进行并行处理。MapReduce最初是起源于谷歌公司,它的核心思想是“计算向数据靠拢”,所以特别适合以HDFS为存储的大数据处理系统分布式系统基础架构,并且采用了主从节点的结构,上面有一个主节点和大量的从节点。它的应用非常广泛,可以解决大量的数学问题,如矩阵-向量乘法和代数运算等。

2.3 Hadoop的协调服务—ZooKeeper

2.31 ZooKeeper的原理和特点

ZooKeeper是动物管理员的意思,它主要是提供一个协调服务,也是根据谷歌公司的Paxos算法来推算出来的,主要解决的也是一致性的问题。

Zookeeper主要提供的是分布式锁服务,可以实现高效的和可靠的分布式锁服务,和安全可靠的协同服务,例如提供分布式应用配置项的管理和状态同步服务等。并且它是一个兼容性比较高的系统,他可以使用java来编程,很容易对接到其他的系统上。

2.4 Hadoop的数据库—HBASE

2.41 HBASE的简介

HBase是一个能够水平扩展的并且支持非结构化和半结构化的数据库,它可以存储海量的数据,具有很高的伸缩性,并且价格比较便宜。

2.42 HBASE的数据模型

HBase是用表来构成的,表是有许多行列来构成,列又可以构成大量的列族。每一行都是有行健来标识的,可以通过多种方式来访问列表中的行,例如,全表扫描;通过当个行健来访问;或者是通过一个区间来访问等方法。在它内部,行健是通过字节来保存的。列族是它的基本访问控制单元,列族的数量不宜太多,也不宜进行大量的更改,它的列族支持不同的访问模式,也具有很好的兼容性。数据使用通过列限定符来定位的,列限定符不用事先定义,它没有数据类型,是以字节来定义的。HBase中有单元格,单元格中的数据相似于列限定符也是没数据类型的。单元格是通过行,列族和列限定符来确定的。

3.结语

在当今时代下,传统的数据处理已经发生了一些变化,伴随着云计算大数据的发展,hadoop有着越来越大的用武之地。现代数据数据量大,价值密度低,而计算性能高,所以使用分布式系统架构来处理数据是一个明智之举。与此同时,hadoop分布式系统也越来越被人接受,在越来越多的中大型企业中得到广泛的运用,并且它的兼容性极高,可以与许多行业相辅相成,例如:金融,保险等。

参考文献

[1]李志晖.基于Hadoop环境下的文本聚类方法的研究与实现.互联网论文库

[2]王静蕾.Hadoop云计算框架中的分布式数据库HBase研究[J].商丘职业技术学院学报,2014,13(02):18-20

作者简介:刘文妍(1996年7月—)女,汉族,河南巩义人,河南大学软件学院,2015级本科生,研究方向为软件工程;

闻锋(1996年5月—)男,汉族,河南鹤壁人,河南大学软件学院,2015级本科生,研究方向为软件工程。

论文作者:刘文妍 闻锋*

论文发表刊物:《知识-力量》2018年7月上

论文发表时间:2018/7/16

标签:;  ;  ;  ;  ;  ;  ;  ;  

浅析大数据之Hadoop分布式系统论文_刘文妍 闻锋*
下载Doc文档

猜你喜欢