分布式并行文件系统的研究——分布式并行日志系统的设计与实现

分布式并行文件系统的研究——分布式并行日志系统的设计与实现

何进[1]2004年在《分布式并行文件系统的研究》文中研究表明伴随着社会生活诸多方面的信息化发展,越来越多的信息被数字化。Internet狂飙突进式的发展,更使得数字化的信息出现了爆炸式增长,并且这种增长趋势近年愈演愈烈。如何存取和管理这些数字化的信息(数据)已成为人们普遍关注的焦点。分布式并行文件系统以其特有的高容错性、高性价比、高可扩展性,顺应了信息爆炸增长的趋势。 分布式并行日志系统作为分布式并行文件系统的关键部分,对于提高分布式并行文件系统的可靠性和可用性,具有不可替代的重要作用。人们常常将日志系统的优劣作为评判一个分布式并行文件系统性能的主要指标之一。当今分布式日志系统存在磁盘消耗大、I/O操作次数多、恢复效率低以及恢复过程中不能同时提供服务等诸多缺点,严重影响了分布式并行文件系统高可靠性、高可用性和多并发性。针对当前日志系统的这些缺陷,本文提出了一种高效率、高可靠的分布式并行日志系统——基于代理的动态并行日志系统(Agent-DPL)。 Agent-DPL系统采用少量持有者(拥有完整日志记录的节点)记录并保存日志,而引用者(不保存日志记录只保存日志索引的节点)只保存日志索引。当引用者需要日志时,根据日志索引向持有者按需请求日志记录,从而克服了各节点都保存日志造成大量的磁盘开销。日志持有者将日志记录缓存起来,当缓存达到某个上限时,再将其刷新到磁盘,以减少了I/O操作次数。采用了两阶段并发日志恢复协议(基于Agent日志恢复协议和基于Cache-LDP日志恢复协议)实现日志恢复。在基于Agent日志恢复协议中,日志持有者可以同时服务多个日志引用者的恢复请求,而日志引用者也可以同时向多个日志持有者请求日志,从而克服了串行日志恢复低效的缺陷;基于Cache-LDP日志恢复协议根据预定算法,能够保证在进行日志恢复的同时,不影响DPFS处理来自用户的请求。这样Agent-DPL既能保证系统数据的一致性,又能克服在恢复过程中不能同时提供服务的缺陷。

吴华[2]2004年在《分布式并行文件系统的日志管理》文中研究指明本文所研究的分布式并行文件系统DPFS(Distributed and Parallel File System) 有别于传统的依赖于一台集中式服务器的网络文件系统,在DPFS系统中的任何一台机器都能够存取、缓存及控制任意的数据块。该方法利用位置独立性,并结合快速局域网,比传统的网络文件系统能提供更好的性能和可扩展性。另外,由于任一台服务器可以承担出现故障部件的责任,因此可以通过采用冗余数据存储提供高可用性。提高可用性是分布式并行文件系统的主要设计目标之一,在整个系统中,多个节点相互协调工作,某节点出现故障后,其它节点仍能继续服务。为了满足这一要求,我们采用了基于数据冗余的日志恢复机制。当系统中一个或几个节点的失效,不会影响系统的正常服务。所有系统中的共享资源,将根据用户的需求存在多个副本,并且由系统自动保证这些副本的一致性。当系统中某台机器出现故障后,对该文件的访问将自动转移到其它服务器上这些文件的副本。当这台机器重新被修复后,日志系统将恢复其故障期间未完成的操作,以保证系统的一致性。本文首先介绍各种分布式文件系统的发展概况,然后介绍了DPFS设计的系统体系结构和逻辑结构,接着指出了采用日志管理系统的必要性,以及分布式环境下日志管理系统的特点,提出了系统的设计目标;然后具体阐述了系统模型以及设计方案,并作了系统测试。最后,总结全文,并对以后的研究做出了展望。

渠文龙[3]2014年在《基于Hadoop的海量网络流量日志处理技术研究与实现》文中指出伴随着网络的高速发展,大数据时代的降临,海量网络流量数据的处理需求也应运而生。为满足海量网络流量数据的处理需求,对网络流量进行有效、深入地分析,实现对网络流量有力监管,需要针对骨干网进行网络流量日志的高效采集然后再对网络流量日志进行高效地分析处理。对网络流量日志的多维度统计分析,可以深入了解网络的运行及使用状况,以调整策略提高网络质量;对网络流量日志的深入挖掘分析,可以发掘用户上网特点及偏好,可以深入了解用户需求,以高效服务提高用户满意度。因此,该课题研究了网络流量日志的处理技术,并最终实现了基于Hadoop的HAMANT海量网络流量日志分析系统(由关键英文单词首字母缩写而成)。本文首先介绍了课题背景与意义,日志处理技术现状,另概述了与课题相关的一些关键技术,包括大数据、DPI、Hadoop、Hbase、数据挖掘等。随后依据课题需要,结合应用场景对海量网络流量日志处理技术进行了需求及功能分析,给出了HAMANT日志分析系统的整体框架,并给出了其中日志采集、日志预处理、日志存储、日志统计分析、日志挖掘分析、报表展示等模块的详细设计。最后,进行了该系统各项性能测试,并结合对某重点高校骨干网的海量网络流量的处理进行了效果展示,证明了本系统对于海量网络流量日志的处理能够达到较好效果,而且还具有一定可扩展性。本课题对于网络流量日志技术进行了较为深入地探究,并最终设计出基于Hadoop的HAMANT日志分析系统。该系统对网络流量日志采集加入了DPI协议识别引擎,使网络流量日志采集丰富而高效;日志存储、处理部分采用分布式处理,支持自动备份、容错,克服了传统的日志单机处理计算速度慢、存储空间不足、服务器压力较大的问题;将数据挖掘中的聚类算法进行了分布式实现并加入系统,实现了对于海量网络流量日志的深度分析,能发掘大量网络用户背后所隐藏的上网行为偏好。最后给出了系统性能测试及实际应用实验分析。

李崇欣[4]2011年在《分布式数据库HBase快照的设计与实现》文中提出随着计算机网络技术的迅速发展以及信息技术的深层次应用,计算机所存储的信息量呈爆炸式增长,云计算与分布式系统已经成为了大数据量处理的主要趋势。作为分布式系统的一种,分布式数据库为结构化的大数据提供了随机访问、实时读写的功能,相比于单机系统,它具有高性能、高可靠性、低成本以及易扩展的优点,因此在大型互联网公司中得到了广泛的应用。而另一方面,作为系统某一时刻的完全状态,快照是系统在正常运行的情况下,在非常短的时间内创建的完整并且一致的系统镜像。快照不仅为系统提供了瞬时备份与快速恢复的能力,而且还可以应用于负载均衡、系统测试等多种场景。目前大多数文件系统以及数据库中都提供了快照功能,但是在分布式数据库中快照并没有作为一种基本的功能予以实现。在深入了解分布式数据库实现原理的基础上,本文首次在分布式数据库HBase上设计并实现了数据表的快照功能,主要分析并解决了快照过程中消息传递机制、快照执行速度、系统锁与同步机制以及异常处理等关键问题。通过利用底层文件系统以及日志系统的特性,不仅使得快照的创建能够在较短的时间内完成,而且将快照所占用的存储空间以及对系统的影响降到了最低。同时,本文也设计并实现了快照的恢复及导入导出等相关功能,通过对快照的恢复,我们可以将一个数据表快速恢复到快照创建的时刻;而通过快照的导入导出,则为我们提供了一种分布式数据库在不停机的状态下物理备份的手段,从而加快了分布式数据库备份的速度。在本文最后的测试结果与分析中我们也可以看出,HBase的快照能够快速的创建与恢复,基本达到了预期的功能。

王倬[5]2004年在《分布式文件系统多级容错机制的研究与实现》文中研究说明文件系统是任何一个操作系统的关键部分之一。它负责对系统中的各种资源进行管理,并提供程序存储和数据存储能力。分布式文件系统DFS(Distributed File System)不但具有传统文件系统的服务能力,而且具有资源共享、高可靠性、高可用性、高吞吐量、高存储容量等优点。目前,DFS 已经得到了越来越多的研究者的关注,并日益成为分布式系统研究中的热点。DPFS(Distributed and Parallel File System)是电子科技大学8010 研究室自主开发的分布式并行文件系统。它与分布式调度、分布式数据库等一起构成了分布式并行系统平台DPLinux。作为DPLinux 的重要组成部分,它提供了面向服务器的分布式资源管理能力。在DPFS 中存在多个服务器节点,每个节点逻辑上是完全对等的,没有主从的区别。DPFS 提供完整的功能接口,并隐藏了内部的技术实现细节,在使用上与普通的文件系统完全一致。它基于Linux 内核设计开发,不仅具有Linux 服务器的兼容性和处理能力,而且具有很多DFS 的优点。容错机制是DPFS 中不可缺少的重要组成部分。当DPFS 中的节点出现故障时,容错机制负责对故障进行检测,并最终将故障节点恢复到与其他正常节点一致的状态。因此,容错机制是DPFS 稳定性和可靠性的基础和保证。本文在深入研究的基础上,阐述了DPFS 的总体设计思想,重点讨论了DPFS容错部分的设计与实现。在分析了传统的分布式容错机制的不足后,本文提出一种复合型的多级容错机制。该机制主要包括操作集自检测与恢复、实时远程容错和日志容错叁个部分。操作集自检测用于检测节点故障并保存错误信息;操作集自恢复提供了对故障进行本地及时容错的能力;实时远程容错采用通信方式对远程节点故障进行及时容错;日志容错机制通过日志记录和日志恢复机制负责解决持久性故障问题。DPFS 容错部件在功能上形成了并行的叁个容错级别;在执行逻辑上优先运行效率高、开销小的容错部件;在设计上采用了同步容错设计、远程恢复模型、日志空间索引、基于Agent 的日志动态恢复协议等策略。既保证了对系统故障的高容错能力,又考虑了整体性能的优化。

白超[6]2013年在《基于并行计算的海量日志分析系统实现》文中认为日志是关于系统或者软件状态的相关记录,使用日志文件可以帮助用户更好的了解系统及软件当前的运行状态。日志文件通过记录程序在运行的状态,便于在部署之后进行系统安全的维护、系统性能的优化、系统故障的排查。传统的日志工具在技术方面存在诸多缺陷,处理效率低下,无法满足日益增长的海量数据。基于并行计算的海量日志分析系统应运而生,在深入研究不同类型日志文件特点的基础上,设计并实现了一个基于并行计算,分布式存储,实时和非实时分析的海量日志文件分析系统,具有较高的研究价值。本文首先对国内外在海量日志研究领域的研究情况和发展趋势做了充分的调研和分析,在此基础上提出了一个基于并行计算技术的海量日志文件解决方案模型。该模型采用集群方式并行的收集日志、分布式文件系统进行存储、并行计算MapReduce模型针对日志进行非实时处理、ElasticSearch模型针对日志文件进行实时检索,实现了日志采集,分析的完全自动化处理,有效的解决了传统方式下日志文件处理过程中存在的问题。系统基于Hadoop海量数据的处理模型,针对自身业务即网络会议系统的需求进行设计,搭建了通用的系统框架,同时系统对外提供的服务调用,弥补了传统日志分析技术上的缺陷,用户可以针对自身的需求进行二次开发,具有很大的灵活性,进一步贴近了实际的应用场景。基于并行计算的海量日志分析系统有效解决了海量日志数据处理过程中存在的主要问题,结合并行计算模型有效的提高了日志分析的效率,在当前数据量的爆炸式增长的大环境下具有很强的现实意义和应用价值。

林伟兵[7]2011年在《智能网络存储系统(INSS)存储虚拟化技术研究》文中研究说明随着网络上数据信息的“爆炸式”增长,数据存储的高效性和可靠性需求给计算机工作者带来了巨大的技术挑战。目前人们对数据存储的需求已经发生了很大的变化,这些变化主要表现在:首先,由于电子商务、网络游戏、图像处理、数据仓库等大量以数据为中心的网络应用系统的出现,对网络存储系统的容量有巨大的需求;其次,网络技术和计算机技术的发展使得应用系统对数据的高可靠性提出了新的要求;另外,为了应对超大规模数据量,还存在如何对数据进行高效的管理等方面的需求。因此,研究大容量、高可靠性和高性能的网络存储系统有重要的理论意义和实际意义。现有的网络存储技术中,直接连接存储DAS(Direct Attached Storage)、联网存储系统NAS(Network Attached Storage)和存储区域网络SAN(Storage Area Network)已经很难满足人们对数据存储需求的变化,论文作者课题组正在研究的智能网络存储系统(INSS,Intelligent Network Storage System)是针对现有网络存储系统中存在的问题,结合网络存储技术未来的发展趋势提出的一种新的网络存储解决方案。INSS采用存储虚拟化技术从物理和逻辑上扩大存储系统的容量,运用并行化技术提高整个系统的读/写文件的性能,通过智能化算法解决单点故障和性能瓶颈等问题,可以实现网络存储系统的高性能、高并发性、负载均衡、高可靠性和自组织以及自管理能力。在该课题研究中,本文作者的研究任务是对智能网络存储系统(INSS)进行存储虚拟化研究和设计,目前所做的主要研究工作和取得的研究成果如下:(1)给出了一种(INSS)智能网络存储系统的基本架构,在此基础上设计和实现了智能网络存储系统中元数据服务器的叁层结构。(2)提出了一种采用mmap内存映射文件技术来实现cache系统中元数据持久化存储的新的设计方法。(3)提出了一种基于单线程与有限状态机相结合的方式来处理CPU型数据的新思路和设计方案;另外,通过cache系统和LRU淘汰策略的设计来提高数据库支持并发访问的线程数目,有效地解决了数据库访问性能瓶颈的问题。

马盈[8]2013年在《基于MapReduce构造多维数据及关联规则挖掘算法的研究与应用》文中提出随着互联网大数据时代的到来,海量数据的处理成为诸多领域亟待解决的技术瓶颈。而以MapReduce为代表的一系列云计算技术,为这类问题提供了优秀的解决方案。越来越多的互联网应用都选择与云计算技术结合,以提升自身服务的可扩展性和处理能力,来应对海量数据带来的压力和挑战。本文的主要研究内容是在详细分析多维数据特点的基础上,基于MapReduce分布式计算模型和Hadoop分布式架构,提出了并行构造多维数据的方法,同时针对多维数据的的典型应用,提出并实现了一种高效的并行多维关联规则挖掘算法。本文首先介绍了多维数据的基本概念、形式化描述和相关应用,以及关联规则的定义、分类和挖掘过程,并对多维关联规则挖掘进行了详细的阐述。然后,在分析MapReduce计算模型的原理和特点的基础上,提出了基于MapReduce并行构造多维数据的方法;通过分析各经典关联规则挖掘算法的特点和局限性,提出了基于Apriori的并行多维关联规则挖掘算法。之后,通过模拟实验对算法的性能进行评估,并对MapReduce模型的数据流进行调优。实验结果表明,与单机执行的方式相比,并行构造多维数据方法的效率更高,具有更好的稳定性;并行多维关联规则挖掘方法在提高效率的同时,还减少了对数据文件的扫描次数,大大降低了系统的I/O负荷。

肖俊良[9]2014年在《基于云计算的WEB日志分析系统的设计与实现》文中指出随着网络技术与电子商务技术的迅猛发展,运行在互联网之上的各种应用和服务也随之大量涌现。WEB已成为当今世界上最大的信息系统。作为WEB系统的重要组成部分,WEB日志用于保存人们浏览的网页记录。随着使用WEB系统的人数的急剧增加,WEB日志数量也在飞速的增长。如何通过数据分析技术以及数据挖掘技术,快速的从海量的WEB日志中提取有意义的信息,成为商业界和学术界关注的重要研究课题。为了能够对WEB日志进行有效的分析和挖掘,人们设计并实现了很多WEB日志分析系统。这些WEB日志分析系统主要是基于单机服务器的,单机服务器无论是CPU的性能、I/O性能还是存储方面的性能,都是非常有限的。对于海量的WEB日志数据而言,仅仅依靠于单机系统进行分析与挖掘已经远远不能满足WEB日志分析的实时性要求。针对这个问题,本文设计并实现了一套基于云计算的海量WEB日志分析系统,作为典型的云计算应用框架,Hadoop可以利用多个机器实现分布式计算功能,提高WEB日志分析的实时性;同时Hadoop支持分布式存储与并行访问技术,能够加快WEB日志访问的效率。因此本文研究并实现基于Hadoop框架的分布式WEB日志分析系统,利用分布式计算和分布式存储,实现对云计算集群中海量数据的分析。具体的说本文主要研究工作包括以下几点:首先,深入学习并掌握Hadoop的核心技术以及整体框架,包括HDFS(分布式文件系统)和Map/Reduce(分布式计算框架),理解分布式集群的整体构架。其次,研究如何将传统的串行算法进行并行化设计,使之能够运行在云计算平台之上,加快算法的运行速度,提升系统处理海量数据的能力。本文主要实现WEB日志统计工作的并行化、查询算法的并行化设计。利用MapReduce编程框架实现这些并行算法。最后,设计并实现了一套基于云计算的WEB日志分析系统,系统主要实现了日志收集模块、日志预处理模块、日志存储模块、日志统计模块和日志查询模块。

卢坤[10]2015年在《云平台上日志存储与分析系统关键技术研究》文中研究说明出于商业模式的需要,电子商务、社交媒体、视频点播等网络应用都会对用户日志进行收集并用于用户行为分析、商品推荐、精准营销等目的。而随着数据量的不断增大,传统的数据分析方式很难满足要求,各大公司更倾向于在云平台上完成日志的收集、整理、分析等过程。这也为云计算平台提出了新的要求,主要包括以下几个方面:1)一个更灵活的存储系统,目前业界最流行的文件系统HDFS是针对数据分析而设计的,其特点是数据分块存储、一次写入多次读取,并不适合日志数据这种多客户端追加和读写并行的模式;2)更高效的数据分析框架。对于推荐系统,搜索引擎等需要在较快的时间内完成数据处理的应用,需要根据数据处理的特点选择相应的计算框架,来实现更高的计算效率。本文基于以上对于云平台上日志系统中出现的新需求,对于云平台上存储系统和计算系统进行了深入的研究。论文的主要工作及创新点如下:1.针对日志收集和分析过程中的写写、读写并行的需求,在分析多种分布式存储系统的基础上,基于HDFS提出了一种支持读写、写写并行的文件系统HDFS+。该方案采用顺序一致性模型,只保证每个客户端各自写入数据的顺序,以此增加客户端之间的并行度,另一方面,HDFS+使用快照技术来实现读写并行。实验证明,叁个节点并行写入同一个HDFS+文件的速度是单客户端写入速度的1.6倍以上。2.针对MapReduce框架中迭代计算效率不高的缺陷,提出了Iter-Hadoop迭代计算框架。在Iter-Hadoop中,我们以服务的形式提供map和reduce的功能,并在此基础上提供了基于内存的共享缓冲区和分布式缓冲区来对迭代过程进行加速。此外,我们还根据迭代程序执行的历史信息,优化reduce阶段数据收集和排序的过程。实验表明,和MapReduce框架相比,Iter-Hadoop计算框架能够明显提高迭代程序执行的效率。3.针对MapReduce处理批量数据过程中需要处理整个数据集的缺点,提出了Inc-MapReduce增量计算框架。Inc-MapReduce通过保存程序执行的中间结果加速批处理过程。实验证明,对于Grep和WordCount批处理程序,Inc-MapReduce在我们的实验环境下,原始数据60GB增量数据256MB的情况下能够提供7倍以上的加速比。

参考文献:

[1]. 分布式并行文件系统的研究[D]. 何进. 电子科技大学. 2004

[2]. 分布式并行文件系统的日志管理[D]. 吴华. 电子科技大学. 2004

[3]. 基于Hadoop的海量网络流量日志处理技术研究与实现[D]. 渠文龙. 北京邮电大学. 2014

[4]. 分布式数据库HBase快照的设计与实现[D]. 李崇欣. 浙江大学. 2011

[5]. 分布式文件系统多级容错机制的研究与实现[D]. 王倬. 电子科技大学. 2004

[6]. 基于并行计算的海量日志分析系统实现[D]. 白超. 安徽大学. 2013

[7]. 智能网络存储系统(INSS)存储虚拟化技术研究[D]. 林伟兵. 华南理工大学. 2011

[8]. 基于MapReduce构造多维数据及关联规则挖掘算法的研究与应用[D]. 马盈. 东北师范大学. 2013

[9]. 基于云计算的WEB日志分析系统的设计与实现[D]. 肖俊良. 电子科技大学. 2014

[10]. 云平台上日志存储与分析系统关键技术研究[D]. 卢坤. 中国科学技术大学. 2015

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

分布式并行文件系统的研究——分布式并行日志系统的设计与实现
下载Doc文档

猜你喜欢