基于MPI和MySQL的并行数据库系统的研究与实现

基于MPI和MySQL的并行数据库系统的研究与实现

王璟[1]2004年在《基于MPI和MySQL的并行数据库系统的研究与实现》文中认为在数据库技术不断发展的今天,数据量也在不断膨胀,现有的串行数据库技术已经越来越无法适应数据增长的要求。因此,象众多其他领域一样,并行化成为提高数据库系统性能的必然手段。本文创新性地提出了以MPI和MySQL相结合来创建并行数据库系统中间件的思想,其核心就是要在MPI及MySQL与上层用户层之间建立一个并行数据库系统的中间件。该中间件的作用就是屏蔽MPI和MySQL操作并向上层提供并行数据库操作界面。在该创新性思想指导下,本文还创新性地对并行集群搭建软件OSCAR进行了彻底的尝试,打破了以往的集群安装的繁琐模式,为中心今后的科研工作提供了一条很好的通路。本文的主要研究成果如下: 1.在构建集群过程中创新性地采用了开放源码的软件包OSCAR(Open Source of Cluster Application Resource)进行集群系统的构建。 2.在OSCAR的基础上建立了一整套软件硬件的研究平台。 3.提出了基于MPI和MySQL的并行数据库系统的中间件软件M~2的理论框架。 4.实现了很多并行数据库查询操作模块。如并行排序、并行选择、并行连接、并行投影。 5.实现了很多提高系统可用性的重要模块。如批量载入模块、格式化输出模块、用户登陆模块。 6.对整个系统在多种平台下进行全面的测试并进行了详细的测试结果分析,整理出了提高整个系统性能的关键点。

胡东旭[2]2013年在《基于MPI的多层容错高性能云计算平台关键技术研究》文中研究指明随着全球信息化浪潮的推进和计算机应用技术的不断迭代更新,各行业需要处理的信息量越来越大,尤其实在航空航天、海洋开发、天气预报等诸多领域,数据规模已经达到TB甚至PB级,而如何存储并处理这种规模的数据显得至关重要,为了解决这一问题,引入云计算平台这一概念。一方面,对于云计算平台而言有两个特点,一个是能分布式存储大数据,另一个特点是将视任务执行失败为正常情况;但另外一方面,许多云平台不适用于低延迟服务,并且在面对计算密集型任务时候显得效率不高,而MPI擅长计算密集型,并且通信迅速,消息传递延迟少,因而用MPI实现一个云平台则显得十分有意义。在本研究当中将主要研究如何构建并实现能够支持大数据存储存并拥有多层容错功能的MPI云平台。针对上述问题,本文提出并实现出一个基于MPI的云平台,为了让此平台能够支持大数据存储,因而实现了一个由MySQL构建的分布式集群,并且多个MySQL节点存储不一样的数据,在此之上增加一个数据库中间件层,以便能将这些数据库节点联立在一起。而用户在使用的时候,并不需要考虑此存储架构,使用起来就和单个MySQL的效果是类似的。另外一方面,考虑到MPI自身没有提供响应的容错机制,因而本研究者设计出3层容错机制,分别是:任务失败重调度、任务的CheckPoint/Restart以及进程迁徙,并且将此容错机制独立分离出接口,以便平台开发者可以依据自身需求来定制其具体需求,也便于对此功能进行二次开发,而对于用户而言,则可以依据其实际需求来设定容错级别。经过测试和评估,证明基于MySQL的分布式集群之上运行的数据库中间件能够处理用户的SQL请求,实现数据的查找以及基本的增删改功能,并且本平台可以很好地应对节点服务失效问题并能最终给用户反馈正确的结果。原型系统的可行性、可靠性、健壮性、高效性均达到设计预期。

王璟, 张云泉, 李玉成[3]2004年在《基于MPI和MySQL的并行数据库系统搭建》文中提出1引言并行数据库系统(Parallel Database System)以高性能、高可用和高扩充为目标,充分利用多处理器平台的工作能力,多个处理机协同处理,以达到更快的数据库响应速度和分析能力。

吕翔[4]2007年在《基于MPI的集群系统用户信息处理》文中进行了进一步梳理本论文在联想深腾集群系统平台下,基于MPI(Message Passing Interface消息传递接口)并行程序设计技术,开发并实现了一个用户信息处理系统,用于对集群系统中计算结点上的用户资源使用情况和用户登录情况进行监测与管理。本论文主要分为叁个方面:第一方面介绍MPI并行程序设计的相关内容,这是在集群系统上执行并行查询操作的基础。其中包括并行计算及并行程序设计的基本概念、MPI及MPI并行计算环境介绍,此外还给出了一个用并行算法实现的矩阵相乘的实例,并与传统的串行算法进行了比较。第二方面实现了单结点上的用户资源使用情况和用户登录情况的处理,这是对集群系统中多结点进行的操作的基础。主要分为叁个模块实现:用户信息采集及处理模块、信息入库模块和显示模块。其中通过集群系统使用的Linux操作系统所提供的一些核心命令来完成信息的采集和处理,通过对服务器端MySQL数据库的操作完成信息的入库,最后通过JSP编程技术将入库信息以Web网页形式显示在客户端。第叁方面将第一方面MPI并行程序设计技术和第二方面单结点用户信息处理结合起来,实现了在集群系统中查询多结点的用户信息,最后给出整个用户信息处理系统的测试过程和操作说明。本论文主要阐述了该用户信息处理系统的开发背景、实践意义、设计方案、实现技术与过程以及最终的测试使用过程。

梁青云[5]2004年在《基于Linux集群并行应用程序监控技术的研究》文中进行了进一步梳理随着高性能计算的快速发展,集群系统在科学计算中的比重也越来越大,因此对集群系统的使用也提出了更高的要求。本文在深入研究目前集群系统状况的基础上,提出了一种以/proc文件系统为基础、运用MySQL数据库和GTK+图形库技术,构建实用性、通用性和易用性均较高的并行计算监测工具的实现方法。它可以将各个节点的状态,并行程序的执行状态实时、准确、清晰的呈现给用户,并且提供了并行应用程序的接口,可以将并行程序的执行、中止、重发等功能在图形界面上给予实现。 首先,本文分析并设计了基于Linux操作系统的集群监控系统,给出监控系统实现的软件模型,并在此基础上对监控系统各个部分给出实现方法。 结合GTK+图形界面库,本文实现了监控的可视化,使用鼠标即可完成集群的管理操作;通过MySQL数据库系统,本文对监控得到的数据进行保存和管理,方便用户优化、分析并行程序。 其次,在研究MPICH并行环境的基础上,把MPE集成到本文的监控系统中,实现了并行程序的量化分析。 最后,从两个方面对本文的监控系统进行了分析、测试,并提出改进之处。

阴斐[6]2005年在《LINUX集群可视化监测工具的研究与实现技术》文中进行了进一步梳理在现代科学技术的许多领域中,存在着大量必须用高性能并行处理机才能够解决的挑战性课题。PC集群系统以其硬件资源丰富、成本较低、可扩展性好、软件资源可继承且构造相对简单等特点,成为大多数普通用户进行并行处理工作的重要选择。随着PC集群系统广泛地应用,系统中软硬件不断地增加,当系统达到一定规模时,对其综合性能要求就会显得越来越重要。此外,并行程序的设计要远比串行程序设计复杂,涉及到对硬件的理解、流水线、并行任务的分解、进程的划分以及进程之间的通讯等问题。为了提高集群的性能和用户应用程序的运行效率,对运行中的集群系统实施有效地监测是十分必要的。 本文通过对现有监测技术的分析,以lm-sensors、/proc文件系统、MPE为基础、结合MySQL数据库和Kylix,在采用InfiniBand第叁代技术的20PC集群系统上实现了一个实用的可视化并行程序监测工具,具有以图形方式实时显示硬件信息和系统节点负载信息以及根据并行程序执行过程中产生的log文件以图形化方式重现程序执行过程的功能。该工具基于Client/Server模式,把被监测节点作为服务端(Server),而把监测节点作为客户端(Client)。服务器端做为一个后台守护进程运行,在节点机开机的时候自动运行,常驻后台,收集节点的负载信息,定时将信息发送给主控机,由主控机将这些信息进行处理并以图形方式显示给用户。 监测系统采用对系统性能影响较大的CPU温度、系统风扇转速、CPU利用率、内存利用率、不同时间间隔计算的系统平均负载和网络传输率等数据作为监测的参数。 使用/proc系统获取节点负载信息,其优点是:能够以极小的开销获取比较全面的信息,其中包括处理机、存储空间、I/O、网络、文件、进程等,并且全部是最新的实时信息。同时系统中任何时刻正在运行的每个用户级进程在/proc下都有一个相应目录,其名称为进程号,其中存放着该进程的相关信息。用户通过文件名查找所对应的进程ID,定期访问/proc中的相关文件以得到该进程的系统利用情况。

权琳[7]2013年在《中医案例自测系统并行数据库的设计与实现》文中认为随着互联网的迅猛发展,传统数据库技术不能完全有效地组织和管理种类繁多的海量级数据信息。如今,并行计算技术的日渐成熟,并行计算的优势渐渐被人们所了解,并行计算技术的实际应用范围也不断扩大。由于关系数据库的先天并行性特征,众多学者和专家对关系数据库提出了优化方案,即就是并行数据库。本文在中医案例自测系统应用中进行研究,基于中医案例自测系统的特点,设计一个并行数据库。本文首先介绍了并行数据库技术的研究现状、目前仍然存在的问题以及应用到此系统中的可行性。然后介绍了并行数据库的概念及其所研究的问题和实现目标。接着,本文又深入研究并选择了适合此中医案例自测系统特点的并行数据库的实验平台、体系结构和实现模型,选择Round-Robin(轮转)法作为数据分布的方法。把更快的数据库的响应速度和分析能力作为最终实现目标,对基于Round-Robin法的并行选择算法和基于数据划分的并行排序算法进行了优化,并设计了基于排序归并的并行连接算法。本文以集群为实验平台,设计实验并分析了中医案例自测系统并行数据库相对于传统数据库的优势。基于本文提出的并行数据库和传统串行数据库的比较,实验数据结果表明并行数据库系统相对于串行数据库系统有性能上的优势,并且增长的数据量反而会更好的体现系统的性能和更快的事件响应时间。

冯睿[8]2014年在《基于位图索引的FITS文件分布式存储与索引技术研究》文中指出大多数天文观测中产生的数据是以FITS (Flexible Image Transport System)文件的形式存储的,这种文件格式在全世界范围内被用于保存和交换数据。由于大量的大型多通道多波段天文望远镜的应用,当今天文观测产生的FITS文件的数量激增,这为如何存储和快速检索如此数量惊人的文件提出了挑战。在以前,这止匕FITS文件是没有被索引的。它们被直接存在硬盘或者其它存储介质上。当一个硬盘存满的时候,会被换上一个新的,被替换下来的硬盘将会被存放在一个专门用于存放使用过的硬盘的仓库内。这些硬盘的替换工作都需要由人工来完成,造成了人力资源的浪费。而且这些被替换下来的硬盘当然不是联机的,所以查询在它们上存储的文件是一项困难的任务。所以只有当查询条件是一个日期或是一个时间段,才有可能比较容易获得查询结果,而像锥形检索这样复杂的检索条件很难被完成。这种由数量激增的FITS文件所导致的问题曾经被数据库管理系统(DBMS),如MySQL和Oracle等所解决。但是随着文件的数量越来越快地增长,传统的数据库管理系统无法跟上文件数量增长的脚步。这使得索引和查询所花费的时间也越来越长。本文介绍了使用分布式存储系统来解决FITS文件存储问题的方法,介绍并通过实验对比了几种分布式文件系统。通过对实验结果的分析,得出了类似GlusterFS和Lustre这类的对文件的写入性能表现得较好的分布式文件系统更适合用于存储在持续天文观测中不断产生的海量的FITS文件的结论。并且最终选取了GlusterFS作为FITS文件分布式存储系统所使用的分布式文件系统。在解决FITS文件的检索问题上,本文提出了使用位图索引的方式加速FITS文件的检索,并通过将FastBit位图索引技术应用在分布式系统上,开发了FITS文件分布式索引系统,实现海量FITS文件的快速索引和查询。本文通过实验证明了FastBit位图索引技术在解决海量FITS文件索引的问题上有其性能优势,并证明了在FITS文件分布式存储的情况下,基于FastBit位图索引技术的FITS文件索引与查询系统能很好地发挥多机协作的优势,能较大地提高海量FITS文件的检索速度。

王飞[9]2012年在《云计算环境下面向MPI应用的服务部署系统》文中研究指明随着虚拟化技术和云计算技术的发展,越来越多的科学计算应用运行在云计算资源之上。MPI编程模型是一种消息传递编程模型,大多数科学计算应用都是基于这种消息传递编程模型的高性能计算应用,其对网络I/O负载较为敏感。MPI应用是一类广泛应用的由多个进程协同工作的并行计算应用,在云计算环境下,其进程运行在多个不同的虚拟机之中。在IaaS模式下,通常采用虚拟化技术将物理机分割为多个独立的虚拟机,如何将多个虚拟机部署成为满足MPI应用程序的并行计算环境,以及如何调度组成该并行计算环境的多个虚拟机,是云计算环境下运行MPI应用程序所面临的重要问题。针对上述这个重要问题,实现了云计算环境下面向MPI应用的服务部署系统,并设计了一种基于网络I/O负载均衡的虚拟机放置算法作为系统的虚拟机调度算法。系统的核心模块面向MPI应用的虚拟集群创建模块解决了IaaS模式下独立虚拟机不能满足MPI应用的问题,并在该模块的基础之上实现了面向MPI应用的作业托管功能。创建面向MPI应用的虚拟集群的基本思路:将虚拟集群所需的组件预先部署到虚拟机镜像中;基于虚拟机模板,调用IaaS的接口创建多个虚拟机,采用SSH远程操作技术动态配置虚拟机中的组件,使其正常工作。基于网络I/O负载均衡的虚拟机放置算法的基本思路:基于监控信息预测MPI应用对网络I/O的消耗;采用二分搜索算法搜索物理节点的网络I/O负载上限,在此限制之下,建立以虚拟机和物理节点为顶点的有向网络图模型,最后基于该模型求解虚拟机放置矩阵。基于Linux操作系统和Apache平台,采用Python、HTML、JavaScript等语言,实现了云计算环境下面向MPI应用的服务部署系统。功能测试表明:系统实现了创建面向MPI应用的并行计算环境虚拟集群和面向MPI应用的作业托管功能。性能测试表明:与贪心算法进行比较,在作业消耗的计算时间、单位时间内系统总的网络I/O吞吐量、系统的网络I/O负载均衡叁个方面,基于网络I/O负载均衡的虚拟机放置算法均有更好的表现。

朱强[10]2018年在《基于工作流的高性能地学计算通用服务平台实现及应用》文中认为空间数据获取技术的快速发展产生了大量的空间数据,给数据处理过程带来较大的压力,而高性能地学计算技术以其强大的计算性能在空间信息处理中发挥着重要作用。然而,目前高性能计算技术具有计算平台异构多样、地理分布、编程模型多样、处理过程繁杂等特征,使得人们在使用高性能计算技术进行数据处理时,需要掌握与该技术相关的一些技术细节。与此同时,空间信息应用处理过程被不断细分并且逐渐变得更加复杂。以上问题无疑增加了研究成本和处理操作的复杂程度,因此,如何构建一个基于高性能地学计算且能够自动创建和执行包含诸多中间环节的空间信息处理流程的平台,是一个值得研究的课题。Web Service是一种跨编程语言和操作系统平台的远程调用技术,用户不必过多关注服务的内部实现细节即可使用服务提供的功能。工作流技术可以使计算机按照事先定义的由多个子任务组成的业务流程。将Web Service和工作流应用于空间信息处理无疑会为使复杂的空间信息处理过程更加的简单。综上,本文考虑基于高性能计算的空间信息数据处理过程中的处理子任务多,处理过程繁琐,以及计算资源异地分布且异构等特性,基于Web Service和Activiti5工作流技术,构建基于工作流的Web服务链处理流程。该平台将多个处于不同地理位置的高性能计算平台上的独立的Web服务连接起来,形成一个完整的处理流程,以简化复杂空间信息处理过程的复杂操作;它结合高性能计算技术提高流程的处理效率,并且依托构建的Web平台可以快捷地实现具体的应用。本文主要研究内容如下:(1)分析平台设计的背景需求和功能需求,基于Java Web和Activiti5工作流相关技术设计并实现本研究所提出的基于工作流的高性能地学计算空间信息服务平台。(2)基于Web Service技术,借助开源的流行工作流引擎Apache Axis2,设计高性能计算空间信息算法服务的通用发布模式,以方便构建空间信息处理算法的Web服务。(3)以DEM数据的特征地形要素中山脊线、山谷线提取的空间信息处理应用为例,从数据获取到数据处理,将整个处理流程具体细分。分步处理过程不仅有基于ArcGIS和python建立的串行处理模块,也有基于不同HPC平台不同并行方式的并行处理模块。这些分步处理模块将被发布并被部署在本文平台上,并以工作流驱动的方式运行。通过与采用传统处理方式对DEM数据处理应用实例的对比测试,发现本文研究的方法具有方便快捷、准确高效之优势,初步达到了设计要求。

参考文献:

[1]. 基于MPI和MySQL的并行数据库系统的研究与实现[D]. 王璟. 中国科学院研究生院(软件研究所). 2004

[2]. 基于MPI的多层容错高性能云计算平台关键技术研究[D]. 胡东旭. 武汉理工大学. 2013

[3]. 基于MPI和MySQL的并行数据库系统搭建[C]. 王璟, 张云泉, 李玉成. 第二十一届中国数据库学术会议论文集(技术报告篇). 2004

[4]. 基于MPI的集群系统用户信息处理[D]. 吕翔. 北京化工大学. 2007

[5]. 基于Linux集群并行应用程序监控技术的研究[D]. 梁青云. 郑州大学. 2004

[6]. LINUX集群可视化监测工具的研究与实现技术[D]. 阴斐. 郑州大学. 2005

[7]. 中医案例自测系统并行数据库的设计与实现[D]. 权琳. 西北大学. 2013

[8]. 基于位图索引的FITS文件分布式存储与索引技术研究[D]. 冯睿. 昆明理工大学. 2014

[9]. 云计算环境下面向MPI应用的服务部署系统[D]. 王飞. 华中科技大学. 2012

[10]. 基于工作流的高性能地学计算通用服务平台实现及应用[D]. 朱强. 电子科技大学. 2018

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于MPI和MySQL的并行数据库系统的研究与实现
下载Doc文档

猜你喜欢