提高机群OpenMP系统性能的关键技术研究

提高机群OpenMP系统性能的关键技术研究

吴少刚[1]2003年在《机群系统OpenMP研究》文中研究指明由于性能价格比高和可扩展好等特点,基于COTS技术的机群系统逐渐成为并行计算的主流平台。目前消息传递编程是机群系统上主流的编程模型,而在机群系统上寻求共享存储编程乃至支持自动并行一直是并行计算的研究热点。OpenMP是共享存储体系结构的并行编程标准,易于编程且支持增量并行,因此研究在机群系统上支持OpenMP的共享存储计算环境非常有意义。可扩展性和可编程性是用来衡量并行系统处理能力的两个重要指标。这种并行计算环境结合了OpenMP语言的可编程性,以及机群系统的可扩展性,将极大地推动并行应用的开发和普及。本文采用编译时和软件DSM运行时相结合的技术路线实现机群OpenMP。其中软件DSM系统在机群的消息传递硬件上提供共享虚拟存储抽象,而编译器实现OpenMP语言到该编程抽象的翻译及优化。本文实现了一个机群OpenMP系统原型OpenMP/JIAJIA,具体组件包括一个源对源的编译器前端(OMP2JIA)和一个支持fork-join执行模式的OMP JIAJIA运行库后端。在透明支持OpenMP并行应用方面,本文的OpenMP/JIAJIA计算环境使得机群系统像硬件cc-NUMA结构的机器一样易用。本文着重研究了如何提高机群OpenMP系统的性能,分别从数据分布、循环调度和系统优化叁个方面提出了增强性能的方法。OpenMP标准所针对的UMA体系结构与类NUMA的机群体系结构存在着本质差异。例如,机群系统的内存层次结构以及互连的商品网络使得数据的本地访问和远程访问速度相差很大,所以数据分布模式和进程访问模式是否匹配直接决定了OpenMP应用的性能。本文以语言扩展的形式,提出了适合机群体系结构特点的数据分布策略、静态和动态循环调度算法,能方便有效地实现拥有者计算。另外,本文从程序员、编译器和运行库叁个环节上阐述了提高系统性能的途径,尤其是针对后端运行库做了许多优化工作,例如扩展OpenMP语言支持JIAJIA的写向量协议、Home迁移和数据预取,结合消息传递机制优化reduction归约操作等。对机群OpenMP系统进行客观评价需要一个覆盖面较广的测试程序集。本文收集了十二个应用程序,分别来自不同基准程序集,例如NAS、SPLASH2和SPEC等。该程序集包括用来测试制导开销的微程序,支持矩阵和偏微分方程等数值计算的核心算法程序,以及带有输入/输出、解决特定问题的应用级程序等。从程序的访存行为和通信模式看,这些程序包括规则和非规则应用、内存密集型和通信密集型应用等。本文从两个方面分析评价了机群OpenMP系统的实现。一方面比较了该计算环境和一个支持OpenMP的硬件cc-NUMA系统(SGI 2100服务器)的性能;另一方面比较了OpenMP和MPI两种编程模型在机群系统上的性能。测试结果表明,本文的OpenMP/JIAJIA原型系统在八个结点的PC机群平台上获得了与SGI 2100服务器相当的性能;在共享存储和消息传递的比较中,获得了MPI 82%的性能。本文的机群OpenMP

章隆兵[2]2004年在《提高机群OpenMP系统性能的关键技术研究》文中认为随着微处理器和高速网络技术的发展,机群由于性能价格比高和可扩展性好等特点,正逐渐成为并行计算的主流平台。适合机群的并行编程模型能够促进机群的广泛应用,从而促进并行应用的发展普及,成为当前关注热点。目前消息传递是机群上主流的并行编程模型。但是程序员在机群上使用消息传递编程相当困难,这一点阻碍了机群的广泛应用。一般认为,共享存储比消息传递易于编程。OpenMP作为当前共享存储的事实编程标准,具有易于编程和支持增量并行的特点。机群OpenMP系统在机群上提供了共享存储的OpenMP计算环境,它结合了OpenMP的易编程性和机群的可扩展性,引起了广泛的研究。由于机群通常采用廉价的商业网络互连,通信开销较大,机群OpenMP系统要想获得理想的性能较为困难,而具有良好的性能是它能否得到广泛应用的关键,因此如何有效提高机群OpenMP系统的性能成为当前研究热点。 本文研究了提高机群OpenMP系统性能的关键技术,并利用扩展OpenMP制导的方式进行了实现。机群OpenMP系统通过将OpenMP程序转换成软件DSM程序在机群上运行。基于Home的软件DSM系统在机群上构造了类似NUMA结构的共享存储抽象,针对这个特点,并借鉴了HPF语言,本文提出了数据分布制导扩展和充分利用拥有者计算原则的基于局部性的循环调度模式LBS和LBDS。由于数据分布制导扩展只适用于访存规则的程序,对于访存非规则的应用起不到作用。针对采用稀疏矩阵运算的一大类非规则应用,本文提出了indirect制导扩展以改善该类应用的性能。 本文对所提出的制导扩展进行了应用评测。测试结果表明使用这些制导扩展编程,既保持了OpenMP的易编程性,编程难度与循环级编程方式相似,又获得了与SPMD编程方式相当的性能,是机群上一种有效的编程方式。为了评价改进后机群OpenMP系统性能,本文在PC机群上将机群OpenMP系统OpenMP/JIAJIA与目前机群上主流的消息传递库MPI进行了比较。比较结果表明:在8个处理机运行时,相对于所测试的七个应用,机群OpenMP系统获得了相当于MPI的81%的性能。这个结果在一定程度上反映了机群OpenMP系统获得了与MPI可比的性能,但是采用OpenMP编程却比MPI要容易得多。

吴少刚, 章隆兵, 蔡飞, 顾丽红, 唐志敏[3]2004年在《机群Open MP系统的设计与实现》文中提出OpenMP以其易用性和支持增量并行的特点成为共享存储体系结构的编程标准 .目前机群系统已成为高性能计算的主流平台 ,研究机群OpenMP系统对推进并行应用的开发和普及非常有意义 .该文作者以软件DSM系统JIAJIA作为OpenMP的运行时系统 ,结合一个前端编译器OMP2JIA ,在机群系统上实现了OpenMP/JIAJIA计算环境 ,同时在提高性能方面根据机群系统特点扩展了OpenMP制导 ,优化了后端运行时库 .通过 11个OpenMP应用 ,作者比较了该计算环境和一个支持OpenMP的硬件cc NUMA系统 (SGI 2 10 0 )的性能 .结果表明 ,作者的机群OpenMP系统的 7机平均加速比为 4 .6 2 ;SGI 2 10 0系统为 4 .5 5 ,二者性能相当 .

孙权[4]2013年在《SAR图像并行处理技术研究》文中研究表明由于合成孔径雷达(SyntheticAperture Radar,SAR)成像技术的不断进步,所生成SAR图像数据量越来越大,其拼接处理所耗费的时间也急速增长。在国防军事、灾害预警等对实时性要求较高领域,传统的SAR图像串行拼接技术已经无法适应实际应用需求。论文主要研究了通过机群并行计算的方法来实现SAR图像的快速拼接,在保证处理效果的前提下,有效提高SAR图像拼接的效率。论文主要研究内容如下:首先,介绍了并行处理系统与SAR图像拼接技术各自的特点,并完成了机群并行系统平台的安装配置。研究了已有并行系统软硬件的安装配置,根据需要选取了适用本课题的软硬件。包括机群系统节点机配置、MPI的安装配置、OpenMP编程环境配置以及程序开发软件平台的配置等。其次,在机群并行系统中采用主从通信模式,对包括噪声去除和纠正不均匀光照在内的SAR图像并行预处理工作进行了并行实现,其中预处理工作中分别采用了基于TV模型的相干斑噪声抑制方法和基于同态滤波的图像增强方法。论文中分别对图像大小为1M、4M和16M的SAR图像在节点机数为2台、4台和8台的机群环境中进行了并行预处理实现,并对并行处理效果进行了对比分析。对基于TV模型的相干斑噪声抑制方法进行了OpenMP多线程并行改进,并分别在单机环境和4节点机机群环境中对不同大小SAR图像进行了对比实验。实验表明,论文中并行方法能在一定程度上降低SAR图像预处理的时耗,提高预处理效率。再次,提出了一种基于改进SIFT算法的SAR图像并行配准方法,并结合OpenMP多线性并行编程实现了基于该配准方法的SAR图像的并行特征提取。该方法针对SIFT算法的特点,采用在特征点检测之后添加预筛选步骤来达到减少后续步骤处理数据量的目的,在不影响特征提取效果的同时有效的减少了特征提取的时间耗费。最后,提出了一种基于分割的完全二叉树模型,即在传统完全二叉树模型的基础上增加图像分割处理思想,并通过此模型实现了SAR图像的并行拼接处理。与传统并行处理的两两分组方法不同,论文方法采用3副一组的分组方式,其中具体又分为SAR图像序列中图像数对3整除、余1和余2叁种情况,对于这叁种情况有不同的处理方法。论文以SAR图像序列图像数分别为3、4、5副为例进行了论文所提出的方法与传统方法的并行拼接效果对比实验,实验结果表明,论文所提出的方法在并行效率在总体上要优于传统方法。与传统方法相比,论文所提出的方法更具有高效性和全面性。

马冬冬[5]2010年在《遥感图象复原与超分辨并行处理系统设计技术研究》文中研究表明遥感图象在成像过程中,会受到模糊、噪声和云雾等因素的干扰,使图象质量退化,细节丢失,分辨率降低。同时,由模数(A/D)变换过程中欠采样所引起的频率混迭,会使图象高频信息丢失,产生频谱畸变,从而进一步降低图象的分辨率。图象复原与超分辨的任务就是尽最大可能地消除由这些因素所引起的图象质量退化,提高其清晰度、对比度和分辨率。本文在不改变成像系统硬件条件的情况下,力图通过地面处理的方法对遥感图象复原与超分辨并行系统设计及其算法实现技术进行创新性研究,探索能够快速高效地提高遥感图象分辨率的新技术。遥感图象复原与超分辨并行系统设计及其算法研究的内容主要分为硬件和软件两个部分,其中硬件部分包括体系结构的选择和硬件系统的构建,软件部分包括并行算法模型的建立、并行算法的实现及其性能优化。目前,并行技术的应用已遍布图象处理的各个领域,但其本身尚存在许多未解决的难题,如系统底层硬件差异大、代价高,算法标准不统一、移植性差等,阻碍了其应用和发展。对图象并行体系结构的研究是并行算法设计的基础,可实现算法到结构的最优转换。本文结合具体的算法和应用,对多种基于计算机和DSP的图象并行处理系统进行详细的分析、分类和对比,指出通用化和结构融合是图象并行处理系统发展的趋势,通用系统目前主要基于DSP和机群两种体系结构。其中,DSP适合于小规模图象并行处理的快速响应,而机群则适合于海量大尺度遥感数据的实时处理。在此基础上,利用图象复原与超分辨算法在两种结构上进行了实验分析和规模预测,结果表明采用DSP结构设计的硬件系统规模太大而难以进行管理和应用,因此选择机群作为系统实现结构。在基于机群的系统结构基础上,结合图象复原与超分辨算法的特点,可将图象复原与超分辨的并行硬件系统设计为由胖节点、Infiniband交换机和光纤磁盘阵列等设备组成的SMP机群系统。在该系统上,采用基于细粒度并行化的OpenMP与MPI相结合的混合编程模型,可以充分发挥OpenMP节点内细粒度并行和MPI节点间粗粒度并行的综合优势,获得较好的并行性能。本文随后建立该系统性能模型的表达式,给出处理器个数和系统加速比、效率之间的关系。对该模型的深入分析表明,处理器数目的增加存在限制,若超出该值,由此带来的通信开销的急剧增大将掩盖新加入处理器的贡献,反而会使系统性能降低。并行处理技术发展的现状是软件远远滞后于硬件,因此对图象复原与超分辨并行算法实现技术的研究具有重大意义。本文通过对并行算法设计中影响其性能的负载、通信和I/O叁大因素进行深入研究,建立表征通信代价的数学模型。根据该模型,对固有通信、附加通信、开销、延迟和冲突等产生的机理进行了讨论,指出合并通信是一个很好的优化策略,它能在提高通信性能的同时有效避免竞争和冲突。然后,根据I/O系统的结构,建立对应的抽象层次模型,给出各层的优化策略。最后根据图象复原与超分辨并行算法的特点,对其域分解方法进行研究,建立一种基于PPCTS结构的并行算法模型。在已建立的遥感图象域分解方法和基于PPCTS算法模型的基础上,可进行图象复原与超分辨并行算法的设计。在图象复原部分,本文提出一种基于PDE的并行扩散去噪算法,而在图象超分辨部分,则提出一种频域扩展与补偿并行超分辨算法。其中,基于二阶PDE的并行扩散去噪算法是建立在对PDE去噪相关理论和并行化技术深入研究的基础上,主要用来快速去除遥感图象中广泛存在的高斯白噪声和泊松噪声,实验结果表明该算法能够在滤除噪声的同时保护图象的边缘,其处理效果好、速度快,能够满足实时应用的需求。而频域扩展与补偿并行超分辨算法能够快速地解开频率混迭,进一步提高图象的分辨率,它在融合单帧频域内插与增强技术和频率补偿滤波器的基础上,对算法中计算量最大的FFT和矩阵相乘算法进行了并行化,因此不但能消除遥感图象中可能引起振铃现象的频率突变,拓展频谱,提高图象的清晰度、对比度和分辨率,还能够大幅度提高算法的处理速度。在具有4个处理器的并行机上进行的测试表明,两种算法的加速比都可达到3倍以上,并行效率高于75%,同时都具有较好的可扩展性。在使用2个处理器时,并行效率最高可达92.9%。

吴少刚, 章隆兵, 蔡飞, 胡伟武[6]2004年在《一种适用于机群OpenMP系统的有效调度算法》文中进行了进一步梳理OpenMP作为共享存储并行编程标准 ,以其良好的易用性、支持增量并行等特点成为并行程序设计的主流模型之一 OpenMP标准是针对UMA共享存储结构制定的 ,其循环调度机制只考虑了负载平衡而无须考虑数据分布 然而在机群OpenMP系统中 ,数据局部性是影响性能的关键因素 针对OpenMP标准中静态调度策略不适合机群计算的缺点 ,提出了一个充分体现拥有者计算原则的LBS调度算法 ,并通过扩展制导的方式在机群OpenMP系统 (OpenMP/JIA JIA)上加以实现 测试结果表明 ,LBS算法对于机群OpenMP系统很有效

侯晓吻[7]2006年在《基于SMP-Cluster架构的并行程序性能数据收集、表示和分析软件包框架原型的研究与设计》文中进行了进一步梳理作为解决大规模计算问题的重要手段,高性能计算越来越广泛地应用到科学与工程的各个领域。随着高性能计算的快速发展,有两个现象值得关注:一方面,并行计算机的峰值性能提升迅速,理论峰值计算速度高达每秒百万亿次的超级计算机系统已经被研制成功,高性价比的机群系统(Cluster)已逐步成为高性能计算机的主流架构,促进了高性能计算在更多领域的普及与应用;另一方面,并行应用软件的缺乏,导致高性能计算机表现出的实际性能一直处在较低的水平上。从统计分析可知,当前大型并行应用软件仅能发挥20%甚至10%以下的系统峰值性能。因此,实际应用程序获得的持续性能与机器理论峰值性能之间的差异不断扩大已成为一个不争的事实。 优化和提高并行应用程序的实际性能已成为目前学术界与工业界关注的焦点。在程序性能优化过程中,必须首先找出影响程序性能的主要原因,然后才能有针对性地对应用程序代码和数据结构加以改进,从而实现性能优化。因此程序性能测试与分析软件包就成为高性能计算程序开发与优化周期中非常重要的一种工具。目前国际上已有很多机构和研究单位专门从事对大规模并行应用程序性能进行监测与分析等软件工具集的研究与开发,并取得了很多研究成果。而我国在这方面的研究相对落后,为了改变现状,在国家973项目《大规模科学计算》课题:“大规模计算工程软件系统的基础理论和实施”中,设立了一个项目分支专门从事有关并行程序性能数据收集、分析及可视化等技术的研究与开发。本文的工作重点之一就是围绕这个主题,选取一个开源的、先进的具有自动进行并行性能测试与分析功能的工具集KOJAK,对其中若干关键技术进行详细的剖析,为我国自行研制高效的、智能的并行性能测试与分析工具集提供一些借鉴。 基于硬件性能监视计数器的程序性能测试与分析正在成为现代程序性能测试与分析的基础。同时,为方便用户安全地访问这些底层硬件计数器,可供用户程序调用的接口软件包被大量开发出来,其中适用平台最广泛的PAPI软件包得到了业内人士的一致好评,并已被集成到很多第叁方软件中。目前基于PAPI的串行程序性能数据收集和分析已经取得了很多成果,但是将PAPI集成到并行程序软件中对并行程序的性能行为进行测试与分析的相关研究并不多。因此本文创新性地提出了一个并行PAPI的概念,并给出一个基于PAPI的并行程序性能数据收集、分析和显示的软件包框架原型。 本文的主要研究工作如下: 1、国产万亿次机群系统上高性能应用软件性能数据的整理和分析。 收集并分析高性能应用软件在国家973LSSC Ⅱ万亿次机群系统(深腾1800机群系统)上运行时的程序性能数据,依据这些宝贵的性能数据资料,本文真实

石文娟[8]2012年在《异构环境下分层并行通用计算模型的设计与实现》文中指出大数据量的复杂计算在各个学科的研究和应用中得到越来越广泛的关注,并行计算成为提高计算速度的有效方法,相应的计算模型在重要的计算应用领域中已经取得了实质进步,但并行机、并行模型、并行算法、并行语言的设计与开发千差万别、没有一个统一的标准,传统的单一并行计算模型在形式上变得越来越复杂。因此,以并行计算的一般步骤为理论基础,以各种并行开发工具、开发标准、开发语言为软件平台,以基于机群、多核CPU、多核GPU等不同硬件架构的异构并行机为硬件支撑,提出一种异构环境下分层并行通用计算模型。模型分为叁个阶段:程序模型算法设计阶段、并行程序设计阶段、并行程序执行阶段。本文基于模型分层并行通用的开发理念,阐述了程序模型算法设计阶段、并行程序设计阶段、并行程序执行阶段的架构,并设计了解释系统和编译系统作为沟通各阶段的桥梁。首先,程序模型算法设计阶段的并行算法经解释系统的解析生成并行程序设计阶段的并行程序;然后,并行程序经过编译系统的编译链接输出可执行程序;最后,在并行程序执行阶段可执行程序转化为机器语言执行在相应的软/硬件架构上。其次,为了摆脱传统串行编程语言的束缚,从语言成分上直接支持并行开发,提出了基于标签语法的模型设计语言,使并行程序更容易在并行机上实现;基于通用编程的理念设计了通用模板库,用于抽象现存的各种并行开发工具或开发标准的开发模式,并且针对不同开发语言提供统一的编程框架;针对不同研究领域内并行计算特有的结构特征,设计专用模板库;为了降低将原串行程序并行化的复杂度,建立高频函数库,封装现有各种并行开发工具中的高频使用函数,将原本复杂的并行程序简化成方法库中一个简单的并行函数或方法;针对复杂的并行机软/硬件架构和支撑环境建立参数库,用于描述虚拟的参数化的并行机。在模型的人机交互方面设计了一款能够支持多并行开发工具、多并行开发语言的集成开发环境,程序开发者可以快速便捷的编写、调试、运行并行程序。理论和实践分析结果表明,本文提出的异构环境下分层并行通用计算模型每个阶段的针对性强、通用性高、易于扩展,能够高效的实现目标问题到并行机的映射。

盛艳秀[9]2013年在《多核异构环境下通用并行计算框架关键技术研究》文中提出随着科技的发展,尤其是计算机技术的发展,各个行业中的数据量都开始呈指数型增长,传统的串行计算能力,已经远远不能满足日益增长的数据处理需求。在这种背景下,并行计算技术应运而生,其主要目的是快速解决大型且复杂的计算问题。并行计算不仅和国家的科技和经济发展密切相关,而且直接影响到国防能力和国家安全,如核爆炸模拟,复杂系统精确解算、基因研究和国家机要通信的加密与解密等等。并行计算能力是衡量国家实力的重要标志。虽然并行计算已发展多年,在一些具体问题的解决上也已经有了较为实用的方案,总结了相当多的经验,但还远远不及串行算法那样丰富,因此这门学科研究尚不成熟。并行算法与串行算法的最大不同之处在于,不仅需要考虑问题本身的解决方法,还需要考虑问题所适用的并行模型,若要达到效率最大化,还需要考虑处理器架构、网络连接等因素,这必然会增加并行算法的设计和实现难度。本论文在分析了并行计算中的各种难题以及国内外研究现状的基础上,针对并行计算模型的种种难题,提出了一种新的满足多核处理器机群计算需求的分层异构并行的通用计算模型,并对其中的关键技术做了初步研究,具体内容如下:(1)提出了一种新的满足多核处理器机群计算需求的分层异构并行的通用计算模型,该模型将目标问题的开发划分为程序模型算法设计、并行程序设计、并行程序执行叁个阶段。程序模型算法设计阶段,开发人员面对参数化的并行机设计程序模型算法;并行程序设计阶段,开发人员利用并行开发平台开发具体的并行程序,实现并行任务;并行程序执行阶段,并行程序运行在相应的软硬件架构下,通过解释系统优化的计算参数优化指令执行效率。(2)对模型框架进行细化和实现,针对分层异构模型的分层,在不同的层次设计相应的方法库、参数库、程序复用库等工具对模型功能以匹配,分层实现并行算法设计与实现的过程,最终实现并行计算模型的动态性、自适应性、可重构性与通用性。(3)在不同的层次之间,提出了语言解释系统和编译系统,实现层次之间的链接,保证了系统模型的框架的完整性和可实现性。(4)利用该异构并行通用计算模型,实现了迭前偏移程序并行算法的设计。迭前偏移程序算法是石油探测中经典算法之一,该算法的串行程序已经较为完善,但其并行算法一直是个较为复杂的问题。应用该模型很好地解决了其并行性。该通用并行计算框架对应用开发人员提供简单易用的设计语言,实现并行计算程序设计的高效性、正确性、普适性。因而具有广泛的应用前景和显着的社会效益。分层异构并行的通用计算模型为应用开发人员提供独立于硬件的可扩展的编程接口,为具有普遍性的问题建立方法库,为程序运行平台建立参数库,综合管理不同的计算资源,合理分配计算任务,减轻程序的开发难度以及应用开发人员的工作量。

苗乾坤[10]2010年在《面向共享存储系统的计算模型及性能优化》文中进行了进一步梳理长期以来,大规模计算的应用需求推动并行计算技术不断发展,并行计算机的峰值计算能力稳步提高。当前,基于共享存储的片上多核处理器搭建集群系统,成为并行体系结构的发展趋势,并行计算已经进入了千万亿次并行计算机的时代。但是,并行计算机的实际应用水平不高,应用程序实测性能远低于系统的峰值性能。因此,充分发挥并行计算机的计算能力,加速应用程序的执行速度,逐渐成为并行计算领域中亟需解决的一个关键问题。未来,共享存储系统是搭建大规模并行处理系统的基本单元。围绕提高并行计算机的实际应用效率,缩小实际应用性能与机器峰值性能之间的差异,本文以共享存储系统为目标平台,研究并行计算模型以及程序性能优化关键技术,主要研究工作分为两部分:一是研究分层的并行计算模型,为并行算法设计和并行程序执行提供理论基础和分析方法,其中重点研究片上多核系统的程序执行模型;二是研究共享存储系统上的程序性能优化技术,以提高并行应用程序的实际性能,同时为程序执行模型提供思路和借鉴。本文针对计算模型和优化技术的研究,可以有效地提高并行应用的性能,充分发挥并行计算机的计算能力,具有重要的学术价值和广泛的应用前景。具体而言,本文的主要研究成果、贡献和创新点可概括为以下几点:(1)提出分层的并行计算模型随着并行机体系结构的快速发展变化,传统单一的并行计算模型变得越来越复杂,难以使用。本文对并行计算模型分层研究,把并行计算模型分为并行算法设计模型、并行程序设计模型和并行程序执行模型叁个层次,分别给出了各层模型的特点及研究内容。(2)优化共享存储系统上消息传递的通信性能MPI是一种流行的并行编程接口,同时支持分布存储并行机和共享存储并行机。针对MPI在共享存储上的驱动程序通信性能不高,本文提出一种共享存储系统上MPI消息传递优化方法,利用共享内存系统上进程间通讯机制和自旋等待同步策略,实现了进程间直接数据复制,减少了消息传递延迟,提高了共享存储系统上点对点和集合通信性能,优化了实际应用程序的通信性能。(3)优化共享存储系统上典型应用程序的性能本文研究两个典型的并行应用,分别在两种共享存储系统上的优化方法。一个是在对称多处理机上,基于MPI的生物信息领域的应用Mfold的并行优化;另一个是在片上多核系统上,基于OpenMP的信息检索领域的应用CBIR的并行优化。针对应用和系统特点,设计了高效的并行算法,挖掘共享存储系统的多级并行度,有效优化了应用的指令级并行性、数据级并行性和线程级并行性,加速了应用程序在共享存储系统上的速度,为这一类平台上开发高效应用程序提供了借鉴。(4)提出面向片上多核系统的定量程序执行模型结合对共享存储系统上应用程序性能优化的研究,本文提出面向片上多核系统的定量程序执行模型CRAM(h)。CRAM(h)模型考虑了指令执行行为、层次存储访问行为及并行处理行为,抽取关键性能参数,对程序执行时间进行建模。实验表明,模型评估的程序执行时间与实际程序运行时间基本一致。

参考文献:

[1]. 机群系统OpenMP研究[D]. 吴少刚. 中国科学院研究生院(计算技术研究所). 2003

[2]. 提高机群OpenMP系统性能的关键技术研究[D]. 章隆兵. 中国科学院研究生院(计算技术研究所). 2004

[3]. 机群Open MP系统的设计与实现[J]. 吴少刚, 章隆兵, 蔡飞, 顾丽红, 唐志敏. 计算机学报. 2004

[4]. SAR图像并行处理技术研究[D]. 孙权. 重庆理工大学. 2013

[5]. 遥感图象复原与超分辨并行处理系统设计技术研究[D]. 马冬冬. 哈尔滨工业大学. 2010

[6]. 一种适用于机群OpenMP系统的有效调度算法[J]. 吴少刚, 章隆兵, 蔡飞, 胡伟武. 计算机研究与发展. 2004

[7]. 基于SMP-Cluster架构的并行程序性能数据收集、表示和分析软件包框架原型的研究与设计[D]. 侯晓吻. 北京邮电大学. 2006

[8]. 异构环境下分层并行通用计算模型的设计与实现[D]. 石文娟. 中国海洋大学. 2012

[9]. 多核异构环境下通用并行计算框架关键技术研究[D]. 盛艳秀. 中国海洋大学. 2013

[10]. 面向共享存储系统的计算模型及性能优化[D]. 苗乾坤. 中国科学技术大学. 2010

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

提高机群OpenMP系统性能的关键技术研究
下载Doc文档

猜你喜欢