英特尔：通信与计算融合

一、Intel:通信与计算融合（论文文献综述）

白华^[1]（2022）在《2021企业服务、科技互联网案例TOP100》文中研究表明1.使用方:农业农村部提供方:中国铁塔案例名称:智慧渔政解决方案中国铁塔利用站址资源,加装摄像设备,依托视频监控平台,基本实现长江流域主要禁捕区域的监控全覆盖。依据铁塔上的超高清智能摄像头,渔政监管部门可以实现对长江生态环境24小时的360°无死角、无间隙监控。有了新"利器"后,长江禁捕工作实现了从"人防"走向"人防+技防"的转变。

赵港,王千阁,姚烽,张岩峰,于戈^[2]（2022）在《大规模图神经网络系统综述》文中提出图神经网络（GNN）是一类基于深度学习的处理图域信息的方法,它通过将图广播操作和深度学习算法结合,可以让图的结构信息和顶点属性信息都参与到学习中,在顶点分类、图分类、链接预测等应用中表现出良好的效果和可解释性,已成为一种广泛应用的图分析方法.然而现有主流的深度学习框架（如TensorFlow、PyTorch等）没有为图神经网络计算提供高效的存储支持和图上的消息传递支持,这限制了图神经网络算法在大规模图数据上的应用.目前已有诸多工作针对图结构的数据特点和图神经网络的计算特点,探索了大规模图神经网络系统的设计和实现方案.首先对图神经网络的发展进行简要概述,总结了设计图神经网络系统需要面对的挑战;随后对目前图神经网络系统的工作进行介绍,从系统架构、编程模型、消息传递优化、图分区策略、通信优化等多个方面对系统进行分析;最后使用部分已开源的图神经网络系统进行实验评估,从精确度、性能、扩展性等多个方面验证这些系统的有效性.

尚佳友^[3]（2021）在《基于容器技术的用户行为仿真方法研究》文中进行了进一步梳理网络空间的重要性及战略地位日益提升,然而网络空间安全形势日趋严峻。网络靶场作为国家网络空间安全体系中的重要基础设施,主要是基于虚拟化等技术对网络空间中的网络架构、用户行为等要素进行复现,并用于网络安全的风险评估、新技术评测与人才培训,满足日益增长的网络空间安全保障需求。用户行为仿真技术旨在复现网络用户行为和业务流量,是网络靶场的重要支撑技术。面向大规模、多样性、高并发的用户行为特征,如何实现高性能、可扩展的用户行为仿真是关键。相对于传统的全虚拟化技术,容器技术具有响应速度快、资源占用低等优势,为此,本文重点研究了基于容器技术的用户行为仿真方法。具体而言,本文主要研究内容如下:1)提出一种面向用户行为仿真的容器网络构建技术。针对当前容器云所能构建的仿真网络存在网络场景单一、网络性能低的问题,基于Kubernetes容器云,设计了一种仿真网络场景可灵活定义的高性能网络互联方案——N-NET,为复杂仿真网络场景下基于容器的用户行为仿真奠定了基础。N-NET突破了Kubernetes固有互联方案的单一性,设计了多样化、高交互的网络管理方案,实现了容器网络的细粒度灵活配置,为复杂仿真网络场景的构建提供了支撑。此外,N-NET通过优化通信网络的传输架构提升了网络传输性能,通过设计Kubernetes与Open Stack的融合体系,实现两者的服务一致性与通信互通性,为基于容器技术的用户行为仿真与基于虚拟化的网络仿真提供无缝互联支撑。实验表明:N-NET可实现基于IP地址的细粒度复杂网络的构建以及容器节点与全虚拟化节点的无缝互通;在网络性能方面,相对于传统的Kubernetes互联方案,N-NET可显着提升网络吞吐量并降低传输延迟。2)提出一种基于容器技术的高性能用户行为仿真模型。面向用户行为仿真的多样性、大规模等特征,从仿真用户、仿真业务架构、仿真资源三个方面,构建一种高性能用户行为仿真模型。在仿真用户方面,通过仿真用户、仿真行为驱动的设计,构建了大规模、多样化且具有真实行为特征的仿真用户;在仿真业务架构方面,一方面,基于层次化仿真业务架构实现了对用户仿真流程的统一描述,另一方面,研究了面向高并发用户行为仿真的优化策略,以提升仿真性能;在仿真资源方面,研究了基于容器技术的分层用户仿真镜像构建方法。实验表明:所构建的仿真模型可有效实现大规模、多样化、差异化的用户行为仿真,可生成真实行为流量,且可有效缩减大规模用户行为仿真任务所消耗的运行时间。3)基于1),2)的研究内容,结合Kubernetes与Open Stack,设计并实现基于容器技术的用户行为仿真系统。该系统通过融合两种云平台,综合了基于Kubernetes的用户行为仿真优势以及基于Open Stack的网络仿真优势,实现跨云平台的仿真系统。基于该系统,提出了面向大规模仿真网络的拓扑映射优化方法,实现计算资源的有效利用,提高了仿真网络拓扑构建的高效性与易用性。基于该系统,构建了典型的面向天地一体化信息网络的仿真场景,并进行了仿真系统的功能测试以及大规模天地一体化网络用户行为的仿真实验验证。

王玮^[4]（2021）在《材料模拟在Kubernetes+Volcano容器批处理系统中的研究与实现》文中研究表明高性能计算为材料模拟领域中的新型应用提供批量作业的性能支持,随着它和人工智能技术的结合,还为材料模拟摆脱了精确与效率无法同时兼顾的困境。然而材料模拟应用环境依赖较多,编译安装过程相对复杂,尤其是在将深度学习框架引入到材料模拟领域后,其基础环境变得更加难以维护,即便在同一应用的不同版本之间也会存在数据不兼容等问题,实验结果往往难以复现。使用容器技术能够解决环境部署混乱、软件依赖冲突等诸多问题,但是目前材料模拟应用在多个容器间并行计算的案例较少,也缺乏针对计算效率的相关研究。另外,传统的作业调度器无法实现多容器调度,容器编排服务也不能以作业形式进行批量容器调度,并且对于多元异构计算资源的利用也不够充分。针对上述问题,本文研究了一种基于Docker容器的Kubernetes容器编排服务,并在此基础上结合Volcano批量容器调度器,以此来构建材料模拟容器批处理系统。该系统能够以作业的形式对容器进行批量调度,从而完成多容器环境下的材料模拟流程。首先,本文在Docker和Singularity两种容器化环境下进行基准性能分析,并且根据Docker Swarm和Kubernetes两种主流的容器编排服务在多容器环境下的CPU、网络I/O等性能测试和典型材料模拟应用VASP的实际模拟流程,梳理出容器编排服务在当前批量容器调度场景下存在的问题和缺陷;其次,针对以上问题和缺陷提出在Kubernetes上结合Volcano批量容器调度器的方案,实现基于经典势函数材料模拟的容器批处理系统,根据该系统中AIREBO、Reax FF等经典势函数对于碳材料的分子动力学模拟结果,分析该系统用于材料模拟的可行性和优势;最后,在上述系统中融合深度学习环境,实现基于深度势函数材料模拟的容器批处理系统,并在该系统中利用神经网络训练出能够应用于多种原子体系的深度势函数,分析该系统对于异构计算资源的利用能力,同时研究使用深度势函数进行材料模拟的效率和精度。从本文研究结果上看,Docker和Singularity两种容器技术在CPU性能和内存性能上都能够接近物理机性能,但是在容器批处理场景中,Docker Swarm和Kubernetes两种容器编排服务缺失作业管理能力,容器调度机制也不够完善。在基于经典势函数材料模拟的容器批处理系统中,Volcano能够弥补Kubernetes的问题和缺陷,多个容器化的LAMMPS计算环境在AIREBO、Reax FF等经典势函数下也能够很好地进行碳材料模拟,并且Reax FF势函数的模拟结果更优。最后在基于深度势函数材料模拟的容器批处理系统中,Volcano能够在深度学习训练势函数时更加充分地利用计算资源。同时在使用GPU设备对分子动力学模拟过程加速的实验中发现,在多种原子体系下,深度势函数在计算效率和模拟精度上都表现出巨大优势。材料领域的科研工作者可以直接在本文研究的容器批处理系统中进行材料模拟工作,也可以按照本文提供的Dockerfile自定义材料模拟环境,同时该系统也可供其它领域的科研工作者借鉴。

陈炳炜^[5]（2020）在《面向复杂地形地震模拟的并行优化方法研究》文中指出地震模拟对于完善地震学理论和抗震救灾等都具有重要作用,但大规模地震模拟在计算和存储方面都面临严峻挑战。基于“神威·太湖之光”超级计算机,已有工作采用有限差分方法实现了唐山地震的高效高精度模拟。然而,我国大多数地震发生于川滇地区等地形复杂的区域,无法使用传统的有限差分方法准确模拟地形效应的影响。在前述唐山地震模拟工作的基础上,本文引入曲线网格以精确描述复杂地形,并针对新算法更复杂的计算和数据特性,提出进一步的并行和优化方法,将汶川地震模拟高效扩展至上千万核。本文的主要贡献包括:·为有限差分算法引入了曲线网格等前沿特性,使其可精确描述复杂地形对地震波传播的影响;并在此基础上,通过算法的重新设计提高地震模拟在大规模并行异构系统上的效率;提出多级网格划分方案,并结合网络通信和IO通信的优化,成功扩展至“神威·太湖之光”整机规模。·为了获得性能的进一步提升,在内存利用率方面,分别从二维和三维角度探究了最优化方案;在内存带宽方面,提出了变量融合方法、网格点重排列和协作存取模型;在计算效率方面,分别针对两种应用场景提出了向量化策略。·考虑到E级超算对混合精度的普遍支持,在上述工作已实现对神威硬件全面利用的基础上,采用可重构计算平台,研究和探索面向地震模拟的混合精度计算方法;通过模拟结果的数值分析,获得不同变量所需的位宽和动态缩放因子,从而为地震模拟设计定制化的数据流处理器。针对汶川地震这一模拟场景,本文的并行优化方法在“神威·太湖之光”整机上取得了9.07 Pflops的持续运行性能,并从模拟结果上验证了复杂地形对波场造成的影响。在可重构计算平台上,本文的混合精度并行优化方法在保证数值和波场正确性的前提下,取得了相当于13.1个Intel Xeon Gold 6154（18核）处理器或2.1个SW26010节点（260核）的计算性能。上述结果展示了本文所提出的方法和软件对复杂地形地震的精准模拟能力,以及在顶尖超算系统上良好的计算效率。所提出的混合精度计算方法为地震模拟在未来E级系统上的高效运行奠定了基础,预期将为地震领域的研究工作带来相应的推动作用。

张鹏^[6]（2020）在《面向异构众核平台的多任务流编程与性能优化技术研究》文中提出传统通用处理器的设计与制造受限于功耗、散热等因素,其计算能力的持续提升遇到瓶颈,不能满足人们日益增加的计算能力需求。由通用多核处理器和专用加速器组成的异构众核系统具有很好的计算能耗比,在高性能计算领域和嵌入式计算领域都得到了越来越广泛的应用。然而,通用多核处理器与加速器间的数据搬运开销（通信开销）却成为影响异构程序性能的重要因素。多任务流技术是一项可以高效利用异构系统计算资源的编程技术。它通过对计算任务与硬件资源的划分,重叠计算任务与数据传输任务,以利用异构系统的时间与空间共享特征,从而掩藏数据搬运开销。因此,面向异构众核系统研究多任务流机制的编程方法与性能优化技术具有重要的研究意义。使用多任务流技术编写高效异构程序,仍面临包括多任务流编程模型支持短缺、程序编写门槛高、性能优化困难等在内的多方面的挑战。目前只有部分编程模型支持多任务流编程,特别是国产众核系统尚缺乏对异构编程模型及多任务流机制实现的支持。异构系统的编程相对传统编程,增加了主机与加速器的数据传输、负载分配、加速器管理等操作,而且还需要针对加速器专门编写内核代码。而多任务流编程在异构系统编程基础上,还需要程序员划分任务数据、调度数据传输与计算任务,这进一步增加了编程难度。多任务流编程的性能问题主要是流配置参数的选择,包括任务的划分数量和硬件资源的划分数量。这些参数对多任务流程序性能有很大影响,且选择参数不当时程序的性能会比不使用任务流编程时更差。而选择恰当的参数很具有挑战性,这是因为流配置参数的取值空间很大,并且不同的平台、程序和输入数据集,最优的参数取值都可能不同。本文面向异构众核平台研究多任务流机制实现与多任务流程序优化技术,包括支持多任务流机制的编程模型实现技术、多任务流代码自动生成技术和多任务流程序自动调优技术,旨在最小化宿主机与加速器间的通信开销并降低程序员编写异构程序的难度,从而最大程度地发掘异构系统的潜在计算性能。本文的研究内容和贡献主要包括:1.针对国产众核加速器Matrix-2000缺少多任务流编程模型支持的问题,本文首次设计并实现了Open CL编程环境MOCL,支持多任务流编程;其运行时系统采用“推送优先”的任务分派方法和“无锁”的原子操作实现,方便用户有效利用众核加速器。还针Matrix-2000的体系结构特点,提出了一组新的分析与优化技术,可以帮助用户高效地发挥加速器计算潜力。2.针对编写异构多任务流程序容易出错且耗时的问题,本文首次实现了一个异构多任务流代码的自动生成与优化框架,能够将串行C代码自动地分析并转换成异构多任务流代码。该框架不仅能够支持当前各种主流的异构编程环境,具有良好的可扩展性,而且还实现了消除冗余数据传输等优化技术,从而显着地提高所生成的多任务流代码的性能。3.流配置参数（含任务划分数量和硬件资源划分数量）是Xeon Phi平台上影响异构多任务流程序性能的重要参数。针对最优流配置难以找寻的问题,本文首次提出了一种自动化的最佳流配置预测模型构建方法:先对参数进行分类,然后使用机器学习算法训练分类器,使用分类器来预测多任务流程序参数。实验结果表明,与只使用单个任务流相比,使用本方法能够获得的平均加速比为1.6倍,能够达到最优性能的94.5%。4.使用分类方法获得的流配置参数只能落到训练时“所能见到的”参数集合中,但是该参数集合有可能无法覆盖整个参数取值空间,导致模型的泛化能力有限。为了避免对参数进行分类并将该方法应用到更多的异构众核平台,本文使用回归方法构建性能模型以预测使用不同参数时多任务流程序的性能,通过对参数空间进行搜索找到优化参数。在Intel Xeon Phi和NVIDIA GPU两个平台上的实验结果表明,与使用单个任务流相比,本方法能够取得的平均加速比分别为1.6倍和1.1倍,分别达到最优性能的93.7%和97.9%。

尉红梅^[7]（2020）在《面向神威太湖之光的隐式并行语言研究及编译优化设计》文中认为异构众核处理器成为近年来构建超级计算机的首选,然而从多核架构到众核架构发展,在带来性能显着提升的同时,也给高性能计算应用带来了新的挑战。由于计算架构的跨代发展和应用设计之间出现了脱节,使得众核架构面临着应用移植难、开发难、优化难的应用难题。神威太湖之光超级计算机系统全部由国产申威众核处理器组成,众核应用难问题对国产众核处理器而言更加严峻,如何针对国产众核的体系结构,设计适应它的并行语言,并进行优化实现,能让太湖之光系统更加通用、发挥更大的应用效益,这就是本课题想去尝试解决的问题。本文以申威26010众核处理器和神威太湖之光计算机系统为主要研究对象和优化平台,研究主从共享内存的融合众核架构上支撑应用高效移植和开发的隐式并行语言设计和编译支撑及优化技术,主要从以下三个方面开展了研究工作,并取得了一定的技术突破和创新:1)提出了面向异构众核处理器架构的Open ACC*语言设计。本文从分析主流众核架构内存模型差异和Open ACC标准语言文本在申威26010众核处理器上实现面临的问题入手,提出了一种异构众核处理器架构的存储抽象模型;同时基于该存储抽象模型,围绕如何利用和描述异构众核处理器片上高速局存提出了一系列的语言功能设计,为描述和利用片上私有局存、优化众核数据传输、挖掘异构融合众核架构特点提供了一整套语言功能。2)提出了面向太湖之光的异构编译器结构设计,包括异构融合编译器、加速线程支撑库、异构运行加载器等组成,面对主核、从核不同的指令和结构特点,可在编译、链接多个层面可以实现异构融合优化;提出了基于仿射分析的数据分布分析技术、异构协作的数据分布处理等技术,为Open ACC*应用程序的高效运行提供了有力支撑。3)提出了一系列编译优化技术。针对申威26010众核处理器中主从核之间的结构差异、丰富的存储层次、从核精简的结构、片上局存的稀缺等主要矛盾和优化难点,提出了针对申威26010众核处理器主核存储结构的访存编译优化技术、面向异构众核结构特征的编译优化技术、以及面向Open ACC*的多模式访存优化技术,为提升神威太湖之光计算机系统中程序性能提供了有效的优化手段。基于本文的成果,使用CAM-SE、SWLBM两道实际应用课题和SPEC ACCEL V1.0中15道课题在神威太湖之光计算机系统中进行了应用移植和优化效果验证工作,测试结果表明,本文所提出的Open ACC*编程语言、编译器设计、编译优化技术是正确和有效的,可以满足相当一部分应用的众核编程、移植和优化的需求,支撑应用在神威太湖之光计算机系统上高效运行。

申小龙^[8]（2019）在《面向大规模应用的多计算平台并行优化关键技术研究》文中进行了进一步梳理高性能计算机的出现和快速发展,使其被广泛应用于云计算、安全、大数据处理等领域。据统计大数据处理占据了46%的份额位居榜首。存储结构的复杂多样,计算机体系结构的多样性以及大数据处理问题体量大、数据复杂多样等特点,高性能计算机在大数据处理领域的应用面临着巨大的挑战。本文主要研究多种存储结构下不同应用场景的异构并行算法和优化技术,选取了大数据处理中的迭代算法、高吞吐率需求、大规模网络融合三种典型的应用问题进行研究,分别从存储、通信、任务划分、并行性、矩阵向量运算、CPU+GPU异构等角度对不同类型的应用场景的并行算法和优化技术进行研究。本文的主要创新点概括如下:（1）提出了一种基于多级存储的并行SNF算法针对生物医学领域样本规模大、内存需求高的相似网络融合（SNF:Similar Network Fusion）算法,提出了一种基于分层存储的CPU+GPU异构并行优化算法para SNF（Parallel SNF）算法,通过矩阵/向量分块等方式提高了算法的Cache命中率;通过采用基于SSD+内存+缓存的三级存储模型,大大提高了SNF算法的可扩展性。实验结果表明,para SNF算法运算速度快、可扩展性高。（2）提出了一种无数据相关的高吞吐率异构并行指纹匹配算法针对数据库规模越来越大、实时性要求高、识别算法不断改进、存在较高的数据并发度的生物识别系统,本文以指纹识别为例,提出了一种优化的指纹识别系统框架。针对系统中的指纹匹配这一热点问题选取多核CPU+众核GPU的异构系统,从指纹模板的存储顺序、任务的调度、CUDA Stream等多个角度对匹配过程进行优化。实验结果表明,基于CPU+GPU异构的指纹匹配算法运算速度快,吞吐率高,能够满足系统实时性的要求。（3）提出了一种基于异步规约通信的分布式存储迭代并行优化算法本文以大规模三维重建中的SBA（Sparse Bundle Adjustment）算法为例进行研究,针对SBA算法在迭代优化过程中数据规模大、运算量大、存储需求高等问题,提出了一种与BA问题无关的分布式任务分配方案,并且对算法中的关键步骤进行多核并行优化,针对问题中的方程组求解问题,提出了一种基于异步规约通信的分布式DSBA（Distributed Sparse Bundle Adjustment）算法（A-DSBA:Asynchronous Sparse Bundle Adjustment）。大量的实验表明,本文提出的算法在保持算法精度的前提下,可扩展性高、运算速度快。

方佳瑞^[9]（2019）在《基于“神威·太湖之光”的并行深度学习训练系统》文中认为深度学习是目前最成功的人工智能技术,有望带领人类真正进入智能时代。巨大的计算需求正驱动着深度学习系统软件和超级计算机的结合。因为有美国对我国高性能芯片禁售的前车之鉴,规划中的下一代国产超算系统将全部采用国产众核处理器制造。但是,国产超算上的深度学习系统软件的研究仍是一片空白,它的构建过程临着多方面挑战:一是缺少适合国产众核处理器创新硬件架构特点的优化指导方法;二是缺乏从复杂深度学习计算核心到全新体系结构的映射方法;三是国产编译工具和系统库使用时仍有待克服的技术障碍;四是需要创新的优化方法来解决网络、I/O等硬件模块在超大规模扩展时遇到的问题。为解决以上挑战,本文以我国最快的超级计算机一采用国产“申威26010”异构众核处理器的“神威·太湖之光”为目标平台,针对深度学习训练任务提出了一套系统化的软件设计方法。为了更高效进行开发和调优,本文采用模块化的软件组织方法,将深度学习训练系统分解为矩阵乘法、深度学习算子、自动代码调优和并行通信等功能模块。具体来说,本文的主要贡献如下:第一,本文设计了适合“申威26010”创新体系结构特性的性能分析模型和张量化编程模型。在性能分析模型指导下,使用以张量为操作目标的访存和计算原语来表达算法,可以弥合硬件使用方式和算法设计之间的鸿沟。为了实现张量化编程模型所需要的关键计算原语,本文提出了面向众核核间通信机制的矩阵乘法。第二,本文将性能分析模型和张量化编程模型应用于深度学习计算核心的优化中,并提出了自动化的代码调优方法来减少工程负担。首先,在“申威26010”上设计了常见的复杂深度学习算子优化方法,包括卷积、全连接、LSTM等。然后,为深度学习算子设计了端到端的自动调优和代码生成方法,使优化后的算子实现获得了超过GPU上cuDNNv7.5的运算效率。第三,本文研究了超级计算机上深度学习并行训练的关键技术,在系统和算法层面突破了扩展瓶颈。系统层面上,本文在“神威·太湖之光”上实现了一个并行训练框架,通过对网络通信、I/O、内存管理等方面定制优化后,可以在1024节点上完成目前常用的深度学习模型的训练任务。算法层面上,本文使用残差梯度压缩方法减少需要通信的数据量,在不损失模型精度条件下,提升了系统的可扩展性。它不仅在最新的GPU超级计算机上显着加速了曾经难以扩展的深度学习训练过程,还能为下一代国产超级计算机上深度学习系统软件设计提供参考。

李连登^[10]（2019）在《基于“神威·太湖之光”的数据密集型计算并行优化》文中提出随着物联网、移动互联网以及人工智能等技术的迅速发展,人类社会步入了大数据时代,数据的产生量呈指数型增长。大数据隐藏了巨大的价值,已被许多国家视为战略资源。大数据价值的挖掘对计算提出了更高的要求。然而,由于摩尔定律失效和功耗墙的限制,可用计算能力和计算需求之间的鸿沟反而在不断扩大,因此亟需探究数据密集型计算的新方式。基于异构众核架构的超级计算机被认为是解决大数据问题的“杀手锏”武器,但充分发掘其潜力面临内存访问、线程组织、数据共享、编程模型等多方面的挑战。本文以“神威·太湖之光”超级计算机为目标平台,选择数据密集型计算中无监督机器学习k-means算法、深度学习内核函数以及数据安全AES算法开展高效并行计算与优化的研究,以满足数据分析处理的时效性和准确性需求。论文的主要贡献和创新点如下:第一,针对无监督机器学习k-means算法,首次提出并实现了数据样本数、聚类质心数和数据维度能同时独立并行的多级层次化优化方法,解决了高维度数据处理的性能瓶颈问题;此外,设计实现了两阶段规约机制、大规模并行通信等并行优化策略,解决了大规模可扩展性问题,实现了高效并行计算。实验结果表明,通过并行应用4,096个计算节点（1,064,496个核心）,针对于样本个数为1,265,723,数据维度为196,608以及聚类质心为2,000的大规模数据聚类问题,实现了每次迭代少于18秒的性能,使k-means算法成为复杂场景中更为可行的数据分析解决方案;第二,针对深度学习内核函数,设计实现了基于申威异构众核架构的并行优化策略,通过寄存器通信、DMA访存、循环分块与合并、双缓冲等措施,缩短了计算时间,提升了网络模型的训练和推理效率。实验结果表明,经过上述优化措施,单个SW26010异构众核处理器上的内核函数计算性能可达到NVIDIA K40m GPU的23%-116%,而相比Intel 2路12核E52680 V3 OPU则有3.04-7.84倍的提升;第三,针对数据安全AES算法,设计实现了向量化编程模型、核组间、核组内及指令并行优化策略,解决了 AES算法在申威异构众核架构上的向量化、指令并行等问题,充分发掘了处理器性能。实验结果表明,并行优化后的AES算法在单个SW26010异构众核处理器上最大可获得13.49 GB/s的吞吐量,当计算节点扩展到1,024个且每个节点输入数据块大小为1 GB时,最大可获得13,381.58 GB/s的吞吐量,具有近线性扩展能力。

二、Intel:通信与计算融合（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、Intel:通信与计算融合（论文提纲范文）

（1）2021企业服务、科技互联网案例TOP100（论文提纲范文）

1.使用方：农业农村部

2.使用方：广东省地质环境监测总站

3.使用方：安徽省芜湖市政府

4.使用方：衡阳市政府

5.使用方：日照市政府

6.使用方：长沙高新区

7.使用方：河北省部分区域

8.使用方：青岛市政空间城市物业管理有限公司

9.使用方：成都市沱江流域投资发展集团有限公司

10.使用方：宿迁市公安局

11.使用方：广州市“扫黄打非”

12.使用方：深圳书城中心城

13.使用方：上海闵行工业园区

14.使用方：青岛董家口循环经济区

15.使用方：都汶高速

16.使用方：广东高速

17.使用方：园博园

18.使用方：颐和园

19.使用方：九寨沟

20.使用方：广州市卫生健康委员会

21.使用方：福建省儿童医院

22.使用方：陕西中医药大学第二附属医院

23.使用方：盛京医院

24.使用方：秀洲区智慧养老服务试点

25.使用方：西安国际医学中心有限公司

26.使用方：国家电网

27.使用方：国家电网

28.使用方：中国移动

29.使用方：中国海油

30.使用方：兴澄特钢二分厂炼钢

31.使用方：广汽集团

32.使用方：皖能集团

33.使用方：南网科研院

34.使用方：中国烟草总公司重庆市公司

35.使用方：山西国耀

36.使用方：海尔智护

37.使用方：交通银行

38.使用方：平安银行

39.使用方：某国有大型商业银行

40.使用方：伊利集团

41.使用方：华为

42.使用方：上海银行

43.使用方：方正证券

44.使用方：中泰证券

45.使用方：广发银行

46.使用方：智能银行网点

47.使用方：南钢股份

48.使用方：捷昌驱动

49.使用方：欧普照明

50.使用方：杰克股份

51.使用方：Intel

52.使用方：青岛双星

53.使用方：石横特钢

54.使用方：淘钢网

55.使用方：中环寰慧

56.使用方：京博石化

57.使用方：福建水泥

58.使用方：澳柯玛

59.使用方：河南同心传动

60.使用方：泰和股份

61.使用方：新凤鸣集团

62.使用方：红豆股份

63.使用方：立白集团

64.使用方：中集瑞江

65.使用方：济宁碳素

66.使用方：凯耀照明

67.使用方：汤臣倍健

68.使用方：华润医药

69.使用方：唯品富邦消费金融

70.使用方：马上消费

71.使用方：阳光产险

72.使用方：友邦保险

73.使用方：金融机构及各产业企业

74.使用方：驿知行科技

75.使用方：统一超商

76.使用方：OPPO

77.使用方：魅族

78.使用方：同程旅行

79.使用方：东风通信

80.使用方：数据堂

81.使用方：法大大

82.使用方：苏州大华

83.使用方：惠发食品

84.使用方：徽记食品

85.使用方：长江都市院

86.使用方：中化信息

87.使用方：大白科技

88.使用方：百丽国际、吉祥航空

89.使用方：锦江酒店（中国区）

90.使用方：能链集团

91.使用方：新视野

92.使用方：奇虎360

93.使用方：小红书

94.使用方：世纪云芯

95.使用方：薄荷健康

96.使用方：多个零售商家及3000余门店

97.使用方：BITONE

98.使用方：世友木业

99.使用方：爱彼迎

100.使用方：学员

（3）基于容器技术的用户行为仿真方法研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.2.1 研究现状

1.2.2 面临的问题

1.3 论文的主要内容及章节安排

1.3.1 主要内容

1.3.2 章节安排

第二章基于容器技术的用户行为仿真技术概述

2.1 引言

2.2 虚拟化技术概述

2.2.1 虚拟化技术简介

2.2.2 Docker技术概述

2.2.3 虚拟化技术小结

2.3 云平台技术概述

2.3.1 Kubernetes概述

2.3.2 Open Stack概述

2.3.3 云平台技术小结

2.4 用户行为仿真技术概述

2.5 本章小结

第三章面向用户行为仿真的容器网络构建技术

3.1 引言

3.2 逻辑架构设计

3.3 高交互的网络管理实现方案

3.3.1 多样化网络管理方法

3.3.2 基于异步消息传输的网络细粒度配置策略

3.4 高性能网络架构优化策略

3.5 面向Kubernetes和 Open Stack的融合体系设计

3.6 实验验证与分析

3.6.1 实验环境配置

3.6.2 网络管理功能验证

3.6.3 网络基础连通性验证

3.6.4 网络性能验证

3.6.5 Kubernetes与 Open Stack的融合体系验证

3.7 本章小结

第四章基于容器技术的高性能用户行为仿真模型

4.1 引言

4.2 高性能用户行为仿真模型设计

4.3 面向多种类行为的仿真用户构建

4.3.1 仿真用户设计

4.3.2 仿真行为驱动设计

4.4 层次化仿真业务架构构建

4.4.1 仿真业务架构设计

4.4.2 面向高并发用户行为仿真的优化策略

4.5 基于Docker的仿真资源构建

4.6 用户行为仿真实现流程

4.7 实验验证与分析

4.7.1 实验环境配置

4.7.2 大规模仿真用户创建测试

4.7.3 用户行为仿真的可行性验证

4.7.4 面向高并发用户行为仿真的优化策略有效性验证

4.8 本章小结

第五章基于容器技术的用户行为仿真系统与应用

5.1 引言

5.2 基于容器技术的用户行为仿真系统

5.2.1 仿真系统硬件配置

5.2.2 基于融合云平台的仿真系统架构

5.3 面向大规模用户行为仿真网络的拓扑映射优化方法

5.3.1 问题分析

5.3.2 基于多虚拟化融合的网络拓扑映射算法

5.4 用户行为仿真系统工作流程

5.5 面向天地一体化信息网络的应用实验验证

5.5.1 天地一体化信息网络仿真场景构建

5.5.2 用户行为仿真系统功能验证

5.5.3 大规模用户行为仿真实验验证

5.6 拓扑映射优化方法有效性验证

5.6.1 网络拓扑及硬件配置

5.6.2 拓扑映射评估方法

5.6.3 拓扑映射性能验证

5.7 本章小结

第六章主要结论与展望

6.1 主要结论

6.2 展望

致谢

参考文献

附录:作者在攻读硕士学位期间发表的论文

（4）材料模拟在Kubernetes+Volcano容器批处理系统中的研究与实现（论文提纲范文）

中文摘要

Abstract

第一章绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 本文研究内容

1.4 本文内容结构

第二章面向作业的容器批处理系统概述

2.1 容器技术

2.1.1 Docker容器

2.1.2 Singularity容器

2.2 容器编排服务

2.2.1 Docker Swarm容器编排服务

2.2.2 Kubernetes容器编排服务

2.3 批量容器调度器及调度策略

2.3.1 Volcano批量容器调度器

2.3.2 Gang-scheduling批量调度策略

2.4 本章小结

第三章容器及编排服务对材料模拟环境的构建与评估

3.1 容器性能基准测试与分析

3.1.1 实验环境

3.1.2 容器性能基准测试

3.1.3 结果与分析

3.2 容器编排服务的性能测试与分析

3.2.1 实验环境

3.2.2 容器编排服务下材料模拟环境构建流程

3.2.3 材料模拟环境基准测试

3.2.4 材料模拟环境应用测试

3.2.5 结果与分析

3.3 容器编排服务的问题与缺陷

3.4 本章小结

第四章 Kubernetes+Volcano下经典势函数材料模拟系统的实现

4.1 经典势函数及分子动力学模拟介绍

4.1.1 经典势函数

4.1.2 分子动力学模拟

4.2 经典势函数LAMMPS容器化材料模拟系统实现

4.2.1 实验环境

4.2.2 Kubernetes+Volcano容器集群环境构建

4.2.3 LAMMPS-MPI容器化

4.3 经典势函数LAMMPS模拟实验流程

4.4 结果与分析

4.4.1 经典势函数模拟结果

4.4.2 Volcano批量调度结果

4.5 本章小结

第五章 Kubernetes+Volcano下深度势函数材料模拟系统的实现

5.1 深度势函数和Dee PMD-kit介绍

5.2 深度势函数LAMMPS容器化材料模拟系统实现

5.2.1 实验环境

5.2.2 Kubernetes+Volcano对于GPU共享的实现

5.2.3 LAMMPS-GPU容器化

5.3 深度势函数训练和LAMMPS模拟实验流程

5.3.1 深度势函数的训练流程

5.3.2 深度势函数的LAMMPS模拟流程

5.4 结果与分析

5.4.1 深度势函数的训练结果

5.4.2 深度势函数的训练性能分析

5.4.3 深度势函数与经典势函数的模拟结果对比

5.4.4 深度势函数与经典势函数的模拟性能分析

5.5 本章小结

第六章总结与展望

6.1 本文总结

6.2 本文展望

参考文献

在学期间的研究成果

致谢

（5）面向复杂地形地震模拟的并行优化方法研究（论文提纲范文）

摘要

abstract

第1章绪论

1.1 高性能计算机发展概述

1.2 地震模拟发展概述

1.3 本文主要内容与结构

第2章研究现状分析

2.1 基于通用超级计算机的大规模地震模拟研究现状分析

2.1.1 基于谱元法的大规模地震模拟

2.1.2 基于隐式有限元方法的大规模地震模拟

2.1.3 基于间断有限元方法的大规模地震模拟

2.1.4 基于有限差分方法的大规模地震模拟

2.1.5 与已有工作的比较

2.2 基于可重构计算平台的研究现状分析

2.2.1 基于可重构计算平台的软硬件协同计算

2.2.2 基于可重构计算平台的混合精度分析与优化

2.2.3 基于可重构计算平台的地震模拟

2.3 本章小结

第3章面向大规模并行异构系统的复杂地形地震模拟算法

3.1 面向复杂地形的地震模拟算法

3.1.1 波动方程介绍

3.1.2 适用于复杂地形起伏区域的地震模拟算法

3.1.3 有限差分数值方法

3.2 适用于大规模并行异构系统的算法重新设计

3.3 多级网格划分方案

3.4 进程间网络通信优化

3.5 IO通信优化

3.6 本章小结

第4章面向“神威·太湖之光”的复杂地形地震模拟并行优化方法

4.1 国产众核架构SW26010 处理器

4.1.1 SW26010 处理器硬件架构

4.1.2 SW26010 内存体系

4.1.3 SW26010 处理器编程模型及面临的挑战

4.2 内存利用率优化

4.2.1 面向二维有限差分的内存利用率优化

4.2.2 面向三维有限差分的内存利用率优化

4.3 内存带宽优化

4.3.1 变量融合方法

4.3.2 网格点重排列

4.3.3 协作存取模型

4.4 向量化策略

4.4.1 传统的向量化策略

4.4.2 混合型向量化策略

4.5 本章小结

第5章基于可重构计算平台的地震模拟混合精度并行优化方法

5.1 可重构计算平台

5.1.1 可编程逻辑门阵列

5.1.2 数据流编程模型

5.2 地震模拟定点化方法

5.2.1 基于单变量的浮点数定点化

5.2.2 基于多变量的浮点数定点化

5.2.3 基于地震模拟算法的动态定点化方法

5.3 范围分析和精度分析

5.3.1 分析平台与案例

5.3.2 基于单时间步的范围分析

5.3.3 基于多时间步的范围分析

5.3.4 精度分析

5.4 基于混合精度的动态定点化地震模拟数据流处理器设计与验证

5.4.1 数据流处理器设计

5.4.2 面向资源的优化策略

5.4.3 基于理想模型的系统设计验证

5.5 本章小结

第6章性能测试及模拟结果分析

6.1 背景介绍

6.2 基于“神威?太湖之光”的汶川地震模拟

6.2.1 完整的大规模地震模拟系统

6.2.2 性能分析与扩展性

6.3 基于可重构计算平台的汶川地震模拟

6.3.1 适用于地震模拟算法的CPU-FPGA异构系统设计

6.3.2 系统设计正确性验证

6.3.3 系统性能和功耗分析

6.4 大规模汶川地震模拟结果分析

6.4.1 地形效应有效性验证

6.4.2 基于反演震源的汶川地震模拟

6.4.3 基于模拟震源的汶川地震模拟

6.5 本章小结

第7章总结与展望

7.1 论文工作总结

7.2 未来展望

参考文献

致谢

个人简历、在学期间发表的学术论文与研究成果

（6）面向异构众核平台的多任务流编程与性能优化技术研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景

1.1.1 异构计算平台

1.1.2 异构编程环境

1.1.3 多任务流编程机制

1.2 研究问题

1.2.1 多任务流编程机制实现问题

1.2.2 多任务流编程困难问题

1.2.3 多任务流程序调优方法平台受限问题

1.3 相关研究

1.3.1 OpenCL编程模型实现

1.3.2 异构代码自动生成

1.3.3 多任务流优化

1.4 研究内容

1.4.1 多任务流编程模型实现

1.4.2 多任务流异构代码自动生成

1.4.3 XeonPhi平台上的多任务流优化的参数调优

1.4.4 通用异构系统上的多任务流优化的参数调优

1.5 主要创新

1.6 论文组织

第二章异构系统架构及编程介绍

2.1 异构系统架构

2.2 异构系统编程环境

2.3 多任务流编程机制

第三章面向Matrix-2000 多任务流编程模型的高效实现

3.1 问题提出

3.1.1 Matrix-2000 架构

3.1.2 OpenCL编程接口介绍

3.2 MOCL的设计与实现

3.2.1 整体设计

3.2.2 MOCL内核编译器

3.2.3 MOCL运行时系统

3.2.4 其他功能实现

3.3 MOCL的验证与评估

3.3.1 实验配置

3.3.2 整体性能

3.3.3 内核编译策略

3.3.4 设备端运行时调度

3.3.5 原子操作评估

3.3.6 Matrix-2000 平台的编程与优化:一个程序员的角度

3.3.7 评估MOCL的可扩展性

3.4 总结

第四章面向多后端的多任务流代码自动生成与优化

4.1 研究动机

4.2 通用异构程序表示

4.2.1 异构程序主机端代码分析

4.2.2 异构程序内核代码分析

4.2.3 异构多任务流程序代码分析

4.2.4 通用异构程序表示介绍

4.3 AutoStreamer框架

4.4 代码优化

4.4.1 冗余数据传输优化

4.4.2 内核函数合并

4.5 测试环境

4.5.1 软硬件环境与测试程序

4.5.2 其他工具及技术

4.6 测试结果

4.6.1 与原C程序的性能比较

4.6.2 与其他异构代码自动生成工具的比较

4.6.3 与NVIDIA的 ZeroCopy技术比较

4.6.4 冗余数据传输优化效果分析

4.6.5 内核合并优化效果分析

4.7 总结

第五章面向XeonPhi平台的多任务流程序参数自动调优

5.1 问题描述与方法介绍

5.1.1 问题描述

5.1.2 研究动机

5.1.3 方法介绍

5.2 预测模型

5.2.1 训练预测模型

5.2.2 特征值

5.2.3 运行时部署

5.3 测试环境

5.3.1 软硬件环境与测试程序

5.3.2 分析模型

5.3.3 性能评价方法

5.4 测试结果

5.4.1 XeonPhi平台上的性能评估

5.4.2 与固定流配置的性能比较

5.4.3 与分析模型的比较

5.4.4 模型分析

5.5 总结

第六章面向通用异构平台的多流参数自动调优方法

6.1 研究动机

6.2 整体介绍

6.3 性能模型

6.3.1 训练性能模型

6.3.2 特征值

6.3.3 运行时部署

6.4 测试环境

6.4.1 软硬件环境与测试程序

6.4.2 分析模型

6.4.3 性能评价方法

6.5 测试结果

6.5.1 整体性能

6.5.2 与固定流配置对比

6.5.3 与分析模型的比较

6.5.4 与基于分类器方法的比较

6.5.5 对多流程序性能的详细分析

6.5.6 对不同预测模型的分析

6.6 总结

第七章结论与展望

7.1 论文工作总结

7.2 课题研究展望

致谢

参考文献

作者在学期间取得的学术成果

（7）面向神威太湖之光的隐式并行语言研究及编译优化设计（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 课题研究背景综述

1.1.1 课题的来源

1.1.2 众核处理器的发展现状

1.1.3 众核处理器并行编程语言的发展现状

1.2 相关工作基础

1.2.1 众核处理器隐式并行编程语言的相关研究

1.2.2 面向多核和众核系统的编译优化相关研究

1.3 本文主要工作

1.3.1 研究内容及方法

1.3.2 实验平台

第二章面向异构众核处理器架构的OpenACC*语言设计

2.1 异构众核处理器架构存储抽象模型研究

2.1.1 典型众核架构存储模型分析

2.1.2 适应异构众核处理器架构的存储模型设计

2.2 面向异构众核处理器架构的OpenACC*语言设计

2.2.1 OpenACC*执行模型

2.2.2 针对融合的众核处理器架构的语言功能设计

2.2.3 提供对通信死锁检测的支持

2.3 本章小结

第三章面向异构众核处理器架构的编译器架构研究

3.1 面向异构众核处理器架构的编译框架设计

3.1.1 异构众核融合编译架构

3.1.2 异构众核融合编译器基本组成和工作原理

3.1.3 面向异构众核的加速线程编程模型

3.1.4 异构众核程序加载器

3.2 OpenACC*在神威太湖之光系统上的实现机制研究

3.2.1 基于仿射分析的数据分布分析技术

3.2.2 异构协作的数据重分布处理技术

3.2.3 数据规模自适应的空间重分布技术

3.2.4 异构程序主从执行模式实现技术

3.2.5 基于运行时的通信死锁检测技术

3.3 本章小结

第四章异构众核编译优化技术研究

4.1 针对主核存储层次结构的访存编译优化

4.1.1 代价模型约束的循环级数据预取优化

4.1.2 局部性指导的自动流式不可Cache优化

4.1.3 实验结果

4.2 针对异构众核结构特征的编译优化技术

4.2.1 动静结合的循环级指令调度优化

4.2.2 数据访问的自适应指令代理优化

4.3 面向OpenACC*的多模式访存优化技术

4.3.1 多点融合的访存聚合优化

4.3.2 访存模式指导的离散访存优化

4.3.3 动静结合的数据重用优化

4.4 应用综合优化效果

4.4.1 CAM-SE核心段移植优化效果

4.4.2 SWLBM课题移植优化效果

4.4.3 SPEC ACCEL基准测试课题移植优化效果

4.5 本章小结

第五章总结与展望

5.1 本文工作总结

5.2 研究展望

参考文献

致谢

攻读博士学位期间已发表或录用的论文和其他成果

插图索引

表格索引

（8）面向大规模应用的多计算平台并行优化关键技术研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.1.1 高性能计算的发展和应用

1.1.2 大规模应用的特点分析

1.2 并行计算基础

1.2.1 并行计算机的分类

1.2.2 并行计算的设计原则和方法

1.2.3 并行计算的性能评价指标

1.3 处理器结构的发展

1.3.1 CPU的发展

1.3.2 GPU的发展

1.3.2.1 GPU架构的发展

1.3.2.2 GPU存储体系

1.3.3 异构系统的发展

1.4 大规模应用领域并行计算发展面临的挑战

1.5 本文主要研究内容及其创新点

1.6 论文的组织结构

第二章面向聚合数据类型大规模基因组的SNF算法在通用计算平台的并行算法与优化技术

2.1 引言

2.2 相关研究

2.2.1 基于多核CPU的并行优化技术

2.2.2 存储器的发展和分类

2.2.3 并行运算库简介

2.2.4 生物医学发展的现状及其存储需求

2.3 相似网络融合算法背景知识

2.3.1 SNF算法原理

2.3.2 SNF算法的存储需求及其热点分析

2.3.2.1 串行SNF算法的存储需求

2.3.2.2 串行SNF算法的存储特点

2.3.2.3 串行SNF算法热点分析

2.4 并行SNF算法(para SNF)和优化技术

2.4.1 存储优化

2.4.2 基于并行库的SNF算法重构

2.4.3 基于分级存储的并行SNF优化

2.4.3.1 基于分级存储的SNF算法

2.5 实验结果

2.5.1 实验环境

2.5.2 实验数据

2.5.3 评价指标

2.5.4 并行相似网络融合算法性能分析

2.5.4.1 归一化互信息(NMI)分析

2.5.4.2 存储空间需求和性能分析

2.5.4.3 加速比

2.6 总结和展望

第三章面向高吞吐率生物识别应用在异构计算平台的并行算法和优化技术

3.1 引言

3.2 相关工作

3.3 背景知识

3.3.1 指纹识别中的基础知识

3.3.1.1 指纹识别系统性能指标

3.3.1.2 指纹分类

3.3.1.3 指纹识别分类

3.3.2 指纹识别系统框架

3.3.3 指纹识别系统框架优化

3.3.4 指纹精匹配算法流程

3.4 基于GPU的指纹精匹配算法并行优化

3.4.1 任务调度优化

3.4.2 存储优化

3.4.3 CUDA Stream优化

3.5 基于多核CPU的指纹匹配算法并行优化

3.6 基于CPU+GPU异构的指纹匹配加速

3.7 实验结果与分析

3.7.1 实验平台

3.7.2 实验数据

3.7.3 串行程序最优化

3.7.4 基于GPU的指纹匹配算法吞吐率

3.7.5 基于CPU的指纹匹配算法吞吐率

3.7.6 基于CPU+GPU异构平台的指纹匹配算法吞吐率

3.8 小结

第四章面向大规模三维重建应用的强迭代分布式并行算法和优化技术

4.1 引言

4.1.1 分布式计算及其编程简介

4.1.1.1 分布式存储系统及其特点

4.1.1.2 分布式计算及其特点

4.1.1.3 MPI简介

4.1.2 强迭代算法的发展历程

4.2 相关研究

4.3 背景知识

4.3.1 多视图三维重建模型

4.3.2 SFM算法简介

4.3.3 多视图三维重建的存储需求分析

4.3.4 Sparse Bundle Adjustment(SBA)原理

4.4 SBA算法分布式方案

4.4.1 SBA分布式方案综述

4.4.2 SBA算法的分布式存储方案选择

4.4.3 分布式SBA算法的数据集划分

4.5 DSBA关键步骤中的数据分布及其通信

4.5.1 数据初始化

4.5.2 Jacobian矩阵J的计算

4.5.3 计算J~TΣ_x~(-1)J+ μI,J~TΣ_x~(-1)?

4.5.4 计算S和 e_a

4.5.5 解方程Sδ_a=e_a,求δ_a

4.6 基于循环分块的异步规约求解方程的DSBA方法

4.6.1 基于循环分块的分布式方程组求解

4.6.2 A-DSBA算法的数据分布和通信

4.6.3 A-DSBA的异步规约时序图

4.6.4 A-DSBA算法总结

4.7 实验结果与分析

4.7.1 实验环境

4.7.2 实验方案及结果分析

4.8 总结和展望

第五章结论与展望

5.1 工作总结

5.2 工作展望

致谢

参考文献

作者在学期间取得的学术成果

（9）基于“神威·太湖之光”的并行深度学习训练系统（论文提纲范文）

摘要

abstract

第1章绪论

1.1 人工智能与深度学习概述

1.2 超级计算机系统概述

1.3 基于国产超算的深度学习训练系统:机遇与挑战

1.4 本文主要贡献和行文结构

第2章研究背景及现状分析

2.1 深度学习训练方法

2.2 单节点深度学习训练性能优化研究

2.2.1 深度学习算子库

2.2.2 深度学习训练框架

2.3 多节点深度学习训练并行优化研究

2.4 本章小结

第3章申威架构的性能模型和张量化编程模型

3.1 申威异构众核处理器架构

3.1.1 概况

3.1.2 从核访存特性

3.1.3 核间通信特性

3.1.4 指令执行特性

3.1.5 和其他众核架构比较

3.2 性能分析方法

3.2.1 核间通信的性能影响

3.2.2 定量的性能模型分析

3.2.3 定性的性能分析模型

3.3 张量化编程模型

3.3.1 张量化访存优化

3.3.2 张量化计算优化

3.3.3 张量化计算访存比优化

3.4 本章小结

第4章 swGEMM: 基于众核核间通信的矩阵乘法

4.1 矩阵乘法原语优化

4.1.1 分布式矩阵存储与通信方式

4.1.2 增加寄存器数据局部性优化

4.1.3 增加计算单元效率优化

4.2 原语使用示例: 张量化GEMM运算

4.2.1 深度学习中GEMM运算的挑战

4.2.2 张量化优化方法

4.2.3 自动调优分块大小

4.2.4 边界处理

4.3 实验结果

4.3.1 矩阵乘法原语性能

4.3.2 GEMM运算性能

4.4 本章小结

第5章 swDNN: 深度学习算子的张量化

5.1 卷积算子

5.1.1 基于显式矩阵乘法的卷积优化

5.1.2 基于隐式矩阵乘法的卷积优化

5.1.3 基于Winograd的卷积优化

5.2 全连接和LSTM算子

5.3 其它算子

5.4 实验结果

5.4.1 卷积算子

5.4.2 LSTM算子

5.5 本章小结

第6章 swAutoDNN: 深度学习算子张量化自动调优

6.1 张量化自动优化动机

6.2 swAutoDNN设计方法

6.2.1 概观

6.2.2 计算描述DSL

6.2.3 调度器

6.2.4 IR优化器

6.2.5 自动调优器

6.2.6 代码生成器

6.3 实验结果

6.3.1 相对手动优化性能提升

6.3.2 自动调优性能和效果

6.3.3 应用swAutoDNN到swDNN

6.3.4 和GPU性能对比

6.4 本章小结

第7章 swCaffe: 基于“神威·太湖之光”的并行深度学习框架

7.1 单核组计算性能优化

7.2 多节点并行性能优化

7.2.1 并行通信模块

7.2.2 并行I/O模块

7.3 实验结果

7.3.1 单节点性能效果

7.3.2 多节点性能效果

7.4 本章小结

第8章 RedSync: 深度学习数据并行通信压缩方法

8.1 研究动机

8.2 RedSync系统设计方法

8.2.1 并行友好型通信集合选择算法

8.2.2 通信集合的量化方法

8.2.3 稀疏Allreduce方法

8.2.4 通信计算重叠

8.2.5 其它技巧

8.3 实验结果

8.3.1 软硬件配置

8.3.2 模型精度测试

8.3.3 扩展性测试

8.4 本章小结

第9章总结与展望

9.1 本文总结

9.2 未来展望

参考文献

致谢

个人简历、在学期间发表的学术论文与研究成果

（10）基于“神威·太湖之光”的数据密集型计算并行优化（论文提纲范文）

摘要

Abstract

主要符号对照表

第1章绪论

1.1 研究背景

1.2 研究意义

1.3 研究挑战

1.4 主要研究内容

1.5 本文的主要贡献

1.6 文章组织结构

第2章研究基础与现状

2.1 SW26010异构众核处理器简介

2.1.1 内存访问模式

2.1.2 核组工作模式

2.1.3 寄存器通信机制

2.1.4 并行计算模型

2.2 “神威·太湖之光”超级计算机简介

2.3 k-means算法的相关工作

2.4 深度学习内核函数的相关工作

2.5 AES算法的相关工作

2.6 本章小结

第3章基于申威异构众核架构的k-means算法并行优化

3.1 概述

3.2 研究背景

3.2.1 问题定义

3.2.2 Lloyd算法

3.2.3 k-means算法的一般并行优化方法

3.2.4 面向超级计算机的k-means算法大规模并行优化方法

3.3 k-means算法多级层次化并行优化设计

3.3.1 Level 1—数据流并行分块策略

3.3.2 Level 2—数据流和聚类质心数同时并行分块策略

3.3.3 Level 3—数据流、聚类质心数和数据维度同时并行分块策略

3.3.4 多级层次化大规模扩展对k-means算法设计的影响分析

3.4 大规模扩展通信优化

3.4.1 节点间通信优化

3.4.2 节点内通信优化

3.5 多级层次化大规模任务自适应分配和调度策略

3.5.1 计算节点间任务自适应分配和调度策略

3.5.2 计算节点内任务自适应分配和调度策略

3.6 性能分析评估

3.6.1 测试数据集

3.6.2 实验设计

3.6.3 实验结果分析

3.6.4 实际应用

3.7 本章小结

第4章基于申威异构众核架构的深度学习内核函数并行优化

4.1 概述

4.2 深度学习内核函数简介

4.3 深度学习内核函数并行优化

4.3.1 张量转换并行优化

4.3.2 池化算子并行优化

4.3.3 逐点运算融合并行优化

4.3.4 函数融合并行优化

4.3.5 双缓冲机制对程序性能的影响分析

4.4 性能分析评估

4.4.1 单节点性能测试

4.4.2 大规模扩展性测试

4.5 本章小结

第5章基于申威异构众核架构的AES算法并行优化

5.1 概述

5.2 AES算法简介

5.2.1 字节替换操作

5.2.2 行移位变换操作

5.2.3 列混淆变换操作

5.2.4 轮密钥加操作

5.3 向量化编程模型及并行优化

5.3.1 进程级并行优化策略

5.3.2 线程级并行优化策略

5.3.3 向量化编程模型

5.3.4 指令级并行优化策略

5.3.5 DMA传输时间与计算时间重叠优化

5.4 性能分析评估

5.4.1 整体性能分析

5.4.2 不同并行优化方法对算法性能的影响

5.4.3 相关工作比较

5.5 本章小结

第6章总结与展望

6.1 研究工作总结

6.2 研究工作展望

参考文献

致谢

个人简历、在学期间发表的学术论文与研究成果

四、Intel:通信与计算融合（论文参考文献）

[1]2021企业服务、科技互联网案例TOP100[J]. 白华. 互联网周刊, 2022(02)
[2]大规模图神经网络系统综述[J]. 赵港,王千阁,姚烽,张岩峰,于戈. 软件学报, 2022(01)
[3]基于容器技术的用户行为仿真方法研究[D]. 尚佳友. 江南大学, 2021(01)
[4]材料模拟在Kubernetes+Volcano容器批处理系统中的研究与实现[D]. 王玮. 兰州大学, 2021(09)
[5]面向复杂地形地震模拟的并行优化方法研究[D]. 陈炳炜. 清华大学, 2020(01)
[6]面向异构众核平台的多任务流编程与性能优化技术研究[D]. 张鹏. 国防科技大学, 2020(01)
[7]面向神威太湖之光的隐式并行语言研究及编译优化设计[D]. 尉红梅. 上海交通大学, 2020(01)
[8]面向大规模应用的多计算平台并行优化关键技术研究[D]. 申小龙. 国防科技大学, 2019(01)
[9]基于“神威·太湖之光”的并行深度学习训练系统[D]. 方佳瑞. 清华大学, 2019(02)
[10]基于“神威·太湖之光”的数据密集型计算并行优化[D]. 李连登. 清华大学, 2019(02)

标签：异构计算论文; 系统仿真论文; 网络模型论文; 容器技术论文; 深度学习算法论文;

英特尔：通信与计算融合

一、Intel:通信与计算融合（论文文献综述）

二、Intel:通信与计算融合（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、Intel:通信与计算融合（论文提纲范文）

（1）2021企业服务、科技互联网案例TOP100（论文提纲范文）

（3）基于容器技术的用户行为仿真方法研究（论文提纲范文）

（4）材料模拟在Kubernetes+Volcano容器批处理系统中的研究与实现（论文提纲范文）

（5）面向复杂地形地震模拟的并行优化方法研究（论文提纲范文）

（6）面向异构众核平台的多任务流编程与性能优化技术研究（论文提纲范文）

（7）面向神威太湖之光的隐式并行语言研究及编译优化设计（论文提纲范文）

（8）面向大规模应用的多计算平台并行优化关键技术研究（论文提纲范文）

（9）基于“神威·太湖之光”的并行深度学习训练系统（论文提纲范文）

（10）基于“神威·太湖之光”的数据密集型计算并行优化（论文提纲范文）

四、Intel:通信与计算融合（论文参考文献）

猜你喜欢