高性能DSP指令控制部件优化设计研究

孙庆^[1]2004年在《高性能DSP指令控制部件优化设计研究》文中研究指明数字信号处理器(Digital Signal Processor,DSP)是一种专门用于数字信号处理的处理器,是数字信号处理的关键技术。从1978年第一片DSP芯片问世到现在,DSP发展已经经历了26个年头。目前,DSP已经在无线通信、语音识别、全球定位系统、汽车导航系统以及军用雷达、武器控制系统中得到了广泛的应用。更多新兴的应用,如宽带(有线modem、xDSL、Gigabit以太网、10Gb以太网)、多媒体(MP3、DVD、MP4、数码相机、数字录像机)、视频点播、电视会、VoIP(网络电话)等对DSP提出了更高的要求。因此,YHFT-D4的研制无论对于抢占市场技术制高点还是保护国家军队的信息安全都具有重大的意义。 YHFT-D4是一款高性能32位定点DSP,采用VLIW结构,8个功能部件共享32个通用寄存器,最多可以同时发射8条32位并行指令,并且在片内集成的了丰富的外设。本文提出的YHFT-DX体系结构是对YHFT-D4的改进。指令控制部件的功能是从外部存储器中取得指令并将指令送入执行部件中执行,包括取指部件和派发部件。YHFT-DX的指令控制部件的关键技术在于能否向运算部件源源不断地输送高密度高并行度的指令流。为了实现“源源不断”,本课题研究并设计实现了取指部件级的指令预取机制,大大提高了指令流水线的运行效率,对于标准测试程序的总执行时间比YHFT-D4缩短了5.15%。为了支持高密度指令流,本课题研究并设计实现了派发部件跨取指包边界的派发机制,使得代码密度平均提高15%左右:同时还提高了片内存储器的利用效率,降低了一级程序存储器(L1P)的失效率。本文还就指令控制部件的结构设计、综合优化以及设计验证探索了基于标准单元的高性能微处理器的半定制设计流程和方法。在Atisan的0.18μm工艺条件下,使用DC(Design Compiler,Synopsys公司的综合工具)对YHFT-DX的指令控制部件进行综合和优化,结果表明,YHFT-DX的指令控制部件在布局布线前可达到200MHz,在布局布线后可达到150MHz。

彭杰^[2]2015年在《高性能DSP取指和指令派发部件的设计与验证》文中研究说明随着计算机和集成电路技术的不断发展,数字信号处理器应运而生并得到广泛应用,有利地促进了我国信息技术的提升,并给人们日常生活带来了巨大的便利。自TI公司第一代通用DSP诞生以来,数字信号处理器技术越来越成熟,多核高性能并支持SIMD(单指令多数据流)多宽度发射的数字信号处理器不断涌现,其中处理器内核设计成为提高DSP运行速度、数据处理能力的主要技术瓶颈。本文基于一款自主研发的采用超长指令字结构并支持16/32位指令并行派发的高性能DSP FT-MX,对芯片内核取指与指令派发部件作了详细的设计与验证。其中提到的指令预取、指令缓冲队列、跨边界指令并行派发等内核技术对提高DSP主频及代码密度具有重要意义,具体完成了以下五个方面的工作和创新:(1)根据FT-MX总体结构及指令集提出了内核指令控制部分取指和指令派发部件的设计方案和需求,并在内核结构和流水线的基础上分析了取指和指令派发部件的主要功能点。(2)完成了DSP内核指令控制部分指令派发部件的设计,该部件可以实现跨边界指令的派发、旁路取指,并支持仿真调试部件的读写操作。(3)完成了内核指令控制部分取指部件的设计,包括缓冲地址的生成、流水线填充、地址作废以及取指部件和指令派发部件、一级指令Cache等之间的协议,该工作对提高流水线运行效率具有重要作用。(4)利用Synopsys公司工具对内核取指和指令派发部件进行了DC综合和结果分析,有利于相关部件的进一步优化。(5)在当前的验证技术基础上搭建验证平台,对指令控制部分取指与派发作了详细的系统级验证以及覆盖率验证,根据取指与派发部件的功能建立Systemverilog模型、构造约束断言并对其进行等价性检查,提高了验证的完备性。

杨惠^[3]2009年在《高性能定点YHFT DX+DSP指令控制部件的研究与实现》文中研究指明信息社会的发展,在很大程度上取决于信息与信号处理技术的先进性。数字信号处理器(DSP)作为数字信号处理的核心,其应用已经广泛深入到了航天、航空、雷达、声纳、通信、家用电器等各个领域,成为电子系统的心脏。高性能DSP的研制对推动这些领域技术的进步,起重要的作用。YHFT DX+DSP是国防科技大学自主设计的一款高频、高性能定点32位DSP。采用八流出超长指令字结构,紧凑指令集,8个功能部件共享64个通用寄存器,最多可以同时发射8条并行指令,并行指令长度可不等,由16位压缩指令和32位类RISC指令构成,哈佛结构,两级cache,500MHz主频,峰值运算速度可达4000MIPS,拥有强大的数据处理能力,片内集成了丰富的外设资源。本文深入研究了YHFT DX+DSP内核指令控制和优化技术,完成了适用于本款DSP的高效高频指令控制部件的设计、验证与综合。主要研究工作包括:1、分析主流高性能DSP内核结构特征;对本文涉及到的高性能技术手段,现存的国内外相关研究进行综述。2、系统结构设计分析。着重对YHFT DX+DSP的指令系统做了深入研究。围绕增强指令和压缩指令的实现展开分析,并给出了流水线的功能划分。3、分析影响内核性能的叁个关键因素,结合体系结构特征,提出了二级指令派发窗、改进的排序分派法和一系列的优化策略,完成了混合型指令的跨边界派发,并完成了无单元指令的处理。4、分析基本译码器的原理和方式,基于改进译码效率叁种策略,提高绝对译码速度、均衡流水线和扩展硬件,结合系统结构特征,设计出分布式双通道高效译码器。5、研究当前微处理器设计的主要验证方法策略,完成本设计的模块级、部件级验证。基于软件协同模拟验证策略和系统验证平台的搭建,完成全芯片的功能验证。给出综合和优化策略及结果。结果表明指令控制部件的设计完全符合YHFT DX+DSP的高频、高性能的设计需求。

薛杨^[4]2009年在《YHFT DX+DSP中分支和循环处理优化技术的研究与设计》文中研究说明DSP程序中的非顺序程序结构会导致DSP中的程序流发生突发的变化,带来处理器性能的下降。DSP控制逻辑设计的重要目标就是控制处理器流水线更好的处理这些非顺序的程序结构,使之带给流水线的性能损失最小。本文的研究针对YHFT DX+ DSP中的分支和循环处理的优化技术展开。本文详细分析了YHFT DX+ DSP体系结构,研究了其流水线中的分支延迟槽结构,并通过分析YHFT DX+ DSP指令集中引入的混合长度指令集及指令跨边界等技术可能对分支延迟槽控制逻辑设计带来的挑战,提出了对分支延迟控制逻辑的优化设计。本文分析了YHFT DX+ DSP对循环操作的模调度优化特点,结合模调度代码的生成方案,对利用循环缓冲优化模调度代码的执行性能进行了研究,并提出了YHFT DX+ DSP循环缓冲的设计方案。本文的研究和工作主要体现在以下叁个方面:1.在分支延迟槽中采用了取指包作废机制和跨边界控制机制等设计,很好的解决了混合指令及指令跨边界等技术可能带来的分支指令执行效率下降和指令包丢失等问题。通过模拟测试发现,YHFT DX+ DSP分支延迟槽控制逻辑对分支指令效率的提高可以达到11.7%,对处理器总体性能的提高也可以达到1.60%;2.分析确定了YHFT DX+ DSP循环缓冲体结构和循环缓冲中控制逻辑的设计。通过实际的模拟测试,该循环缓冲在典型DSP算法程序中的使用率达到了60%以上。通过一个MPEG2解码程序的实际测试显示:经循环缓冲优化后,程序执行过程中对L1P的访问次数下降为优化前的39.1%,取指过程中L2的缺失数下降为76.8%,相应的程序总执行周期数下降为74.7%。3.在完成对分支控制逻辑和循环缓冲的模块验证的基础上,实现了对YHFT DX+ DSP的全芯片FPGA验证,该验证方案重点解决了对设计内部工作情况的监控环境设计和设计在多个FPGA间划分的问题。本文的主要工作集中在YHFT DX+ DSP的分支和循环处理优化技术的研究与设计,设计结果对提升YHFT DX+ DSP的整体性能起到了积极的作用。

李翔^[5]2008年在《基于DSP的网络化直流无刷电机控制系统》文中研究指明电机在各种电气传动和位置伺服系统中占有极其重要的地位,电机控制的目标主要是速度控制和位置控制。近年来,随着电力电子技术、微电子技术、材料技术的飞速发展,电机控制的研究也越来越重要,高性能电机控制系统也在不断地更新。尤其是将DSP技术运用到电机控制之后,硬件的统一性与软件的灵活性可以有机结合,电机的全数字化及集成化控制成了电机控制的发展方向。为此,基于DSP的直流无刷电机控制系统有着广泛的应用前景。本课题主要是如何改进络筒机控制系统,其控制核心是基于数字信号处理芯片TMS320F2812和专用直流电机芯片MC33035。在DSP控制部分,承担了整个的控制功能,包括电机转速的检测、控制和显示,以及启动外围电机安全工作的附加设备等,与计算机的通信也由DSP负责。MC33035负责执行DSP部分的控制指令,给出控制电机转速的信号,以调节电机转速。控制器通过RS485总线与计算机通信,在计算机的操作界面上含有控制电机所需要的全部功能按键,通过操作计算机可方便地控制电机。上位机界面是基于NI公司的LabVIEW 8.20开发的。现场测试结果表明,本控制器工作稳定,控制精度高,而且操作方便,保护功能齐全,带载能力强,具有良好的应用价值。

李睿婷^[6]2014年在《高性能X-DSP指令流水线部件设计实现与软硬件协同验证》文中进行了进一步梳理X-DSP处理器是由国防科技大学微电子所自主研发的一款高性能64位浮点向量多核DSP芯片,40nm工艺下,实现主频1GHz的设计目标,采用VLIW结构,40/80位变长指令集,支持32/64位定点/浮点运算,最大可支持11条标/向量指令混合并行发射。本文以高性能X-DSP处理器的开发与研制为背景,深入分析流水线技术,设计实现了指令流水线上的指令派发与指令流控部件,并基于所提出的软硬件协同验证平台对系统级指令流水线的功能进行验证。本文主要的创新点与工作内容包括以下几点:1)详细分析X-DSP处理器内核结构、指令格式与流水线结构特征,进而提出指令流水线部件中指令派发与流控部件的设计需求;2)基于超长指令字(VLIW)结构,设计并实现可跨取指包边界派发指令的指令派发部件,支持L1P旁路取指与仿真调试部件(ET)对流水线的控制功能;3)深入分析X-DSP分支延迟槽特征,结合对调试仿真的支持,设计并实现指令流控部件,完成对指令流的控制作用;4)针对指令派发与指令流控部件的逻辑设计,在指令流水线系统级分别对其逻辑功能进行验证,并完成覆盖率分析与逻辑综合;5)分析传统FPGA原型验证的基本原理与不足之处,提出一种基于PLI接口的新型调试/验证方案:利用PLI接口实现C函数与Verilog的嵌套调用、采用数据共享机制实现不同进程间的通信。在软硬件协同支持下,对X-DSP的指令流水线进行验证实践,实验结果表明该方案使得在设计阶段便可对调试接口以及流水线功能进行更为充分的验证。

刘洋徐瑞^[7]2012年在《高性能DSP中SIMD关键计算部件的研究》文中提出当前，嵌入式处理器的应用正向大规模，实时性等方向发展，其中高性能的功能部件是提升处理器性能的一大基础。本文围绕子字并行功能部件为中心，以FT-X高性能浮点DSP研究为背景，开展了对功能部件子字并行的深入研究，并提出了高性能的支持子字并行的功能部件的算法。1）本文针对功能部件的独特特点，面向不同应用，对采用子字并行的功能部件的性能进行了分析。并对DSP中存在最多的乘法和加法运算部件分别进行了加速比分析。2）通过对乘法算法的深入分析，本文提出了一种支持子字并行的乘法算法。采用新型Booth编码技术、ES编码和CS编码合理分离结构，对高位宽乘法具有速度优势。并支持叁种位宽工作模式，在文中对可以同时执行1个64位乘法，4个32位乘法或16个16位乘法，支持有/无符号运算的乘法结构进行了举例说明；为配合乘法矩阵算法在点积指令中的应用，本文提出了一种溢出判断补偿技术，解决了在多数据通路下点积和矩阵乘法的溢出判断问题。3）本文对有限域乘法部件进行了算法研究，并对有限域算法进行了子字并行化。提出了一种操作宽度和本原多项式同时可调的有限域乘法器。与现有的单功能有限域乘法器相比，在综合指标上具备了一定优势。4）本文对加法算法进行了分析。在比较较为先进的加法算法的基础上，提出了一种支持子字并行的加法算法。该算法适用于支持逻辑指令和加/减法的ALU上，可扩展性较强，且性能较强。5）上述算法最终实际应用在FT-X高性能浮点处理器的功能部件中。本文对设计的功能部件进行了详细的设计和模拟验证，并给出了最终的的综合结果。本文提出的支持子字并行的乘法部件算法具有关键路径较短，功能强大，面积较小等特点，是一种优良的算法。综合结果表明，该算法能够提高64位可支持SIMD乘法速度约4%。本文提出的支持子字并行的加法器可以在较少增加标量加法延时的前提下，支持多种子字并行模式，并将结果选择嵌在运算体内，与进位消除算法相比，性能提高11%。基于本文乘法算法的M部件能够满足应用的指令集要求。在DC综合工具的环境及TSMC40nm工艺下，FT-X DSP的M部件面积为142275(um2)，动态功耗为28.6863(mW)，最高频率可达1GHz。

李闻博^[8]2010年在《FT-Matrix处理器指令集与指令派发设计》文中提出FT-Matrix处理器是国防科技大学设计的一款高性能DSP,主要面向3GPP-LTE无线通信基带处理领域。采用VLIW结构,16/32位可变长类RSIC指令集,每周期最大流出10条指令。处理器的运算分为标量和向量两部分运算单元,标量单元负责简单的计算以及程序流控,向量单元内含有多个向量运算部件,提供主要的运算能力。每周期指令流出数增加和可变长的指令集,使得指令派发部件变得极为复杂。为了设计出更高性能的指令派发部件,文章从应用程序仿真入手,以运算量的分析为依据从处理器体系结构的上进行功能部件的合并简化,然后从软硬两方面展开设计,一方面调整指令执行包格式,另一方面优化指令派发逻辑,最终完成了高性能指令派发部件的设计。本文的研究成果主要包括以下几个方面:首先,进行了针对3GPP-LTE基带处理系统的仿真,得到了整个基带处理系统的主要运算和各种操作运算量的统计,为处理器指令集体系结构的设计优化提供了依据。接着,通过分析汇编器与派发部件硬件之间的关系,提出了用编译器时间换取硬件代价的方法。调整指令执行包的格式,将部分本应由硬件完成的逻辑交由汇编器在编译阶段完成,从而简化派发部件的硬件复杂度。然后是优化设计了派发部件逻辑结构,使派发部件在处理指令并行信息的同时处理指令的目的功能单元的信息,从而提高了指令派发的并行度。这种并行的派发结构较传统的串行派发结构能缩短关键路径1/3以上,极大的提高了派发部件性能。分析了指令控制流水线中可能导致流水线暂停的几种情况,并给出了具体解决方法。最后研究当前微处理器设计的主要验证方法策略,完成对FT-Matrix处理器派发部件的模块级、部件级验证,给出综合优化策略及结果。

张凯^[9]2013年在《向量SIMD DSP上高效矩阵运算技术研究》文中研究说明随着应用对高性能需求的不断增长和功耗约束的持续严格,以向量SIMD(Single Instruction Multiple Data)技术为主体,同时融合其它先进技术的微处理器体系结构,已经成为数字信号处理器(Digital Signal Processor,DSP)体系结构发展的主流。矩阵运算历来是高性能计算领域的经典问题。然而,当前向量SIMD DSP上的矩阵运算面临着计算资源和访存带宽利用率低、访存冲突多、通信开销大等诸多问题,严重制约着处理器峰值性能的发挥。因此,研究向量SIMD DSP上的高效矩阵运算技术具有重要意义。本文采取建模分析、软件算法优化、硬件结构支撑、软硬件协同优化等技术,研究了向量SIMD DSP上高效矩阵运算的关键技术。本文的主要内容与创新点体现在以下几个方面:(1)为了高效支撑稠密线性方程组求解中涉及的通用矩阵乘法(General-Purpose Matrix Multiplication,GEMM)问题,本文以基于SIMD技术的高性能DSP为结构框架,将Goto BLAS库映射到该结构上,然后通过综合考虑算法的执行过程、存储层次间的数据传输、硬件功能单元的流水线深度、软件流水和循环展开等软件优化技术对执行时间的影响,建立了基于SIMD DSP的GEMM性能模型。(2)基于已建立的GEMM性能模型,我们研究了包括性能、存储层次、核的大小以及核的数量等因素对GEMM执行效率的影响及各因素之间的互相影响,对提出的高性能DSP体系结构进行了有效的设计权衡。基于该性能模型的分析推导及设计权衡策略,有效的指导了面向通用高性能计算高效特别是矩阵运算高效的DSP结构设计。(3)提出了基于SIMD处理器的细粒度流水LU分解机制,该机制包含细粒度流水的LU分解算法和标量向量单元间的快速数据共享技术。细粒度流水的LU分解算法将原算法中串行执行的两个任务转化为在SIMD处理器的标量单元和向量单元上流水并行执行,充分利用了SIMD处理器的所有运算资源开发了流水线并行。通过软件优化技术,该算法消除了对数据进行的非连续访存,有效提升了LU分解在SIMD处理器上的性能。共享寄存器文件SRF提供了标量向量单元间快速数据共享的机制,能够加速标向量任务间的通信,减少因通信而带来的访存延时和访存冲突,进一步提升了LU分解的性能。(4)提出了软硬件协同的优化技术来加速稀疏矩阵向量乘(Sparse Matrix-Vector Multiplication,Sp MV)运算。本文研究了Sp MV运算在当前SIMD结构上的性能瓶颈,提出了基于SCT(Stride-combination CSR with Transpose)格式的Sp MV算法和向量写缓冲(VWB)技术。基于SCT格式的Sp MV运算可以有效提升SIMD单元的利用率和访问非零元素时的存储带宽利用率。基于SCT的分块Sp MV算法可以消除对向量x进行SIMD方式的索引访问时的存储访问冲突,提升访问向量x时的存储带宽利用率。VWB将多个对VM进行的离散写操作合并为一个连续的向量访问,通过有效减少存储访问次数而提高了写回操作时的存储带宽利用率。因此,我们的软硬件协同Sp MV优化技术很好的克服了当前基于SIMD处理器的Sp MV运算的性能瓶颈。(5)为了加速高性能嵌入式领域不同规模的矩阵运算,提出了多粒度矩阵寄存器文件MMRF(Multi-Grained Matrix Register File)。MMRF可根据面向应用的不同而配置为不同的多粒度模式,在不同模式下支持对一个或多个矩阵的并行行列访问,从而消除不同规模的矩阵运算在SIMD处理器上计算时的数据重排操作。通过同时开发嵌入式应用中矩阵运算的数据级并行和线程级并行,MMRF有效提高了SIMD处理器的性能。MMRF可以很好的应用于已有的SIMD处理器,而且不用修改原有处理器的指令集体系结构。

刘建平^[10]2013年在《基于X-DSP乘法部件的设计、验证与优化》文中研究指明X-DSP是一款自主正向研发的、支持浮点和定点操作的32位高性能数字信号处理器，采用超长指令字（VLIW）体系结构和单指令流多数据流（SIMD）技术。乘法部件是CPU内核四大功能运算部件之一。本文根据X-DSP的设计要求，研制开发了一款高性能、支持定点和浮点乘法的SIMD乘法部件，满足了DSP对并行运算、高精度以及实时数据处理能力的需求。本文的主要研究内容有以下几点：1、乘法部件的设计。首先对乘法部件的指令进行分析，然后根据分析结果对定点乘法和浮点乘法进行结构设计，之后采用多数据流乘法矩阵算法、Wallace树型结构以及超前进位加法器实现了SIMD乘法部件的逻辑设计。2、乘法部件的时序优化。首先，对乘法部件进行逻辑综合，得出关键路径。然后对处在关键路径上的功能模块进行优化设计。最后从逻辑结构与算法级和代码级对整个乘法部件进行时序优化。优化后，在45nm CMOS工艺下，且在面积、功耗等性能满足设计要求的前提下，关键路径延时减少190ps，时序性能提高22.4%，寄存器的个数减少了18.3%。3、乘法部件的功能验证。本文采取模拟验证和FPGA仿真验证方法对乘法部件进行功能验证。模拟验证的关键是测试向量的开发，验证过程中采取功能覆盖的方法从模块级和系统级对乘法部件进行了测试向量的开发。模块级验证主要根据每个模块实现的功能开发测试向量。系统级验证主要分为流水线验证和运算功能验证。最后，对乘法部件进行了FPGA仿真验证。在45nm CMOS工艺下，布局布线结果表明：乘法部件在worst条件下主频达到1GHz，动态功耗为12.6686mW，静态功耗为4.5032mW，面积为202718.88um2，完全达到X-DSP的设计目标。

参考文献：

[1]. 高性能DSP指令控制部件优化设计研究[D]. 孙庆. 国防科学技术大学. 2004

[2]. 高性能DSP取指和指令派发部件的设计与验证[D]. 彭杰. 国防科学技术大学. 2015

[3]. 高性能定点YHFT DX+DSP指令控制部件的研究与实现[D]. 杨惠. 国防科学技术大学. 2009

[4]. YHFT DX+DSP中分支和循环处理优化技术的研究与设计[D]. 薛杨. 国防科学技术大学. 2009

[5]. 基于DSP的网络化直流无刷电机控制系统[D]. 李翔. 天津工业大学. 2008

[6]. 高性能X-DSP指令流水线部件设计实现与软硬件协同验证[D]. 李睿婷. 国防科学技术大学. 2014

[7]. 高性能DSP中SIMD关键计算部件的研究[D]. 刘洋徐瑞. 国防科学技术大学. 2012

[8]. FT-Matrix处理器指令集与指令派发设计[D]. 李闻博. 国防科学技术大学. 2010

[9]. 向量SIMD DSP上高效矩阵运算技术研究[D]. 张凯. 国防科学技术大学. 2013

[10]. 基于X-DSP乘法部件的设计、验证与优化[D]. 刘建平. 国防科学技术大学. 2013

标签：电信技术论文; dsp论文; 流水线论文; 矩阵乘法论文; 指令周期论文; 逻辑结构论文; 并行处理论文; 逻辑运算论文; 运算速度论文; 关系运算论文; 汇编指令论文; 处理器技术论文; 计算机指令论文; 关系逻辑论文; 功能分析论文; dsp芯片论文; dsp技术论文;

高性能DSP指令控制部件优化设计研究

参考文献：

猜你喜欢