葛亮[1]2002年在《一种定点运算部件的设计与实现》文中研究指明本文介绍了一种32位定点运算部件的设计方案和实现结果。该定点运算部件包括加法器、移位器、乘法器、除法器等部件。加法器使用先行进位技术加速进位链的传播,以四位的加法模块为基础,可以方便地构成16、32、64位的加法器。移位器包括逻辑和算术的左移和右移,在文中我们设计了一种变换方法,可以把左移和右移互相转换,因此可以使用一套电路完成所有的移位,节省了硬件资源。乘法器和除法器是定点运算部件设计的难点。本文提出一种32x32位的乘法器设计方案。该乘法器采用了改进的Booth算法减少部分积的个数;使用同一套电路处理无符号数乘法和有符号数乘法,并且简化了部分积的符号扩展。在部分积的累加方面,使用4-2计数器实现Wallace树,避免了使用普通3-2加法器造成的布线复杂度,并且利用加法器输入端口到输出端口不同路径的延时不同的特性,提高了部分积的归约性能。为了提高时钟频率,该乘法器应用了流水线技术把乘法过程分解到2个周期内完成。该乘法器具有完整的控制接口,考虑了一个通用高性能CPU对乘法器的要求。除法器使用non-resorting算法,以无符号数除法为基础,把有符号数除法转化为无符号数除法来处理。在设计过程中,我们开发了软件模拟器来验证体系结构设计,硬件部分使用Verilog实现,通过逻辑综合,作为某CPU的定点部件,在FPGA和ASIC上得到验证。
周涛[2]2013年在《1GHz X-DSP芯片ALU部件设计与实现》文中研究说明X-DSP芯片是一款采用45nmCMOS工艺,在最坏条件下目标工作频率为1GHz的高性能DSP。ALU部件的设计优化是提升DSP内核频率的关键技术之一,研究针对ALU部件的电路设计与物理实现具有重要的现实意义。本文以X-DSP芯片内核ALU运算部件设计优化为项目背景,采用层次化定制电路设计与优化方法,结合层次化物理设计与手工半定制物理设计方法设计并实现了高性能ALU部件。论文主要内容包括:设计与实现了ALU部件定点运算电路。基于前端设计ALU部件定点运算功能,以标准单元为基础针对定点运算完成了定制电路设计;采用层次化的设计方法完成电路设计,成功实现定点运算功能;通过静态时序分析,迭代优化电路,使得定点运算电路的绝对延时达到590ps;在电路优化中,创新性地设计了一种新的高速比较器,使得比较类指令功能的电路实现延时减小了23%。采用手工半定制和层次化相结合的设计方法完成ALU部件物理设计。采用手工半定制的方法完成定点部分物理设计工作,自主开发了基于perl程序语言的脚本完成了I/O接口的位置文件并结合层次化物理设计完成整个ALU部件的物理设计,实现的版图实现绝对延时为760ps,功耗为38.83mW,面积为76270平方微米;相比自动化的物理设计方法实现的ALU部件版图结果在功耗上减小了5.6%,在面积上减小了14%,在延时上减小了4.8%。版图结果证明通过手工半定制和层次化相结合的设计流程,能够提高设计的质量和并行性,缩短设计周期。完成了ALU部件的模拟验证。研究了ALU部件的模拟验证方法,通过模拟验证平台针对ALU部件操作数定点部分的电路模块,进行了功能性的验证;主要验证了定点运算指令在各个子模块的实现功能正确性,验证结果表明所设计的ALU部件满足系统设计要求。
李国强[3]2012年在《SIMD DSP中的高性能定点算术运算部件的设计与实现》文中研究说明在视频图像处理、雷达信号处理和无线通信等嵌入式计算领域,由于处理数据量较大、数据并行性高,对数据计算的精度和实时性要求高,而且这些数据的处理具有高的乘法运算密集性和加法运算密集型,使得数字信号处理器对乘加混合运算和并行运算的处理能力需求变得日益重要。本文依托“YHFT-Matrix DSP”的开发与研制,旨在研究和设计面向SIMD DSP的高性能定点算术运算部件,以满足数字信号处理器对乘加混合运算和并行运算的处理能力。该部件集成了加减法、乘法、乘加、乘减、点积和复数等各种运算,并使这些运算支持并行处理。本文的主要工作和贡献如下:(1)采用并行前缀加法器中的Kogge-Stone树结构,由符号位控制和进位控制的方法实现了SIMD加法器,并添加饱和处理功能。该加法器能完成8/16/32/40位SIMD加法/减法,包括有符号/无符号运算,且能工作在饱和模式和非饱和模式。(2)采用符号预处理和拼接的技术对两个16×8乘法器组合实现了16位SIMD乘法器,其中的16×8乘法器采用基4Booth编码、以5-2和4-2压缩器为主的华莱士压缩树和并行前缀Kogge-Stone树结构作为最终加法器的方法实现。同时本文设计了32位SIMD乘法器,该乘法器能完成8/16/32×16/32位SIMD有符号/无符号乘法。(3)根据Mibench算法、LTE协议、4G无线协议和H.264中的核心算法的指令需求分析结果,本文设计了4站流水结构的高性能定点算术运算部件。该部件能有效的完成高并行性的乘法密集性和加法密集性运算。本文所设计的算术运算部件应用在YHFT-Matrix DSP芯片中,目前该芯片已经流片成功,SDK板测试表明本算术运算部件能很好的满足SIMD DSP所面向的乘法密集性和加法密集性的嵌入式计算需求。
杨秀杰[4]2015年在《32位高性能M-DSP浮点ALU的设计优化与验证》文中进行了进一步梳理M-DSP是一款由国防科技大学微电子研究所独立设计的32位高性能多核数字信号处理器,设计指标1.1GHz,主要应用于语音合成、图像识别、无线通信等民用领域和雷达、声呐、搜索和反搜索等军用领域,主要目的是促进我国军事信息自主化以及推动国内高性能多核DSP的发展。本文依托M-DSP内核的研究与开发,主要完成了内核中浮点ALU部件的设计、验证与优化,具体内容包括以下几方面:1、以浮点运算的性能需求为背景,对M-DSP中浮点ALU部件进行了指令集设计和模块划分,并对子模块中使用到的关键算法进行了分析和实现。在传统双通路算法基础上,增加了舍入合并的处理机制满足了浮点双精度加法5拍完成的需求。采用取反加1与后期的舍入判断合并处理的算法实现了浮点转换指令的设计。2、根据集成电路设计现有的验证方法,从模拟验证和形式化验证两方面对浮点ALU部件进行了充分的验证并进行了覆盖率的统计和分析。模拟验证是从模块级验证和系统级验证两方面进行的。形式化验证则借助ATEC和Formality等价性检查工具完成的。覆盖率结果分析表明M-DSP中浮点ALU单元满足覆盖率要求,验证已经完备。3、采用Design Compiler(DC)综合工具在45nm CMOS工艺下对M-DSP中浮点ALU部件进行了逻辑综合与优化。分析综合报告后使用模块分离、调整逻辑结构、关键信号提前处理、流水线划分逻辑等方法对浮点ALU部件的关键路径进行了时序优化以及使用模块复用方法对其进行了面积优化,延迟降低了100ps,性能提升了16.8%,最终达到1.1GHz的设计指标。
韩德敏[5]2012年在《车用微控制器运算和译码部件的设计与验证》文中认为汽车电子是现代汽车中一个发展迅猛的领域,ECU(Electrical Control Unit)在其中扮演着非常重要的角色。为了实现汽车电子的智能化和网络化,汽车中需要集成更多的ECU。但是ECU的核心部件微控制器却被国外厂商长期垄断,这对大力发展国内的汽车工业来说是一个障碍。所以进行自主知识产权车用微控制器的设计和研发具有重要意义。在分析了车用微控制器特点的基础上,我们确定了研究目标:实现一款兼容飞思卡尔CPU12指令集的16位车用微控制器。整个微控制器核心采用了单时钟同步设计和微程序控制的总体设计方案,提高了系统的稳定性和灵活性。本文主要负责微控制器运算和译码部件的设计与验证。首先,本文提出了具有统一数据通路和快速运算模块的运算部件。提出的数据通路使用一个运算模块就可以满足一类指令的8位和16位有符号和无符号运算,避免了运算模块的重复,从而减少了部件面积。性能评估的结果表明设计的运算部件完全可以满足微控制器的要求。其次,在对所有指令结构和特征深入分析的基础上,提出了一种兼容CPU12指令集的译码方案,结合提出的高效预取机制,可以快速读入指令字节,从而加快了译码信息的产生,提高了微控制器的效率。面对复杂设计带来的验证挑战,本文对验证语言和验证方法学进行了相关研究,并搭建了基于UVM(Universal Verification Methodology)的可重用验证平台,进行了基于覆盖率和断言的模块级验证,提高了设计和验证的质量。本文设计了基于随机约束的事务级指令发生器,此发生器可有效地产生各种符合指令集格式的指令,大大减少了人工定向激励的编写。结合针对接口信号和内部状态设计的并行断言,加快了模块级的调试过程和验证收敛,实现了部件的较全面验证。最后进行了系统级的调试和FPGA原型测试。
庄巍[6]2012年在《YHFT-Matrix DSP低功耗向量运算单元设计与归约网络研究》文中研究说明数字信号处理器(DSP)是一种特别适合于数字信号处理运算的嵌入式微处理器。随着其在通信、多媒体处理等高端领域的广泛应用,对DSP性能的要求也越来越高,因此研究和设计高性能DSP就具有较大的科研和应用价值。本文依托于面向软件无线电的“YHFT-Matrix DSP”的开发与研制,旨在研究和设计符合YHFT-Matrix DSP高标准要求的向量运算单元和归约网络。本文研究了DSP的结构特点和向量运算技术的实现,并介绍了国际上将相关向量运算实现技术应用于面向3G和4G无线通信的DSP。概述了YHFT-Matrix DSP的体系结构,以及向量运算单元和向量数据交互网络的特点,指出向量运算单元的设计需结合低功耗技术,向量数据交互网络要满足灵活性和便于使用的要求,并根据开发者的反馈信息总结了现有运算单元值得提升和改进的功能点。将低功耗设计方法和RTL级的低功耗设计技术应用于向量运算单元的设计。用门控时钟技术实现了可变宽度的向量处理单元VPU。分析了定点SIMD IALU的应用需求以及相关指令,以进位选择SIMD加法器为核心,结合操作数隔离低功耗技术,设计并实现了低功耗定点SIMD IALU。基于分离基数的基_4除法算法,结合状态赋值低功耗技术,设计了定点除法器,支持有符号和无符号除法运算,数据通路为8/16/32位SISD/SIMD模式,可工作于固定执行周期模式和可变执行周期模式,两种模式分别适用于向量处理单元VPU和标量处理单元SPU。以矩阵乘法算法为例,比较了归约的软件实现方式和硬件实现方式,结果表明在增加面积开销的条件下硬件实现方式对算法具有明显的加速作用。在定点归约网络的设计中,引入归约树模型实现了定点归约网络的完整平均分组,以隐式自增指定目标VPE的方式实现了定点归约网络的循环编程。研究了浮点归约的实现方式,指出由于浮点运算单元巨大的硬件面积开销,浮点归约网络应采用软硬件相结合的实现方式。基于YHFT-Matrix DSP中定点归约网络的分组模式,给出了一种支持浮点混合运算归约网络的实现方案:用SPU配置浮点归约运算类型,通过专用的混洗网络搬移操作数,并调用向量运算单元中的浮点运算部件实现计算,从而完成浮点归约操作。介绍了YHFT-Matrix DSP的逻辑功能验证流程,编写基于Verilog语言和Perl脚本语言的运算部件模块级测试平台。用DC综合工具对实现的叁个运算部件在TSMC65nm工艺下进行了逻辑综合,给出综合结果和性能比较,结果表明叁个运算部件均能达到700MHz工作频率的设计要求。介绍了4核YHFT-QMBase芯片的仿真测试和单核的性能评测。
田宇[7]2009年在《定点运算部件的算法结构研究与优化设计》文中研究指明在IC设计领域,计算机微处理器是整个系统的核心,人们对其性能的要求越来越高,这些微处理器强有力的运算能力来源于其内部高性能的运算处理单元。加法在各类处理器中都是使用频率最高的操作,乘法的运算速度已成为衡量现代’高性能计算和数字信号处理性能的重要指标。加法器和乘法器的设计实现直接影响着微处理器的性能,这方面的研究依然是国内外微处理器设计的的重要课题。本文分别对运算部件中最重要的整数加法器和乘法器进行了较为深入的研究,算法和电路逻辑结构的优化是本文的目标。针对加法器,对并行前缀结构进行了优化,将其与Ling进位和改进的选择进位模块相结合设计实现了一种新型的加法器。针对乘法器,采用了高性能的选择逻辑部分积产生电路,通过对部分积压缩阵列的研究和分析,设计实现了6:2和9:2压缩器,并利用9:2压缩器家族对整体拓扑结构进行了优化,实现了3种改进的并行乘法器和一种4周期串并结合的乘法器。本文用Verilog HDL描述了所有设计思想,并完成了基于FPGA的电路综合与仿真验证。实验结果表明,同传统的实现结构相比,本文设计的新型加法器和改进的乘法器均具有更好的性能,达到了优化设计的目标。
成兴华[8]2013年在《FT-XDSP高性能64位定点SIMD乘加部件的设计与实现》文中提出FT-XDSP是国防科技大学自主研发的一款超长指令字结构的64位高性能通用DSP,设计主频1.5GHz,适用于高性能计算、无线通信、视频和图像处理等方面。本文依托FT-XDSP的开发与研制,旨在研究和设计面向DSP的64位高性能定点SIMD乘加部件,以满足数字信号处理器对乘加混合运算和并行运算的处理能力。本文主要的工作和贡献如下:1.设计和改进了64位SIMD定点乘法器,该乘法器能够实现一个有符号和无符号64位定点乘法,或者两个SIMD有符号或无符号32位定点乘法。该乘法器结构采用了提前预测的思想,对符号位进行预处理来实现SIMD功能。经过改进后,64位乘法器能够同时适用于双精度浮点53位尾数的乘法运算,而基本不影响浮点乘法的性能。改进后的乘法器在45nm工艺下的最长路径为724ps。2.设计并实现了四站流水的64位高性能定点乘加部件。该部件集成了加减法、乘法、乘加、乘减、点积、复数乘法和MOV等各种运算,并支持32位SIMD并行处理。本文设计了定点乘加部件的体系结构和流水线,对定点乘加部件的各个流水站和关键模块进行了详细设计,包括各个流水站实现的功能和定点/浮点乘法器复用。并采用并行前缀加法器设计了定点乘加部件的单周期指令模块。3.对定点乘加部件进行了优化、综合与验证。对定点乘加部件的关键路径进行优化,基于45nm工艺在Typical工作条件下对定点乘加部件进行了RC综合,结果表明工作频率可达1.5GHz,关键路径450ps,Cell面积89727um2,功耗17.1mW。采用功能模拟验证方法对定点乘加部件进行了详细的模块级验证和DSP内核环境下的验证,并提出了系统级验证方案。经过验证定点乘加部件功能正确。综合和验证结果表明本文的设计满足了FT-XDSP对定点乘加部件的性能和功能设计要求。
曹乐根[9]2013年在《1GHz X-DSP加法移位单元的设计与实现》文中进行了进一步梳理数字信号处理器(DSP)是对信号和图像实现实时处理的一类芯片,具有高效率、低功耗和低成本的特点。随着DSP芯片的飞速发展,它在通信、军事、家电等社会生活的各个领域得到了广泛的应用,同时,越来越多的应用对DSP的性能也提出了更高的要求。X-DSP芯片是一款研制中的32位高性能DSP。该DSP属于自主正向设计,实现多功能定点和浮点运算,拥有极其强大的定点和浮点数值运算能力。它采用超长指令字(VLIW)技术和单指令流多数据流(SIMD)技术,设计目标主频达到1GHz。加法移位单元ASU(Add&Shift Unit)是X-DSP中定点和浮点运算的主要执行部件之一,本文在深入研究其指令功能的基础之上,设计并实现了该运算单元。主要内容如下:一、从ASU运算单元的总体设计入手,按照基于标准单元的设计流程对其进行了层次化的设计,同时结合全定制的设计方法,对ASU运算单元的移位关键部件进行了定制设计,达到了整体设计目标。二、深入研究了ASU运算单元的结构,合理地划分了子功能模块,并采用多种方法和设计技巧对各个子功能模块和关键部件进行了逻辑设计,达到了时序的要求。叁、对编写好的RTL级代码进行了模拟功能验证,开发了ASU运算单元的测试向量,并结合FPGA的验证方法,对目标设计进行了补充验证,充分保证了ASU运算单元的功能正确性。四、总结了ASU运算单元在逻辑综合时应考虑的一些问题,并针对设计的特点和要求,提出了多种优化策略对目标设计进行优化,通过对不同子模块的多种实现方案进行综合比较,最后选择了合适的方法对ASU运算单元进行设计。最后,在45nm CMOS工艺下,使用Synopsys公司的综合工具(DesignCompiler)在worst case条件下对ASU运算单元进行逻辑综合,时序、面积和功耗方面都获得了比较令人满意的结果:频率达到了1GHz的设计目标,面积为63709.329829平方微米,动态功耗和静态功耗分别为10.5928mW和1.6359mW。
邹晓峰[10]2014年在《YHFT-XDSP高性能浮点ALU的设计优化与验证》文中研究指明以浮点计算为主的高性能科学计算已成为科技进步的重要推动力,但浮点计算性能仍然是高性能通用DSP的重要瓶颈,研制具有高浮点计算性能的通用DSP具有重要意义。本课题来源于64位多核YHFT-XDSP,主频为1.25GHz。本文设计的浮点ALU单元是YHFT-XDSP的关键运算部件,其实现的31条浮点指令占该DSP浮点指令总数的70%,而且实现结构较为复杂。据S.F.Oberman的研究显示,该类单元计算量占处理器浮点计算总量55%以上,对整个DSP的浮点运算性能起着关键作用。本文的研究工作主要围绕浮点ALU单元的设计、实现、优化和验证等,主要工作和创新点如下:1、设计了浮点ALU单元的指令集和总体结构。针对YHFT-XDSP的性能要求,对应用算法进行了研究,设计了浮点ALU单元的指令集和总体结构。通过对指令实现算法分析,我们将浮点ALU单元指令分为浮点加法、浮点转换、查表操作和特殊运算四大类,采用四个模块实现。2、完成了浮点ALU单元的详细设计和实现。研究了当前主流的双通路浮点加法算法,通过对现有单通路浮点加法器进行精简、双通路改造、逻辑调整和流水站的重新划分,实现了优化的低延迟3级流水浮点加法模块;单独设计实现了浮点转换模块,使浮点转换指令和浮点ALU单元的整体性能得到很大提升;同时还完成了查表操作模块、特殊运算模块的结构设计和实现。3、对浮点ALU单元进行了时序和面积的优化与综合。初始的RTL实现在时序和性能方面并未达到YHFT-XDSP的设计要求,我们通过结构调整、分站处理、逻辑复用与预测、低功耗等方面对单元进行优化,综合结果证明,浮点ALU单元的最终性能和面积达到了设计要求。在40nm工艺下综合,满足450ps时钟约束,关键路径延时相比上一代芯片和XDSP分别减少了30.6%和8.7%,电路总面积31348.1615。4、对浮点ALU单元进行了全面的功能验证。为保证该单元功能的正确性,我们运用了模拟验证、形式化验证和硬件仿真等多种验证方法,通过各层次的功能点与随机数验证、程序测试、完备性检查、等效性检查、ATEC模型检验和硬件仿真等验证手段,极大的保证了设计功能的正确性,达到了流片前的验证要求。
参考文献:
[1]. 一种定点运算部件的设计与实现[D]. 葛亮. 中国科学院研究生院(计算技术研究所). 2002
[2]. 1GHz X-DSP芯片ALU部件设计与实现[D]. 周涛. 国防科学技术大学. 2013
[3]. SIMD DSP中的高性能定点算术运算部件的设计与实现[D]. 李国强. 国防科学技术大学. 2012
[4]. 32位高性能M-DSP浮点ALU的设计优化与验证[D]. 杨秀杰. 国防科学技术大学. 2015
[5]. 车用微控制器运算和译码部件的设计与验证[D]. 韩德敏. 湖南大学. 2012
[6]. YHFT-Matrix DSP低功耗向量运算单元设计与归约网络研究[D]. 庄巍. 国防科学技术大学. 2012
[7]. 定点运算部件的算法结构研究与优化设计[D]. 田宇. 西安电子科技大学. 2009
[8]. FT-XDSP高性能64位定点SIMD乘加部件的设计与实现[D]. 成兴华. 国防科学技术大学. 2013
[9]. 1GHz X-DSP加法移位单元的设计与实现[D]. 曹乐根. 国防科学技术大学. 2013
[10]. YHFT-XDSP高性能浮点ALU的设计优化与验证[D]. 邹晓峰. 国防科学技术大学. 2014
标签:计算机硬件技术论文; 加法器论文; 浮点论文; 乘法器论文; 并行处理论文; 运算速度论文; 指令周期论文; 网络验证论文; 符号计算论文; 计算机指令论文; dsp论文; dsp芯片论文; dsp技术论文;