基于短时幅度谱估计的语音增强方法研究

基于短时幅度谱估计的语音增强方法研究

王艳芬[1]2015年在《基于短时对数谱估计的语音增强算法研究》文中研究表明在实际的语音应用过程中,如语音识别、编码、合成和语音通信等,语音不可避免受到各种各样的噪声干扰,这些干扰会影响对语音信号的处理。因此,有必要对被噪声干扰的语音信号进行去噪处理,即语音增强。在众多语音增强方法中短时对数谱估计MMSE算法(LSA-MMSE,Short-time Log-spectral Amplitude Minimum Mean Square Error)计算相对简单,便于实时处理,消噪效果较佳,因此应用十分广泛。但在低信噪比情况下,该方法增强的语音中残留的噪声成分比较多,语音增强算法的去噪能力下降较明显。因此本文着重研究短时对数谱估计MMSE语音增强算法,旨在提高其去噪性能。本课题来源于深圳清华大学研究院提供的深圳市技术创新计划项目——智能数字电视中阵列数字语音处理技术研发,项目编号:CXZZ20130517113418268。本文做了以下工作:(1)分析LSA-MMSE算法的增益函数,推理出影响算法性能的关键因素——先验信噪比估计。引入Burg谱来估计带噪语音的功率谱,利用语音缺失概率参数(SAP,Speech Absent Probability)自适应调节先验信噪比平滑系数,改进LSA-MMSE算法。搭建基于Lab VIEW的音频采集系统,采集机房服务器噪声环境下的带噪语音以及其他背景噪声进行仿真实验,仿真实验结果表明改进LSA-MMSE算法去噪能力优越。(2)针对改进LSA-MMSE算法在处理汽车噪声、办公室噪声等常见低频噪声干扰时增强语音中低频的噪声成分残留较多的缺陷,研究改进LSA-MMSE算法与EMD(EMD,Empirical Mode Decomposition)结合的语音增强方法。对带噪语音先用改进LSA-MMSE算法去噪,对初步得到的增强语音进行EMD分解,根据IMF分量的方差特性自适应选取低阶IMF分量进行重构,得到增强语音。利用MATLAB平台进行仿真,仿真结果表明改进LSA-MMSE算法与EMD结合方法能较好的折中语音增强和语音失真。如在汽车噪声干扰下,改进LSA-MMSE算法与EMD结合分段信噪比提高量比改进LSA-MMSE算法平均高出0.67d B,改进LSA-MMSE算法与EMD结合语音失真度比改进LSA-MMSE算法平均降低2.63%。

戴亮[2]2012年在《非平稳噪声环境下的语音增强算法研究》文中认为语音增强作为语音数字信号处理的一个重要分支,主要应用于语音识别、语音压缩编码等数字处理系统的前期预处理中。语音增强的主要目的是从带噪语音信号中提取尽可能纯净的原始语音,提高语音的可懂度。论文在分析现有的基于短时谱估计的语音增强算法的基础上,对语音增强中的一些关键步骤及去噪算法进行研究,主要工作如下:1论文针对传统的基于WAD检测的噪声估计算法只适应于平稳噪声环境的缺点,研究非平稳环境下的MCRA噪声估计算法,并在其基础上提出一种改进的MCRA算法。改进的MCRA噪声估计算法不依赖于固定时间窗来搜索带噪语音功率谱的本地最小值,克服了MCRA算法的噪声估计延迟问题,是一种在非平稳噪声环境下适应性更好的噪声估计方法。2论文研究了小波去噪的基本方法,着重对小波阈值去噪算法中的阂值函数设计进行研究。在非负死区阈值函数的基础上设计一种改进的阈值函数,改进的阈值函数不仅具有很好的连续性,克服了软阈值函数的存在固定偏差的不足,而且考虑了噪声小波模值的衰减符合指数规律特性。仿真实验说明改进阈值函数能有效地消除噪声获得更好的增强效果。3为了最大程度的抑制背景噪声、提高语音质量,本文将掩蔽效应与改进谱减法相结合自适应调整谱减参数以粗估计增强语音,并基于最小均方误差准则设计最优平滑因子,进一步消除残留“音乐噪声”。仿真表明在非平稳噪声环境下,改进算法方法能有效地抑制“音乐噪声”,在提高信噪比的同时保持较好的语音可懂度。

赵欢[3]2010年在《面向嵌入式计算平台的自动语音识别关键技术研究》文中提出在未来几十年,先进通信将迅速改变人们的生活和工作方式,随时、随地使用一定范围内的设备进行实时通信和实时数据处理将逐渐成为现实,基于嵌入式计算平台的自动语音识别(Automatic Speech Recognition, ASR)是关键技术之一。许多在实验室表现优异的ASR系统,一旦应用到复杂的实际噪声环境就马上变得不稳定;另一方面,鲁棒性高的识别系统往往依赖于高计算量,只适合运行于PC平台甚至高性能服务器。如何降低ASR系统的计算复杂度使之适合嵌入式平台,并提高其在复杂噪声环境下的鲁棒性,是嵌入式ASR研究的重点和难点。目前,嵌入式ASR应用系统多为分布式结构,即在目标设备上装载语音识别前端,将复杂的语音识别后端放置在服务器。本文着重研究基于嵌入式计算平台的自动语音识别前端关键技术。作为ASR的第一步,有效的语音端点检测可减少系统后续处理时间,排除无声段噪声干扰,提高语音识别准确率。本文提出了两种语音端点检测新方法。其一,将时域对数能量特征与频域谱熵特征相结合,提出基于对数能量谱熵的端点检测方法,由于其计算简单可应用于中低端嵌入式平台;其二,针对抗噪性能优良但计算稍复杂的非线性语音特征端点检测,提出基于样本熵的语音端点检测方法,有望应用于高端嵌入式平台。仿真实验表明,两种新方法在低信噪比环境下,比传统的能量法、谱熵法、能量谱熵法、对数能量法等都具有更好的鲁棒性,能更好地区分语音和噪声,检测准确率更高。语音增强是从含有噪声的语音信号中尽可能消除噪声,还原出纯净语音信号。完全消噪是不可能的,实际系统中的语音增强以抑制背景噪声、保护和提高感知语音质量为目的。基于短时谱估计的语音增强算法由于计算简单最适宜嵌入式平台,但有时会造成语音失真。本文分析比较了几种典型短时谱估计算法计算复杂度,针对其中乘加计算量最小的RL算法进行改进,引入人耳掩蔽效应,提出基于Bark域的RL改进算法,并进一步降低了计算量。实验表明,改进后的算法能显著抑制噪声,并有更好的语音质量,有效减少了语音失真。语音特征提取是ASR前端的最后一个环节也是最重要的环节,特征提取质量对识别结果起决定性作用。美尔频率倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)以其良好的性能成为ASR系统标准前端,本文针对标准MFCC提取过程进行了两点改进:一是调整了汉明窗系数,提高窗函数性能;二是将子带频谱质心(Subband Spectrum Centroid, SSC)加入MFCC过程。传统语音特征提取利用了语音幅度信息却忽略了频谱信息,由于各频带频谱峰值位置受背景噪声影响相对较小,具有更好的鲁棒性,而SSC非常接近频谱中的峰值位置,本文将SCC引入MFCC,提出基于美尔子带频谱质心(Mel Subband Spectrum Centroid, MSSC)的语音特征提取新方法。HTK仿真实验表明,新汉明窗及MSSC语音特征提取新方法与传统MFCC法比较,低信噪比环境下的识别率平均提高了17.13%。将上述语音端点检测算法、语音增强算法和语音特征提取算法集成为一个ASR前端实验系统。本文选择ADI公司的多媒体高性能ADSP-BF533作为嵌入式平台,将该前端系统进行优化并成功移植,验证了其在嵌入式平台上实现的可行性。最后,将上述部分研究成果用于移动学习平台原型系统设计,并进一步研究了教学资源知识表示技术,提出了一种本体概念相似度计算新方法;研究了AMR-WB编码器优化技术,提出了一种快速固定码本搜索方法。该原型系统在中山读书郎公司的儿童早教机、学生掌上电脑和数码读书机系列产品中得到成功应用,产生了巨大的经济效益。产品开发的实践证明,本文研究成果可广泛应用于嵌入式计算平台。

李真, 吴文锦, 任慧[4]2016年在《基于短时谱估计的语音增强改进算法》文中研究说明语音在传输过程中受到来自周围环境、传输媒介等的干扰是不可避免的,这些干扰会严重影响语音接收时的质量,导致收到的语音信号不再是原始的纯净语音信号,而是带有各种干扰噪声的语音信号,这不仅影响语音的收听质量,也给后续的语音处理带来了一定的影响。因此对语音进行增强不可或缺。大部分传统的语音增强算法仅仅只通过改变语音的幅度,再叠加上原始的语音相位或者仅调整语音的相位再和未改变的幅度叠加来实现语音信号重建从而增强语音。本文提出了一个通过既改变语音信号的幅度又改变其相位的语音增强算法。通过使用客观语音质量测评(PESQ)和语谱图对用不同方法增强后的语音进行比较,验证了用本文方法得到的增强语音质量更佳。

高静[5]2013年在《压埋人员呼救语音信号处理方法研究》文中研究指明近年来,我国成为了全球地震高发国家之一,而目前的技术还无法准确地预测地震的发生,因此地震的伤害不可避免。既然地震不能有效预测,那就只能尽量的去降低地震所造成的伤亡。在历次的地震救援的过程中,生命探测设备发挥了巨大的作用,使得在救援的黄金时间保证了压埋人员的生命。然而,通过音频生命探测设备所探测的呼救语音信号中却含有大量的背景噪声,这些背景噪声将影响后期对生命信号的提取和识别。本文将基于短时谱估计语音增强技术与基于等变量自适应EASI语音增强技术相结合,提出一种基于短时谱估计和EASI算法的语音信号处理方法,并有效地将呼救语音信号与背景噪声分离,从而达到对呼救语音信号的增强效果。本文主要研究地震救援现场压埋人员呼救语音信号的处理方法,具体实现呼救语音信号与模拟救援现场各种噪声的仿真分离,从而增强呼救语音信号。并采用提出的设计思路建立一种对呼救语音信号与背景噪声信号相分离的实验仿真,完成整个算法的设计流程,并进行实验仿真。本文主要研究的内容如下:一、语音特性与噪声特性分析:针对地震救援现场的被压埋人员的呼救语音信号(即有用信号)进行情感语言特性分析。同时分析了救援现场的主要噪声信号源的各种特性,如救援的大型救援机器作业声以及现场工作人员的说话声等进行分析,然后分别用录制的坦克噪声、餐厅嘈杂声以及嘈杂环境下人员说话声来模拟代替救援现场的噪声源。二、呼救语音信号的增强方法研究:本文通过对地震灾害救援现场的各种噪声场景模拟,通过模拟压埋人员呼救语音信号与背景场噪声的混合,对其混合信号通过相关的语音增强方法对含噪呼救语音信号进行去噪达到增强效果。并对各种增强算法处理过的语音信号进行分析以及对其增强算法进行改进与评价。三、呼救语音信号与背景噪声的分离方法研究:利用盲源分离技术的思想,通过等变量自适应的ICA分离算法对呼救语音信号进行分离,通过实验证明其分离的效果,并对其分离算法进行评价。四、提出一种新的呼救语音信号处理方法:利用基于短时谱估计语音增强算法和EASI分离的改进算法有效结合设计出一种新型的语音增强算法,使得既能去除人声背景噪声同时也能去除非人声背景噪声。本文重点研究基于短时谱估计和EASI算法的语音信号处理方法中的关键技术的实现,其关键技术为:(1)基于短时谱估计的语音增强技术中语音幅度谱的估计;(2)基于等变量自适应语音信号分离的ICA算法中的分离矩阵的迭代和步长自适应原则。本文通过对语音信号处理方法中的基于短时谱估计的语音增强算法与基于等变量自适应语音增强算法中的关键技术的研究,并提出了一种新的呼救语音信号处理方法并仿真。本文的章节安排为:第一章明确了文章的研究背景、研究意义和国内外研究现状。并对国内外相关文献进行了综述,提出了本文的研究目标与内容、方法以及预期研究成果;第2章分析了语音特性与背景噪声特性,对救援现场的有用信号与有害干扰噪声信号进行了分析;第3章主要研究基于短时谱估计语音增强算法和基于小波变换的语音增强算法,将其应用在呼救语音信号处理中,并通过模拟的呼救语音信号进行仿真;第4章主要研究地震救援现场呼救语音信号处理中的背景噪声的分离,通过EASI算法来研究呼救语音信号与背景噪声的分离,并通过实验来验证其分离的效果;第5章提出了一种新的基于短时谱估计和EASI算法的语音信号处理方法,并通过对模拟的呼救语音信号与背景噪声的混合信号进行仿真实验,同时得出较好的分离效果;在总结中,展示了本文的研究成果,并对本文研究工作进行了总结,对未来研究工作进行展望。综上所述,本文把基于短时谱估计的语音增强算法和基于等变量自适应语音信号分离算法相结合,提出一种新的呼救语音信号的处理方法,并通过该方法对模拟的含噪呼救语音信号进行信号处理,实现了模拟压埋人员呼救语音信号与背景噪声的很好分离。

周伟[6]2014年在《基于结构相似性的语音信号增强》文中认为现实生活中的语音不可避免的要受到周围环境的影响,语音增强是解决噪声污染的有效方法,它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。近年来,基于结构相似性的信号处理方法得到了广大学者的关注,非局部均值去噪算法作为一种利用信号结构间相似性的滤波算法,因其出色的去噪效果,成为众多学者广泛研究的对象。其通过建立相似度计算函数来求待增强点与其搜寻窗内相似点之间的权值,然后对搜寻窗内所有相似点进行加权平均得到当前点的增强结果。但是,由于语音信号噪声是非平稳一维信号,所以非局部均值滤波不能简单的直接用于语音信号的增强。针对语音信号的特点,本文提出了利用修改的非局部方法对语音信号进行增强。主要工作包含以下两个方面:(1)本文提出将非局部均值算法应用于语音增强上,且主要分为两个阶段,第一阶段对语音进行修改谱减法预处理,第二阶段使用修改非局部均值滤波对预处理后语音进行处理。最终,将非局部均值算法推广用于语音增强领域。(2)设计一种利用非局部均值算法在语音功率谱上对语音增强的算法,通过谱减法对功率谱进行预处理,得到预处理结果,结果中依然含有较大噪声,继而分析残留噪声,修改非局部均值滤波,对预处理后的功率谱进行非局部均值滤波,进一步提升了语音质量。本论文工作得到了高等学校学科创新引智计划(111计划)(No.B07048)以及教育部“长江学者和创新团队发展计划”(IRT1170资助)。

刘秀琴[7]2005年在《非平稳环境下的谱减法语音增强算法》文中指出语音增强的目的主要是改进语音质量,在消除背景噪音的同时提高语音可懂度,但是这两个目的往往不能兼得。目前有一些对非平稳噪声干扰下的语音信号进行增强的方法,可以降低背景噪声,但有时会引入刺耳的音乐噪声,且不能提高语音的可懂度,甚至略有下降。其中谱减法作为一种单信道语音增强方法,以其简单有效在使用化的语音增强应用中深受欢迎。本文研究采用改进的最小值控制递归平均方法(IMCRA)对非平稳背景噪声信号进行估计,应用谱减法去除估计出的噪声功率谱值,得到还原的纯净语音信号。再引入简化的听觉掩蔽模型计算掩蔽阈值,通过分析噪声的掩蔽概率来优化此掩蔽阈值,进而达到利用人耳的听觉掩蔽效应减少音乐噪声干扰的作用。本文用MATLAB实现了整个算法的仿真,并与传统谱减法结果相比较,仿真结果表明,该算法对非平稳噪声追踪性较好,在抑制背景噪声,减少音乐噪声前提下,提高了语音的可懂度,其计算复杂度也可以接受。

卢志强[8]2013年在《基于谱估计统计模型的语音增强算法研究》文中研究表明在实际环境中,语音信号不可避免的会受到周围噪声环境的干扰,尽可能从带噪语音信号中恢复原始语音信号,提高语音质量和改善语音可懂度是语音增强的主要目的。语音增强方法种类很多,基于谱估计统计模型语音增强方法由于具有方法简单且易于理解、适用信噪比范围大以及适用噪声环境广等优点成为应用最广泛的语音增强技术之一。本文就基于谱估计高斯模型语音增强技术展开研究,提出了两种新的语音增强方法:鉴于短时能量谱最小均方误差估计器(MMSE-SP)与幅度平方谱最小均方误差估计器(MMSE-MSS)具有不同的表现效果,在低先验信噪比和高后验信噪比情况下,MMSE-SP的增强效果不及MMSE-MSS,而在高先验信噪比和低后验信噪比情况下,前者在不减少语音失真条件下能更有效消除背景噪声。本文结合两者的优点提出一种改进的增益函数,同时,由于带噪语音模型中语音存在不确定性,本文估计出每个频点的无语音概率(SAP)对新的增益函数又做了进一步改进,大量实结果表明,新算法能够更有效抑制背景噪声,改善语音清晰度。基于贝叶斯估计的语音增强方法中,最小化贝叶斯风险函数是常用的处理方式。由于不同的代价函数利用贝叶斯估计可以产生不同的增益函数,许多相应的代价函数相继被提出,而绝对值误差代价函数却并未受到关注。本文立足于幅度平方谱最小均方误差估计(MMSE-MSS)方法提出一种新型的幅度平方谱条件中位数(CM-MSS)语音增估计方法,该方法与MMSE-MSS方法相比,获得了更好的语音可懂度和可感知性。

陈照平[9]2008年在《基于短时谱估计的语音增强方法研究》文中指出通常情况下,在移动环境中使用的设备例如移动电话、车载电话等都采用的是线性预测编码方式(LPC)对语音信号进行编码的,但是LPC方法对噪声很敏感,因此,在噪声环境中,特别是在强噪声干扰下采用LPC方法编码传输的语音信号常常是不能接受的。语音增强从带噪语音中提取出纯净语音,而且处理方法对噪声也不敏感。因此,语音增强算法的研究对移动通信系统具有重要的意义。语音增强算法的前期需要对噪声进行估计,然后将其应用到合适的去噪算法中,去噪算法是整个算法的核心部分。一般的噪声估计通常假设噪声的均值是零,需要估计的参数就是噪声的方差,所估计的方差的准确性将对后续的去噪算法有重大的影响。本文首先对经典的噪声估计算法—最小值跟踪法进行了研究,通过MATLAB仿真软件进行仿真,结果发现这种噪声估计算法对平稳噪声的估计是比较准确的,但是对于非平稳噪声估计效果就不好了。针对非平稳噪声,本文研究了一种估计算法—基于统计信息的非平稳噪声自适应算法,利用帧间相关性估计纯净语音存在概率,基于语音存在概率来计算时频平滑参数,从而更新噪声参数。通过实验仿真表明这种算法对非平稳噪声的估计比较准确,及时跟踪上了噪声的突变。在去噪算法上本文重点研究了谱减法及其改进形式、STSA-MMSE去噪算法,用MATLAB工具仿真了这些算法。在此基础上本文对STSA-MMSE经典算法进行了改进,将基于统计信息的非平稳噪声自适应算法应用到STSA-MMSE去噪算法中,有效地抑制了背景噪声和原算法中残留的“音乐噪声”;将人耳的掩蔽效应引入增强算法中,从而提高语音的清晰度和舒适度。综合比较了各自的增强信噪比、坂仓距离、PESQ值和主观感受,改进的STSA-MMSE无论从客观评价标准还是从主观感受上都比原来的算法有了明显的提高。本文最终设计了一个真实的语音通信系统,包括声学回声消除(AEC)、语音增强和自动增益控制(AGC)三部分。AEC消除了近端讲话中远端讲话的回声;语音增强消除了近端讲话中的噪声干扰;AGC解决了近端耳机语音的忽大忽小问题,因为在远端讲话有可能话者的声音变化的比较快,或者话者离麦克风忽远忽近都可能造成近端耳机语音的忽大忽小。

班超帆[10]2012年在《失真控制下语音增强算法的研究及DSP实现》文中研究指明语言交流是人类最自然方便的沟通方式之一。而在现实环境中通话双方容易受到背景噪声的影响,特别是在工厂、矿山、机场等特殊场合,强烈的背景噪声严重影响通话质量,让语言交流变得困难。研究实时语音增强系统的目的就是针对这类强噪声环境,使用合适的算法在可靠的硬件系统上实时的处理语音信号,尽可能地降低背景噪声,提高语音可懂度,从而达到语音增强的目的。根据研究内容,论文可以分成两大部分。第一部分是算法研究和仿真。首先给出了语音信号处理的基本理论,它是研究和实现语音增强算法的基础。然后详细讨论了谱减法和基于最小均方误差法的原理,及其几种经典的改进算法。在此基础上,论文指出了传统短时谱估计增强算法产生语音畸变的问题,提出了一种失真控制下的语音增强新算法。该算法首先讨论了语音畸变的客观度量参数,并根据这一参数得到抑制语音畸变的约束条件;然后结合人耳听觉掩蔽特性和无语音概率(SAP)参数,修正最小均方误差对数谱估计函数;最后联立约束条件和估计函数,得到增强后的语音,从而实现在噪声抑制和语音畸变之间的折衷,改善了语音增强的效果。最后在多种噪声环境下,对基本谱减法、最小对数谱均方误差谱减算法和本文提出的算法进行了MATLAB仿真,结果表明,新算法相对于其他谱减法在相同的信噪比(SNR)和去噪度条件下,语音畸变度最小且几乎察觉不到音乐噪声。论文的第二部分是讨论系统硬件平台设计和算法移植。首先介绍了以TMS320VC5502型号数字信号处理器(DSP)为核心硬件系统平台,重点探讨了语音采集/回放模块、外部存储芯片与DSP的接口电路,然后讨论了外设底层驱动程序的设计和算法在C55x系列DSP上的移植与优化。最后的系统测试表明本系统可以实时的处理带噪语音信号,对背景噪声起到很好的抑制作用,达到了语音增强的目的。

参考文献:

[1]. 基于短时对数谱估计的语音增强算法研究[D]. 王艳芬. 深圳大学. 2015

[2]. 非平稳噪声环境下的语音增强算法研究[D]. 戴亮. 中南大学. 2012

[3]. 面向嵌入式计算平台的自动语音识别关键技术研究[D]. 赵欢. 湖南大学. 2010

[4]. 基于短时谱估计的语音增强改进算法[J]. 李真, 吴文锦, 任慧. 中国传媒大学学报(自然科学版). 2016

[5]. 压埋人员呼救语音信号处理方法研究[D]. 高静. 成都理工大学. 2013

[6]. 基于结构相似性的语音信号增强[D]. 周伟. 西安电子科技大学. 2014

[7]. 非平稳环境下的谱减法语音增强算法[D]. 刘秀琴. 吉林大学. 2005

[8]. 基于谱估计统计模型的语音增强算法研究[D]. 卢志强. 湖南大学. 2013

[9]. 基于短时谱估计的语音增强方法研究[D]. 陈照平. 太原理工大学. 2008

[10]. 失真控制下语音增强算法的研究及DSP实现[D]. 班超帆. 重庆大学. 2012

标签:;  ;  ;  ;  ;  ;  ;  

基于短时幅度谱估计的语音增强方法研究
下载Doc文档

猜你喜欢