说话人识别系统设计研究

说话人识别系统设计研究

崔锐[1]2017年在《噪声环境下鲁棒性说话人识别算法研究》文中进行了进一步梳理语音信号可以传递出有关于说话人的多种信息,如语言信息(说话的内容),说话者信息(身份,情感,生理特征等),环境信息(背景,信道等)等。说话人识别是指,通过从说话人提供的语音信号中提取出中能反映其身份特征的矢量序列来识别说话人的技术。近年来,说话人识别的性能在实验室环境下已经相当高,但在实际应用中,由于背景噪声和信道畸变等影响会导致其识别率大大下降。为了将说话人识别技术推广到实际应用环境中,解决噪声问题对系统识别率的影响,本文在梅尔频率倒谱(MFCC)特征提取和矢量量化(VQ)建模的基础上,设计了噪声环境下的鲁棒性说话人识别系统,并分别从系统的特征空间和模型空间两个方面切入,对实际环境中的抗噪声鲁棒性算法做了深入的研究。现有的许多单一抗噪技术,如信号空间的语音增强算法、特征空间的特征调整算法、模型空间的噪声补偿算法等,都需要先根据信噪比估计环境噪声,然后再对特定噪声做去噪或补偿处理。当环境中噪声已知或只存在平稳噪声时,这类方法能够达到不错的降噪效果,比如基于电话信道的说话人识别系统。但当说话人识别技术应用到更复杂的环境中时,噪声往往是未知的,且会随着时间的变化而发生变化,这就会导致系统识别率严重下降。为了解决这个问题,本文研究了两种抗噪声算法,针对环境噪声引起的信号特征被破坏和训练与识别环境失配的问题给出了解决方案。首先,在特征空间研究了一种基于语音增强和特征缺失结合的鲁棒性算法,通过从增强信号中获得的重要信息自动生成缺失的特征掩模,用于检测可靠的说话人特征。其中,为了增强输入的说话人语音信号,并进一步为计算缺失特征掩模提供有用的信息,本文采用最佳修改的对数频谱幅度(OM-LSA)语音估计与最小控制递归平均(MCRA)噪声估计结合的鲁棒性增强算法。MCRA估计噪声功率谱可以做到计算有效且偏差较小,因此对于低输入信噪比和存在潜在加性噪声的情况是鲁棒的,其最大的优点在于能够快速跟踪噪声谱中的突变。OM-LSA估计器也表现出良好的噪声抑制特性,去除噪声的同时仍然保留了弱语音分量。此外,为了解决噪声引起的训练与识别环境失配的问题,在模型空间引入了并行模型合并(PMC)算法,通过在识别阶段将估计的加性噪声和卷积噪声迭加到纯净语音训练的说话人模型上的方法,达到解决上述问题的目的。本文在白噪声和Babble噪声环境下,对说话人识别系统中所采用的鲁棒性算法分别进行测试得到结果:(1)将OM-LSA与MCRA结合的增强算法与仅用OM-LSA处理带噪语音相比,其PESQ值平均分别提高了0.335和0.419;(2)增强和特征缺失结合的算法在低信噪比和非平稳噪声环境下表现优越;(3)模型空间引入了PMC算法后,在30dB输入信噪比的情况下系统可以实现100%的识别率,其中PMC算法对系统识别率贡献了10.9%的正确率。

刘刚[2]2004年在《说话人识别系统设计研究》文中进行了进一步梳理说话人识别与语音识别一样,都是通过对所收到的语音信号进行处理,然后据此作出判断,不同之处在于说话人识别希望从语音中提取说话人的特征,加以利用,而语音识别刚好相反。近几十年来,特别是9.11事件以来,由于在安全访问控制、身份自动鉴别等相关领域的现实意义,说话人识别系统得到了大量的关注和研究。 说话人识别系统中,最重要的是说话人特征提取。本文详细地讨论了基音频率、线性预测系数及美倒谱系数提取方法,这些特征分别反映了说话人声带振动、声道响应的特性。之后,还必须对特征样本建模。本文涉及了一些说话人的语音模型,主要就这些模型的实现方法作了详尽分析,他们中包括矢量量化、混合高斯模型、人工神经网及隐马尔科夫模型。并且,从机器学习角度给这些建模方法以理论上的支持。 本文首次将数据挖掘概念引入说话人识别的建模研究。提出分析特征向量的分量相关度法,用线性回归、中心度量趋势及离散度量趋势描述特征向量中两两分量间的关系,得到相应说话人的模型。 而且,还从软件设计角度分析了说话人识别系统架构。引用了主体理论,定义了什么是主体,主体有什么特征,主体系统的功能,系统中主体间的通讯方式。然后,本文利用主体思想设计了说话人识别的实现架构,并详细描述了架构内主体间协同的规则。 本文从语音原理层次、具体算法设计层次、软件架构层次及所涉及机器学习理论和软件设计理论等多方面分析设计说话人识别系统,力图全面认识这个智能系统,从而能够利于它的开发实践。

孙振超[3]2012年在《基于FPGA的说话人识别系统设计与实现》文中提出说话人识别是根据说话人语音中包含的个性特征来完成对说话人身份的辨认或者确认。说话人识别因其特有的优势受到了人们的广泛关注,经过多年的研究与探讨,已经出现了很多比较成熟的说话人识别系统。FPGA因其并行处理结构,处理速度块,能满足市场对系统实时性的要求,此外,FPGA采用sram工艺,可以无限编写程序,有利于系统的升级与维护。故本文实现的说话人识别系统采用FPGA作为实现平台。本文首先在深入研究说话人识别理论基础上,设计了一个适合在FPGA上实现的说话人识别系统,并采用Matlab对所设计的基于VQ的说话人识别系统进行了仿真与验证。然后采用各种逻辑设计技巧,完成了说话人识别系统的各个FPGA功能模块的设计,同时分别采用Modelsim仿真工具验证其功能。论文主要研究内容如下:(1)分析了课题研究的目的与意义,讨论了说话人识别发展与研究现状,阐述了目前主要的语音特征参数与说话人识别算法。(2)针对FPGA结构,选取了易于在FPGA上实现的基于VQ的说话人识别模型,阐述了各个说话人识别系统的组成模块,并针对传统的VQ说话人识别系统,增加了语音增强处理,并将VQ失真测度改为加权距离测度。采用Matlab软件,训练生成说话人识别模型库,并采用测试语音分析系统说话人识别效果。(3)分析了FPGA工作原理,阐述了Xilinx公司的FPGA开发套件ISE Design Suite10.1,并简单的说明了说话人识别系统的FPGA硬件平台XUP Virtex-II Pro开发板进行了,为说话人识别系统的FPGA实现提供了硬件准备。(4)依据自上而下的模块设计准则,设计了基于FPGA说话人识别系统的各个功能子模块,包括预加重模块、分帧加窗模块、端点检测模块、语音增强模块、MFCC特征矢量提取模块、VQ模块和判决模块。并且,针对设计的各个功能子模块,采用Modelsim仿真工具,对它们进行了功能仿真与逻辑验证。(5)设计了控制模块,使各个系统功能子模块协调工作实现了说话人识别系统,并通过RS232串口将识别结果上传到PC机上,通过超级终端显示出来。使用Modelsim对整个说话人系统进行了FPGA功能仿真验证与结果分析。

王琛[4]2007年在《语音中身份与情感信息提取及其在普适计算中的应用》文中认为本文主要是对语音分析中的说话人和情感进行研究,并将此应用于一个普适计算e Learning系统。说话人识别的工作重点在于对识别的实时性要求较高,将系统运行的时间放在首要位置,同时还要保证系统的高识别率。为此,在特征提取算法上进行了MFCC(Mel frequency cepstral coefficients)算法的改进,提出了快速差分MFCC算法,提高了系统的运行速度,同时还和FFT,LPC进行识别率的比较,得到了较好的识别效果;在进行特征分类时,主要是对距离测算法,矢量量化法(VQ)和高斯混合模型(GMM)进行分析研究,根据各种方法的优缺点,提出一种VQ和GMM的混合分类算法,此方法兼顾了识别率和运行速度两方面的因素,能够较好的满足实时性的要求。我们将提出的新方法和一些传统的方法进行实验对比,在分类方法为欧式距离的条件下,采用LPC算法的EER是14.3%,采用FFT算法的EER是11.4%,采用改进后的快速MFCC算法的EER是4.3%,同时快速MFCC算法所用的时间为4.0s,完全满足实时的要求。本文在基于快速MFCC特征提取算法的基础上,引入差分MFCC,同时经过VQ+GMM分类算法,获得了比较好的识别效果:此时,采用LPC算法的EER是14.4%,采用FFT算法的EER是12.5%,采用改进后的快速MFCC算法的EER是9.4%,采用改进后的差分MFCC算法的EER是6.9%;最后是进行分类算法的比较,在特征提取算法为差分MFCC的基础上,采用欧式距离匹配法的EER是15%,采用VQ分类算法的EER是11.2%,采用GMM的EER是4.4%,采用VQ+GMM的EER是6.9%,虽然VQ+GMM的方法识别率有所降低,但是其运行时间从单独采用GMM的6.0s变为4.5s,能够更好的适应实时的要求。在情感分析方面,主要用了语音中基频及其相关参数作为语音特征对说话人的情感进行统计判断。最后将说话人识别和情感分析放入e-Learning系统中,达到了一种无处不在的普适服务。

赵果[5]2008年在《嵌入式声纹识别系统研究》文中研究说明随着计算机软硬件技术、半导体技术、电子技术、通讯技术和网络技术等飞速的发展,人类社会进入了后PC时代。近年来在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式,被广泛的应用到嵌入式识别设备当中,然而大量数据的实时采集、过滤、处理需要新一代具有高浮点运算速度,低功耗的处理器来完成。今天DSP处理器由于其特殊的指令结构以及较高的编译效率使其能够快速的执行声纹识别算法,满足当今各种数字信号处理及高实时性的要求,特别在向量运算、指针线性寻址等方面具有不可比拟的优势。采用高性能DSP处理器的声纹识别系统由于声纹识别技术的方便性、经济性、准确性和嵌入式系统的便携性、移动性等优势受到世人瞩目,被广泛的应用到人们的日常生活当中,成为未来科技发展的主要趋势。论文的主要研究方向是在嵌入式平台下实现说话人的辨认功能,主要的内容如下:(1)在TMS320C6713DSK实验板上实现语音信号的采集功能,借助串口实时的保存数字语音信号;在保证较高正确识别率的前提下,采用合适的声纹识别算法,实现语音信号训练与识别功能。(2)整合语音信号的采集模块、训练模块、识别模块,形成一套完整的声纹识别系统,拥有较高的正确识别率。通过利用交叉编译工具,根据不同嵌入式平台提供的SDK重新编译软件模块,确保系统拥有较高的可移植性。

罗海宇[6]2012年在《具有防录音回放功能的说话人识别系统的设计与实现》文中提出生物特征识别因其良好的安全性越来越多的应用于身份识别。生物识别技术是利用人类自身生理或行为特征进行身份验证的一种解决方案,具有不可复制的特性。人体的生物特征包括指纹、声音、人脸、视网膜、虹膜、掌形、手掌静脉、骨架等。说话人识别具有非接触性、设备要求简单、处理效率高、可靠性高等独特的优势。在门禁系统、考勤系统、司法侦查、远程身份认证等方面均有广阔的应用前景。同时,在实际应用中,说话人识别面临着伪造语音攻击的问题,利用录音设备录制说话人声音并回放来攻击说话人识别还是很容易的,因此,研制具有防录音回放功能的说话人识别系统是十分必要和有实际应用意义的。本文工作如下:1.论述说话人识别和防录音回放相关理论和技术,提出具有防录音回放功能的说话人识别系统的设计方案。2.为了防回放研究能获得充分、可靠的实验数据加以验证,设计并建立原始语音以及回放语音库。3.设计并通过MFC/C++编程实现具有防录音回放功能的说话人识别系统。系统按照识别的流程分为叁个模块:特征提取模块、模型训练模块以及测试识别模块;各模块间功能运行上相互独立,特征提取模块构建的训练特征库服务于模型训练,特征提取模块与模型训练模块构建的测试特征库以及模型库又共同服务于测试识别模块,叁个模块通过具有标准格式的通用的特征库、模型库串联一起;各模块均提供灵活的函数接口,以方便代码的重用和深入开发;采用MFC界面编程技术开发,使得系统具有可视化、简便易操作的特点,设计了简单明了直观的人机交互方式。4.全面的评估系统的性能,包括运行、运算效率方面的评估以及识别效果上的评估。为防录音回放说话人识别的研究提供可靠的实验数据,也为在线系统的建设提供良好的仿真模拟。

崔宣[7]2008年在《基于语音混合特征说话人识别的研究》文中研究指明说话人识别是指通过说话人语音信号的分析和特征提取,从而确定说话人是否在所记录的说话人集合中,进而确定说话人是谁的过程。它在许多领域内有良好的应用前景。目前在说话人识别中,要提高识别率有两个重要的问题需要解决:一是如何选取能够有效表征说话人特征的可靠参数;二是如何选取合适的识别算法。本文主要是对特征参数的选取进行了初步的探讨,做了如下几方面工作:1.在特征提取方面,本文中分析了当前最常用的两种倒谱特征参数:美尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。并对其进行了改进,一方面是采用二次提取的方法,将MFCC和LPCC与其各自对应的一阶差分组合在一起形成新的特征参数。另一方面是本文还提出了将美尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)两个基于不同模型的特征参数组合在一起形成新的特征参数,实验的结果证明了这两种方法与传统的使用单一特征参数进行识别相比都能有效的提高实验系统的识别率。此外,还尝试着在预处理部分加入基于时域特征的端点检测,使用到了短时能量参数和短时过零率相组合,然后在特征提取部分,提取20阶MFCC作为特征参数来进行识别,但实验的结果没有达到理想效果。2.在识别算法方面,本文对矢量量化的方法进行了研究,并用matlab语言实现了一个有效的说话人辨认识别系统。

童彬祥[8]2016年在《基于视觉和听觉融合的移动机器人目标识别与定位方法研究》文中指出随着信息技术水平的提高,机器人在家庭服务中的作用也变得尤为突出,研究具有感知和决策能力的服务机器人具有重要的意义。基于人类在其生活环境中扮演着至关重要的角色,本文以人为目标,分析其听觉和视觉特征,主要研究了基于视听觉融合的移动机器人目标识别与定位技术,着重做了以下的研究工作:首先,总结了移动机器人的目标识别与定位方法的研究现状,对移动机器人的视听觉融合进行了系统平台设计,分析了移动机器人交互控制以及场景的应用。其次,研究了移动机器人的目标定位。对声源定位的方法进行了研究,在多信号分类算法中,采用广义特征值分解抑制噪声的影响。移动机器人根据声源定位得到的方位角,结合运动距离,利用叁角测量得到声源距离。通过实验分析验证了该方法精度和鲁棒性。再次,研究了说话人识别和人脸识别技术。在人脸识别之前,首先进行人脸检测定位人脸区域,将人脸图像进行分块处理,利用小波分解和奇异值分解相结合提取特征后,采用稀疏表示的人脸识别;在说话人识别中,语音预处理后,经过同态处理和倒谱分析后,提取语音的特征Mel频率倒谱系数,进行矢量量化,通过LBG聚类处理,为说话人建立码本模型。最后通过实验表明,说话人识别和人脸识别的有效性。进一步地,研究了基于视听信息融合的识别技术。分别在匹配层和决策层上对语音和人脸信息进行了融合识别。在匹配层上提出了基于语音优先的匹配的加权融合和基于人脸优先匹配的加权融合,并通过实验与非加权融合进行了对比,验证了加权融合的识别率更高。在决策层上利用模糊积分将说话人识别和人脸识别的输出结果进行非线性的加权,最后通过实验表明了模糊积分对于视听融合的有效性。最后,在目标定位与识别的基础上,搭建了移动机器人的目标定位与识别系统平台。

刘冰, 滕广超, 林嘉宇[9]2014年在《基于GMM的说话人识别系统设计与实现》文中研究说明现代通信中,说话人的身份认证技术一直是通信行业研究的重点和热点。而基于GMM和MFCC的说话人识别技术,是目前为止相对成熟和常用的方法。对说话人识别系统的构成做了相关的研究,并通过MATLAB编程,设计了一款以MFCC作为特征参数,基于GMM模型的说话人识别系统。经过实验测试,本系统能基本满足工作及家庭生活环境下的说话人识别需要。

张东海[10]2010年在《基于VQ/HMM的说话人识别方法研究》文中进行了进一步梳理说话人识别是指通过说话人的语音来自动识别说话人的身份,作为生物证认技术的一种,它在许多领域里有着良好的应用前景和巨大的市场潜力。本文通过分析说话人识别的原理与系统结构,和参考现有的语音识别的技术,研究了语音特征提取过程和识别方法,对语音特征提取进行了改进,并取得了很好的实验结果。本文针对汉语语音中的单韵母元音,分割并提取出有声段,再对每个元音按短时能量从低往高提取出一组短时信号,然后再对组信号计算出MFCC。在模式识别中,采用矢量量化和隐马尔可夫模型分别对每一个元音建模,将匹配的结果按设定的逻辑进行判决。本文研究了矢量量化和隐马尔可夫模型在语音识别中的原理和方法,主要研究工作如下:(1)分析主要的语音特征的特点,研究了基于VQ和HMM模型的语音识别的的特征参数提取方法。(2)探讨基于VQ和HMM模型的识别方法的原理,分析了识别的过程,寻找能够简化识别模型和提高识别率的方法。(3)通过研究和实践,基于对元音信号分别建模的方法,对MFCC的提取过程进行了改进,并应用到语音识别当中。最后对实验结果分析和总结。

参考文献:

[1]. 噪声环境下鲁棒性说话人识别算法研究[D]. 崔锐. 西安电子科技大学. 2017

[2]. 说话人识别系统设计研究[D]. 刘刚. 华东师范大学. 2004

[3]. 基于FPGA的说话人识别系统设计与实现[D]. 孙振超. 武汉理工大学. 2012

[4]. 语音中身份与情感信息提取及其在普适计算中的应用[D]. 王琛. 北京交通大学. 2007

[5]. 嵌入式声纹识别系统研究[D]. 赵果. 西华大学. 2008

[6]. 具有防录音回放功能的说话人识别系统的设计与实现[D]. 罗海宇. 华南理工大学. 2012

[7]. 基于语音混合特征说话人识别的研究[D]. 崔宣. 西华大学. 2008

[8]. 基于视觉和听觉融合的移动机器人目标识别与定位方法研究[D]. 童彬祥. 南京理工大学. 2016

[9]. 基于GMM的说话人识别系统设计与实现[J]. 刘冰, 滕广超, 林嘉宇. 微处理机. 2014

[10]. 基于VQ/HMM的说话人识别方法研究[D]. 张东海. 西华大学. 2010

标签:;  ;  ;  ;  ;  ;  ;  ;  

说话人识别系统设计研究
下载Doc文档

猜你喜欢