语音特征空间映射提高说话人识别性能

语音特征空间映射提高说话人识别性能

许允喜[1]2004年在《语音特征空间映射提高说话人识别性能》文中进行了进一步梳理说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。GMM方法是目前文本无关的说话人识别广泛应用的方法。本文使用GMM方法,通过实验分析得出了基于GMM的汉语说话人识别的一些概括性结论。分析了在不同的混合模型数、特征参数MFCC及LPCC、不同训练语音长度、不同测试语音长度及不同的预处理条件下的识别性能。由实验结果得出:MFCC的识别性能优于LPCC;用30秒的训练语音长度去建立说话人模型就足够了,并且MFCC及LPCC分别在4秒和5秒测试语音长度时误识率达到了0。接着本文提出了语音特征空间映射的方法并应用于基于GMM的说话人识别中。实验中采用了12维和14维的LPCC及MFCC作为语音特征参数,根据各维语音特征分量在说话人识别中的相对重要性得出初始的映射因子,然后通过本文提出的算法依据最低误识率的准则修正此映射因子以寻求其特征空间的最佳映射。映射后的语音特征空间更具类别的可分性,增强了语音特征中说话人的个性特征,从而提高了识别性能。在本文最后还提出了特征参数子分量分析的4S方法,该方法可以分析和评价语音特征参数中语义和说话人个体特征信息。通过DTW实验分析了LPC、LPCC及MFCC特征参数中语义及说话人特征信息两个子分量的一些特性。

解焱陆[2]2007年在《基于特征变换和分类的文本无关电话语音说话人识别研究》文中认为与文本无关电话语音的说话人身份识别的研究,由于其实用性,成为当今语音识别领域中的热门课题。目前,在这种复杂背景(多环境、多传输通道)下的说话人识别中,以GMM为代表的概率统计模型将话者识别问题转换成对话者语音数据分布的估计问题,取得了较好的识别效果,是当今的主流技术。然而,概率统计模型对数据有较强的依赖性,在有限训练集下,过多的模型参数将不能保证可靠估计;在训练和测试集失配的情况下,根据训练集估计的模型参数将不适用于测试集。这就限制了模型在复杂的实际环境中的性能。为了进一步提高文本无关说话人识别系统的性能及鲁棒性,本文从特征参数变换和特征空间分类的角度进行了深入研究。首先,本文针对语音信号测试和训练失配时,难以建立精确的高斯混合模型的问题,提出了一种语音参数的分段概率分布规整方法和一种基于峭度的参数规整方法。两种方法分别在概率分布和峭度的意义上将训练和测试参数都映射到一个较接近于高斯分布的情况,从而更有利于用混合度更低的模型来模拟信号在统计意义上的分布,更为准确的估计GMM的参数,在一定程度上解决了模型过学习的问题,提高了话者确认系统对电话语音长度以及使用环境的鲁棒性。其中,峭度规整方法的变换函数可以针对数据灵活调整,不会因为规整浪费语音数据,因此对短语音的说话人识别取得了更好的效果,对说话人识别技术的实用化有着重要的现实意义。其次,本文针对电话、手机语音的文本无关说话人确认,语音参数较短的问题,根据语音信号倒谱特征空间中特征矢量分布的非均匀性,以及不同的部分对说话人确认系统所具有不同的贡献和影响,提出了基于特征分类和多子系统SVM融合的CGMM-UBM结构说话人确认系统。实验表明,CGMM-UBM结构能够更为充分的利用训练数据,模型混合度可以较低,并且具有较高的模型训练效率,同时系统也获得了较好的识别性能与噪声鲁棒性,适于短语音情况下的说话人确认。SVM融合器用两类数据进行训练,因此具有良好的区分性,可以细致的反映各个子系统之间的关系,充分发挥了CGMM-UBM结构各个子系统的潜力。SVM融合还对输出评分进行规整,在一定程度上降低了确认系统对确认阈值的依赖性。以上各方法的实验都取得了良好的效果,证明了方法的有效性。最后,本文针对说话人识别中背景加性噪声的问题,研究了业界在鲁棒性语音识别方面有着较高水准的ETSI DSR AFE标准的两级维纳滤波降噪方法。并提出了一种基于无监督分割的静音检测算法用以替代ETSI DSR AFE标准中维纳滤波的噪声谱估计VAD模块,大大提高了说话人辨认系统对背景加性噪声的鲁棒性。

付中华[3]2004年在《说话人识别系统鲁棒性研究》文中指出说话人识别技术因其独特的方便性、经济性和准确性,在生物特征识别领域中具有广阔的应用前景。现有的说话人识别技术在理想条件下效果很好,但在实际环境中却由于各种因素的影响,识别效果明显下降。因此如何提高识别系统的鲁棒性已经成为本领域的研究热点。 说话人识别系统的鲁棒性问题涉及系统的各个部分。本文从噪声下的语音检测、鲁棒性特征、训练数据不足和噪声下的说话人建模技术、信道失真补偿等几个方面进行了深入研究,取得了以下具有创新性的成果: (1) 提出了一种基于置信度的动态多特征检测方法。该方法能够根据置信度,动态地选择最佳的检测参数对噪声下的语音信号进行检测。试验结果表明,新方法的检测能力比其它已有的叁种检测方法更为稳健,在不同噪声下均表现出较好的检测精度: (2) 提出了一种基于多相滤波器组的基频检测方法。该方法首次将音频压缩中常用的多相滤波器组技术应用到基频检测中,并采用了一种新的清浊音判定方法。对比实验证明,该方法能够比其它常州方法更精确地检测清浊音端点,而且计算复杂度低(乘法次数减少>80%),计算速度明显提高: (3) 提出了一种改进的基频/能量轨迹特征,使此类特征不仅能够应用于文本相关的说话人识别,还能应用于文本无关的情况。在与文本无关的说话人识别验证实验中,动态的特征的引入使识别率提高了5.2%; (4) 提出了一种基于回归类的多特征空间建模方法(RC-MES)。该方法弥补了通常特征空间方法[4.6]昆淆说话人差异和音素差异的缺点,实验结果证明了在训练数据仅有10秒时,新方法能够使识别率提高4.4%; (5) 结合RC-MES方法,提出了一种新的噪声与说话人混合建模方法,较好的解决了有噪声以及训练有限情况下的建模问题。实验证明,新方法的识别率在不同噪声下以及训练数据20s时,均比以前的混合模型有所提高; (6) 提出了一种改进的特征映射方法,改进了原有方法中特征矢量与高斯分量之间的映射关系,更好地解决了特征域信号失真补偿问题。实验证明,新方法不仅更加稳健,而且识别等错误率(EER)从原来的9.86%降低到9.62%; (7) 提出了一种基于径向基函数网络的特征映射方法,利用神经网络良好的非线性函数逼近特点,以及RBF与GMM的天然联系,较好的解决了非线性信道失真补偿问题。识别实验证明,存在非线性失真时,RBF-NFM比没有考虑非线性失真的补偿方法效果更好,等错误率从10.98%降低到9.69%。

王志锋[4]2013年在《基于信道信息的数字音频盲取证关键问题研究》文中研究指明数字音频盲取证通过直接分析数字音频信号本身对其真实性、完整性、原始性和可靠性进行检测和验证,是多媒体信息安全中必不可少的一环。本文针对数字音频盲取证的关键问题:(1)开集的录音设备源识别;(2)信道失配条件下的说话人识别取证;(3)说话人认证系统中录音回放攻击取证,从设备信道信息与数字音频的特有关联性出发,提出“信道指纹”和“信道模式噪声”的概念,在信号空间、特征空间、模型空间对信道信息进行表征,达到盲取证的目的。主要贡献如下:(1)针对目前没有专门用于数字音频取证研究的语音数据库,建立了“多设备录音回放语音数据库”,包含21男20女的数据,采用25种录音和3种回放设备,语料包含短语、数字串、句子、段落等。该数据库已被中文语言资源联盟(CLDC)收录并发布(No. CLDC-2012-003)。开发了数字音频取证平台SCUT-AudForensic,包含特征提取、模型训练、测试识别等功能模块,包含GMM、HMM、SVM叁种模型,采用LPC、LPCC、MFCC叁种特征,可进行说话人识别、录音设备源识别、录音回放攻击取证等实验。通过实验研究对特征进行统计分析,探索描述信道信息的统计特征,提出统计帧分析方法,研究信道信息的频率特性,表明信道信息主要集中在信号的低频部分。(2)针对开集录音设备源识别问题,提出基于设备信道信息和设备通用背景模型(DUBM)的录音设备源识别算法。首先建立基于两步判决的开集设备源识别数学模型,由于静音中包含完整的设备信息,且不受文本、说话人等因素的影响,在静音的基础上采用Mel倒谱系数和线性预测系数提取设备信道特征。利用8种麦克风的数据训练DUBM,通过自适应算法获得集内设备模型(DGMM)。实验结果表明,对36种设备的平均正确识别率比基于高斯超矢量和SVM的设备源识别算法提高了9.22%;对18个集内和18个集外设备的等错误率为15.37%,集内正确识别率为90.07%。(3)针对(2)中算法存在受背景噪声影响大、对短时样本识别率低、无法自动选择最优判决阈值的问题,提出基于改进功率归一化倒谱系数(PNCC)和两步区分性训练的设备源识别算法,利用PNCC的长时帧分析去除背景噪声对设备信息的影响,通过两步区分性训练调整DGMM和DUBM,提升模型区分能力,并通过区分性训练获得最优判决阈值。对短时训练和测试样本,对36种设备的平均正确识别率比(2)中算法提高8.86%;18个集内和18个集外设备的等错误率为15.17%,集内正确识别率为96.65%。(4)针对说话人识别取证中信道失配问题,分别在信号空间、特征空间、模型空间进行信道映射,以降低信道失配的影响。在信号空间,用对数扫频激励信号测量出信道的冲激响应,通过反滤波器建立测试数据和训练数据的信道映射;在特征空间,利用期望最大化(EM)算法获得信道映射的通用形式,并获得线性信道映射的最优参数解,具体讨论只存在信道偏移时的最优参数解;在模型空间,利用EM算法获得信道映射的通用形式,分别求得信道映射为单高斯、混合高斯模型时的最优模型参数。实验结果表明,信号空间的信道映射算法最优,但需预先测量设备信道响应,特征空间的信道映射略优于模型空间的信道映射。(5)针对说话人认证系统中录音回放攻击问题,提出基于信道模式噪声的录音回攻击取证算法。通过分析原始语音和回放语音的生成模型,研究原始语音与回放语音存在区分性的本质,提出信道模式噪声的概念。利用去噪滤波器提取信道模式噪声,通过统计帧分析方法提取6阶Legendre系数和6个统计特征,利用GMM建立原始语音信道噪声模型。实验结果表明,录音回放攻击取证的等错误率比基于信道相似度的录音回放攻击取证算法下降了9.91%;加入了本录音回放攻击取证模块后,对包含原始语音和回放语音的说话人确认实验结果表明,等错误率比未加入前下降了28.92%。(6)针对(5)中算法存在去噪滤波器时变性不强、模型区分性不够、判决阈值变动性大的问题,提出基于经验模态分解去噪滤波(EMDF)的录音回放攻击取证算法。主要利用EMDF作为去噪滤波器自适应去除时变语音信号中低频信道噪声,提取信道模式噪声。选取部分回放语音建立回放语音通用背景模型(PUBM),具有回放语音的共性,可作为判决时的先验知识。实验结果表明,录音回放攻击取证的等错误率比(5)中算法下降了4.23%;加入了本录音回放攻击取证模块后,对包含原始语音和回放语音的说话人确认实验结果表明,等错误率比未加入前下降了31.94%。

胡若华[5]2008年在《改进的核函数算法及其在说话人辨认中的应用研究》文中认为说话人识别以其独特的方便性、经济性和准确性的特点,在生物特征识别领域具有广阔的应用前景。但由于现有的说话人识别算法面临训练量大、实时性差以及受信道干扰严重等问题,使得说话人识别技术在实际应用方面受到了限制。在统计学习理论基础上发展起来的支持向量机,因其优良的泛化性能得以在说话人识别领域受到广泛的关注。但由于支持向量机尚处于发展阶段,很多方面尚不完善,因此研究并完善说话人识别技术的理论和实现算法具有重要意义。本文围绕着如何提高说话人辨认系统的识别率和鲁棒性的问题进行了研究,重点在基于超向量的核函数的生成方法上进行了探索,主要做了以下的工作:(1)对特征参数提取的改进。首先,将高斯混合模型-通用背景模型(GMM-UBM)引入到说话人辨认中来,利用说话人无关的特征分布来近似说话人训练语音未覆盖到的发音情况,弥补了说话人训练语音不足的缺点;然后,采用MAP自适应算法对特征参数均值进行自适应后排列生成超向量。(2)采用新的核函数(KL散度核函数、L~2内积核函数和基于NAP映射的核函数)应用于说话人辨认。这叁种核函数都是以超向量为特征参数得到的,超向量的特性使得支持向量机可以在整体语音序列上进行分类,而传统的支持向量机是基于帧一级的处理,是将不等长的语音段切割为彼此独立的的帧来处理的,通过平均各个帧上的决策值来判定语音对应的话者身份。由于不需要在分帧时加入冗余信息,并且降低了运算复杂度,因而提高了支持向量机的分类能力。同时,为了减小交叉信道干扰和噪声等因素对系统识别率的影响,采用基于NAP映射的核函数,将说话人超向量中与说话人特征向量无关的信道子空间的冗余信息去除掉,提高了系统的鲁棒特性。(3)在自建语音库的基础上,用MATLAB进行仿真实验。首先将本文改进后的特征提取方法与改进前的方法进行了比较。随后,将本文采用的叁种新型核函数应用于支持向量机。实验结果显示,本文采用的改进的核函数与传统的RBF核函数和多项式核函数相比较,它们的识别率都相对提高了12%以上。通过系统鲁棒性能实验可以看出,使用基于NAP映射的核函数的系统的鲁棒性得到了很大的提高。

翟玉杰[6]2015年在《基于GMM-SVM说话人识别的信道算法研究》文中指出人与人之间相互交流沟通的直接方式是语音,语音信号传播各种有效信息,是承载信息的媒介有着多层次的研究价值。语音作为人类的直接交流工具,由于不同人发音器官等的差异以及后天环境所引起的特性,使得其成为身份识别的重要工具。语音信号携带者说话人特有的差异特征信息,传达了说话人的语义内容,并且还包含了人物本身特定的生理特性、心情等重要的个人信息,使得研究并利用其特性进行实际应用具有很高的价值。随着越来越多的科研工作者致力于语音识别相关领域,其应用更加广泛。说话人识别属于生物识别的一种,通过音频信号提取相应的特征信息作为说话人的个性特征,并应用数学理论对其进行分析,从而达到身份识别的目的。说话人识别以人所发出的语音信号为出发点,从而决定了其相对廉价及易于应用的特性。特征信号的提取只需要简单的音频输入设备即可,也使得其更容易被广泛应用和接受。在说话人识别取得较大进展的时下而言,该技术大规模地应用仍然需要解决相当多的问题,随着越来越多的研究人员参与其中,逐渐成为了当前的研究热点。随着说话人识别技术的不断发展,研究人员提出多种语音特征参数,并且将动态时间规整算法、矢量量化、隐马尔可夫链等用于说话人识别。论文结合了高斯混合模型(Gaussian Mixture Model, GMM)及支持向量机(Support Vector Machine, SVM),建立了GMM-SVM说话人识别的基础算法,其相对于以往的算法其具有更好的数据表征能力,更优秀的分类性能,更好的识别效率。通过进一步研究发现其识别率进一步提高受到信道因素影响较为严重。为了弥补GMM-SVM说话人识别的这一缺点,本文对特征级与模型级信道补偿技术进行了研究:1、特征级信道处理中,针对说话人语音信号特征易受到加性噪声及线性信道干扰而引起失配这一问题,本文提出了采用特征弯折技术对语音特征数据进行处理。特征弯折应用累积分布函数的原理把说话人的特征向量变为标准分布的特征序列,增强语音特征对于信道的鲁棒性及说话人识别抗噪声性能,在渐变的噪声环境及信道失配情形下都能获得较好的鲁棒性。特征弯折作为特征归一化方法应用于说话人识别中,提高了说话人识别的信道鲁棒性,加强其对于不同应用环境的适应性能,从而提高说话人识别的性能与准确性。2、说话人模型是通过与信道相关的说话人特征矢量建立的,其模型中不可避免的有着信道信息分量的干扰,影响说话人识别的准确率。针对这一问题,本文提出了采用因子分析算法从说话人模型分离出说话人空间,信道空间及各自分别对应的特征向量,消除其倒谱特征中存在的冗余分量。通过将隐藏在观测数据表面之下的说话人及信道信息分离,得到相应的特征空间及特征矢量,最终获得信道无关的说话人模型数据作为支持向量机的训练数据。实验结果表明,应用了因子分析技术模型级信道补偿算法的GMM-SVM的说话人识别方法在识别效率上超过了传统的GMM-SVM方法,具有更好的信道鲁棒性。实验结果证明算法性能得到了一定提升。特征弯折算法有效的降低了信道因素对于倒谱特征的干扰,减小了信号畸变对于说话人识别性能的影响,提高了识别效果。因子分析技术对信道因子进行估计并消除,降低信道因素对于说话人模型的影响,提高了算法的性能。

杨阳[7]2008年在《汉语语音转换系统的研究》文中提出语音转换(Voice Conversion)是指通过语音处理手段改变一个说话人(源说话人,Source Speaker)的语音个性特征,使之具有另外一个说话人(目标说话人,Target Speaker)的语音个性特征,但转换语音所包含的语意内容不变。语音转换技术涉及信号处理、语言学、声学、计算机科学等学科领域,它的深入研究势必将会对语音学其它领域的研究发展产生促进作用,同时它在电影、电视节目的配音、医疗及保密等许多方面有着广泛的应用前景。因此语音转换技术的研究具有重要的理论价值和实用价值。本文从不同说话人发声器官的差异入手,分析了说话人个性特征及其声学特征参数表示,并采用基于STRAIGHT分析—合成算法的混合高斯模型(GMM)转换算法实现了一个特定人语音转换系统,并利用该系统对影响转换性能的因素做了相关实验和分析。论文完成的主要工作有:1.分析了说话人个性信息的声学表征问题。本文主要研究了不同说话人在以声门波形参数为代表的声源特征,以及以共振峰为代表的声道特征的差异性,选取基频参数,基频范围和线谱对系数(LSF)作为转换特征参数。2.实现了基于STRAIGHT分析—合成算法和GMM转换算法的特定人语音转换系统。为了评测GMM转换算法,进行了客观和主观评测实验,指出了GMM转换算法的过平滑现象使得转换语音音质下降的问题。3.讨论了男女语音在声源特性和声道特性的不同,搭建了一个简单的男女语音转换系统。针对男女语音在声源特性和声道特性的不同,用基频线性调整和频谱线性插值的方法实现了男女声之间地转换。非正式听辨实验证明:该转换系统实现的女声到男声的转换效果要好于男声到女声的转换效果。实现了一个变声器应用软件,该系统可以通过改变声音的基频参数,频谱参数和时长参数,来改变音质。4.分析和讨论了训练语料类型、训练数据量、混合高斯混合度、说话人差异等影响语音转换系统性能的因素,并分别进行实验。实验结论为:①联合概率密度的方法同时观察源说话人和目标说话人的参数,比只观察源说话人的参数训练的GMM模型的分类效果要好,得到的转换语音带有更多的目标说话人特征。②当训练阶段使用单音节语料时,转换单音节的准确度比转换句子的准确度要高;当训练阶段使用句子语料时,转换句子的准确度比转换单音节的准确度要高。③只有当训练数据集增大,混合度数也随之增大时,转换效果变好。④特定女性到特定男性的声音转换效果要好于特定男性到特定女性的声音转换效果;特定女性之间的声音转换效果要好于特定男性之间的声音转换效果。

刘婷婷[8]2014年在《基于因子分析的与文本无关的说话人辨认方法研究》文中认为与文本无关的说话人辨认旨在通过说话人的语音而非语义信息从而辨认出话者的身份,该研究在充分利用语音识别的非接触性的基础上逐渐发展成为生物认证领域的关键技术。近年来伴随着日益复杂的网络环境以及语音传输信道的多样化,传统的说话人辨认方法已经无法适应实际的应用环境,因此说话人辨认的鲁棒性研究[1]成为当今说话人识别领域的热点。因子分析的方法实质上是对说话人的语音提取紧凑的能够代表说话人身份的特征矢量,被称为I向量或者总体变化因子。I向量是基于联合因子分析(JFA)[2]的方法在2010年由Dehak提出的,相比联合因子分析的方法,它只需训练出一个全局变化空间,从而每个说话人的语音特征就可以利用该空间的I向量来表示。实验表明因子分析的方法能够有效地解决训练与测试环境不匹配的问题。获取I向量首先要对每个说话人建模,文中采用LBG算法和模糊理论相结合的方法来初始化模型。由于I向量既包含说话人的特征又包含信道信息,因此对I向量进行信道补偿是必不可少的,目的是实现信道信息与说话人特征的分离。信道补偿技术包括线性区分性分析(LDA),主成分分析(PCA),类内协方差规整(WCCN),干扰属性映射(NAP)。实验中比较了不同信道补偿技术的识别性能,并且在识别过程中采用多种不同的方法包括矢量量化,对数似然度,支持向量机和余弦距离测度进行对比。结果表明信道补偿技术将LDA与WCCN方法结合,模式匹配模块采用余弦距离测度配合得分规整的系统能够达到较佳的正确识别率。最后论文对识别系统的训练和测试过程的图形用户界面进行设计与仿真。

林琳[9]2007年在《基于模糊聚类与遗传算法的说话人识别理论研究及应用》文中研究指明本文的研究工作主要有两个方面:1.针对短语音(训练语音少于8秒)的说话人识别系统,将模糊聚类分析的思想引入到模型的训练中,并在此基础上提出了四种基于模糊聚类的短语音说话人识别算法。2.针对高斯混合模型对初值敏感,容易陷入局部极小值而得不到最优解的问题,将具有全局优化特性的遗传算法引入到高斯混合模型的优化中,分析了基本遗传算法存在的问题,提出了两种高斯混合模型的优化方法,并应用到说话人识别中。论文的主要研究内容如下:(1)提出了基于遗传-模糊聚类分析的说话人识别算法,利用遗传算法的全局优化特性,改善了模糊聚类分析的说话人识别算法对初值敏感的问题,使算法在较短训练语音的说话人识别中体现了较强的优势。(2)研究基于核方法的短语音说话人识别。将核方法引入到说话人识别中,提出基于模糊核矢量量化的说话人识别算法,并在此基础上,引入熵的概念,提出了基于模糊核熵的说话人识别算法,进一步提高了短语音说话人识别系统的性能。(3)提出了基于可区分性模糊核矢量量化的短语音说话人识别算法,利用语音信号的不同部分在不同说话人之间的唯一区分特性,进一步增加了说话人之间的区分性,使算法在训练语音少于8秒时,得到较好的识别结果。(4)利用遗传算法及模糊聚类分析对高斯混合模型进行优化,研究了基于遗传-模糊高斯混合模型的说话人识别,改善了高斯混合模型初值敏感的问题,提高了系统的识别率。(5)针对遗传算法“早熟”和局部搜索能力较弱的问题,研究了基于自适应小生境遗传算法的说话人识别,进一步提高了算法的寻优能力,得到了更优的模型参数。

许东星[10]2009年在《基于GMM和高层信息特征的文本无关说话人识别研究》文中认为为了考察和衡量文本无关的说话人识别的最新研究发展状况,美国国家标准与技术署(NIST)自1996年起开始举办说话人识别评测(SRE)。NIST说话人评测代表了了说话人识别领域的最先进水平,NIST设立了多项任务,探索和研究不同语音条件下的研究方法,并为各个项目提供统一的电话语音数据(多通道、多环境、说话人规模大)、测试平台、评测规则,以及评估标准。其中,采用长语音的说话人识别项目旨在利用语音信号中的高层次信息用于文本无关的说话人识别的研究,近年来,已经成为国外一些着名机构的研究热点。语音中的高层次信息往往是与文本内容有关的,因而如何从语音中提取出用于文本无关说话人识别的高层次信息特征便成为当前研究的重点。本文对韵律、发声特点等高层次特征信息的提取方法及其用于文本无关的说话人识别进行了深入研究。针对文本无关的说话人识别的特点,本文采用了概率统计模型的识别方法,将从与文本有关内容的语音韵律(X~t,X为语音特征)中的信息特征看作由韵律特征基元(称作超音段韵律信息特征)所组成的,通过对韵律特征基元分布的概率统计描述来实现说话人辨识。本文提出了一种基于多尺度小波分析从韵律中提取超音段韵律特征的方法,分别用于音源FO~t和声道MFCC~t的超音段韵律特征的提取。由描述缓变信息的概貌系数和描述快变信息的细节系数组成音源FO~t的六维超音段韵律特征参数PFO;而对于高维的声道MFCC~t,由于其各维参数的近似不相关和声道缓变的特点,从MFCC各维分别提取概貌系数组成声道超音段韵律特征参数PMFCC。在NIST 06 8side数据库上的实验表明,PFO与短时FO相比,系统EER相对降低了23.66%,PMFCC达到了与短时倒谱参数MFCC相当的性能。鉴于音源参数与声道参数的互补性,本文研究了音源超音段韵律参数PFO与声道超音段韵律参数PMFCC的组合参数PMFCCFO。PMFCCFO较MFCC在NIST06 8side数据库EER相对降低40%,在微软数据库的实验则表明了PMFCCFO有较好的噪声鲁棒性。采用PMFCCFO与短时参数MFCC的子系统输出评分线性加权后,可进一步提高系统的识别性能。NIST 08 3side评测任务中,采用了基于PMFCCFO的子系统与采用短时参数子系统的等权重输出评分加权,在电话语音条件下取得了最佳的DET曲线。本文还对从短时倒谱中间接提取发声位置特征用于文本无关说话人识别进行了研究,提出了一种基于特征空间映射的发声位置特征的提取方法,利用大量说话人的标准语音训练得到的MLP作为所有人共享的特征映射网络,提取出发声位置参数AF。AF参数反映了说话人的发声特点,与说话人发声器官物理属性和后天发声习惯相关,含有说话人信息,具有较好的噪声鲁棒性。与短时倒谱参数MFCC组成联合参数MFCCAF后,明显改善了说话人确认系统性能的性能与鲁棒性。

参考文献:

[1]. 语音特征空间映射提高说话人识别性能[D]. 许允喜. 苏州大学. 2004

[2]. 基于特征变换和分类的文本无关电话语音说话人识别研究[D]. 解焱陆. 中国科学技术大学. 2007

[3]. 说话人识别系统鲁棒性研究[D]. 付中华. 西北工业大学. 2004

[4]. 基于信道信息的数字音频盲取证关键问题研究[D]. 王志锋. 华南理工大学. 2013

[5]. 改进的核函数算法及其在说话人辨认中的应用研究[D]. 胡若华. 北京交通大学. 2008

[6]. 基于GMM-SVM说话人识别的信道算法研究[D]. 翟玉杰. 吉林大学. 2015

[7]. 汉语语音转换系统的研究[D]. 杨阳. 北京交通大学. 2008

[8]. 基于因子分析的与文本无关的说话人辨认方法研究[D]. 刘婷婷. 中国科学技术大学. 2014

[9]. 基于模糊聚类与遗传算法的说话人识别理论研究及应用[D]. 林琳. 吉林大学. 2007

[10]. 基于GMM和高层信息特征的文本无关说话人识别研究[D]. 许东星. 中国科学技术大学. 2009

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

语音特征空间映射提高说话人识别性能
下载Doc文档

猜你喜欢