与文本有关的说话人识别方法的研究

蒋晔^[1]2008年在《基于文本无关的说话人识别技术研究》文中提出本文的工作是围绕构建一个文本无关的说话人识别系统展开的。主要研究语音的预处理、特征提取、说话人模型建立以及判决策略。并实现了基于矢量量化(VectorQuantization,VQ)和高斯混合模型(Gaussian Mixture Model,GMM)的说话人识别系统。本文的工作主要有以下几方面:在语音信号预处理方面,对语音信号进行8kHz的采样,16bit量化,然后进行预加重、分帧处理、加汉明窗。在特征提取方面,本文提取了语音信号的线性预测系数(LPC)、线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC),并在GMM系统下比较它们的优劣,实验结果表明:MFCC最优,LPCC次之,LPC最差。在识别模型方面,本文主要介绍VQ模型、隐马尔可夫模型(Hidden Markov Model,HMM)和GMM模型。并对VQ和GMM进行了测试,分别进行了说话人辨认和说话人确认实验。实验结果表明:无论是说话人辨认还是说话人确认,GMM模型的识别性能要优于VQ。针对GMM模型进行着重研究,研究了高斯混合模型的阶数对系统识别率的影响,分析了阶数过大或过小对系统的负面影响,并结合实际情况进行了选择;提出在EM算法的迭代过程中设置协方差阈值,并对不同阈值条件下的识别率进行实验对比,证明了将协方差阈值设置为0.1的普遍性和可行性;针对一般初始化参数方法提出了分裂法和k均值聚类相结合的方法,实验证明改进后的方法能有效提高识别率。最后对本文工作进行了总结,同时对未来的研究工作进行了展望。

许东星^[2]2009年在《基于GMM和高层信息特征的文本无关说话人识别研究》文中进行了进一步梳理为了考察和衡量文本无关的说话人识别的最新研究发展状况,美国国家标准与技术署(NIST)自1996年起开始举办说话人识别评测(SRE)。NIST说话人评测代表了了说话人识别领域的最先进水平,NIST设立了多项任务,探索和研究不同语音条件下的研究方法,并为各个项目提供统一的电话语音数据(多通道、多环境、说话人规模大)、测试平台、评测规则,以及评估标准。其中,采用长语音的说话人识别项目旨在利用语音信号中的高层次信息用于文本无关的说话人识别的研究,近年来,已经成为国外一些着名机构的研究热点。语音中的高层次信息往往是与文本内容有关的,因而如何从语音中提取出用于文本无关说话人识别的高层次信息特征便成为当前研究的重点。本文对韵律、发声特点等高层次特征信息的提取方法及其用于文本无关的说话人识别进行了深入研究。针对文本无关的说话人识别的特点,本文采用了概率统计模型的识别方法,将从与文本有关内容的语音韵律(X~t,X为语音特征)中的信息特征看作由韵律特征基元(称作超音段韵律信息特征)所组成的,通过对韵律特征基元分布的概率统计描述来实现说话人辨识。本文提出了一种基于多尺度小波分析从韵律中提取超音段韵律特征的方法,分别用于音源FO~t和声道MFCC~t的超音段韵律特征的提取。由描述缓变信息的概貌系数和描述快变信息的细节系数组成音源FO~t的六维超音段韵律特征参数PFO;而对于高维的声道MFCC~t,由于其各维参数的近似不相关和声道缓变的特点,从MFCC各维分别提取概貌系数组成声道超音段韵律特征参数PMFCC。在NIST 06 8side数据库上的实验表明,PFO与短时FO相比,系统EER相对降低了23.66%,PMFCC达到了与短时倒谱参数MFCC相当的性能。鉴于音源参数与声道参数的互补性,本文研究了音源超音段韵律参数PFO与声道超音段韵律参数PMFCC的组合参数PMFCCFO。PMFCCFO较MFCC在NIST06 8side数据库EER相对降低40%,在微软数据库的实验则表明了PMFCCFO有较好的噪声鲁棒性。采用PMFCCFO与短时参数MFCC的子系统输出评分线性加权后,可进一步提高系统的识别性能。NIST 08 3side评测任务中,采用了基于PMFCCFO的子系统与采用短时参数子系统的等权重输出评分加权,在电话语音条件下取得了最佳的DET曲线。本文还对从短时倒谱中间接提取发声位置特征用于文本无关说话人识别进行了研究,提出了一种基于特征空间映射的发声位置特征的提取方法,利用大量说话人的标准语音训练得到的MLP作为所有人共享的特征映射网络,提取出发声位置参数AF。AF参数反映了说话人的发声特点,与说话人发声器官物理属性和后天发声习惯相关,含有说话人信息,具有较好的噪声鲁棒性。与短时倒谱参数MFCC组成联合参数MFCCAF后,明显改善了说话人确认系统性能的性能与鲁棒性。

杨彦^[3]2006年在《基于矢量量化（VQ）和人工神经网络（ANN）的说话人识别的研究》文中指出随着计算机技术的发展和多媒体信息的广泛应用,语音信号处理技术已经成为计算机界研究的热点.说话人识别始于20世纪30年代,从20世纪60年代开始日益成为当今的一个研究热点。说话人识别技术作为语音信号处理技术的一个代表和重要组成部分,具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中,使得说话人识别方面出现巨大发展。本课题以语音信号的LPC倒谱系数、MEL倒谱参数和基音周期的混合特征参数作为识别的特征矢量集。运用矢量量化(VQ)和人工神经网络(ANN)技术实现与文本有关及无关的说话人识别。在一个10人,1800个的语音库上进行了系统的识别实验。本论文的主要工作有:1、在说话人识别系统的语音特征参数提取部分,详细阐述了声道模型、线性预测编码(LPC)分析、LPC倒谱系数、MEL倒谱系数的求解;2、介绍了说话人识别的不同方法,主要介绍了矢量量化技术及其在说话人识别中的应用,其本质是在一个解空间中用少数的几个特殊的点来代表空间中全部的有效点,以达到聚类的目的,并介绍了模糊矢量量化和改进的模糊矢量量化在说话人识别中的应用。同时,还阐述了遗传算法的基本思想和处理方法。将遗传算法的全局优化与VQ技术结合起来,采用科学的编码方案,动态的定标技术,高效的交叉策略,得到了模型的优化作用,提高了说话人识别率。3、提出了一种新的网络结构,这种网络能够很好地解决神经网络语音识别中的时间规整问题。该网络从输入语音信号的特征矢量序列中提取出一组固定数目的特征矢量,然后将这特征矢量馈入神经网络分类器进行识别。和其他的神经网络说话人识别方法相比较,用这种网络进行前端处理,可以缩短后端神经网络分类器的训练和识别时间,简化分类器的网络结构并保持较高的识别率。根据该方法分别对MLP和RBF神经网络分类器建立了一个说话人识别系统,并对系统进行了识别测试。实验结果表明,该方法具有上述优点。本篇论文从以上叁方面讨论了说话人识别的理论,最后介绍了系统的实现与实验结果,并对实验结果进行了讨论、比较。

纪现清^[4]2008年在《文本无关说话人确认及其应用研究》文中研究说明本文主要讲述基于全背景-高斯混合模型(UBM-GMM)的说话人确认系统。首先在实现基本系统的基础上,我们通过录制新的语音库,增加了基于短时能量和短时过零率的双门限端点检测等措施,使系统的识别精度达到了一个比较高的水准。然后又针对系统运行时间过长效率较低的现象,提出了只抽取语音中最能有效反应说话人个性特征的部分进行特征参数的提取,以降低系统数据量。然后通过实验进行验证,通过结果可以看出,经过如此改进后系统的精度依然能够保持原来的水准,而系统的运行时间却降至约为原来的叁分之一左右,大大提高了系统的效率,也基本达到了我们的预期目的。论文首先对说话人识别的背景、研究意义及近些年来的发展现状做了一个详细的论述,并指出了当前仍存在的难点问题,然后对本文要做的工作做一个概要的介绍。然后,按照UBM-GMM说话人确认系统的流程依次对系统的各个部分进行理论和具体实现的介绍。在本文中我们采用DET曲线来评价系统的性能,该曲线的横、竖坐标分别代表错误拒绝率和错误接受率,横竖坐标相同的点的坐标值便是系统的平均错误识别率。我们在原系统的基础上增加了双门限端点检测的方法,并针对原语音库信噪比较低的情况重新录制了质量比较高的语音库,从而使得系统的精度达到了一个比较高的水平。但在实验的过程中我们也感受到,由于数据量比较大,导致系统的运行时间比较长,这在实际应用中特别是在实时的情况下显然是不够的,针对这种情况我们进一步提出了降低系统运行时间,提高系统效率的目标。我们首先对被测试语句进行分帧打分,观察总结出语音中得分比较高的部分,并对该部分进行短时能量和短时过零率的分析,然后设定出对该部分进行抽取的短时能量和过零率的门限值。经过只抽取最能有效反映说话人个性特征信息的语音段进行特征提取的改进之后,我们首先对系统前后的识别率进行对比,发现系统的识别率依然能保持原有的较高水准。然后进行系统运行时间的对比,通过实验结果我们可以看出,改进后的系统运行时间有较大幅的下降,只为原来的叁分之一多一点,从而说明了本文所做的改进基本达到了预期的效果。最后本文讲述了基于普适计算的E-Learning系统,并对说话人确认系统在其中的应用做了概要的介绍。

王吉林^[5]2004年在《利用矢量量化（VQ）和混合高斯模型（GMM）的说话人识别的研究》文中提出说话人识别始于20世纪30年代,从20世纪60年代开始日益成为当今的一个研究热点。说话人识别具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中,使得说话人识别方面出现巨大发展。但它还远远没有成熟。本课题以语音信号的LPC倒谱系数,差值倒谱系数,基音周期和差值基音周期的混合特征参数作为识别的特征矢量集,运用矢量量化(VQ)技术实现与文本有关的说话人识别。在一个10人,1800个的语音库上进行了系统的识别实验,单音节语音的平均识别率达到了92%,双音节语音的平均识别率达到了96.67%,四音节语音的识别率达到了97.67%,说话人识别的实时识别率达到了90%以上,达到了较为满意的识别效果。在矢量量化中引入模糊聚类算法,实现了对硬聚类算法的有效扩展,提高了码本的量化精度。混合高斯模型(GMM)是最优的与文本无关说话人识别的模型,而环境与个性特征的变化是影响采用GMM识别率的重要因素。本文从帧似然概率的统计特性出发,提出了一种非线性变换方法——指数归一化变换。理论推导和实验结果表明,该变换能够提高识别率。本篇论文从常用语音特征参量的提取、基于矢量量化和混合高斯模型的说话人识别、识别方法的优化及系统实现与实验结果这几个方面讨论了说话人识别的应用技术,并对实验结果进行了讨论。

周昆湘^[6]2007年在《基于矢量量化的与文本无关的说话人确认系统的研究》文中研究表明随着社会信息化程度的发展，越来越多的场合需要对人的身份进行可靠地识别，传统的以密码方式进行身份认证的技术日益暴露出很多弊端。为确保信息安全，用人特有的生物特征作为认证手段的技术逐渐发展起来。说话人识别属于生物认证技术的一种，是一项根据语音波形中反映的说话人生理和行为特征的语音参数，自动鉴别说话人身份的技术。说话人识别技术以其独特的方便性、经济性等优势受到世人瞩目，并日益成为人们日常生活和工作中重要且普及的安全验证方式。本文的研究对象是与文本无关的说话人确认系统。本文首先介绍了说话人确认的声学基础，研究了常用特征参数的提取方法以及基于矢量量化的说话人确认系统，提出了联合量化码本和平均量化误差作为表征说话人的模型，相应改变了距离测度的计算方法。对于说话人确认系统中存在的阈值难以确定等问题，提出了一种新的基于矢量量化方法的阈值的计算方法，该算法可以在训练时根据不同的用户得出不同的阈值，无需人为在系统中设定，与传统的经验阈值相比具有较好的鲁棒性。在Matlab下对改进后的说话人确认系统进行了仿真，研究了几种常用特征参数的优劣性，以及对系统性能的影响，根据仿真结果，设计了一个说话人确认系统性能测试平台，可方便研究系统性能，最后用C语言实现了系统的核心算法。在实验室环境下，建立了一个27人的与文本无关的语音库。理论和实验结果表明：加倒谱提升窗的Mel倒谱参数是常用特征参数中识别率高、计算量折中的参数，改进后的基于矢量量化的与文本无关的说话人确认系统与传统的基于矢量量化的系统相比具有更好的鲁棒性，误识率有显着的降低。系统的错误率较低，计算量较小，实时性好，可用在一般的身份确认场合，若用在高度机密的身份确认场合，要求错误接受率尽量低，系统的性能有待进一步的提高。

张成^[7]2005年在《说话人识别研究及实现》文中提出说话人识别是指根据包含在语音中的同说话人有关的信息来识别说话人,随着信息技术和通信技术的迅速发展,说话人识别技术越来越受到重视。目前国内外绝大部分说话人识别系统都是基于计算机来进行的,本文在重点研究说话人识别系统中的特征参数提取、识别方法等关键技术的基础上,在凌阳16位单片机SPCE061A上实现了一套具有实用意义的说话人确认系统,在进一步完善的情况下,可将其应用于语音门锁、语音考勤、医用语音控制等。本文的主要工作包括以下几点。(1)研究了基音周期的求取方法,并根据系统的实时要求,将逐点搜索基音周期的方法简化为粗细法,即在基音周期范围内隔点搜索相关函数最大峰值点,然后在此时得到的最大峰值点附近继续搜索,将最后得到的峰值点作为基音周期值。(2)分析研究了线性预测倒谱(LPCC)、美尔倒谱(MFCC)等特征参数,并分别在计算机和SPCE061A平台比较了LPCC和MFCC参数的识别效果,实验表明在SPCE061A平台采用LPCC参数比采用MFCC参数有更好的识别效果。(3)详细研究了动态时间规整(Dynamic Time Warping, DTW)方法。根据SPCE061A的存储资源限制,将全段DTW匹配简化为分段DTW匹配,从而减少了对搜索路径的存储开销;另外在匹配过程中采用早期终止策略,即在匹配过程中,一旦部分累积失真距离超过判决阈值,立即终止匹配,拒绝该说话人,从而减少了计算量。(4)针对说话人发音习惯的缓变性,提出了模板在线更新策略,把通常使用的“先训练再识别”的更新模式,优化为在“先训练”条件下的“边训练边识别”的更新模式,从而使得说话人确认系统可适应说话人本体的特征缓变,具有较强的适应性。(5)在凌阳16位单片机SPCE061A上用汇编语言编程,实现了一套具有实用意义的说话人确认系统,可进行性能演示,效果良好。目前说话人识别技术在实用中遇到的最大问题在于系统的噪声的稳健性。如何在噪声环境发生变化的情况下保持系统性能不下降,将需要进一步的研究和实践。随着相关学科的发展,一些更实用、更高性能的说话人识别系统,必将出现并广泛应用在人们的现实生活中。

郭春霞^[8]2006年在《基于MFCC的说话人识别系统研究》文中进行了进一步梳理说话人识别可以被看作语音识别的一种,是当前的研究热点之一。说话人识别是根据包含在语音中的同说话人有关的信息来自动识别说话人,它可分为说话人辨认和说话人确认。　本文在这方面主要做了以下工作:　(1)文章实现的说话人识别系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(MFCC)作为特征参数。实验比较了MFCC、△MFCC+MFCC分别与VQ、加权的VQ(WDMVQ)相结合的识别率。　(2)改进了基本的VQ的识别算法,研究了一种加权的VQ识别算法。　(3)人工神经网络可在一定的程度上模仿人脑的功能,它为说话人识别提供了一个新的途径。概率神经网络PNN是一种性能良好的分类神经网络,仿真结果表明,PNN对训练样本有很高的分类准确率,但对测试样本的分类准确率较低。

邱政权^[9]2007年在《在噪声环境下的说话人识别》文中研究说明说话人识别的研究有几十年了,因此有些技术已经很成熟。尤其是与文本相关的说话人识别已经商品化。但是与文本无关的说话人识别,因为事先不知道文本的内容,所以就困难得多,但是这也是吸引人的地方,所以正是人们的研究热点。而且,虽然说话人识别在纯净语音环境中取得了令人满意的结果,但是一旦到了噪声环境下,说话人的识别率就会急剧地下降。这就牵涉到说话人识别系统的鲁棒性问题了。因此本文着重研究在噪声环境下的说话人识别。本文所做的工作主要如下:(1)针对在噪声环境下的说话人识别系统做了两点改进。第一,为了提高系统的鲁棒性,通过不同尺度的小波基,把含有噪声的信号分解于不同频段中,然后在各个频段分别通过TEO(Teager能量算子)去噪。针对说话人识别的特点,在小波重构时对各小波系数进行了加权处理。再把各个频段的输出通过小波重构恢复信号。最后通过Mel滤波器组把小波系数转换成MFCC。第二,为了进一步提高识别性能和训练速度,我们在识别阶段采用了改进的OGMM(正交高斯混合模型)即把正交变换改到EM算法之前进行,这样就不必要在EM迭代过程中每次都进行正交运算了。从实验得出,采用我们提出的DWT-TEO参数对于说话人识别的效果较好。采用改进的正交高斯混合模型进一步提高了识别性能和训练速度。(2)KLT已经成功用于与文本无关的说话人辨认的特征提取,但是对于特征矢量分解,它需要巨大的计算负担。为了减轻计算负担,把Karhunen Looeve变换(KLT)和重迭子帧合并起来用于噪声环境下的说话人辨认。基于重迭子帧的分离方法,我们提出了一种有效技术去建立特征矢量矩阵和取得KLT技术的优点的有效性。在传统的MCE方法中,对于有K个说话人的系统而言,每一类别的分类错误都需要计算K-1类的判别函数,随着K的增加,使得计算量大量增加,于是提出了一种改进的MCE模型去减少计算量,并进而提高运算速度。实验结果显示:所提出的方法确实减少了计算量,而且提高了系统的辨认率。(3)采用了改进的小波去噪方法对含噪语音进行了前端处理,并且针对说话人识别的特点,在小波重构之前对各小波系数进行了加权处理;识别过程采用了GMM识别算法。实验结果显示,本文所提出的方法对于含噪说话人识别有着比纯粹使用MFCC作为识别特征的说话人识别有明显的优越性。所提出的方法对进行实时的说话人识别有很好的指导作用。(4)高斯函数的线性组合能描述大量的采样分布,因此GMM具有计算的有效性和易于实现的优点,特别是在实时平台上。基于ML规则,模型参数不断更新,直到观察序列的概率的一些极限点。然而实际上,由于爬山特征,任意的原始模型参数估计通常将导致局部最优。遗传算法(GA)是近年来发展起来的强有力全局搜索工具,特别适合于求解复杂组合优化问题及非线性函数优化。提出了基于说话人识别的可以解决GMM局部最优问题GMM/GA新算法。实验结果显示,提出的GMM/GA新算法比纯粹的GMM算法能获得更优的效果。(5)去噪的目的是去掉噪声和保留尽量重要的特征。近来,用非线性处理的信号去噪,如小波变换已越来越普遍。对于小波阈值,使用了根据估计值变量和偏差的能显示软硬阈值的半软阈值函数。GMM普遍用于说话人识别系统中,并且在宽带语音中表现出了很好的性能。然而,在噪声环境下,性能急剧下降。GMM的另一个困难是需要至少几分钟的训练语音,这对实时应用是不适用的。另一方面,ANN需更少的训练数据。所以联合概率神经网络(PNN)和GMM去提高系统的性能。试验结果显示,所提出的方法有利于噪声环境下的说话人识别。

童强^[10]2014年在《基于韵律特征的GMM-UBM的说话人确认研究》文中提出文本无关的说话人识别是目前语音信号处理的一个重要研究方向,其广泛的应用于公安、军队、金融等领域的身份验证和信息检索,使得说话人识别技术在全世界各研究机构的努力下不断发展和革新。为了考察语音技术的最新研究和发展水平,美国国家标准技术委员会(NIST)于1996年开始组织了说话人识别的评测,NIST也代表了全世界说话人识别领域的最高水平。它设立了多个评测任务,并为每个参赛单位提供了统一的多通道和多环境的电话和广播语音、测试规则和标准,用于研究不同环境和条件下的语音技术的研究方法。在NIST SRE中,用长语音进行说话人识别是说话人识别任务的一个子任务,就是为了研究如何用语音信号中的高层信息经行话者确认而设置的。除了我们常用的梅尔倒谱特征参数MFCC,语音中的高层特征参数也是一种用于说话人识别的有效特征参数,但其往往是与文本内容有关的,因此如何从语音信号中提取出文本无关的高层特征参数用于说话人识别是目前研究的焦点。本文在如何提取韵律特征的参数及结合高斯混合模型用于说话人识别进行了探讨。针对上述问题,本文所做的工作主要有以下3点：(1)本文首先详细介绍了常用的基频提取方法：自相关函数法、循环幅值差分函数法、倒谱法,通过实验,研究了基频提取的正确率对基于超音段韵律特征参数的说话人识别系统性能有较大影响,并提出了改进的基于循环幅值差函数法和倒谱法的方法,对这四种方法经行了实验对比。通过实验验证,各项指标包括均方根误差,基频正确率和严重错误率表明,改进的基于循环幅值差函数法和倒谱法的方法,也即是本文的方法比其他叁种中任何一种要好。(2)本文通过实验说明了不同的说话人超音段韵律特征分布的差异,并根据这种差异,构建了基于超音段韵律特征的高层说话人特征参数。结合经典的GMM-UBM-MAP的识别模型,搭建了基于超音段韵律特征参数的说话人识别系统,通过实验,该系统单独用于说话人识别的等误识率EER达到17.77%。(3)短时特征参数MFCC反映了说话人的声道特征,而超音段韵律特征参数以基频为主线,反映了说话人的音源特征,二者从不同角度反映了说话人的特征信息,可以相互补充的提高说话人识别系统的性能。本文提出基于怀疑距离的系统融合,实验结果表明,相比较于常用的输出评分等权值相加方法和经验权值线性融合方法,从DET曲线和EER来观察,有一定的提高。并研究了不同的融合区间,发现选取一定的怀疑区间,特别是一定范围高于阂值的怀疑区间能使系统的性能有一定提高,EER从5.92%提高到了4.95%,相对有16.39%的提高。

参考文献：

[1]. 基于文本无关的说话人识别技术研究[D]. 蒋晔. 南京理工大学. 2008

[2]. 基于GMM和高层信息特征的文本无关说话人识别研究[D]. 许东星. 中国科学技术大学. 2009

[3]. 基于矢量量化（VQ）和人工神经网络（ANN）的说话人识别的研究[D]. 杨彦. 东南大学. 2006

[4]. 文本无关说话人确认及其应用研究[D]. 纪现清. 北京交通大学. 2008

[5]. 利用矢量量化（VQ）和混合高斯模型（GMM）的说话人识别的研究[D]. 王吉林. 东南大学. 2004

[6]. 基于矢量量化的与文本无关的说话人确认系统的研究[D]. 周昆湘. 中南大学. 2007

[7]. 说话人识别研究及实现[D]. 张成. 国防科学技术大学. 2005

[8]. 基于MFCC的说话人识别系统研究[D]. 郭春霞. 西安电子科技大学. 2006

[9]. 在噪声环境下的说话人识别[D]. 邱政权. 华南理工大学. 2007

[10]. 基于韵律特征的GMM-UBM的说话人确认研究[D]. 童强. 中国科学技术大学. 2014

标签：电信技术论文; mfcc论文; 矢量量化论文; 文本分类论文; 特征提取论文; 文本分析论文; 矢量论文; gmm论文;

与文本有关的说话人识别方法的研究

猜你喜欢