一、汉语连续语音识别中语音处理和语言处理统合方法的研究(论文文献综述)
闫晓辉[1](2021)在《智能语音处理技术在空间环境预报业务中的研究与应用》文中指出空间环境与人类的生产生活方式密切相关,空间环境的状态对通讯、卫星导航以及航天活动等都有重要的影响。为减少和避免空间环境灾害对人类造成的损失,空间环境预报已具有不可撼动的地位。空间环境预报对可能造成空间环境效应的事件进行及时预警,为不同飞行任务的空间环境安全提供保障服务。随着空间科学的不断深入,空间环境预报的作用日益增强,空间环境领域内不同任务的完成需要使用的软件日益增多,而程序化逐步进行不可跨越的预报工作执行顺序以及鼠标键盘等传统图形化操作对人机交互方式提出了新的要求,追求简便快捷更加高效的人机交互方式是空间环境领域内开拓创新的良好方向。语音识别研究如何利用计算机从人的语音信号中提取有用信息并确定其语言含义,借助语音识别技术可以实现功能命令的由语音输入到命令的自动执行,具有解放双手、提升效率、自然便捷等优点。随着语音识别技术的不断发展,移动设备、电子商务、车载系统等领域普遍实现语音识别技术的应用,而在空间环境领域尚无语音识别应用的出现,将语音识别技术应用到空间环境软件系统中,是提升领域内软件系统人机交互效率的新型且必要手段。本文通过分析空间环境预报工作模式以及空间环境领域软件系统的操作方式现状,提出了建立基于语音处理交互技术的智能化空间环境系统的思想。针对空间环境预报高效交互方式的需求,提出了将语音识别、语义处理及进程通信技术应用到空间环境预报业务中的智能化空间环境预报技术系统架构。通过搭建基于讯飞语音识别的空间环境预报原型系统,实现了语音交互技术在空间环境预报业务中的应用,证明了语音处理技术在提升空间环境预报人机交互效率方面的有效性。论文的主要研究内容及成果如下:(1)空间环境预报业务中语音识别技术的研究与实现。在充分比较不同语音识别开放接口的基础上,采用讯飞语音识别开放平台作为本文语音识别的基础,并对此进行扩充与改进,建立空间环境预报业务中用户语音输入的语法规则,增加预报指令文本纠错功能,提升讯飞语音识别在空间环境预报业务中的适用性及结果的准确率。(2)空间环境预报业务中语义处理技术的研究与实现。在充分调研文本语义处理相关技术的基础上,采用Python中文分词库Jieba分词系统对识别文本进行分词及关键词的提取,提出了空间环境预报工作中三类用户指令的语义匹配关联分析方法,定义了语义处理过程中用于进行关联匹配的关键词匹配度Kd值的计算公式,为后续进程通信参数的确立及预报工作的执行奠定了基础。(3)空间环境预报业务中进程通信技术的研究与实现。以Win32中进程通信方式为基础,根据空间环境预报命令特点,提出了空间环境预报用户指令与对应功能函数进行映射的方法。(4)空间环境预报原型系统的设计与实现。搭建智能化空间环境预报原型系统,将语音识别、语义处理及进程通信技术组合,实现了语音指令控制原型系统自动执行命令并显示结果的全过程,并结合实例进行系统的验证。
王伟喆[2](2021)在《基于语谱特征的藏语语音识别的研究》文中指出自动语音识别是将语音序列转换为文本序列,是实现人机交互的关键技术。当前,随着人工智能的发展,汉语、英语、日语等主流语言的研究以及语音识别技术已经很成熟。但藏语作为一种少数民族语言,没有大规模的语料库,语言学研究基础薄弱,导致藏语语音识别技术比较落后,实际应用较少。针对藏语语音识别中存在的问题,本文设计并建立了藏语发音词典、语料库、语言模型,重点对藏语语音声学特征的提取以及语音识别模型的构建进行研究。本文的主要工作和创新点如下:1.设计并建立藏语发音词典、语音识别语料库和语言模型。通过对藏语语言学知识以及藏语音节特点的分析,以藏语拼音的声母和韵母作为识别基元来构建藏语卫藏方言语料库,并建立了藏语发音词典和藏语语言模型。建立的语料库包含18000条数据,总时长达11.26小时,共有说话人20位,其中男性说话人8人,女性说话人12人,发音词典包含16398个词。2.构建混合架构的藏语语音识别模型。提取藏语语音梅尔频率倒谱系数构建隐马尔科夫模型(Hidden Markov Model,HMM)、深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short-term Memory,LSTM)的藏语语音识别模型,并进行实验验证。结果表明,GMM-HMM、DNN-HMM,CNN-HMM,LSTM-HMM四种模型在相同实验环境下,词错误率分别为35.58%,33.38%,31.61%,25.35%,并以此作为基线模型,与下文建立的基于语谱特征的端到端藏语语音识别模型识别效果进行对比。3.建立基于语谱特征的端到端藏语语音识别模型,并通过数据增强提升模型的识别率和泛化性能。通过快速傅里叶变换将语音转换为语谱图,并使用该特征训练端到端模型。在同样的实验环境下,该模型的词错误率达到34.72%,优于GMM-HMM模型。针对端到端模型在小语料库中识别率低的问题,本文通过加噪对数据进行增强,实验表明,数据增强后模型的词错误率降低6.19%,模型的性能优于DNN-HMM、CNN-HMM模型,且在自然环境中具有更强的泛化性。同时,本文的研究结果优于实验室前人的研究结果。
算太本[3](2021)在《基于深度学习的安多藏语语音识别技术研究》文中进行了进一步梳理语音识别是人机交互中最重要的研究方向,它是人类与机器之间联系的关键,更是信息社会朝着智能化和自动化方向发展的关键。随着深度学习的理论和技术的发展,基于深度学习的神经网络语音识别技术逐渐成为国内外的研究热点。基于深度学习的神经网络模型比传统的神经网络更能挖掘输入特征中的有效时序信息,增强特征的区分性能和表达能力。目前,相对于主流国际语言的语音识别技术研究,藏语语音识别技术的研究还处于发展阶段。本文通过分析藏文字的音位特征,研究了基于深度学习的藏语语音识别技术。主要工作内容如下:(1)分析了藏文字结构和拼读规则以及藏文字基本构件的音位特征,利用最大匹配算法实现了藏文字到对应国际音标符号的转换。为了声学模型和语言模型更有效地相结合而提出了宽式标音和严式标音的转换策略,设计了安多藏语字-音转换系统。(2)基于深度学习分别设计了藏语语音识别的声学模型和语言模型。首先,通过声学模型的卷积神经网络进行特征降维,同时连接时序分类作为损失函数,实现了藏语语音特征序列与音标序列的对齐与分类。其次,经过Transformer语言模型对音标序列到藏文句子的还原进行了编码和解码操作。(3)建立了不同建模单元的语料库并将拉萨方言和安多方言混合的语音数据集作为声学模型的训练集,通过与基准模型的对比实验,验证了本文方法的有效性。实验数据表明,语料规模为114小时左右的条件下本文深度神经网络结构的藏语语音识别系统能够取得较好的效果。
郭晓晨[4](2020)在《面向短时语音的维吾尔语-汉语语种识别方法研究》文中认为语音是人们效率最高的沟通交流方式,也是社会交际的载体。语音也是是各个国家和各个民族之间的纽带,让人们交流更快捷方便。近年来,语种识别技术广泛应用在各个领域,例如:作为混合语音识别系统的前端区分混合语音,作为机器翻译中的前端处理,应用于多语种信息服务等。同时,随着一带一路倡议的提出,新疆越来越多的得到各地的关注。因此,本文的研究目标为:面向维吾尔语与汉语的语音,利用底层声学特征对语种识别任务开展相关研究,旨在建立一个能在短时语音条件下具有良好性能的语种识别模型。首先,由于目前还没有一个公用的基于维吾尔语-汉语的语种识别数据集,因此本文构建了一个用于维吾尔语-汉语语种识别的数据集,并对数据集的来源与基本信息、数据集的数据清洗和预处理过程做了介绍。并且提出了一种最大限度的保留语种区分性信息的静音检测处理方法。基于音调扰动方法,提出了一种可以弥补说话人数量过少、说话人男女分布不平衡的数据增强方法,并结合噪声扰动对数据集进行了增强。其次,如何从底层声学信息中更有效的提取语种可区分性特征是语种识别课题中的关键。基于此问题,本文开展了基于GMM-ivector框架的维吾尔语汉语语种识别研究,搭建了基于GMM-ivector的维吾尔语-汉语语种识别系统,通过实验的方式确定了模型的参数以及实现细节。最后基于搭建的GMM-ivector系统,验证了WCCN噪声补偿技术对系统的性能影响,并通过实验的方式对比了CDS、SVM、LDA等主流后端分类方法在短时语音的语种识别系统上的性能优劣。再次,基于GMM-ivector系统在短时条件下的性能不佳问题,开展了基于深度学习的维吾尔语-汉语语种识别系统研究。搭建了基于Resnet-50的深度学习语种识别系统,并通过对比的方式验证了深度学习下的语种识别系统在短时长条件下的性能要优于GMM-ivector系统。针对Resnet-50基线系统存在的问题对模型进行了改进,提出了Resnet-LSTM与Resnet-Attention两个改进模型,并综合不同时长下的测试语音片段对改进模型进行了评估,实验结果表明,改进的Resnet模型提高了短时语种识别任务的分类性能。最后,本文从语音的不同声学特征入手,开展了基于MFCC特征与基音周期特征的组合模型研究。将基音周期特征与MFCC特征直接进行拼接后训练了Resnet语种识别模型,证明了基音周期特征在语种识别任务中的有效性。然后对MFCC特征与基音周期特征分别进行建模,并在后端使用融合分类网络对模型进行了融合,得到了基于多特征的组合模型。实验结果表明,多特征的组合模型可以大大提高短时语音下的维吾尔语-汉语语种识别任务的分类性能。
罗健[5](2020)在《基于区分性特征的汉语方言识别研究》文中研究说明方言是一种特殊的语言变体,具有珍贵的史学及语言学研究价值。汉语方言作为中华民族优秀的非物质文化遗产,不应该随着普通话的日益普及而消失。汉语方言种类识别是推进汉语方言智能处理的至关重要的一环,在方言保护传承中具有重要的实践意义。目前,现有的方言种类识别模型主要围绕如何抽取方言文本中有效词法、句法等文本级别特征展开研究,针对方言区分词和方言发音特征的研究较为鲜见。同时,考虑到当前深度学习方法能够从监督信息中提取有效的特征,这为提取方言区分性特征提供了可行的方法。基于此,本文提出了两种不同且有效的方言区分特征进行方言语种识别:(1)方言区分词特征,本文首先利用注意力机制构建了一个汉语方言文本分类模型,接着通过注意力权重来选择代表性的方言区分词,然后将方言区分词的词向量特征和底层声学特征进行融合,最后从融合特征中提取方言区分特征进行汉语方言种类识别。通过汉语基准方言语料库上的实验结果表明该融合特征优于仅使用方言文本或底层声学单方面特征。(2)方言发音特征,本文首先构建了一个汉语音素识别模型,然后利用识别出的音素序列从底层声学特征中提取方言发音特征,最后从方言发音特征中提取方言区分性特征进行方言种类识别。通过汉语基准方言语料库上的实验结果表明方言发音特征在方言识别中具有重要作用。最后,本文集成了以上工作,设计了一个基于客户端-服务器架构的智能语音处理平台,该平台能够有效完成方言种类识别和赣方言语音识别,同时融入了语音智能闲聊等功能。总体而言,本文对汉语方言识别中的关键技术进行了较为深入的研究,提出了相关问题的一些解决方法,并设计了相应的算法和实验。通过汉语基准方言语料库上的实验表明,本文提出的这些方法有助于提高汉语方言识别的性能,同时减少对大规模语料库的依赖性,为同类研究提供了有效参考。此外,本文不仅有助于探索传统文化研究、保护的途径和模式,而且也有助于江西省有声资源库的后续开发和利用。
吴敏[6](2019)在《面向俄语军事语音的语种识别研究》文中研究说明随着各种信息获取手段的不断进步,获取到的信息变得更多、更容易也更多冗余,语音信息也是如此。随着越来越多的多语种语音环境的出现,对语音信息中非目标语种的所有冗余信息的剔除变得愈加关键,针对语音的语种识别需求也越来越大。为了填补目前国内针对俄语的语种识别研究的空白,本文将结合深度学习方法,针对俄语军事语音进行语种识别研究。本文通过研究俄语发音特点,发现语音频谱图包含语种鉴别特征,并通过对比实验证明了频谱图特征在军事领域针对俄语语音的识别效果良好。本文采用交叉验证的方法划分数据集,进行了两次对比实验:首先是通过对比实验来探究不同语种识别特征和分类模型的识别性能。在此过程中,研究了音素序列特征提取、频谱特征提取、高斯建模特征提取三种特征提取方法,具体分析了使用高斯建模特征提取方法获取的基于因子分析的全空间建模辨识向量ivector特征;还研究了深度学习方法中能够捕捉图像特征的卷积神经网络,对比了传统语种识别方法与基于CNN的深度学习语种识别方法在汉、越、俄、西、日五种语言上的性能差异。其次是通过混合构成俄语军事语音语料,训练针对俄语军事语音的语种识别模型来比较ivector特征和频谱图特征,在此过程中分析了俄语军事语音语料的特点,研究了ivector维度对识别性能的影响。通过实验发现基于CNN的语种识别方法相比传统语种识别方法在五语种识别任务上的识别效果明显提升;基于频谱图特征-CNN的语种识别方法在针对俄语军事语音语料的识别任务上表现最佳,获得了100%的召回率和99.2%的精确率。在此基础上,本文构建了一个能够准确、快速地从特定环境下的各种语音信息中辨别提取出俄语语音信息的语种识别原型系统,该原型系统能够以99.8%的识别准确率识别俄语军事语音。实验结果表明基于深度学习方法的语种识别明显优于传统语种识别方法;基于俄语发音特点找到的ivector特征的确在俄语识别任务上表现更佳;使用基于深度学习的针对俄语军事语音语料的语种识别原型系统作为语音数据处理的前端部分,能够提高俄语军事语音的提取效率。深度学习方法的效果与数据集的质量息息相关,本原型系统对于其他环境语音识别效果不佳,使用特定环境的语音来再次进行训练可以使神经网络更好地识别该环境下的语音。
王宇琛[7](2019)在《噪声环境下连续语音识别技术研究》文中指出人工智能是目前最热门的科学研究领域之一,语音识别是人工智能的一个重要研究方向。随着科学技术的发展,连续语音识别技术已经取得了很大的进展。目前的连续语音识别系统,在实验室环境下,对纯净语音已达到很高的识别率,但在噪声环境下,识别率明显下降。在连续语音识别系统的实际应用中,噪声几乎是不可避免的,因此针对噪声环境下的连续语音识别技术研究显得尤为重要。本文从语音识别技术的理论基础出发,介绍了连续语音识别系统的各个组成部分,包括语音信号预处理、语音信号特征分析、连续语音切分、声学模型和语言模型等。最终实现了一个噪声环境下的中等词汇量汉语连续语音识别系统,并测试了该系统的性能。本文的主要研究内容如下:(1)语音信号特征分析。本文介绍了语音信号的预处理技术,包括以谱减法为主的语音增强技术,然后分析了语音信号在时域、频域和倒谱域的特征,提取了多种特征参数,着重研究了频域的语谱图特征和倒谱域的基音周期轨迹特征。(2)连续语音切分技术。连续语音的切分包含两个步骤,一是端点检测,二是语音段基元的切分。本文研究了基于时域特征参数的多阈值端点检测技术,然后在分析基音周期轨迹和语谱图的基础上,研究了一种具有一定抗噪性的汉语连续语音音节切分方法,实验表明该方法具有较高的准确率。(3)语音识别模型分析。连续语音识别系统分为两层,声学模型层和语言模型层,声学模型用于将语音信号识别为对应的音,本文研究了三种声学模型,分别是矢量量化模型、离散隐马尔科夫模型和连续隐马尔科夫模型,并通过实验对这三种模型的识别率和性能进行了对比分析,还研究了不同训练样本对连续隐马尔科夫模型识别率的影响。由于汉语广泛存在同音字现象,本文应用N元文法模型作为语言模型进行音-字的转换。最后,将声学模型与语言模型相结合,实现了一个完整的连续语音识别系统。
栾效阳[8](2019)在《基于BPE和Transformer的汉语语音识别技术研究》文中研究表明语音识别是实现人机语音交互的前提条件,正受到研究者越来越多的关注。基于联结主义时序分类(Connectionist Temporal Classification,CTC)的端到端声学模型建模技术成为主流方法之一,但选择用于CTC预测的基本输出单元是一个设计难题。识别单元的选择一般是基于语音学知识的,但是也可以通过数据驱动的方式来产生,使用后者所确定的单元可能在语音学上也许没有什么明确的意义,但也可能达到很好的性能。此外,语音识别系统中往往还包括语言模型,在传统建模方式中常采用n-gram语言模型。随着深度学习的发展,找到优化的策略或网络结构对语言模型进行改进也颇具研究价值。在此背景下,本文分别对自动语音识别系统中的声学模型建模技术和语言模型建模技术进行探索,一方面结合CTC理论提出新的建模单元集合,探究新的语言模型神经网络结构,提升语音识别的整体性能。首先,本文利用字节对编码(Byte Pair Encoding,BPE)算法的思想对声学模型进行改进,通过为其选择更合适的识别单元来提升语音识别性能。CTC声学模型可以选择大于音素的输出单元,比如声韵母和音节等,而且不用对输入语音信号的每一帧进行标注。BPE算法通过迭代地合并文本中出现最频繁的单元并将其添加到子词单元集合中,自动地学习和发现识别单元的最佳集合,也能自动地学习分解目标序列的最合适的方式。另外,本文利用Transformer网络实现了从声学模型输出的音节序列到文字的解码过程。相比n-gram模型,Transformer网络更容易捕获句子中长距离的相互依赖的特征,这样能充分利用语境信息,在音字转换中发挥更大优势。经过实验对比,改进的语言模型系统性能得到提升。而且相比循环神经网络(Recurrent Neural Network,RNN),Transformer对于增加计算的并行性也有直接作用,适合语言模型建模任务。基于BPE的声学建模和基于Transformer的语言模型建模技术结合起来,在汉语识别准确率上性能有了明显的提升。
吴晓迪[9](2019)在《基于多示例学习的汉语口语语音中不流利事件检测研究》文中提出随着互联网的发展,人工智能越来越融入人们的工作生活中,人与机器的智能语音交互应用更加广泛,机器需要更好的理解人们各种情境环境下的语音,现阶段主要包括流利的朗读式语音、较短的命令式语音等,而在较长的自然口语语音方面,智能语音识别还面临很大的挑战。本文主要是对汉语自然口语语音数据中不流利事件的检测研究,可以看作语音识别任务的一个前端工作。不流利事件即自然口语中犹豫、填充停顿、重复等现象。它是语音中非正常语义的行为,对不流利事件的检测研究属于语音副语言研究范畴。在本文中,提取了能够很好地表征不流利语音的特点的韵律学特征和谱相关特征,并且提出了多示例学习的模型以解决在不流利语音中,不流利事件持续时间短而噪声信息过多的问题,通过训练多示例学习模型对不流利事件进行识别。论文的主要内容有:(1)汉语自然口语不流利事件语料库的构建。本文从已有标注的哈工大流媒体数据语料库中提取我们需要的流利语音和不流利语音。本文依据该原始语料库中的标注文件,分析了不流利事件的标注特点,找到不流利事件的标注规则,然后依据此规则找到了自动检测不流利事件的有效方法,自动切割不流利语音,然后通过人工复检自动切割的语料,完成了汉语自然口语不流利事件语料库的构建。(2)基于长短时记忆网络(Long Short Term Memory Network,LSTM)的不流利语音分类方法。本文使用LSTM网络模型作为基线系统,对汉语自然口语中不流利事件进行识别检测。该基线系统使用的特征为梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)语音特征。文中在介绍LSTM网络的结构特点的基础上,阐述了与此模型相关的音频预处理、特征提取、LSTM模型的训练和测试等过程,最后给出了该识别模型的测试结果。(3)基于多示例学习(Multiple Instance Learning,MIL)SVM模型的不流利事件的识别。多示例学习中包是有标签的而包中的各个示例是没有标签的,可以说多示例学习是结合了监督学习和无监督学习特点的一种学习方法。本文将多示例学习引入到口语事件识别任务中,并且将多示例学习与传统的机器学习方法支持向量机(Support Vector Machine,SVM)分类器结合,进行分类检测。该系统使用的特征为副语言特征集,该特征集中不仅包含MFCC等谱特征,还包含了一些能够很好地表征语音声学特性的韵律特征等,在以往的语音副语言识别中表现出了较好的效果;(4)基于多示例学习神经网络模型的不流利事件的识别。将多示例学习引入神经网络,构建符合多示例学习规则的误差函数,充分利用神经网络学习能力强,鲁棒性高的优点,训练一个基于多示例学习的神经网络模型,利用此模型对测试集的语音进行识别,得到识别的准确率;并在这个模型上进行了改进,增加了深度监督机制,以提高特征学习能力,提高识别准确率。最后通过实验表明此改进的方法有较好的识别效果。
朱冬[10](2019)在《基于深度学习的调频广播语种识别模型及应用》文中提出随着社会经济的高速发展以及全球化进程的加快,全球范围内的人员流动增加了拥有不同语言背景的人相互交流的机会,自动语种识别作为语音识别的第一步显得十分重要。全球人工智能的快速发展也促进了各项技术的升级,语音技术作为人类信息交流的桥梁技术,引得越来越多的科研工作者投入到实现良好语音交互的行列中。包括边境地区的无线电通信安全问题,也可采用语音识别的方法进行监测,实现快速精准的语种识别对后续所有与语音识别相关的工作显得极为重要。本文围绕广播的语音语种识别,对语种识别方法进行了详细的讨论与研究,主要工作如下:1)根据语种识别领域的对数据集的要求,采集了老挝语、普通话、缅甸语、泰国语和越南语共5种语言约25小时的数据集,并通过与其他数据集对比研究,确认数据的可靠性。2)结合语音处理的方法,建立广播信号识别数据集,利用深度学习对调频广播信号扫频录音保存后音频文件进行识别,以此来识别信号与非信号。3)采用I-Vector的方法建立可靠语种识别的基线系统,为后续试验的改进提供可靠的理论依据。4)以深层神经网络为基础,针对短时变长的语音信号,设计了两种采用底层声学特征作为输入的深度学习的语种识别方法。一种是基于门控循环单元(Gated Recurrent Unit,GRU)的语种识别,分析了不同参数的网络结构、不同的底层声学特征对在3种数据集中的表现,确定了合适的网络参数和结构,找出适合深度学习网络使用的特征;另一种是结合自注意力机制(Self-attention)和深层卷积网络的模型(Deep Convolutional Neural Networks,DCNN),对其在变长的语音语种识别中的运用进行了分析研究。对比了传统的声学特征模型与采用深度学习的区别,结果表明采用深度学习的方法可以达到比使用I-Vector更好的识别效果。
二、汉语连续语音识别中语音处理和语言处理统合方法的研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、汉语连续语音识别中语音处理和语言处理统合方法的研究(论文提纲范文)
(1)智能语音处理技术在空间环境预报业务中的研究与应用(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 语音识别技术 |
1.2.2 空间环境预报业务 |
1.3 研究目标及内容 |
1.4 论文组织结构 |
第2章 空间环境预报业务中的语音识别技术 |
2.1 语音识别理论 |
2.1.1 语音识别概念 |
2.1.2 语音识别的基本原理 |
2.1.3 语音识别的工作流程 |
2.1.4 语音识别系统影响因素及解决办法 |
2.2 讯飞开放平台的语音识别技术 |
2.2.1 语音识别开发工具现状 |
2.2.2 讯飞语音识别功能组成 |
2.2.3 讯飞语音识别SDK接口介绍 |
2.2.4 讯飞语音识别SDK项目集成步骤 |
2.2.5 讯飞语音识别SDK API调用流程 |
2.3 讯飞语音识别在空间环境预报业务中的应用 |
2.3.1 空间环境预报业务中用户语音输入的语法规范 |
2.3.2 语音识别在空间环境预报业务中的文本纠错 |
2.4 本章小结 |
第3章 空间环境预报业务中的语义处理 |
3.1 自然语言处理 |
3.1.1 自然语言处理概念 |
3.1.2 自然语言处理方法 |
3.1.3 自然语言处理研究内容 |
3.2 文本分词 |
3.2.1 Python结巴分词系统 |
3.2.1.1 Jieba分词介绍 |
3.2.1.2 Jieba分词原理 |
3.2.1.3 Jieba分词过程 |
3.2.2 空间环境预报中的分词实现 |
3.2.2.1 自定义用户词典 |
3.2.2.2 基于用户词典的分词 |
3.2.3 关键词提取 |
3.3 语义处理 |
3.3.1 语义处理关联分析 |
3.3.2 功能函数映射 |
3.4 本章总结 |
第4章 空间环境预报业务中的进程通信 |
4.1 进程通信 |
4.1.1 进程及进程通信概念 |
4.1.2 进程通信方式 |
4.1.3 基于WM_COPYDATA的进程通信 |
4.2 进程通信技术在空间环境预报业务中的应用 |
4.2.1 空间环境预报业务中的WM_COPYDATA消息 |
4.2.2 进程通信函数映射过程 |
4.2.3 界面跳转映射过程 |
4.3 本章总结 |
第5章 空间环境预报原型系统的设计和实现 |
5.1 空间环境预报工作模式及预报系统 |
5.2 原型系统架构及功能介绍 |
5.3 系统设计与实现 |
5.3.1 开发环境 |
5.3.2 预报原型系统中用户语音输入语法规则 |
5.3.3 智能化空间环境预报系统的实现 |
5.4 本章总结 |
第6章 总结与展望 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(2)基于语谱特征的藏语语音识别的研究(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景 |
1.2 研究现状 |
1.2.1 语音识别研究现状 |
1.2.2 藏语语音识别研究现状 |
1.2.3 藏语语音识别存在的问题 |
1.3 研究目的与研究内容 |
1.4 论文结构安排 |
第2章 语音识别基础 |
2.1 语音识别原理 |
2.1.1 语音信号预处理 |
2.1.2 特征提取 |
2.1.3 声学模型 |
2.1.4 语言模型 |
2.1.5 解码 |
2.1.6 语音识别评价指标 |
2.2 深度学习模型原理 |
2.2.1 深度神经网络 |
2.2.2 长短时记忆网络 |
2.2.3 卷积神经网络 |
2.3 本章小结 |
第3章 藏语语料库的构建 |
3.1 语料库设计原则 |
3.2 藏语方言概述 |
3.3 藏语发音词典的建立 |
3.4 藏语语料库的构建 |
3.4.1 文本语料设计 |
3.4.2 语音语料的录制 |
3.4.3 藏语语料库的清洗 |
3.4.4 藏语语料库覆盖分析 |
3.5 文本转写 |
3.6 藏语语言模型的建立 |
3.7 本章小结 |
第4章 基于混合架构的藏语语音识别 |
4.1 混合架构藏语语音识别模型结构 |
4.1.1 基于GMM-HMM的声学模型 |
4.1.2 基于神经网络的声学模型 |
4.2 实验结果及分析 |
4.2.1 实验数据 |
4.2.2 模型配置 |
4.2.3 实验结果及分析 |
4.3 本章小结 |
第5章 基于语谱图特征的藏语语音识别 |
5.1 引言 |
5.2 端到端模型结构 |
5.2.1 特征提取 |
5.2.2 模型训练 |
5.3 数据增强 |
5.4 实验结果与分析 |
5.4.1 实验配置 |
5.4.2 数据增强分析 |
5.4.3 实验数据 |
5.4.4 识别结果及分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文及研究成果 |
(3)基于深度学习的安多藏语语音识别技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 藏语语音识别的研究现状 |
1.4 论文的研究内容及组织结构 |
第二章 语音识别相关理论 |
2.1 语音识别原理 |
2.1.1 声学模型 |
2.1.2 语言模型 |
2.2 深度学习的基本理论 |
2.2.1 全连接神经网络 |
2.2.2 循环神经网络 |
2.2.3 卷积神经网络 |
2.2.4 Transformer模型 |
2.3 本章小结 |
第三章 安多藏语音位特征分析 |
3.1 藏文字字性 |
3.2 安多藏语音位特征 |
3.2.1 辅音集 |
3.2.2 元音集 |
3.2.3 梵音藏文字 |
3.3 安多藏语字-音转换系统 |
3.3.1 安多藏语字-音转换算法 |
3.3.2 安多藏语字-音转换策略 |
3.3.3 系统设计与实验分析 |
3.4 本章小结 |
第四章 基于深度学习的安多藏语语音识别 |
4.1 安多藏语声学模型 |
4.1.1 信号预处理 |
4.1.2 声学特征提取 |
4.1.3 藏语声学模型框架 |
4.2 安多藏语语言模型 |
4.2.1 语言模型框架 |
4.2.2 语言模型编码器 |
4.2.3 语言模型解码器 |
4.3 实验分析 |
4.3.1 实验语料库 |
4.3.2 实验环境 |
4.3.3 基准模型实验 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录 |
致谢 |
个人简历 |
读研期间参加的科研项目和研究成果 |
(4)面向短时语音的维吾尔语-汉语语种识别方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 语种识别简介 |
1.1.1 语种识别概述 |
1.1.2 语种识别的研究意义 |
1.2 语种识别的研究现状 |
1.2.1 不同层次的语种区分性信息 |
1.2.2 语种识别的国内外相关研究概况 |
1.3 本文研究背景 |
1.4 本文的主要研究内容与章节安排 |
第2章 基于维吾尔语汉语的语种识别特征工程 |
2.1 数据来源 |
2.2 数据清洗 |
2.2.1 采样率转换 |
2.2.2 数据筛选与音量标准化 |
2.2.3 端点检测 |
2.2.4 划分数据集 |
2.3 数据增强 |
2.3.1 语音处理中常用的数据增强技术 |
2.3.2 本文采取的数据增强策略 |
2.4 声学特征提取 |
2.4.1 fbank特征 |
2.4.2 MFCC特征 |
2.5 本章小结 |
第3章 基于GMM-ivector的语音语种识别方法研究 |
3.1 GMM-ivector的模型架构 |
3.1.1 通用背景模型UBM |
3.1.2 最大后验概率准则MAP |
3.1.3 基于因子分析法的i-vector提取 |
3.2 后端判别模型 |
3.2.1 余弦距离判别CDS |
3.2.2 支持向量机SVM |
3.2.3 线性鉴别分析LDA |
3.3 基于类内协方差规整的噪声补偿技术 |
3.4 实验分析 |
3.4.1 UBM模型中高斯分量的个数的确定 |
3.4.2 噪声补偿补偿性能分析 |
3.4.3 后端分类模型构建实验 |
3.4.4 实验结果对比 |
3.5 本章小结 |
第4章 基于深度学习的语音语种识别方法研究 |
4.1 卷积神经网络概述 |
4.1.1 卷积层 |
4.1.2 池化层 |
4.1.3 全连接层 |
4.1.4 激活函数 |
4.2 基于Resnet网络的语种识别基线系统 |
4.2.1 Resnet网络结构简介 |
4.2.2 基于Resnet的基线系统构建 |
4.2.3 Resnet基线系统的层次结构改进 |
4.3 面向语句级向量编码层的Resnet网络改进 |
4.3.1 Resnet结合LSTM的语种识别 |
4.3.2 Restnet结合Attention的语种识别 |
4.4 实验分析 |
4.4.1 实验配置 |
4.4.2 Resnet的基线系统搭建实验 |
4.4.3 语句级向量编码的Resnet改进实验 |
4.4.4 各模型在测试集中的性能对比分析 |
4.5 本章小结 |
第5章 基于特征融合的语种识别方法研究 |
5.1 基音周期特征的提取 |
5.2 基于MFCC特征与基音周期特征的语种识别融合模型 |
5.3 实验分析 |
5.3.1 MFCC+pitch融合特征实验分析 |
5.3.2 改进的端点检测方法性能分析 |
5.3.3 基于MFCC与 pitch特征的组合模型实验分析 |
5.3.4 实验结果对比 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 研究总结 |
6.2 研究展望 |
参考文献 |
致谢 |
个人简历 |
在学期间研究成果 |
(5)基于区分性特征的汉语方言识别研究(论文提纲范文)
摘要 |
Abstract |
1. 绪论 |
1.1. 研究背景及意义 |
1.1.1. 研究背景 |
1.1.2. 研究意义 |
1.2. 国内外研究现状 |
1.2.1. 基于音素识别器的语种识别模型 |
1.2.2. 基于底层声学特征的语种识别模型 |
1.2.3. 基于深度学习的语种识别模型 |
1.3. 论文组织结构 |
2. 相关技术 |
2.1. 卷积神经网络 |
2.2. 注意力机制 |
2.3. 词向量技术 |
2.4. 语音识别技术 |
2.5. CTC损失函数 |
2.6. 残差网络 |
2.7. 长短期记忆网络 |
2.8. 多头自注意力机制 |
2.9. 系统性能评价指标 |
3. 基于区分词的语种识别方法 |
3.1. 语种识别模型 |
3.1.1. 模型框架 |
3.1.2. 语音信号处理模块 |
3.1.3. 赣方言语音识别模块 |
3.1.4. 区分词提取模块 |
3.1.5. 方言识别模块 |
3.2. 赣方言数据集 |
3.3. 实验设置及结果分析 |
3.3.1. 实验设置 |
3.3.2. 方言语种识别实验结果分析 |
3.3.3. 赣方言语音识别实验结果分析 |
3.4. 本章小结 |
4. 基于发音特征的语种识别方法 |
4.1. 语种识别模型 |
4.1.1. 模型框架 |
4.1.2. 音素识别模块 |
4.1.3. 方言识别模块 |
4.2. 汉语方言数据集 |
4.3. 实验设置及结果分析 |
4.3.1. 实验设置 |
4.3.2. 实验结果分析 |
4.4. 本章小结 |
5. 智能语音处理平台 |
5.1. 平台结构 |
5.2. 平台前端界面设计及功能 |
5.2.1. 前端界面设计 |
5.2.2. 平台功能介绍 |
5.3. 本章小结 |
6. 总结与展望 |
6.1. 全文总结 |
6.2. 未来工作展望 |
参考文献 |
致谢 |
在读期间公开发表论文(着)及科研情况 |
(6)面向俄语军事语音的语种识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 引言 |
1.1 研究背景 |
1.2 研究意义 |
1.2.1 俄语军事语音研究 |
1.2.2 语种识别方法对比研究 |
1.2.3 基于深度学习的语种识别原型系统 |
1.3 研究关键问题 |
1.3.1 语种识别特征的选取 |
1.3.2 深度学习与语种识别方法的结合 |
1.4 论文的主要内容及组织结构 |
第二章 特征提取方法 |
2.1 音素序列方法 |
2.1.1 基于PRLM的语种识别 |
2.1.2 基于WPLLR的语种识别 |
2.2 频谱特征的提取方法 |
2.2.1 梅尔频率倒谱系数特征 |
2.2.2 移位差分倒谱特征 |
2.3 高斯建模特征 |
2.3.1 高斯混合模型特征 |
2.3.2 GMM-MLLR特征 |
2.3.3 辨识向量ivector特征 |
2.4 本章小结 |
第三章 深度学习方法 |
3.1 神经网络 |
3.2 深度学习 |
3.3 卷积神经网络 |
3.3.1 神经感知机的发展 |
3.3.2 图像特征捕捉器 |
3.3.3 CNN的实际应用 |
3.4 本章小结 |
第四章 语种识别方法对比研究 |
4.1 实验准备 |
4.1.1 实验环境 |
4.1.2 实验语料 |
4.1.3 实验设置 |
4.2 传统语种识别方法 |
4.2.1 基于MFCC-SVM的语种识别 |
4.2.2 基于SDC-SVM的语种识别 |
4.2.3 基于ivector-SVM的语种识别 |
4.3 深度学习语种识别方法 |
4.3.1 基于MFCC-CNN的语种识别 |
4.3.2 基于ivector-CNN的语种识别 |
4.3.3 基于语音频谱特征的CNN语种识别 |
4.4 实验过程 |
4.4.1 特征数据准备 |
4.4.2 语种识别模型训练 |
4.4.3 测试打分模块 |
4.5 实验结果 |
4.5.1 结果数据 |
4.5.2 结果分析 |
4.5.3 实验小结 |
第五章 俄语军事语音语种识别原型系统 |
5.1 俄语军事语音的特点 |
5.2针对俄语军事语音的对比实验 |
5.2.1 实验设置 |
5.2.2 实验过程 |
5.2.3 实验结果 |
5.3 构建原型系统 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 主要工作 |
6.2 研究展望 |
致谢 |
参考文献 |
作者简历 |
(7)噪声环境下连续语音识别技术研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 引言 |
1.2 研究背景及意义 |
1.3 连续语音识别技术的发展及研究现状 |
1.3.1 国外连续语音识别技术的发展简介 |
1.3.2 国内连续语音识别技术的发展简介 |
1.3.3 语音识别技术的研究现状与发展趋势 |
1.4 噪声环境下连续语音识别技术的难点 |
1.5 论文的组织结构安排 |
2 语音信号特征分析 |
2.1 语音信号预处理 |
2.1.1 预加重 |
2.1.2 分帧 |
2.1.3 加窗 |
2.2 语音信号的时域特征分析 |
2.2.1 短时能量 |
2.2.2 短时平均过零率 |
2.3 语音信号的频域特征分析 |
2.4 语音信号的倒谱域特征分析 |
2.5 噪声处理 |
2.5.1 语音增强 |
2.5.2 绘制基音谱图 |
2.6 本章小结 |
3 汉语连续语音切分技术 |
3.1 语音信号的端点检测技术 |
3.1.1 双门限端点检测技术 |
3.1.2 多阈值端点检测技术 |
3.2 汉语语音音节切分 |
3.2.1 基音周期轨迹分析 |
3.2.2 语谱图分析 |
3.3 本章小结 |
4 汉语语音识别的声学模型 |
4.1 矢量量化 |
4.2 隐马尔可夫模型 |
4.2.1 隐马尔可夫模型的基本思想 |
4.2.2 隐马尔可夫模型的基本问题 |
4.2.2.1 前向-后向算法 |
4.2.2.2 Baum-Welch算法 |
4.2.3 离散型隐马尔科夫模型 |
4.2.4 连续型隐马尔可夫模型 |
4.3 本章小结 |
5 汉语语音识别的语言模型 |
5.1 统计语言模型 |
5.1.1 N元文法语言学模型 |
5.1.2 N元文法模型的数据平滑技术 |
5.1.2.1 加法平滑技术 |
5.1.2.2 Good-Turning估计 |
5.1.2.3 线性差值平滑技术 |
5.1.3 N元文法模型的搜索算法 |
5.2 汉语连续语音识别系统实现 |
5.2.1 系统框架设计 |
5.2.2 系统测试 |
5.2.2.1 实验环境 |
5.2.2.2 实验结果及分析 |
5.3 本章小结 |
6 总结与展望 |
致谢 |
参考文献 |
附录 |
(8)基于BPE和Transformer的汉语语音识别技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.2 国内外研究现状及分析 |
1.2.1 深度神经网络声学模型 |
1.2.2 深度神经网络语言模型 |
1.3 目前方法存在的一些问题 |
1.4 本文主要研究内容 |
1.5 本文组织结构 |
第2章 声学模型和语言模型基线系统 |
2.1 引言 |
2.2 声学建模中的CTC技术 |
2.3 基于CTC的声学模型基线系统 |
2.3.1 系统框架 |
2.3.2 识别单元选取 |
2.3.3 实验设置 |
2.4 n-gram语言模型基线系统 |
2.4.1 n-gram语言模型系统 |
2.4.2 实验设置及结果分析 |
2.5 本章小结 |
第3章 基于BPE的声学模型改进 |
3.1 引言 |
3.2 BPE原理 |
3.3 基于BPE的声学模型 |
3.3.1 基于BPE的识别单元选择 |
3.3.2 实验结果及分析 |
3.4 本章小结 |
第4章 基于Transformer的语言模型改进 |
4.1 引言 |
4.2 音字转换中的Transformer分析 |
4.2.1 Attention机制 |
4.2.2 Self-Attention机制和Transformer网络 |
4.3 基于Transformer的语言模型 |
4.3.1 训练算法 |
4.3.2 实验结果及分析 |
4.4 BERT语言模型建模探索 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其他成果 |
致谢 |
(9)基于多示例学习的汉语口语语音中不流利事件检测研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题来源及研究的目的和意义 |
1.2 国内外研究现状及分析 |
1.2.1 不流利语音检测的研究现状 |
1.2.2 多示例学习研究现状 |
1.3 论文主要研究内容 |
第2章 汉语自然口语不流利事件语料库的构建 |
2.1 引言 |
2.2 语料来源与分类 |
2.2.1 语料来源 |
2.2.2 口语不流利类型分类 |
2.3 语料库的构建 |
2.3.1 语料的标注特点 |
2.3.2 不流利事件语料识别规则及切割流程 |
2.3.3 语料库构成 |
2.4 本章小结 |
第3章 基于LSTM的不流利语音分类方法 |
3.1 引言 |
3.2 MFCC特征提取 |
3.3 LSTM网络模型 |
3.3.1 RNN网络 |
3.3.2 LSTM网络 |
3.3.3 LSTM模型设计 |
3.4 实验结果与分析 |
3.4.1 实验准备 |
3.4.2 实验结果 |
3.5 本章小结 |
第4章 基于多示例学习SVM模型的不流利语音分类 |
4.1 引言 |
4.2 多示例学习 |
4.2.1 多示例学习的概念 |
4.2.2 多示例学习的学习过程 |
4.3 副语言特征集特征提取 |
4.3.1 副语言特征集特点 |
4.3.2 副语言特征集的提取 |
4.4 基于多示例学习的SVM算法 |
4.4.1 基于包水平空间的多示例算法 |
4.4.2 MI-SVM算法 |
4.5 实验结果与分析 |
4.5.1 实验准备 |
4.5.2 实验结果 |
4.6 本章小结 |
第5章 基于多示例学习的神经网络模型的不流利语音分类 |
5.1 引言 |
5.2 基于多示例的神经网络模型 |
5.2.1 网络的训练 |
5.2.2 MINet网络设计 |
5.3 带有深度监督的多示例神经网络模型MIDSNet |
5.3.1 深度监督机制 |
5.3.2 网络结构 |
5.4 实验设置及分析 |
5.4.1 实验准备 |
5.4.2 实验结果及分析 |
5.5 本章小结 |
结论 |
参考文献 |
致谢 |
(10)基于深度学习的调频广播语种识别模型及应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.1.1 语种识别简介 |
1.1.2 语种识别的研究意义 |
1.2 语种识别研究现状 |
1.3 数据集及评测标准 |
1.3.1 数据集介绍 |
1.3.2 衡量指标 |
1.4 本文工作及内容安排 |
第二章 语种识别的前期语音处理 |
2.1 调频广播的信号检测 |
2.2 底层声学特征提取简介 |
2.2.1 线性预测分析 |
2.2.2 感知线性预测 |
2.2.3 梅尔频率倒谱系数 |
2.2.4 移位差分倒谱参数 |
2.3 广播信号检测实验和结果 |
2.3.1 实验配置 |
2.3.2 实验分析和结论 |
2.4 本章小结 |
第三章 基于声学特征的语种识别 |
3.1 基于I-Vector的语种识别 |
3.1.1 通用背景的高斯混合模型 |
3.1.2 I-Vector的提取 |
3.1.3 I-Vector的分类器 |
3.1.4 实验和结果 |
3.2 基于深度神经网络的语种识别 |
3.2.1 基于TDNN的语种识别 |
3.2.2 基于LSTM的语种识别 |
3.2.3 实验和结果 |
3.3 实验结果分析 |
3.4 本章小结 |
第四章 基于深度学习的短时变长语音的语种识别 |
4.1 基于GRU的语种识别 |
4.1.1 网络结构 |
4.1.2 网络结构参数和声学特征的选取 |
4.1.3 实验和结果 |
4.2 注意力机制下的DCNN的语种识别 |
4.2.1 卷积神经网络在语音识别中的运用 |
4.2.2 用于CNN的声学特征 |
4.2.3 网络结构 |
4.2.4 实验和结果 |
4.3 实验结果分析 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 本文工作总结 |
5.2 展望 |
参考文献 |
攻读硕士学位期间的科研和学术成果 |
致谢 |
四、汉语连续语音识别中语音处理和语言处理统合方法的研究(论文参考文献)
- [1]智能语音处理技术在空间环境预报业务中的研究与应用[D]. 闫晓辉. 中国科学院大学(中国科学院国家空间科学中心), 2021(01)
- [2]基于语谱特征的藏语语音识别的研究[D]. 王伟喆. 西北师范大学, 2021(12)
- [3]基于深度学习的安多藏语语音识别技术研究[D]. 算太本. 青海师范大学, 2021(09)
- [4]面向短时语音的维吾尔语-汉语语种识别方法研究[D]. 郭晓晨. 新疆大学, 2020(07)
- [5]基于区分性特征的汉语方言识别研究[D]. 罗健. 江西师范大学, 2020(10)
- [6]面向俄语军事语音的语种识别研究[D]. 吴敏. 战略支援部队信息工程大学, 2019(02)
- [7]噪声环境下连续语音识别技术研究[D]. 王宇琛. 南京理工大学, 2019(01)
- [8]基于BPE和Transformer的汉语语音识别技术研究[D]. 栾效阳. 哈尔滨工业大学, 2019(02)
- [9]基于多示例学习的汉语口语语音中不流利事件检测研究[D]. 吴晓迪. 哈尔滨工业大学, 2019(02)
- [10]基于深度学习的调频广播语种识别模型及应用[D]. 朱冬. 云南大学, 2019(03)