陈荔龙[1]2002年在《连续语音识别搜索算法的研究与应用》文中进行了进一步梳理二十世纪九十年代以来,连续语音识别技术取得了突破性的进展,推动了多种应用的发展。如今,我们正在步入移动互联和电子商务时代。嵌入式系统和移动通信领域的新应用迫切需要更高效、更快速和价格更加低廉的语音识别系统,因此,语音识别系统的实时性成为当前的研究热点,而语音识别系统实时性能取决于搜索算法的效率。本文主要研究了连续语音识别搜索算法的基本原理,对搜索算法的综合应用进行了实践,并且对现有算法进行了改进优化。 连续语音识别实质上是在语音学、语言学等多层知识定义的状态空间内搜索最符合语音输入的词序列。为了有效地组织各种知识源,约束搜索空间,基于动态规划思想的Viterbi beam搜索算法成为目前连续语音识别主要采用的方法。本文深入分析讨论了Viterbi beam搜索算法的原理、特点和实现技术,详细讨论了状态层、词层的搜索空间裁剪策略和最大模型数裁剪策略。为了验证Viterbi beam搜索算法的有效性,本文设计了可行的Viterbi beam搜索策略,构建了小型英文连续语音识别系统ATW(Ask The Way)。实验表明,ATW系统在低配置计算机上运行,基本实现了实时连续语音识别,识别率在97%以上。 本文进一步通过实验分析了Viterbi beam搜索算法的缺陷。Viterbi beam搜索算法使用固定的裁剪门限,没有考虑搜索过程中不同阶段的不同特性和模型匹配不同语音输入的差异性,只能从最保守的角度去设置裁剪门限,浪费了很多计算资源。另外,在Viterbi beam搜索过程中,计算高斯混合概率密度时很费时。本文从两方面对Viterbi beam搜索算法进行了改进。一方面,使用自适应的裁剪门限代替固定不变的裁剪门限,分析了现有自适应Viterbi beam搜索算法的局限性,提出了基于活动模型数变化的自适应Viterbi beam搜索算法。该算法根据搜索初期阶段模型最少驻留帧数和活动模型数变化的关系自适应的增大裁剪门限。与标准Viterbi beam搜索算法相比,基于活动模型数变化的自适应Viterbi beam搜索算法的搜索速度提高了35.56%。另一方面,使用高斯混合概率密度的最近邻快速估算方法,使标准Viterbi beam搜索算法的搜索速度提高了6.67%。本文对最近邻快速估算方法进行改进,在搜索过程中根据已处理过的数据统计出各个高斯混合分量产生最高对数概率的概率,并依此预测随后的计算中最有可能产生最高对数概率的高斯混合分量,优先计算更有可能产生最高对数概率的高斯混合分量,使标准Viterbi beam搜索算法的搜索速度提高了15.56%。 最后总结了本文的研究成果与创新,并对今后的研究方向提出了自己的建议。
崔毓菁[2]2008年在《语音识别系统速度优化算法研究》文中研究指明从语音识别技术诞生以来,识别率就是评价语音识别系统的一个重要指标,研究人员一直致力于减少语音识别系统的错误率。近年来,随着语音识别技术的实用化,识别系统的速度也成为了和识别率一样重要的评价系统的重要指标,甚至为了满足系统的实用化,往往会以牺牲一定的识别率为代价。我们都知道,语音识别系统的精度和速度是一对互相矛盾的参数,那么如何能在尽量不影响识别率的前提下提高速度指标是本文研究的一个重点。在这样的一个目标下,本文搭建了两个平台,分别是PDA上的非特定人孤立词识别系统以及桌面上非特定人特定任务的连续语音识别系统。其中,PDA上的孤立词识别系统其词表是动态可变,可以由使用者进行编辑的。而桌面连续语音识别系统将来可以移植到嵌入式设备中,例如PDA或DSP。随后,在这两个系统上进行了一些研究及实验测试。本文搭建的孤立词系统采用了连续HMM模以,系统根据词表自动拼接声韵母模型为整词模型,并且构建一个线性搜索网络,识别器在线性搜索网络中进行逐条匹配的深度优先算法得到识别结果。另一方面,连续语音识别系统采用了半连续HMM模型作为声学模型,语言模型采用有限状态语法的确定有限状态自动机(DFA)来进行语法限制。系统初始化时,将声学模型和语言模型耦合并构建成为一棵前缀树搜索网络,识别器采用宽度优先的帧同步维特比译码方法。其次,本文首先对两个系统进行了一个基础的优化措施。针对PDA系统识别速度慢的缺点对系统进行了浮定点转换的方法,大大提高了系统的速度性能。针对连续语音识别系统即将移植到DSP上这一目的,对系统进行了离线初始化的优化手段,将系统的初始化构建搜索空间部分与识别器分离出来,使得将来程序移植到嵌入式设备后直接读取搜索空间数据,而省略了网络构建这样一个耗费资源的模块。随后,本文针对识别器搜索部分进行了优化算法的研究。分别探讨了搜索网络构建、状态层剪枝以及两遍搜索的问题。文章首先比较了线性搜索网络和树形搜索网络,然后在实验平台上进行了剪枝策略的实验,最后在连续语音识别系统中加入了深度优先搜索算法异步堆栈解码算法作为第二遍搜索,大大提高了系统的准确性。最后,本文针对识别器状态输出概率计算部分进行了优化算法的研究。首先介绍了高斯分量层次的叁种剪枝策略,分别是最近邻估计法、BBI算法以及高斯选择算法。其次,针对维数层次提出了矢量阈值法、标量阈值法以及启发式阈值法叁种剪枝策略,并在实验平台上进行了测试。经过一系列的优化措施,使得PDA上系统在速度性能上提高了78.9个百分点,而识别率仅下降了两个百分点;桌面上系统识别速度提高了55.5个百分点,而识别率仅有小幅度降低。
刘盈[3]2005年在《大词表连续语音识别系统的研究与实现》文中认为大词表连续语音识别是语音识别研究的重点与难点之一,它涉及了声学模型、语言模型、搜索算法等多方面的知识与技术,是语音识别研究中的集大成者,大词表连续语音识别中使用的算法和技术对其他语音识别应用也有着主要的启发和借鉴作用。本文将讨论我们在大词表连续语音识别研究方面遇到的问题和取得的成果,并给出汉语大词表连续语音识别的搜索策略。论文深入分析了N-gram、潜在语义分析等常见语言模型的构建方法,实现了多种适用于语音识别领域的模型平滑算法。论文深入研究了连续语音识别的各种搜索策略和核心算法,设计了树状令牌搜索算法,并针对一遍语音识别搜索和多遍搜索两种不同应用场景,分别实现了两种不同的令牌搜索形式:通过不同的树结构组织搜索路径,通过树状、网状两种不同的共享结构来组织解码历史记录,有效地组织了搜索和剪枝过程,避免了令牌历史记录对存储空间的浪费。论文深入研究了大词表连续语音识别中搜索空间的控制策略,综合应用多种剪枝方法、前向预测技术控制搜索空间规模,并针对树状令牌算法的特殊需要,对这些剪枝算法进行了一定的改进,提高了语音识别系统的实用性。论文深入研究了大词表连续语音识别中语言模型的组织与利用方式,采用词典树、集成语言模型等方式合理的将语言模型信息引入到语音识别过程中,充分发挥了语言模型对识别的指导作用。为了高效地将Trigram、潜在语义模型等相对比较复杂的语言模型引入到语音识别过程中,论文汲取多遍搜索的一些思想,对一遍搜索策略进行一定改进,提出了部分路径调整算法,合理的将上述模型结合到一遍搜索的过程中,解决了识别精度与搜索效率的矛盾。在以上研究的基础上,我们构建了全新的Gallina实验平台的语音识别模块,综合利用声学模型、语言模型知识,高效的实现了树状令牌搜索,使Gallina具有了完善的语言层的解码能力,成为了一个结构相对比较完整的语音识别系统。Gallina在大词表连续语音识别实验中取得了令人满意的识别结果。
明悦[4]2008年在《语音识别与评测在汉语学习中的应用》文中认为近些年来,随着中国经济的快速发展和国际地位的不断提高,中国与世界的交往和联系日趋广泛和深入。汉语作为世界各国了解中国的重要工具和中华文化的主要载体,不少国家出现了学习汉语的热潮。而计算机辅助语言教学(Computer-Assisted Language Learning,CALL)在现代教育技术领域获得了重要的应用。通过对传统语言教学和计算机辅助语言教学的研究现状的分析,我们针对目前语言学习中比较普遍存在的发音问题,设计开发出基于语音识别的计算机辅助语言教学系统。语音识别技术能够识别学习者的汉语发音,同时计算出该汉语发音的准确度,从而帮助学习者掌握汉语的准确发音;声调识别技术能够识别学习者发音的声调,这对于那些母语是非声调语言的学习者来说是非常有帮助的。本论文主要内容如下:1.建立了一个由7个男生、7个女生组成的,包含412个汉语单字、1319个带调音节和668个汉语常用孤立词的汉语语料库;充分考虑了语料库建立过程中的可靠性、易学性和可操作性;2.基于已有的基频提取方法和动态时间归整、人工神经网络等技术,本文设计并提出一套完整声调识别模块,由四级音节切分模式,结合自相关法与平均幅度差法提取基频,进行声调模式分析,使用动态时间规整技术对不同的汉语词语,或不同人说相同的汉语词语时,其输入汉语语音词组信号帧数不同的情况进行归整,将改进的神经网络模型用于声调分类的完整声调识别方法;3.在语音评测模块中,运用基于置信度和机器评分的两级评分机制,首先运用统计假设检验的相关理论,结合后验概率、尺度似然、每帧熵、词格密度四个不同置信度指标的分析,分别提出了基于音子层和句子层的不同发音置信度评价标准进行发音确认;通过Viterbi最优状态序列搜索算法进行时间对齐,提出将标准语音和待测语音运用HMM对数似然值、归一化声学参数、音量强度、切分时长、基频五种评测指标的加权和通过模板匹配的方法进行机器评分的语音评测方法;4.提出并设计了一个融语音识别、声调识别和语音评测于一体的针对外国人学习汉语的交互汉语学习系统;针对不同时间、不同地点的学习者,我们采用为本地与远程学习者分别考虑的方法,实现了高效、便捷的交互汉语学习。
王智国[5]2014年在《嵌入式人机语音交互系统关键技术研究》文中研究说明众所周知,语音是人类最自然便捷的交流方式,也是人机交互中最直接的交互模式之一,被普遍认为是下一代人机交互革命的主角。伴随着以智能手机、平板电脑等为代表的嵌入式移动设备的普及,以及语音核心技术和应用环境的逐步成熟,语音交互在全球范围内正在被越来越多的用户接受和使用。然而,由于嵌入式移动设备的功耗和计算资源的限制,以及使用环境的复杂性等因素,使得嵌入式语音人机交互系统的实用化仍然存在很多的问题和挑战。在这一背景下,本文围绕嵌入式人机语音交互系统的关键共性技术问题展开较系统和深入的研究,具体在以下叁个方面作出了一定的创新性工作。首先,针对语音交互系统识别前端的噪声鲁棒性问题,提出了一种综合考虑加性噪声和信道畸变的模型补偿算法,使用句子中的非语音段估计加性噪声,然后利用EM算法估计信道函数,进而在倒谱域上对失配的声学模型进行联合补偿。算法在噪声环境和信道失配场景下的识别性能均取得显着提升,并且可以动态跟踪环境的变化,性能表现优于一些传统的语音识别噪声鲁棒性算法。然后,针对用户在计算资源受限的嵌入式设备上进行中等规模连续语音识别的需求,在语音识别解码模块上提出了一种基于语言模型校正机制的识别解码算法,以基于单树词典的搜索算法替代会导致搜索空间随词典规模指数级增长的传统树状词典拷贝算法,并通过在树状词典的各节点处进行语言模型校正处理的方法来恢复单树词典所产生的搜索错误,在不影响识别性能的前提下使得解码算法复杂度降低了一个数量级。接着,在识别后端置信度模块上提出了一种基于音素聚类子空间的置信度判决算法,通过基于KL度量的音素聚类获取更加紧致的音素子空间,以对置信度得分的规整项进行更加准确的估计,在基本不影响置信度性能的前提下,使得运算复杂度获得了显着下降。最后,针对用户对千万量级以上文本列表集进行语音查询的典型需求,提出了一种语音模糊检索的系统解决方案,通过二级倒排索引、分块动态规划,以及识别重排序等算法组合,使得用户只需要输入检索文本列表中的片段、缩略或者其跨序组合即可将与之关联的备选结果查询出来,系统在支持用户以自由语音方式进行输入的同时,具备了相当高的检索性能,明显改善了人机语音的交互体验。
李敏[6]2016年在《基于语音关键词检测的人机交互研究》文中研究表明人机交互(Human-Computer Interaction, HCI)是研究人、计算机及它们之间相互影响的技术,包括从键盘、鼠标到语音识别、手势输入、感觉反馈等一系列交互方式。随着人机交互技术的不断发展,人们发现语音是人与计算机之间进行交互的最方便快捷方式。而语音关键词检测是语音识别的一种特殊形式,其主要作用是从连续的语音流中检测出在实际应用中所需要的少量特定词汇且具有资源消费少、识别率高和实用强的特点。因此关键词检测技术有着广泛的应用。目前语音关键词检测系统主要有叁种:基于垃圾模型的关键词检测系统、基于音素/音节的关键词检测系统和基于连续语音识别的关键词检测系统。本论文中主要研究基于连续语音识别的关键词检测系统的相关技术。论文主要内容如下:(1)在连续语音识别理论部分,主要介绍语音信号的前端处理、声学模型、语言学模型和搜索解码。语音信号的前端处理部分主要包括端点检测、预加重、分帧和声学特征参数提取。本论文中提取的特征参数是梅尔倒谱系数(Mel-Frequence Cepstral Coefficients,MFCC),为了提高其鲁棒性和区分性,将提取的MFCC参数进行线性区分性(Linear Discriminant Analysis,LDA)变换。声学模型部分主要介绍了隐马尔科夫模型(Hidden Markov Models,HMM)、混合高斯模型(Gaussian Mixture Model,GMM)和子空间混合高斯模型(Subspace Gaussian Mixture Model,SGMM),并将SGMM-UBM (Subspace Gaussian Mixture Model-Universal Background Model)模型替换传统的]HMM-GMM模型建立声学模型。语言学模型主要介绍基于文法的语言模型和基于统计的语言模型,本论文中使用的是基于统计模型的叁元语言模型。搜索解码部分主要介绍Viterbi算法及解码之后的输出结果。(2)在语音关键词检测部分,主要介绍Lattice网格结构、关键词搜索算法、基于Lattice的后验概率置信度计算及改进、关键词的输出规则和系统性能评价标准。在计算置信度时,引入了最小编辑距离(Minimum Edit Distance,MED)字符串相似度函数,其主要作用是用来对检测到的错误进行惩罚。关键词搜索算法主要介绍了动态规划算法和令牌传递算法。(3)搭建了一个基于语音关键词检测的人机交互系统,主要利用的工具是Kaldi,数据库是基于清华大学的THCHS-30语音库。通过仿真实验分析了不同算法对系统性能的影响。
孙望[7]2008年在《语音识别技术的研究及其在发音错误识别系统中的应用》文中研究说明二十世纪五十年代以来,语音识别的技术发展迅速。作为一门交叉学科,语音识别己经形成了完整的理论体系,基于PC平台的语音识别系统的研究也在技术上获得了一些成功。尽管目前各种各样的语音识别产品相继涌现,但在许多特定领域,由于其环境的特殊性,往往需要专门开发,以适应实际需要。因此,针对英语学习过程中,学习者往往缺乏标准且有效的口语训练的问题,设计并实现了一套具有示范、评分、报错功能的发音错误识别系统。首先,本文根据语音识别系统的基本构成模型,介绍了预处理、特征参数提取到模型的训练与匹配所涉及的数字信号处理、模式识别等方面的基本技术。其次,介绍了连续语音识别搜索算法的基本原理,对常用的基于动态规划思想的Beam剪枝搜索算法进行了深入研究,分析了该算法的不足,从两方面对Beam剪枝搜索算法进行了改进:使用自适应的裁剪门限代替固定的裁剪门限,提出了基于活动模型数变化的状态层自适应剪枝搜索算法,根据搜索初期阶段模型最少驻留帧数和活动模型数变化的关系自适应的改变裁剪门限;另一方面,提出了基于当前搜索路径的最高概率得分和平均概率得分变化的词层自适应剪枝搜索算法。最后将状态层和词层相结合的自适应剪枝算法与语音识别引擎相结合,利用SAPI接口调用优化后的语音识别引擎来完成了发音错误系统的设计与开发。实现了语音合成、语音识别和评分报错功能,并给出具体的工作流程和实现的关键代码。测试结果表明本系统较好地满足了连续语音识别的要求,学习者经过训练之后,其识别率可以达到81.2%,这也验证了状态层和词层相结合的自适应剪枝算法是可行的。
孙成立[8]2008年在《语音关键词识别技术的研究》文中研究说明关键词识别是语音识别的一个重要研究领域,关键词识别不仅比连续语音识别灵活性好,而且具有很高的应用价值。本文对几种关键词检测技术进行了研究,这些技术适用于不同的应用场合,其中基于垃圾模型的关键词检测技术主要应用在实时的命令词检测和对话系统,基于音节格和混淆网络的关键词检测技术可应用于大词表音频文档内容检索。本文的研究重点为关键词识别系统的检出策略和确认方法,主要的工作及创新包括以下几个方面:1.基于垃圾模型的关键词系统中的语音确认算法在基于垃圾模型的关键词系统中,常利用似然比方法进行语音确认。提出了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进行估计,引入了最小确认错误准则训练融合的权重系数。实验表明该方法优于传统的似然比方法。通过分析关键词检测系统的置信特征,选择动态垃圾得分、似然比和驻留概率等特征计算关键词候选的置信度,实验表明这些特征的组合能够明显提高系统的拒识性能。2.音节格关键词识别系统中关键词检出算法和验证方法由于缺乏高层语言指导,基于音节格的关键词检测系统的检测率通常比较低。提出了一种改进的基于最小编辑距离(MED)的关键词搜索算法,在依赖于系统的替代错误发生时考虑了上下文高阶音节混淆。在关键词验证阶段,给出了一个新的置信度函数来压制由MED搜索带来的虚警。实验结果表明,提出的搜索策略和验证方法明显优于传统的字符串匹配方法,具有较高的检测率和置信能力。3.基于音节混淆网络的语音文档内容检索技术设计了一个基于音节混淆网络的语音文档内容检索系统,对检索系统的索引机制进行了研究,实验结果表明该系统整体性能明显优于基于音节网格的关键词系统。提出了改进的基于两阶段解码的查询自动扩展策略,首先通过Viterbi解码获得混淆音节网格,然后利用A~*解码算法从音节格上产生易混淆的扩展项。通过扩展项的置信度控制查询扩展的数目,实验结果显示该方法能够有效提高查询的检出率。4.语音识别结果的错误纠正方法的研究介绍了一种基于分而治之思想的语音错误纠正方案并用于音节识别任务。利用混淆网络把连续语音识别问题转换为顺序的、独立的分类子任务,每个分类任务可以看做是孤立词识别问题,通过训练专门的支持向量机来区分混淆网络的识别候选。提出了一种基于码本映射的特征变换方法,把可变长度的语音段转换为适合支持向量机处理的固定维数特征。联合基于混淆网络的和支持向量机的后验概率估计进行错误纠正,实验结果表明该方法能够有效提高系统的准确率。
王稚慧[9]2005年在《基于HMM建模的语音识别算法的研究》文中进行了进一步梳理随着现代计算机技术的普及和发展,计算机的使用越来越深入到人们的日常生活中。人类与计算机进行交流时,最直接和方便的方式就是语言交流,所以语音识别和语音合成技术已成了现代科技发展的一个标志,语音识别和语音合成也因此成为现代计算机技术研究和发展的重要领域之一。 语音识别技术与多种学科的研究领域都有联系,这些领域的科研成果也成为推进语音识别技术发展的重要因素。语音识别技术已经取得一些了成就。但是,大多数语音识别系统仍局限于实验室中应用,远没有达到实用化要求。制约实用化的根本原因可以归为两类,识别精度和系统复杂度。本文就是研究汉语语音识别实用化面临的理论和技术问题,并对其中某些部分进行了实验证明。 本文共分为4章。第1章为绪论,首先阐明了语音识别研究的意义,接着介绍了语音识别简史、研究现状,最后介绍本文的主要内容。第2章为语音识别系统,主要介绍了语音识别系统中的主要研究内容,以及语音信号处理的重点和难点。第3章为基于HMM建模的语音识别系统的分析与实践。主要研究在实际应用中,使用隐马尔可夫模型建模时,对于传统算法的改进。第4章为语音识别匹配算法。研究在建立好模式后,匹配待识别语音信号的方法。 主要的研究内容归纳为: 1.研究语音识别系统的组成和主要技术。 2.分析隐马尔可夫模型应用于语音识别系统中时,都有哪些主要技术难点和重点。 3.提出使用频能比进行语音信号端点检测的方法。 4.对隐马尔可夫模型训练过程中参数B的优化方法进行改进。 5.对于实际应用中,常常出现的训练数据不足以及说话者对模型的影响进行分析,提出了克服这些困难的办法。 6.在识别过程中,将识别算法进行改进,剪掉识别过程中的置信度低的模型,争取更高的识别率和更快的匹配时间。
欧建林[10]2009年在《大词汇量连续语音识别的性能优化研究》文中研究指明大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)是语音识别研究的重点和难点之一,其涉及了声学模型、语言模型、搜索算法等多方面的知识和技术;本文在介绍语音识别的基本原理基础上,就如何提高LVCSR的识别速度以及识别准确率两方面进行了研究和探讨。在基于HMM的LVCSR系统中其声学建模常用连续密度HMM来实现,每个HMM状态都表示为一个高斯混合模型(GMM),而每个GMM模型又包含较多的高斯分量,这使得状态似然率的计算量非常大,是语音识别速度慢的主要原因之一,因此有必要设计有效的似然率快速算法在不降低或不明显降低识别准确率的前提下加快似然率的计算。本文首先分析了HMM中的似然率计算,并分析了采用并行方式实现似然率计算的可行性,在此基础上提出了一种基于SIMD的似然率并行计算算法,并利用HTK3.4工具包作为实验基线系统、TIMIT和WSJO语料库作为实验语料库搭建实验平台,将此算法与部分距离消去算法(PDE)、最佳混合分量预测算法(BMP)、特征矢量重排算法(FCR)以及高斯选择算法(GS)等其他经典快速似然率算法进行比较;实验结果表明,该算法在不降低识别准确率的前提下显着降低似然率计算开销,并且性能优于其他几种似然率快速算法。为了将语义信息与N-gram统计语言模型结合并运用到语音识别过程中以提高LVCSR系统的识别准确率,本文研究了潜在语义分析(LSA)理论及其在LVCSR系统中应用的相关技术,在此基础上利用WSJO文本语料库构建LSA模型,并将其与N-gram模型进行插值组合,构建了包含语义信息的混合模型;同时为了优化混合模型的性能,利用基于密度函数初始化类中心的K均值聚类技术对LSA模型的向量空间进行聚类,并提出平滑计算方法对概率进行平滑。WSJO语料库上的模型困惑度实验和连续语音识别实验结果表明:混合模型性能优于N-gram,LSA能在一定程度上辅助N-gram提高LVCSR的识别率。
参考文献:
[1]. 连续语音识别搜索算法的研究与应用[D]. 陈荔龙. 西北工业大学. 2002
[2]. 语音识别系统速度优化算法研究[D]. 崔毓菁. 北京邮电大学. 2008
[3]. 大词表连续语音识别系统的研究与实现[D]. 刘盈. 清华大学. 2005
[4]. 语音识别与评测在汉语学习中的应用[D]. 明悦. 北京交通大学. 2008
[5]. 嵌入式人机语音交互系统关键技术研究[D]. 王智国. 中国科学技术大学. 2014
[6]. 基于语音关键词检测的人机交互研究[D]. 李敏. 北京交通大学. 2016
[7]. 语音识别技术的研究及其在发音错误识别系统中的应用[D]. 孙望. 南京航空航天大学. 2008
[8]. 语音关键词识别技术的研究[D]. 孙成立. 北京邮电大学. 2008
[9]. 基于HMM建模的语音识别算法的研究[D]. 王稚慧. 西安建筑科技大学. 2005
[10]. 大词汇量连续语音识别的性能优化研究[D]. 欧建林. 厦门大学. 2009
标签:电信技术论文; 语音识别论文; 自然语言处理论文; 置信度论文; 似然函数论文; 网络模型论文; kaldi语音识别论文; 关键词分类论文; 高斯论文; 模式识别论文; 算法论文; hmm论文;