摘要:语音识别最为人机交互的重要技术,成为人工智能领域研究的重点,具有重要的研究意义跟广泛的应用前景。本文简要阐述了语音识别的发展、原理、过程。
关键词:人工交互;人工智能;语音识别
引言:
随着信息技术的发展,人机交互成为新兴课题。智能化研究的语音识别技术成为人机交互必不可少的话题。人工智能领域的深度学习使语音识别技术更加精准可靠。语音识别技术不仅可以应用到生活领域而且还可以用到军事领域,从而提高人们对信息的处理能力和工作效率
1语音识别技术的发展
20世纪50年代,这段时期以实现10个英文数字的语音识别为代表,这是计算机语音识别的开端。
20世纪60年代,取得了阶段性建站,解决了语音信号的提取问题。
20世纪70年代,语音识别领域取得突破,实现了基于线性预测倒谱和和DTW技术的语音识别系统。
20世纪80年代,语音识别实验室阶段取得巨大突破,从孤立词汇到大量词汇、非特定人、连续语音等的改变。同时,语音识别算法开始从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,连理最优的语音识别系统。
20世纪90年代后,人工智能技术开始应用于语音识别技术,人工智能具有自适应性、鲁棒性、学习特性等,在参数优化、系统自适应方面有了很大的进展。语音识别技术进一步发展,开始实现语音识别技术的产品化。
2语音识别概念及原理
2.1语音识别概念
语音识别简单来说就是将声音信号转化为文字或者指令的过程。输入语音输出识别结果。语音识别设计技术包括:人工智能、数字信号处理、概率论和信息论、声学、语言学、发声机理和听觉机理、认知科学等学科领域技术。
语音识别设计性能指标:
①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。
②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。
③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。
④正确识别率:平均正确识别的百分数,它与前面三个指标有关。
2.2语音识别原理
目前,主流的语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成
①信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。
②统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。
③语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。
④解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。
期刊文章分类查询,尽在期刊图书馆
3深度学习应用于语音识别
3.1语音识别流程
3.1.1语音信号采集
语音信号采集是语音信号处理的前提。语音通常通过话筒输入计算机。话筒将声波转换为电压信号,然后通过A/D装置(如声卡)进行采样,从而将连续的电压信号转换为计算机能够处理的数字信号。
3.1.2语音信号预处理
语音信号号在采集后首先要进行滤波、A/D变换,预加重(Preemphasis)和端点检测等预处理,然后才能进入识别、合成、增强等实际应用。
3.1.3语音信号的特征参数提取
在语音识别中,常用线性预测编码技术抽取语音特征。
线性预测编码的基本思想是:语音信号采样点之间存在相关性,可用过去的若干采样点的线性组合预测当前和将来的采样点值。线性預测系数埽以通过使预测信号和实际信号之间的均方误差最小来唯一确定。
语音线性预测系数作为语音信号的一种特征参数,已经广泛应用于语音处理各个领域。
3.1.4向置量化
向量量化(VectorQuantization,VQ)技术是一种数据压缩和编码技术。经过向量量化的特征向量也可以作为后面隐马尔可夫模型中的输入观察符号。
向量量化的基本原理是将若干个标量数据组成一个向量(或者是从一帧语音数据中提取的特征向量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。
3.1.5语音识别
当提取声音特征集合以后,就可以识别这些特征所代表的单词。识别系统的输入是从语音信号中提取出的特征参数,如LPC预测编码参数,当然,单词对应于字母序列。语音识别所采用的方法一般有模板匹配法、随机模型法和概率语法分析法三种。这三种方法都是建立在最大似然决策贝叶斯(Bayes)判决的基础上的。
(1)模板(template)匹配法
在训练阶段,用户将词汇表中的每一个词依次说一遍,并且将其特征向量作为模板存入模板库。在识别阶段,将输入语音的特征向量序列,依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
(2)随机模型法
随机模型法是目前语音识别研究的主流。其突出的代表是隐马尔可夫模型。隐马尔可夫模型则用概率统计的方法来描述这样一种时变的过程。
(3)概率语法分析法
这种方法是用于大长度范围的连续语音识别。将 “区别性特征”与来自构词、句法、语义等语用约束相互结合,就可以构成一个“自底向上”或“自顶向下”的交互作用的知识系统,不同层次的知识可以用若干规则来描述。
4结束语
随着信息技术的发展和人们生活水平的提高,语音识别技术已经成为趋势。伴随着计算机软硬件的发展,语音识别技术将会有着质的飞跃。
参考文献
[1]程建军.关于深度学习的语音识别应用研究[J].产学理论与实践,2019,27(12):189-190
[2]毕馨文.基于深度学习的语音识别[J].电子技术与软件工程,2017,39(8):245-245
[3]禹琳琳.语音识别技术及综述[J].现代电子技术,2013,36(13):43-46.
论文作者:范靖宇
论文发表刊物:《知识-力量》2019年10月39期
论文发表时间:2019/8/30
标签:语音识别论文; 语音论文; 技术论文; 模型论文; 信号论文; 特征论文; 向量论文; 《知识-力量》2019年10月39期论文;