(湖南铁路科技职业技术学院,湖南 株洲 412000)
基金项目:湖南省教育厅科学研究项目(13C598)
摘要:本文提出了一种基于HTK语音识别的语音控制方法。详细阐述了基于HTK的语音识别的基本原理,对语音模型进行了优化,改善了识别效果。在语音识别测试中语句级识别正确率为93.33%,字词级识别正确率达到了100%,研究结果成功应用于机器人的运动控制。
关键词:HTK;语音识别;语音控制
一、HTK的基本原理
HTK(HMM Tool Kit,隐马尔科夫模型工具箱)是英国剑桥大学开发的一个专门用于建立和处理的实验工具包,它是使用HMM(隐马尔科夫模型)作为语音识别核心并且可同时支持孤立词语音识别和连续语音识别。工具包主要是由库程序和工具两部分组成。
HTK进行语音识别一般可分为数据准备、模型训练、识别测试和结果分析四个阶段。
1)数据准备。数据准备阶段是整个识别过程的基础。主要完成语料库的建立、语法定义、字典定义、数据标注和特征提取;
2)模型训练。模型训练是整个识别过程中的关键部分。目的是建立基于HMM的拓扑结构。模型初始化、模型优化和建立三音素模型是模型训练中的基本步骤。其中模型优化主要包括修补哑音素模型和重新校准数据。
3)识别测试。HTK中采用HVite(HTK中的功能实现模块函数,系统通过对它的调用来实现相应的HTK功能)工具函数来进行识别输出相应的识别结果。
4)结果分析。HTK中采用HResult工具函数来进行结果分析,输出相应的字词级别和语句级别的识别率。
二、系统实现
(一)数据准备
系统的主要功能是实现机器人移动平台的运动控制,包括前进、后退、左转、右转、加速、减速、停止、启动等动作控制。
系统中语法采用包含变量的正则表达式形式来定义如下所示:
参考文献
[1]饶耀全,吴小培,吕钊.基于HTK的汉语语音售票系统的设计与实现[J].工业控制计算机,2010,23(10):58-61.
[2]蒋瑞.基于ANN/HMM 混合模型汉语大词表连续语音
识别系统建立[D].哈尔滨工业大学硕士学位论文,2012
作者简介:廖友军(1974-),男,湖南衡山人,湖南铁路科技职业技术学院副教授。研究方向:机电技术。
论文作者:廖友军 余金伟
论文发表刊物:《知识-力量》2018年10月中
论文发表时间:2018/10/15
标签:模型论文; 语音识别论文; 语音论文; 湖南论文; 数据论文; 音素论文; 汉语论文; 《知识-力量》2018年10月中论文;