基于语音信号识别技术的智能发音练习系统论文

基于语音信号识别技术的智能发音练习系统

李蓉

(延安大学西安创新学院,陕西西安710100)

摘要: 针对口语教学、语音矫正中受众群体多元、标准化衡量指标不足的特点,文中结合流行的混合高斯和隐马尔科夫链,设计完成了基于语音信号识别技术的智能发音练习系统。该智能发声练习系统采用混合高斯对数字化离散后的语音信号提取离散时间特征,然后采用隐马尔科夫链对离散的语音信号特征进行建模,最后通过Viterbi算法遍历隐马尔科夫状态搜索语音对应的文本。系统在页面展示上运用python、Django、JavaScript、HTML、CSS等多种主流技术进行开发,服务器采用Nginx+uwsgi实现了基于语音内容的在线学习、测试、练习、答疑与发音矫正等功能。经测试运行,同时松散基于MVC设计模式的Django具有扩展方便和对运行环境要求较低的优点,基本满足口语练习的需求。

关键词: 混合高斯;隐马尔科夫链;Viterbi;智能发音练习系统;MVC

众所周知,听说读写是衡量学生学习能力的重要指标。在对这4种基本技能进行定量衡量的信息化手段上,除了“写”之外,其余均需要语音信号识别技术。与传统文本数据相比,语音信号一方面具有信息量大、易于传播、信息交换及时等特点;另一方面在信息化处理上,语音信号相比文本数据,具有噪声多变和模型稳定性差等特性。

钱多多在欧阳锋肩上重重地拍了一巴掌,笑道:嗬,嗬嗬,你小子一不留神就交上了桃花运,艳福不浅哪!不就5万块钱吗?值!

语音识别技术[1],就其分类的广泛程度可以进行如下区分:广泛是指语意与音频信息识别;狭义上而言指语义信息的理解识别。目前,其有效的应用场景较为多元,虚拟现实相关产品、家居生活的智能家居以及在众多支持自组织多跳的嵌入式领域均有相当深入的应用。语音识别技术目前的瓶颈是受噪声影响大,模型不稳定,识别速度还有较大的提升空间。对于方言或者相较流行的语种、发音的语言而言,受众较小的语种发音进展慢,带来模型多样性不足。

针对教学过程中随处可见的口语练习原型系统不足的问题,文本结合语音信号识别技术,开发一种实用、稳定的口语练习与矫正系统。该系统在实际应用中,可以及时对学生的输入口语语音信息,给出量化的指标,方便学生及时掌握自身学习的动态,享受学习中提升的乐趣。

1 系统分析与设计

1.1 研究目标

针对管理者(教师),本系统研究和实现以下功能:语料库录入、信息广播、进度查看、问题答疑;针对使用者(学生或者有练习需求的学员),系统研究和实现:地道口语学习、发音矫正、留言与提问、口语比拼。

1.2 语言识别技术

以语音为研究对象的语音识别[2],核心处理方法是模式识别和语音信号处理的方法,让机器理解和自动明确人类自然语言。将语音信息通过计算机自动识别,最终转化为文本信息,这就是语音识别的研究内容与起始点。其涉及广泛,与众多学科存在交叉。可以看到,其研究和涉及的领域正逐步演变为涉及智能信息处理、人机交互、模式识别等领域的核心突破点。因此,应用语音技术的产品及其衍生应用已经是高新技术企业的一种重点突破方向。

语言信号识别系统原型,如图1所示。

大学计算机基础教学工作面临着难得的历史发展机遇与挑战,参照教育部高等学校大学计算机课程教学指导委员会(2013-2017)确立的课程教学改革总体目标[3],结合我校的培养定位,明确以计算思维能力培养为核心、探索多元化的教学方案、完善课程教学成效评测方式,从而建设适应时代要求的新的大学计算机基础教学体系;探索出一套有效的、具有推广价值的混合式教学模式和课程管理规范;根据各专业人才培养定位的差异,分类分层次落实通识教育的培养目标,使各专业的学生能够广泛接受计算思维方法的训练,提高学生利用计算思维解决专业相关问题的能力;明确学生的中心地位和教师的主导地位,充分调动学生自主学习的积极性。

图1 语音信号识别系统原型

在得到模型之后,需要从输入的语音信息中,解码匹配得到用户的文本信息。即根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络,然后利用动态规划算法在已经建立的模型中,进行动态规划,寻找与目标模板“最接近”的路径。该最短路径就是以贝叶斯准则为基础的,具有最大概率的语音信号所对应的文本。本系统中采用Viterbi算法[15-17]解决解码的问题,该算法是一种动态编程算法,用于查找最优的隐藏状态序列——该隐藏状态是事件各个状态的抽象,尤其是在马尔可夫信息源和隐马尔可夫模型的背景下。Viterbi算法遍历所有的隐含状态,计算解码序列对观察序列的最大后验概率。求解过程中,最大化后验概率,之后反向解码获取该序列的输出。

在诗学观上,王钻清的诗歌继承的是中国优良的诗歌美学和艺术传统,即便是在书写宇宙和太空时,呈现出的也是将中国古典诗歌和现代诗歌融为一炉的艺术之美,注重的也是对于人类命运和未来的思考。

为了推动《单片机应用技术》课程教学改革深入开展,也为适应新的教学要求,对14级、15级的教学内容进行了改革,采用了目前高职院校比较推崇的“教学做一体化”教学模式,使用项目导向、任务驱动的教学方法,通过循序渐进、不断拓宽思路的方法讲述《单片机应用技术》所需的基础知识和基本技能。

完成语音识别核心模块的设计后,进行以下模块的开发和设计。

上式中W 表示文字序列,Y 表示语音输入。根据贝叶斯准则,式(1)可以转化为:

其中,分母表示出现这条语音的概率,其相比于求解的文字序列没有参数关系,可以在求解时忽略。语音信号识别本质就是确定上式中各个参数的过程,基本语音信号识别包括特征提取、模式匹配、参考模式库等3个基本单元。其的一般结构,如图2所示。

图2 语音识别核心匹配流程图

诗歌的构成要素是韵律和隐喻。诗歌是一种隐喻性的思维,是“隐喻式语言”[1]119-124。隐喻使诗歌妙趣横生,激发读者的想象力和思维的创新性。作为中国浪漫主义文学源头的《楚辞》,想象丰富,诗味浓郁,隐喻功不可没。《楚辞》语言华美,其中的隐喻随处可见,可以说,《楚辞》是系统化的隐喻综合体,隐喻是《楚辞》的显著标志,是《楚辞》写作的一大诗学机制。

特色小镇是指空间上相对独立发展,具有特色产业、景观旅游和居住生活功能的项目集合体[2]。特色小镇既可以是城市周边的小城镇,又可以是有特色的村庄,还可以是旅游景区、特色产业等衍生发展的服务功能综合体。

1.2.2 语音信号分析方法

语音信号分析方法主要有[3]:时域模型、频域模型、声学模型这3种。

在本系统中HMM求文字所占的音素以及其转移概率,语音帧通过已经训练好的GMM得到该语音帧属于某个音素的概率。HMM是对序列建模常用的模型,具体在语音信号的识别上,其在数学上存在双重随机过程:有限状态数随机过程和时间序列上关联的外部状态可见的随机过程。隐马尔可夫模型可以被认为是混合模型的推广,其中控制要为每个观察选择的混合成分的隐藏变量(或潜在变量)通过马尔可夫过程而不是彼此独立相关。近年来,隐马尔可夫模型已经推广到成对马尔可夫模型和三重马尔可夫模型。推广后的马尔可夫算法允许考虑更复杂的数据结构和非平稳数据的建模。HMM状态转移图,如图 4所示[14]

反馈子系统:在该子系统中,教师可以针对特定主体的学习,给出差异化的学习评价;学生也可以对具体的问题,向教师提问。

声学模型[4-6]:通常可以将声学特征分为两大类,一类为基于人类发声机理的特征;另一类为基于人耳听觉感知的特征。而这两类具有代表性的特征分别是线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)。MFCC[7-9]特征是一种基于人类听觉感知特性的特征,模拟了人耳对不同频率的感知程度,其对中低频语音信号较敏感,对高频信息的区分度较低,因而能够从信号的中低频段取更多语音信息。

2 系统设计

图3展示了本系统核心模块流程图[10-12]

图3 GMM-HMM建模

本模型采用GMM(混合高斯模型)+HMM(隐马尔可夫模型)[5,12-13]声学模型。由音素、音节、词等各个层次构成的声学模型是GMM+HMM的研究基础。具体而言,当语音识别系统规模不大、词汇量较小,直接采用音节进行建模一般即可满足需求。但对于识别系统规模较大,涉及的训练词汇量较大时,一般需要选取较小的识别单元如音素,进行建模。总而言之,在识别模型与识别的单元选取上存在如下的策略:识别规模越大,识别单元选取的越小。

如上述系统流程图所示,获取到的原始语音信号首先需要经过外部设备将初级输入模拟语音信息转换成方便计算机或电子系统处理的电信号。在经过信号转化之后,才能作为系统的输入。在进入系统之后,首先经过必要的预处理降噪或为系统准备,然后依赖于传统语言学、语音学研究的基础知识,对语音信号数学化建模,并在模型的基础上提取特征。进而在此基础上,建立语音识别所需的模板。现阶段,语音信号的识别即利用计算机进行语音信号识别,其实是模式识别的研究对象:将语音信号按照可以表征语音信号特征的数学表达式的方式,提取信号的有效信息,且建立特征库模板和匹配策略。在输入一段新的语音后,按照之前同样的方式抽取特征,然后根据匹配策略,找出一系列最优的与输入语音匹配的模板。显然,系统最终的识别结果会受到特征的选择、语音模型建立与选区、模板准确性等因素的影响。

时域模型:是在时间维度内对信号进行分析,将信号采样到具体的某一个时刻,然后将量化手段处理。在时域中,信号的能量由其平方表征,但平方运算人为增加了高频信号和低频信号的差距。为了降低能量表征在时域分析的影响,时域分析中引入短时平均幅值的变化来表示能量的变化。短时平均过零率(ZCR,Zero Crossing Rate)是指短时间内信号通过零值的次数,具体于连续信号即其波形通过x 轴的次数,离散信号即采样符号变化的次数。短时过零率在一定程度上能够反映频率的高低,浊音的过零率较低,清音的过零率相对较高。因此,可以用来初步分析清、浊音。短时过零率容易受到低频的干扰,通常在处理中还会加入门限值,即将波形穿过零点的次数变更为越过门限值的次数,以此来增强抗干扰能力。在语音信号处理中,常将短时平均能量和短时平均过零率结合起来进行语音段起始点的检测,即端点检测。当背景噪声较小时,用短时平均能量的方法比较准确。

图4 HMM状态转移图

1.2.1 基本原理

3 系统实现

语音识别系统本质上是一种模式识别系统,其数学表达可以总结如下:

语料管理子系统:在该模块中,教师可以对系统内的语料库进行更新和完善。该语料库是学员学习的资源,也是语音识别模块进行语音信息配准的比较资料库。

在线学习子系统:在线学习子系统中,学生可以对教师预先设定的资源进行个性化的学习定制。同时,给具有不同兴趣与侧重训练的学生,对有着不同发音偏好的学员提供侧重不同的学习内容,如针对鼻音音节、翘舌音节的练习。本学习子系统,通过音频设备获取学员的语音输入之后,利用如上的GMM+HMM语音处理核心模块,给出学员语音对应的文字,并将与标准文字不同的部分加以红色标注。学员通过系统标注的部分,可以进行针对性的练习,配合系统内置的标准朗读最终达到矫正不正确的发音习惯的目的。

在线考试子系统:本系统模拟整个考试流程,实现从组卷到阅卷再到最终的成绩汇总流程。考试系统与传统模型的差异是将学员的语音答卷,直接利用语音处理模块,得到学员朗读的文字。然后与标准的文字进行比较,最后根据两部分的相似度,给出定量的分数。

频域模型:在语音信号频域分析中,常用的分析方法有滤波器组和傅里叶变换的方法。但随着技术的进步,傅里叶变换的缺陷也极为明显:傅里叶变换的时间分辨率为零,不能反映信号在时域上的信息;其次,傅里叶变换是基于信号平稳的这一假设,而在实际生活中,诸多声音信号是非平稳的;最后,傅里叶变换在整个频段内的分辨率均是相同的,不能反映信号在某一频段的某种变化。

信息发布子系统:在本系统中,教师可以进行广播信息,给出对全体学员的学习注意事项。此外,也可以针对具体学员给出个性化的建议。

口语比较子系统:在口语比较子系统中,系统会给定特定的语段,然后将众多学员的发音朗读结果进行比较,学员可以给出对其他学员的朗读意见与指导。最终达到相互监督,共同学习的目的。

文中在页面展示与具体开发所需要的选择上,选择成熟的python Django框架。Django是现阶段流行的python Web前端设计框架,其支持松散MVC设计模式。同时简化开发配置流程,后台程序会自动完成环境的部署。需要注意到,随着开源力量的不断完善,Django各个模块联系紧密但又相互不影响。每一部分完成各自的功能与配置开发,只有结合在一起才能构成整个Web框架。同时基于高级编程语言python的框架,意味着程序支持在多种环境中移植,对具体的硬件及操作系统依赖程度低。

经过实际部署、测试,本系统在语音识别的基础上,从语音转文本实现对语音信息输入的标准量化。在口语练习时,将存在差异的地方进行显著性标注,最终达到口语矫正的目的。

随着数字化、信息化城市建设的进程,催生了内外业一体化探测技术,该方法结合了地球物理探测技术和数字信息测绘技术,推动了城市地下管网的快速发展,主要表现在以下三个方面:一是推动了地下管网探测技术的创新发展和探测仪器的改进,提高了探测精度;二是结合数字信息化测绘技术,不仅提高了探测效率,降低了探测投入,而且推动了城市智能化、信息化建设进程;三是3S技术的配套使用越来越深入,促进了城市地理空间信息的建设工作,为建设信息化、智能化、三维空间城市提供了可能。

本系统在设计过程中,充分考虑部署时对软硬件的要求。经测试,系统具有高并发、延时低和响应时间短等特性。系统登录页面,如图5所示。信息发布管理与主页面,如图6所示。

图5 登陆主页面

图6 信息发布管理与主页面

4 结束语

本系统从传统声学模型出发,设计基于GMM+HMM的语音信号识别与检测。该种方法历经多年,性能已基本稳定,达到了瓶颈。在后期优化中,可以考虑引入深度学习的方法,如DNN、CNN提取语音特征,再结合马尔可夫链或长短时神经网络进行模型建模。近年来,以卷积神经网络和长短时神经网络为代表的深度学习的方法,在诸多工程应用方面取得了超过传统甚至人工专家的水准。例如CNN及其改进的衍生网络在ImageNet大规模图像分类任务上,已经取得了接近全对的成绩。其无论是精度还是耗时,均明显优于人工手动识别。在某些人工分类困难的模糊类别上,深度学习的方法均可以快速准确地区分。

观察组有效率为96.15%明显高于对照组的80.39%,差异有统计学意义(χ2=6.20,P<0.05),见表 1。

参考文献:

[1]周晓武.嵌入式实时英语语音识别系统的设计与研究[J].电子设计工程,2017,25(8):187-190.

[2]夏拓.基于HTK的嵌入式语音识别系统设计与优化[D].广州:华南理工大学,2012.

[3]陈一宁.英语口语学习中的语音识别技术[D].上海:上海交通大学,2010.

[4]张炯,陶智勇.基于deep learning的语音识别[J].电子设计工程,2015,23(18):72-73.

[5]朱明,郭春生.隐马尔可夫模型及其最新应用与发展[J].计算机系统应用,2010,19(7):255-259.

[6]谢蒙,易法令,杨松润,等.一种新的基于聚类决策的码本更新算法[J].计算机技术与发展,2013(3):101-104.

[7]Xie Chuan,Cao Xiaoli,He Lingling.Algorithm of abnormal audio recognition based on improved MFCC[J].Procedia Engineering,2012(7):56-60.

[8]王佳乾.基于HMM语音关键词识别技术研究[D].南京:南京理工大学,2013.

[9]孙师尧,妙全兴.基于改进HMM的半结构化文本信息抽取算法研究[J].电子科技,2014,27(10):111-113.

[10]Savitha S,Upadhya A N,Cheeran J H,et al.Thomson multitaper MFCC and PLP voice features for early detection of Parkinson disease[J].Biomedical Signal Processing and Control,2018,46(1):44-58.

[11]丁志均,杨青,张会兵,等.基于非结构化文本检索模型综述[J].计算机应用研究,2017,34(6):1601-1608.

[12]熊笑颜,陈栩,黄灿英,等.基于自适应心理声学模型的智能语音识别系统[J].沈阳工业大学学报,2017(6):675-679.

[13]吴大为.基于HMM模型改进算法的语音识别系统[D].哈尔滨:哈尔滨工业大学,2013.

[14]Deng L.An overview of deep-structured learning for information processing[C].Singapo:Asia-Pacific Signal and Information Processing Association Annual Summit and Conference,2011.

[15]Abdel-Hamid O,Mohamed A R,Jiang H,et al.Convolutional neural networks for speech recognition[C].Paris:ACM Transactions on Audio,Speech and Language Processing,2014.

[16]Sainath T N,Vinyals O,Senior A,et al.Convolutional,long short term memory,fully connected deep neural networks[C].Guangzhou:IEEE International Conference on Acoustics,Speech and Signal Processing,2015.

[17]吴佳龙,李坤,刘中.孤立词语音识别算法研究与设计[J].电子科技,2015,28(2):22-24.

Design and implementation of information foreign language learning system based on BS architecture

LI Rong
(Xi 'an Innovation College ,Yan 'an University ,Xi 'an 710100,China )

Abstract: Aiming at the characteristics of oral teaching,multi-dimensional audience and standardized measurement indicators in speech correction,this paper combines the popular mixed Gaussian and hidden Markov chain to design a smart pronunciation practice system based on speech signal recognition technology.The intelligent vocal practice system uses the mixed Gaussian to extract the discrete time features of the digitized discrete speech signal,then uses the hidden Markov chain to model the discrete speech signal features,and finally traverses the hidden Markov state search speech correspondence through the Viterbi algorithm.Text.The system uses python,Django,JavaScript,HTML,CSS and other mainstream technologies for development on the page display.The server uses Nginx,uwsgi to implement online learning,testing,practice,Q&A and pronunciation correction based on voice content.Tested and run,while loosely based on the MVC design pattern,Django has the advantages of convenient expansion and low requirements on the operating environment,which basically meets the needs of oral practice.

Key words: GMM;HMM;Viterbi;intelligent pronunciation practice system;MVC

中图分类号: TP311

文献标识码: A

文章编号: 1674-6236(2019)15-0056-05

收稿日期: 2018-10-29

稿件编号: 201810143

作者简介: 李蓉(1983—),女,河南郑州人,硕士研究生,讲师。研究方向:英语教学、语料库语言学。

标签:;  ;  ;  ;  ;  ;  

基于语音信号识别技术的智能发音练习系统论文
下载Doc文档

猜你喜欢