基于DTW算法对婴幼儿语音的分析论文

基于DTW算法对婴幼儿语音的分析

王语涵1,闫子薇2,武天琦3,耿国强3,朱家明4

(安徽财经大学1.国际经济贸易学院;2.经济学院;3.金融学院;4.统计与应用数学学院,安徽 蚌埠 233030)

摘要:针对婴幼儿语音分析问题,通过基音频率识别、端点技术检测、DTW算法等原理,运用MATLAB软件,识别出搜集的声音片段的性别,并对声音进行谱曲,进行误差分析。通过查阅相关资料在鉴别男女生声音的模型基础上建立出婴幼儿的性别识别模型,并对模型进行误差检验,使得模型的拟合度大大提高。

关键词:婴幼儿语音;性别分析;DTW算法; MATLAB

在成年人的世界里,人们可以通过言语进行相互交流,语言是人们最重要的沟通工具。但对于只会咿咿呀呀的婴幼儿来说,无法通过言语获知他们的喜怒哀乐,也就无法准确判断他们是否遭受病痛的等困扰。经研究发现,婴幼儿的声音也在传达着某些信息,如果能够翻译出这些信息,将会有益于婴幼儿的健康成长。因此本文对婴幼儿语音的分类识别进行了一定程度的研究。

1 文献综述

于东武[1]width=114,height=15的条件下,通过对发声段的基音变化率和它的能量变化率研究情感语音和婴儿的哭声。梁小玲[2]通过语音计量研究的方法对付合浦境内的方言进行了分析,揭示了方言之间的关系。张毅楠[3]以语音时间的相关性为起点,通过隐马尔可夫模型对语音进行连续测试,提高了音节的正确率,同时也降低了插入的错误率。王鑫[4]通过对俄日韩三国的留学生的汉语声调进行对比分析,将其定量化,有利于汉语言教学。魏榕[5]以泰国高中生汉语言学习者作为研究对象,对他们的汉语语音问题进行了相关研究,推动对泰汉语教学。

(2)人工刮摊过程要保证材料刮平,厚薄均匀,颗粒之间的棱角接触应彼此全面,检查是否有空鼓、空铺和虚接现象,并检查材料的厚度、平整度和密实度是否符合要求。

2 声音的获取及假设

声音来源于录音棚录制以及一些音频网站。为了便于解决问题,提出以下假设:(1)因为婴幼儿声频一般较高,可以达到400~600Hz,而成年女子的声频是140~1100Hz,容易与之混淆,而又由于身体结构的特点,女孩音频往往高于男孩音频,因此可以假设400-500Hz为男孩的声频范围,500~600Hz为女孩的声频范围;(2)假设婴幼儿语音进行压缩处理后,婴幼儿语音的特征参数并不发生较大变化;(3)假设国内外婴幼儿语音参数无差异;(4)假设对声音的降噪[6-7]处理是完美的,对后续处理过程没影响;(5)假设所收集的声音资源音质很好,对程序的识别不会产生影响。

丝黑穗病:播前种子处理,用药剂处理种子是综合防治中不可忽视的重要环节。方法有拌种、浸种和种衣剂处理三种。药剂防治必须选择内吸性强、残效期长的农药,三唑类杀菌剂拌种防治玉米丝黑穗病效果较好,大面积防效可稳定在60%~70%。

最后提出来的一个问题:“公共财政究竟离我们有多远”?我们说究其本质,公共财政是一个民主财政,是一个控权财政,如果说人民对政府的公权力没有办法得到监督和制约,我们的人大机关不能有效的形式对预算的监督权、否决权的话,那么我们想公共财政的问题依然没有办法解决,所以说,我们最后对我国公共财政建设的一个认识就是任重而道远。感谢各位老师。

3 基于基音频率对男女生性别识别的分析

3.1 研究思路

查阅一些声音的性别识别模型,并对各种模型使用条件、效果评价等方面进行对比分析。同时考虑到在唱歌时声音频率会比平时说话音调略高,故在建立模型的时候需要将频率的参数调高。并充分利用男女声声音识别代码,将录制好的男女生声音进行预处理,进行声音的特征提取,最终建立基于MATLAB的男女生声音识别模型。通过建立的模型对录制好的歌声进行分析,判断出歌唱者的具体性别。

3.2 研究方法

首先利用MATLAB将男生的声音信号提取出来, 为保证音频的高质量,需要将录音的格式全部转换为WAV高清晰音频格式,从而使得输出结果更加准确。由于男生女生音频是单声道,因此仅对一个声道的音频进行分析和处理即可。使用MATLAB提取出男生音频的时域图像,见图1;使用MATLAB中的快速傅里叶变换(Ifft),绘制出声音文件的频域图,见图2。

从图3中可以看出,起点处的波形类似白噪音,振幅很小,没明显周期,而随后具有明显周期,且振幅相较于男生明显增大,其周期即声带振动的频率。观察图4可知频域图呈右偏分布,无周期性,且密集程度差别大。

其中,width=12,height=12.75为窗口长度。

width=114,height=30.75

综上,将男女声信号通过椭圆滤波器后的仿真波形进行比较,可知男声输出为约200Hz左右周期性信号(非单频正弦波);女声输出约400Hz左右周期性信号,其波形接近正弦波。这说明经过椭圆滤波器后,女声声音主要由基音信号构成,而男性声音的非正弦性是由于其二次谐波及共振峰的存在的结果。这是因为,声波是由物体振动产生的机械波,男人声带宽而厚,振动频率低;女人声带窄而薄,振动频率高。鉴于男女声音在基音频率的明显差异,基音频率可作为男女声识别的依据,因此建立出基于基音频率的声音性别识别模型。

认知灵活性指顺应改变的情境而转换到另一种思维或行为,以符合新情境的需要的能力反映思维和行为的适应能力。Ajilore等[24]研究发现,双相障碍Ⅰ型稳定期患者(n=22)认知灵活性与健康对照人群(n=20)比较差异无统计学意义。刘传朋[25]研究显示青少年双相抑郁患者无论是在急性期还是缓解期均存在认知灵活性等方面的缺陷。

在窗的选择方面,本文选择使用汉宁窗,其定义如下所示。

width=180.75,height=47.25

要结合东营市实际情况,制定出金融支持产业融合发展的具体目标、任务及措施,大力推进银行机构开发金融、支持产业融合发展的创新产品和服务模式,重点解决贷款担保难问题。

3.3 结果分析

为了使语音性别识别更为精确,需要对其进行加窗处理[8-9]

width=198.75,height=158.25

图1 男生音频时域图

width=192,height=155.25

图2 男生音频频域图

若令width=45.75,height=15.75,代入式(1)中得到

同样处理可知女生基音频率为 393.75Hz,且鉴别是女声文件,与实际相符。其时域图如图3所示;通过MATLAB的傅里叶变换可以得到频率和振幅的相关关系,如图4所示。

加窗过程用公式可以表示为

其中,width=24,height=15为原始婴幼儿语音信号的采样序列,窗函数是width=41.25,height=15,变换方式为width=15.75,height=15

width=188.25,height=150.75

图3 女生音频时域图

width=183,height=150

图4 女生音频频域图

4 基于端点技术和DTW算法对声音谱曲的检验

4.1 研究思路

首先采集一段婴幼儿的语音片段,判别出婴幼儿的性别;其次,查找相关谱曲知识,对婴幼儿的语音片段进行谱曲;然后,建立语音信号的短时自相关序列模型,运用模型求解谱曲文件的自相关函数,分析谱曲文件的自相关性;最后,通过DTW算法衡量谱曲文件和婴幼儿声音文件的相似程度,运用MATLAB绘制震荡图和DTW距离图对两者进行误差分析,求出DTW距离,以此判断两者误差。

4.2 研究方法

端点检测技术是一种常见的婴幼儿语音检测方法,具有精确、操作简易等诸多优点。

首先计算短时自相关函数:

由此可见,这样制定的长度单位是因人因地而异的,是无法进行传播和交流的,因此长度单位的制定需要从多元走向统一.现在全世界统一使用的长度单位“米”源于法国,1790年,法国科学家特别委员会提出建议,定义“米”为巴黎子午线全长的四千万分之一.为了使用方便,1889年第一届国际计量大会决定,把长度单位“米”固化,用一根相当于这个长度的、截面呈X型的铂铱合金棒为“米”的基准,人们称之为“米原器”,这是第一次在全世界范围内确定的长度标准,现在这个“米原器”保存在巴黎国际计量局的地下室中.

width=222.75,height=33.75

使用过程中发现计算过程会导致可利用数据减少,从而使得函数幅度下降,故对其进行修正:

A Review of Failure Analyses and Structural Health Monitoring Techniques for Offshore Wind Turbines ZHU Songye,ZHU Zimo,KE Shitang(47)

width=207.75,height=33.75(1)

从图1中可以看出起始为一段波形图形,振幅小。查阅相关文献可知成人发出声音的频率在70~1100Hz之间,其中70~200Hz可看作是成年男性的发声频率范围,140~1100Hz为成年女性的发声频率范围,通过MATLAB可以得出第一个男生的声音基音频率为 222.7273Hz,并且通过相关程序可以判断出是男声文件,与实际相符。语音信号的主要频谱成分所在的带宽与基音周期成正比。观察图2可得,声音信号的频率范围为70~180Hz,且凸点出现频率就是共振峰的频率,因此,图2没有明显的周期。

width=233.25,height=33.75

定义

width=78.75,height=48

则有

width=215.25,height=33.75(2)

width=135,height=66.75(3)

式中,width=12,height=12width=9,height=12.75的最大值,即width=44.25,height=12.75

在《奶奶的星星》一文中,世界给“我”的第一个可怕的印象,是奶奶告诉“我”死了就再也找不到奶奶了,在死亡的威胁中,颤栗不已。《钟声》中的B问爷爷有关死的问题:“死了是不是就再也回不来了?”《一种谜语的几种简单的猜法》中,得了癌症的孩子尚不知自己的悲剧命运,还快乐地欣赏那将要“肆无忌惮”地开放的“死亡之花”。死亡就是这样的残酷无情,哪怕是天真无邪不谙世事的鲜活而可爱的小孩子,它也不稍动仁慈恻隐之心。

由式(3)可知,要使width=45.75,height=24为非零值,必须使width=77.25,height=12.75,考虑到width=27.75,height=12.75,可得width=44.25,height=12.75,故,式(2)可以写成:

width=140.25,height=33.75

4.3 结果分析

首先,通过MATLAB绘制谱曲文件的语音图、短时过零率、短时能量以及短时平均幅度,见图5:

width=294,height=228

图5 端点检测图

从图5中可知使用上述几种端点检测方法,可以得到去除不含声音信息的帧和包含谱曲声音的全部片段。

然后,使用MATLAB计算谱曲语音的自相关序列,得到图6和图7。

width=224.25,height=184.5

图6 浊音短时自相关函数图

width=224.25,height=184.5

图7 清音短时自相关函数图

从图6可知,谱曲的浊音自相关程度时高时低,部分音频信号具有强自相关性,而其余大部分音频信号具有低自相关性甚至不具有自相关性;从图7可知函数图形基本呈直线状,因此降噪后的音频文件里清音不具有短时自相关性,短时自相关性检验通过,因此谱曲具有使用价值。

首先对谱曲与附件婴儿语音的音频进行直观图像分析,并得出两组数据的震荡图,然后再运用MATLAB计算两组数据的DTW距离[10-11],并画出其距离随时间变化的图像。输出结果见图8。

由图8可知两个音频文件的声音信号相似程度高达约75%,且音频信号变化趋势大致一致,可以初步判断谱曲与附件婴儿语音音频具有很强的相关性,且误差较小。

5 结束语

width=190.5,height=146.25

图8 谱曲与附件婴儿语音音频震荡图

针对婴幼儿语音分析问题,本文首先从成人的语音入手,建立一个可以根据成人语音识别出性别的模型,并对该模型进行端点技术检测和误差分析。将模型[12]的拟合度大大提高后,再推广到婴幼儿的语音分析,鉴于婴幼儿语音的特殊性,对模型进行稍加调整,最终使得模型的识别率达到90%以上,对婴幼儿语音分析以及成人语音识别具有很好的研究意义。

参考文献:

[1] 于东武.基于一个连续发声段的情感语音分析研究[D].北京:国防科学技术大学,2006

[2] 梁小玲.廉州话与周边粤语客话语音分析计量研究[D].南宁:广西民族大学,2008

[3] 张毅楠. ABS法语音识别特征的提取与分析[D].北京:清华大学,2011

[4] 王鑫.俄日韩留学生汉语声调的实验语音学对比分析[D].哈尔滨:黑龙江大学,2014

[5] 魏榕.汉语学习者的语音偏误分析[D].西安:陕西师范大学,2017

[6] 王梅.基于多维DTW距离的无监督灰关联聚类研究及应用[D].重庆:重庆邮电大学, 2017

[7] 熊威.复杂噪声环境下语音端点的检测算法的研究[D].上海:东华大学, 2016

[8] 翁玉茹.基于语义理解的语音控制技术研究[D].天津:天津大学,2016

[9] 陈静.卫星遥测数据的时间序列相似性度量方法研究[D].哈尔滨:哈尔滨工业大学, 2015

[10] 张学玲, 唐毅.数字信号的加窗处理[J].计算机应用,2000(Z1):67-68

[11] 付平,彭宇,周勇.频域反射测量数据的加窗处理[J].宇航计测技术,1998(03):16-20

[12] 姜启源.数学建模[M].北京: 高等教育出版社,2011

Analysis of infant speech based on DTW algorithm

WANG Yu-han1,YAN Zi-wei2,WU Tian-qi3,GENG Guo-qiang3,ZHU Jia-ming4

(Anhui University of Finance and Economics; 1.School of International Economics and Trade; 2.School of Economics; 3.School of Finance; 4.School of Statistics and Applied Mathematics, Anhui Bengbu 233030, China)

Abstract:In order to analyze the voice of infants and young children, MATLAB software is used to identify the gender of the collected sound fragment through the principles of basic sound frequency recognition, endpoint technology detection, and DTW algorithm, and to compose the sound and analyze the error. The gender recognition model of infants and young children was established based on the model of identifying male and female voices by consulting relevant data, and the error test of the model was carried out, so that the similarity of the model was greatly improved.

Key words:infant voice;gender analysis; DTW algorithm; MATLAB

收稿日期:2018-12-11

基金项目:国家自然科学基金(11601001)

作者简介:王语涵(1997-),女,天津人,主要从事贸易经济学应用研究,457522842@qq.com。

中图分类号:O29;TP391.42

文献标志码:A

文章编号:1007-984X(2019)04-0069-05

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于DTW算法对婴幼儿语音的分析论文
下载Doc文档

猜你喜欢