基于Matlab的藏语语音频谱仿真和分析论文

基于Matlab的藏语语音频谱仿真和分析

卓嘎¹，次仁尼玛²

（1.西藏大学工学院，西藏拉萨850000；2.西藏大学理学院，西藏拉萨850000）

摘要：语谱图是语音信号处理过程中的重要参数之一，直观地反映语音信号的动态频谱特征。语谱图是将语音的时域信号转换成二维和三维图像信号的重要方法。介绍了语谱图的算法原理、关键技术和仿真流程，阐述了藏语辅音发音特征和拼读规律；采集了藏语拉萨语辅音真人录音数据、在Matlab环境下进行了预处理、分帧、加窗和语谱图的绘制；分析了频谱分布情况，提取了辅音的基音、共振峰等藏语语音参数。研究结果对藏语语音声学分析、藏语语音合成和识别的研究具有一定的参考价值。

关键词：语谱图；藏语辅音；傅里叶变换；基音；共振峰

语言是人类社会进行相互沟通的重要工具之一。随着计算机信息技术的发展，让计算机“听懂”人类的自然语言成为了目前各个研究领域的热点。语音合成、语音增强、语音识别等语音处理技术是目前人工智能、深度学习等研究领域的重要研究内容。语谱图是进行语音信号处理的重要图谱，直观的反映了语音信号的动态频谱分布情况。语谱图的主要理论算法是基于短时傅立叶变换分析。语谱图最早是在20世纪50年代贝尔实验室研究人员提出来的^[1]。可视化的特征将语音的语谱图与图像信号处理技术相结合，更完整的表征语音的整体特征，在语音增强和语音抗噪声参数提取中具有重要作用^[2]。语谱图中包含了语音基音周期、基音频率、共振峰等重要语音参数信息，可作为语音识别过程中前端的特征参数，能够提高语音的识别的鲁棒性^[3]。

1 藏语辅音发音特征

藏语是一种拼音文字，具有严谨的发音拼读规则。按照地域分布及方言习惯的不同，藏语分为康巴、安多和卫藏三大方言^[4]。虽然根据方言发音习惯的不同发出的音有区别，但是基本的拼读规则和语法规则是一致的。藏语里一个音节的拼读顺序是从左到右，从上到下，具体的拼读顺序是前加字+上加字+基字+下加字+元音+后加字+再后加字。藏语有30个辅音字母是其音节由30个基字的音节和元音字母组成。30个辅音分别是按发音规则以 4 个辅音为一组分成七组半，最后半组只有两个辅音分别为^[5]。前五组中的每个字母按音调强弱规律发最强音、强音、弱音和最弱音。每个辅音单念时基字可以发一个单独的音节，尾音都带元音（a）的发音。但是在连续语音的词或句子里会发生连续变调。

2 语谱图生成原理

语音的时域波形不能直观的反映语音的声学特征，因此通常将语音的时域信号用傅立叶变换映射成频率信号，然后提取频域特征参数用于后期语音的编码、合成，识别等处理。这些参数包括基音频率、共振峰、倒谱、mfcc和lpc等等。语音的语谱图能够直观地反映语音高、中、低频的频率分布情况和频谱结构。在实际情况中，可以根据具体需要通过选择合适的窗长绘制窄带和宽带的语谱图来观察和分析语音的基音和共振峰参数。

2.1 短时语谱图

语音的语谱图生成原理如图1所示，语音录入以后，为了能够在相对稳定的信号段里进行有效的语音信号分析，将原始的语音信号采样量化以后进行分帧加窗短时信号处理。一般情况下，窗长在10～30 ms段看作相对稳定的语音信号^[6-7]，然后将时域语音信号用DFT短时傅立叶变换转换成频域信号，再进行能量谱密度的计算，最后影射成伪彩色图生成最终的语谱图。

图1 语音语谱图生成原理流程图

分帧加窗：语音分帧加窗的作用是将无限长的语音信号，经过采样量化后用合适的窗函数循环卷积生成若干个截短的语音帧，形成语音的短时信号。一般窗函数为汉宁窗^[8]，窗长的计算公式如下：

式中是截断的语音信号离散序列的短时幅度谱^[9]。

窄带语谱图反应了语音的频率分辨能力，在语谱图上可以看到清晰的“横线”，图3是放大后的藏语辅音“ཀ་”的窄带语谱图，可以看到清晰的各次谐波分量。宽带语谱图反应了语音的时间分辨能力，在语谱图上可以看到清晰的“竖线”，图4是放大后的藏语辅音“ང་”的宽带语谱图，可以看到多个清晰的竖线。这些竖线的起止和结束点之间的时间段就是该辅音的有效时间段。

式中N 为窗长也叫语音窗的采样点数，F_s 是语音的采样频率，一般为22.05 kHz、44.1 kHz、48 kHz。 T_s 是采样的周期是采样频率的倒数；T_p 是语音持续的时间，语音短时分析T_p 取10～30 ms，再该时段内语音特征变化相对稳定。为了语音帧间的参数变化平滑，相邻帧间有一部分的重叠区间，重叠点数一般取窗长的一半。

语音浊音发音过程中声带振动具有规律性，这种规律性变换的周期称为基音周期^[16]，其倒数称为基音频率，是语音信号的重要参数之一。语音信号的语谱图能够直观地反应语音的短时频谱分布情况，语谱图上“条纹”和“竖线”的有规律的分布可以大致计算语音的基音周期和频率。

群落生物量按乔木层和灌草层分别调查。样地中的胸径(DBH)<3 cm 的乔木及乔木幼苗[24]和灌木统归为灌木，进行生物量和物种数测定。识别并登记20 m×20 m样方内树高(TH)≥1.2 m和胸径(DBH)≥3 cm的所有乔木物种。记录3类系统中1 m×1 m样方中草本的种类、多度以及次生林5 m×5 m灌木的种类、数量。草本、藤本和灌木生物量以全割法实测，取样鲜重(G鲜)后带回实验室，105℃杀青后，用电热烤箱在80℃下烘干至恒重，称干重(G干)，得到样品含水量并计算样点生物量。乔木生物量采用公式[25]计算。生物量均只包括地上部分。

期末闭卷测试要求学生掌握ESOL课程的相关理论知识，成绩要达到80分以上。不合格的学生要对所有出错的题目用自己的话语进行分析阐述（一题一段，每题至少写半页纸），五日内提交，然后还要在不参照笔记和课本的情况下去授课教师处口头答辩，通过成绩最高为80分。

2.2 基音

能量谱密度：x (n )在k 点的能量谱密度^[10-11]公式为：

在天然湿度状态下的土层中开挖沟槽，且地下水位低于槽底时可开直槽，不设支撑，但对槽深有限制要求：砂土和砂砾土土层的深度不大于1.0 m；亚砂土和亚黏土土层的深度不大于1.25 m；黏土土层的深度不大于1.5 m。

2.3 共振峰

时域的语音信号经过傅立叶变换以后频谱分布的第一个频点是语音的基音频率，其余的频率分量称为谐波分量，频率值为基频的整数倍。窄带语谱图上频率值最低的条纹是基音频率，其它条纹就是各次谐波，颜色较深的条纹就表示语音的共振峰。语音声道模型是全极点声道模型，共振峰反映了语音的声道特征，语音元音的发音具有共振特性。语音的共振峰还可以通过计算LPC（线性预测系数）来观察共振峰轨迹，计算时先用信号样点间的相关性，获得线性预测的参数值，然后将预测样点的值与原始语音信号样点的值相减，得到的误差值用某种计算准则降到最低，从而逼近原始语音都波形。

该函数的功能是通过设置语音帧、fft变换长度、采样频率、重叠长度返回该语音帧的短时傅立叶变换，频率向量、频谱图的时间向量，以及能量谱密度。Spectrogram可以绘制直观的伪彩图，根据window窗长的长短可以生成窄带语谱图和宽带语谱图^[15]。

3 仿真实验及分析

实验按照藏文文法的规律，将藏语30个辅音字母每4个为一组一共7.5组，在纯净语音环境下进行录音，采样频率为44 100 Hz。在Matlab仿真环境下分别绘制各组的连续语音时域波形、窄带和宽带的语谱图，如图2所示，从各自的时域波形（a）中可以看出，第一个辅音字母的振幅都较高，原因是根据发音规律各组的第一个辅音字母都发强音，其余的3个辅音按顺序幅度逐渐减弱。图1的（b）图和（c）图分别是每组的窄带语谱图和宽带语谱图，窄带窗长为20 ms，宽带窗长为2 ms，窗长越长，带宽越窄，窗长越短，带宽越宽。

伪彩图映射：伪彩图映射可以用Matlab自带函数specgram来绘制^[12-14]，函数格式如下:

图2 藏语语音时域语谱图

DFT短时傅立叶变换：短时傅里叶变换公式如下：

图3 语音“”的窄带语谱图

图4 语音“ང་”的宽带语谱图

图5 语音“ང་”的时域波形图

声带振动的语音发音时每隔一段时间就会有规律的气流通过，这种规律可以用基音周期或者基音频率来描述，在频谱图上也会有这个频率的信号分量，在窄带语谱图中频率最低的那条横条纹对应的频率值就是基音频率，如果放大图4的3.5 s处的语音段。可以看到语音“ང་”最低的横条纹对应的频率大概在200 Hz左右。为了看得清晰，在3.5 s处截取窗长为20 ms的语音，输出的时域波形如图5所示，一共包含3个周期，周期值T =（（829-139）/44 100）/3=0.0052 s，基音频率为1/T =192 Hz；图6是图5语音段的频谱图，从左到右是基频和各次谐波的频率分布，横坐标是频率，纵坐标是对应的幅度值，第一个幅值较高值对应的频率就是基音频率，在图6的右上侧放大并标注坐标的是该语音的基音频率，横坐标的频率点为199 Hz左右，这两个基音频率值与前面窄带语谱图中的估值大致一直，一般基音频率会有动态波动。

从后往前，4为水泵级数，44为额定扬程（m），80 为额定流量（m3/h），R 为热水型，QJ（R）为井用潜水（热水），200 为机座号（mm）。

图6 语音“ང་”的频谱图

在图7中黑色连续波形是藏语语音“ང”的频谱，黑色虚线波形是频谱包络，黑色虚线星号波形是共振峰包络的波形。如前所述，这些波形的横轴为频率，从左到右分别是基音、1次，2次，3次谐波等频率，谐波的频率值为基音频率的整数倍，临近的若干谐波谱线能量较集中的那个峰值称为共振峰，可以从频谱的包络图中大致看出共振峰的波形，在语音的短时分析中，可以用LPC参数波形来跟踪语音共振峰的分布情况，如图7中的黑色实线波形，该波形的峰值点的位置与黑色虚线语谱包络图的峰值位置正好对应。共振峰包含了语音元音的重要信息，是反映语音声道特征的重要参数。

图7 语音“”的频谱包络和共振峰波形

4 结束语

语谱图是语音信号分析过程中的重要参数之一，反映了语音的动态频谱特征，其频谱分布中的谐波具有层次性和独立性。文章介绍了语谱图的算法原理、关键技术和仿真流程，阐述了藏语辅音发音特征和拼读规律。在Matlab环境下，仿真分析了藏语辅音的语谱频谱分布情况，提取了辅音的基音、共振峰等参数。在语音频谱分析中，可以利用窄带语谱图较高的频率分辨力提取语音的基音周期和频率、共振峰等频域特征参数，而宽带语谱图较高的时间分辨力可以切分出连续语音中的音素、音节等语音单元。从应用角度来说，可以利用语谱图的整体特性和谐波所携带的信息与藏语文法里的发音规律相结合进行藏语语音的合成、编码和识别等语音信号处理。此外，语谱图可作为图像信号利用图像处理技术更广泛地应用于语音识别、人工智能等研究领域中。

测区北东侧为花岗岩体内凹接触带转折处，区内地层东西各异，西部出露地层为震旦系的一套浅变质碎屑岩；东部为中泥盆统～石炭系的一套碎屑岩及碳酸盐岩。测区西部与东部地层以断裂和不整合接触。其中，中泥盆统跳马涧组(D2t)局部夹粉砂岩，底部为砾岩，不稳定，并见有毒砂、黄铁矿化，中泥盆统棋梓桥组(D2q)局部夹白云质灰岩、灰岩，底部铁锰碳酸盐化十分发育，为本区主要赋矿层位。区内地层以单斜或复式背斜产出，测区西侧走向NNE，东侧为NNW，受岩浆侵入接触变质作用，部分变质呈板岩或变质石英砂岩，灰岩大理岩化。

参考文献：

[1]李姗，徐珑婷.基于语谱图提取瓶颈特征的情感识别算法研究[J].计算机技术与发展，2017，27（5）:82-86.

[2]沈锁金，刘伟，高颖.语音增强算法的研究与实现[J].电声技术，2016，40（12）:40-42，54.

[3]魏莹.基于语谱图的特定人二字汉语词汇语音识别研究方法[D].长春：东北师范大学，2017.

[4]陈海燕.藏语康方言语音比较研究—南部土语嘎米、东旺与卓尼土语迭部、卓尼[D].上海：上海师范大学，2018.

[5]南措吉，才让卓玛，都格草.藏语语音的清浊音识别[J].西北民族大学学报:自然科学版，2017，38（4）:19-23.

[6]惠琳，俞一彪.短时频谱通用背景模型群联合韵律的年龄语音转换[J].声学学报，2017，42（6）:762-768.

[7]李文琴，尚雨琪，张巍.基于Matlab的语音情感特征值研究[J].实验室研究与探索，2018，37（7）:131-135，169.

[8]苗晓晓，张健，索宏彬，等.应用于短时语音语种识别的时长扩展方法[J].清华大学学报:自然科学版，2018，58（3）:254-259.

[9]李强，陈丁当，舒勤军.一种基于幅度谱偏度的语音激活检测算法[J].重庆邮电大学学报：自然科学版，2015，27（6）:728-734.

[10]韩长军.基于MATLAB的语音信号去噪方法应用[J].辽东学院学报：自然科学版，2017，24（1）:72-77.

[11]冯辉宗，王芸芳.语谱特征的身份认证向量识别方法[J].重庆大学报，2017，40（5）:88-94.

[12]张雪英.数字语音处理及MATLAB仿真[M].北京：电子工业出版社，2010.

[13]邵虹，王杰.基于连续频谱最小值跟踪的语音增强算法[J].电子测量技术，2018，41（14）:16-20.

[14]黄春燕，景妮洁，祝红梅.语音信号的MATLAB分析与处理[J].计算机科学，2018，45（S1）:555-558.

[15]陶华伟.基于谱图特征的语音情感识别若干问题的研究[D].南京：东南大学，2017.

[16]韩芳，王学春，靳宗信.基于ACF的基音检测改进算法[J].现代电子技术，2017，40（19）:71-74，78.

[17]曹冲，解焱陆，张劲松.不同共振峰分布下元音对声调感知的影响[J].清华大学学报：自然科学版，2018，58（4）:352-356.

Matlab-based Tibetan speech spectrum simulation and analysis

ZHUO Ga¹，CIREN Ni-ma²
（1.School of Engineering ，Tibet University ，Lhasa 850000，China ；2.School of Science ，Tibet University ，Lhasa 850000，China ）

Abstract: Spectrogram is one of the important parameters in speech signal processing.It can directly reflect the dynamic spectrum characteristics of speech signals and is an important method to convert speech time-domain signals into two and three dimensional image signals.This paper introduces the algorithm principle，key technology and simulation process of the word spectrum graph，and expounds the pronunciation characteristics and spelling rules of the Tibetan consonants.The Tibetan consonant live recording data was collected.In the Matlab environment，preprocessing，division frames，Windows，and spectral charts were drawn.The spectrum distribution was analyzed，and the pitch period of Tibetan consonants，speech formant frequency and other parameters were extracted.The study results have a certain reference value in researching of speech acoustic analysis，speech synthesis and recognition in Tibetan language.

Key words: speech spectrogram；Tibetan consonants；Fourier transform；speech pitch；resonant peak

中图分类号： TN9117

文献标识码： A

文章编号： 1674-6236（2019）19-0170-04

收稿日期： 2019-03-11

稿件编号： 201903075

基金项目：西藏自治区自然基金项目（XZ2017ZR G-10）

作者简介：卓嘎（1979—），女，藏族，西藏那曲人，硕士，副教授。研究方向：藏文信息技术、通信工程等。

标签：语谱图论文; 藏语辅音论文; 傅里叶变换论文; 基音论文; 共振峰论文; 西藏大学工学院论文; 西藏大学理学院论文;