连续语篇的语音特征及其信息处理_语料库论文

连续话语语音特性及其信息处理,本文主要内容关键词为:语音论文,话语论文,特性论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 永恒的矛盾

随着言语工程技术的发展,语音信息处理的对象已经从孤立的语音发展到连续的自然话语语音,问题变得越来越复杂,这主要来源于一对永恒的矛盾。矛盾的一方面是,自然言语是个随机过程,尤其是即兴的(spontaneous)口语对话(dialogue), 语音的随机变化更是无处不在。

就音段的变化而言,除了大家熟知的元音央化、儿化或辅音的同化等较为显著的音变现象以外,更难对付的则是由协同发音引起的更为微观的语流音变。这种变化是由语音生成的本质机制决定的,它几乎无所不在,而且是无法回避的。

再拿超音段的韵律变化来说,常规的连续变调仅仅是人们常见的一种,更多的是,由于人说话总是具有轻重缓急、抑扬顿挫,相关的语调和语气的运用就会导致常规变调模式的不同程度的调整, 引起调域(range)的扩大或缩小以及调阈(threshold)的上浮或下沉。

更有甚者,音段特性的变化跟超音段的韵律特性的变化往往彼此相关和相互制约。例如,协同发音作用不但会引起语音音色的复杂变化,而且还会导致各语音单元边界上的调连效应(林茂灿,1994—95);而弱读引起的就不仅仅是韵律特性的减缩,同时也包括音段特性方面的相应变化,诸如央化、弱化和脱落,等等;又如轻重和节奏的变化,不仅同声调的升降沉浮和时长的伸缩流变相关,还同这两者的协同作用和互补关系有关。如此等等,所有这一切,都是不以人的意志为转移的客观存在,无法回避。可是,矛盾的另一方面是,语音处理处处需要不变的规则。尽管当今的计算机在许多方面已经可以跟人脑媲美,故人称“电脑”。然而,不管它有多么高明,它毕竟还是机械,目前还只能处理比较有规则的东西,面对上述种种随机变化现象,它就显得无能为力。人们发现,不可能采用常规的音段和韵律模式来处理语流中的音段和韵律问题。所以说,语音信息分布的不平衡性或者说不规则性跟语音信息处理的处处要求规则性,这是一对永恒的矛盾。为了解决这个矛盾,人们力图寻找语音中的不变量(invariance)(Fant,1983),这已成为语音信息处理各个部门包括合成、识别、理解等方面一致的需要,成为语音学界和言语工程界共同关注的热门课题。

二 绝对的变化性和相对的不变性

语音中究竟有没有不变量?答案是:既有,又没有。如上所述,连续话语里的语音,几乎没有不变的时候,即使像普通话里最简单的元音a,你也很难在语流中找到它的常规模式。例如, 从声学表现来看,“来啊”中的a不同于“走啊”中的a,又都不同于“走啊走”中的a, 更不同于它在诸如“兰”或“牢”里的变体,而所有这些变异还没有考虑轻重音和语调的影响以及不同说话人引起的个体差异。

从上述情况来看,确实不存在绝对的语音不变量。但是,语音的变化又都是有条件的,依环境而定的。例如,上述“兰”里的a, 由于受前鼻音韵尾-n提前的协同发音作用,它的舌位比较靠前, 而“牢”里的a由于受后元音韵尾-o的协同发音作用,它的舌位比较靠后。这是一种由它们所处的语音环境决定的系统差异,不管男女老少都是如此。又比如普通话的两个上声相连,第一个上声通常变为阳平;可是,当第二个上声读轻声时,第一个上声就不一定变阳平,不过,“不一定”不等于没有规律,在这种情况下究竟变不变阳平取决于第二个音节的语法和语义地位(曹剑芬,1995)。由此可见,环境或条件一定,语音的变化就一定,就有规律可循;而环境和条件不管多么复杂,它们总是有限的,所以,就可以找到随条件或环境而定的(context-dependent)、 相对稳定的变化模式,这就是一种相对的不变量(relational invariance)。这种不变量在自然语言里是确实存在的, 因而可资利用。

三 相对不变量的掌握和应用

从本质上说,所谓语音的相对不变量,就是语音变化的规律性。通常,这种规律性并不总是显现的,而是隐含在茫茫的自然话语之中,必须通过科学分析和研究,才能被揭示出来。我们今天已经认识或掌握的语音变化知识和规律,是千百年来人类不断探索的积累。但是,这些只是客观存在的语音变化规律的一部分,大量未知的知识和规律仍然处于人们的“习焉不察”之中。所以,我们对于我们的研究和处理对象——语音——的认识,实际上还处于相当幼稚的阶段。尽管我们可能熟知语言的语音结构,也看到并描写了许多语音变化现象。可是,我们往往无法解释这些现象,因为我们对于人类语音产生和感知的内在机制还缺乏足够的认识。譬如说,自然语音既然如此多变,为什么人却总能把各种各样的变体感知为同一个音或同一类音?可以肯定,其中必定存在某种相对不变的关系。通常,人感知语音,是通过它在头脑中的心理印迹即音响印像跟它的语义概念进行匹配的过程。显然,人所依赖的不仅仅是语音的物质特性本身,而且还有一定的音响印象所代表的声音符号同一定的语义概念之间相对固定的连接关系,而且,这种连接关系必定为说话人和听话人约定俗成、共同认可的。所以,尽管实际的语音千变万化,而人的大脑却总能依赖这种关系而“随机应变”。我们的任务,就是要通过对语音的客观物质特性的观察分析,结合相关的语法和语义知识,去探索和揭示这种相对不变的关系。

计算机进行语音处理,本质上就是模拟人的语音产生和感知机制。因此,所涉及的就不仅仅是对言语声音本身物质特性的认识,而且应该是对这种物质外壳与语义概念之间一定的连接关系的理解和认识。但是,由于这种连接关系存在各种语用的变体,人本身尚且不能对这种关系作出满意的解释,因而更不是计算机现有的逻辑推理功能所能胜任的。所以,无论从语音学基础理论的目前水准来看,还是从计算机技术现在的发展水平来看,计算机的语音处理暂时还只能限于语音的物质特性本身。当然,理论的探索决不能仅限于此。

从目前的实际出发,语音学和语音信号处理的当前使命至少有如下两点:一,继续加强和深化基础理论的探索和基础应用研究,这是根本的根本;二,充分开发利用已经掌握的语音学基础知识以及理论研究的成果,这是切实可行的现实途径。

加强和深化基础理论研究,其重要性不言自明。尽管语音处理方面普遍觉得目前的语音学知识不解渴,因而纷纷另辟蹊径,采取语料库的统计方法来解决燃眉之急,而且,有的还干得很不错,但是,这并不能说明语音处理的真正突破可以离开语音学的理论基础。事实上,截至目前为止,语音处理的一切进展,其中包括语料库的方法,都是跟语音学的基础理论分不开的,而当前面临的“知识壁垒”危机,则是从另一个侧面说明了这一点。特别是对语音变化规律的归纳,不可能指望依靠计算机来完成。计算机通过语料库自学习,的确可以解决具体系统的一些具体问题,但却不可能告诉你它是怎么理解的,不可能告诉你这一切究竟是怎么回事(方特,1983)。归根结蒂,理性的探索还是不可或缺的。尽管这方面的研究可能看不到立竿见影的效果,但这是百年大计,决不能有任何松懈。

说到语言学知识的开发应用,应该对应用的现状有个基本的认识。先看看现在的应用是否充分,再考虑如何进一步开发。

人类现有的语音学基础理论,基本上可以归纳为两个大的方面,一是关于语音结构的基本知识,一是隐含在种种复杂的语音变化背后的关于产生和感知机制的理论认识。目前,就大多数语音处理系统来看,多数还局限于语音结构知识的应用。而且,即使就这一点而言,目前的开发利用还很不充分。譬如,以普通话为对象的许多语音处理系统,尤其是早期的一些系统,在选择处理单元或建立相应的语料库时,往往只是注意这个语言里有四个声调,有一千多个不同声韵调结构的音节,却很少注意不同音段或不同音节相互搭配之后可能产生的语音效应。即使已经注意到某些音位的变体以及上上相连之类的变调现象,也只是把它们看作一些静态的模式,而较少重视它们在话语中的动态流变。例如,有些语料库的标记,实际上只是把汉字文本转写成了拼音文本,或者再加上某些用国际音标标记的音位变体。这只是对普通话语音结构知识的最起码的应用,而这样标记的语料库并不能提供多少实际的发音信息,并不能充分反映语音的动态变化。

近年来,这种情况已逐渐有所改观。譬如说,人们已开始尝试,自觉运用语音的基本结构知识,通过构建典型的语音样本,来模拟连续话语中可能发生协同发音的语音环境(曹剑芬,1996,1997),并通过在自然语料中搜索此类样本,努力将由此而产生的语流音变知识注入合成或识别的语料库(祖漪清、李爱军,1997)。此外,在语音库的标注方面也有所突破。例如,在一个用于识别的连续语料库的标记中(陈肖霞,1997),就既利用了普通话语音的结构知识,又利用了已经掌握的音变理论,根据客观的声学表现,不但比较详细地标出了声母、韵母、声调、过渡音及其前后的语音环境,而且标出了同化、脱落以及浊化等等在音节单念时看不到的音变现象。显然,经过这样加工的语料库必定更加切合实用,因为它可以为识别建模提供较为精确的动态语音信息,所以颇受语音处理方面的欢迎。在国外,语音库的标注已经相当普遍。例如,美国的TIMIT、德国的KIEL,都做得相当细致。尤其是KIEL语音库,不但作了详细的线性音段标记,而且还采用互补音系学的模型,标注了实际发音中出现的腭化、缺省等一系列超音段的音系过程(Kohler, 1995),这些都是值得我们进一步效法的。当然, 可资利用的语音学知识远不止这些,在开发的广度和深度方面也都还大有余地。

就汉语音段变化特性的研究来讲,也已取得了不少成果。尤其是最近十来年,对于普通话协同发音现象的较为系统的研究,不但对这类环境音变的客观声学表现作了详细的描写(颜景助,1994—95;陈肖霞,1994—95;孙国华,1992—93),而且对于语流音变的来源以及音段之间彼此交叠、相互渗透的语音产生机制有了比较深刻的认识,并采用双音子、三音子等微观音段形式作为这类动态音段的语音表示(祖漪清,1994—95;曹剑芬,1994—95,1996)。这些都是可供进一步开发应用的语音学知识。

在韵律特征层面上也有许多可资利用的研究成果。例如,除了大家熟知的变调知识以外,人们又发现了语调对音域上、下限的调节规律(沈炯,1985)以及随语义或语气而定的“移调”规则,有的还制定了计算机可读的相应形式(吴宗济,1992—1993,1994—1995),这些都是相对不变的动态声调模式,是汉语语调的骨干。此外,在连续语音的时长结构研究方面,也发现了以双音节时长分布模式为基本间架的语句时长分布格局,这是另一种重要的韵律特性的相对不变量,它和音调变化一起,共同载荷着轻重、节奏和语调的信息。

上述这些情况表明,面对言语工程的需要,语音学的武库尽管并不充裕,但仍然具有相当的开发余地。关键是怎样去开发利用,这需要语音学界和言语工程界相互配合,共同探讨。我以为,在当前,语料库建设是一个很好的、切实可行的接合部。一方面,语料库本质上是一种知识库或规则库,通过不断有意识地注入已知的语音学知识,便于计算机通过自学习去发现和利用某些未知的东西,以弥补现有理性认识的不足,从而满足言语处理不断增长的需要;另一方面,通过对语料库进行加工标注,不但有利于对现有语音学理论知识的开发应用,而且可以把传统的语音描写方式转换为便于机器识读的表示方式,这也必将促进语音描写的形式化,提高语音学研究的精密化和科学化水平。所以,这也不失为一条两全其美的出路。CK

[1] 曹剑芬《普通话音节间音联的时域特性》,RPR-IL(CAss) 中国社会科学院语言研究所《语音研究报告》/1994—95。

[2] ——《普通话语句时长分布的基本格局》, 《中国语言学报》第7期,1995。

[3] ——《连读变调与轻重对立》,《中国语文》1995年第4 期。

[4] ——《普通话的环境音变及双音子和三音子结构》, 《语言文字应用》1996年第2期。

[5] ——《普通话双音子和三音子结构及其代表语料集》, 《语言文字应用》1997年第1期。

[6] 陈肖霞《汉语普通话两音节CVCV间C2 为三个发音部位的逆向协同发音声学研究》,RPR-IL(CASS)/1994—95。

[7] ——《连续语音库的语音切分和标记》(即出)。

[8] Fant,Gunnar,杨顺安、许毅译《语音学和言语工程学》,《国外语言学》1984年第3期。

[9] Kohler,Klaus, 曹剑芬译《互补音系学——对一个声学资料库进行标记的理论框架》,《国外语言学》1995年第1期。

[10] 林茂灿《关于普通话两音节间的F0过渡及其感知问题》,RPR-IL(CASS)/1994—95。

[11] 沈炯《北京话声调的音域和语调》,见林涛、王理嘉《北京语音实验录》,北京大学出版社,1985。

[12] 孙国华《普通话双音节V1-/ts,

/过渡的实验研究》,RPR-IL(CASS)/1992—93。

[13] 吴宗济《普通话语调分析的一种新方法:语调中基本调群单元的移调处理》,RPR-IL(CASS)/1992—93。

[14] ——《试论合成普通话口语自然度所需的韵律特征规则》,RPR-IL(CASS)/1994—95。

[15] 颜景助《前音节为元音尾和后音节为零声母的普通话双音节的音节间共振峰过渡的研究》,RPR-IL(CASS)/1994—95。

[16] 祖漪清《汉语普通话连续语流中的语音现象及其同识别的关系》,RPR-IL(CASS)/1994—95。

[17] ——李爱军《语音识别和语音合成语料库的设计》,《第三届计算机智能接口与智能应用学术会议论文集》,1997。

标签:;  ;  ;  ;  ;  ;  

连续语篇的语音特征及其信息处理_语料库论文
下载Doc文档

猜你喜欢