语音产生中的韵律生成_语义分析论文

言语产生中的韵律生成，本文主要内容关键词为：韵律论文,言语论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

分类号　B842.5

语音流信息包括音段信息和韵律信息。音节等音段信息通过音色来表达，韵律信息则通过韵律特征来表达。韵律特征主要包含三个方面：重音、语调和韵律结构（指韵律成分的边界结构）。由于它可以覆盖两个或两个以上音段，所以常被称为超音段(suprasegmental)特征。韵律结构是一个层级结构，对它的成分有各种划分方法，一般公认有三个层级，从小到大依次是韵律词、韵律短语和语调短语。

韵律是所有自然口语的共同特征，在言语交流中起着非常重要的作用：它通过对比组合音段信息，使说话者的意图得到更好的表达和理解。研究发现，即使在默读时，人都会把头脑中的韵律信息投射到所阅读的书面文字上[1]。对人工合成语言而言，韵律控制模型的完善程度，决定了合成语言的自然度[2]。

言语研究最初为集中探讨句法和语义加工过程，把韵律搁在了一边。一直到了20世纪60年代，对韵律的系统研究才开始。这些研究又主要集中在言语理解和言语获得方面，言语产生方面研究较少。但韵律的产生机制也是非常重要的，不了解它就无法全面地理解韵律。

韵律生成一开始是作为单词产生的音韵编码过程的一部分受到关注的。随着研究手段的发展，短语和句子产生过程中的韵律生成也得到了研究。这些研究上要是从信息加上的角度进行的。到今天，在单词产生利多词话语产生两方面都取得了一些研究成果。下面将详细介绍这些研究结果。在此之前，有必要先对现有韵律产生相关模型做一个简要的论述。

1　韵律产生的相关模型

1.1 Shattuck-Hufnagel的扫描复制模型

Shattuck和Hufnagel(1979)在MIT-CU语料库基础上研究了各种语误，提出了扫描一复制模型，首次涉及言语产生中的音韵表征。该模型将音韵编码和表征分为两个部分：序列槽(serial order slots)和音段。其音韵编码就是从左至右序列地将音段填充到对应的序列槽中去的过程。序列槽也被称为框架(frame)，有点类似于后来的模型中的韵律结构。

1.2 Dell的联结主义模型或平行分布式加工模型

Dell(1986)的联结主义模型或平行分布式加工模型(connectionist or parallel distributed processing)中，语音的表征非常丰富，从大到小分别是语素层、音节层、音韵层(rime)、音位簇(phoneme cluster)、音素层和特征层。纵向地看，激活是在各层级问从上至下传递的；横向来说，每个层级内部的节点都是并行激活的。

该模型建立住言语错误分析的基础上，是该类词汇通达理论中影响最大的。但该模型中没有专门的韵律信息表征。后来Dell(1988)进一步提出，在语音加工中，应构建一个框架层，其中包含目标语音的音节数量、重音位置以及各音节内内容的构成及其位置等信息，但不含具体的音节内容。

由上述两个模型没有专门论述韵律产生，所以本文不详细介绍。迄今为止最全面的韵律产生模型是由Levelt等人提出来的，下面将详细介绍它。

1.3 Levelt等人的韵律编码和加工模型

Levelt等人提出的韵律编码模型内容非常全面，且目前该模型还在不断的发展完善。

Levelt(1989)认为[3]，口语句子的产生过程中，所有阶段的加工都是并行的、递增(incrementally)的。韵律编码包括许多过程，一些在词的范畴进行加工，另一些在句子的范畴进行加工。在一个句子的句法结构展开的同时，词汇的语音计划(phonetic plans for words)也产生了。词汇的通达分成两部分：lemma（包含语义和句法特征）的提取和lexeme（包含词形及音韵形式）的提取。后者由词形－韵律提取阶段(morphological-metrical spell-out)执行，它用lemma作为输入来提取相应的词形和韵律结构。所以韵律特征的生成不需要知道音段信息。这些词形和韵律信息被用在音段提取阶段(segmental spell-out)提取词的音段内容（词所包含的音素及其在音节中的位置），然后韵律和音段二者结合在一起。

在最后一个阶段，韵律产生器(prosody generator)执行话语语音计划(phonetic plans for utterances)，产生句子的韵律和语调模式。其中韵律的产生包括两个主要步骤：(1)产生韵律词、韵律短语和语调短语等韵律单元。(2)产生韵律结构的节律栅(metrical grid)，最后用节律栅来表示重音和时间模式。第一步即韵律单元的产生是这样进行的：词形—韵律提取阶段的加上结果与连接成分组合，成为韵律词。通过扫描句子句法结构，再综合各种相关信息，然后把语法短语的扩展成分(bracket)包含进来，组成一个韵律短语。而说话者在语流某个点上的停顿，产生语调短语。第二步，在句子韵律结构和单个词的节律栅的基础上，韵律产生器最终构建出整个话语的节律栅。

后来，Levelt(1999)又提出了单词的产生过程中韵律生成的新观点[4]，认为在荷兰语、英语和德语这样的重音语言中，存在一个主要的词韵律模式：即词重音放在第一个全元音音节(full-vowelled syllable)上。所以规则词的重音在递增的音节化(incremental syllabification)过程中是遵照这个规则自动产生的，而不是提取的。不规则词的重音不能自动产生。所以，只有不规则词的韵律结构，才作为音韵代码的一部分被储存起来。不规则词的韵律结构提取出来后，被用来指导不规则词的韵律化(prosodification)。韵律化的结果是产生音节和更大的韵律单元。

这些模型主要是建立在英语、荷兰语和德语的研究成果基础上的。和这些语言相比，汉语语音有两个显著特点：(1)音节数量少，只有英语等语言的十分之一左右。(2)汉语是一种声调语言，而英语等语言是重音语言，没有声调。所以汉语韵律产生机制必然和这些模型有不同之处。不过目前对汉语韵律产生的研究还不是很多。

描述完韵律生成模型后，下面将对韵律生成的相关研究成果从单词产生、短语和句子产生以及认知神经机制三个方面加以归纳。

2　单词产生过程中的韵律生成

单词产生过程中也需要产生韵律信息。不过句子中韵律信息包含重音、语调和韵律结构，而单词的韵律信息主要是词重音模式。它是音韵表征的一部分。当前的研究结果表明，在单词产生的音韵编码过程中存在一个抽象的韵律结构表征，它包含单词的重音模式和音节数量等韵律特征。在单词产生的音韵编码过程中，韵律结构信息和音段内容信息各门独立提取，然后将音段内容插入到韵律结构中，形成相应的音节。

2.1 抽象韵律结构的存在证据

Meringer和Mayer(1895)指出有两种语误：语义的和形式的，首先提出了言语产生中音韵编码可能独立于语义编码。此外还有很多言语现象，特别是频率效应和TOT现象，表明语音利语义两阶段应该是独立加工的。Schriefers(1990)等人首次得到实验证据证明语音和语义加工是相互独立的。新近的证据是，Turennout等人(1998)发现，在图画命名中，一个词的性(syntactic gender)的通达比它的音韵代码通达提早大约40ms。还有很多研究得到了类似的结果，从而完全确定了音韵编码独立于语义编码这一点。

研究者也对音韵编码本身进行了研究。Brown等人(1966)用定义法首次在实验中研究了TOT现象，他们用低频词的定义来诱发TOT状态。结果发现TOT中，被试虽然提取不出语音来，但并非完全不知道语音信息：事实上，被试往往知道词的音节数量、重音位置。这说明音节数量、重音模式等韵律信息的提取和音段信息的提取是分离的。

Sevald等人(1995)[5]让被试在4s之内以最快速度重复韵律词对，发现当第一个韵律词的内容和结构与第二个韵律词的起始音节内容和结构相同时（如KIL和KIL.PER)，重复速度快于音段被重复但结构不重复的情况（如KIL和KILP.NER)。而结构和内容完全相同时，重复速度并不比只重复结构时快。这个结果支持韵律结构的独立表征和抽象的观点。

Costa等(1998)[6]采用词—图干扰范式，让被试大声朗读书面词词单(list)然后命名图片，发现当目标名称和干扰词之间有共同的抽象韵律结构时，命名潜伏期被缩短。进一步的实验证明这种加速来源于起始音节结构。

余林(2002)[7]，使用重复命名技术，研究了声调结构在词产生中的表征，发现在汉语言语产生中，由声调结构所形成的韵律结构是独立表征的。

总之，在单词产生过程中，音韵编码独立于语义编码，音韵编码的表征包括抽象的韵律结构和音段内容两部分。那么，下一步的问题就是，这个抽象的韵律结构是什么呢？

2.2 抽象韵律结构的内容

大家都承认抽象韵律结构的存在，但对其内容却有很多争议。Levelt(1996,1999)认为抽象韵律结构是音节数量和重音模式等超音段特征。在重音语言中，只有重音不在首音节上的词，才储存有此韵律结构。Shattuck-Hufnagel(1992)则认为，这是一个抽象的辅元音(CV)结构，词的起始音节是C，其余部分是V。Dell(1988)则把它看成是具体音节的CV结构。而在WEAVER模型(A.Roelofs,1997)中，韵律结构仅仅确定跨音节的重音模式[6]。

最新的一个研究中，Roelofs等(1998)[8]采用内隐启动范式，要求被试尽快从6个词中读出一个目标词。在同质系列中，目标词的词首和其他词相同，在异质系列中则不同。结果发现，相同音段启动效应的有无，取决于目标词和其他词是否包含相同的音节数量和重音模式，但不取决于它们是否包含相同数目的辅音和元音。这说明，一个词的产生过程包括抽象韵律表征的提取，这个韵律表征包括词的音节数量和重音模式（或者是其他能从中提取出这些韵律特征的韵律信息，比如音步结构）。该实验还发现韵律特征和音段内容的产生并行进行，而且所需时间差不多。实验没有得出任何证据表明轴元音结构或者是音节成分的起始、核心或结尾部分是韵律表征的单元。

3　短语和句子产生过程中的韵律生成

单词产生不是完整意义上的言语产生，它涉及到的韵律生成只是词的固有韵律结构。而句子的韵律产生要复杂得多，同一个词在句子韵律结构中地位不同，就会导致该词的重音、时长和停顿等韵律特征完全不同。心理语言学家们从短语入手，研究多词话语的韵律产生过程，在短语和句子水平上都取得了一些成果。这些成果有一致的地方，也有很多分歧和争论。

Ferreira[9]总结了新近的研究，指出句子韵律不是在某一阶段产生出来的，句子韵律特征的确定过程，几乎经历了言语产生信息加工的所有序列过程，直到语句说出时才最终完成。一个单词或者短语焦点(focus)是在信息水平(message level)决定的，语调的决定也在某种程度上以语义为基础。而时间特征则与语义关系不大。而对具体问题的具体研究可分四个方面。下面将分别加以介绍。

3.1 韵律结构相对独立于句法结构

Garrett(1975,1976)指出，短语的重音部位并没有随着单词的交换错误而发生转移，这表明短语的重音是独立于短语内具体的单词的。

Tadao Miyamoto等(2002)[10]的研究结果表明，重音短语(accentual phrase)的形成不依赖于句法，而依赖于单词包含的重音结构。

对于句子韵律结构的产生，过去认为是直接由句法结构决定的。但Gee等人(1983)观察到两个现象：(1)句子中功能词通常时长较短，且后面极少有停顿；(2)句子长度会影响句子停顿模式。而这两点都没法用句法结构来解释，所以他们提出，应该从句子的韵律结构而不是句法结构来预测句子的停顿模式。

Ferreira(1993)提出[11]，言语产生就是要把本质上无序的思想、观念通过一个有序的渠道表达出来。这一目标绝不是一步就能达到的，而是需要构建很多中介表征来逐步实现命题结构的线性化：复杂的命题结构（分层、多维、循环）首先要转化为句法结构（分层、二维、循环），句法结构进一步转化成为韵律结构（分层、二维、不循环），最后，韵律结构转化成为最简单的、线性的语音结构。这里的循环(recursive)是指一个单元里面还可以包含另一个同级的单元，比如句法结构中句子还可以包含句子。

所以，多词话语的产生过程中，韵律结构不是直接决定于句法结构的，而是相对独立于句法产生的。但二者之间的关系非常复杂，句法结构到底在多大程度上影响韵律结构，还没有人能给出一个准确的答案。

3.2 话语中词的音韵激活进程

对短语和句子产生的研究，出现了单词产生研究中不曾出现过的问题。首先，话语第一个词的发音起始是否和后面的词有关系？其次，话语中各个词的提取在时间上是怎样安排的？对这两个问题的研究结果众说纷纭，互相矛盾。

Levelt(1998)指出，在英语中，说话者只有在短语的核心名词选定了之后，才会开口说这个短语。Costa等[12]让被试用短语（如the red car）命名图片，同时视觉呈现一个语义干扰词（如truck），发现语义关联的干扰词延缓了发音。说明核心名词的lemma在话语开始之前已被选定。

那是否核心名词也进行了音韵编码呢？Meyer(1996)[13]给被试呈现一对图片，用名词短语（如the arrow and the bag）或句子（如the arrow is next to the bag）加以描述。每组都有一个听觉干扰词，它在意义上或是音韵上与第一个或第二个名词相关，或与二者都没关系。结果发现，当干扰词和第一个或第二个名词语义相关时，平均发音起始(onset)时间变长。而与第一个名词音韵相关时则变短。第二个名词上没有发现音韵促进。这说明在话语发音之前，两个目标词条和第一个目标的音韵形式已经选定了。

综上所述，干扰词和一个多词话语中的非开始位置词音韵相关时，有时出现较低程度的音韵促进，有时没有效应，有时甚至发现抑止效应。

为何差异如此巨大？Jescheniak经过实验发现[14]，单个名词产生中，SOA为Oms和150ms时，音韵促进最大；而同样的SOA下，简单名词短语产生的音韵促进效应大约降低一半；在SOA为150ms和300ms时，复杂名词短语的产生没有发现音韵启动效应；在SOA为0ms时，甚至出现了抑止效应。为解释这些发现，他提出了层级激活说(graded activation account)，认为在多词话语(multi-word utterance)开始发音之前，话语中各个词的音韵编码都得到了一定程度的激活，激活水平随着词在话语中位置不同而改变：位置越靠后，激活程度越低。

在汉语研究中，周晓林等(2002)[15]采用同音判断和音节监控方法，考察言语产生中双词素词语音激活的特点。实验结果不支持音位编码从左到右、序列进行的观点。

3.3 短语和句子韵律生成过程的加工单元

言语错误的证据表明，多词话语中音韵计划的单位不超过两个词。Levelt等人(1981)的实验结果支持这种观点。但Ferreira(1991)发现，音韵计划的单位可能包括整个复杂短语。Dell等人(1991)的研究让问题更加复杂化：他们发现在句子发音之前，句子的不同部分能以不同方式得到不同程度的音韵准备。对于各种实验结果的巨大分歧，Schriefers(1992)指出，说话者使用大的还是小的计划单位，取决于说话的情景，这些研究结果的差异最少可以部分归因于说话者的计划策略。

Wheeldon等(1997)[16]使用Sternberg(1978)提出的“准备好的言语产生方法”(prepared speech production)的一种变式，在句子产生的最后几个阶段中寻找韵律结构产生的证据。他们首先给被试视觉呈现一个词或词组（如fresh water），一定的时间间隔之后，听觉呈现一个问题（如What do you seek），告诉他们有4s的时间准备好一个句子，来回答这个问题。要求这个答句准备得尽可能充分。然后在反应信号（蜂鸣声）出现之后，尽快说出准备好的句子，记录句子产生的潜伏期。结果发现，在句法结构、句子包含的词数利音节数量都不变时，句子产生潜伏期决定于句子包含的韵律词数量。用语调模式和短语结构不同的句子材料，也得到了相同的结果。另一个实验发现，实时言语产生(On-line speech production)的潜伏期取决于第一个韵律词的复杂程度，更证明了韵律词是发音的最佳单位(preferred unit)。这些发现支持这一假设：即韵律词是音韵编码中的加工单位。

3.4 句子停顿模式的产生

Ferreira的实验结果[11]表明句法结构不变，而仅仅改变韵律结构，就可以改变停延的时间。仅改变句法结构而不改变韵律结构，停延时间没有变化。这说明，停延不是句法结构的直接结果，而是韵律结构的反映。韵律结构是用来设置句子各个位置上抽象的时间的。这种时间大小的确定，不考虑最终占据这些位置的词的音段内容。在言语产生的语音水平上(phonetic level)，时长较长的词后对应一个较短的停顿。即词的时长和停顿长短之间存在一个权衡机制(trade-off)，从而保证分配给这个位置的总时间不变。因此，在单个句子位置(sentential position)里面，较大的时长对应较短的停顿，在不同位置之间，时长和停顿成正相关。

但该实验仅仅研究了把一个给定的语义—句法表征转化成为相应的韵律表征的过程。但在说话过程中，为最好的表达意图，说话人也会像选择意义最佳的词一样，选择最佳韵律结构。只有进一步研究韵律选择的过程，才能对韵律产生和整个言语产生过程有更全面的理解。

Megyesi等人(2002)[17]用瑞典语新闻录音和关于瑞典地图的谈话录音作为材料，分析发现，朗读过程中，停顿和语言学结构（句法和语篇）的关联非常明显，但对话中则看不到二者清晰的关系。且专业朗读中停顿和语言学结构的关联又比非专业朗读中二者的关联弱。

4　韵律生成的认知神经科学机制

Levelt等(2001)[18]用元分析法分析了58个脑功能成像研究结果，总结出：总的说来，词汇产生过程中，脑区的激活呈左侧化趋势，包括后额下回（Broca区）、颞上回中部、颞中回、后颞上回、后颞中回（Wernicke区）和左丘脑。视觉和概念上的引入过程涉及枕叶、腹侧颞叶和额前区(0～275ms)；接着激活传至Wernicke区，单词的音韵代码存储在该区，这种信息传播至Broca区和（或）颞左中上叶，进行后音韵编码(275～400ms)；然后进行语音编码，这一过程与感觉运动区和小脑有关，激活感觉运动区进行发音(400～600ms)。

Mayer等人(2002)[19]用fMRI研究正常人韵律产生过程中的大脑活动，发现左右半球的前头骨—前头盖底(fronto-basal)的相对较小且不重叠的区域与韵律产生有关。语言学韵律(linguistically geared prosody)的产生仅激活左半球，而情感韵律(affective prosody)的产生则仅仅激活右半球。

上文在描述了言语产生中韵律生成的相关模型以后，以研究的问题为着眼点，回顾了言语产生中韵律生成的相关研究。发现大多数研究结果都证明，在单词产生过程中，存在一个抽象的韵律结构，包含了词的重音模式和音节数量等信息。在短语和句子产生中，韵律结构和停顿模式都不是完全决定于句法结构，而具有相对的独立性。句子韵律产生的最佳单位是韵律词。语言学韵律的产生的脑区激活呈左侧化趋势。但这些问题也仍然存在很多争论。

关于韵律短语、语调短语和句子韵律的产生，虽然有学者提出了理论假设，但目前为止还没有直接的实验证据。对韵律产生机制和一般认知过程比如工作记忆的关系，则几乎没有研究。这些问题，对于系统全面地理解韵律产生机制是不可或缺的。

大部分韵律生成的研究成果是从对英语、荷兰语和德语的研究中得到的。汉语的韵律研究已经取得了很多成果，对声调、语调、韵律结构、韵律和句法的关系等问题都有不少论述，如王洪君[20]将纯韵律的单位与层级从大到小分为：语调段—调群段—音步—音节—摩拉，然后指出，只分析出纯韵律的标记、单位及其层级，而不考虑词汇句法的条件是无法生成合乎语感的音流的。她在综合考虑韵律和语法二者关系的基础上，将汉语的句法韵律单位层级从小到大定为：摩拉—音系字（音节）—粘合字组（音步）—缩附字组—结合字组（音系短语）—语调短语—话语。并提出，音系字是汉语中最小的句法韵律自由单位。汉语研究者们也提出了一些韵律模型，如曹剑芬等的汉语韵律模型[21]等。这些研究多从语言学的角度进行，它们为研究韵律产生的内部心理过程提供了理论支持。但直接针对韵律产生的内部心理过程的研究还很少。而这类研究的开展，将必然为已有的韵律理论提供韵律产生机制的实验证据，从而补充和扩展这些理论。

标签：语义分析论文; 语音编码论文; 音节论文;

语音产生中的韵律生成_语义分析论文

猜你喜欢