普通话婴幼儿输入语言中动词和名词的韵律特征,本文主要内容关键词为:韵律论文,动词论文,婴幼儿论文,普通话论文,名词论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
婴幼儿在不到一岁时就已开始建立自己的词汇库。词汇学习的前提是具有从连续语流中切分词形的能力。与书面文字不同,连续话语中的词仅靠一些不太明显的声学特征分开(vande Weijer,1998;Shi等,1998)。
到目前为止,国际上的大多数研究还主要侧重于婴幼儿英语学习者的策略及相关问题。以往实验发现他们在词切分的过程中已经能够利用韵律特征、音位配列特征、统计特征以及协同发音特征等信息,但关于婴幼儿学习其他语言的研究还非常少(Jusczy等,1999;Mattys等,2001;Aslin & Newport,1996;Curtin 等,2001;Kooijman等,2004;Polka & Sundara,2003;Nazzi等,2006)。
现有的证据表明,母语的特性会影响婴幼儿的学习策略,比如,英语婴幼儿在早期使用强重音来确定词边界(Jusczyk等,1999),而法语婴幼儿则根据音节来切分名词(Nazzi等,2006)。这反映了一个事实:英语是重音节奏型语言而法语是音节节奏型语言。对不同语言背景婴幼儿的词切分研究将有助于了解母语环境对语言习得的作用和婴幼儿感知的自身策略。
划分语法范畴对儿童习得范畴组合和语法规则是至关重要的。然而,我们并不清楚婴幼儿是如何习得语法范畴的,需要对婴幼儿进行感知实验,同时研究父母的输入语言的特性。
关于婴幼儿早期语法范畴习得机制的理论有三种。一种理论认为语义是婴幼儿建立早期语法范畴的基础(如Braine,1976;Pinker,1984):婴幼儿可利用其对世界上事物和行为的概念知识,把指称事物的词归为名词,把指称行为的词归为动词,把指称属性的词划为形容词。但无法解释那些抽象的句法是如何实现转换的。另外一种是以分布为基础的理论,这种理论认为早期语法范畴可以通过对话语中词和语素的共现模式进行直接的(或形式上)分析而获得(例如:Levy,1988;Maratsos & Chalkley,1980)。婴儿不需通过语义就可建立句法系统。第三种基于韵律-音系理论,涉及音系和句法对应关系,认为句法关系和音系以及韵律特征不是相互独立的,而是有一定相关关系(Christophe等,1997;Shi,Morgan,& Allopenna,1998;Shi,2005)。婴儿可以借由这些特征将词开始划分成虚词和实词两个基本类别(Shi,2005),以及名词和动词(Shi & Moisan,2009)。
有一些研究证实父母输入的语言中不同的语法范畴对应不同的韵律和音系的特征。英语的名词扬抑格较多,而动词趋向于抑扬格(Kelly,1992)。英语中名词和动词韵律特征上存在差异,而婴幼儿对这种差异也非常敏感(Conwell & Morgan,待刊)。法语动词和名词的韵律特征也存在差异(Shi,Morgan,& Allopenna,1998)。对英语、法语、荷兰语以及日语的研究发现,动词和名词的音系差异在区分这两类词的范畴中起了关键作用(Monaghan,Christiansen,& Chater,2007)。通过对父母输入语言进行神经网络模拟,发现韵律和音系特征对区分汉语、土耳其语和英语的实词和功能词起了非常重要的作用(Shi,Morgan,& Allopenna,1998; Shi,1996),即使是新生儿也能利用这些特征来区分这两类基本的句法范畴(Shi,Werker,& Morgan,1999)。但是我们还不清楚,普通话的输入语言中动词和名词的韵律特征是否也存在差异。总体上讲,目前对父母输入语言中语法范畴的韵律特征及婴儿对这种特征的感知的研究还远远不够,韵律模式对婴幼儿语法范畴形成的具体作用与过程值得进一步的深入探讨。
对年龄较大儿童的语言产出后的句法范畴习得研究较多,大多是通过自然观察的方法,对儿童的句法范畴的发展过程进行考察。这些研究关注儿童某类句法范畴(如,副词)的发展过程,或是某个词(如,“了”)的习得(Lee,2007;李宇明,2004;程莉维,2006;郭小朝、许政援,1991;穆亚婷、邓永红,2009;肖丹、杨小璐,2003;邹立志,2008)。近来大家开始关注汉语婴幼儿语前阶段和语言产出早期阶段的范畴化能力,我们正在进行针对汉语婴幼儿的这项研究(Zhang,Shi,Li,& Zheng,2009),一方面通过感知实验来检测语法范畴习得的根本机制,考察汉语的婴幼儿是否可以利用分布规则来进行名词和动词的范畴化;另一方面,同时检测汉语婴幼儿是否也利用韵律特征来区分语法范畴,即输入语言中词类范畴的韵律特征是否存在差异。
汉语的词类切分或者词类学习是通过分布模式还是靠韵律特征进行,还是两者的结合呢?这是我们开展儿童句法范畴习得研究的目的。本文重点关注说汉语普通话的母亲对婴儿输入话语中名词和动词的韵律模式。分析材料选自我们录制的“中国社会科学院儿童语音库”中的严格控制的输入语言语料。我们假设韵律特征的差异将有可能作为婴幼儿区分动词和名词范畴的一个因素。
我们的研究数据将有助于了解不同语言是如何标记语法范畴的、是否存在标记语法范畴的普遍韵律特征,以及婴幼儿在早期词汇习得阶段是如何利用这些信息的。
二、实验方法和数据
2.1 语料
首先对录制的儿童语音库中父母输入语言的动词、名词词类出现情况和名词和动词前后出现功能词环境的情况进行分析(张钊等,待发),统计动词和名词每次使用时功能词所处的四种环境:只有前面有功能词环境、只有后面有功能词环境、前后都有功能词和无功能词环境四种。考察的功能词环境包括指示词(如“这、那”)、助词(如“的”)、语气词(如“了、啊”)、量词(如“个”)、某些类似功能词的副词(如“就、才、还”)、方位词(如“里”)、介词(如“在”)和助动词(如“能、要”)等。发现汉语名词和动词与功能词前后同时使用的情况很少,如果前或后单侧使用功能词,动词与功能词出现的情况比名词多,动词的前后位置出现功能词的几率都比名词大。分析结果用于语料设计中负载句的挑选。
然后,选用无意义两音节词作为目标词。这样可以排除词频、音系和句法结构对韵律方面的影响。表1是我们采用的4对同音异形目标词,考虑了普通话有各种声调特征变化如阴平(HH),阳平(LH),去声(HL)等。
汉语的一个音节往往就是一个词,因此在构造无意义两字词的时候我们借用单音节动词和名词的形式来构造两音节动词和名词,使这些人造的动词和名词貌似动词和名词。比如表中“盾街”,就是两个单音节名词“盾”和“街”构成的,而两音节同音动词“炖揭”则是两个单音节动词“炖”和“揭”构成。这样两个词分别由不同的汉字构成但发音一样。
最后,确定负载句。表2给出了我们挑选的3组动词和名词负载句,这些负载句是根据前面对语音库输入语言分析结果,挑出的出现频度较高的常用短语。所以,这些负载句是母亲与婴儿自然交流中常对婴幼儿使用的短语。这两组短语,它们的句法结构不同,但是它们的韵律结构却很相似,每个短语都包含两个两音节韵律词。
表1中无意义的目标词对应放入这些负载句的末尾,一共产生12个名词短语和12个动词短语,比如“我的师灯”、“我也失登”等。加上表1中8个动词和名词,我们一共得到32项实验语料。
2.2 发音人和录音过程
参加录音实验的为20对母亲和婴儿,表3列出了他们的信息。这些母亲都说普通话,婴儿出生在北京,生活在北京。
录音在专业录音室中进行,房间布置为儿童活动房,有很多儿童读物、玩具、家具等,房间大小为15平方米。母亲和婴儿在房间里自由交流。房间内设置一个监视器,屏幕上显示我们设计的语料,提供给母亲。语料的呈现由监控室控制,操作人员在监控室通过耳机监听婴儿和母亲的交流情况,适时切换屏幕的内容。
母亲在衣领部位佩戴无线麦克风(AKG WMS 40 PRO),所有的短语和无意义两音节词被随机打乱顺序呈现给母亲,我们要求母亲在和婴儿交流过程中来朗读屏幕上的短语语料,用对婴儿说话的语气来读这些短语。
母亲可以不限次数地朗读这些短语和两音节词,直到自己满意,录音人员也可以根据发音质量请母亲重复朗读直到满意。每个短语和孤立词都随机呈现两次,有两遍录音。采样率为44.1KHz,量化精度16位。这样,最终我们得到160个同音动词和名词(4*2*20),960个动词和名词短句(24*2*20)。
三、韵律分析
3.1 韵律特征参数提取
把所有的目标词,包括独立的目标词和短语的声音切分出来,进行语音自动切分,用praat(http://www.fon.hum.uva.nl/praat/)分析软件进行标注和分析,去掉那些有孩子声音的或者有明显紧喉音的声音,我们得到947个用于分析的目标词。对这些词用praat提取其基频,然后进行手工修正,每个韵母段等长提取10个点,并且以75Hz作为参考频率,将所有的值转换为半音值:
图1给出了无意义目标词的“查送”音高和时长分析结果。负载句为“我也查送”,上边直方图是两音节的时长分布,下面为音高曲线,左边和右边都是“查送”这个词的音高时长,但是对应同一个发音人两次发音的结果。
从图1我们看到,同一个发音人在不同时间发的音高和时长都会变化,这种发音变化受到语速、声音高低或者其他一些副语言学因素的影响,如当时的情绪和情感等。因此,在比较目标动词和名词的声学特征的时候,一定要进行一些规整,对相对大小,而不是绝对大小进行统计,因此我们选择下面这些声学参数:
第一个音节时长占整个词长比:dur1ratio=dur1/durtotal;
第二个音节时长占整个词长比:dur2ratio=dur2/durtotal;
第一个音节与第二个音节的时长比:Dur1 Rdur2=dur1/dur2;
其中,dur1,dur2,durtotal分别是第一个音节时长、第二个音节时长和目标词长。
每个母亲的音高值也进行z-score规整:
和为某个母亲所有数据的平均值和标准差。
max和min为每个词的的最大值和最小值,rang为每个词的音高变化范围。
rang=max-min。meanSl,meanS2分别是第一个和第二个音节的平均值。
3.2 孤立词的韵律特征分析
3.2.1 孤立同音名词和动词声学表现
图2是8个孤立同音动词Wvl~Wv4和名词Wnl~Wn4的平均曲线,图上可以明显看到相同发音的动词和名词对之间的音高曲线相似,‘W1:cha2song4’以及‘W4:jia41u4’的的变化范围大约为12半音(St),而‘W2:dun4 jiel'的变化范围约为9半音(第一个去声调实现为半去)。
图3是孤立同音动词和名词的前后音节时长比例关系dur1 ration,dur2 ration以及dur1 Rdur2,不难看出,相同发音的动词和名词,对应的时长比率关系非常一致,W1和W2都是后字较长,而W3和W4都是前字较长。
3.2.2 孤立同音异形名词和动词的韵律参数统计分析
上面对孤立的同音异形名词和动词的音高和时长分析,是否存在统计意义上的差异?我们这部分进行韵律声学参数的统计检验。
首先,按照每个发音人的名词和动词的韵律声学参数平均后进行的Paired Samples T-Test。由于W3的两个音节都是阴平调,只有高调特征,所以,不必比较它们的min值,最小值与其他词不具有可比性,故去掉此参数。只关注max,range,mean1,mean2,dur1 Rdur2R以及dur1 Rdur2的统计检验结果,结果显示,孤立的同音异形动词和名词对应的所有这些韵律参数(相对参数)之间没有显著的差异:max(p=.54),range(p=.89),mean1(p=.39),mean2(p=.32),dur1R(p=.33),dur2R(p=.33)和dur1 Rdur2(p=.37)。因此我们可知,尽管我们在设计语料的时候,试图把同音动词和名词从词形上分开,而母亲们的发音在孤立单念的同音异形动词和名词的韵律特征方面没有显示出差异。
接下来,我们对每一对孤立同音异形动词和名词的所有声学参数进行independent-samplesT-Test,结果显示,除了“WN2与WV2”(dun4jie1)的max之间有显著差异、“WN1与WV1”(cha2 song4)的rang之间有显著差异之外,其他声学参数之间都没有显著差异,因此,整体来说,4对人造“动词和名词”之间有比较相似的声学表现,不存在一致的可以区分孤立同音异形动词和名词的音高或者时长参数。
3.3 短句中同音名词和动词的韵律分析
3.3.1 短句中同音异形动词和名词的音高和时长
图4和图5是短句中的同音异形名词和动词的时长Dur1R和Dur1 Rdur2的平均值,明显看到,名词的第一音节占总时长比例Du1R和两音节的时长比Dur1 Rdur2均大于对应的同音动词。但是,是否有显著的差异,还有待统计检验。
图6显示了这四对同音动词和名词的曲线,每一条曲线都是基于所有发音人的均值画出来的。从图上显示,所有四对同音名词的第二音节的音高都大于对应的同音动词。
3.3.2 短句中同音动词和名词的韵律特征统计分析
在每一位母亲的24个短句的同音动词和名词中,有一些发音出现了紧喉音creaky voiced,的提取受到影响,因此在统计分析中,把这些紧喉音排除在外。这样在成对T-Test中,我们有13位母亲的数据。统计检验的结果列于表4中,第二音节的均值即mean2,在同音动词和名词之间有显著的差异(p<0.05),而第一音节和第二音节时长比Dur1 Rdur2,同音名词比动词要大(p=0.073<0.1)。
我们对动词和名词短句中的4对同音动词和名词的声学特征meanS2,Dur1Rdur2分别进行方差分析ONEWAY ANOVA,结果见表5,除了WN1 & WV1的两音节时长比没有显著差异之外,所有同音动词和对应名词的第二音节音高和两音节时长比都有显著差异(P<0.05,表中用‘**’表示)。
通过上面的声学和统计分析,我们发现四对目标词的声学参数之间差异性主要集中在时长比例关系参数以及第二音节音高均值上。第二音节的音高均值或者也可称为音阶meanS2是唯一可以区分所有同音异形的名词和动词的韵律特征,Dur1Rdur2是贡献第二大的韵律特征,四个动词和名词对中,有三对可以通过这个特征加以区分。
3.3.3 基于韵律参数的动词和名词区分实验
上一节的分析表明了短语中的名词和动词的声学参数有差别,但是我们还想进一步了解依靠这些声学参数,多少成的名词和动词就能得到区分?
我们对上面分析观察得到的时长和几个主要参数进行线性区分实验Linear Discriminant Aanalysis(LDA)。输入参数主要为前面提出的时长和音高参数(包括音高的规整和非规整值)。
1)短句中动词和名词“cha2song4”的区分实验
表6表明,平均67.2%的输入样本得到正确区分,其中65.5%名词cha2song4,68.8%动词cha2song4可以通过输入的声学参数进行正确辨识。但是输入的声学参数对辨识的贡献率不同,meanS2最大(0.461)。
2)“dun4jie1”的动词和名词区分实验
上表表明,平均62.5%的输入样本得到正确区分,其中43.9%名词dun4jie1,80.4%动词dun4jie1可以通过输入的声学参数进行正确辨识。在区分实验中贡献最大为参数为第一音节与第二音节的时长比dur1Rdur2(具体的各个参数的贡献率略,下同)。
3)“shi1deng1”的动词和名词区分实验
上表表明,平均69.7%的输入样本得到正确区分,其中69.1%名词shi1deng1,70.2%动词shi1deng1可以通过输入的声学参数进行正确辨识。meanS2为贡献最大的参数。
4)“jia41u4”的动词和名词区分实验
表9表明,平均63.0%的输入样本得到正确区分,其中54.9%名词jia4lu4,70.4%动词jia4lu4可以通过输入的声学参数进行正确辨识。meanS2贡献最大。
5)全部4对同音名词和动词的区分实验
我们把上面4对同音动词和名词放到一起进行区分实验,输入仍然为时长和规整的参数,得到表10的区分结果。52.4%名词和67.9%的动词可以进行正确区分,平均正确区分率为60.4%。这个数字略低于每个动词和名词的正确区分率,因为我们的测试集扩大到了4对同音的动词和名词。
LDA分析还得到MeanS2和DR12的贡献率最高,分别是0.72和0.59。
四、讨论与结语
沈家煊先生提出汉语的句法范畴的构成与印欧语系有明显不同,汉语的句法范畴在词汇上没有形态定义,“在具体的语用范畴和抽象的句法范畴的关系上,英语都是实现关系,而汉语都是构成关系”,这就是“汉语缺乏形态”这一事实背后隐藏的认知上的深层原因。(沈家煊,2007;沈家煊,2008)同样用作通指语,英语名词要用一定的附加形式才得以实现,汉语名词不存在实现形式的问题,沈家煊先生用一个例子说明汉语与英语的两种关系区别,英语名词tiger入句后实现为通指语或专指语,tigers和the tiger(s)是不同的实现形式,而汉语名词“老虎”入句后就可以构成通指语或专指语,不需要什么实现形式。(沈家煊,2008)
汉语和印欧语的差异必定在儿童句法范畴习得上有所体现,汉语儿童不可能靠形态标记来区分词类,分布特征和韵律特征就可能是汉语儿童使用的两个手段。我们正在进行的儿童名词和动词范畴区分感知实验,严格控制了韵律特征,因此可以验证是否可以靠分布信息来区分动词和名词,已经完成表3中20个婴儿的实验,还需要增加被试,才能得到有统计意义的结果。
通过本研究对母亲输入数据分析,发现单念的4个人造无意义同音异形动词和名词之间,没有韵律上的差异表现,而在选定的句型中,第二个音节的音高均值meanS2或者称为音阶有显著差异,说明这是区分我们选定句型中的动词和名词的一个主要的韵律特征;其次,第一个音节与第二音节的时长比特征Dur1 Rdur2在四对词中的三对都有显著差异,说明这是一个第二位的具有区分作用的韵律特征。
从区分实验上看,短语中每一对同音动词和名词之间有大约60%可以通过输入的韵律参数得到归类,而且动词的区分结果好于名词。而如果短语中的四对动词和名词都参加区分实验,动词可以得到68%的正确归类,而名词可以得到52%的正确归类,说明婴儿对动词的划分应该有较高可能性,可以从母亲输入的连续语音中通过韵律特征得到词类的划分的信息。
从语音学的分析上,我们也可以说明造成这两个位置上的韵律特征差异的原因。在名词短句中,目标词前为一个轻声音节“的”与“个”,而动词目标词前是焦点标记词“也、别、不能”,往往这些焦点标记词(焦点算子)读得也比较重,成为核心前重音或者就是焦点重音,造成后面的动词比名词的音高更低一些,最后音节的时长拉长效应更明显。语音上的这种表现,其实是两类句式和他们韵律结构共同作用的结果,是我们严格控制各种条件后看到的一种表现。在后续的研究中,我们将观察名词和动词与前接焦点词的关系,以检测各种焦点环境中韵律特征与句法范畴划分的鲁棒性。
在实际话语中,对儿童语音库中父母输入语言的统计结果中,我们看到,动词是以单音节为主、名词以双音节为主出现的。我们认为句法框架、词汇构成以及语流中由于表达造成的韵律结构、焦点重音变化,都可能引起韵律特征的变化,因此,众多因素都可能是婴幼儿进行词类习得的有效途径,我们相信婴幼儿可以通过各种学习手段来归类。
但是,通过我们设计的名词和动词句型,看到母亲的输入语音在这两种短语上出现了韵律特征差异,至少证明了这些差异也许是帮助婴幼儿进行词类的区分有效信息之一。那么更小的婴儿和更大的婴儿的情况怎样?我们的分析实验还在进行,今后会有报告。
此外,婴儿是否同时依靠分布信息来区分词类,根据本研究的结果我们推测,名词的划分可能更依赖于韵律和韵律以外的信息来共同支持,不同的信息如何具体影响划分,有待对儿童动词和名词词类区分的观测实验来证实,我们的实验也在进行中,希望不久可以得到一些证据。