中文双字词的表征与加工(上)[1],本文主要内容关键词为:表征论文,中文论文,字词论文,加工论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
摘 要 从研究背景、实验研究和理论观点等几方面对中文双字词的表征与加工的有关研究进行了总结,介绍和分析了常用的几种实验研究范式和有关的实验结论,并对两种主要的理论模型进行了比较。在此基础上提出了进一步研究所应注意的几个问题。
关键词:双字词 表征 加工
近些年来,关于中文双字词如何识别的问题引起了国内外学者的重视,并进行了一系列研究。本文拟对有关的研究作一初步的整理和概括的介绍,在此基础上提出进一步研究注意的几个问题。
1 研究背景
对中文双字词的识别问题的关注部分地源于进行跨文字比较研究的需要。自70年代以来,有关多词素词(morphologically complexwords)的表征和加工的问题成为心理语言学研究的热点。围绕该问题已进行了大量的研究,其实验材料涉及了英语、荷兰语、意大利语、克罗蒂亚语、德语等多种文字,而且有越来越多的文字被卷入。
多词素词识别的研究重点集中在两个方面:a)多词素词的词汇信息及其词素结构的信息在心理词典(lexicon)中是如何表征的。b)多词素词的识别过程的加工单元或通达单元是什么?其具体加工过程是怎样的,是一直接通达整词词条还是通过调素词条的通达来识别整词?这两个方面有着内在的联系,第一个方面回答心理词典内词汇信息的组织方式,而第二方面回答词汇信息是如何补充激活和提取的。在拼音文字中,多词素词的研究主要采用了以下一些研究范式,如重复启动和词义启动、变化词频和词素频率、进行复合非词的研究等,运用这些研究范式进行了大量的实验,提出了许多有影响的理论模型,如整词表征与通达模型(Seidenberg 1987;1989)[1][2],词汇分解模型(Taft & Forster 1975;1976)[3][4],AAM模型(the AugmentedAddressed Morphology model),(Caramazza ct al 1988)[5]。整词表征的观点认为多词素词在心理词典中是以整词形式表征的,并没有独立的词素表征;词的识别是通过对整词表征通达来完成的,分解理论则认为多词素词在心理词典中是以分解的词素方式表征的,词素表征的通达是词汇识别的前提。而AAM模型认为词的识别有整词识别和词素识别两种方式,其中对高频词来说是整词识别,对低频词来说则是词素识别。
中文在某些方面不同于拼音文字,例如:在拼音文字中,多词素词从构词法上有三种类型:A、曲折变化词(inflected words),如BOYS,STUDIED等;B、派生词(derived words),如CAREFUL,STORAGE等;C、复合词(compound words),如BLACKBOAD等。与拼音文字相比,中文中有大量的复合词,但没有曲折变化词和仅有极少量的带词缀的词,而且在复合词中绝大多数是双字词。因此英文识别加工的一些假设,如前词汇的词缀自动剥落假设,对中文材料就不适用。对于英文复合词来说,其字形是一个整体(尽管它含有多个词素),如果对复合词的识别首先要通达词素表征,则需要在识别加工中有一个将整词切分为几个词素的过程。中文双字词从字形上看是两个分离的单元,故在识别时无须先对它进行切分。另外汉语复合词的构词关系好象比拼音文字更为复杂,例如在中文的合成词中有联合式、偏正式、主谓式、动宾式几种类型;而在拼音文字中,复合词的构词方式便没有这么复杂。因此对中文双字词的识别过程的研究及从理论上的解释必须结合中文自身的特点,而不能简单地照搬拼音文字研究的结论。中文复合词在心理词典中的表征方式及其加工过程有什么特点?这个问题已引起国内外众多研究者的注意。
2 中文复合词识别的实验研究
2.1 词素频率研究
张必隐和彭聃龄(1992)[6]采用控制词频,变化字频的方法研究了中文双字词的表征与存储方式,其实验假设为:在词频保持不变的情况下,如果词素频率的变化对词的识别过程有影响,则可以认为双字词的心理词典中是以词素方式表征的,反之如果词素频率的变化对词的识别过程没有影响,则可以认为双字词是以整词方式表征的。实验设计及结果如下:
在实验一中,实验材料为20个词频相同的联合式合成词(coordinative words),第一、二部分的实验条件分别为尾字频率保持恒定而变化首字的频率和首字频率保持恒定而变化尾字的频率。
实验结果显示:首字频率高和低两组的词汇判断反应时差异非常显著,错误率差异也非常显著。尾字频率的变化对反应时的影响达到了显著水平,错误率差异不显著。(见表1)
实验二的材料改为20个偏正合成词(modifier words),其中首字为对尾字的修饰。实验设计与实验一相同。结果显示在首字频率变化的条件下反应时和错误率差异均未达到显著水平,而在尾字频率变化的条件下反应时之差达到显著水平(p<0.025),错误率差异不显著。
实验三进一步探讨了在保持词素频率一致的情况下,变化词频对词的识别的影响。结果显示在字频完全相同的情况下,词频的变化对识别反应时影响显著(p<0.01),错误率差异不显著(p<0.05)。
三个实验的结果表明:词素(字)的频率与整词的频率对词的识别均有影响;联合式合成词和偏正式合成词的信息表征可能有所不同。作者对实验结果的解释为:在心里词典中双字词是以分解形式表征和存储的,即以字(词素)为单位存储,因此表现出词素频率效应。同时整词频率对词素表征之间的联系强度也有影响,所以对词的识别有影响。
Taft等(1994)[7]也发现了成份字的频率效应。在他们的研究中实验材料为词频相同的双字词,这些双字词根据其成份字的频率分为四组:高一高组(两个成份字都为高频字);高一低组(前字为高频字,后字为低频字);低一高组(前字为低频字,后字为高频字);低一低组(两个成份字都为低频字)。被试作业为词汇判断。结果发现高一低组和低一高组的反应时要长于高-高组,词素频率对词的识别是有影响的。但出乎意料的是,对于低-低组来说其反应时却与高-高组材料相同。其原因可能是由于低-低组的材料大多是构词数为1的单纯词,这些词本身就是一个词素,可能是作为一个整体单元进行表征的。
从词的识别中的频率效应似乎可以认为,在心理词典中存在词素(成份字)表征单元,含有同一成份字的所有词都享有该词素的表征。在词的识别中词素的表征在一定加工阶段上起重要作用。
但在周晓林等(1994)[8]用听觉刺激材料所做的类似的研究中并未发现词素频率效应。其研究由三个实验组成,考察了词频、音节频率和词素频率的变化对听觉词的词汇判断反应时的影响。前两个实验的结果显示:只有词频的效应显著,音节频率和词素频率的作用均不显著。实验三的结果则表明,在控制词频和词素频率的条件下,高音节频率对词的识别有抑制作用。
周晓林等的实验结果在词频作用显著这一点上与张必隐等(1992)的实验结果是一致的,但对结果的解释却不同,周晓林等认为在心理词典中存在整词表征单元,整词频率的作用可由整词表征层直接得到解释。在该实验中并未发现词素频率的作用,作者认为这是由于同音词素的表征在被激活时会相互竞争,从而使词素效应不显著,需要指出的是,两个研究的实验材料在性质上是不同的,一种为视觉刺激材料,一种为听觉刺激材料,由于被试在对材料进行识别时所用的加工通道不同,所以对上述的实验结果不能直接进行比较,实验结果的差异可能体现了不同加工通道的特点。
2.2 重复启动研究
彭聃龄、李燕平和刘志忠(1994)[9]采用重复启动的方法研究了中文双字词的识别过程,进一步提供了支持词素存储假设的依据。在实验中目标词包括双字合成词与单纯词两种。合成词又分透明合成词(词素意义与整词意义一致,如:笨拙)与不透明合成词(不能从词素意义推和整词意义,如:漂亮)两类,单纯词根据构词数多少也分为两类:单纯词1(成份字的构词数大于1的单纯词,如:马虎)和单纯词2(成份字的构词数为1的单纯词,如:徘徊)。启动材料有四种情况:1)单字重复启动,用目标词的一个构词成分(首字或尾字)作为启动字,如:轻-轻柔。2)单字无关启动:用与目标词在形、音、义三方面均无关联的词作启动词,如:封-轻柔。3)整词重复启动:用目标词本身作启动词,如:轻柔-轻柔。4)整词无关启动;用与目标词在形、音、义上均无关联的词作启动词,如;简朴-轻柔。被试作业为词汇判断,仅对目标词作判断。SOA时间为240ms。
实验结果显示:单字启动与整词启动在反应时与错误率上均表现出显著的重复启动效应,单字启动量与整词启动量没有显著差异,是一种完全启动模式。合成词与单纯词1(成分字的构词数大于1)之间差异显著,合成词的识别快于单纯词1,但是,单纯词2(成分字的构词数等于1)的识别却快于合成词。实验还发现,合成词与单纯词1存在明显的位置效应,位置1的词素重复启动效应大于位置2的词素。
但周晓林等(1995)[10]用听觉材料得到了不同的研究结果。当重复词素的位置为首位时,不管是即时启动还是延时启动,整词启动的启动量都显著大于词素启动的启动量,仅在重复词素的位置为尾位时的即时启动中为完全启动模式。该研究中还有一个有趣的发现,当启动词与目标词中有一成份字的字形、字音相同但并非同一词素时(如用"JU(4)LIE(4)"〔剧烈〕去启动"JU(4)BEN(3)"〔剧本〕和当启动词与目标词中有一成份字的字音相同、但字形不同且并非同一词素时(如用"JU(4)PA(4)"〔惧怕〕去启动"JU(4)BEN(3)"〔剧本〕),启动词的启动效应随同音异义字的位置而表现出相反的趋势,当同音异义字在词的首位时,启动效应是一种抑制作用,而当同音异义字在词的尾位时,启动效应是一种促进作用。作者认为这种相反的趋势有力地支持了在心理词典中存在整词表征层的假设。
在对拼音文字的研究中,一般认为完全启动模式有利于词素存储与加工假设。因为这种假设认为含同一词根的所有词都有一个共同的词条(lexicalentry),对这些词的识别会通达同一词条;而整词存储与加工假设则认为含有同一词根的词各自有单独的词条,而不共享同一词条,仅在这些词条间存在着联系。完全启动模式中词根对词根的启动作用等于词形变体(整词)对词根的促进作用。而在部分启动模式中,词根对其自身的启动作用要大于词形变体(整词)对词根的促进作用。故完全启动似乎支持词素存储与加工假设而部分启动似乎支持整词存储与加工假设。
但中文复合词通常是由两个成份字组成,而不象大多数英文多词素词是由词根加词缀组成的,因此对中文结果的解释不应简单地套用拼音文字中的判别模式。对于由词根加词缀形成的多词素词来说,其词义基本上与其词根的意义是一致的(对于那些否定性的词缀,如IN-,IM-等,其派生词义与词根义相反)。词缀通常只是标志着词的词性或词的句法功能。对这些词来说,有可能通过通达其词根词条来识别该词,但中文双字词的词义通常由两个字共同决定,仅激活一个成份字的表征并不能识别该词,词的识别需要两个成份字的表征都得到激活。从这一点来讲完全启动模式似乎是不应该出现的,因为单字的启动只能预先激活一个成份字的表征,而整词启动会预先激活两个成份字的表征,这时整词启动的启动效应应该大于单字启动的启动效应。那如何解释出现的完全启动效应呢?完全启动效应的出现可能与以下因素有关:1)SOA的长短,2)高限效应。当SOA较短时,启动刺激对目标词识别的促进可能发生在加工的早期阶段上,或者说主要在前词汇水平上起作用,这时单字启动与整词启动的促进作用之差异可能达不到显著水平。高限效应(又称天花板效应)是指如果单字启动的启动量本身已达到了较高的水平,那么整词启动的启动量在此基础上很难再提高了,这时就有可能表现出完全启动模式。在彭聃龄等(1994)的研究中,单字的平均启动量达到140ms左右,而首位单字的平均启动量达到160ms左右,故研究结果得到了完全启动模式,但在周晓林等(1995)的研究中,首位词素启动的启动量最大只有40ms左右,这时整词启动很容易超过这个值而表现出部分启动模式,在尾位词素的即时重复启动中,词素的启动量高达139ms,在这种情况下表现的是完全启动模式。由此看来,研究中发现的完全一部分的启动差异可以由高限效应来解释。
在词素启动的位置效应上,研究结果也存在着差异。在彭聃龄等的研究中,不论反应时还是错误率,首位词素启动对整词差别的促进作用要显著大于尾位词素启动的作用,但在周晓林等的研究中,尾位词素的启动作用要显著大于首位词素启动的作用。这种不一致可能与对材料识别的加工通道不同有关。对于视觉加工通道来说,双字词的两个成份字是同时呈现的,对首字的加工可能更重要一些,因此首字的预先呈现对词的识别会产生更明显的促进作用,对于听觉加工通道来说,双字的读音是系列呈现的,由于中文的同音字很多,首字字音对词的预期作用不明显,因而在对输入的刺激进行词汇判断时更多地依赖于第二个字音的呈现,第二个字音在词汇判断中的作用更大,故尾位词素的启动作用要大于首位词素启动的作用。
词素启动的位置效应有利于以词素为单位进行加工和存储的假设,因为词素启动的位置效应意味着对双字词的加工有一个自左至右的将整词解析为词素的过程,如果双字词的加工与存储单元为整词表征,那么不同位置的词素其启动效应应该是没有差别的。
(未完待续)
[1]与此文有关的交流请与彭聃龄(100875 北京师范大学心理学系)联系。
标签:启动效应论文;