基于连接论理论的第二语言词汇习得研究框架_自然语言处理论文

基于连接论理论的第二语言词汇习得研究框架_自然语言处理论文

基于联结主义理论的第二语言词汇习得研究框架,本文主要内容关键词为:词汇论文,习得论文,框架论文,主义理论论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 引言

随着语料库技术的发展,语料资源逐渐丰富,统计手段逐步完善,真实语言材料属性统计和语言学习的关系越来越受到重视,其中最有代表性的理论就是联结主义理论(connectionism)。联结主义理论认为语言习得的过程实际上是学习者通过真实语言材料获取语言知识并储存于心理词典中,联结主义主张的浮现特征(emergent properties)揭示了语言知识的获得和语言材料之间的本质联系,浮现特征的核心原则是语言规则不是先天固有的,而是在语言获得过程中表现出自然浮现特征,这种浮现过程可以基于对大量输入语料的统计学习而获得(Rumelhart & McClelland 1986,Bates et al.1998,MacWhinney 1999)。近年来,联结主义理论指导了大量的语言习得研究,例如基于统计的婴儿学习、大规模基于语料库的知识提取以及计算机模拟语言习得研究等。也有研究者(Stefan et al.2009)将联结主义模型应用到句子理解模拟研究,证明了联结主义理论可以应用到语言习得的各个领域。

与联结主义紧密相连的是语料库技术所提供的语言统计属性基础。由于不同类型的大规模语料库资源的建立,我们可以对语言材料进行统计分析,使得我们对语言属性的认识更加深入。近20年来,汉语语料库建设及其应用方面已经取得了丰富的成果,目前建立的语料库从内容来看,包括汉语语料库、中国人学习外语的语料库、外国人学习汉语的中介语语料库、双语言对应的平衡语料库等。这些语料库资源的建设,为汉语语言习得与认知研究提供了基础。

从目前的研究趋势来看,第二语言习得研究中,词汇习得研究越来越受到重视,其中将语料库统计分析结果和词汇习得结合起来进行研究,是目前词汇习得研究的趋势。但是,真正将语料库的研究成果应用到语言习得的相关研究非常有限,资源的利用也基本在频度统计和例句提取等层面,虽然也在利用共现关系提取词义知识(Burgess & Lund 1997、1999,Landauer & Dumais 1997),认为语义可以从词与词、词与篇章的关系中提取,但提取的语义知识还非常有限,尚未真正在理论上和方法上有所突破。在这样的研究背景下,本文试图以联结主义理论作为理论背景,结合语料库的相关研究成果及研究思路,探讨第二语言词汇习得过程及其特点,提出一个第二语言词汇习得过程理论模型,并着重探讨词汇属性统计研究在第二语言习得研究中的重要作用,为第二语言词汇习得研究构建一个基本的研究框架。

二 联结主义理论与词汇知识

2.1 词汇知识表征与存储

关于词汇知识,语言学界很早就进行了相关的研究。Nation(1990)认为掌握一个词语就是要掌握:(1)形式。形式包括口语的和书面语的;(2)意义。包括概念意义和联想意义等;(3)位置和功能。位置是指语法框架、搭配方式等,功能包括频率和使用场合等。Laufer(1998)也提出了一个类似的词汇知识的定义,将词汇知识分成三部分:基本应接性知识、受控制的知识和自由知识。作者认为词汇知识可能在不同的学习阶段从表面发展到深层。词汇的发展也不只是熟悉新词而已,它还包括深化已知的知识。尽管分类不同,但这些观点的共同之处在于,词汇知识应该包括形态、意义、功能和用法等几个方面。

词汇知识究竟指什么,如何获得,如何组织在人脑中进行储存,不同类型的知识是如何关联的,这些都是认知心理学所关注的重要问题。早在20世纪60年代,心理学家Treisman(1960)提出了心理词典(mental lexcal)这个概念,到目前为止,人们对心理词典的认识逐渐深入,但是对心理词典的类型及其知识组织方式等还没有形成完全一致的看法。心理词典的最核心问题就是词汇知识及其存储方式。我们根据目前基于联结主义理论研究的相关成果,从以下几个方面描述心理词典中的知识表征属性。

(1)知识表征。知识表征描述的是知识如何储存在心理词典中的,联结主义强调的心理词典的表征类型是分布表征(distributed representation),分布表征与传统认知理论对知识表征的看法不同,传统认知理论将人脑看作是符号处理系统,因而采用的是本地表征(localist representation)方法。本地表征的基本特点是一个信息加工的单位(或单元)只表达一个概念(例如语素、字、词等),而一个概念也只由一个单位来表达。这样,表达单位不能进一步分解为更小的单位,因为它与概念间有清楚的一对一的关系。而分布表征认为词汇知识在心理词典中被分解成更小的单元,类似我们人脑的神经元,并且具有某种意义关系的词语共用部分相同的意义单元,比如“猫”和“狗”是两个不同的动物,但是两个词存在很多的相同的意义单元,如“哺乳动物”、“有毛”、“四条腿”、“宠物”等,但是两个词之间也有很多不同的单元,如“猫”和“捕鼠”、“食鱼”、“体型小”等关联,“狗”则具有“食肉”、“啃骨头”、“体型大”等特征,心理词典的表征实质上就是语义单元的分类组合过程。

(2)聚类。是指心理词典中有相同单元的词语按照共用单元的多少形成的聚合关系,由于是共用相同意义单元,因此,相同单元越多,在心理词典中就越接近,反之,相同的单元越少,词语在心理词典中则越远。“猫”和“狗”因为通过一些共同的语义单元形成了聚类关系,但是如果我们再看它们和“石头”的语义关系的话,“猫”和“石头”之间没有共用的意义单元,因此这两个词语在心理词典中可能就不会聚类在一起。

(3)互联。目前研究者对心理词典有了基本的共识,那就是心理词典应该分为形、音、义三种独立的心理词典表征系统。按照联结主义观点,不同心理词典之间存在着单元和单元的联结,比如“形”和“义”之间就存在从形到义和从义到形的双向联结。词典之间是通过单元与单元的联结来实现的,单元与单元的联结强度是通过学习得到逐步加强的。以“狗”为例。当学习者学习词形“狗”的时候,需要和表示意义的相关单元进行联结,最终词形“狗”和“哺乳动物”、“有毛”、“四条腿”、“宠物”、“食肉”、“骨头”等意义单元形成了高强度的联结。这种关系的持续就形成了形和义之间的关联。心理词典之间的这种联结不是简单的一一对应的关系,而是一种激活和抑制的关系。在加工过程中,当我们接收到词形“狗”的刺激以后,会激活相关的语义单元,同时会对“捕鼠”、“食鱼”等猫的语义单元以及其他不相关的单元进行抑制,这样才会不至于激活“猫”的语义属性,而将词形“狗”理解成“猫”,同时也不会激活其他的无关词语的语义单元。

2.2 特征浮现

浮现特征是联结主义的重要特征,这也是联结主义区别于结构主义的重要方面。也有研究者称之为浮现主义(emergentism),按照O'Grady(2008)的观点,浮现主义起源于20世纪30年代(Mill 1930/1843)的化学研究中。Rumelhart & McClelland的联结主义模型一个核心的思想就是语言学规则具有浮现特征,也就是说,联结主义网络通过单元的激活、抑制与联结等特征能够有效地表达语言行为,而这种表达的有效程度仿佛其背后有语言学规则在支配,比如Rumelhart & McClelland(1986)的英语过去时态模型产生的“U-形学习效应”。所谓“U-形学习效应”是指儿童在早期的学习过程中基本不犯语法错误,在中期的学习阶段,错误大量出现,儿童在后期的学习阶段才逐步将错误消除。这种效应无法用规则来解释,因为在Rumelhart等人的联结主义网络中并无任何规则的表征,但网络却显现出规则的效应。可见,单一的联结主义机制既能反映儿童对规则过去式的掌握,也能反映其对不规则过去式的掌握,规则本身不需要在系统中明确表征,但却通过网络学习浮现而出。近来,语言学家和心理语言学家对浮现特征从多个角度给予了讨论(MacWhinney 1999)。Elman等(1996)认为单靠内在机制或外界因素都不能解答人和环境之间的复杂关系。因此,我们应该仔细研究人与环境之间相互作用下所产生的浮现特征。这些浮现特征从联结主义的角度来看正是网络与学习材料之间相互作用的结果。概括来说,联结主义理论的一个重要的特征就是认为学习的过程就是从语言材料中抽取特征的过程,语言获得的过程是通过特征获得规则,而不是直接学习规则。

浮现特征所强调的是特征的获得是通过一定的输入浮现出来的。浮现特征代表了人类获取知识并进行分类储存的认知能力。比如,我们的心理词典的词语存在频度效应,高频词和低频词的反应存在差异,这种差异能够通过实验检测出来(Seidenberg 1985),但是我们并不能把频度作为规则进行教学。再比如“刂”作为部件构字,有一个重要特征就是该部件构字时总是在右边,可以称之为部件位置效应,这种位置效应在我们加工汉字的过程中已经表现出来(Peng & Li 1995),我们获得这个特征是需要对一定数量的由“刂”构成的汉字的学习才能获得的,这个积累的过程就是“特征浮现”的过程。

2.3 学习与权值调整

联结主义区别传统认知理论的重要特征在于它对知识学习的看法。联结主义认为,知识学习的核心问题就是单元之间联结权值(weight)的调整问题。联结主义认为,结构主义理论提供了有效的规则系统描述语言本身,但这系统不能描述学习的过程。由于联结主义采用分布表征,它认为知识学习的过程就是学习分布表征的过程。学习的过程是经过调节单元与单元之间的关系来完成的;而调节单元与单元之间的关系又是经过改变单元与单元之间的权值来完成的。权值是表达单元与单元之间联结的强度。权值数越高,单元之间的联结就越强。一旦联结网络中相应的单元都由适当的权值联结好了,学习的过程和知识的表达也就完成了。如果我们已经学会了F这个字,学习E时只需要将最下部分的单元激活并给予高强度权值,将其与网络中其他单元联结起来,我们便学会了E,就是说,学习的过程就是调整“F”和“E”的激活单元之间的关系的过程(李平2002)。

三 词汇习得过程中的关键因素

3.1 家族

具有相同特征单元的词语会形成聚类关系,聚类在一起的词语就会形成一个家族,一个家族的成员按照共同单元和不同的单元组织在一起,相同单元越多的词语聚集越接近,相同单元越少的词语,关系越远。例如“心”作为语素构词,在全部“汉语水平等级词汇大纲”中构成了43个词,如“关心、安心、心得、心情”等,这43个词或多或少都跟“心”的意义有关,因此,具备了一定的共同属性,这些由一个相同的语素“心”构成的词语就会在意义上形成一个家族。再比如同一个部件构成的汉字会在构形上形成一个家族。同一个家族各个成员的共性和差异的确立,是词汇习得中必须完成的任务,也就是说,所谓词汇的习得过程,实际上不仅仅是家族数量简单增加这个过程,而是在数量增加的同时逐步调整彼此之间的相互关系的过程,也是形成共性和差异的对立的过程。理论上说,家族越大,学习过程得到强化的机会也就越大,学习效果越好,但是家族中各个成员之间的相互关系决定了相互的特点,这些特点体现在频度、规则性、一致性以及它们之间的关系上。

3.2 频度

频度的属性是通过对词语在语料库中的使用情况进行统计得到的,语料库基本上代表词汇在实际语言中的使用情况。从目前心理学的研究结果来看,频度因素是语言习得过程中非常重要的因素。这主要体现在:(1)从某种意义上来看,频度决定了词汇习得的整个过程,因为频度因素决定了词语的常用度,而习得的过程一般来说就是从常用词习得到非常用词习得的过程。(2)频度决定了加工策略的不同。高频的复合词倾向于整体存储,这是因为高频词语的音、形、义之间的联结强,而低频复合词倾向于分解加工,复合词的语素相关的信息在加工中起作用,这也是很多研究者的共识。(3)频度和联结强度。由于高频词学习的次数高于低频词,因此,高频词的形、音、义信息的联结强度更强,形、音、义之间的联结更为直接。

频度属性应该分布在各个方面,也就是说,频度应该从各个角度观察,我们认为词语的频度应该包括以下几个方面:(1)使用频度。指该词语在真实语料中的使用情况,如何获得词语真实的使用频度,研究者已经进行了大量的研究,比如流通度概念的提出及在大规模语料库中进行流通度的计算(张普1999,2000)。(2)同现概率。词语和词语在一起出现的次数越高,建立的联结越强,彼此提供的属性就越具有代表性,学习者通过共现便可以获得词汇知识。(3)句法功能。指词语在使用中所具备的各种句法功能。比如一个形容词,它的句法功能可能包括作谓语、状语、定语等,这些功能哪个占主要的数量,哪个使用次数相对低;再比如动词和宾语的搭配关系,一个动词可能会带很多宾语,但是每个宾语的使用次数可能有所不同,这是动词和宾语的搭配频度问题。

3.3 规则性

规则性(regularity)是指能够用规则推导的属性。例如“青”构成的形声字“清”,两个字的读音一致,这里面隐含着一条规则,就是读这个字时,只要读声旁的读音就读对了,这样的特点可以推导到类似的汉字中,比如“蜻”,学习者利用“青”的读音来推导“蜻”的读音的能力,就是规则性在起作用,这样的作用就叫做规则性效应。但是声旁和整字的关系往往又不全是完全规则的,也有不规则的情况,比如“菁”就不能读“青”的音。一般来说,规则的好学,因为只要掌握一定的规则就可以类推,而不规则的难学,因为不规则的首先要避免规则性的影响,同时要学习规则以外的知识。学习的过程就是不断地解决规则和不规则的矛盾问题。比如在教学用字中,“青”构成的形声字有8个,其中读“qīng”的字有“清”和“蜻”两个,其他6个都不读“qīng”,如“请、精、睛、晴、情、猜”等,学习过程就不是一个独立的过程,而是要处理这一组字中规则与不规则的问题。规则性问题存在于词汇习得的各个方面,比如说语素构词中的规则性实际上是这个家族是否具有某个属性以及具有该属性的情况。

3.4 一致性

对于一个家族来说,家族成员中符合某种规则的成员占全部成员数量的比例,我们定义为一致性(consistency)问题。例如:“青”构成的形声字中,整字和声旁读音一致的规则字有两个:清、蜻,整字和声旁读音不一致的不规则字共有6个:请、精、睛、晴、情、猜,规则字占25%;而“胡”构成的5个形声字:湖、糊、瑚、葫、蝴,读音都相同,规则字占100%。显然这两组字在读音规则性方面一致性程度不同,“胡”构成的形声字完全是一致的,而“青”构成的形声字则一致性不高。一致性是衡量一个家族关系共性多少的一个参数。理论上说,规则一致的好学,不规则不一致的难学,但是实际语言中,完全一致的情况就比较少。

四 第二语言词汇习得模型

4.1 关于第二语言词汇的习得阶段性研究

关于第二语言习得过程研究及其心理表征方式,目前还处在探索阶段。Jiang(2000)提出了一个第二语言词汇习得的模型,认为第二语言词汇习得分为三个阶段:(1)词汇形式发展阶段,即学习者储存新遇到的单词的拼写和读音信息、在心理词典中建立词形信息的阶段;(2)母语中介的词汇知识发展阶段,即学习者把母语对应词条的语义、用法等信息直接复制到二语心理词条,表现为二语词汇的用法带有明显的母语词条特征;(3)第二语言词汇知识综合发展阶段,即二语词汇的语义、句法、形态信息完整地与二语词形整合,达到类似本族语者的词汇能力。作者认为第二阶段向第三阶段发展比较难,存在石化(fossilization)现象。陈士法(2006)认为第二语言词汇表征的获得在不同的阶段表现不同。作者认为二语词汇表征中有三个阶段的区分,第一阶段和第二阶段的语义表征是和第一语言共享的,第三阶段形成了自己的独立表征,因此两种语言的语义系统是独立的,而这两个独立的语义系统又通过两种语言中对应的两个单词间所共享的那部分语义紧密相连。Li(2006)通过计算机模型研究发现,起步早的第二语言词汇习得,词汇表征相对独立,可塑性大,第二语言词汇获得自己的空间,并进行重组,最终获得自己的表征;而起步较晚的二语词汇表征则较难获得自己的表征,“寄生”在第一语言词汇表征上。张银丹(2009)的研究发现,留学生对形容词的习得是从语义知识到句法信息的渐进过程,留学生使用形容词是作谓语还是作定语等方面“向”的意识、句法和语义信息意识在发展过程中都出现了“僵化”和“高原期现象”,两种意识的发展都是一个渐进的过程。张金竹(2009)的研究发现,学习者对词语的习得,会随着汉语水平的提高而形成一个繁杂的语义关系网络,对于同语义类词搭配的语义域会随着水平的提高而渐趋完善。谢谜(2009)的研究发现英语作为第二语言学习者心理词汇的发展也是具备阶段性的。这些研究使我们意识到第二语言词汇习得不仅有自身的特点,还会受到第二语言学习的时机等因素的影响。

4.2 第二语言词汇知识定义

根据目前的研究成果,我们给第二语言词汇知识下一个定义:第二语言词汇知识应该分为读音、词形、意义三个部分及其相互联结,每个部分都有自己的特征,各类知识按照一定的规则组织在各自的词典当中,其中意义知识是词汇知识的核心,意义知识主要包括3个方面:(1)静态知识。指从第一语言中直接获得的词汇意义,静态意义受母语的词义影响,受到第二语言使用的影响有限。(2)动态知识。动态知识是在使用语言中逐渐获得的词汇知识,动态属性包括词语频度、家族关系、句法功能和搭配关系等知识,动态知识尽管还要受到第一语言词汇知识的影响,但不能直接从第一语言获得。(3)词语关系。前面分析过,由于联结主义强调的是分布表征,因此,词汇知识不是独立存储的,词语之间的相互关系就成为词汇知识的重要组成部分。第二语言词汇关系的建立是第二语言词汇知识的重要内容。

4.3 学习的过程

我们认为,第二语言词汇习得的过程具有以下几个方面的特征:(1)词汇知识从简单化到系统化。这个变化过程包括两层含义:词汇学习的过程是词汇知识由简单到复杂的逐渐深化,用法从单一到丰富,从母语词汇知识主导到目的语词汇知识系统的形成;(2)词汇知识的获得是分阶段的,不同阶段会表现出不同的特点。从现有的汉语作为第二语言词汇习得的研究结果来看,二语习得者获得词汇知识表现出非常明显的阶段性,初级阶段的词汇表现为用法相对简单,对意义的依赖性大,由于对词汇的使用情况掌握不好,留学生在使用谓词的时候容易出现泛化和使用不足的情况,这样的情况需要持续很长时间(南旭萌2008,李芬芬2008)。对母语近义词的依赖性比较大,常常出现与目标语意义相关性不高的一组词语混淆的情况(蔡北国2008)。(3)特征的浮现需要一定的数量和过程,一定的数量和过程才形成知识的系统化。学习的数量从少到多,同样,家族具备的属性也在不停调节。词汇知识的丰富需要经历一个过程,一个内涵逐渐丰富,用法逐渐增多的过程。

4.4 第二语言词汇习得模型构想

我们以联结主义理论为理论基础,结合目前的研究成果,提出一个第二语言词汇习得模型。词汇知识获得的过程实际上是从静态知识到动态知识并获得词语关系的转变过程,静态知识主要依赖母语的直接转化,而相反的,动态知识则来源于目的语的使用情况,并且跟母语进行比较,学习过程中同时将目的语词汇中的词语进行聚类,最终形成独立的第二语言词汇系统。按照这样的过程,我们将第二语言词汇的习得分为三个阶段:静态词义的转换学习、动态词汇知识的纠正学习、第二语言词汇知识自主表征阶段。

(1)静态词义的转换学习。这个阶段的学习特点是学习者学习一个新的第二语言词语的时候,初步建立目的语词形、词义和母语词形、词义简单的对应关系;由于是简单的对应关系,这个阶段母语词汇知识对第二语言词汇知识的作用非常大,学习者对母语词汇知识的依赖性很强。这个阶段会表现出目的语用法单一和一定程度的泛化情况。

(2)动态词汇知识的纠正学习。这个阶段主要习得目的语的功能和用法,主要表现在两个方面,首先是逐步脱离母语词汇知识的迁移,同时逐渐丰富目的语词汇的用法。这个阶段持续的时间会很长,学习者第二语言词汇知识会表现出以下特点:用法的丰富,句法功能的形成和加强,搭配知识的获得,对词汇意义的丰富。经过不断调整,目的语词汇知识逐渐丰富,用法逐渐成熟,和母语词汇知识的区分逐渐明显。

(3)第二语言词汇知识自主表征阶段。词汇习得的最重要目标就是建立完整的第二语言词汇知识表征系统,这套系统既区别于母语的知识表征,但是又与之有一定的关联。我们认为二语词语表征系统和母语词语表征系统是一种交叉关系,而不是彼此独立的,二语词汇习得过程实际上就是这种交叉关系的逐步调整过程。

我们认为,在二语词汇知识习得过程中,词语的用法知识的获得是最关键的因素,和母语词汇知识相比,学习者更需要获得的是词语在目的语中的使用情况,通过各种使用情况获得词汇知识并和母语进行区分,这是二语词汇知识获得的核心问题。

五 结语

基于语料库的词汇属性的统计研究在词汇教学中起着至关重要的作用,要将这样的理论背景贯彻到汉语词汇教学的相关研究及教学实践中,我们必须在以下几个方面进行努力:(1)要有认知心理学的研究视野。首先要认识到第二语言词汇习得中词汇知识的特点及其特征变化情况,特别要结合学习者自身的特点以及人类知识存储的方式;(2)利用多学科交叉背景的研究手段。我们要借助于现代化的手段,利用语料库资源进行统计分析,并借助于计算机模拟研究等先进的研究手段,进行词汇知识相关方面的探讨;(3)采用多角度的研究方法。研究方法上要采用认知实验研究的方法及对比的方法,对比的方法应该贯彻到以下几个方面:母语词汇知识和目标语词汇知识的对比,目标语词汇知识和中介语词汇知识的对比,母语词汇知识和中介语词汇知识对比等,从而使词汇知识习得过程真正得到全面深入的研究。

标签:;  ;  ;  ;  

基于连接论理论的第二语言词汇习得研究框架_自然语言处理论文
下载Doc文档

猜你喜欢