多模态感觉系统与语言研究_乔姆斯基论文

多模态感官系统与语言研究,本文主要内容关键词为:感官论文,多模论文,语言论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      “多模态”(multimodality)在西方已经成为一个跨学科的热门话题,涉及语言学、认知科学、哲学、脑科学、临床医学、计算机科学等领域。本文一方面梳理大的研究脉络,勾画一幅全貌图,另一方面集中讨论多模态感官系统与语言的交叉研究。

      多模态研究的成果主要见于英语文献,此外,汉语“模态”一词可以用来翻译mode,modality或module。鉴于此,在进入主题之前,我们有必要先梳理英语文献中一些术语的用法,避免误解和概念上的混淆。

      术语mode跟本文讨论的多模态现象联系最紧密,也特别容易混淆。在以韩礼德(Halliday)为代表的功能语言学中,语境由三元素组成:(1)场景(field);(2)人物及其关系(tenor);(3)语言方式(mode)。在某个语境里,是选用口头交流还是通过书面文字,就是在做“语言方式”的选择(2001[1978])。Hodge和Kress(1988)在拓展韩礼德的社会符号学理论时,一方面承袭这个用法,另一方面又用它来指非语言方式。后来,Kress(2009,2010)用它来泛指能够产生意义的任何符号资源,如文字、图像、颜色、版式、手势、音乐、动漫画,甚至包括发型、化妆等,这些都可以用来传达意义,因此都是mode。当今的图书页面、网页、手机触屏设计等,往往同时混合使用多个这样的mode,这种呈现方式被称之为multimodal,普遍译为“多模态”。对混合使用的作品用话语分析的方法作系统研究,则称之为multimodal discourse analysis,译为“多模态话语分析”。

      需要强调的是,本文讨论的“多模态”概念不是上文说的多模态概念,而是源自脑神经科学。人们日常说的“五官”,在现代脑神经科学里称为“感官模态系统”(sensory modalities)。以视觉为例,眼睛器官加上处理视觉信号的神经系统组成一个视觉模态。多模态指多个感觉器官加上处理各自信号的神经系统。视觉、听觉、触觉、嗅觉和味觉是本文主要关注的多模态感官系统。

      概言之,多模态话语分析中的multimodality,源自英文的multi+mode,指多种符号系统;本文的多模态multimodality,则源自英文的multi+modality。由于人脑在处理由多符号系统构成的文本时,需要调用多模态感官系统,多模态话语分析因此跟本文的多模态感官系统研究是有内在联系的,但属于本文多模态研究的一种应用。为了避免混淆,本文把multimodal(源自multi+mode)译为“多符号”,把multimodal(源自multi+modality)译为“多模态感官”,把视觉、听觉、触觉、嗅觉和味觉统称为“多模态感官系统”。

      多模态感官系统和语言研究有着曲折的历史,充满了争议。尽管如此,研究者的观点愈来愈趋同,即从基于单模态的转向基于多模态的。本文先作学术背景介绍(第2节),然后进入正文,共分三部分。第一部分讨论以单模态为基点的研究,主要是乔姆斯基(Chomsky)的“语言器官”论和福德(Fodor)的“言语模块”论(第3节)。第二部分讨论以多模态感官系统为基点的研究,主要包括皮亚杰(Piaget)的经验建构主义、卡密洛夫一史密斯(Karmiloff-Smith)的认知成长观、琼森(Johnson)的体验哲学以及笔者的“充盈亲历”以及“充盈意义”的建模(第4节),其中穿插介绍胚胎学对听觉和视觉的发生研究以及触觉模态与情感依附的研究。这些研究使研究者得以重新评价乔姆斯基、福德和皮亚杰的经典理论。第三部分通过中医“望闻问切”和智退症患者的视觉失识,演示一些理论问题,包括多模态互动时的模态转换、模态搭配、多模态过滤器等。关于多模态研究的应用,如多模态语料库、多模态机器人、多模态语言教学、多模态与临床语言学等,因篇幅有限,待另文述说。

      2.学术背景:关于多模态感官系统的研究视角

      当今多模态感官系统研究分以下7个视角:(1)生物视角,研究感官的组织结构、生物化学、神经通路等,包括跟动物感官的对比研究。(2)胚胎视角,研究感官系统在出生前发生、发展的动态过程。(3)心理视角,研究通过多模态感官系统与外部世界互动的心理过程。(4)认知科学视角,研究多模态感官系统跟概念的形成与表征、记忆、学习等关系。(5)哲学视角,研究多模态感官跟经验及知识的来源、感知的本质等关系问题。(6)临床视角,研究多模态感官系统的疾病及其治疗方法。(7)人工模拟视角,设计和研发具有人类多模态感官系统的机器人。不言而喻,这7个视角的研究是互为补充的。

      我国古代先贤对五官的功能非常关注。以荀子为例。“君子之学也,入乎耳,著乎心,布乎四体,形乎动静。端而言,蠕而动,一可以为法则。小人之学也,入乎耳,出乎口;口耳之间,则四寸耳,曷足以美七尺之躯哉!”(《荀子·劝学》)这里涉及感官(听觉)跟学习的关系。如果归类,可归入上述认知科学视角的研究范围。然而,需要注意的是,荀子在论述五官与学习的关系时,加入了道德考量。“君子知夫不全不粹之不足以为美也,……使目非是无欲见也,使耳非是无欲闻也,使口非是无欲言也,使心非是无欲虑也。及至其致好之也,目好之五色,耳好之五声,口好之五味,心利之有天下。……君子贵其全也。”(《荀子·劝学》)用现代的术语说,君子的德操对于五官接受外部信息来说,要行使过滤器(……非是无欲……)的作用。这个过滤器使得“君子”有别于“小人”。这种说法在西方文献里是很少见到的(见第5节)。

      还有一点需要强调的是,我国中医的“望闻问切”的诊断法,可归入到上述临床视角的研究。望闻问切等于医生从五个感官模态(详见第5节)获取患者的病兆数据。在西方学术界,研究多模态感官系统的重心一直是放在感官主体跟外部世界互动的关系上。而中医正好相反,重心是如何从多模态感官的外部表象去推究内在的身心状况。这样做在西方临床医学上是少见的,而在我国却有悠久的历史。仅引《黄帝内经》为例。《阴阳应象大论篇第五》云:“善诊者,察色按脉。先别阴阳。审清浊而知部分。视喘息,听音声,而知所苦。”医生通过“察色、按脉、视喘息、听音声”而“知部分”(“部分”指相关的脏器)。

      西方现代神经医学和胚胎学对多模态感官系统的研究取得了很多重要成果,其中以视觉和听觉模态最突出。本文主要参考Kolb和Whishaw(2005,2009)以及Sadler(2012)这三部经典著作。这里我们把多模态感官系统的一些共同生物特质归纳如下:首先,它们都有接收器(即专门用途的细胞),对体内外变化敏感并作出反应。接收器犹如先天的能量过滤装置,作出反应时限于各模态的能量性质和范围之内。比如人类的视觉,能量性质为光能,范围在400纳米至700纳米的波段之间(全波长

纳米)。又如人类的听觉,能量性质为声能,范围在20至20000赫兹之间。这些先天的能量过滤范围划定了人类能够直接感知到的外部世界。有些动物,比如飞虫(Slater 1999:40-1),其视觉过滤范围比人类的要宽,能够覆盖紫外线光或红外线光,因此这些动物看到的外部世界跟人类裸眼看到的是不一样的。蝙蝠能够听到120000赫兹的声音(Slater 1999:40)。假如大自然果真有庄子说的天籁之音(大音无声),那么蝙蝠也许能够听到,而人类却不能。

      感受器还有先天的“感受域”(receptive field)。眼睛的视野便是最好的例子。我们之所以有感知三维空间的能力,是因为视网膜里的细胞有自己的感受域,中枢神经利用这些信息为我们构建了三维空间。感受器还能够确认变化和恒定。当蚊子触及皮肤的瞬间,感受器就会立即通知大脑。视觉对光的变化很敏感,同时对不变的光(恒定状态)很快就适应。最后感受器还有区别“己”与“他”的能力以及敏感度等特点,就不再举例说明了。

      第二个共同要素是神经传导。所有的感受器都通过三到四个神经元跟脑皮质(cortex)相连。信息在传导过程中可变,感官系统因此可以随机调整反应。

      第三个共同要素是各感官系统的信息都汇聚到新脑皮质(neocortex)做解析整合处理,最终变为感知、记忆和行为。所有感受器转换好的信息都编码为“行为潜势”(action potential),进入到周围神经系统直至脑中枢。多模态感官系统各司其职,把内外部刺激进行过滤、转换、分拣分类处理。中枢神经系统能神奇般地把分好类的多模态信息整合起来,变为天衣无缝的整合性体验。

      读者也许会说,多模态感官系统的生物研究跟语言学没有关系。指出两者之间的关系正是本文的首要任务。

      3.以单模态为基点的语言学基础研究

      “单模态为基点”指研究者构建语言学理论时主要考虑一种模态。我们知道,以乔姆斯基为代表的转换生成语法理论有个影响巨大的假设,即人脑中有个“语言器官”(Chomsky 2002[2000]:4)。关于这个语言器官,国内已多有介绍,本文不必赘言。我们关注的是这个机制跟多模态感官系统的关系。我们关注的问题是:假如人脑的确有语言器官,那么它可以独立于多模态感官系统而自主运作吗?下面我们首先讨论福德的“心智模块理论”(theory of modularity),然后把他的理论跟乔姆斯基的语言器官论做对比。

      3.1 福德的心智模块理论

      福德竭力主张心智运作是模块化的(Fodor 1983)。我们知道,当人们发觉蛇时会迅速作出躲闪反应。这个反应行为是非常有规律的,即人人都会这样做(经过专门心理培训的人除外)。然而这个有规律的行为只是表象,其本质在于支配这个行为的“心理结构”。当视觉感官接受到外部刺激(关于蛇的光信号)时,迅速把信息传送给脑神经系统来处理。这时我们要问:送给脑神经系统的哪一部分处理?假如我们用磁共振功能成像来实时扫描脑的处理过程,脑中被激活的部分肯定不止一处,而是多处。然而我们观察到的激活区跟福德关注的心理结构没有直接的关系。他的理论不是关于脑神经活动,而是针对更高的心理层面。他认为,心理层面的“脑”(=心智mind)是高度模块化的,即当心理层面的脑接受到蛇的信息后,有专门的模块来处理这个信息,并且瞬间作出反应。

      福德的心智模型参照的是图灵机(Turing machine)。他把心理处理过程分为三个功能块:(1)转化器(transducer),(2)输入系统,(3)中央处理器(Fodor 1983:41-2)。我们定义的多模态感知系统在他的模型中起转化器的作用,即把接受到的外部刺激(蛇的光信号)转化为心智可以处理的表征形式(视觉神经可以传导的电信号)。输入系统的职能是为中央处理器输入需要处理的内容。这里我们不禁要问,由转化器产出的电信号为什么不直接送入中央处理器?作为中间环节,输入系统是不是节外生枝?对福德来说,输入系统正是其理论的精华部分。输入系统实质上是“输入分析系统”。仍以蛇为例。当人和响尾蛇互视时,响尾蛇还会发出警告声。对于人来说,视觉和听觉两个感觉模态同时启动,即两个转化器同时把外部刺激转化为神经系统的电信号。这时输入系统对电信号进行分析,把分析结果作为输入送到中央处理器。

      若从生物进化的角度看,输入系统作为中间环节,好像是反进化的,因为对多模态感知系统的信息进行分析要花费时间,这样会延误躲避毒蛇的时间。福德的回答是,他定义的输入系统非但不会延误反应,反而会加快反应的速度。这是因为输入系统是:(1)高度分类细化的(rigid domain specificity);(2)自动化的(automaticity of functioning,Fodor 1983:43)。处理视觉模态送来的转化信号,有专门的输入系统来执行;同样,处理听觉模态送来的转化信息,也有专门的输入系统来执行。由于分工明确加上自动化,所以中央处理器能够瞬间收到分拣好的输入信息,省时省力。福德还指出,输入分析系统还有一个重要特点,就是“信息包装”(encapsulation of information)。简要地说,专门用途的输入分析器自身是如何分析外来信息的,是“机密”,属于暗箱操作,外部得到的是处理好的“结果”,且不受外界干扰(Fodor 1983:64-86)。

      我们用感知蛇为例说明福德的理论,这是为了理解的方便。福德自己用的例子主要是语言处理方面的。他认为人脑处理语言的心智机制是高度模块化的。言语模块完全具备上面关于模块化的三个特征,因此是自主、自足的。言语模块是单独的模块,言语模块的转换器是由听觉模态实施的,因此言语模块可以视为听觉模块的一个特殊子模块(另一个子模块是音乐模块)。根据定义,模块是自主、自足的,所以福德的言语模块虽不是独立于听觉模块,但独立于其他感官模态。

      3.2 福德的言语模块与乔姆斯基语言器官的对比

      福德和乔姆斯基都是“天赋论”的支持者,他们都认为人类有天赋的语言习得机制。他们的分歧在于如何构建语言习得机制的模型。福德是仿照计算机来建模的,而乔姆斯基则仿照人类其他器官来建模。乔姆斯基多次强调,语言器官类似于人类的“视觉系统、心脏、分泌系统、手、足”等其他器官。母语习得是语言器官自然成熟的过程,跟人类其他器官自然长大、成熟是一样的。我们“长胳膊和腿,而不长翅膀”是基因决定的(Chomsky 1988:4)。同样,语言器官也可以视为“长在心智里”(Chomsky 2002[2000]:22)。乔姆斯基(Chomsky 2009:3)在评述笛卡尔时再次强调:“……心智是由自然长成的天赋系统组成的,跟人类的心脏、肝脏是一样的。”换言之,母语习得不是“学”来的,而是“长”出来的。多模态感官系统在语言器官长大成熟的过程中起什么作用?乔姆斯基没有提这样的问题,但我们可以找到间接答案。语言器官的“初始状态”(initial state,

)需要在来自外部的后天经验(experience)的“触发”(trigger)下才会长大成熟。在乔姆斯基12部著作中,initial state这一核心概念累计出现141次,而后天的experience累计出现322次。“触发”一词是乔姆斯基的追随者阐释他的理论时喜欢用的(Cook and Newson 2000)。乔姆斯基自己的用词有4个,表达式为:初始状态(

)转化(convert)、勾画(map)、选择(select)、筛选(evaluate)后天经验①。后天经验是通过多模态感官系统与外部世界互动产生的。据此,我们可以推断,多模态感官系统通过后天经验触发语言器官的成长;或用乔姆斯基的表达方式,语言器官初始状态转化,或勾画,或选择,或筛选由多模态感官系统支撑的后天经验。

      乔姆斯基的语言器官模型跟福德的言语模块模型有哪些异同?相同处有:(1)语言器官或言语模块是天赋的;(2)是自主、自足的系统。除此之外,福德认为不同处是“相当大的”(Fodor 1983:3),包括:(1)语言器官没有言语器官的中间输入分析层;(2)乔姆斯基的天赋语言器官实质上是指人类天生领悟的关于母语的一些真知识,用这知识就能判别合不合语法。福德指出,乔姆斯基的天赋知识如果具体化,就是可以用来推演的“含有内容的命题”。

      当他[乔姆斯基]说儿童心智有“内在的结构”,他的意思主要是说有先天就定下来的命题。当他说语言学习理论就是关于语言官能是如何成熟的故事,他的意思主要是说,语言能力在个体发生学上,等于逐步展示天赋信念跟一些感知数据进行演绎推理的结果。(Fodor 1983:7)

      福德说的“一些感知数据”,用本文的术语说,就是来自听觉模态获取的母语话语。“演绎推理”等于说出了乔姆斯基“转化”的本质。乔姆斯基的天赋知识,假若是存在的话,是打包在福德言语模块的中间输入分析系统里的。至此,我们不难看出,乔姆斯基的语言器官模型与福德的天赋言语模块模型两者最大的不同点是,前者的计算(天赋的计算能力)涉及的是天赋知识和演绎推理,不考虑计算的心理过程,因为心理过程被划入“使用”(performance)范畴,而福德的模型是以心理处理过程(上文谈到的转换器→输入分析器→中央处理器)为基点的。言语模块也有计算,但不是演绎推理,而主要是做符号表征与换算。听觉转换器把外部刺激转换成输入分析器可以解读的信息,需要一套表征;输入分析器在给中央处理器发送包装好的信息包时,也有一套表征;中央处理器作综合处理发出行为指令时,又有一套表征②。

      有两点特别需要注意,跟下文的讨论有着紧密的关系。第一,无论是乔姆斯基的语言器官论,还是福德的言语模块论,其天赋有个时间线,即以婴儿出生为界。出生后,天赋就开始通过多模态感官跟后天的经验互动。在母语习得方面,后天经验对天赋的内容改变不大,根据乔姆斯基的参数理论,不过是确定一些参数的变量值而已。第二,跟语言有关的感官模态都默认为听觉以及相关联的发音器官的神经控制系统。然而,关于先天聋哑人的母语以及胎儿听力发育的最新研究,让研究者从新的角度看到乔姆斯基和福德理论的局限性。

      3.3 先天聋哑人的母语:视觉模态和手语

      先天聋哑婴儿出生在聋哑父母的家庭环境里,手语对他们来说是母语。一直以来,人们把听觉模态和声音视为语言的唯一表征手段。说起语言,自然而然地指有声语言。特殊教育里使用的手语,是把有声语言翻译成手势,聋哑人通过手势来学习和表达有声语言的内容。对先天聋哑人来说,这样的手语相当于学习他们无法在感官模态上直接体验的“外语”。

      手语也是母语。这就推翻了语言必有声这一习以为真的命题。Meier等(2002:4)写道:“在过去几十年语言学研究的任何一个领域,最重要的实证性发现之一,就是手势和语音都为语言的载体。之所以说非常重要,是因为它改变了我们对语言的定义。”

      上文(3.1节)说过,在福德的心智模块化理论中,听觉、视觉模态等是自主、自立的模块。因为模块信息是包装好后成包输出的,听觉模态不会直接参与视觉模态,反之亦然。虽然福德(Fodor 1983)没有涉及手语,根据他的模态自主、自立原则,视觉模态支撑的手语在转化器和中间输入分析器这两个部分显然独立于有声语言。

      手语是母语,这意味着视觉模态也是语言的自然模态之一。我们不禁要问,乔姆斯基的UG(普遍语法)是超越模态的(即UG同样支配手语)?还是只适合于有声语言的听觉模态?以音系为例。基于听觉的音系跟基于视觉的“音系”(这个“音系”是一种借用)是相同的还是相通的?Meier等(2002)对此有比较细致的讨论。研究的基本前提是,两者之间有同有异。模态不同自然会导致两者的差异,称之为“模态个性特质”。两者的共同之处则有可能源自UG。文献除Meier等(2002)外,还可参阅Schick等(2006)和Brentari(2010)。

      有些研究者认为人类早期语言(或曰“雏形语言”proto-language)不是有声语言,而是手语。我们知道,听力正常儿童习得母语时,用手势指要东西是先于有声话语的。人类的近亲动物(如猩猩、猿猴)用手势交流也是不争的事实,如讨要食品和梳理毛发。研究甚至发现,猩猩讨要食品时表现出右利手的趋势(MacNeilage 2008:208)。在人类进化史上,人类从四蹄落地爬行进化到站立行走,有了现代人意义上的双手,这给打手势提供了很好的条件。Armstrong等(1995)正是从进化角度来探讨有声语言跟手语之间的关系。他们的要旨是:“语言源自身体”(Armstrong,et al.1995:4)。Stokoe(2000)论证人类如何从手势发展到手语。是有声在先,还是手势在先,还是同步运行?目前人类学得到的证据还很薄弱、零散,提出作为研究假设没有问题,但孰是孰非在短期内无法定论(Johansson 2005:173-92)。

      3.4 胎儿听觉与视觉研究

      根据胚胎发育学,耳朵发育包括三个显著的部分:(1)外耳,负责收听声音;(2)中耳,负责声音传递;(3)内耳,负责把声波转化为神经脉冲以及注意平衡的变化。三个部分在发育学上有不同的发育来源,而在功能上同属一个功能单元。胚芽22天就有内耳发育的迹象(Sadler 2012,Ear一章)。20周胎儿就开始听到妈妈的心跳和外部的声音,六个月以后就能够听到妈妈的语音,甚至对妈妈语言的韵律敏感起来(Karmiloff and Karmiloff-Smith 2001:1-2)。

      如果我们以胎儿开始听到妈妈的语音为分界点,那么乔姆斯基的语言器官初始状态(即

)的时间点就不是出生日,而是要提前至少3个月。乔姆斯基也许会辩白说,这对他的天赋论无大碍,因为语言的天赋知识是“基因划定”的③(Chomsky 1995:14),听觉模态的起始时间跟外部语言(E-language)的形成时间有关。换言之,外部语言不是在出生后才开始形成,而是在未出生前就萌发了。

      眼睛的初始萌发也始于胚芽形成后的第22天(Sadler 2012:415)。跟听觉模态截然不同的是,视觉模态开始接受外部刺激必须等到出生后。婴儿的视力跟成年人相比是较弱的,特别在分辨率上(Slater 2001)。人们不禁要问,视觉模态有没有先天的东西?以皮亚杰为代表的研究者认为除对光作出反射反应外,通过视觉看到的形状、大小等都是后天学习的结果(见下文的讨论)。从视网膜感光、视觉神经传导和中枢神经处理的整个过程看,我们最终能够看到的应该是跟视觉细胞对应的光点、离散且不连贯的模糊形状等。但实际视觉体验却是完整的、三维的、连贯的画面。神经学家还无法从神经学角度解释视觉信息处理跟实际体验不一致的问题,他们称之为“捆绑难题”(the binding problem,Kolb and Whishaw 2005:272)。然而,格式塔心理学家则认为视觉模态有天赋的东西,正是视觉天赋给我们美好的视觉体验。格式塔理论的核心人物Metzger早就提出“视觉律”(见英译本Metzger 2006),即视觉有天赋的、无法违背的视觉规律。这里值得回味的是乔姆斯基在他的著作里经常引用笛卡尔“三角形”来为他的天赋论辩护。笛卡尔的天赋“三角形”跟格式塔的天赋视觉律是不谋而合的(顾曰国2010:297)。

      婴儿的视觉世界跟成年人肯定是不同的,因为婴儿的视觉模态跟成年人相比尚不成熟。“小小婴儿的世界跟成年人相比是贫瘠的,但在出生后3至4个月内,许多视觉功能便接近成年人”(Slater 2001:12)。然而有些研究表明,虽然婴儿在出生后视觉模态才开始接受外部信息,但这不等于其视觉模态是“空的”。有研究表明,婴儿出生时就有先天的人脸喜好(Slater 2001:19-21)。

      3.5 小结

      上文显示,胚胎学对人类感官模态的研究,以及由此引发关于感官模态的天赋性问题的探索,所有这些大大促进了研究者重新审视乔姆斯基的“语言器官”论和福德的言语模块化理论,同时也触发了很多新的研究课题,特别是基于视觉模态的手语研究。作为本节结语,还有一点需要提醒,乔姆斯基的语言器官论,所强调的是人类语言的生物属性,即正是人类的物种特征赋予人类语言能力,从这一点上讲,语言是天赋的,因为人类物种特征是天赋的。福德的言语模块化不是从生物层面上讲的,而是心理层面上的。人类多模态感官系统的生理特性是天赋的,弄清楚天赋的生理特征并把研究成果用来评估语言器官论和言语模块化理论,还有很长的路要走。

      4.多模态感官为基点的基础研究

      “多模态感官为基点”指在构建语言学理论时默认一个前提,即语言的发生与发展需要多模态感官系统的支撑。这个前提听起来跟上述以单模态为基点之间的差异只是模态多少问题。这是表面上的。深层上的差异是多模态感官为基点的研究者对语言能力天赋论持否定态度。当然,否定语言能力天赋论,不等于不承认人类语言的生物基础(Lenneberg 1967)。养育论者跟天赋论者一样,都看到人类天赋的生物基础的确起到“基础”的作用。养育论者不能接受的是,天赋论者赋予天赋的生物基础以决定性的功能,后天的养育对语言的发生和发展仅起触发作用。养育论者认为天赋生物基础的作用是为个体语言在发生和发展上提供一些潜在的“偏好”。除此以外个体语言的习得都靠后天养育。强调后天养育的另外一个结果就是对语言本体的认识。在乔姆斯基和福德的语言学模型中,天赋的运算能力是语言本体的核心,用于计算的东西是句法。在养育论者的语言学模型中,“造义”(meaning-making)取代句法运算,成为语言本体的核心。

      4.1 皮亚杰的行为中心论和感觉—运动体验

      经验建构主义创始人是皮亚杰,学术生涯长达70年,著书88部(Glasersfeld 1995:53)。跟本文主题相关的是皮亚杰的行为(action)中心论和感觉—运动体验(sensori-motor experience)。这两个概念贯穿于他一生的学术思想。这从他晚年著作,也是他一生学术思想的高度提炼之作《知识起源原理》(Piaget 1997[1972])中得到佐证。我们知道,皮亚杰是接受“渐成论”(theory of epigenesis)的,并且把这个理论扩展应用到整个生命周期。婴儿出生后的心理发育过程是对出生前的胚胎发育过程的延续。一个生命周期(从出生到寿终),可以视为一个知识不断积累的过程。这个知识当然指个体知识。皮亚杰认为新生婴儿出生时没有天赋知识,多模态感官对外部世界的感知也不是知识的首要来源。他的独到之处是,婴儿的各种行为是知识的首要来源。“感知的作用固然重要,但感知在很大程度上离不开整个行为。……总体上来说,所有感知赋予被感知物的意义都是相对于行为而言的”(Piaget 1997[1972]:20;黑体为引者加)。换言之,同一个物件对于不同的感知主体来说,因感知主体对这个物体所做的行为不同而获得不同的体验意义。比如一辆玩具小车,婴儿对它所做的行为,如用嘴舔、用手推等,赋予玩具车以不同的体验意义。

      婴儿行为最初是反射型的,如哭、蹬腿、抓东西、看等。这些行为跟当下的体验时空间交织在一起。“体验时空间”是非常重要的概念。婴儿通过多模态感官所体验到的时空间跟成年人不同。而且,随着婴儿一天天的长大,体验时空间即使在同样的物理时空间中也是变化着的。婴儿的记忆力起初很短,只有当下记忆,没有长期记忆。随着记忆力的增长,体验时空间也在不断地扩大。物理时空间中的物件起初只有在婴儿的当下行为触及时才出现,行为结束后物件也就从体验中消失了。简言之,婴儿所认识到的外部世界,是以当下行为所能体验到的时空间为轴心,在多模态感官的支撑下通过不断的当下行为而逐步构建起来的。

      现在我们看皮亚杰的第二个核心概念,感觉—运动体验。皮亚杰以符号表征的出现为界把儿童行为发展分为前后两个阶段,符号前阶段称之为“感觉—运动行为”(从出生到1岁半至2岁),符号后行为没有专门的名字,但按阶段进一步细分为5个子阶段:(1)思维介入前初级阶段(3-4岁);(2)思维介入前第二阶段(5-6岁);(3)概念操作初级阶段(7-8岁);(4)概念操作第二阶段(9-10岁);(5)形式化操作阶段(11-12岁)(Piaget 1997[1972]:第1章)。很显然,皮亚杰的阶段理论是仅针对儿童的认知能力而言的。多模态感官系统的作用也是仅针对认知智力的发展。下面是皮亚杰对他女儿的观察:

      她需要抓住一个布角、口含拇指才能入睡。一日晨,她在小床上坐起,不想继续睡觉,当看到床单的一个角时便抓起它,口含拇指,低下头,闭上眼睛,面带微笑,假装睡着了。(Piaget 1980:385-6)

      女儿跟外部世界互动时连续做了一串行为,涉及多个感官模态,皮亚杰观察的目的是分析这些行为跟认知智力发展的关系(顾曰国2010:299-300)。

      符号前感觉—运动行为是一种“当下行为”(situated action,见第4.5节)。在当下行为中,多模态感官系统在正常发育的条件下是同时、同步运行的。其中听觉、嗅觉、触觉属于接受型的感官,在正常情况下是自主、自发的,即始终处于运作状态,随时接受外部刺激并作出反应,即使感官主体在睡眠中也是如此。视觉与此不同,除视角的限制外,还受到注意力的控制,会出现视而不见的现象。然而,多模态感知系统不仅支撑儿童认知智力的发展,还支撑儿童情感的发展。皮亚杰的经验建构主义对儿童情感的发展熟视无睹,这是该理论的重大缺陷。

      4.2 触觉与新生婴儿的情感依附研究

      新生婴儿反射型行为,如哭、吮吸、蹬腿、抓东西等,即皮亚杰所说的感觉—运动行为,在经验建构主义中是作为认知智力发展的早期行为来剖析的,皮亚杰称之为初级“认知手段”。这跟皮亚杰把生命周期视为终生知识构建过程相一致。由于他专心致志研究认知的发展,无视情感的发展,因此他没有看到,反射行为的首要功能未必是认知,而可能是情感,比如哭是受害怕的驱使。早在1950年代,鲍比(Bowlby)就提出“情感依附理论”(attachment theory),其基本前提是,人类在生理和心理上有依附他人的需要,个体间情感依附关系是首要的,影响个体的成长与发育。在鲍比看来,个体间的情感依附是个体赖以生存的需要,鲍比晚年集大成之作《心安的基点》(Bowlby 2005)从侧面反映了这个思想。Steele(2003)对鲍比的情感依附理论有简明扼要的评述。

      情感依附研究已经成为西方儿童心理学、社会学、心理咨询等领域的显学,文献丰富。跟本文主题直接相关的是触觉模态与情感依附的研究。触觉感官对婴儿情感发展和社会化起着重要作用。胚胎学研究表明,躯体感觉系统(somesthetic system)的发生早于听觉和视觉(Stack 2001:352)。有研究发现母亲对新生婴儿反应特别敏感的是触觉。实验显示,在新生婴儿出生5-79个小时后,母亲通过抚摸新生儿的手就可以辨识自己的孩子(Stack 2001:355)。同样,母亲抚摸婴儿能使哭泣或受惊吓的婴儿很快安静下来。关于触觉与婴儿情感研究的综述,见Stack(2001)。触摸对成年的情感发展和维护同样起着不可低估的作用。触觉也是盲人学习盲文的模态。手机触摸输入则是触摸研究在科技领域里的应用。

      4.3 卡密洛夫—史密斯的“成长理论”

      研究人类的动态发展过程,特别是研究生命周期的发展过程,有了许多成果,如Magai和McFadden(1996),Richardson(2000),Berk(2010)等。儿童语言的发展研究是本领域的核心课题之一。本节要介绍的是一项有特殊意义的研究,即卡密洛夫—史密斯的“成长理论”(developmental theory)。卡氏在皮亚杰学术研究的大本营日内瓦大学学习和研究达13年,对其理论可以说是耳濡目染。然而她认为皮亚杰定义的感知一运动智力作为婴儿习得母语的基础尚不充分,需要一定的天赋成分作为补充,但又不能“天赋”到像乔姆斯基和福德所说的那个样子。她根据相关文献的梳理以及自己对婴儿的研究,指出天赋决定论不能成立,因为人脑的可塑性非常大,个体差异及其变化也非常大,决定论无法面对这些事实。她认为福德的模块化过于绝对,没有考虑到模块化的发展过程。退一步说,即使成年人的一些心智功能的确模块化了,也不等于婴儿的心智生下来就模块化。

      卡氏对经验建构主义和天赋论的双向批评,使得她能够在天赋论和养育论之间开辟一条中间道路。皮亚杰的研究方法是自然观察(主要是观察他自己的三个孩子),这无可非议。但现在看来有个缺陷,即被观察的儿童年龄偏大,没有刚出生的婴儿。后皮亚杰时代在研究手段和方法上都有了很大的发展,用实验方法研究刚出生婴儿已经为许多实验室采用。胚胎研究也成果斐然。面对新的研究成果,研究者开始放弃天赋决定论,接受天赋偏好(innate predisposition)论。卡氏的研究成果主要见于Karmiloff-Smith(1992)以及Karmiloff和Karmiloff-Smith(2001)。本文考察的是她理论中的婴儿实验基础。

      从多模态感知系统的角度看,婴儿实验研究是多模态的,实验用的“刺激集”可以是视觉的、听觉的、触觉的或混合的。婴儿作出的反应涉及同一模态或模态转换。涉及同一模态的如:输入为视觉刺激,输出也为视觉反应。涉及模态转换的如:输入为视觉刺激,输出为吮吸(测量其强度或频度);输入为听觉刺激,输出为对视觉反应(测量“看”的时长)等。根据福德的模块化理论,涉及模态转换的实验有很大问题,因为个体模态自身的信息是封装好的。卡氏挑战福德的正是这个封装假设。上文说过,她认为婴儿的多模态感官还处在成长期,还没有封装。然而她自己也承认,支持她的观点的证据也是不充分的。

      另外,输入感官模态跟输出感官模态之间的因果关系链含许多臆测成分,比如输出视觉模态的“看”,假如因果关系链牢固的话,那么从输出模态的“看”应该能够顺藤摸瓜,返回到输入模态端。实际上并非如此,因为许多实验显示,其输出视觉模态都是“看”,而输入模态却多种多样,这种一个输出模态对多个输入模态的关系远没有搞清楚,还有大量的研究要做(见第5节)。

      4.4 琼森的“身构意义”

      西方哲学界在Lakoff和Johnson(1999)的影响下,出现研究“身构心智”(embodied mind)的热潮。起初,提出身构心智,旨在挑战西方千年来占统治地位的心身二元对立的心智模型。心智是理性的,负责处理概念意义和命题。身体则是非理性的,包括情感、冲动、本能反应等。所谓“身构心智”,按英文词的直译意义,就是被“身体化的心智”。换言之,就是心智非但不能独立于身体,反而是受身体支配的。这里说的“身体”不能简单地理解为生理的器官,还包括心理、社会、文化等赋予身体的一系列价值判断。以我国古代社会为例,在封建礼教统治的时代,女子的手假如被陌生男子触摸就等于失身,这是身体的社会文化意义。Synnott(1993)用“身体社会性”(body social)来统指这类现象。身构心智的理论在语言学界,特别是认知语言学界,影响也很大。Ziemke等(2007)和Sharifian等(2008)代表这方面的最新成果。本节介绍的是跟本文主题直接相关的琼森关于“身构意义”的论述。

      “身构意义”与“身构心智”一脉相承。琼森研究的视野很开阔,他认为“造义”不仅是人类的本能,而且也是其他动物的本能,即人和动物跟外部世界互动时本能地要产生意义。如此造出来的“意义”是个非常广泛的概念。比如,动物跟外部环境互动时辨识同伴、敌人、食物、配偶,这些都是产生意义的过程。人类通过语言符号所表达的意义只是人类造义的一部分而已,还有许多意义是语言符号所无法表达的(比较3.1节中福德的心智模块论)。

      本文关注的多模态感官系统在琼森(Johnson 2007)里,属于“感觉运动”(sensorimotor)的一部分。感觉运动是身构意义理论的核心概念之一。“我在动物认知进化的大框架里看人类认知。如此看,感觉运动的能力,在任何动物体验和认识世界中起着关键的作用”(Johnson 2007:xii)。琼森和皮亚杰都用sensorimotor④这个词(注:皮亚杰喜好中间加连字符),但侧重点不同。皮亚杰侧重的是感觉—运动行为,而琼森侧重感知、运动及其控制机制的运作过程以及所产生的体验。“本书的核心思想是,我们感到的意义首先是基于我们的感觉运动体验,我们的情感……”(Johnson 2007:12)。多模态感官系统直接参与构建的意义是具体的、形象生动的、体验型的,是一切抽象概念的基础。

      琼森的感觉运动体验有一个重要特征,就是直通外部世界,无需内部表征的介入。“我因此摒弃心智表征的经典理论”(Johnson 2007:xii)。在这一点上琼森显然是受到吉布森(Gibson)的“视觉感知生态论”(ecological approach to visual perception)的影响(Gibson 1979;Gibson and Pick 2000)。视觉感知生态论的要旨是,动物(包括人)在用视觉感知外部世界时,无需通过内部表征,即不需要福德的输入分析器的介入,直接感知世界。这个能力是进化的结果。

      最后,我们需要强调的是,根据身构意义理论,造义是语言产生的动力源,而不是乔姆斯基为代表的形式语言学所默认的句法知识。人类首要关注的是生存,必须不断地通过造义来认识世界。造义过程中是不是合语法,无关紧要。人类的造义行为在语言产生之前就能做了。皮亚杰定义的符号前感觉—运动行为正是婴儿会说话之前的造义行为。

      4.5 当下行为的充盈亲历与充盈意义

      笔者接受琼森关于造义是人和动物跟外部世界互动时的本能行为这一观点。从学术渊源上,琼森不是第一个提出这个观点的人。在符号学领域,sign-making就是用来指动物“造义”的。sign-making的本意是“造标记”(亦称sign-making action“符行”),比如狗不时在路边或草丛里撒尿,就是在造标记。人们习惯上认为“意义”只有人类才有。本文考虑到人类的自尊心,把符号学中的造标记定义为最基本的行为,琼森的造义划为高级的造标记行为。换言之,动物有造标记的本能,而人类不仅有造标记的本能,还有造义的本能。

      笔者强调“当下行为”跟“非当下行为”的区别(参见Gu 2002,2009a,2009b,2010)。本节下面讨论的都限于当下行为。一般地讲,动物、初生婴儿、严重的智退症患者等只能做当下行为。本文接受皮亚杰的行为中心论思想,即多模态感官系统不是凌驾于行为之外单独地与外部世界互动,而是服务于当下造标记行为和造义行为。顾曰国(2013)用贴真建模法对绵羊和神农与草互动作了造标记和造意义的对比分析,结果引用如图1所示。

      

      这个分析只涉及视觉和味觉两个模态。我们先看绵羊与草的互动。前面说过,我们在分析感官模态的作用时,是从行为(即造标记)入手。绵羊的造标记的行为我们是可以观察到的——绵羊看见了草,……啃了草。因此我们可以推论绵羊的视觉和味觉参与了这个行为。在图1中,我们看到关于绵羊头脑里“视觉解析果:颜色?形状?”和“味觉解析果:甜?苦?”的字样。这里涉及感官信息的内部表征问题。问号(?)表示我们人类不知道绵羊看到草时是如何表征的。假如我们用福德的理论,绵羊也许有绵羊“脑语言”。假如我们信奉琼森和吉布森的直通理论,那么“视觉解析果”这个环节已经进化好了,是不需要的。顾曰国(2013)之所以可以这样分析,一是根据皮尔斯(Peirce 1955)的符号学理论,“解析果”即皮尔斯的interpretant的汉译;二是顾曰国所采用的研究方法是计算机科学里的贴真建模法,这个方法不考虑心理上的真实性,只考虑模拟的相似性。就像造机器人,不管机器脑是不是跟人脑一样处理信息,只要它能做出人脑所能做的事就行。

      神农跟同样一株草进行视觉和味觉上的互动,同样用贴真建模法进行概念分析。神农脑子里也有视觉解析果和味觉解析果。所不同的是,神农通过有声语言把解析果说出来;根据神话,他甚至还用文字写下来,用草图画出来。用福德的话说,神农对互动做了多重表征,包括内在的心理表征和外在的自然语言表征。

      这里我们需要强调的是,多模态感官系统在当下行为中是同时、同步运作的,通过中枢神经的处理产生整一的体验。Gu(2009a,2009b)把这个整一的体验称之为具有充盈意义(total saturated signification,TSS)的充盈亲历(total saturated experience,TSE)。这里举例说明。比较下面“吃”北京烤鸭的方法:(1)在烤鸭店真吃;(2)看吃烤鸭的录像;(3)听吃烤鸭的录音;(4)读烤鸭制作的菜谱。这四种方法产生四种不同的亲历。对吃烤鸭来说,第一种为“当下行为”,其余都不是。当下行为的亲历是充盈的,带来充盈的意义,其余的相比之下是不充盈的,体验意义是不完整的。

      充盈体验和充盈意义对于构建多模态现场即席话语语料库有较大的理论价值(Gu 2009b)。

      4.6 小结

      在乔姆斯基和福德的理论中,婴儿的心智发育是不均衡的,语言能力是天赋的,因此比其他智力发育要早熟得多。在皮亚杰的理论中,语言能力不是天赋,是跟其他智力互生互长的,语言能力的建构是认知智力全面建构的一部分。多模态感知跟行为捆绑在一起,不像福德模型里那样模块化。

      卡氏试图走一条中间道路,用天赋偏好论替代天赋决定论,目前看来的确是个进步。她把现象的观察和理论的构建提前到胚胎发育和刚出生的婴儿,不管基于多模态感官的实验是否完全可靠,就研究本身来说是一大进步。

      琼森和笔者的研究从人类和动物的造标记和造义本能入手,强调感觉运动体验是一切认知的基础,造义是语言的首要问题。这一点目前看来值得肯定。

      多模态感官系统跟情感的发生与发展的关系,除上文谈到的触觉与婴儿情感依附的研究外,其余的都是零星研究,可以说是刚刚起步。

      5.多模态感官系统与语言研究:三个理论问题

      至此,读者会感到多模态感官系统与语言研究涉及很多理论问题,的确如此。作为结语,本文只讨论三个,多模态转换(multimodal exchange)、多模态搭配(multimodal congruence)和多模态过滤(multimodal filtering)。这些跟多模态研究的应用有直接关系。三个问题上文实际已经触及,这里我们通过举例作进一步阐释。

      多模态转换包括两个方面:发生在(1)单个体内,(2)人际间。单个体内的模态转换,如一边看书面文字(视觉模态)一边念出声来(听觉模态)。多模态转换是“通感”的生理基础。人际间的模态转换如老师念(听觉模态),学生记笔记(这里涉及听觉、视觉、触觉三个模态同步运行;边听边记因此很累)。

      多模态搭配有两个含义:(1)感官模态有生物生理特征所决定的默认数据类型,如上文提到过的听觉对声波、视觉对光波等;(2)多模态发生转换时,有些模态间的转换是顺畅的,有些是别扭的、不协调的,比如把听觉信息转换成味觉信息似乎是困难的,视觉信息转换成听觉信息是相对容易的。以笔者为例,看文字时都要转换成无声的语音才能理解文字的意义,但并不觉得困难。关于多模态转换和搭配与语言教学的关系,参见顾曰国(2007)。

      第1节提到中医诊断法“望闻问切”,在本文的研究架构中属于多模态感官系统研究的应用。“望闻问切”启用医生多模态感官系统,去感知患者的病兆信息。“望”用视觉模态去观察患者的身体、外部行为的状况,如眼神、舌苔、神色等。医生望诊对患者眼神、舌苔的颜色、神色等,在多模态转换与搭配上都是顺畅的。“闻”包括嗅觉、听觉两个感官模态,医生“闻”用的模态跟患者模态输出是一致的,即嗅觉对气味、听觉对声音。“问”是听觉模态的输出端,医生问、患者答都是基于听觉模态。医生“闻”(=听闻)患者时,“闻”的是声音质量(如底气足、洪亮、有气无力),医生“问”患者时,问的对象是作为心声的“言”⑤。“切”用触觉模态,脉诊时输出的是脉动,输入—输出在模态搭配上也是一致的。

      “多模态过滤”这个提法是为了记忆和谈论的方便。它是用来概括这样一个现象,即多模态感官系统在与外部世界互动时会受到个人信念、价值、知识等的影响。如第2节提到的荀子的“……非是无欲……”就是来自儒家思想的过滤器。多模态感官系统的生物生理特质构成物种过滤器,如第2节提到的人类的感官系统,跟其他动物不一样,因此我们感知的世界跟其他动物是不一样的。皮亚杰的经验建构主义关于婴儿出生时感觉—运动行为,属于人类物种过滤器,它假定人类婴儿全是一样的,所有婴儿在出生时处于同一“起跑线”上。婴儿出生的家庭、社会、文化的不同,产生不同的非生物生理的过滤器,其中最重要的过滤器莫过于婴儿的母语。多模态过滤器提供“框束”(framing)与“机遇”(enabling)两个相辅相成的功能。婴儿接触的母语,作为过滤器,框束他们学习其他语言和自我随机表达的机会,同时也为他们造义时提供预制好的表达手段。

      关于“多模态过滤器”一词,西方研究人员喜欢用“有认知支撑的感知”(cognition-mediated perception)、“预制方案”(schema)、“预制构架”(frame)等术语。笔者偏爱“多模态过滤”,目的是试图对这类现象进行更加严密的定义,甚至进行逻辑运算。比如,图2显示拍集体照这个活动的两个时间点——开始和结束。

      

      我们看到活动有8个人,但只有两把椅子。谁坐、谁站、站前、站后,以及站中间还是站边上,在中国文化里都是“有讲究的”。这个“讲究”就是多模态过滤器。Gu(2009b)提出“面向角色的建模语言”(agent-oriented modeling language,AOML),把多模态过滤器形式化⑥(见图3),以便计算机处理。

      

      语言学理论、专家知识等是特殊的多模态过滤器。做儿童语言习得实验时采用何种理论,等于采用何种多模态过滤器。实验者自觉地或不自觉地戴上了该理论定义的色镜。中医医生做“望闻问切”时,需要调用中医专业知识这个过滤器。过程用框图显示,如图4。

      

      望闻问切诊断法跟上面提到的儿童多模态实验有许多相似之处,不同的是西方儿童多模态感官实验是量化型的,而中医是评估型的。然而用现代多模态传感技术把中医望闻问切诊断法进行量化是完全可能的。

      上文讨论儿童多模态实验时提到因果链问题,中医望闻问切也有因果链问题(如图4所示)。下面我们来看一个实例。有位智退症(即痴呆症)患者,研究者手指坐在他身边的儿子问:“你认识他吗?”患者的儿子指着自己也问:“你认识我吗?”患者看着儿子,支吾其词,说不上来。图5是用Elan工具进行的分析。

      

      不争的现象是:患者看着自己的儿子,说不出是否认识。作因果链分析:是视觉感官出了问题吗?如果是,那么患者的病症为“视觉失识”(visual agnosia)。但也有可能视觉正常,是视觉模态的神经处理系统出了问题。还有一种可能是视觉神经系统也正常,是从记忆系统中搜名出了问题。

      上面的因果链分析表明,研究人员要时刻注意无时不在的多模态过滤器。多模态过滤器在提供“机遇”(即专业知识)的同时,还会框束我们的视野,形成一孔之见。盲人摸象,用的都是触觉,而摸到结果完全不同。切脉不能算中医独创,古希腊医生也切脉。然而中医和希医的切脉结果却不同(Kuriyama 1999)。那么如何评估两者的优劣?多模态过滤器显然是评估的基础。这类评估不仅仅是概念问题,而且涉及重要的后果,用中医的术语说,就是如何辩证施治!

      文章开头我们说过,多模态感官系统的生理研究对语言学也很重要。智退症患者的视觉失识,导致语用上的指称使用困难,便是很好的例证。

      ①在乔姆斯基的表述中,“后天经验”是受事,而在他追随者的表述中是施事。本文作者以为,乔姆斯基的表述强调语言器官的初始状态对后天经验的作用,跟天赋决定论是一致的。

      ②我们不禁要问,三个过程用的表征属于同一类还是不同类?是否类似于计算机中的机器语言、汇编语言、高级编程语言、脚本语言等?福德(Fodor 1979)提出language of thought,有些哲学家称之为“脑语言”(Mentalese,参见Fodor 1990;Lycan 1990;顾曰国2010:306)。

      ③本文把乔姆斯基genetically determined译为“基因划定”(不用“基因决定”或“基因确定”等其他译法),试图传达“基因划定范围”这个意思,这更接近乔姆斯基的本意。引文虽然出自乔姆斯基的晚年著作,但这个思想贯穿于他所有早期著作。

      ④Sensorimotor在正文中出现121处。这个用法跟Lakoff和Johnson(1999)里的是一致的(正文出现66次)。值得回味的是,在这两部著作里,皮亚杰的名字从未出现过,皮亚杰的“感觉—运动体验”也没有提及。

      ⑤传统上有“十问”之说:问耳目、问二便、问寒热、问妇女、问饮食口味、问汗、问口渴、问起病、问睡眠、问头身。

      ⑥Gu(2009b)没有明确使用multimodal filtering system这个术语。这是因为作者不想在一篇文章里引入过多的新概念,造成读者阅读上的困难。

标签:;  ;  

多模态感觉系统与语言研究_乔姆斯基论文
下载Doc文档

猜你喜欢