汉英语码转换的句法变异问题探索——基于树库的动词句法配价分析,本文主要内容关键词为:句法论文,汉英论文,动词论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来,语码转换已经成为最受研究关注的语言接触现象之一(Myers-Scotton,2006)。语码转换指“从话语(discourse)到小句(clause)层面包括两种或两种以上语言变体的语言运用”(Jake&Myers-Scotton,2009:207),它是复杂的语言现象,受到社会、语言和心理等因素的制约(李经纬陈立平,2004),对于经验、人际和语篇功能的表达具有重要作用(王瑾,2007)。由于语言接触所引起的结构变化一直是语码转换研究的热点之一(Croft,2000;Johanson,2002;Thomason,2001;Backus,2005)。Jakobson等(1952)预测到语码的转换会加大语言解码的难度。但是,目前为止,基于真实语料对语码转换进行定量句法及认知加工的研究为数极少。 根据依存语法(Hudson,1995;Hiranuma,1998,1999)和认知科学的研究(Gibson,1998,2000),依存距离(dependency distance,以下简称为DD)是语言依存结构的重要特征(Temperley,2007;Liu,2008;Gildae & Temperley,2010),它可以有效地测量句法的复杂度并且反映语言加工的难度。Gibson(1998)研究表明:支配词和从属词之间的距离越长,加工难度越大。平均依存距离(mean dependency distance,以下简称MDD)不仅可以对比不同句法的加工难度(Hsiao & Gibson,2003;Liu,2008),还可以研究不同语言的加工难度(Liu,2008)。Liu(2008)通过计算20种语言的平均依存距离发现:依存距离是语言理解难度的测量标准,不同语言具有不同的依存距离,汉语的MDD至少是英语的两倍。换言之,依存距离是一项具有句法和认知双重特征的指标,通过测量依存距离,我们既可以发现语言结构的变异(syntactic variation)又能够推知加工难度的差异。依存距离以依存关系为基础。依存关系是在真实语境中实现的词与词之间的配价关系。配价是词的一种属性,是词与词结合的一种潜力,这种潜力在句法层面得以实现(刘海涛,2009)。根据配价理论或依存语法(刘海涛,2009),动词是句子结构的中心,它是句子中级别最高的支配成分。因此,如果观察动词在真实语料中的配价,观察动词支配不同词类的分布以及依存距离的变化,我们有可能发现语码转换句法变异的深层原因。Eppler(2011)在德英语码转换语料库中发现了不同依存关系中依存距离的差异,Wang和Liu(2013)在汉英语码转换的语料库中也发现了以依存距离和依存方向为测量指标的句法变异,并从句法分布的层面解释了原因。为了探究引起汉英语码转换依存距离变异的深层理据,本文以动词的句法配价为切入点考察补充关系中的主语、宾语关系和说明关系中的状语关系,主要回答以下问题: (1)动词支配的主语、宾语和状语关系在依存距离的变异中发挥什么作用? (2)汉语动词和英语动词分别支配哪些词类形成主语、宾语和状语关系?它们的概率分布和依存距离对汉英语码转换的句法变异发挥什么作用? 2.理论基础 词语法(Hudson,2010)和概率配价模式理论(刘海涛冯志伟,2007)是本研究的理论基础。根据词语法,即以词汇为基础的依存语法,词汇是句法分析的基础,动词是句子的中心;句法结构全部由词与词之间构成的依存关系组成;每一个传统意义上的句法关系构成一个依存关系。依存关系是不对称的,即在关系的两个语言单位中,一个为支配词,另一个为从属词(刘海涛,2009)。例如句子“他是一个good boy”的依存关系分析如图1所示。 例1:他是一个good boy。 图1中所有的词都通过某种语法关系联结,文字上方的字母表示词性,文字下方的数字表示依存距离;从支配词(head)到从属词(dependent)的有向弧表明两个语言单位之间的关系是不对称的;有向弧的顶端是两个词之间的依存关系。例如:支配词“是”和从属词“他”之间的依存关系为“主语”(Subj),“个”和“一”之间的依存关系为“量词补足语”(QC)。“依存距离”这一术语是由Hudson(1995)首先引入的;它指支配词和从属词之间的线性距离(Liu et al.,2009)。研究表明,依存距离与工作记忆的承载(the working memory load)、句法加工复杂度(parsing complexity)甚至儿童语言习得机制有关(Ninio,1998;Hiranuma,1999;Liu et al.,2009)。 配价理论是一种有关词的句法—语义理论(Tesnière,1959;Hudson,2004)。配价理论也是一种面向应用的语言学理论,它可以有效地描述一个词或词类的结合力。刘海涛和冯志伟(2007:35)提出了自然语言处理的概率配价模式理论:“当描述一个词或词类的配价时,不仅应该用定性的方式来描述它可支配什么样的依存关系,可以受什么样的依存关系的支配,而且也应该用定量的方式给出这些依存关系的权重或概率分布,如名词作主语的概率是多少,作宾语的概率又是多少等等”。因此,词类的概率配价能够反映词类的句法功能分布和语言的结构特征。本研究采用广义的配价理论,依存关系既包括补充关系(主语和宾语等)又包括说明关系(状语等)。 3.研究方法及语料 基于语料库的方法不仅盛行于计算语言学,而且在外语教学与测试研究、翻译研究和语言研究中发挥着重要作用。本研究采用经过依存语法标注的语料库——依存树库,依存树库以依存关系为基础,通过建立词与词之间的关系来描述句法结构。依存树库为语言的句法功能分布和词类的概率配价研究提供了丰富的数据来源。 Myers-Scotton(2006)曾指出:小句是分析双语语料的最佳单位;只有在小句内(intra-clause)参与语码转换的语言变体才是接触的(in contact)。本研究的语料均为小句内语码转换,语料来源于中国大陆和香港地区的广播、电视等媒体材料,其中80%为娱乐新闻或社会新闻,20%为娱乐访谈节目。我们将包含小句内语码转换的句子转写并建立汉英语码转换的依存树库。 表1列出了本树库中语言及依存关系的分布状况,树库共包含各类词19766例,依存关系19023个。树库共包括四种依存类型:支配词和从属词均为汉语的单语依存(C-C),支配词和从属词均为英语的单语依存(E-E),支配词为汉语从属词为英语的混杂依存(C-E)和支配词为英语从属词为汉语的混杂依存(E-C)。 利用这种类型的树库,我们能够计算出每个句子的MDD、某一类依存关系的MDD,甚至整个语料库的MDD。为了统计的方便,Liu等(2009)将依存距离定义为支配词和从属词之间的线性距离,即一个句子中存在依存关系的两个词之间的词位置之差。具体而言,在W1…Wi…Wn的词串中,对于句中第a个位置的词Wa和第b个词Wb之间形成的依存关系,如果Wa是支配词,Wb是从属词,它们之间的依存距离就是a-b。当a大于b时,DD为正值,当a小于b时,DD为负值。相邻词之间的依存距离为1,而不是0①。例如图1中,从属词“boy”和支配词“是”之间的依存距离为4。在依存距离的相关研究中,往往选取的是依存距离的绝对值。我们通过公式[1]和[2]在EXCEL中可以计算出某种语言样本或某类依存关系的MDD(Liu et al.,2009)。 n代表样本中的总词数,s是样本中的句子总数。DDi是样本中第i个句法关系的依存距离。 n是样本中某类依存关系的总数。DDi是某类依存关系中第i个句法关系的依存距离。 4.结果与讨论 Liu(2008)发现:不同语言往往具有不同的依存距离,而且平均依存距离存在一个阈值4(小于3个词)。语法和认知等因素的作用使依存距离趋于最小化从而使解码(decoding)难度也趋于最小化(Gildae & Temperley,2010;Liu,2007;Liu,2008)。Wang和Liu(2013)在对比分析汉英语码转换树库和汉语、英语树库的基础上发现汉英语码转换存在依存距离的变异,即汉英语码转换的MDD小于汉语大于英语的MDD;引起句法变异的主要原因在于混杂依存类型(C-E和E-C)的MDD大于相应单语依存(C-C和E-E)的MDD,主要的句法关系——主语、宾语、定语和状语以及语码转换的某些特征导致了两种依存类型MDD的差异。动词是句子结构的中心,能够支配主要句法关系中的主语、宾语和状语,那么,动词对依存距离的变异是否发挥着重要作用呢? 4.1 主要句法关系的依存距离及动词的支配比例 下页表3列出了在单语依存和混杂依存类型中主语、宾语和状语的MDD以及动词支配的依存关系所占的比例。 从表2可知:(1)在三种句法关系中,混杂依存类型的MDD均大于相应单语依存的MDD,并且存在显著性差异(p<0.001)。动词所支配的依存关系在四种依存类型中的比例都非常高,其中支配宾语的比例最高,支配主语的比例次之,支配状语的比例相对较低,说明动词所支配的依存关系对依存距离的变异发挥着重要作用。(2)具有相同语言支配词的单语和混杂依存类型相比,动词支配主语、宾语和状语的分布比例相对接近。如C-C与C-E相比,汉语动词支配主语的比例分别为91.49%和91.93%,宾语为95.76%和97.10%;E-E和E-C相比,支配主语的比例为79.23%和78.16%,宾语为96.70%和96.88%,但是,C-C和EE相比,汉语动词支配91.49%的主语关系,英语动词仅支配79.23%的主语关系。 由此可见,支配词在依存关系中发挥主导作用;与其他词类相比,动词对于引起混杂依存距离与单语依存距离的差异,进而导致汉英语码转换的句法变异具有重要作用,并且具有相同支配词的混杂依存的加工难度大于相应的单语依存。 4.2 动词的句法配价 从4.1节可知,汉英语码转换存在句法变异,在主语、宾语和状语中混杂依存的MDD均大于相应单语依存的MDD,动词支配的句法关系对依存距离的变异发挥着重要作用。那么,动词支配哪些词类形成主语、宾语和状语呢?动词支配不同词类在单语和混杂依存中的分布以及它们的MDD是否存在差异,从而导致依存距离的变异呢? 4.2.1 汉语动词支配依存关系的MDD及概率分布 表3统计了汉语动词支配不同词类形成依存关系的MDD及概率分布。从表3可知:汉语动词支配的不同词类形成的依存关系在单语和混杂依存中的分布及依存距离存在差异,从而导致了以汉语为支配词的混杂依存的MDD大于相应单语依存的MDD。 (1)汉语动词主要支配名词或代词形成主语和宾语关系,它们在单语和混杂依存中的概率分布和平均依存距离存在差异。汉语动词在C-C中支配8类从属词,除名词和代词以外,还有数词、连词、动词、助词、量词和形容词;在C-E中支配5类从属词:名词、代词、连词、动词和形容词。在主语关系中,汉语动词支配名词的比例由单语依存中的29.30%增长到混杂依存中的89.86%,代词的比例由单语依存中的60.81%下降到3.38%,并且混杂依存的MDD均大于单语依存的MDD(p<0.001)。在宾语关系中,汉语动词支配名词的比例由单语依存中的65.93%增长到混杂依存中81.73%,代词的比例由单语依存中的14.02%下降到混杂依存中1.33%,并且动词与名词形成的宾语在C-E中的MDD大于C-C中相应的MDD(p<0.001)。 (2)汉语动词主要支配副词、介词或形容词形成的状语关系在单语和混杂依存中的概率分布和平均依存距离差异显著。汉语动词在C-C中支配9类从属词,在C-E中支配5类从属词。汉语动词支配形容词的比例由单语依存的2.7%增长到混杂依存的19.51%,支配介词的比例由单语依存中的13.29%增长到混杂依存中的34.15%,支配副词的比例由单语依存的51.41%下降到混杂依存的26.83%,并且三类混杂依存的MDD均大于相应的单语依存的MDD(p<.001),其中动词与副词形成状语关系的MDD差异最显著。 (3)引起混杂依存的MDD大于单语依存相应MDD的主要原因之一是语码转换的边缘性特征(peripherality)。通过观察语料可知,发生语码转换的名词、介词短语、时间副词和程度副词等作主语或状语往往位于句子的边缘位置,即句子的最左端(left-most)或最右端(right-most),它被称之为语码转换的“边缘性特征”(Treffers-Daller,1994)。以状语为例,动词与副词形成的状语在C-E中的MDD远大于C-C中的MDD。下页图2所示的句子“Suddenly,我感觉到一股暖意”中,副词“suddenly”和支配词“感觉”之间的依存距离为2,而汉语句子中,“突然”和“感觉”之间的依存距离为1,因为发生语码转换的“suddenly”位于句首,而在汉语中状语“突然”一般位于主语后(刘月华等,2001)。 例2:Suddenly,我感觉到一股暖意。 (4)代词在混杂依存中的概率分布,即发生语码转换的比例非常低,主要原因在于代词的语义特指性比较弱。Backus(1996)在认知语法框架下提出的特指性假说(the specificity hypothesis):语义特指性越高的成分发生语码的混杂或转换的几率越高。所谓“语义特指性”指词汇成分的内在语义(inherent semantics);“高特指性”具有两层含义:第一、该词具有高度特定的所指含义(referential meaning),第二、如果存在该词的主体语言对等词,那么这个词与它的对等词具有完全不同的内涵(connotation)。比如,专有名词的语义特指性较强而功能词如代词的语义特指性较弱,因此,代词发生语码转换的概率较低(Backus,2000)。 4.2.2 英语动词支配依存关系的MDD及概率分布 表4统计了英语动词支配不同词类形成依存关系的MDD及概率分布。从表4可知:英语动词支配的不同词类形成的依存关系在单语和混杂依存中的分布及依存距离存在差异,从而导致了以英语为支配词的混杂依存的MDD大于相应单语依存的MDD。 (1)英语动词主要支配名词或代词形成主语或宾语,它们在单语和混杂依存中的概率分布存在差异,但是相对接近,混杂依存的MDD均大于相应单语依存的MDD。就主语关系而言,英语动词在E-E中支配2类从属词,即名词和代词,在E-C中支配5类从属词,其中代词的分布比例均远大于名词;就宾语关系而言,动词在E-E和E-C中均支配2类从属词,即名词和代词,其中名词的分布比例均较高。混杂依存的MDD均大于相应单语依存的MDD(p<0.001),以宾语关系为例,在E-E中动词支配名词的MDD为2.38,而在E-C中相应的MDD达到了4.83,说明与E-E相比,E-C中夹在动词和宾语名词之间的词数相对较多,因此加工难度较大。通过观察语料,我们发现导致依存距离变大的主要原因是汉语与英语定语的词序差异。如图3所示的句子“他们总是discuss那些无关紧要的事情”中“discuss”和“事情”之间的距离为5,而在相应的英语句子中“discuss”和“things”之间的距离为2,因为汉语“的”字结构作定语一般位于名词前,而英语介词短语作定语一般位于名词后。 例3:他们总是discuss那些无关紧要的事情 (2)英语动词主要支配副词、介词或形容词形成的状语关系在单语和混杂依存中的概率分布不同,特别是英语动词与介词形成状语的MDD在单语和混杂依存中的差异显著(p<0.001)。英语动词在E-E中支配4类从属词,在E-C中支配9类从属词。其中,英语动词支配副词的比例最高,并且由单语依存的62.16%下降到混杂依存的43.75%,支配介词的比例由单语依存中的20.27%下降到混杂依存中的13.46%。虽然,动词支配的状语关系在两种依存类型中的MDD比较接近,但是,动词与介词形成的状语在E-C中的MDD(4.04)明显大于E-E中相应的MDD(2.53)。通过分析语料,我们发现导致依存距离变大的主要原因是汉语和英语介词短语作状语的词序差异。如图4所示的句子“他同我的朋友act tough”中,“同”和“act”之间的距离为4,而在相应的英语句子中“act”和“with”之间的距离为2。 例4:他同我的朋友act tough。 (3)在主语关系中,动词和代词相邻位于句首发生语码转换的比例相当高。在E-E的主语关系中,代词占87.38%,名词仅占12.62%,并且依存距离均小于2。树库统计结果表明,E-E中81.54%主语关系由相邻词组成,由此可知,E-E中大部分主语关系是由相邻的代词和动词构成,如下例: 例5:I wonder她们为什么如此亲密。 这一发现与Treffers-Daller(1994),Mahootian和Santorini(1996)以及Muysken(2000)的研究结果相似:语码转换比较容易出现在边缘和/或彼此相邻的位置(adjoined positions)。Muysken(2000:61)也曾经提出了相邻原则(Adjacency Principle):“在一个语码混杂的句子中,如果两个相邻成分(element)来自同种语言,从句法或语言加工(processing)的角度分析,它们往往形成一个语言单元(unit)”。本研究部分验证并补充了以上结论:代词单独发生语码转换的几率较低,当代词和相邻动词结合处于句子边缘位置时发生语码转换的几率较大。 本研究从句法和认知的双重视角,基于汉英语码转换的依存树库,以动词的句法配价和依存距离为切入点,考察语码转换的句法变异并探究其原因。从句法上讲,汉英语码转换存在句法变异;汉语动词和英语动词在语码转换中具有区别于单语的句法功能特征;动词支配的补充关系——主语和宾语以及说明关系——状语对句法变异发挥了重要作用;动词与名词、代词、副词或介词等形成的句法关系在单语和混杂依存中的概率分布存在差异,同时,本研究证实并补充了以往语码转换的句法理论。从认知上讲,以词语法中测量记忆承载(the memory load)的指标——依存距离为考察对象,本研究发现动词与名词、代词或副词等形成的句法关系在混杂依存中的依存距离大于单语依存中相应的依存距离,表明混杂依存,即发生语码转换的依存关系的加工难度大于相应的单语依存,从而一定程度上证实了Jakobson等的预言。 本研究有助于推动外语教学和双语心理认知的研究。词类的句法配价研究可以发现外语学习者对母语和外语词汇概念及句法功能的掌握程度及存在的问题,帮助教师进行针对性的指导。语码转换句法功能的计量研究也是探索双语心理认知机制的重要途径和窗口:它不仅能够反映双语者的思维方式,而且为失语症、脑损伤患者的语言研究提供了一定的线索和资源。 ①根据Hudson(1995)的计算方法,a和b之间的词数为0,因此,依存距离也为0。 ②V%表示不同依存类型中动词所支配的依存关系在该类依存关系中所占的比例,如在C-C中,动词支配的主语关系占所有主语关系的91.49%。英汉语码转换的句法变异探析--基于树库的动词句法价分析_状语论文
英汉语码转换的句法变异探析--基于树库的动词句法价分析_状语论文
下载Doc文档