基于依存句法标记树库的汉语文体差异研究_定语论文

基于依存句法标注树库的汉语语体差异研究,本文主要内容关键词为:语体论文,汉语论文,句法论文,差异论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 引言

口语和书面语的区别,一直是语体学以及词汇学、语法学的研究重点之一。有关书面语的研究历史很长,这里不再赘述。而口语研究早在19世纪末就已经受到学者们的重视。Sweet(1890)用音标描写了英语口语的特点,Palmer撰写了《英语口语教学语法》。早期关于汉语口语语法的著作,有赵元任(1979)的《汉语口语语法》,主要是为外国人学汉语提供一些方便,由吕叔湘翻译后带到中国。全书以北京话口语为语料,对汉语口语语法进行了深入描写,产生了非常广泛的影响,不过正如张志公(1984)所说,写这本书时,赵先生因久居国外,“书中的用例,显得有点过时了”。后来陈建民(1984)详细分析了口语在语音、句法、词汇等诸多方面的特点,开启了国内口语研究的先河。20世纪80年代,研究成果更为丰富。陆俭明(1980)、陈章太(1981)、陈建民(1982)等文对于研究不同类型的语体具有指导意义。90年代以来,张伯江、方梅(1996)以北京口语为语料,结合语体特点发掘出大量别人没有注意到的语法事实。刘宁生(1997)印证了朱德熙提出的“研究北京口语语法,有利于我们去发现现代汉语里最根本的语法事实”这一观点。周一民(2002)的文章对重新认识现代汉语有着重要意义。戚晓杰(2008)从“分裂性”角度论述了汉语口语、书面语的差异;吴春相、金基石(2008)探讨了心理距离与言语表达的口语特征和书面语特征的关系;李佐丰(2009)提出“屏幕语体”是与口语、书面语并立的第三种语体,兼有二者的一部分特征。戴艳琪(2008)对汉语口语和书面语在语言系统上的差异做了具体描述。可见,越来越多的学者们意识到了口语和书面语在许多方面存在较大差别,而这些研究多是通过传统的研究方法,并非基于大量真实语料,也没有通过有效的数据进行对比研究,因此缺乏足够的说服力,也很难发现常规认识以外的语言规律。

本文将就这一问题进行深入探讨,希望通过构建句法标注语料库来解决内省方法存在的不足,采用依存语法的理论以解决短语结构树结构复杂的缺陷,通过研究不同语体中句法成分在词类构成上的差异,发掘口语与书面语之间的差异,对其进行量化描写和比较研究,希望可以为语体研究和语法研究提供一些新的发现和思路。

二 资源与方法

依存语法认为,句子是有组织的单位,其基本组成元素是词,词与词之间相互联系(刘海涛,2009)。这种联系建立起词与词之间的“依存”关系。每一项联系原则上将一个上项和一个下项连接起来,上项叫做支配词,下项叫做从属词。一个词可以是某个上项词的从属词,也可以是另一个下项词的支配词。这样句子里所有的词便构成一个真正的“分层次的体系”。虽然就什么是依存语法,学者们仍有不同的看法,但一般认为构成依存语法基础的是依存关系,依存关系具有这样一些主要属性:“(1)依存关系是二元的,是一种发生于两个语言单位之间的关系;(2)依存关系是不对称的。即构成依存关系的两个语言单位的地位是不一样的:一个元素处于支配地位,另一个处于从属地位,这种不对称性是依存句法树层级体系的基础;(3)依存关系是有标记的。对于一种语言里的各种不同的依存关系,人们应该将其区分并显示标示出来。”(刘海涛,2009:98)我们把表示依存关系的图示叫做依存树(Dependency tree,简称D-tree)。一个依存树库是由许多依存树构成的,具体见图1和图2。

图1与图2分别是同一个句子的不同依存结构图式。图1是一个树形结构图;图2是经过变形的依存树,其中文字下方的字母表示词性,有向弧从支配词指向从属词,表示支配关系,有向弧上方的字母表示依存关系。

依存语法没有词组这个层次,每一个节点都与句子中的单词相对应,它能直接处理句子中词与词之间的关系,具有简明清晰的长处。刘海涛(2009)在研究汉语依存语法分析时也指出,与短语结构语法分析相比,由于依存语法分析能够直接发现句中的词间关系,因此受到越来越多的研究者的重视。

本文采用中国传媒大学应用语言学研究所的依存树库作为样本树库(以下称为YB),并选取“汉语有声语言依存句法树库的构建与应用研究”项目中所建树库的一部分新建了一个树库(包含一个口语树库和一个书面语树库,以下称为XJ),进行数据补充和对比研究。样本树库中含有《新闻联播》(以下简称YB-S)和《实话实说》(以下简称YB-K)两个汉语依存句法树库,分别包括20050个词和17366个词。这两个数库都经过词性的标注和人工依存句法标注,标注标准采用《现代汉语依存关系语法》(刘海涛,2009)。此前,刘海涛(2007)已利用这两个树库进行了多方面的研究,他通过构建汉语句法网络,第一次从网络的观点描绘了汉语的句法结构,并试图通过一些网络特征展现两种不同语体存在的差别。结果表明,两种语体存在着明显的差别,由此证明,用这两个树库进行研究有一定的可靠性。

在依存数库中,要统计不同语体中句法成分的词类构成差异,实际上就是统计在subj(主语)、obj(宾语)等依存关系下从属词的词类构成比例。同样,为了方便研究,我们对得到的54种依存关系进行了适当的合并和筛选。我们依然将表示并列关系的c-分别放入各种功能类别中,将cr(复句关系)、s(由句末标点支配中心谓语)以及sentobj(小句宾语)合并。最后对主语(subj)、宾语(obj)、谓语(s/cr)、定语(atr)、状语(adva)、补语(comp)、介词结构(pobj)、“的”字结构(dec)和方位短语(fc)9种句法功能进行统计,统计了这些句法成分中名词(n)、动词(v)、形容词(a)、副词(d)、介词结构(p)、代词(r)、数词(m)、量词(q)、“的”字结构(usde)所占的比例。依照一个词只统计一次的原则,去掉一些成分。一些连词以及标点符号(bnd)在并列结构中起到连接作用。虽然在依存语法中 这些成分可以支配其他词,也可以受其他词支配,但它们不属于实词范围,不能单独充当句法成分;同时,由于在同一个并列结构中,并列成分的词性未必相同,不能作为一个词来算,因此,对并列结构中每个词单独计算,都算作句法成分的词类构成部分。这样一来,已经对每个词都进行了一次统计,并列结构就不能再次计算,所以,在统计时去掉了连词和标点(bnd)所占的比例。

三 统计与分析

下面,从句法成分构成来观察不同语体间的差异。

(一)主语的词类构成统计与分析

YB-S中主语总数1559,与谓语总数1718之比为0.91;YB-K中主语总数2148,与谓语总数3001之比为0.72。谓语可以作为一个句子的标志,主语与谓语的比值可以从一定程度上反映一段语料的主语完整度。书面语中主语和谓语之比大于口语,证明口语中主语省略多于书面语,这与平时的语感相同,而不同于郭锐(2002)的看法。

图3显示,主语主要是由名词和代词充当,而书面语中主语绝大多数是名词,口语中主语绝大多数是代词。造成这一现象的主要原因是,口语为了便于交流、避免冗长,经常承前省略主语,用代词替代,而书面语句子较长不适合承前省略,同时鉴于书面语的严谨性特征,使用代词会造成指代不清的问题。书面语中代词充当主语的比例非常小,仅占8.1%,而其他词类却占到20.7%,这主要是专有名词的作用。我们对几类特殊名词做了统计,如表2所示。

从表2可以看出,书面语中专名作主语的比例较大,有14.7%,比代词作主语的比例还要大。专有名词大量出现是书面语的主要特征之一,而专有名词作为被说明解释的对象,往往有很大部分充当了句子的主语。书面语中处所名词作主语也占据了一定的比例,这可能与新闻播报栏目中时间地点要素出现较多有关。

(二)宾语的词类构成统计与分析

YB-S中宾语总数为1899,与谓语总数比为1.1;YB-K中宾语总数2130,与谓语总数比为0.7。由此看出口语中有很多无宾语的句子,那么是否说明口语中不及物动词所占比例比较大呢?我们对动词类型区分较好的XJ-S和XJ-K进行了统计,结果见表3。

从以上数据来看,书面语的不及物动词比例反而多于口语,说明造成口语中无宾语句子较多的原因并不是动词类型。具体是什么原因导致这一现象我们无从考证,但是有以下两点猜测可供参考:一是口语的谓语中形容词所占比例略多于书面语;二是口语中并列成分作宾语情况较少。由于我们的统计中并列结构的每一项都算作一个宾语,因此并列成分大大增加了宾语的比重。这两点都会造成宾语比例减小,但是不是产生这一现象的主要原因,还有待论证。

如图4所示,宾语的主要构成词类是名词,虽然在口语中代词也占据一定的比例,但对于在口语中大量出现的代词来说,这一比重是非常小的,甚至少于动词作宾语所占的比重。而书面语中代词作宾语的现象几乎没有,这与之前的分析相同,即代词有很强的充当主语的能力和较弱的充当宾语的能力。书面语中名词作宾语的能力略强于口语,这也与口语中代词的大量出现有一定的关系。但由于代词作宾语的能力并不强,所以这一差别也不明显。除名词之外,宾语的词类构成比较分散,几乎各类词都有所涉及。

(三)谓语的词类构成统计与分析

YB-S中谓语的总数为1718,与句子总数即句末标点总数711之比为2.4;YB-K中谓语的总数为3001,与句子总数即句末标点总数1128之比为2.7。可见口语中分句要略多于书面语,这也说明口语中倾向于将一个意思拆分成许多分句来表达,而书面语中则倾向于在一个较长的句子中说明问题。

如图5所示,谓语的分布较为集中,基本上都由动词来充当,小部分由形容词充当。在谓语构成方面,不同语体差别不是很明显,但也有一定的差异。书面语中动词所占比例为97.1%,比口语中动词所占比例的88.1%多出9个百分点;而书面语中形容词所占比例为1.4%,比口语中形容词所占比例的6.9%少了5.5个百分点。这二者是相互关联、此消彼长的关系。

(四)定语的词类构成统计与分析

YB-S中定语出现的次数为4865,与谓语次数的比为2.8;YB-K中定语出现的次数为2730,与谓语次数的比为0.9。书面语的定语谓语比值是口语的三倍,可见书面语是一种限定语十分丰富、表达十分严谨的语言。

从定语的词类构成分布来看,定语与词类的对应相对分散。书面语中名词、动词、形容词的比重比口语大,口语中代词、量词结构和“的”字结构的比重比书面语大。从书面语来看,比重从多到少分别是名词、“的”字结构、动词、形容词、数量结构(或量词)、代词、数词,其他词类比重也较大,主要是专有名词、时间名词、地点名词等作定语的比重较大。从口语来看,比重从多到少分别是数量结构(或量词)、“的”字结构、代词、名词、形容词、动词、数词。这与我们以往所认为的不同,实际上定语中的形容词所占比重很小。这主要有以下几个方面的原因。

首先,形容词作定语常常是以与“的”字结合的形式,因此,形容词单独作定语的一部分比例转移到了“的”字结构中。这是影响定语中形容词所占比重的一个重要原因。

其次,书面语中名词作定语占到34%,远远高于其他词类,也影响了书面语中形容词作定语所占的比重。书面语中名词所占比重很大,占据所有词类的30.1%,再加上专有名词等特殊名词,就占到了所有词类的41%,而形容词仅占6.2%。如此悬殊的数量差别自然影响到形容词在句法成分构成比例中与名词的比例差异。而名词与“的”结合的能力不及形容词,一般只有表示专属时才加“的”,因此名词常常单独作定语修饰中心语。同时,书面语中名词作定语的能力很强,达到31.6%,是名词在书面语中的最主要的功能。因此,书面语中定语的词类构成中,名词占据了极大的比例。

再次,口语中数量结构、“的”字结构以及代词在定语中所占比重都较大,影响了定语中形容词所占的比重。口语由于随意、大量出现的“这个”“那个”等,计算机统一标注为“指量短语”,导致量词短语在定语中占据较大比重。同时,“的”字结构较多,这可能与口语中多重定语较少有关。书面语出于表达严密的需要,一个中心语往往有很多定语,定语的增加并不会导致“的”字结构的增加,因此,书面语中修饰词单独作定语的情况较多,相比之下,口语中“的”字结构的比重就较大。同时,代词的大量出现是口语的一大特点,代词在定语中同样占据了一定比例。这些都影响到口语中定语的词类构成。

(五)状语的词类构成统计与分析

YB-S中状语出现次数为2317,与谓语次数比为1.3;YB-K中状语出现次数为3216,与谓语次数比为1.1,略小于YB-S。与定语一样,书面语中限定词较多,状语占比也较口语多一些。

从状语的词类构成分布来看,书面语的词类构成较为分散,占比从多到少分别是副词29.8%、介词短语24.8%、形容词12.7%、动词10.5%和名词3.9%,所占比重差别不是很悬殊。口语的词类构成相对集中一些,副词作状语占到了57.5%,占据绝大部分,而其他词类分别是介词短语10.6%、动词8.3%、名词3.8%、代词3.7%、形容词2.3%。副词的主要功能是充当状语,这一点毋庸置疑,从副词的句法功能统计来看,无论在书面语还是口语中,百分之九十以上的副词都是充当状语的。但是从状语的统计数据来看,副词并不完全占有绝对优势,这一点在口语和书面语中存在着较大的差异。书面语的状语构成中副词和介词结构几乎平分天下。副词常限制修饰动词、形容词性词语,表示程度、范围、时间等意义(黄伯荣、廖序东,2002:24);介词的主要功能是引出跟动词所指动作行为或形容词所指性质状态有关的对象、施事、受事、时间、处所、方向、方式、原因、目的、范围等(傅雨贤、周小兵,1997:6)。虽然这两种状语都是起到修饰限定或者补充说明的作用,但是从精确程度上来说,副词是模糊的概念,而介词往往可以引出表述较为清晰具体的内容。从两种语体的特点来看,口语一般表达较为概括、偏描述性,书面语一般表达较为具体、注重量化,因此,书面语中介词短语作状语占据较多比例,这也与新闻语体中对时间、地点、方式等因素交待较为详尽有关。

(六)补语的词类构成统计与分析

YB-S中补语出现的次数为191,与谓语次数比为0.11;YB-K中补语出现次数为545,与谓语次数比为0.18,略多于YB-S。

口语中补语主要是由动词充当,占补语总数的56.1%,比书面语中动词作补语所占比例多出22个百分点。而从补语的类别来看,动词作补语多是趋向动词充当趋向补语,比如“想到”“拿来”等等,这一点在口语和书面语中没有差别。这类补语比较短小,基本上是与前面的动词构成短小的动补短语,符合口语中语句短小的语言习惯。书面语中除了动词之外,形容词、介词作补语的比例都多于口语。从补语类型来看,形容词作补语主要是结果、程度、状态补语。我们对两种语体中作补语的形容词进行了统计,结果发现出现最多的形容词都是“好”,在两种语体中都出现了十几次。排在后面的形容词补语在两种语体中略有不同,但主要为“多”“快”“强”等。这类补语在新闻播报语体中较为常见。介词作补语主要是介宾短语充当时间、处所补语,交代一些具体的内容且补语较长,因此在表述严谨的书面语中出现频率更高。此外,口语中其他词类作补语也有8.8%,是因为补语标志“得”字结构出现频率较大。“得”字结构在YB-K中出现42次,在YB-S中仅出现2次。这说明,“得”字结构作补语有着很强的口语特性,因此,“得”字结构补语可以作为口语语体的特征之一。

四 结语

通过统计研究已进行过句法标注的文本,我们发现在不同语体中充当相同句法成分的各词类所占比重有较大差异,主要表现在以下几方面:书面语中主语大多数由名词充当,口语中主语大多数由代词充当,比重均达到60%左右;定语与词类的对应较为分散,书面语的定语构成中名词占绝对优势,达到34%;口语的定语构成中量词结构和“的”字结构占多数;书面语中副词占29.8%,介词结构占24.8%;口语中副词占57.5%,介词结构占10.6%;书面语中补语构成较分散,主要是动词34%,形容词23%,介词结构13.6%;口语中补语构成较集中,主要是动词,占57.5%。而且,不同语体在谓语、宾语的词类构成方面差别较小。主语、谓语、宾语的词类构成分布较为集中,而定语、状语、补语这类起到修饰、限定、补充作用的句法成分在词类构成上分布较为分散。同时,很多句法成分的词类构成是呈互补分布的。比如主语中名词和代词的构成,在书面语中名词占主导地位,在口语中代词占主导地位,两种词类的比例呈此消彼长的关系。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

基于依存句法标记树库的汉语文体差异研究_定语论文
下载Doc文档

猜你喜欢