用汉语语料库研究词语搭配--以“位”为例_自然语言处理论文

利用汉语语料库研究词语搭配——以“有点”为例,本文主要内容关键词为:语料库论文,汉语论文,为例论文,词语论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1.引言

语言事实中的词语搭配描述,在语料库出现之前,大多依赖研究者自己的随机收集或语感判断,其全面型和代表性恐怕难以保证,研究结果具有一定的局限性。随着语料库语言学的兴起,词语搭配研究增加了新的研究手段与方法,研究效度得到提高,搭配行为的描述因此更加深入和详尽。

语料库库数据支持的词语搭配研究主要有两种方法:基于数据的方法和数据驱动的方法。前者以关键词为中心,以语料库索引数据为依据,研究者在传统语法搭配类型的框架内依据数据对结构内词项的组合行为进行检查和概括。数据驱动的方法没有传统语法等先入为主的观念,而是靠自动化程序对语料库中关键词的所有搭配词进行提取和统计测量,得出显著搭配词,所有的研究和描述都由数据引导进行。

本文将利用上述两种方法,对“有点”的左右搭配进行实例研究,并分析每种方法的特点和实用性。右侧搭配的考察将使用基于数据的方法,着重观察“有点”被饰搭配词的类联接及其语义特点;左侧搭配的考察将使用数据驱动的方法,旨在发现“有点”附加搭配词的语义类别。本次搭配考察所用语料采自厦门大学海外教育学院中文语料库和台湾“中央”研究院的现代汉语标记语料库4.0版(简称ASC)。前者的特点是语料来源全部是普通话口语与书面材料,后者的特点是提供了检索、词类标记、排序、过滤、搭配统计等多种功能。

2.基于数据的研究方法

在语料库基于数据的研究方法中,涉及到的一个重要概念就是类联接(colligation)。卫乃兴(2002)[1]指出类联接是语法范畴间的结合,或者说它是关于词语组合类别的抽象表述,是具体的词语搭配发生于其中的语法结构和框架。类联接建立后,就可以据此描述和概括搭配词的语义特点了。

以“有点”为例,它在厦门大学海外教育学院中文语料库中的原始有效频数为1421。我们以这 1421个实例为据,检查它搭配词的语义特点。限于篇幅,现将其中随机抽取的10行含有关键词的句子片段列在下面,它们也称索引(concordance)。词语搭配研究所用的索引一般是KWIC(key word in context)索引,在每一行索引中,关键词总是居中出现,而左右两侧则是构成其语境的词语,研究者可据此分析该关键词的搭配特点:

1据说你对《三国》好像是有点研究。

2 因为自己吃了,哭起来不免有点过意不去。

3我有点旁的事,要先跟他谈谈。

4左右的男子,他耳朵长得有点奇怪,耳垂部分堆积了多余的廓线,看

5长得矮,又开始发胖,是有点像土豆。

6闹得我有点不好意思了,觉得自己活像个刚进大观园

7 他的父亲好像挺粗暴的,小峰 有点怕他的父亲。

8由于第一次出庭,彭致远有点紧张。

9 声音有点凄楚,和呜咽相近。

10 好像有点太女性化了!

2.1 类联接考察

根据观察,“有点”的右侧搭配可用于+AP,+VP,+NP,+S4个类联接,分别代表“有点”与形容词 (组)、动词(组)、名词(组)和习用语(包括成语)的搭配。其中+AP最多(533),占全部索引的38%,包括的高频搭配词有奇,隆(16),紧张(13),怪(12),急(10),累(9),尴尬(9),乱(7),不耐烦(7),惊讶(6),得意(6),不自在(6)等。+VP紧次之(475),占全部索引的33%,包括的高频搭配词有像(69),怕(18),害怕(12),后悔(10),失望(9),喜欢(8),生气(7),感动(6),恼火(6),怀疑(6),担心(6),吃惊(6)等。+NP(280)占20%,包括的高频搭配词包括事(33),意思(13),味道(8),精神(6),感觉(6)等等。+S频数最少(133),占9%,包括不好意思(23),不知所措(11),不可思议(5),莫名其妙(4),心不在焉(3)等等。

其实,“有点”在这4个类联接中,其“身份”也有所不同,在+NP组合中它作为动词与后面的NP搭配,我们称其为动词性的“有点”,搭配成分为名词类;而在+AP,+VP,+S等组合中它作为副词与其搭配,我们称其为副词性的“有点”,搭配成分是谓词类(注:据苏新春(2002)[4]《汉语词汇计量研究》中第九章对固定成语2736条所做的统计,其中2410条都是谓词类,功能相当于动词或形容词,百分比例高达88.08%。因此,实际上AP、VP和S类联接都可归为谓词类搭配。)。这两者比例为1:5,后接谓词类的副词性用法是“有点”的典型用法。

很多词典中都提到“有点”后面的词“大多为不如意之事”,事实如何呢?下面我们进一步分析这两大类搭配词的语义特点。

2.2 语义韵考察

考察前我们先要介绍一个相关概念,叫做语义韵(semantic prosody)。简单来说,这一术语是Sinclair借用Firth曾经使用过的“音韵”一词而新创的一个专为语料库语言学研究使用的术语,用来表示超越词界的联想色彩。(纪玉华、吴建平,2000)[2],这里所说的联想色彩是指由于经常与该词搭配的词语具有某一种共性(如大都是“好词”或“坏词”),使这个词也“沾染”了这种特性,从而使人们一看到这个词,就会自然地联想到这种共性。其实这有点“近朱者赤,近墨者黑”的意思。邹韶华(2001)[3]在其《语用频率效率研究》中提到的“语境频率联想”或者“同现联想”与此有异曲同工之处。语义韵大体可分为积极、中性和消极3类,其标准我们在这里采用邹韶华[3]中的宽泛定义:是否直接体现褒义褒贬色彩和隐含取舍评价态度,即若该词项为褒义词或者为当事人所羡慕、肯定和愿意接受的即为积极倾向,即“如意”;否则为消极倾向,即“不如意”;无明显主观趋向或评判意见的就属于中性。

根据这样的标准,我们分别考察两类搭配词的语义韵倾向。

(1)谓词类搭配词:1141例谓词类搭配词中,积极倾向的有56例,占全部索引的5%;中性倾向有 219例,占全部索引的19%;消极倾向有866例,占全部索引的76%;其中+AP和+S的两个类联接中其消极倾向比例更是分别达到了82%和89%。由此可知,副词性“有点”右侧的搭配词“大多为不如意之事”的结论得到了语料库数据的支持,且其总体消极比例超过3/4,语义韵倾向为消极。

(2)名词类搭配词:280例名词类搭配词中,积极倾向有106例,占全部索引的38%;中性倾向有 119例,占全部索引的43%;消极倾向55例,占全部索引的20%。由此我们发现,动词性“有点”右侧的搭配词与典型用法的副词性迥然不同,它右配词的中性倾向稍占优势,积极倾向和消极倾向的也不少,因此它的语义韵为中性,或者也可称为错综(mixed)语义韵。以前的研究对动词性“有点”后面连用的词语少见细致的考察,因此这个结论对于“有点”的词语搭配描述是个有益的补充。

通过上述考察与分析,我们可以把基于数据的研究方法概括为下面几个环节:以关键词为中心,以语料库索引数据为依据,参照类联接框架,检查和概括关键词的搭配情况。语料库丰富的资源,使得研究者能够克服和超越依赖语感或者个别数据带来的局限性,挖掘和概括真实语言使用中的词语搭配现象及其规律。但是,这种方法是在已经确立的语法结构框架内进行的,研究者依据语料数据对结构内词项的组合行为进行概括总结。比如上述对于“有点”右侧搭配词的考察就是首先确立了其类连接的种类,然后对各个类联接进行定量统计和定性分析,包括语义韵的分析。所以,这种方法称为“基于数据的方法”(data-based approach)。它较适用于实用性的研究活动,也易于掌握和应用。但在大型语料库研究中,这种方法可能就显得不太科学和经济了。

3.数据驱动的研究方法

在数据驱动的词语搭配研究中,研究人员建立了一套完整的概念体系和方法,包括节点词、跨距、搭配词、统计测量手段等。节点词(node word)即作为研究对象的关键词,跨距(span)指由节点词左右词项构成的语境;如-3/+3表示在节点词左右各取3个词为其语境。与跨距相关的一个概念是距位 (span position),指跨距内各个词项所占的位置,如N-1表示紧靠节点词左边的第一个位置,而N+1表示紧靠节点词右边的第一个位置,等等。所有落入跨距的词项都视作节点词的搭配词(collocates)。按照距位不同,搭配词又可分为左搭配词和右搭配词。根据这一思路设计好的程序,计算机可对语料自动检索,并对搭配进行计算和统计测量。

目前使用的统计手段主要有MI值(相互信息值)等来检验搭配词与节点词共现的显著程度,或者说搭配强度。词语搭配研究的是词项的典型共现行为,而不是可能的共现行为,因为从理论上来说,任何搭配都有可能在语料库中出现,只是出现的频率不同而已。所以,提取搭配词后就要通过统计测量,来检验搭配词与节点词之间的相互预见和相互吸引程度,判断它们的共现在多大程度上体现了词语组合的典型性。统计测量手段有Z值测量和MI值测量等,这里我们以ASC语料库提供的MI值测量为例进行说明。MI值计算的是一个词在语料库中出现的频数所能提供的关于另一个词出现的概率信息。卫乃兴[1]曾引用Clear的例子说明MI值的原理:在一个1000万词的语料库中,词形kin出现了 10次。这意味着kin在该语料库中出现的概率是0.000001。但是,还是在这个语料库中,如果词形kith出现了5次,而且在5个实例中,kin总是出现在kith之后(Kith and Kin),那么,当我们看到kith时,我们就有0.5的概率看到kin。这样,kith的出现给我们提供了大量的信息,来揭示kin的出现。MI测量的优点在于它能较好地识别复合词、固定词组、科技术语等。MI值的计算公式为:

其中W是语料库的总词容量,F(a)为词形a的观察频数,F(b)为词形b的观察频数,F(a,b)为两个词形在语料库中的共现频数。

现在,我们以“有点”的左搭配词考察为例说明这一方法。根据“有点”的使用特点,我们把左搭配词的跨距界定为-2/-1,在台湾ASC语料库中进行检索和计算排序。由于这个跨距常常也是主语或者话题类词项的范围区间,我们在统计结果中将其剔除后,得到与“有点”共现次数大于4(或称为起点频数)的MI值最高的12个词项,如下表所示。需要注意的是,MI值高的搭配词不一定和节点词共现的频数就高。起决定作用的是搭配词与节点词共现的频数与各自单独出现频数之积的比值。

表1

左搭配词MI值总的出现次数与节点词共现次数

看起来 5.826293 8

显得5.574377 8

好像5.04128616

似乎4.239

1074 6

真 4.231

180610

实在4.149980 5

觉得4.074

443721

多少3.874

1032 4

真的3.731

1191 4

可能2.945

3918 6

还 2.814

968313

都 2.145 2034314

我们可以看出这些搭配词与右侧搭配词不同,它们不是句中的主要成分,而是附加成分;它们与“有点”的组合也并非我们通常理解的搭配,但在语料库文本中又与“有点”有着很高的共现率,比如“看起来有点”、“显得有点”“好像有点”等。我们认为这种搭配同样值得研究,其高共现率的背后定有某种语义上的契合。

左搭配词在语义上主要分为两类:一类是表示主观模糊判断的,标记人的思维活动,如“看起来、显得、好像、似乎、觉得、可能”等。另外一类是表示说话人语气的,如标记强烈语气的“真、真的、实在、都”和标记舒缓语气的“还、多少”等等。它们的共现强调了“有点”在表达人们对于某事物进行判断时的主观性,而且这种主观判断常伴随着某种语气,“有点”的作用就是使得这种语气得以弱化:强语气变弱,弱语气更弱;从而避免没有“有点”参与下其后那种直接强烈的陈述,尤其是消极意义的陈述和判断可能带来的言语冲突,以达到一种委婉的语用效果。比如前面的索引10,如果去掉“好像”和“有点”,直接说“太女性化了!”,这种表达的效果是最直接和强烈的;而加上“有点”,就在一定程度上降低了这种判断的语势;若在前面又冠以“好像”,不肯定判断的意味则更加明显,使得整句在基本表达意思不变的前提下,负面的语气大大弱化,减轻了对听话人的强烈刺激。

数据驱动的方法中,研究者没有太多的先入为主的观念,完全是由统计数据驱动进行研究。比如上述对于“有点”的左侧搭配考察,人们对此的语感远不如对右侧搭配的语感来得那么快和直接,传统研究对此也没有太多涉及。因此在考察前,我们对于最后的考察结果是没有多少设想和预计的,只是因而在考察中也就没有了像基于数据的方法中那种预先选定了类联接等框架再进行考察。在数据驱动的方法下,一切都由机器自动报告结果,发现了什么就是什么,因此这种方法有利于发现语言使用中的新事实,词语行为的新特点等。当然,这并不意味这种方法不能用于传统语法框架内的研究。对于前面“有点”右侧搭配词的考察,我们同样可以用这种方法进行考察,只不过考察的结果不再关心词性而专注于它们与节点词的共现程度而已,如下表所示:

表2

右搭配词总的出现次数与节点词共现次数 MI值

像 2021

345.342

不 38904

312.292

类似 613

125.493

23375.922

奇怪 36175.484

感伤 4267.481

担心 60364.817

矛盾 28255.394

怪怪 2247.722

害羞 6246.686

4.“有点”右搭配词的语义再分析

通过上述两种方法对于“有点”左右两侧搭配的分别考察,我们在语料库数据下验证了前人的某些结论,也发现了一些新情况。决定搭配的根本因素是语义,下面我们尝试分析“有点”右搭配词中典型用法的谓词类为什么呈现出消极语义韵。

进一步观察所有的右侧搭配词,我们发现在语义上,它们都是作为一种相对来讲不太寻常的性状而引起人们的注意,在语义上反映的是与某个正常状态、一般情况或者常理等标准相偏离或者背离的一个“异态”,而与其对立存在的即为“常态”。有些搭配词本身的语义就含有“不同”或者“比较”的含义,如“不一样、特别、偏瘦、反常、超前、过头”等等。那么“异态”为什么多呈现出消极倾向呢?

郑天刚(2005)[5]在《“太P”短语和程度常态》中曾提出程度常态具有合意偏向性的观点。他引用了沈家煊的“从认知心理上讲,偏向正面是人的一种常规心态”,接着说“由于人类对外部世界的能动性的改造活动,由于人们趋利避害的普遍心理作用,人们总是倾向于将程度常态偏向于对立两极中褒义的一方,亦即偏向于合意。”我们认为这样的解释很有道理,毕竟客观情况按照人们的意愿发展是有利于认知、掌握和处理的。既然“常态”多为褒义,“异态”自然就多为贬义和消极的了。不过,这并不排除有时候“异态”也可能是人们所喜欢的。例如那句“农夫山泉有点甜”的广告词让人过目不忘,就是因为它的异态标识的是一种少见的优良品质——普通水达到无菌无异味便为合格,而“有点甜”能让人立刻联想到难得一饮的天然山泉这种不同寻常的水质!当然,“异态”是相对于“常态”来说的,而且其标准并非固定不变,在具体的语境中,两者互相依赖甚至可以互相转化。

5.结语

语料库研究表明,词项的搭配行为具有一定的语义趋向:一定的词项会习惯性地吸引某一类具有相同语义特点的词项,构成搭配。本文介绍了语料库语言学中研究词语搭配的两种重要方法:基于数据的方法和数据驱动的方法;当然,两者可以结合使用,就像我们对于“有点”的个案研究一样,以定量研究为基础进行定性研究,可以有效提高对搭配序列的语言学描述。

我国语料库语言学中的词语搭配研究目前多集中在外语界,如英语等;汉语研究中还少见应用这种方法。因此,本文旨在抛砖引玉,希望以此引起汉语研究者的注意,尤其在对外汉语教学中,语料库支持的词语搭配研究有助于让教师更加科学地教给学生典型、地道的汉语,避免按照语法规则生造搭配。

标签:;  ;  ;  

用汉语语料库研究词语搭配--以“位”为例_自然语言处理论文
下载Doc文档

猜你喜欢