定中式形名组合词长搭配的量化研究,本文主要内容关键词为:组合论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一 问题的提出 汉语的词长搭配出现在各种组合中,如名名组合、动名组合、形名组合等。就各组成成分的词长而言,主要有[1+1]、[1+2]、[2+1]、[2+2]四种组配模式。这方面的相关讨论很多,如吕叔湘(1963)、吴为善(1986)、陆丙甫(1989)、Lu & Duanmu(1991、2002)、冯胜利(1996、1998)、张国宪(1996、2005)、端木三(1999、2000、2012)、王洪君(2001)、王灿龙(2002)、周韧(2007)、柯航(2012)等。 先看下面这些例子(转引Lu & Duanmu 2002): 2+2 2+1 1+2 1+1 (1)名名(偏正):手表工厂 手表厂 *表工厂 表厂 技术工人 技术工 *技工人 技工 煤炭商店 煤炭店 *煤商店 煤店 (2)动名(动宾):阅读报纸 *阅读报 读报纸 读报 表演戏剧 *表演戏 演戏剧 演戏 种植树木 *种植树 种树木 种树 例(1)中,偏正关系的名名组合[1+2]不好(如“表工厂、技工人”);例(2)中,动宾关系的动名组合[2+1]不好(如“阅读报、表演戏”)。这两种结构,好的例子不是没有。比如,[1+2]的名名偏正有“棉大衣、皮手套、木地板、系主任、党支部、县医院”等,[2+1]的动宾有“喜欢钱、研究鬼、举起手”等,这些例子,王灿龙(2002)已经有所注意。不过,名名的例外限于两种特殊情况,即第一个名词属于材料(“棉大衣、皮手套、木地板”一类)或所有格(“系主任、党支部、县医院”一类)。根据语料统计,除去特殊情况以后,(1)和(2)的例外,出现率不到1%。(Duanmu 2012)因此,我们可以认为,名名偏正的[1+2]和动宾的[2+1]都不是完全合格的结构,一定违反了某些语法或韵律要求。 下面再看另外一组例子(转引张国宪2005): 2+2 2+1 1+2 1+1 (3)名形(主谓):晨雾浓密 胆子小 *雾浓密 胆小 地板潮湿 地板湿 *地潮湿 地湿 牧草茂盛 夏天热 *草茂盛 天热 (4)名形(偏正):鹦哥绿 草绿 铁锈红 肉红 宝石蓝 天蓝 (5)形名(偏正):荒诞文学 荒诞戏 脏衣服 脏水 贫困山区 贫困县 凉馒头 凉面 豪华汽车 豪华车 旧报纸 旧书 例(3)—(5)在张国宪(2005)中分别属于形名组合的三种词长组配模式,他称之为组配扭曲、组配缺位和组配自由。主谓式名形属于组配扭曲,可以有[1+1](如“胆小”)、[2+1](如“胆子小”)、[2+2](如“晨雾浓密”),但是不能说[1+2](如“雾浓密”)。定中式名形属于组配缺位,只有[1+1](如“草绿”)、[2+1](如“鹦哥绿”)。相对于这两种组配模式,定中式形名属于组配自由,可以有[1+1](如“脏水”)、[1+2](如“脏衣服”)、[2+2](如“荒诞文学”)、[2+1](如“荒诞戏”)。 在例(3)里,“*”号也许表示一个反例也没有。在例(4)里,空格也许表示反例极少。虽然张国宪没有提供量化数据,但我们基本同意他的判断。下面我们主要讨论例(5)一类偏正式形名结构。 偏正式形名组合的词长搭配问题,文献中已经有所讨论。例如,王洪君(2001)认为,在四种词长搭配中,[2+1]最受限制,能说的实例最少;其次受限制的形名组合依次是[2+2]和[1+1],限制主要在于这两种形式的结构可能有歧义,特别是[2+2];[1+2]作定中几乎不受限制。也就是说,按照各种搭配形式出现数量的多少可做如下排列:[1+2]>[1+1]>[2+2]>[2+1]。再如,张国宪(2005)认为,这种结构中,形容词与名词的音节组配呈现自由态势,即[1+1]、[1+2]、[2+2]和[2+1]这四种组配模式都可以,不过在语义的无标记性程度上大致表现为:[1+1]>[1+2]>[2+2]>[2+1]。 上述的这些研究都缺少数据的定量分析。比如说,王洪君和张国宪都认为定中式形名组合中[2+1]最少,但是到底少到什么程度,两位并没有进一步说明,从而给理论探讨留下了一个疑点。上面提到,例(1)偏正关系的名名组合[1+2]、例(2)动宾关系的动名组合[2+1]都有一些例外,不过数量太少,所以总的来说是不好的结构。对于例(5),前人一致认为,[2+1]出现率最低。那么,有必要证实一下,到底低到什么程度。比如,如果[2+1]只有2%以下,那么它很可能受到某种语法限制;如果[2+1]有10%,那么它也许可以算是正常结构。再比如说,定中式形名组合中到底是哪一种组配模式最多,是王洪君所说的[1+2],还是张国宪所说的[1+1]?因此本文希望从量化研究的角度来分析定中式形名组合中各组成成分的词长搭配问题,以利于进一步的理论探讨。 二 研究方法 量化研究需要语料库。本文的研究对选择语料库有几个要求:第一,该语料库已经分词;第二,该语料库有词类标注;第三,该语料库对各种语体的采样有代表性;第四,该语料库提供了足够的语料数量。根据这些要求,我们选择了“兰卡斯特汉语语料库”(Lancaster Corpus of Mandarin Chinese,McEnery & Xiao 2004,简称LCMC)。LCMC共有十五种语体,共计一百五十万字符,包括一百三十万汉字。我们选取了其中最大的两种语体,一种是“传记和散文”(biographies and essays)(原称G),该语料库共有227073个字符,包括202178个汉字;另一种是“科技:学术论文”(science:academic prose)(原称J),该语料库共有255043个字符,包括230912个汉字。 具体的操作步骤如下: 第一,根据语料库的词性标注来判断形容词和名词。这里需要说明的是,LCMC提供的词类很细。为了扩大覆盖范围,本文将跟形容词有关的所有小类统一归为形容词,将跟名词有关的所有小类统一归为名词。详见前页表1,归类前的叫“窄类”,归类后的叫“宽类”。 第二,从两个语料库中自动提取所有的形名组合,并对这些形名组合进行人工纠错,这里“错”是指提取成分不是一个原单位,或提取成分不是形名组合。具体有以下两种: 1.字符串之间的结构层次不对,又可分为以下三种:一是[[……A]N……],二是[……A[N……]],三是由于分词错误导致字符串之间的结构层次不对,分别见例(6)—(8),其中有关词标注下划线和词类。 例(6)中,形容词“难受”不是直接跟后面的名词“时”组合,而是先跟前面的名词“病痛”组合,所以“难受+时”这一形名组合不成立。例(7)中,名词“年”不是直接跟前面的形容词“单向”组合,而是先跟后面的动词“通过”组合,所以“单向+年”这一形名组合不成立。例(8)中,形容词“重要”跟名词“语”组合,但是实际上“语符”是一个名词,也就是说形容词“重要”跟名词“语符”组合,构成一个形名组合。 2.词性标注错误(名词标注为形容词),见例(9)(10): 例(9)中,“主观”在语料库中标注为形容词,实际上在这里应为名词,“主观上”属于名名组合。例(10)中,“系统”在语料库中标注为形容词,实际上在这里应为名词,而且先和前面的名词“计算机”组合,构成一个名名组合。 第三,对经过人工校对之后的形名组合进行各种词长搭配的统计,统计的结构主要有[1+1]、[1+2]、[2+2]、[2+1]四种。分别统计这四种词长搭配在语料库G和语料库J中的情况,并进一步区分出现的次频(token frequency)和类频(type frequency)。 当然,我们也提取了其他的词长搭配形式,即形容词或名词是三音节或以上的组合,具体有[1+3](如“大+办公桌、小+百货店”);有[1+4](如“大+物理学家、小+资产阶级”);有[1+5](如“高+通货膨胀率、低+通货膨胀率”);有[2+3](如“著名+雕塑家、重要+转折点”);有[2+4](如“年轻+物理学家、著名+经济学家”)等,本文将其统称“3+”。上述情况在语料库G和J中出现的比例见表2。 如表2所示,[1+1]、[1+2]、[2+2]和[2+1]这四种组配模式在语料库G和J中占总数的93%,而形容词或名词是三音节或以上的组合比例都比较低,只有7%,因为对本文结论影响不大,以下从略。 第四,我们对上述两个语料库中的其他名词进行筛选,即筛选出通过程序自动提取的形名组合以外的所有其他名词。如果这些名词内部是“A+N”的关系,就再对这些名词的词长搭配进行标注和归类。例如:“奇迹、高官”等标注为[1+1],“常用字、单纯词”等标注为[2+1],“高年级、老朋友”等标注为[1+2],“超级市场、有限公司”等标注为[2+2]。对于这些筛选出来的形名组合,再进行数据上的统计,并且把这部分的统计数据增补到上一步的统计数据之中。 三 统计结果 在完成上述几个操作步骤之后,我们得到了形名组合[1+1]、[1+2]、[2+1]、[2+2]这四种结构的次频统计结果。先看语料库G的情况,详见下页表3: 表3中的“原”表示原始提取的形名组合的统计数据;“校”表示该数据已经人工纠错过;“补”指的是根据对其他名词的分析增补上去的数据;“总”表示总的统计数据,下同。根据表3,可以看到,[1+1]、[1+2]、[2+1]、[2+2]这四种结构的比例分别是65.8%、21.2%、1.9%和11.1%,出现比例的大小依次是[1+1]>[1+2]>[2+2]>[2+1]。 以上是次频的统计结果,下面再看类频。[1+1]、[1+2]、[2+1]、[2+2]这四种结构的比例分别是70.0%、17.8%、1.4%和10.8%,出现比例的大小依次是[1+1]>[1+2]>[2+2]>[2+1]。可见,形名组合[1+1]、[1+2]、[2+1]、[2+2]这四种结构次频和类频的统计结果基本上是一致的。 再看语料库J的情况,详见表4: 根据表4,可以看到,[1+1]、[1+2]、[2+1]、[2+2]这四种结构的比例分别是54.2%、11.7%、4.8%、29.3%,出现比例的大小依次是[1+1]>[2+2]>[1+2]>[2+1]。 以上是次频的统计结果,下面再看类频。[1+1]、[1+2]、[2+1]、[2+2]这四种结构的比例分别是56.4%、9.7%、5.1%和28.8%,出现比例的大小依次是[1+1]>[2+2]>[1+2]>[2+1]。可见,形名组合[1+1]、[1+2]、[2+1]、[2+2]这四种结构次频和类频的统计结果基本上是一致的。 四 对例外的分析 观察上面的这些表格,不难发现,在语料库G和J中,[2+1]形名组合出现的次频比例相对于[1+1]、[1+2]、[2+2]而言是最低的,在语料库G中只有1.9%,在语料库J中有4.8%。按类频统计的话,[2+1]形名组合出现的比例在语料库G中只有1.4%,比按次频统计的比例更低;在语料库J中有5.1%,比按次频统计的比例略高。我们再进一步观察这些[2+1]形名组合,看看这些形名组合的构成有什么样的特点。通过对这些[2+1]形名组合的分析,我们发现,从各组成成分的构成来看,能成立的定中式[2+1]形名组合有两种情况比较特殊,这里我们把它们称为“例外”: 第一,有些[2+1]形名组合中的形容词性成分具有名词化的特点。 先看语料库G。属于这种情况的可以分为两类:一类是形容词和方位词的组合,例子有“严厉中、危急中、沉静中”等,这里形容词“严厉、危急、沉静”等因其后面出现了方位词“中”,所以这些形容词都具有名词化的特点。另一类是区别词和名词的组合,例子有“左右手、机密级、阴阳掌”等,这些区别词都是以名词性成分为基础的,因此也具有名词化的特点。 再看语料库J。属于这种情况的可以分为两类:一类是区别词和名词的组合,例子有“五彩兽、高频词、黑白段”等,这些区别词都是以名词性成分为基础的,因此具有名词化的特点。另一类形容词都是形名兼类词,例子有“唯一神、自由人、平衡态”等,这些形容词也具有名词化的特点。 进一步说,上述这些例外看起来是[2+1]的形名组合,实际上是[2+1]的名名组合,如前所述,[2+1]的名名组合是可以成立的,而且是一种好的结构,如例(1)的“手表厂、技术工、煤炭店”等。 第二,有些[2+1]形名组合中的名词性成分实际上是后缀(suffix),如“……性”。 形容词加上名词性后缀“性”之后,整个形名组合就名词化了。在语料库G和J中,我们都找到这样的例子,如“可能性、严整性、单纯性、原始性、周密性、均匀性、坚固性、有用性、显著性、稀缺性”等。这样的后缀,类似于英语的-ness或-ity(如redness,originality),严格来讲不是一个名词,而是一种将形容词转化成名词的构词手段。 如果在上面的统计结果中把上述两种例外情况排除出去,那么[2+1]形名组合出现的比例会更低。先看语料库G的次频统计情况,详见表5,其中[2+1]由原来的82降到了61。 以上是次频的统计数据,再看类频。[1+1]、[1+2]、[2+1]、[2+2]这四种结构的比例分别是70.4%、17.9%、0.8%、10.9%。可见,形名组合[1+1]、[1+2]、[2+1]、[2+2]这四种结构次频和类频的统计结果基本上是一致的。 再看语料库J的情况,详见表6,其中[2+1]由原来的287降到了92。 以上是次频的统计数据,再看类频。[1+1]、[1+2]、[2+1]、[2+2]这四种结构的比例分别是58.4%、10.1%、1.7%、29.8%。可见,形名组合[1+1]、[1+2]、[2+1]、[2+2]这四种结构次频和类频的统计结果基本上是一致的。 所以说,把这两种例外情况排除出去之后,[2+1]形名组合出现的比例更低,在语料库G中只有1.4%,在语料库J中也只有1.6%。按类频统计的话,[2+1]形名组合出现的比例在语料库G中只有0.8%,在语料库J中也只有1.7%。也就是说,无论是次频统计还是类频统计,[2+1]形名组合出现的比例都低于2%。 五 相关的讨论 结合上面的统计结果,有以下几点可以进一步讨论: 第一、在定中式形名组合的四种词长搭配结构中,[1+1]是最多的,在上述两个语料库中都达到了50%以上,具体来说,在语料库G中,[1+1]的次频占66.1%,类频占70.4%;在语料库J中,[1+1]的次频占56.0%,类频占58.4%。所以说,在定中式形名组合的四种词长搭配结构中,[1+1]出现率最高。[1+2]和[2+2]这两种词长搭配结构在两个语料库中有不同的比例,在语料库G中,[1+2]的次频占21.3%,类频占17.9%,分别多于[2+2]所占的次频11.2%和类频10.9%;而在语料库J中,[2+2]的次频占30.3%,类频占29.8%,分别多于[1+2]所占的次频12.1%和类频10.1%。出现这种差异的原因,我们认为,主要是由于不同的语体导致的,语料库J为科技:学术论文语体,相对于传记和散文语体的语料库G而言,更具有书面语色彩。语体的差异会导致统计数据的部分不同,但是不影响总体结论,即[1+1]出现的频率最高,其次是[1+2]或[2+2],[2+1]最低。 关于语体的差异性这一点,还有一个证明是:我们在语料库J中找到的像“偶然性、复杂性、普遍性”这样的[2+1]形名组合的数量比较多,而在语料库G中带有后缀“性”的形名组合相对来说就少了很多。这也跟语体差异有一定的关系。 第二,在以往对形名组合词长搭配的研究中,一般认为,形名组合中[1+1]、[1+2]、[2+1]、[2+2]这四种结构都可以存在,如张国宪(2005)认为定中式形名组合的词长搭配属于“组配自由”,以区别于“组配扭曲”和“组配缺位”这两种形式。但是我们认为,这方面的研究缺少量化分析,没有从语料库数据统计的角度去分析[1+1]、[1+2]、[2+1]、[2+2]这四种结构出现的比例是否基本相等。如果只是对这四种结构进行举例,那都能或多或少举出一些例子来,但是实际出现的比例到底是多少,就不得而知了。这也是本文一开始所提到的问题:这些例子的好坏应该如何来决定?从上面的统计结果来看,定中式形名组合[2+1]这种结构出现的数量是极少的,不管是传记和散文语体的语料库(语料库G),还是科技:学术论文语体的语料库(语料库J),其出现的比例都极低。如前所述,无论是次频统计还是类频统计,[2+1]形名组合出现的比例都低于2%。因此我们认为,定中式形名组合[2+1]这种结构实际上不是一种能产的结构,它出现的比例跟[1+1]、[1+2]、[2+2]这三种结构是不对等的。 第三,定中式形名组合(A+N)跟上文提到的偏正关系的名名组合(N+N)和动宾关系的动名组合(V+N)具有某种一致的特征。Duanmu(2012)认为,名名组合中的[1+2](如“煤商店、技工人”)和动名组合中的[2+1](如“种植蒜、表演戏”)从语料统计的角度来看,都是不好的结构。当然,这两种组合也能找到一些反例,不过数量很少。因此我们认为,定中式形名组合中的[2+1]跟名名组合中的[1+2]和动名组合中的[2+1]一样,出现的数量很少,基本上低于2%,都不是一种能产结构。 六 结语 汉语句法组合中的词长搭配问题一直以来是汉语研究中的一个热点问题,相关的研究成果也比较多。本文使用语料库,从量化的角度来分析定中式形名组合中各组成成分的词长搭配问题,主要有以下看法: 在定中式形名组合[1+1]、[1+2]、[2+2]、[2+1]四种词长搭配结构中,[1+1]出现的频率最高,其次是[1+2]或[2+2],[2+1]最低。在不同的语体中,[1+2]和[2+2]的统计数据会有差异,但是不影响总体结论。由于[2+1]出现的比例极低,基本上低于2%,因此它不是一种能产结构,这跟偏正关系的名名组合中的[1+2]和动宾关系的动名组合中的[2+1]是一样的。 当然,本文只是对定中式形名组合的词长搭配进行客观的数据分析,至于如何解释定中式形名组合[2+1]为什么不好等问题,有待于今后进一步研究。 本文是祁峰在美国密歇根大学做访问学者时与端木三教授合作完成的,初稿曾在“语言教学与研究国际学术研讨会暨《语言教学与研究》创刊35周年庆典”(北京语言大学,2014年11月)上宣读,与会专家提出了中肯的意见,在此致以诚挚的谢意。固定汉语形式与名称组合词长搭配的定量研究_自然语言处理论文
固定汉语形式与名称组合词长搭配的定量研究_自然语言处理论文
下载Doc文档