浅谈汉语分词的标准*,本文主要内容关键词为:汉语论文,分词论文,浅谈论文,标准论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分词是汉语信息处理中的一项基础工程。解决汉语分词问题,意义重大,但困难重重,所以“分词问题巳成为当前中文信息处理的瓶颈”。[1]在分词的诸多问题中,最重要的问题是:分词的标准是什么?要让计算机做自动分词,首先必须要有一个分词词表,而制定这样一个词表又需要有一个分词规范。要制定分词规范,就需要有判断词与非词的标准。同时,对计算机分词结果的评价,也需要有一个判断是非的标准。所以黄昌宁先生正确地指出,在汉语分词问题中,“首先必须就汉语的分词标准取得共识”。[1]
影响分词的因素很多,而这些因素都可以成为分词的依据或标准。吕叔湘先生说,判定一个语素组合体是词还是短语,主要涉及五个因素:“第一,这个组合能不能单用,这个组合的成分能不能单用;第二,这个组合能不能拆开,也就是这个组合的成分能不能变换位置或让别的语素隔开;第三,这个组合的成分能不能扩展;第四,这个组合的意义是不是等于它的成分的意义的总和;第五,这个组合包含多少个语素,也就是它有多长。”[4]其中,前三个因素可以归入结构标准,第四和第五个因素可以分别归入语义标准和音节标准。除了这三个标准之外,使用频度也是影响人们“词感”的一个重要因素。下面根据我们在语料库分词中遇到的实际问题,就这几个标准谈一些粗浅的认识。
1.结构标准结构标准是最重要的标准。从结构上看,词和语素划界主要依据单用的标准,词和短语划界目前主要用扩展法。
(1)单用的定义及受限单用一个语素要成为词它必须能够单用,这是一个非常朴素的道理。一个结构体AB,只要A或B是不单用的,那么AB就是一个词。这是一个充分条件,它对分词的作用是很大的。我们从20万字语料中找出所有可能的双音节组合,得到10056个条目(type),其中6267条是其中至少有一个部分是非单用的,据此我们就可以判断这些组合都是词。可见单用的标准可以解决双音节组合中近三分之二的问题。但是,许多语法著作中对单用的定义仍存在模糊不清、不易操作的问题。我们把单用的情况分为自由单用和受限单用两种:所谓自由单用是说一个语素具有某一类词的典型的句法特征;[6]所谓受限单用是指一个语素虽不具有某一类词的典型句法特征,但在特定的条件下也应该算是单用的。受限单用根据受限的条件又可以分为结构受限和语体受限两种。
1)结构受限。结构受限是指一些语素不具有某一类词的典型句法特征,但是在特定的句法结构中能产性很强,而且整个结构又可以用简单的句法-语义规则加以描述的现象。〔1〕例如,一些名词性语素在单说的时候必须儿化或加上后缀,但在“名+名”式偏正结构中却可以比较自由地充当定语或修饰语。例如,“桌”单说的时候必须是“桌子”,“桌”不具有名词的典型句法特征,它不能受数量词的修饰,不能做主语或宾语,只有加上一个后缀“子”变成“桌子”之后它才具有名词的典型句法特征。同样的例子有“瓶、袋、盒、椅、窗、叶、绳、牌、声”等。这些语素变成自由单用的方式有两种:儿化或在后面加上后缀“子”。有的是只有一种方式,有的是两种方式都能用,如:
儿化:瓶儿、袋儿、盒儿、叶儿、绳儿、牌儿、桌儿、声儿
加“子”:瓶子、袋子、盒子、叶子、绳子、牌子、桌子、椅子、窗子
但是,这些语素在“名+名”式偏正结构中能产性很强,而且在结构中并不需要儿化或带上后缀,例如:
奶瓶、花瓶、醋瓶、酒瓶、啤酒瓶、酱油瓶、可乐瓶、氧气瓶、液化气瓶、玻璃瓶、塑料瓶
纸盒、铁盒、木盒、火柴盒、骨灰盒、包装盒、铅笔盒、香烟盒、糖果盒、化妆盒、礼品盒
笑声、掌声、哭声、喊声、鞭炮声、锣鼓声、唢呐声、国歌声、欢呼声、赞扬声、喧嚣声
丁香叶、榆钱叶、梧桐叶、广告牌、卫生值日牌、草绳、麻绳、咸草绳、钢丝绳、靠背椅
以上是作中心语的例子,它们还可以作修饰语,如: 瓶盖、瓶口、瓶底、瓶签、桌腿、桌上、桌面、窗前、窗外、椅背、椅垫子可以看出,这类结构可以用简单的句法语义规则加以描述,它们和两个自由单用的名词构成的偏正结构没有什么两样,这充分反映了汉语的简约性。我们没有必要在词汇表中收入这些组合,只要把这些语素作为词收进去就可以了。其实,在我们的头脑中也是这么处理的,比如在我们的头脑中储存了“棕榈”和“叶”,我们就可以调用句法语义规则,推出“棕桐叶”的意义。用结构受限的思想就很容易解决汉语分词中的经典问题:“鸡蛋”和“鸭蛋”的问题。按照自由单用的观点,就造成了“鸡蛋”是短语、“鸭蛋”是词的结果,因为“鸭”不能自由单用,我们不能说“一群鸭”,而必须说“一群鸭子”。但我们可以说,“鸭”是受限单用的,因为虽然它不能直接受数量词的修饰,不能直接做主宾语,不能独立成句,但能够自由地在“名+名”式偏正结构中做修饰语或中心语,如“北京鸭、鸭毛、鸭头、鸭翅膀”等。
另一个结构受限的例子是,一些语素不具有动词或形容词的典型句法特征,不能作谓语,只能出现在补语位置上,而且在这个位置上能产性很强。例如:
查清 分不清 问明 探明 走遍 找遍 查遍 留住 栓住 找着 猜不着
买得起 请不动 关不死 供得起 负担得起 戒不了 承受不了 吃不来
应该承认,这些语素也具有作为词的资格,可以称为“唯补词”,正像区别词只能作定语、副词只能作状语一样,这些词只能作补语。[5]
2)语体受限。我们现在处理的基本上都是书面语,现代汉语书面语中的成分相当驳杂,里面有现代口语的成分,也有大量的文言遗留成分。从“五四”时代的“白话文运动”以来,现代汉语书面语逐步趋于和口语一致。但由于文言文传统的影响,在许多知识分子的作品中仍或多或少地存在着一些文言遗留成分,如:
西安之行 工作之余 东海之滨 有“黑珍珠”之誉 有“液体面包”之称
春夏之交 爱国之举 泰山之巅 地处湘粤之交 大有断炊之势 工程竣工之时
可乘之机 居全国之冠 高低贵贱之别 有班门弄斧之嫌 值此新春佳节之际
多举一些例子是想说明这种现象在书面语中是十分普遍而不是个别的。这些例子中,“之”是一个文言助词,“之”后面的词也都是文言用法,在现代汉语中它们一般是不能自由单用的,一个明显的证据是,如果把这些例子中的“之”换成白话助词“的”,后面的词就都站不住了,都得换。但是我们还得承认这些语素是单用的,不过它是文言用法在现代汉语中的遗留。认识到现代汉语的书面语中也有文言现象这一点是非常重要的,因为我们制定的分词原则和方法,比如单用、扩展等,对于这些现象全都没用。只有首先把这些现象排除出去,才能讨论汉语分词的方法。
(2)扩展法的作用对扩展法目前还没有一个权威的定义,在具体操作的认识上也不尽一致,但其基本精神是一致的:就是看一个结构能不能被别的语言成分分开。扩展法的优点是可操作性强,对两部分都单用的组合,宜首先采用扩展的标准。但是扩展法也有一定的局限性:一方面,一些一般认为是短语的例子不能扩展,例加,在双音节名词性组合中至少有以下一些一般认为是短语的结构不能扩展:
(1)方位结构。 如:坝上 班上 背上 厂里村外 灯旁 饭前 肝内 梦中 碗里
(2)“双”+名词。 如:双脚 双手 双腿 双拳 双眼 双列
(3)“本/此”+名词。 如:本厂 本报 本市本月 此事 此桥 此数
(4)“满”+名词。 如:满地 满街 满胜 满头 满手 满身 满屋
再如,由动词加上“有”构成的动补结构,如:“安有、配有、写有、标有、刻有、设有、建有、部署有、安装有、配备有、包括有”等,所有这些结构都不能扩展,但这类结构的能产性很强,能进入这种“V+有”结构中的动词甚多,而且整个结构又可以用简单的句法语法语义规则来描述,所以不宜把这些“V+有”结构都收入词表中。[7]另一方面,一些应该是词的例子但能够扩展。如我们熟悉的所谓动宾式“离合词”就属于这一类,如“洗澡、游泳、理发、毕业”等。这样看来,似乎能否扩展对于区别复合词和短语既不是充分条件,也不是必要条件。但是,具体到一种特定的类型,扩展法就有可能成为充分条件。例如,对于定中结构,能扩展的一定是短语:对于动宾结构,不能扩展的一定是词。这说明扩展法虽有局限性,但在某些场合,仍不失为区别复合词和短语的首要标准。
2.语义标准按照一般的说法,所谓语义标准就是看一个结构体的整体意义是否等于部分意义之和。语义的加法显然不像数学的加法那么简单,如何具体化呢?我们认为,整体的意义应该包括两部分:部分义和部分之间的语义关系。所以要判断整体义是否等于部分义之和,可以从两个方面来把握:一、看部分义是否包括在整体义之中;二、看部分之间的语义关系是否是可以类推的。比如,“女孩子”包含两个部分:“女”和“孩子”,“女”的意义是“女性”,“孩子”的意义是“儿童”,二者之间的语义关系是属性—对象关系,据此推出“女孩子”的意义是“女性儿童”,但这只是“女孩子”的一个意义,它的另一个意义是指“年轻姑娘”,那么在这一意义上“女孩子”是不能推出来的。像“女孩子”由“女性儿童”到“年轻姑娘”这样的语义转变现象是比较容易判断出来的,因为部分义“儿童”在整体义中没有了。我们把部分义是否包括在整体义中作为一条语义原则,姑且称为转义原则。转义原则应该是分词中的一条普遍原则,即:如果部分义不包括在整体义中,那么整体就不应该切分。
转义原则是根据部分义是否包含在整体中来判断的,因此比较容易操作。困难的是对关系义的判断上,即如何确定部分之间的语义关系并进而判断哪些语义关系是可以类推的,哪些语义关系是不能类推的。拿“名+名”式偏正结构为例,两个名词之间的关系多种多样,如:
(1)材料+制成品:草鞋 皮带 肉丸子 植物油 死面馍 青砖墙
(2)整体+部分:鱼头 蛇皮 手指头 板凳腿 窗户框 柳树枝
(3)被容纳物+容器:饭盒 花盆 烟灰缸炭火盆 煤油桶 死囚车
(4)具体物+形状:布条 姜末 土豆丁 萝卜丝 黄豆粒 煤块儿
(5)产地+物:海鱼 河虾 热带鱼 韩国菜上海糖 北京小吃
(6)用途+物品:燃料煤 原料煤 溶剂油动力电 燃料油
以上这些语义关系是比较清楚的,而且各类组合的数量较多,因而可以看成是可类推的,但有时两个名词之间的关系还不能简单地说清楚,如“中国餐馆、美国地图、历史教训、感情债、交情账”等,这时就不好判断哪些是可以类推的哪些是不能类推的了。
由于语义标准难以操作,所以它只能作为结构标准的补充。比如,对“名+名”式偏正结构,我们首先可以用扩展的标准,能扩展的是短语。对不能扩展的可以按照语义标准,用排除法,规定对能产性强的语义关系类型的结构进行切分,其他的不切分。如果词典的规模可以大一些,也不妨把不能扩展的“名+名”组合都收入词典。
3.音节标准音节的数量(或者字数)是否可以作为分词的标准?吕叔湘先生说:“我们常有这样的经验:两个语言片段,语法结构相同,能否单说、能否扩展的条件相同,只是音节多寡不同,比如说,一个是双音节,一个是四音节,我们觉得前者更像一个词,后者更像一个词组。”[3]但这只是一种语感,从理论上还找不到可靠的依据。比如,你说“烤鸭、烧鸡”是词,那你有什么理由说“烤白薯、烧豆腐”就不是词呢?由于词的相对性,同样一类现象,我们可以根据需要规定切分或者不切分。为了实用的目的,音节标准可以作为结构标准、语义标准的辅助标准。比如“烤鸭”之类结构按照音节可以分为两组:
第一组:烤鸭 烧鸡 炒菜 炖肉 烩饼 酱菜 蒸馍
第二组:烤白薯 烧茄于 炒韭菜 炸豆腐 熬白菜 酱肘子 拌黄瓜 红烧鱼 水煮肉 清蒸鲤鱼 糖醋 排骨 拔丝山药 凉拌西红柿
第一组和第二组的语法条件相同(两部分都能单用,都是“动+名”式偏正结构)、语义条件相同(两部分的语义关系类型相同,都是“烹饪方法+原料”〔2〕,对于这两组对象,从理论上说处理成词和短语都可以,但如果考虑到词汇双音化的倾向,则可以规定对第一组不切分、对第二组切分。音节标准只能在语法标准和语义标准相同的条件下才能起作用,否则会造成混乱。
4.频度标准使用频度是影响人们对词的认识的一个重要因素,比如,我们一般觉得“鸡蛋”像一个词,但是“鹅蛋、蛇蛋、乌龟蛋。鹌鹑蛋”就不像词,觉得“猪肉、牛肉”是词,“驴肉、蛇肉、马肉、骆驼肉”不是词,这显然受到频度的影响。《现代汉语词典》(修订本)的收词也能说明这一问题;例如,它收了“海鱼、河鱼”,但没有收“海虾、河虾、海蟹、河蟹”;它收了“做法”,但没有收“唱法、教法、叫法、提法、挖法、写法、译法、走法”等;它收了“博物馆、图书馆、体育馆、殡仪馆、文化馆”,但没有收“陈列馆、大使馆、档案馆、美术馆、展览馆、资料馆、武术馆、理发馆、咖啡馆、纪念馆、游泳馆、水族馆、训练馆”等。
使用频度到底在分词中应该起什么作用呢?我们认为,使用频度不应该是确定词与非词的一个标准。比如,如果你说“图书馆”是词,只要所有和“图书馆”在语法语义上构造相同的语言片段就应该是词。不能因为“图书馆”的频率比“档案馆”高,就说图书馆是词,“档案馆”是短语。但是,由于复合词和短语之间的界限客观上有一定的相对性,随着计算机存储容量的激增,物理上对词典规模的限制越来越小,为了处理的方便,在一些应用系统中适当收入一部分短语在工程上是可行的,如著名的SYS-TRAN公司的汉英机器翻译系统的词典规模就达到60万条,其中就收入了相当一部分短语。[8]这时,可以把使用频度作为一个实用标准,据此把一部分使用频度高、搭配强度高的短语收入词典。应该强调的是,使用频度标准不能是区别词和短语的标准,因为一些词尽管使用频度很低,但仍不能排除在词典之外,如“鼯鼠、俳优”等,同时,一些短语尽管使用频度很高,从句法一语义的系统性考虑仍不能收入词典,如数量短语“一个”。
综上所述,从区分词和短语的角度看,主要只能依据句法标准和语义标准,二者之中又应当以句法标准为主。句法标准中单用标准优先于扩展标准。音节标准可以作为句法标准和语义标准之外的一个补充标准。使用频度不能作为区分词和短语的标准,但可以作为电子词典收录短语的实用标准。因此可以给出以下的优先顺序:
单用标准>扩展标准>语义标准>音节标准>频度标准分词标准只是分词的基本原则。在明确了这些原则和方法之后,更重要的工作是利用这些方法制定出一套可操作性强的分词规范作为制定词表和具体分词工作的依据。现有的分词规范离这个目标相差甚远。要制定出一部理想的面向真实文本的分词规范,必须要调查大量的语言事实。应该从分析语言事实的过程中归纳出分词规范,而不能靠演绎的办法。陆志韦先生等的工作是值得学习的,但其缺陷是分析的对象主要是现成的词表而不是活的语料。[2]今天,我们有大规模的语料库,有计算机作为辅助手段,我们应该也有可能做出比前人更进一步的工作。附
*本项研究得到国家自然科学基金资助。黄昌宁教授对本文初稿提出许多修改意见,谨此致谢。
注释:
〔1〕关于结构受限的认识是在和孙德金、黄建平等同志的多次讨论中逐渐形成的。
〔2〕“动+名”式偏正结构的类型不限于“烹饪方法+原料”这一种类型,如“来信、赏钱、死人、剩菜、积雪、润滑油、祝酒词、读书人”等。