面向中文信息处理的现代汉语“v + v”结构歧义问题研究,本文主要内容关键词为:歧义论文,现代汉语论文,中文论文,结构论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]H085 [文献标识码]A [文章编号]1003-5397(2005)01-0123-07
一 引言
歧义问题是语言学中的一个难点,也一直是自然语言理解和机器翻译中难以解决的问 题。1960年巴尔-希列尔(Bar-Hillel)就曾说过歧义是自然语言处理中的主要绊脚石。
事实上,虽然歧义在自然语言中普遍存在,真正影响到人们交流的情况却很少。这可 能是因为在交际过程中,人们总是可以根据一定的知识背景、文化常识,结合特定的上 下文和某些语法、语义特点,找出几个意义当中正确的一个。人类这种“与生俱来”的 本领恰恰是机器欠缺的,可是如果我们能将人类排除歧义的主要依据找到,通过一定的 算法教会计算机,似乎就应该可以帮助计算机解决自然语言处理过程中的歧义问题。
本文作者从这种思想出发,以“v + v”这种具有潜在歧义的结构为切入点,具体分析 每个“v + v”结构中其中两个动词的语法关系、语义属性,再结合具体的语境尽量提 出可供计算机自动消解歧义的规则,希望能为自然语言计算机处理过程中的歧义消解提 供一定的参考作用。
二 研究概况
人们对歧义现象的关注早在两千三百年前就开始了,古希腊哲学家亚里士多德(Aristo teles)在他的《工具论·辨谬篇》中探讨了自然语言的歧义问题,但亚里士多德对歧义 的研究是为哲学辩论中的语言应用服务的。1930年,恩普森(W.Empson)发表了《歧义的 七种类型》(Seven Types of Ambiguity)一书,正式开始从语言理论的角度研究歧义问 题。而在人们对自然语言进行信息处理后,更加重视如何让计算机自动消歧。学者们主 要是从消解词汇歧义和句法歧义两个方面着手进行研究。
词汇歧义是由于一词多类和一词多义产生的,1963年,Katzt和Fodor首先提出利用语 义选择限制(注:选择限制是一种利用语义消解歧义的方法。它规定可共现语义是合法 组合,而剖析过程中产生的不合法表达式要被排除掉。James Allen Natural Language Understanding P296。)的方法去消解歧义,从此,利用语义特征不同形式的各种研究 方法几乎被用在每个计算模型的消歧上。
句法歧义是由于结构成分之间可能产生多种层次或关系而产生的。人们最开始用ATN分 析器去分析一个句子时,在遇到两条可选路径时,它会随机选择一个,如果这条路径成 功了,它不会再回溯去测试另一条路径。可是没被选择的路径也可能成功地分析一个句 子,这个随机的选择结果就导致了盲目消歧。
1972年Woods,Kaplan,Nash-Webber制作了LUNAR系统,他们在ATN分析结果的结尾处加 上一个语义检测器,当这个检测器发现分析在语义上有问题时,它会像发现语法错误一 样回溯并尝试另一条路径。这个分析器主要采用选择限制的方法。可是Marcus指出语义 检测器还不能解决所有问题,因为它不能作出比较判断,它会接受第一个具有最小可能 的结果,但它所拒绝的那些分析可能会产生更好的结果。
1979年Boguraev以ATN为基础的消歧系统包含了主动消歧策略和被动消歧策略。主动消 歧策略是利用一部分句子结构及一些多余的词项或短语去尝试建立合法的结构;被动消 歧策略是检测一个完整的结构在格框架、选择限制等方面是否在语义上一致。这个系统 避免了盲目的非确定性,减少了回溯,保证了相同的错误不会重犯。它可以区分关系从 句和动词补语,也可以用来确定介词结构的附着问题。
1980年Marcus的Parsifal分析器是不可回溯的,当产生结构歧义时它会检测并立即作 出决定,这种选择将是最终的结果。在Marcus的Parsifal分析器中,利用语义引导分析 有三种不同的方法:绝对的选择限制,利用语义寻找空位,依靠语义比较判定。
国内对汉语歧义的研究主要集中在歧义分类、歧义成因、歧义格式、歧义界定、歧义 分化、消歧手段、歧义指数、意义优选和歧义度。语言学界研究歧义主要是为了找出人 与人在交际过程中产生歧义的原因及全部类型;而计算语言学专家的任务则是在语言学 专家研究成果的基础上,考察机器在处理自然语言的过程中所遇到的歧义,包括多义词 义项选择、歧义字段切分、歧义格式分化等。对句法结构的消歧,国内计算语言学界的 学者大都是从微观入手,研究个别歧义结构的语法、语义现象,我们的目的是尽量了解 和把握汉语全部歧义结构的概况,针对每种歧义结构提出消歧策略。
三 理论基础
朱德熙先生(1980)从理论上概括了语言中歧义格式的类型,明确提出“歧义格式”这 个概念。他认为,句子的歧义“是代表了这些句子的抽象的‘句式’所固有的”,因此 ,他主张用“歧义格式”来概括语言中的同形歧义格式。
冯志伟在研究汉语术语歧义问题时,提出“潜在歧义理论”(Potentional Ambiguity ,简称PA论)(注:冯志伟《中文科技的结构描述和潜在歧义》,《中文信息学报》1989 年第2期。)。PA论认为,中文词组型科技术语中,当一个PT-结构(词组类型结构)对应 于一个以上的SF-结构(句法功能结构)时,就有可能对这个PT-结构作出一种以上不同的 解释,这时,就说这个PT-结构是潜在歧义结构,之所以说是“潜在歧义”,是因为在P T-结构实例化(instantiation)的过程中,这种歧义有可能继续保持,成为真歧义结构 ,也有可能得到消除,成为歧义消解结构,因而这种歧义是潜在的而不是现实的,它只 是具有了歧义的可能性,但是还不一定具有歧义的现实性。
冯志伟后来在《论歧义结构的潜在性》一文中,将这种为分析汉语科技术语而提出的 潜在歧义论用来解释日常语言中的歧义现象。证明了尽管在自然语言中存在大量的同形 歧义结构,但它们的PT-结构都是潜在歧义结构。自然语言有其歧义性(ambiguousness) 的一面,也有其非歧义性(non-ambiguousness)的一面,自然语言中这种存在潜在歧义 有时又能够自行消解的现象正是歧义性和非歧义性对立统一规律的体现。这说明潜在歧 义结构本身就包含了消解歧义的因素,仔细研究这些潜在歧义结构本身,就不难发现可 供计算机自动消解歧义的办法。
詹卫东等(1999)对汉语短语结构的定界歧义进行了全面考察,并对汉语短语结构定界 歧义的不同类型进行了初步统计,从模式歧义和实例歧义对应关系的角度将歧义格式分 为真歧义格式、准歧义格式、伪歧义格式三种。其实从这个角度对歧义格式进行分类是 在冯志伟有关潜在歧义格式的基础上进一步深入分析得到的结果。其中的“真歧义格式 ”就是冯志伟提出的“潜在歧义格式”。由于这种格式对计算机处理真实文本而言,确 实都存在歧义,因此,我们认同这种说法。
我们这里所说的“真歧义格式”(或称真歧义结构)是指具有潜在歧义的抽象句法格式 ,其结构项包括常项和变项,常项是具体词语,变项是词类或句法成分类(注:尤庆学 《现代汉语歧义结构研究》,武汉大学博士学位论文,2002。)。需要说明的是,这种 格式里面歧义的产生不同于同形异义词。歧义格式中歧义的产生是由于词与词之间在搭 配时可能产生的不同结构层次、语法关系或语义关系引起的,机器在识别这些结构时, 我们假定组成它们的词的词性和意义已被计算机正确选择。实例化后的真歧义格式我们 又分为两种类型:
(一)格式真歧义短语
特点是对人而言歧义消失。举例来说,“vp + np1 + 的 + np2”这个结构有两种组合 方式:
A.[vp [np1 的 np2]]
[削 [苹果 的 皮]]
B.[[vp np1 的] np2]
[[削 苹果 的] 刀]
这两个对人来说轻而易举就可以理解的语言片断,对机器来说切分结构关系首先就成 了一个难题。像“削苹果的皮”“削苹果的刀”这种对机器有歧义、对人没有歧义的短 语我们叫做格式真歧义短语。
(二)实例真歧义短语
特点是人理解起来也有歧义,上面这个格式如果实例化为“喜欢李方的老师”,可以 理解为某人喜欢李方的老师(按A的组合方式),也可以理解为老师喜欢李方(按B的组合 方式)。这种对人和机器而言都有歧义的短语我们叫做实例真歧义短语。
本文对于v + v结构的格式真歧义短语分为五种类型:
1.述宾型:听到召唤、学习理财、感到迷失。
2.状中型:步行回家、向上升起、举手表决。
3.联合型:发现整理、剪贴拼凑、讨价还价。
4.动补型:融合起来、发泄出来、带进去。
5.主谓型:计划失败、排练结束、比赛开始。
需要说明的是:
1.有些词可能同时具有动词、名词两种词性,比如:“迷信活动”“摔跤运动”中的 “活动”“运动”就是这样,在这两个词组中,我们认为它们受前面一个动词修饰,是 名词,把整个结构作为定中关系的名词短语来处理。
2.如果一个v + v结构中的两个动词在意义上有先后关系,传统语言学一般认为这两个 动词是连动关系,例如:前来献花、展翅飞翔、伸手拦住等。可是这种结构中的v1一般 也同时表示v2动作的朝向、原因、方式等,对v2起到一定的修饰作用,因此,常常会产 生连动——状中歧义,经过比较我们发现两种不同语法关系的划分并没有在意义上造成 真正的歧义,为了操作上的方便,我们把这类连动关系基本归并到状中关系里面。
冯志伟(1989)指出,在由前后两个句法成分组成的句法功能结构中,句法功能的着重 点可能有所不同,这种着重点就叫做功能焦点(functional focus)。有的结构的功能焦 点在前,有的结构的功能焦点在后,还有的结构的功能焦点是并列的。按功能焦点的不 同,可以把术语的句法功能结构(即SF-结构)分为3种类型:
1.前焦型:功能焦点在前一成分的SF-结构,它包括述宾式和动补式。
2.后焦型:功能焦点在后一成分的SF-结构,包括主谓式、定中式和状中式。
3.并焦型:功能焦点在前后两个句法成分的SF-结构,主要是并列式。
在对语料进行再分类的过程中,我们主要是根据功能焦点为其划分语义类别。由于焦 点位置的不同对不同语法关系的动词短语进行语义分类时会采用不同的标准,比如,前 焦型短语要根据v1分类,后焦型根据v2,并焦型短语中的两个词都可以成为功能焦点, 因此根据v1或v2都可以,在这里为了操作上的方便我们统一规定根据v2划分。前焦型结 构中的动补式短语大部分是由趋向动词做补语,由于趋向动词数量有限,比较容易识别 ,我们把它作为分类依据。由此我们得出这样的结论,述宾式和动补式(除趋向动词做 补语的情况)短语根据v1进行再分类;而主谓式、状中式、并列式、趋向动词做补语的 动补式短语根据v2进行再分类。
四 消歧方法和流程
(一)消歧方法
从ATN分析器等国内外专家学者提出的句法消歧方法和理论来看,单纯运用句法、语义 或语用都不能解决问题,因此我们尽量将这三个方面整合运用,制定出以下语料处理方 法:
1.将冯志伟在开发日汉机器翻译系统时所采用的语义分类体系转化为语义树形图。
2.对一个v + v结构首先判断其为格式真歧义短语或实例真歧义短语。
3.对于格式真歧义短语:
(1)根据语义树和短语的焦点为语料进行分类,为每个短语找到其在树形图中的位置。
(2)根据不同的语法关系为同一语义分支下面的语料进行再分类,采用描写的方法,给 出每个v + v结构中动词的语义类别。
(3)对每个语义分支里面的语料处理完毕后,为了减少空间复杂度,根据每个v + v结 构中的非焦动词进行归纳整理,尽量找出其中的语言规律,提出消歧策略。
4.对于实例真歧义短语主要根据上下文分布特点提出消歧策略。
(二)消歧流程
下面是我们处理语料的过程:
1.收集约100万字的语料,包括教材类、小说类、传记类、杂志类及电视新闻类。
2.利用CCRL(注:CCRL(Chinese Corpus Retriever for Language teaching and rese arch)是北京语言文化大学开发的面向语言教学研究的汉语语料库检索工具。)检索出v + v短语。
3.经过人工处理,留下合格语料,找出其中含有v + v短语的实例。
4.根据上面的消歧方法提出消解歧义的策略,由于篇幅的限制本文仅拿出其中[ + 出 发]类语义分支下面的语料和规则作为说明:
[ + 出发]
状中
(1)告辞回家 步行回家 点火起飞
(2)放工回家 卸任返国 退役归来
if v2 [ + 出发];
and v1[ + 身体动作]or[ + 生活];
then v1 + v2≌zzp。
并列
起飞降落
当v1和v2都是[ + 出发]类动词,且二者价位相等时,形成并列关系,规则如下:
if v2 [ + 出发] and v1 [ + 出发];
v2
= v1
;
then v1 + v2≌blp。
5.计算每种语法关系的使用强度(注:使用强度是某种类型的“v + v”结构出现次数 与“v + v”结构在语料库中出现全部次数的比例。),并据此在整体上安排算法。
统计各种语法关系的使用强度成下表:
状中动补述宾
并列主谓 状中/并列总计
出现次数
799 382 252104 32 31572
使用强度 50.83% 24.30% 16.03% 6.62%
2.04%
0.19%
根据使用强度,我们编写对v + v结构消歧的算法如下:
if v2[ + 趋向]and v1[-心理行为];
or if v2[ + 趋向]and v1[ + 感情作用];
or if v2[ + 趋向]and v1[ + 思想活动];
and v1[ + 推理];
then v1 + v2≌dbp;
end
else if v2[ + X]and v1[ + Y];
X = Y;
if v2
= v1
;
or if v1 = ab,v2 = cd;
a = c or b = d;
or if V1↑v1,V2↑v2;
and V1 = V2;
or if v1*v2;
then v1 + v2≌blp;
end
else if v2[ + 始末]and v1;
or if v2[ + 事态]and v1[ + 搏斗];
or if v2[ + 消散]and v1[ + 思想活动];
of if v2[ + 领先]and v1[ + 搏斗];
of if v2[ + 显露]and v1[ + 测录];
of if v2[ + 思想活动];
and v1[ + 测录];
or if v2[ + 事态];
and v1[ + 生活]or[ + 涉损];
then v1 + v2≌zwp;
end
else go to the zzp database;
if“v2” = v2[ + X]and“v1” = v1[ + Y];
then v1 + v2≌zzp;
end
else if v1[ + 五官动作]and v2[ + 否定];
or if v1[ + 全身动作]and v2[ + 情态能愿];
or if v1[ + 遭遇]and v2[ + 始末];
then v1 + v2≌dbp;
end
else go to the sbp database;
if“v1” = v1[ + X]and“v2” = v2[ + Y];
then v1 + v2≌sbp;
end
else if v2[ + 共事]and v1[ + 协助];
then v1 + v2 = zzp|blp;
if v1 + v2/“一” + q;
and v[ + 发动]→v1 + v2;
then v1 + v2≌zzp;
if v1 + v2/“二” + q/“都”;
then v1 + v2≌blp;
end
else if v2[ + 生活]and v1[ + 生活];
then v1 + v2 = zzp|blp;
if v1 + v2/“一” + q/r + q;
then v1 + v2≌zzp;
if v1 + v2/“都”;
then v1 + v2≌blp;
end
五 余论
以上规则是在现有语料的基础上提出来的,难免会挂一漏万,不过随着语料库的不断 扩大我们还会进一步完善它们。
本文的研究方法及提出的消歧策略是“v + v”结构中动词特有的性质所决定的,它可 能还适合如“v + v + v”“n + v”“v + n”等其他含有动词的短语结构,这需要我 们在分析其他语料的基础上进一步研究。
像v + v这样的格式在汉语里面还有很多,作者收集到的就有六十几种,下一步的计划 就是逐一分析其他格式在语法、语义上的特点,提出消歧策略,希望通过我们的研究可 以对汉语的歧义格式有一个全面的认识。
收稿日期:2004-01-21