面向计算的汉语动词蕴涵关系研究和型式库建设,本文主要内容关键词为:汉语论文,型式论文,动词论文,蕴涵论文,关系论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、文本蕴涵及其在信息处理中的应用
在自然语言中,一种突出的现象是语义表达形式的多样性(semantic variability),即相同的意义可以用不同的形式来表达,或者从不同的文本中推断出来。例如:①
(1)a.What annoyed me was his hypocrisy.
使我感到讨厌的是他的虚伪。
b.It was his hypocrisy that annoyed me.
正是他的虚伪使我感到讨厌。
(2)a.He married a blonde heiress.
他跟一个金发女继承人结婚。
b.He married a blonde.
他跟一个金发女郎结婚。
例(1)中a和b两个语言形式表达基本相同的意义,即它们之间具有同义互释关系(paraphrase);例(2)中b的意思可以从a中推断出来,即它们之间具有蕴涵关系(entailment)。为了方便,可以把这些不同文本之间的同义和蕴涵关系统称为文本蕴涵(textual entailment)。
关于文本蕴涵的知识对于鲁棒性的(robust)语言处理应用,十分必要;诸如信息检索、问题回答、信息抽取、自动文摘和机器翻译等,必须识别那些表达了有关输入(比如,查询、问题等)和所需的输出(比如,目标、回答)的多样化的表达形式。于是,需要为语言中的语义表达形式的多样性建立模型,以便应用系统能够识别一个特定的目标意义,将其从不同的文本变异形式中推断出来。但是,由于目前语言理论和计算技术的限制,这种模型只能在浅层的语义平面上建立。比如,用户向问答系统提交的问题是:
(3)俄罗斯有多少枚导弹?
我们希望问答系统通过模板匹配和数据库检索等后台操作,给出理想的回答:
(4)俄罗斯有XXX枚导弹。
但是,问答系统后台存储的目标文档中,可能恰恰没有这种形式的句子;倒是可能有跟(4)同义的其他词汇—句法形式的句子:
(5)俄罗斯暗藏了XXX枚导弹。
(6)俄罗斯保留了XXX枚导弹。
(7)俄罗斯配备了XXX枚导弹。
(8)俄罗斯保存着XXX枚导弹。
显然,(5)一(8)这类句子蕴涵了()这类句子的意义,它们中的任何一句都可以是问句(3)的合适的、令用户满意的答句。解决问题的关键是,问答系统必须具备发现(5)—(8)跟(4)这两类句子间存在蕴涵关系的能力。
可见,文本蕴涵研究不仅具有语言学和逻辑学上的理论意义,而且具有语言信息处理上的应用价值。通过为不同的语言表达形式之间的蕴涵关系建立通用的模型,指定一个语言表达形式的意义可以从另一个语言表达形式中推断出来的条件,来发展一种识别语言表达多样性的技术路线,从而为上述多种语言处理应用服务。正是着眼于此,我们开展了面向计算的汉语动词蕴涵型式库的研究和建设。
二、研究目标和理论背景
(一)目标与方法
本文拟解决的关键问题是:在语义计算和语义推理的过程中,涉及对作为核心的谓词性成分之间的语义蕴涵关系及其类型和规则集合的发现。研究重点是语义推理知识库的构建,特别是基于动词语义角色框架库的蕴涵型式库的建设。因此,我们的研究目标是:
其一,建立动词之间的蕴涵关系:在充分利用已经建设成的谓词一论元结构知识库的基础之上,立足于词汇层面,以动词为核心,分别语义情境类型,以控制问题的规模;通过浅层的句法—语义分析,把句子之间的蕴涵关系简化和落实为句子中谓词之间的蕴涵关系(暂时不考虑论元之间的蕴涵关系);发现一对/组看上去是描述大致相同的事实的相匹配的文本片段,并找出共同的论元性词语作为“支撑点”(anchors),来发现动词之间的蕴涵关系;②同时还注意到被蕴涵(entailed)动词和主蕴涵(entailing)动词前后的时体成分,比如“配备了拥有”。通过上述方法可在汉语10000多个动词间建立蕴涵关系,表示为形如“AB”的蕴涵式,例如“包办办理,毙命死亡,病故死亡”。
其二,给已经发现的蕴涵关系建立数据库:以被蕴涵动词为纲,为已经发现的5000余个蕴涵式建立蕴涵型式知识库;其中,一个被蕴涵动词可能对应多个主蕴涵动词。
其三,使数据库为自然语言处理提供可供参考与使用的资源:建立起来的数据库具有多种查询功能,包含的信息内容较多,可以为语言信息处理和语言研究与教学提供较有价值的参考。
本文的研究方法和技术路线是:充分利用汉语配价语法的研究成果,在论元结构理论和词汇语义学的指导下,运用数理逻辑和形式语义学提供的各种技术手段,来发现与谓词的语义相关的各种文本蕴涵的类型和有关规则,建立起汉语常用动词的蕴涵型式库及其相应的规则集合,从而为文本的语义推理提供动词语义方面的知识库资源。为此,本文参考了逻辑学上的蕴涵理论、语义学上的衍推理论以及近年来在自然语言处理学界兴起的文本蕴涵理论;已建的动词蕴涵型式库还包含了主蕴涵词的论元结构信息和被蕴涵词的论元结构信息,因此也参考了配价语法理论和论元结构理论的相关内容。
(二)从逻辑学的蕴涵理论到语义学的衍推理论③
“蕴涵”(implication)本来是一个逻辑学概念。当逻辑学发展到现代,命题逻辑把传统逻辑中的“充分条件假言判断”高度抽象化为实质蕴涵(material implication)关系。实质蕴涵纯粹地从真值函项角度来处理原先的充分条件假言判断(即p、q的真值对p→q的真值的影响),而不考虑语句表达的具体内容,这就不可避免地出现了所谓的“实质蕴涵怪论”(paradox of material implication):真命题为任何命题所蕴涵,而假命题蕴涵任何命题。例如:
(1)如果发生强烈的地震,那么房屋就会倒塌。
(2)如果2+2=4,那么雪是白的。
(3)如果太阳从西边出来,那么卷心菜就是蔬菜。
(4)如果太阳从西边出来,那么卷心菜就不是蔬菜。
虽然以上所有“p→q”都为真,但只有(1)是自然的,而(2)—(4)是反直觉的(counterintuitive),即在语感上让人难以接受。其中,(2)因为前件与后件之间没有语义上的联系让人觉得不自然;至于(3)和(4),由于前一肢命题为假,造成两个后肢命题相互矛盾的蕴涵式都是真的。
为了解决“实质蕴涵怪论”,逻辑学家刘易斯(C.I.Lewis)④提出严格蕴涵(strict implication)概念,希望能保证从某一命题出发能必然地推出一个真命题;贝尔纳普(N.D.Belnap)⑤提出了相干蕴涵(relevant implication)概念,希望能保证在前提和结论之间具有某种共同的内容或意义关联。但是,以必然性为旨归的严格蕴涵和以相干性为旨归的相干蕴涵,都无法彻底解决实质蕴涵怪论,还带来了新的问题:照顾到必然性就无法顾及相干性,照顾到相干性就难以顾及必然性。
为了进一步解决实质蕴涵的局限,在严格蕴涵和相干蕴涵的基础上,安德森与贝尔纳普(A.R.Anderson和N.D.Belnap)⑥提出了衍推(entailment)概念。他们把衍推关系规定为:
语句p衍推(entail)语句q,当且仅当若p为真,可以由p内在地推导出q为真。
可见衍推是对实质蕴涵更为严格的限制:要求前件和后件既有必然性,又有相干性(即语义上的相关性)。至此,实质蕴涵怪论得到了较为妥善的解决。
现代语言学借用逻辑学上的衍推观念,提出了语义衍推(semantic entailment)的概念,定义如下:⑦
当且仅当在所有情境下A真B也真,那么A在语义上衍推B,记作AB。利奇(Leech)对衍推的定义为:⑧
如果X为真,Y也为真;同样,如果Y为假,X也为假;那么,X衍推Y。
在语言学领域,一般都是在这种定义下使用entailment这一概念的,尽管有的翻译成“衍推”(如沈家煊的《不对称和标记论》,南昌:江西教育出版社,1999年),有的翻译成“推演”(如Allwood等Logic in Linguistics的中译本),有的翻译成“蕴涵”(如Leech《语义学》的中译本)。本文根据国内自然语言处理学界的术语使用习惯,把动词之间的这种语义衍推关系称为“蕴涵”。
(三)文本蕴涵理论
为了有效地处理自然语言中广泛存在的同义异形现象,近年来国外一些学者尝试用“文本蕴涵”(textual entailment)来为语言中纷繁复杂的同义表达建立模型。⑨所谓文本蕴涵,可以定义为一个连贯的文本T和一个被看作是假设(hypothesis)的文本H之间的一种关系:如果H的意义(置于T的语境中加以解释时)可以从T的意义中推断出来,那么,T蕴涵(entail)H(即H是T的推断),记作TH。
Bar-Haim等⑩定义了对应于词汇和词汇—句法两个层面的文本蕴涵模型。在词汇层面,他们假定文本T和假设H都是由一组词语表达的(暂时忽略功能词)。如果H中的每一个词语h能够跟T中相应的主蕴涵(entailing)词语t相匹配,那么T和H之间具有蕴涵关系;并且,如果h和t共有相同的词目(lemma)和词类,或者通过一系列词汇转换,h可以跟t相匹配,那么,可认为t蕴涵h。(11)
Bar-Haim等提到的词汇转换有以下三种方式:
其一,形态派生。这种推理机制把两个词语看作是等同的。如果通过某种形态派生,一个词语可以从另一个得到。比如,名词化(如:acquisitionacquire),附属关系(如:AfghanistanAfghan),或名词派生(如:terroristterror)。
其二,本体关系。这种推理机制利用词语之间的本体知识关系(ontological relations)。如果两个词语之间存在一条有效的本体知识关系的链条,那么一个词语可以从另一个词语推出。比如,同义关系(如:freerelease),上下义关系(如:producemake),部分—整体关系(如:executivecompany)。
其三,词汇世界知识。这种推理机制指凭借反映在词汇层面的世界知识,一个词语的意义可以从另一个词语推出。比如,命名实体(named entities)之间的关系(如:Talibanorganization);词语之间的关系,诸如WordNet中的cause关系(如:killdie)和entail关系(如:snoresleep)。
在词汇—句法层面上,他们假定:文本T和假设H都可由通过依存关系分析而得到的句法依存关系来表达。通过对T中的关系进行一系列转换,使之能够产生出H中的所有关系。其中的转换有四种类型:词汇转换、句法转换(如主动/被动转换、同位式转换)、同义互释(如:X take in YX join Y,X is holy book of YY follow X)以及同指互参(如:Italy and Germany have each played twice,and they haven't beaten any-body yetNeither Italy nor Germany have won yet)。
在本文对汉语动词的蕴涵式研究中,所涉及的文本蕴涵层级主要是词汇层面的,词汇—句法层面的文本蕴涵涉及不多。由于汉语是一种形态不发达的语言,所以形态派生在研究中几乎没有得到体现,本研究希望建立的蕴涵配对,主要依据的是词汇层面的本体关系(同义关系“逝世死亡”,上下义关系“惨死死亡”)、词汇世界知识(喝醉喝酒,制作出现/存在)与词汇—句法层面的句法转换。后者在逻辑学理论上也有一定的根据。因为,可以从“俄罗斯配备了3000枚导弹俄罗斯拥有3000枚导弹”一类蕴涵语句对子中,抽象出动词蕴涵式“配备了拥有”;反过来,也可以把动词蕴涵式“配备了拥有”的命题形式“xy(x配备了y→x拥有y)”,经过全称限定来得到语句的文本蕴涵形式“俄罗斯配备了3000枚导弹俄罗斯拥有3000枚导弹”。如此一来,既可以做到从语句的文本蕴涵到动词之间的蕴涵关系的抽象,也能做到从动词的蕴涵式到语句的文本蕴涵式的回归。(12)
必须说明的是,文本蕴涵的概念是为了满足自然语言处理技术的应用需要而提出的。它不同于逻辑学上的实质蕴涵、严格蕴涵和衍推,它带有一定的非严格性,即文本蕴涵可以是一种概率性的(probabilistic)推理关系。例如,“说听,表演观看”,一个人在说话的时候不一定必然有听话人,在表演的时候不一定有观众;但是,就一般情况(即大概率事件)而言,从有人说就可以推出有人听,从有人表演可以推出有人观看;再如,“制作出现/存在”,制作某个产品有可能制造成功,也有可能失败;但是,在多数情况下,有“制作产品”就意味着“产品出现/存在”。
(四)配价语法理论和论元结构理论
受化学配价学说的影响,语言学借用“价”来描述动词对名词性成分的支配能力,并形成配价语法理论,能支配一个名词性成分的动词为一价动词,相应地,能支配两个、三个名词性成分的动词为二价、三价动词。这种理论与生成语法学派的论元结构理论基本一致,本研究的汉语动词蕴涵式,吸收了两种理论并对其加以改进。配价语法理论在汉语学界引起过广泛关注,许多学者不仅运用其解决汉语理论研究的问题,还运用其来进行自然语言处理的研究工作。(13)
根据学者们的研究,动词的配价成分首先可以分为必有论元和非必有论元两种,前者是构成意思相对完整的句子所不可缺少的,后者则用以扩充句子的意思,帮助形成意思相对复杂的句子。必有论元可以分为主体论元和客体论元两种,前者主要作主语,后者主要作宾语。主体论元可以细化为施事、感事、经事、致事、主事等语义角色,客体论元可以细化为受事、与事、结果、对象、系事等语义角色。非必有论元可以从语义上分为依凭论元、环境论元和关涉论元三种,它们主要作状语。其中,依凭论元可以细化为工具、材料、方式、原因、目的等语义角色,环境论元可以细化为时间、处所、源点、终点、路径等语义角色,关涉论元可以细化为量幅、范围等语义角色。
本研究依据先前已经编制好的动词论元结构的描述框架,来描述主蕴涵词和被蕴涵词的论元结构信息,包括论元角色、配位方式、抽象句式以及代表性例句,在两者的论元结构信息之间建立绑定关系,并可据此建立可供查询的数据库。
三、蕴涵式的若干规律
自索绪尔(14)以降,语言是个有机系统的观念已深入人心。语言符号数目众多,但这些符号并非杂乱无章,而可以依据一定的特征或标准聚合成群。确立聚合群的特征或标准往往反映了语言系统的规律所在。本文在确立汉语动词蕴涵式的时候,也发现了若干关于蕴涵式类聚的规律。现将已发现的几条重要的动词蕴涵规律呈示如下。
第一,方式蕴涵动作。如果知道某一动作(或状态)按照某种方式进行了,就可以说该动作(或状态)一定发生了;可以简单说成“方式动作(或状态)”,即“”。例如:“疾飞飞”,如果“鸟儿疾飞”为真,那么“鸟儿飞”一定也为真;类似的还有:“哀号号叫、哀求求、安卧卧(躺)、暗含含有、暗杀杀”。
第二,程度蕴涵动作。如果知道某一动作(或状态)进行时的程度,就可以说该动作(或状态)一定发生了;可以简单说成“程度动作(或状态)”,即“”。例如:“饱受经受”,如果“张三饱受煎熬”为真,那么“张三经受煎熬”一定也为真;类似的还有:“饱尝尝、逼近靠近、毕露暴露、暴涨上涨、惨笑笑”。
第三,结果蕴涵动作。如果知道某一动作(或状态)产生的结果,就可以说该动作(或状态)一定发生了;可以简单说成“结果动作(或状态)”,即“”。例如:“喝醉喝酒”,如果“张三喝醉了”为真,那么“张三喝酒了”一定也为真;类似的还有:“拌匀搅拌、绊倒绊、避风刮风、病故生病、擦亮擦”。
第四,同类蕴涵相同。包含相同语义特征的主蕴涵词所蕴涵的被蕴涵词一般也相同。比如,包含[+制作]语义特征的动词一般蕴涵“出现”或“存在”,包含[+摧毁]语义特征的动词一般蕴涵“消失”,包含[+运动]语义特征的动词一般蕴涵“位移”或“存在”,包含[+完结]语义特征的动词一般蕴涵“开始”,包含[+言说]语义特征的动词一般蕴涵“说话”等等。例如“办起、迸发、编写、编著、编撰、编纂、起草、制作、创立”都蕴涵“出现”或“存在”,“崩塌、拆、拆除、拆迁、撤销、除去、毁灭、毁掉、解除”都蕴涵“消失”,“摆动、搬动、搬运、奔跑、出国、穿过、飞驰、飞行、飞翔”都蕴涵“位移”。
第五,视角影响蕴涵。视角(15)(perspective)的不同也会使动词之间的蕴涵关系发生变化。例如,“买”和“卖”,站在买方视角的时候,“买得到(拥有)[货物]”,“卖失去[货物]”;而站在卖方视角的时候,“买失去[钱币]”,“卖得到[钱币]”。类似的还有“分、贡献、奉献、购买、捡拾、缴纳、馈赠、赔偿、施舍”,这些动词跟“买”和“卖”一样,采用不同视角看待说话者时,它们分别蕴涵“得到”或“失去”。
从逻辑学的角度来看,上位概念的外延大于下位概念的外延,而内涵则正好相反。这一点在动词蕴涵式上也同样得到体现。因此,上述关于蕴涵关系的第一、第二两条规律可以归并为这样一条:意义具体的动词蕴涵意义较为概括的动词,即“”。原因在于,下位概念的内涵相对于上位概念包含的语义特征更多,所以可蕴涵上位概念。例如,下五概念“红花”具有[+红色的][+花]两个语义特征,上位概念“花”具有[+花]一个语义特征,所以“”;如“大笑”具有[+程度高][+笑]两个语义特征,上位概念“笑”具有[+笑]一个语义特征,所以“”。此外,一个词的意义除了理性意义(概念义)之外,还具有附加意义,而意义具体的动词蕴涵意义较为概括的动词的规律,不仅在考察动词的理性意义时有效,在考察动词的附加意义时也同样适用。例如“毙命”和“死(亡)”两个动词的理性意义是一样的,它们互相蕴涵;但是,“毙命”除了具有特征[+死亡]以外,还有语体特征[+书面];所以,“毙命死亡”。
上述关于汉语动词蕴涵式的几条规律,还是比较粗疏的,它们未必能概括主蕴涵词和被蕴涵词之间关系的全部类型。但是,这几条规律的意义不仅仅在于从一个侧面印证了索绪尔“语言符号是个有机系统”的观念,还带给我们一个启示:可以像对单个动词在语义上进行分类那样,也可以对动词蕴涵式的主蕴涵词和被蕴涵词的语义关系进行分类。
四、蕴涵式的分类体系
在上述确立动词蕴涵式时发现的关于主蕴涵词和被蕴涵词之间蕴涵关系的规律指引下,可进一步开展对动词蕴涵式进行分类的工作。
Fellbaum(16)对动词之间蕴涵关系的类型进行了研究,指出主蕴涵词和被蕴涵词之间可能有时间性包含(temporal inclusion)、转精(troponymy)、反向预设(backward presupposition)和致使(cause)等种类的关系。通过对此进行整理和增补,可首先根据有无时间性包含,将蕴涵式分为两类:[+时间性包含]和[-时间性包含];对于[+时间性包含]的蕴涵式,再根据有无转精关系,分为两类:[+转精]和[-转精];对于[-时间性包含]的蕴涵式,也再分为两类:[+反向预设]与[+致使]。形成如下的分类层级:
(1)时间性包含类蕴涵,包括:
转精关系,如:march(行进)walk(走)
whisper(低语)talk(说话)
非转精关系,如:walk(走)step(踏上)
snore(打鼾)sleep(睡觉)
drive(驾驶)ride(骑)
(2)非时间性包含类蕴涵,包括:
反向预设,如:forget(忘记)know(知道)
unwrap(解开)wrap(缠绕)
致使关系,如:show(展示)see(看见)
break(打破)break(破碎)
give(给予)have(拥有)
fell(落下)fall(下落)
以上对动词之间蕴涵关系的分类,概括性较强,而对于汉语动词的蕴涵关系类型,还可以划分得更为精细。结合动词蕴涵式的若干规律,再借鉴Fellbaum对动词之间蕴涵关系的分类,可提出对汉语动词间蕴涵关系的一个更详细分类。
(一)两个基本大类:[+时间性包含]与[-时间性包含]
首先根据有无[+时间性包含]可将蕴涵式分为两类:[+时间性包含]和[-时间性包含]。所谓“时间性包含”考察的是两个动词所表示的动作是否同时进行,或者说两者是否具有共时的依存关系。这可以用“A实现就意味着B同时实现”格式去检验。例如:
(1)[+时间性包含]类蕴涵:
包办办理,毙命死亡,病故死亡,病逝死亡
(2)[-时间性包含]类蕴涵:
哀悼死亡,暗杀死亡,懊恼犯错,罢工上工
(1)中的蕴涵式都能通过“A实现就意味着B同时实现”的测试,例如“包办实现就意味着办理同时实现”,“毙命实现就意味着死亡同时实现”;(2)中的蕴涵式都不能通过这种测试,例如,不能认为“哀悼实现就意味着死亡同时实现”,也不能说“暗杀实现就意味着死亡同时实现”。
相对来说,两个动词所表示的动作、行为或状态等的时间关系比较容易判断;所以,在第一层次上根据[+/-时间性包含]特征划分动词蕴涵式的类别。
(二)[+时间性包含]关系蕴涵式的内部分类
在主蕴涵词和被蕴涵词具有[+时间性包含]关系的动词蕴涵式类内部,我们根据有无转精关系将所有的蕴涵式分为[+转精]关系和[-转精]关系两大类。“转精关系”指的是动词之间存在上下位关系。Fellbaum(17)人为用来测试名词之间上下位关系的句子框架“A是B”不大适合用来测试动词之间的上下位关系,因为动词之间的上下位关系有别于名词之间的上下位关系;于是,重新创造了一个术语“troponymy”(转精,即细化动作的方式)来称说动词之间的上下位关系。例如:
(1)[+转精]关系类蕴涵:
病故死亡,病逝死亡,惨笑笑,谄笑笑
耻笑笑,高唱唱,高歌唱歌,高喊喊
(2)[-转精]关系类蕴涵:
挨近靠近,挨骂骂,挨揍揍,按住按
暗含包含,白费浪费,拌匀搅拌,绊倒倒下
(1)中蕴涵式的主蕴涵词和被蕴涵词之间都具有上下位关系,主蕴涵词是下位词,被蕴涵词是上位词,而
(2)中蕴涵式的主蕴涵词和被蕴涵词之间都不具有上下位关系。
1.[+转精]关系类蕴涵的下位类型
Fellbaum(18)认为动词之间有无转精关系,可以用格式“To V1 is to V2 in some particular manner。”来测试。所用“manner”的意义较为宽泛,可以解释为多种语义维度或语义场。比如,速度(慢跑—跑步),或者感情的强烈程度(喜欢—喜爱—崇拜)。虽然对“manner”可以采用较为宽泛的理解,但是“程度”和“方式”的意义有较大区别。有鉴于此,在具有[+转精]关系的蕴涵式内部,可分出两个下位类型:[+方式]类蕴涵和[+程度]类蕴涵。例如:
(1)[+方式]类蕴涵:
苦笑笑,狂笑笑,冷笑笑,狞笑笑,傻笑笑
偷学学习,胡说说,仿制制作,自娱娱乐
(2)[+程度]类蕴涵:
暴涨上涨,饱尝尝,毕露露,酷爱爱,仅有有
熟知知道,紧逼逼,紧跟跟,紧接接,紧邻邻
(1)中蕴涵式的主蕴涵词和被蕴涵词之间都有[+方式]关系,可以用“A是B的一种方式”来测试;(2)中蕴涵式的主蕴涵词和被蕴涵词之间都有[+程度]关系,可以用“A是B的一种程度”来测试。
具有[+转精]关系的蕴涵式的主蕴涵词一般都是状中式复合动词,前一语素是后一语素的“方式状语”(19)或“程度状语”;并且主蕴涵词和被蕴涵词多数情况下包含相同的语素——当然也有少数主蕴涵词和被蕴涵词不包含相同语素的实例。因此,对于[+方式]类蕴涵,还可以从主蕴涵词和被蕴涵词是否具有共同语素的角度来进行下位分类。例如:
(1)[+相同语素]类蕴涵:
苦笑笑,狂笑笑,冷笑笑,狞笑笑,傻笑笑
(2)[-相同语素]类蕴涵:
病故死亡,病逝死亡,安息死亡,喷饭笑
对于[+程度]类蕴涵,同样可以采用主蕴涵词和被蕴涵词是否具有共同语素的标准,来进行下位分类。例如:
(1)[+相同语素]类蕴涵:
暴涨上涨,饱尝尝,毕露露,酷爱爱,仅有有
(2)[-相同语素]类蕴涵:
酷爱喜欢,洞悉知道,酣眠睡觉,寒心失望
2.[-转精]关系类蕴涵的下位类型
具有[-转精]关系的蕴涵式,首先可以根据有无致使关系分为两类:[+致使]关系类蕴涵式和[-致使]关系类蕴涵式。具有[+致使]关系的蕴涵式,其中主蕴涵词表示被蕴涵词发生的原因,被蕴涵词表示主蕴涵词产生的结果;相反,具有[-致使]关系的主蕴涵词和被蕴涵词之间则没有这种关系。例如:
(1)[+致使]类蕴涵:
按住按,挨打打,挨骂骂,挨揍揍,扒开扒
拔位移,摆动位移,搬动位移,搬运位移
(2)[-致使]类蕴涵:
阿谀奉承,爱戴拥护,懊丧懊恼
败胜,拜托求助,搬弄炫耀
(1)中蕴涵式的主蕴涵词与被蕴涵词之间具有因果关系,比如,“按住”是“按”造成的结果;而(2)中蕴涵式的主蕴涵词与被蕴涵词之间不具有因果关系。
具有[+致使]关系的蕴涵式,还可以根据主蕴涵词和被蕴涵词孰表因孰表果,分为两类:主蕴涵词表示原因、被蕴涵词表示结果的,可以记为[右向致使]类蕴涵;被蕴涵词表示原因、主蕴涵词表示结果的,可以记为[左向致使]类蕴涵。例如:
(1)[右向致使]类蕴涵:
拔位移,摆动位移,搬动位移,搬运位移
(2)[左向致使]类蕴涵:
扮成打扮,按住按,挨打打,挨骂骂
(1)中的蕴涵式,主蕴涵词表示原因,被蕴涵词表示结果,比如,“拔某物”造成“某物位移”,从原因到结果的因果链条从左向右;(2)中的蕴涵式,被蕴涵词表示原因,主蕴涵词表示结果,比如,“扮成”是“打扮”的结果,从原因到结果的因果链条从右向左。
具有[-致使]关系的蕴涵式,可以根据主蕴涵词和被蕴涵词的主体是否相同,分为两类:[+相同主体]类蕴涵和[-相同主体]类蕴涵。前文论及,主体论元可以细化为施事、感事、经事、致事、主事等语义角色,但由于主体为致事的动词应该归人因果关系类蕴涵式,因而这里讨论的主体论元排除了致事。例如:
(1)[+相同主体]类蕴涵:
阿谀奉承,爱戴拥护,懊丧懊恼,拜托求助
(2)[-相同主体]类蕴涵:
败胜,买卖,失去拥有,施舍得到
(1)中蕴涵式的主蕴涵词和被蕴涵词的主体相同,且它们往往是同义或近义关系;(2)中蕴涵式的主蕴涵词和被蕴涵词的主体不同,且由于表达视角相反,它们往往是反义或对义关系。
(三)[-时间性包含]关系蕴涵式的内部分类
在主蕴涵词和被蕴涵词具有[-时间性包含]关系的动词蕴涵式类内部,可根据有无致使关系,将[-时间性包含]关系的蕴涵式分为两个大类:具有[+致使]关系的和具有[-致使]关系的。在[-致使]关系类蕴涵式的主蕴涵词与被蕴涵词之间,往往具有反向预设关系,即主蕴涵词所表示的事件的发生,通常是以被蕴涵词所表示的事件的发生为前提。这种反向预设关系,类似于逻辑上的溯因推理(abduction reasoning)或逆推法(retroduction)等论证方式。例如:
(1)[+致使]关系类蕴涵:
告诉知道,拌匀搅拌,被害加害,阐明明白
编写存在,擦亮擦,查明调查,冲毁冲击
(2)[-致使]关系类蕴涵:
报警出事,报复得罪,奔丧死亡,驳回申请
罢工上工,罢课上课,办案犯案,睡醒睡觉
(1)中蕴涵式的主蕴涵词与被蕴涵词之间具有[+致使]关系,比如“X告诉Y某事”,使得“Y知道某事”;
(2)中蕴涵式的被蕴涵词是主蕴涵词的预设,比如,“X报警”的前提是“X或其他人出事了”,后者是前者的必要条件,所以能够从前者推出后者。
1.[+致使]关系蕴涵式的下位分类
具有[-时间性包含]关系的[+致使]关系蕴涵式与具有[+时间性包含]关系的[+致使]关系蕴涵式一样,也可以根据主蕴涵词和被蕴涵词孰表因孰表果,分为[+右向致使]与[+左向致使]两类。例如:
(1)[+右向致使]关系类蕴涵:
编写存在,报道知道,创立存在,阐明明白
(2)[+左向致使]关系类蕴涵:
擦亮擦,拌匀搅拌,被害加害,冲毁冲击
(1)中的蕴涵式,主蕴涵词表示原因,被蕴涵词表示结果,比如“存在某本书”是“编写某本书”的结果;(2)中的蕴涵式,被蕴涵词表示原因,主蕴涵词表示结果;比如,“擦亮皮鞋”是“擦皮鞋”的结果。
具有[+右向致使]关系的[+致使]关系蕴涵式,也可以根据主蕴涵词和被蕴涵词的主体是否相同,分为[+相同主体]类蕴涵和[-相同主体]类蕴涵两类。例如:
(1)[+相同主体]关系类蕴涵:
病危死亡,采集得到,辞职失去,去到
(2)[-相同主体]关系类蕴涵:
编写存在,报道知道,创立存在,阐明明白
(1)中蕴涵式的主蕴涵词和被蕴涵词的主体相同,比如,“采集用户信息”从而“得到用户信息”的是同一个主体;(2)中蕴涵式的主蕴涵词和被蕴涵词的主体一般不同,比如,“编写教科书”的主体(人)不同于因为编写而“存在”的主体(教科书)。
具有[+左向致使]关系的[+致使]关系蕴涵式,也可以根据主蕴涵词和被蕴涵词的主体是否相同,分为[+相同主体]类蕴涵和[-相同主体]类蕴涵两类。例如:
(1)[+相同主体]关系类蕴涵:
查明调查,冲毁冲击,喝醉喝酒,打下攻打
(2)[-相同主体]关系类蕴涵:
擦亮擦,拌匀搅拌,被害加害,受虐施虐
(1)中蕴涵式的主蕴涵词和被蕴涵词的主体相同,比如,“调查事故原因”从而“查明事故原因”的是同一个主体;(2)中蕴涵式的主蕴涵词和被蕴涵词的主体一般不同,比如,“被害”的主体(被害者)不同于“加害”的主体(害人者)。
2.[-致使]关系蕴涵式的下位分类
具有[-时间性包含]关系的[-致使]关系蕴涵式,同样可以根据主蕴涵词和被蕴涵词的主体是否相同,分为两类:[+相同主体]类蕴涵和[-相同主体]类蕴涵。例如:
(1)[+相同主体]关系类蕴涵:
睡醒睡觉,报警出事,罢工上工,罢课上课
(2)[-相同主体]关系类蕴涵:
报复得罪,办案犯案,奔丧死亡,驳回申请
(1)中蕴涵式的主蕴涵词和被蕴涵词的主体可以相同,比如,先“睡觉”后来“睡醒”的是同一个主体;(2)中蕴涵式的主蕴涵词和被蕴涵词的主体必然不同,比如,“得罪他人”的主体(惹是生非者)必定不同于因其行为招致的采取“报复”行为的主体(复仇者)。
如此运用[±时间性包含]、[±转精]、[±致使]、[±相同语素]、[±相同主体]等语义特征,采用层层二分的方法,给类型纷繁的汉语动词的蕴涵式逐级划分次类,最终可得到其蕴涵关系整体的上述层阶体系。
当然,此分类体系并不具有本质上必然如此的性质,而是一种方便的工作假设和参照框架,同时也是为了便于和WordNet等自然语言处理的主流词汇知识库相比较。其中,比较重要的分类特征是[±转精]和[±致使]两种。
五、汉语动词蕴涵型式库及应用前景展望
根据以上研究的成果,从袁毓林主持编写的《汉语动词配价词典》以及詹卫东主持开发的现代汉语树库的动词表中选择动词,目前已确立5000多动词蕴涵式对子,将该蕴涵配对及其主蕴涵词和被蕴涵词的论元结构信息等输入数据库(已经完成2656个),据此建立的汉语动词蕴涵型式库(网络版)(20)已经基本成型且上线。
在此基础上,未来可进一步尝试把动词的蕴涵关系研究与动词的叙实性(factivity)研究相结合,以开拓语义推理研究的新领域和新途径。在这方面,利奇(21)发展了Paul Kiparsky和Carol Kiparsky(22)的观点,提出语言中的动词存在叙实(蕴涵其宾语为真)、非叙实(不蕴涵其宾语之真假)和反叙实(蕴涵其宾语为假)的区别。研究发现,这种区别在汉语中也同样存在。比如,从“赵辛楣知道方鸿渐和苏文纨结婚了”、“赵辛楣认为方鸿渐和苏文纨结婚了”、“赵辛楣梦见方鸿渐和苏文纨结婚了”三个句子,可以分别推出其宾语小句“方鸿渐和苏文纨结婚了”为真、可真可假、为假三种结果。这是由于“知道、认为、梦见”三个动词的叙实性(预设宾语小句真值的能力)存在差异,它们分别是叙实动词、非叙实动词和反叙实动词。对于动词的蕴涵关系研究和叙实性研究,可以在文本蕴涵的理论背景下将其结合起来进行研究。比如,根据“告诉知道”、“报道知道”,研究者既可以进行相关句子之间的语义推导,又可以进行相关句子内部的语义推导。例如,从“孙柔嘉告诉赵辛楣方鸿渐和苏文纨结婚了”推出“赵辛楣知道方鸿渐和苏文纨结婚了”;并且,从“知道”蕴涵其宾语为真,进一步推出“告诉”的直接宾语“方鸿渐和苏文纨结婚了”一般也为真。于是,就可以据此建立起以动词为中心的语义推理关系网络,并推动语义研究向纵深发展。
最近几年来,文本蕴涵成为自然语言处理研究的热点,国外一些学者用“文本蕴涵”来为语言中纷繁复杂的同义异形现象建立模型,并构造相应的推理和识别系统,有关的国际评测也相继开展。国内也有研究者着手汉语文本蕴涵的研究和系统开发,并取得了一定的成绩,但总体来说,对此还没有得到像国外那样广泛的关注与足够的重视。因此,进行类似的汉语动词蕴涵关系的研究与相应的型式库的建设工作,既希望为自然语言处理研究和开发提供有益的词汇本体知识,也希望引起广大语言学家和自然语言处理研究同仁的关注,从而推动相关研究向前迈进。
①例(1)、(2)分别引自Geoffrey Leech,Semantics:The Study of Meaning, ed.,revised and updated,London:Penguin Books,Chap.14,pp.284,277;利奇:《语义学》,李瑞华等译,何兆熊、华钧校订,上海:上海外语教育出版社,1987年,第400、389页。
②例如,从“俄罗斯配备了3000枚导弹俄罗斯拥有3000枚导弹”中,抽象出蕴涵型式:X←subj配备了obj→YX←subj拥有obj→Y,即得到了动词蕴涵式“配备了拥有”。
③本部分的写作参考了如下文献:陈波:《逻辑学十五讲》,北京:北京大学出版社,2008年,第240—259页;黄华新、张则幸:《逻辑学导论》,杭州:浙江大学出版社,2005年,第64—110、274—287页;金岳霖:《形式逻辑》,北京:人民出版社,2006年,第106—108页;J.Allwood et al.,Logic in Linguistics,Cambridge:Cambridge University Press,1977;奥尔伍德等:《语言学中的逻辑》,王维贤等译,北京:北京大学出版社,2009年,第29—63页。
④C.I.Lewis,"Implication and Algebra of Logic,"Mind,vol.21,1912,pp.522-531.
⑤N.D.Belnap,Jr.,"Entailment and Relevance,"Journal of Symbolic Logic,vol.25,1960,pp.144-146.
⑥A.R.Anderson and N.D.Belnap,Jr.."The Pure Calculus of Entailment," Journal of Symbolic Logic,vol.27,1962,pp.19-52.
⑦Levinson用“语义衍推”而不是“衍推”这一术语,可以排除“天上下雨,地上就有积水”这种依赖于世界知识(world knowledge)的逻辑推论。Stephen C.Levinson,Pragmatics,Cambridge:Cambridge University Press,1983,p.174.⑧利奇:《语义学》,第106页。我们根据英语原文对译文有所修改。⑨参见袁毓林、王明华:《文本蕴涵的类型层级和推理机制》,郭锡良、鲁国尧主编:《中国语言学》第3辑,北京:北京大学出版社,2009年,第123—138页;袁毓林、王明华:《文本蕴涵的推理模型与识别模型》,《中文信息学报》2010年第2期。
⑩Roy Bar-Haim,Idan Szpektor and Oren Glickman,"Definition and Analysis of Intermediate Entailment Levels," ACL-05 Workshop on Empirical Modeling of Semantic Equivalence and Entailment,2005,pp.55-60.
(11)需要指出的是,这里的文本T和假设H在语言上一般表现为句子;相应地,文本T和假设H中的t和h则一般表现为词语。
(12)从动词蕴涵式到语句的文本蕴涵式的表示方法参考了张建军:《从形式蕴涵看“实质蕴涵怪论”》,《学术研究》2012年第4期。该表示方法及参考文献由匿名评审专家提供,在此诚恳致谢!
(13)参见袁毓林:《基于认知的汉语计算语言学研究》,北京:北京大学出版社,2008年,第245—256、257—268、269—296页。
(14)索绪尔:《普通语言学教程》,高名凯译,北京:商务印书馆,1980年。
(15)视角指观察者在对事件场景进行观察时所处的现实或虚拟的空间位置,包括观察者的具体处所、心理空间处所、时间位置以及其他抽象空间位置,参见Ronald W.Langacker,Cognitive Grammar,New York:Oxford University Press,2008,p.73.
(16)参见Christiane Fellbaum,ed.,WordNet:An Electronic Lexical Database,Cambridge,Massachusetts:MIT Press,1998.
(17)参见Christiane Fellbaum,ed.,WordNet:An Electronic Lexical Database.
(18)参见Christiane Fellbaum,ed.,WordNet:An Electronic Lexical Database.
(19)严格说来,复合词中语素之间的词法关系不能用“主语、谓语、定语、状语”等句法成分来称说。但为了简便,我们还是用短语的结构成分来称说复合词内部语素的词法功能。
(20)动词蕴涵型式库的网址为:http://ccl.pku.edu.cn:8080/pos/Implication/index.jsp.该数据库的前台包括蕴涵式录入界面、蕴涵式查询界面、管理员入口、系统简介四个板块,为方便用户使用,其中的查询系统提供三种可供选择的查询方式:按主蕴涵词的音序查询、按被蕴涵词的音序查询、通过输入主蕴涵词和被蕴涵词查询。
(21)利奇:《语义学》,第427—452页。
(22)P.Kiparsky and C.Kiparsky,"Fact," in M.Bierwisch and K.Heidolph,eds.,Progress Linguistics,The Hague:Mouton,1970,pp.143-173.
标签:自然语言处理论文; 语义分析论文; 文本分类论文; 文本分析论文; 语言表达论文; 时间计算论文; 死亡方式论文; 逻辑学论文;