面向计算机的“V[,双]+N[,双]”,本文主要内容关键词为:计算机论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]H08 [文献标识码]A [文章编号]1003-5397(2002)04-0069-08
一 考察对象与研究思路
本文讨论的“V[,双]+N[,双]”("V"表示动词,"N"表示名词,“双”表示双音节)具体包括动宾“V[,双]+N[,双]”和定中“V[,双]+N[,双]”,前者如“学习汉语”,后者如“学习时间”。在现代汉语中,“V[,双]+N[,双]”既是一种基本短语组合形式,同时又是一种常见的同形异构结构。如何识别“V[,双]+N[,双]”的结构类型是自然语言处理中存在的一个难题。这方面已有不少研究成果问世。总的来说,已有研究在识别“V[,双]+N[,双]”结构类型的手段上是句法信息、语义信息、上下文信息的结合,在制定识别“V[,双]+N[,双]”结构类型的规则上,是语法规则与统计规则的结合(注:具体研究成果如:傅承德(1993)、冯志伟(1996:92)、(1996:344)、赵军与黄昌宁(1999)等。)。
本文立足于语言的本体研究,尝试从内部构成出发以定中“V[,双]+N[,双]”结构类型的识别为突破口提出“V[,双]+N[,双]”结构类型自动识别的规则。具体而言,根据“潜在歧义论”(冯志伟1999:175),将构成“V[,双]+N[,双]”语法形式的动词分为三类:唯定中动词、唯动宾动词、定中动宾两可动词。唯定中动词、唯动宾动词构成的“V[,双]+N[,双]”,其结构歧义自动消解,分别是结构类型单一的定中结构和动宾结构。定中动宾两可动词构成的“V[,双]+N[,双]”,其结构歧义无法依靠动词自动消解,但由于与这类动词构成定中“V[,双]+N[,双]”的常见名词是一个封闭类,因此可以通过控制名词识别出定中关系的“V[,双]+N[,双]”,从而解决这类动词构成的“V[,双]+N[,双]”的结构类型识别问题。即:对于由唯定中动词、唯动宾动词构成的“V[,双]+N[,双]”,采用“动词控制结构类型”的办法;对于由定中动宾两可动词构成的“V[,双]+N[,双]”,采用“名词控制结构类型”的办法。
二 唯定中动词与唯动宾动词
根据冯志伟(1999:175)的“潜在歧义论”(Potential Ambiguity Theory):抽象的歧义格式所包含的歧义只是一种潜在的歧义,这种潜在的歧义在该歧义格式被代真为其它的词组或句子时,有可能继续保持,也有可能消失。“V[,双]+N[,双]”的结构类型歧义可在两种情况下自动消解:(1)动词是唯定中动词,(2)动词是唯动宾动词。
2.1 唯定中动词
唯定中动词,指与名词组配通常只能构成定中关系“V[,双]+N[,双]”的动词。唯定中动词都是不及物动词。(注:关于不及物动词的定义,本文依据陆俭明(1991)。)据对《汉语动词用法词典》中双音动词的穷尽考察(约计750多个)(注:具有形容词用法的双音动词除外,如:突出、丰富、明确、端正。),唯定中动词共有28个,这些动词是(列为不同词条的同形动词如果都是唯定中动词,记做一个词;如果不都是唯定中动词,标出属于唯定中动词的词条序号):闭幕、出差、斗争[,2]、奋斗、工作、互助、来往[,2]、劳动、离婚、旅行、生活、失败、失望、衰亡、妥协、完毕、活动[,4]、洗澡、相等、相同、休养、游泳、战斗、自习、出发、道歉、散步、考试。唯定中动词数量很有限。由它们构成的定中“V[,双]+N[,双]”如:闭幕仪式、出差人员、斗争年代、奋斗精神、工作方式。
2.2 唯动宾动词
唯动宾动词,指与名词组配通常只能构成动宾关系“V[,双]+N[,双]”的动词。按照传统的动词分类,唯动宾动词分散于不同的动词子类,但从造成这些动词“唯动宾”的原因看,主要包括两种类型:(1)具有较强粘着动词性质的唯动宾动词;(2)具有较强口语色彩的唯动宾动词。
(1)具有粘着动词性质的唯动宾动词
定中“V[,双]+N[,双]”在构成上要求动词具有相对而言比较具体的语义内容,并且通常是多功能动词,既可以充当谓语,也可以充当定语。粘着动词语义内容抽象,句法功能单一,因而在构成定中“V[,双]+N[,双]”上受到很大限制,所以部分可以后接光杆名词宾语的粘着动词就成为只能构成动宾关系“V[,双]+N[,双]”的唯动宾动词。具有粘着动词性质的唯动宾动词主要分散于以下几种动词类型:
a 某些表示心理活动的动词,如:承认、感到、知道;
b 某些表示等同关系的动词,如:号称、等于、属于、作为、当做、成为;
c 某些表示包含关系的动词,如:具备、具有、包含、包括、没有;
d 某些表示获得关系的动词,如:取得、得到、失去、赢得;
e 某些表示允许关系的动词,如:允许、准许;
f 某些表示警惕关系的动词,如:小心、留心、当心、提醒、留神;
g 某些表示关涉关系的动词,如:牵连、涉及、牵扯;
h 某些在构成上带有显著词缀特征的动词,如:
~着:挨着、背着、怀着、跟着、接着、觉着、有着;
~于:处于、濒于、大于、等于、低于;
~得:懂得、记得、舍得、使得、晓得;
~到:赶到、回到、见到、料到、想到;
~自:发自、出自、来自;
以上这些动词子类的划分,"a-g"依据意义标准,"h"依据构成标准。这些动词都具有明显的粘着动词的性质,直接做定语的能力极弱,由它们构成的“V[,双]+N[,双]”通常都是结构类型单一的动宾结构,如:承认错误、号称英雄、具备条件、取得成绩、允许学生(上课)、小心汽车、牵连孩子、挨着小王、处于危境、懂得亲情、赶到学校、发自内心。
(2)具有口语色彩的唯动宾动词
定中“V[,双]+N[,双]”在使用上具有比较明确的语体限制,常见于书面语言中的新闻语体。因此,具有显著口语色彩的动词通常难以构成定中“V[,双]+N[,双]”。因而,这些动词中可以后接光杆名词宾语的动词就成为只能构成动宾“V[,双]+N[,双]”的唯动宾动词,如:动弹、摆弄、拾掇、使唤、吓唬、招呼、支使、巴结、念叨、谢谢、抬举,它们构成的“V[,双]+N[,双]”通常都是动宾结构,如:动弹胳膊、摆弄电脑、拾掇房子、使唤仆人、吓唬小张、招呼客人等。
总之,定中“V[,双]+N[,双]”在构成上受到的限制较大,受这些限制条件的制约,部分粘着动词以及部分口语动词通常只能构成动宾关系的“V[,双]+N[,双]”。与唯定中动词相比,唯动宾动词的数量相对较多。
对于由唯定中动词、唯动宾动词构成的“V[,双]+N[,双]”,只要对其中的动词进行“唯定中”、“唯动宾”的句法信息标注,就可以基本解决这些“V[,双]+N[,双]”的结构类型识别问题。
三 定中动宾两可动词
3.1 基本情况
定中动宾两可动词,指既可以构成动宾“V[,双]+N[,双]”又可以构成定中“V[,双]+N[,双]”的动词,例如:学习汉语——学习时间、埋怨小王——埋怨情绪。相对于整个动词词类而言,定中动宾两可动词具有两个显著特点:1、从动词的基本类型上看,定中动宾两可动词占据了汉语动词分类中最重要最基本的两种类型。邢福义(1997:168-171)把动词分为六大类:行为动词、心理动词、历程动词、断事动词、使令动词、辅助动词,并指出“在这六类动词里,行为动词和心理动词数最多,所占比重最大”。绝大多数定中动宾两可动词都是行为动词以及部分心理动词,例如:研究电脑——研究方法,教育同学——教育对象;爱惜电脑——爱惜心理、依赖父母——依赖行为。可见,定中动宾两可动词在汉语动词的基本类型中占据重要地位。2、从动词的数量上看,定中动宾两可动词数量庞大。据对《汉语动词用法词典》中双音动词的考察,750多个双音动词中约有500余个都是定中动宾两可动词。可见,定中动宾两可动词占据汉语双音动词的绝大部分。(注:邵敬敏(1995)指出“极大多数的双音节动词都可以不同程度地直接修饰双音节名词,构成非价组合的词组”。本文的研究结果与邵(1995)基本一致。)
总之,定中动宾两可动词在汉语双音动词中地位重要、数量庞大,加上这类动词构成的“V[,双]+N[,双]”其结构歧义无法单凭动词自动消解,因此由这类动词构成的“V[,双]+N[,双]”的结构类型识别就成为自然语言处理中“V[,双]+N[,双]”结构类型识别的关键。
3.2 解决思路
在由定中动宾两可动词构成的“V[,双]+N[,双]”的结构类型识别问题上,只要找到动宾或者定中其中一种结构类型的“V[,双]+N[,双]”的识别办法,另一种结构类型的识别也就自动解决。因此对于这类“V[,双]+N[,双]”的结构类型识别,有两个解决思路:(1)从动宾“V[,双]+N[,双]”入手解决;(2)从定中“V[,双]+N[,双]”入手解决。下面首先对这两种思路进行分析,然后给出本文从定中“V[,双]+N[,双]”入手解决这一问题的两条基本规则。
3.2.1 从动宾入手
从动宾入手识别“V[,双]+N[,双]”的结构类型,对以下几种情况是行之有效的:
①“N[,双]”是专有名词,由其构成的“V[,双]+N[,双]”只能是动宾结构,如:学习雷锋、研究鲁迅。(注:张国宪(1997)指出现代汉语中不存在无标记的“V+N[,专有名词]”的偏正结构。)
②“N[,双]”是亲属名词,由其构成的“V[,双]+N[,双]”通常也只能是动宾结构,如:辅导弟弟、批评妹妹。例外情况很少,如:离婚夫妻。
对于以上这两种情况,只要对名词进行“专名”“亲属”的属性标注,就可以基本解决由它们构成的“V[,双]+N[,双]”的结构类型识别问题。但是,这些名词只是名词的少数。此外,从动宾出发,借助动宾组配的某些规律性语义匹配条件,可以解决部分定中动宾两可动词构成的部分“V[,双]+N[,双]”的结构类型识别问题。
例如:对于必须带[+人]名词宾语的动词,可以规定这类动词构成的“V[,双]+[-人]N[,双]”为定中。如“慰问”,其名词宾语通常带有[+人]特征,当其后接[-人]名词时,所构成的“V[,双]+N[,双]”是定中,如“慰问物资”。可以这样规定的动词有:信任、依赖、责备、教育、接见、聘请、驱逐、掩护、逮捕、恐吓、迫害、欺骗、歧视、邀请。它们与[-人]名词组配构成定中“V[,双]+N[,双]”的例子如:信任程度、依赖心理、责备对象、教育事业、接见地点、聘请仪式、驱逐事件、掩护行动、逮捕时间、恐吓电话、迫害行为、欺骗手段、歧视政策、邀请方式。
又如,对于通常只带[-人]名词宾语的动词,可以规定由这类动词构成的“V[,双]+[+人]N[,双]”为定中。如“报销”,其名词宾语通常带有[-人]特征,当其后接[+人]名词时,所构成的“V[,双]+N[,双]”是定中,如“报销人员”。可以这样规定的动词有:布置、采集、出版、举行、驾驶、发行、生产、实践、拆除、拖延。它们与[+人]名词组配构成定中“V[,双]+N[,双]”的例子如:布置人员、采集队伍、出版单位、举行单位、驾驶司机、发行部门、生产企业、实践小组、拆除单位、拖延人员。(注:“单位、部门、企业”兼有[+人]和[+处所]的特征,这里计入[+人]名词。)
张国宪(1997)将建立在支配与被支配框架中的动名组配的语义选择限制称为“狭义共现约束”,如“慰问军属”;将建立在非支配与被支配框架中的动名组配的语义选择限制称为“广义共现约束”,如“慰问物资”。鉴于语义匹配的工作量和难度都较大,本文尝试提出非语义的识别“V[,双]+N[,双]”结构类型的办法,这种办法相对于语义的识别办法而言,是一种权宜之计。
总之,由于动宾“V[,双]+N[,双]”在组合上的开放性,使得从动宾入手解决“V[,双]+N[,双]”的结构类型比较困难。
3.2.2 从定中入手
定中“V[,双]+N[,双]”在构成上的显著特点是:极大多数定中动宾两可动词能否实现定中关系的“V[,双]+N[,双]”,关键在名词,名词对结构类型的控制力强于动词;构成定中“V[,双]+N[,双]”的名词数量相对有限,具有封闭类的性质。因此用名词控制定中关系的“V[,双]+N[,双]”从而解决“V[,双]+N[,双]”的结构类型识别问题是一个比较优选的办法。列出构成定中“V[,双]+N[,双]”的封闭名词词表,对这些名词进行有关动名组配句法信息的标注,是从构成出发解决“V[,双]+N[,双]”结构类型识别问题的突破口。
名词对“V[,双]+N[,双]”结构类型的控制力强于动词,这可以通过对比看出。就动词而言,一般认为支配式动词由于及物性较弱,大都具有较强的构成定中“V[,双]+N[,双]”的能力,但是例外情况并不少,如:操心学业、出席大会、动员同学、负责财务;又如,通常认为补充式动词由于具有较强的时体性,构成定中“V[,双]+N[,双]”的能力较弱,但是例外情况也不少,如:增长速度、轰动效应、鼓动作用、放松状态、发动力度、促进作用。哪些支配式动词可以构成动宾“V[,双]+N[,双]”、哪些补充式动词可以构成定中“V[,双]+N[,双]”,规律性不明显,并且即使把这些动词找出,它们能否分别实现动宾、定中的“V[,双]+N[,双]”还要受到与之组配的名词的制约。因此,动词对这类“V[,双]+N[,双]”的结构类型的控制力相对有限。
就名词而言,由于封闭类名词本身就是根据其构成动宾“V[,双]+N[,双]”与定中“V[,双]+N[,双]”的能力的比较得出的:与动词构成动宾“V[,双]+N[,双]”的数量大于定中“V[,双]+N[,双]”的数量的名词才是封闭类名词。因此,用名词控制定中“V[,双]+N[,双]”虽然也不同程度地存在例外,但是是规则大于例外的例外。例如“能力”,“能力”与不同动词组配构成定中“V[,双]+N[,双]”的数量远远大于动宾“V[,双]+N[,双]”的数量,因此“能力”是封闭类名词。由“能力”构成的“V[,双]+N[,双]”以定中结构居多,如:写作能力、学习能力、控制能力、抵抗能力、积累能力、生产能力、研究能力、判断能力、破坏能力等。并且,由于封闭类名词大都是语义内容抽象、词类地位不典型的名词,因此能与这些名词实现动宾“V[,双]+N[,双]”的动词具有较强的可预测性,可通过辞书或者内省进行预测。例如:能与“能力”构成动宾“V[,双]+N[,双]”的动词常见的有:没有(能力)、具备(能力)、提高(能力)、培养(能力)、强调(能力),其中“没有”“具备”是唯动宾动词,真正的例外只有“提高”“培养”“强调”。可见,封闭类名词不仅对定中“V[,双]+N[,双]”结构类型的控制力较强,而且由之形成的例外情况也具有较强的可预测性。对于计算机而言,处理这些可预测的例外情况应该容易得多。
总之,构成定中“V[,双]+N[,双]”的常见名词具有明显的封闭性,这是从构成出发解决定中动宾两可动词构成的“V[,双]+N[,双]”结构类型识别问题的突破口。比如“人员”,属于封闭类名词,无论是动宾式动词“负责”,还是述补式动词“推广”,还是经常可以构成定中“V[,双]+N[,双]”的联合式动词“研究”,当其后接“人员”时,都构成定中“V[,双]+N[,双]”,如:负责人员、推广人员、研究人员。
3.2.3 识别规则
基于以上讨论,下面给出识别“V[,双]+N[,双]”结构类型的两条规则,假如把封闭类名词表示为N(见附录),把不属于封闭类名词的名词表示为"-N",那么这两条规则是:
(1)V+N=NP
(2)V+(-N)=VP
意思是:(1)动词与封闭类名词组配构成的“V[,双]+N[,双]”是定中结构,如:学习时间;(2)动词与非封闭类名词组配构成的“V[,双]+N[,双]”是动宾结构,如:学习雷锋。这两条规则都存在例外,对于规则(1),例外情况是有些“动词+封闭类名词”实现动宾关系,上面已经分析过这种例外具有一定的可预测性,控制起来相对容易;对于规则(2),例外情况是有些“动词+非封闭类名词”实现定中关系,例如“啤酒”,是非封闭类名词,大多数情况下与动词构成动宾“V[,双]+N[,双]”,如:生产啤酒、运输啤酒、酿造啤酒、批发啤酒,但是偶尔也构成定中“V[,双]+N[,双]”,如:指定啤酒。这种例外同样可以通过辞书或者内省进行预测和统计,因此也具有较强的可预测性。并且,这两种例外都是规则大于例外的例外,并不影响上述两条规则的整体效力。
四 歧义“V[,双]+N[,双]”的处理
有些定中动宾两可动词与封闭类名词构成的“V[,双]+N[,双]”不仅可以表示定中关系,而且还可以表示动宾关系。如“研究方法”,可以指一种方法(“研究的方法”),也可以指一种行为(“对方法进行研究”)。有些定中动宾两可动词与非封闭类名词构成的“V[,双]+N[,双]”不仅可以表示动宾关系,而且还可以表示定中关系。如“出租汽车”,可以指一种汽车(“出租的汽车”),也可以指一种行为(把汽车租给别人)。这些“V[,双]+N[,双]”自身具有动宾、定中两种结构类型可能,与由上述规则控制的结构类型单一的“V[,双]+N[,双]”如“学习时间”“学习雷锋”有所不同。
对于这类歧义“V[,双]+N[,双]”,可以采用“基于优选(preference)的歧义消解方法”解决其结构类型识别问题。基于优选的歧义消解方法,即在若干个存在歧义的候补结构中,选出一个最优的结构,从而达到歧义消解的目的(冯志伟1996:244)。比如“研究方法”“出租汽车”,虽然存在定中、动宾两种歧义候补结构,但是定中结构显然是其最佳候补选项。
为了考察歧义“V[,双]+N[,双]”采用何种结构类型作为最优候补选项的制约因素,笔者共收集具有不同程度结构类型歧义倾向的“V[,双]+N[,双]”150余个,并对这些歧义结构进行了有21人参加的问卷调查。发现制约歧义“V[,双]+N[,双]”优先结构类型的因素是社会认知因素,具体表现形式如:(1)社会常识模式的制约。比如“按摩医生”,虽然可以理解为动宾,但是这种理解方式不符合社会常识,只有将其看作隐含“动作-施事”语义关系的定中结构时才表达了符合社会常态的事物概念。因此“按摩医生”的优先结构类型是定中。(2)使用频率的制约。比如“出租汽车”,有动宾理解的可能,但作为定中结构使用频率极高,因而其优先结构类型是定中。(3)专有名词的制约。表示专有名词的歧义“V[,双]+N[,双]”优先结构类型是定中,如“滚动轴承”。(4)常规语义组配模式的制约。比如“纪念节日”,虽然可以理解为动宾,但其优先结构类型是定中,这是因为“纪念”的常规宾语通常具有[+人]特征,如:纪念鲁迅、纪念宋庆龄,“纪念节日”中的“节日”在概念类型上偏离了“纪念”的常规宾语的语义类型,因此在优先结构类型的判定上也发生了偏离。以上这些制约因素对歧义“V[,双]+N[,双]”优先结构类型的制约归根结底表现为社会认知因素对结构类型优先性的制约。
制约歧义“V[,双]+N[,双]”优先结构类型的因素还有很多,除了上述这些硬性因素之外,还有许多柔性因素,它们对歧义“V[,双]+N[,双]”的优先结构类型起着非决定性的驱动作用。限于篇幅,这里不再一一列举。总之,对于大多数歧义“V[,双]+N[,双]”而言,无论是受硬性因素的制约还是受柔性因素的驱动,它们都有一个相对优选的候补结构类型,优选候补结构完全不具有可预测性的歧义“V[,双]+N[,双]”总量并不多。由于这些歧义“V[,双]+N[,双]”的优先结构类型大都具有较高的可预测性,因此可以采用基于优选的歧义消解方法达到消解歧义的目的。
五 评价
本文从“V[,双]+N[,双]”的内部构成出发寻找识别其结构类型的办法,对于唯定中动词、唯动宾动词构成的“V[,双]+N[,双]”,采用“动词控制结构类型”的办法;对于定中动宾两可动词构成的“V[,双]+N[,双]”,由于构成定中“V[,双]+N[,双]”的名词是一个封闭类,采用“名词控制结构类型”的办法。这种解决办法的优点是:控制“V[,双]+N[,双]”结构类型的项的数量相对有限,都具有一定程度的封闭类的性质,便于计算机控制;这种解决办法的主要弊端是:单一型的解决思路比较机械,识别的正确率也会受到这种机械操作的负面影响。勿庸置疑,综合运用各种信息才能迅速准确地识别“V[,双]+N[,双]”的结构类型,因此,本文的价值在于为最优方案的出台提供有关“V[,双]+N[,双]”内部构成方面的识别信息。
附录:人才、专家、人物、部队、队伍、小组、团体、集体、机构、单位、部门、机关、人员、人口、力量、势力、对象、物品、物资、产品、装置、工具、方法、办法、方案、策略、战略、范畴、层次、能力、技能、技术、顺序、语言、金额、费用、经费、高峰、高潮、潜力、问题、常识、知识、方式、比例、比率、流程、程序、工艺、速度、频率、标准、框架、格局、风格、布局、条件、结构、规律、体制、体系、系统、制度、目的、目标、步骤、方向、方面、角度、焦点、重点、重心、岗位、结果、结论、后果、成果、效果、场面、局面、形式、形象、现状、气氛、前景、趋势、前途、倾向、过程、经历、经验、道路、轨道、程度、幅度、特点、特征、性能、性质、功能、精神、心理、情绪、思想、色彩、观点、观念、意识、态度、水平、立场、作风、行为、行动、仪式、环境、习惯、机会、事件、事项、现象、任务、状态、作用、意义、关系、原因、原理、理论、规则、方针、纲领、政策、资料、材料、文件、文章、数字、数据、故事、歌曲、学科、业务、行业、产业、日期、时期、期限、阶段、期间、时间、处所、场地、地点、地方、区域、位置、范围、起点(说明:附录中的封闭类名词是建立在《汉语动词用法词典》定中动宾两可动词的基础之上得出的,所调查的语料主要依据《1996年人民日报》。因此,该词表具有一定的可增补性。需要指出的是,该词表中的名词相互之间实现定中“V[,双]+N[,双]”的能力并不匀质,但它们各自实现定中“V[,双]+N[,双]”的能力都不同程度地强于其实现动宾“V[,双]+N[,双]”的能力。这些名词是构成定中“V[,双]+N[,双]”的常见名词,它们直接充当动词定语的中心语具有较高的可预见性。)
[收稿日期]2002-04-09
标签:语义分析论文;