从计算语言学角度看语义角色问题——(注: 本文是作者应邀在全国第四届计算语言学联合学术会议(JSCL’97)“词汇语义学”专题讨论会上发言的扩展,特此向清华大学黄昌宁教授、北京语言文化大学张普教授深致谢忱。),本文主要内容关键词为:语言学论文,语义学论文,教授论文,清华大学论文,专题讨论论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、理论背景
在当前计算语言学界,各国学者对语义角色问题产生了越来越浓厚的学术兴趣,这大抵是由格语法(CCase GrMMar)框架内最初利用英语语料进行句法语义研究的论著所引起的。众所周知,“乔姆斯基革命”标志着生成语法(Generative GraMMar)学派的诞生。但是,该学派为了达到精确化和形式化的目标,坚持“句法自立”原则,完全根据结构树形图线路去分析判断,因而在一定程度上忽视了语义对句法的制约作用,更未考虑句子的语用交际环境。在这种背景下,美国语言学家菲尔默(Ch.J.FiLLmore)从生成语法学派阵营里脱离出来, 创立了系统的格语法理论,其主要思想体现在本文文末所附“参考文献”的〔1〕~<#5〕中。科姆里(B.Comrie )从语言共性和语言类型学角度对这种理论作出肯定性评价:“格语法模式明确了一个过去各种转换一生成语法事实上都没有处理过的重要问题,这就是英语的各种语法关系跟语义角色的相互联系十分松散,因此为了对英语里配价的句法和语义作完整的说明,除了语法关系还需增加某些其他术语”〔6〕。 这些术语就是菲尔默提出的一系列“深层(语义)格”,如:“施事格”、“受事格”、“感受格”、“工具格”等。这里所谓的“语义格”,实质上就是本文所讨论的“语义角色”,有些学者称之为“参与者角色”(participant role)、“配价角色”(valency role)、“概念角色”、 “论旨角色”(theta-role)等。正是在这个意义上, 格语法又被称作“角色语法”〔7〕。
我们认为,格理论先后提出“表层词形/句法格”与“深层语义格”的区分和“意义与场景关联”(Meanings are relativized to scenes)的思想,有助于对具体语句进行语法、语义和语用一体化或集成化描写。这个目标的完全实现,势必对自然语言的计算机处理带来极大方便。应当指出,在机器翻译工程实践中,格语法作为语义分析技术而得到广泛应用。在计算语言学基础研究中,格语法理论曾在用于句子分析与生成的扩充转移网络(ATN)里起着中心作用。格理论描写动词的基本属性,格被用作进入该网络所要求的主目语之标识符。此项研究显见于单克(R.Schank)的《思想和语言的计算机模型》(1973)以及后来关于自然语言处理的论著中,诸如维诺格拉德(T.Winograd)的《语言作为认知过程》(1983)和哈里斯(M.Dee HaRRis)的《自然语言处理》(1985)。 此外, 格还曾被语言学家和专业程序人员用于为LISP 和PROLOG 型程序语言开发的分析器中〔8〕。在汉语学界, 美籍华人学者李英哲、邓守信,台湾学者汤廷池等,大陆学者孟琮、李临定、史有为、陆俭明、鲁川、林杏光、姚天顺、杨成凯等都曾按照格语法的思路对汉语的语言事实进行过深入细致的研究,其中有些成果直接与中文信息处理相关,如:《人机通用现代汉语动词大词典》〔9〕。 这里特别值得一提的是,我国著名青年科学家陈肇雄博士提出的SC文法也采用了格分析技术,该文法被界定为“A subcategory
graMMar for integratingsemantic and case analysis”,它成功地用于智能型机器翻译系统的研制与开发之中〔10〕。在俄语学界,前苏联学者阿鲁秋诺娃(H.д.ApyTюHoBa)、莫斯卡莉斯卡娅(O.и.Mocкадьская)、阿普列相(ю.д.AпpecяH)等在格语法框架内探讨了句法语义的关系〔11〕、句子的语义模式化问题〔12〕以及语言的同义表达手段〔13〕。本文作者在博士导师李锡胤先生的鼓励下,对菲尔默的格语法及其相关理论(如:依存语法、配价语法等)进行了批判性分析,综合运用国内外各主要语言学派的基本观点,
尝试创立了位语法( Positional Grammar)理论体系, 并以该理论为先导对现代俄语三位动词进行了系统的实验性研究,其成果体现为语文科学博士论文〔14〕,受到了国内外学术界有关专家的肯定与好评。
二、标准和原则
我们知道,菲尔默及其追随者一直未能对下述问题给出令人满意的答案:如何证明一套语义角色的合理性?以及语义角色具体分配的合理性?菲尔默为语义格定名的标准是:根据人类对其周围发生的事件所能作出的某些类型的判断,这种判断如“某人做了某事”,“某事发生在某人身上”,“某事发生了变化”〔1〕。 据此他在一系列论著中先后提出过16种格,用以描述句子命题(Proposition )结构中涉及到动词与名词的句法语义关系(即格关系)。徐烈炯先生指出:“用以上这些数目有限的格来描述名词词组在句子结构中的种种语义关系,显然是不够的,还不能做到相同的格表示相同的关系,不同的格表示不同的关系。有些不同的关系不得不用同一种格描述,无法反映其中的区别”〔15〕。由此可见,增加语义角色势在必行,否则便无法对更广泛的实际语料作出区分性的语义解释。
鉴于本文的任务所在,我们试图为语义角色的界定与增列制订出在认知上可把握、在技术上可操作的标准和原则。我们确信,要证明一套语义角色的合理性,并使其在自然语言的计算机处理中真正发挥作用,就应当从根本上解决语言学研究中形式主义和功能主义两大基本流派的论争。这种对立乃是当前哲学上的两难——经验主义和理性主义——在语言学中的反映。前者根据具体事实而行,后者根据抽象原则而行,二者的调和体系就是美国哲学家詹姆士(W.James ) 倡导的实用主义(Pragmatism)〔16〕。因此,语义角色的界定标准应当是实用主义标准,它作为一种方法论,既要对大量的语言事实从形式上进行精审观察和分类描写,更要对它们从内容上作出直觉判断和功能解释,唯此方可证明一套语义角色的合理性,从而保证这套角色在自然语言处理中的实用性。
顺便指出,我国著名计算语言学家黄昌宁教授主张采用经验主义方法论研究语料库语言学(corpus linguistics),以实现大规模真实文本的计算机处理。可是,菲尔默对语料库语言学的研究方法不屑一顾,宣称自己是“安乐椅”上的语言学家(armchair linguist), 他不相信在其中可能找到他所需要的一切语言事实的语料库能够存在,无论其规模有多大〔17〕。显然,以这种学术态度,他是不可能对确切列出和具体分配语义角色的问题提供一个有效的解决办法的。
确立了实用主义这条总的标准之后,我们还应制订与此相一致的语义角色界定原则,这些原则可表述如下:
(一)面向语料(corpus-oriented)的原则
语言研究有一个重要前提,即需要对特定语言的大量事实和现象按照一定的理论模式逐层逐级、分门别类地加以描写,并且提供一种能把语言及其构件成份的功能归纳为有条理成系统的叙述框架。语料库的建设固然重要,但指导科学地处理语料的理论与方法更应先行,不可偏废。这里值得特别注意的是普斯捷焦夫斯基(J.Pustejovsky )所设计的用于语料库分析的词汇语义技术,他采用类型强制(type coercion )和四元结构(qualia-structrue)的方法,从机器可读词典(MRD )中确定词汇结构,提取语义信息,达到对MRD 提供的生语料进行加工处理的目的。其中类型强制这个语义概念能够对某个词条所需的参数加以类型说明,它在程序设计语言中模拟强制,把一个论元(argument)在合乎功能要求下转换成类型的语义运算,从而揭示不同语法表达式之间的语义关系,这实质上就是一种语义角色关系。而四元结构所包括的构成角色(constitutive role)、形式角色(formal role)、 功用角色(telic role)和动因角色(agentive role), 对词项释义标准模式的确定与建构颇有助益,它们基本上能设计出计算语义学理论所需的不同层次的语义表示,而每个层次都对词的含义建立不同类型的信息(有关例示,请参见姚天顺先生在文献〔18〕中的引证)。
德国哲学家雅斯贝尔斯(K.Jaspers)指出:“要了解科学、 获得一种可靠的探索真理的科学态度,需要每个学生在实验室、研讨室、研究所里有这样一种实验方法,即井井有条地与物自身打交道——这需要方法论上的自觉”〔19〕。就我们的情形而言,“物自身”就是特定语言的真实语料。如前所述,否认语料库的作用,躺在“安乐椅”上仅靠抽象的原则和内省是无法罗列出一套合理的、实用的语义角色清单的。
质而言之,所谓“面向语料”就是要坚持 “文本中心观”(textocentric approach)。 因为文本既是人类言语活动的直接成果,也是自然语言处理的主要对象之一,当前计算语言学界对在线文本信息(online textual information)处理的普遍关注就是明证。
(二)句法为本(syntax-based)的原则
作为符号系统的语言各要素(如:音素、词素和单词)正是通过句法组合,才获得意义、传递信息的。卡尔文(W.H.Calvin)在其所著《大脑如何思维》一书中写道:“无疑,句法是人类智力的主要标志,如果没有句法,人就比黑猩猩高明不了多少”。这位美国理论神经科学家主张人是 “用句法来思维”的, 并设计一架 “语言机”(ligua exmachina,名曰:“真空升降机装箱传送系统”), 将短语结构和语义结构以一种算法的形式结合起来进行运转。卡尔文的“语言机”有其独特的工作原理,能够使对语法合格语句的解读与合理的思维模式之间建立起有意义的联系。最使我们感兴趣的是,这架新颖别致的语言机能用一种特殊的手柄提升某个句子的所有组成部分,并检验这些成分的句法配置是否恰当,同时还设置了扮演各种角色(如:主动者、受动者、施及者、受惠者、目标、手段、时间、地点等)的“真空吸引口”〔21〕。
因此,鉴定某个句子成分所扮演的语义角色,必然要从恰当的句法配置入手。更确切地说,我们若要把一个语义角色区别出来,并把它算作普遍适用的语义角色清单中的一员,就必须设法在可能有的语言中找到跟这种语义区别相联系的句法区别。即是说,应当依据从具体语料中全面统计的表层句法结构所提供的语法信息来确定句子表示的各种语义关系类型, 从而为这些类型化的语义关系贴上相应的格或角色标签(labels)。简言之,上述原则所采用的方法就是通过句法描写语义(to describe semantics across syntax),这也是我们提出的“语义一句法同构说”这条核心原则的基本思路〔21〕。
(三)意念驱动(idea-driven)的原则
前一条原则强调在可见层次上仔细观察并统计归纳特定语言中所有句法结构模式,它是句子语义角色刻划的起点。但是,语言研究中语义分析的复杂性和实际困难不容忽视,单纯从内部语言学角度无法对纷繁复杂的语法现象作出区分性的语义解释。我们的视野必然要触及到外部语言学或超语言学领域,从认知层次去把握客观物质世界具有普遍性和指称性的本体范畴,而本体范畴则是反映语言信息和心理信息共有的概念结构之组成要素,它同时也是人脑组织经验和进行心智活动的基础,其所指的对象不仅是具体事物,而且还有事件、行为、时间、空间等一系列范畴。因此,我们提出的“意念驱动”原则充分强调意念在语义角色鉴别中的重要作用。意念属于普遍的人类认知能力和语言能力的一部分,意念的形成有赖于人脑对语言外情景信息和语言内各层次信息的加工与处理。唯有以意念驱动来对本体范畴内的事物、事件等进行直觉判断(inguitive judgement)和逻辑分类, 方可建构起具有心理现实性和可计算性的语言学理论模型,从而使语义角色在定性和定量两个方面均能得到合理的、科学的描述。我们认为,意念驱动原则反映了人本中心的语言观(anthropocentric view on language),建立起了人、语言与世界之间的联系〔25〕。
三、实验结果
本文作者曾以现代俄语三位动词为语料进行系统深入的研究,此项研究的理论基础就是作者倡导的位语法,其基本思想主要体现在文献〔21〕~〔24〕中,在此恕不赘述。下面仅仅演示这项研究的具体实施步骤及有关数据。
首先是语料统计:素材主要选自各类辞书、手册及规范性文本(文学作品、新闻报刊等)。我们的统计数据表明,现代俄语中常用的三位动词有1000个词项左右。
其次是句法分析:在可见层次上察看这1000个动词的句法表现形式,将其分别纳入根据俄语语法一致律建构的66种句法位谐配模式。试举几例以明之:
句型T01:N1-Vf-N4-N2
句例1:AкaдeMия yдOCTOила молодOTO yчёHOгO пepBOй пpeMии./科学院授予年轻学者一等奖。
句型T13:N1-Vf-N4-N3
句例2:ИBaH OTдaл Kнигy ПeTPy./伊万送了一本书给彼得。
句型T24:N1-Vf-N4-N5
句例3:PaбOчиe HaгPyзили MaшиHy TOBapaMи./工人们往车上装满了货物。
(注:T表示句法模式类型;N及其下标数字表示俄语名词及其格形式;Vf表示定式动词的变位形式。)
最后是语义分析:在认知层次上对能够插入每种句法模式的动词进行语义分类,根据语义一致律建构句子的语义位框架模式。我们从句法形式入手,将1000个俄语动词划分为248个具体语义类别(semantic
subclass),并按照意念驱动原则将它们概括为以下5 大类语义情景(semantic situation),且每大类基本上都有一个基准词,可视其为语义原语(semantic primitive),据此确定典型的语义角色(即情景参与者角色):
(1)物理行为的实现:其语义原语为“дeлaTb”(作), 典型角色是Agent,Patient;
(2)心理作用的实现:其语义原语为“вOздейCTBOBaTb”(感动),典型角色是Inductor,Experiencer;
(3)智能活动的实现:其语义原语为“MbICлиTb”(思考), 典型角色为Authorizator,Essive;
(4)言语活动的实现:其语义原语为“гOBOPиTb”(说), 典型角色是Speaker,listener;
(5)各种关系的表示:这主要指人际关系(如:“пPиMиP иTb”〈和解〉和社会关系(如:“пpизBaTb”〈号召〉等),无统一的语义原语,语义角色视具体情况而定。
应当指出,上述5大类语义情景还可细分, 动词的语义类别之间存在同义、反义(如“安装”vs.“拆卸”)、 对义(如“卖”=“买”)关系。这样,从众多动词具体语义类别中概括出来的类型化的语义情景,构成了一个立体交叉式的语义空间(semantic space),每个语义角色都在其中占据一定的位置。我们在文献〔14〕中提供的语义角色清单总共有64条术语,并附有解释。附带再补充一句,我们试图将64种语义角色与《易经》中64卦对应起来,这是下一步的工作。
四、结束语
本文介绍了语义角色问题产生的理论背景,提出了界定语义角色的一条标准和三条原则,并展示了我们的部分实验研究结果。从以上的论述和演示中可以看出,语义角色分析是一种具有相当解释力和可操作性强的技术,它有助于揭示世界不同类型的语言之间的某些共性特征,不仅对印欧语言(如英、法、俄、德语等),而且对东方语言(如汉、日、韩、土耳其语等)的计算机处理都普遍适用。