基于HNC句类体系的句子语义研究,本文主要内容关键词为:语义论文,句子论文,体系论文,HNC论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]H08 [文献标识码]A [文章编号]1003—5397(2006)01—0126—08
HNC(Hierarchical Network of Concepts,概念层次网络)理论是一个关于自然语言理解处理的理论体系(黄曾阳,1998),是国内自然语言处理领域的三大理论之一(许嘉璐,2000)。自1997年以来,笔者一直在HNC的指导下进行自然语言处理方面的研发工作,从而切实地认识到,HNC建立了表述和处理自然语言的新模式,运用它的理论模式来开展语言研究,具有十分广阔的前景。
HNC理论建立的模式之一是关于自然语言语句的表述模式,本文探讨如何运用这一模式来开展句子语义研究。林杏光先生(2002)认为,运用HNC的语句表述模式来研究汉语的句子,可以为汉语的语句研究开辟一条新的途径,本文是对林先生这一观点的具体回应。
HNC建立的语句表述模式以句类为中心,所以可称之为句类体系,下面先对这个体系作一个简要的介绍。
HNC定义的句类是指句子的语义类型,而不是指陈述句、疑问句、祈使句和感叹句之分。HNC建立了句类的表示式,句类表示式由语义块构成,语义块是句子的下一级语义构成单位。语义块是句类的函数,也就是说,语义块的含义取决于句类,一个句子应该有几个什么样的语义块,这是由句类决定的。HNC发现,句类表示式存在有限的基元类型,总共有57种,称为基本句类。例如,
名称代码表示式例句
主动反应句 X21J=X2A+X21+XBC
张三同意李四的看法。
信息转移句 T3J=TA+T3+TB+T3C 张三告诉李四王五结婚了。
主动反应句和信息转移句是两种基本句类,等号左边的X21和T3分别是它们的代码,右边就是它们的句类表示式。表示式表明,主动反应句有三个语义块,一是反应者X2A,二是反应行为X21,三是反应引发者及其表现XBC, 在例句中分别是“张三”“同意”和“李四的看法”;信息转移句有四个语义块,一是信息发出者TA,二是信息转移行为T3,三是信息接收者TB,四是信息内容T3C, 在例句中分别是“张三”“告诉”“李四”和“王五结婚了”。
57种基本句类是句类的基元类型,运用它们的表示式可以写出任何句子的句类表示式,例如,“老张表扬了小王的工作成绩”,这个句子的句类表示式如下:
X21T3*^21J=TA*X2A+X21T3+XBC
表示式表明,这个句子是由上述主动反应句和信息转移句两个基本句类组合而成的,它有三个语义块,一是信息发出者和反应者TA*X2A(老张),二是反应和信息转移行为X21T3(表扬),三是反应引发者及其表现XBC(小王的工作成绩)。
受篇幅所限,这里不能对HNC的句类体系作更多的介绍,读者可从黄曾阳先生(1998,2004)和苗传江(2005)的论述中了解其全貌和细节。
句类表示式是句子语义的基本框架,是句子所表达的基本语义信息,在语言理解处理中,判定句子所属的句类,并辨认出该句类表示式中的各个语义块,是句子理解处理的一项基本内容。因此,以HNC的句类体系为指导来开展句子语义研究,具有十分重要的应用价值。
HNC句类体系指导下的句子语义研究主要有以下七个方面的内容,其中第一项是重点,因为这项内容中包含着用句类研究句子语义的基本观点和方法。
一 句类知识研究
不同的句类具有各自的特征,称为句类知识。句类知识研究是句子语义研究的基础。句类知识的基本内容有四个方面:
(一)语句格式知识
语句格式是指句子中语义块的排列顺序。句类表示式中的语义块在具体的句子中可能以不同的顺序出现,这就是语句格式的不同。汉语的“把”字句和“被”字句就是语句格式的不同,“张三把李四打了”,“李四被张三打了”,这两个句子和“张三打了李四”属于相同的句类,具有相同的语义块,只是语义块的出现次序不同。
语句格式是句类知识之一,因为不同的句类所能采用的语句格式是不同的。例如,“张三打了李四”和“张三获得冠军”都是有三个语义块的句子,但前者可采用“把”字句和“被”字句,后者则不能,原因就在于它们所属的句类是不同的。
不同句类的不同语义块会用不同的介词作为标志符,这也是语句格式知识的重要内容。比如,汉语的基本作用句XJ=A+X+B(如“张三打了李四”)和一般反应句X20J=X2B+X20+XBC(如“张三很反感李四的做法”)都可以采用第三个语义块前置到第二位的语句格式,B前置时常用“把”为标志符(如“张三把李四打了”),XBC前置时则常用“对”为标志符(如“张三对李四的做法很反感”)。 从做语义块标志符的介词的功能来说,它们有比较明确的分工,比如“把、被、向”都是汉语常用的语义块标志符,“把”所标志的一定是作用对象(如“张三把李四打了”)或转移内容(如“张三把文件转交给李四”),“被”所标志的主要是作用者A(如“李四被张三打了”)或转移发出者TA(如“这个消息被张三透露给了李四”),“向”所标志的则主要是转移接收者TB(如“张先生向李小姐表达了心意”)。
(二)语义块构成知识
关于语义块的构成,首先需要说明两点:
第一,一个语义块通常包含说明部分和核心部分,核心部分取决于句类,是句类的函数,而说明部分则与句类无关,因此,语义块的命名和内涵是根据其核心部分确定的,句类表示式中所定义的各语义块都不包含说明部分。句子的某个成分是语义块的核心部分还是说明部分,要根据句类和语义块的内涵来确定,而不能从语法形式来类推。例如,
张先生喜欢李小姐的个性。 张先生喜欢李小姐的妹妹。
这两个句子都是一般反应句X20J,它们的第三个语义块“李小姐的个性”和“李小姐的妹妹”具有相同的语法结构形式,但是,“李小姐”在第一个句子中是语义块的核心部分,而在第二个句子中却不是,因为在第一个句子中,“李小姐”及其“个性”分别是反应的引发者及其表现,也就是句类表示式X20J=X2B+X20+XBC中的XBC,而在第二个句子中,反应的引发者是“妹妹”,它的表现缺省了,“李小姐”与“喜欢”这一反应的引发是没有关系的,所以,只是个说明部分。
第二,句类表示式中定义的语义块构成成分是从概念层面确定的,它们在具体的言语句子中一般都有可能省略。例如,一般反应句X20J的XBC表示它有反应引发者及其表现两个构成成分,但这并不意味着它们在句子中必须都出现,上面的第二个例句中就只有引发者而没有其表现,但从概念层面来看,引发者的表现是必然存在的,深层理解的时候有必要“追问”这个表现是什么,对这个句子而言,也就是李小姐的妹妹的什么方面让张先生喜欢,或者说张先生喜欢李小姐的妹妹的原因是什么。这一启发式的引导作用是句类表示式在语句理解处理中的重要应用价值之一。
对语义块构成知识的研究,内容十分丰富,这里仅阐述其中最重要的四项。
1.特征语义块核心的复合构成
特征语义块是指句类表示式中包含述语动词的语义块。特征语义块的核心部分一般是由述语动词充当的,但它还有多种形式的复合构成。例如(下划线部分是特征语义块的核心):
联合国应该对超级大国的武器实行控制。
有些高级军官对戈尔巴乔夫的一些政策感到不满。
大家对我们的工作提出了中肯的批评。
这些句子的特征语义块核心都由两个动词构成,前一个动词是意义比较笼统的高层概念,后一个动词才是语义的主体和中心。这种复合构成形式称为高低搭配。
人们不再对柏拉图的著作感兴趣。
中国与莫斯科向美国施加了一定的压力。
他们对工业和经济企业的失败负有不可推卸的责任。
这些句子的特征语义块核心由一个动词加一个名词构成,其中的名词才是语义的主体和中心。这种复合构成形式称为动静搭配。
也门政府对联合国将要采取的行动持反对态度。
县政府对农村家庭养殖业的发展采取了一系列鼓励措施。
苏联的核武器对周边国家起着威慑作用。
这些句子的特征语义块核心由三个词语构成,中间的那个词语才是语义的主体和中心。这种复合构成形式称为高低动静搭配。
特征语义块核心的复合构成表明,“特征语义块的完整表达与单个中心动词完全是两回事,一个完整的特征语义块核心的表达有时不仅需要多个动词,而且还需要体词的配合”(黄曾阳,1999),这是HNC的特征语义块概念不能以述语动词代替的一个重要原因。
特征语义块核心的复合构成是语句表达的现实需要,是各种语言都会有的普遍现象,比如在英语中,“pay attention to,take care of,have an impact on”等短语动词就都是特征语义块的复合构成形式。
在对句子进行语义分析和理解时,复合构成的特征语义块必须作为一个整体来看待,而不能分解成句子的述语和宾语。例如,“国有企业必须对经营机制进行深刻的改造”,这个句子的述语是“进行深刻的改造”,宾语是“对经营机制”,如果只以“进行”为述语,把“深刻的改造”和“对经营机制”分别看作宾语和状语,那就偏离了句子的总体语义结构。
2.广义对象语义块的对象内容分解
广义对象语义块是对特征语义块以外的语义块的统称。广义对象语义块有三种构成基元,一是一般对象,简称对象B,二是对另一对象发出作用的特殊对象, 称为作用者A,三是对象的表现,称为内容C。所谓对象内容分解,就是分析广义对象语义块中包含这三种构成基元的情况。一个广义对象语义块可能只含对象(包括对象B和作用者A)或内容C,也可能既含对象又含内容,具体的构成情况依句类的不同而不同。例如,一般反应句的XBC(如“张三欣赏李四的才华”中的“李四的才华”)中既有对象(反应引发者),又有内容(引发者的表现);而基本作用句的对象语义块B中可能只有对象,也可能只有内容,还可能既有对象又有内容, 下面的三个句子分别属于这三种情况:
母女俩正在打扫房间。 母女俩正在打扫卫生。 母女俩正在打扫房间的卫生。
对象内容分解的另一个问题是研究对象和内容在句子中的出现次序。如果一个语义块中既有对象又有内容,那么在具体句子中它们的出现次序可能是固定的,也可能是不固定的,这也依句类的不同而不同。例如,基本作用句的B 语义块中既有对象又有内容时,其出现次序是固定的,一定是对象在前,内容在后,而一般反应句的XBC中的对象和内容出现次序则是不固定的,可能对象在前,也可能内容在前,下面两个句子就分属这两种情况。
张先生喜欢李小姐的温柔体贴。 张先生喜欢温柔体贴的李小姐。
很显然,对象和内容出现次序固定的语义块的理解处理比不固定的容易得多,所以这是一项重要的句类知识。
3.语义块的分离
一个语义块的两个构成部分在句子中一般是连在一起的,但也有不在一起的情况,这种情况称为语义块分离。例如,“李四被张三打断了腿”,这个句子中的“李四”和“腿”是同一个语义块的两个部分发生了分离,分离前的句子是“李四的腿被张三打断了”。再如,“中国对国有企业进行了产业结构调整”,句中的“国有企业”和“产业结构”是同一个语义块的分离,分离出去的“产业结构”插入到特征语义块“进行了调整”的中间,造成了特征语义块的分离,分离前的句子是“中国对国有企业的产业结构进行了调整”。
在对句子进行语义分析和理解处理时,对分离的语义块要进行还原,就是要把分离开的两个部分合成一个语义块,而不能把它们看作两个独立的语义块。
研究语义块分离的内容包括:什么句类的什么语义块会发生分离?在什么条件下分离?分离到哪里去?这些内容是对语义块分离语句进行理解处理的宝贵知识。
4.句蜕
所谓句蜕,是指句子蜕化为语义块或语义块的一部分,也就是语义块中包含句子。句蜕有两种基本形式:一种是句子原封不动地作为语义块的构成部分,称为原型句蜕,如下面第一句的下划线部分;另一种是以句子的某一个语义块为中心语,另外的语义块为修饰语,如下面第二句和第三句的下划线部分。
政府和民间经济研究所都相信信息技术会促进经济增长。
经济危机造成的后遗症也随之减轻。
这些话语似乎表示了他对奴隶的同情。
在对句子进行语义分析和理解处理时,要素句蜕和原型句蜕一样,都要作为子句来处理,要确定它的句类和各个语义块,如上例中“他对奴隶的同情”,要分析出它是个一般反应句,其特征语义块是“同情”,反应者是“他”,反应引发者是“奴隶”。对要素句蜕的理解处理必须按这样的思路进行,而不能只把它分析为定中结构。
语义块中句蜕的表现形式是多种多样的,什么句类的什么语义块可以由何种形式的句蜕构成,这是一项重要的句类知识,也是句蜕研究的基本内容。
(三)语义块之间的概念关联知识
概念关联知识是指语义块的核心部分之间在概念上的预期,包括两个方面:一是特征语义块对广义对象语义块的预期,例如,当一般反应句的特征语义块是心理反应概念时,它就预期反应者X2B一定是人或动物; 二是广义对象语义块之间的预期,比如关系句中的关系双方RB1和RB2常常具有对仗性,也就是说,如果RB1是人,就预期RB2也是人,如果RB1是物,就预期RB2也是物。可见,概念关联知识所描述的是句类中的语义块应该是什么概念,以及语义块之间在概念上的相互制约关系。
(四)句类转换和语义块变换知识
句类转换是指甲句类的内容换用乙句类来表达。例如,“李小姐的办事能力受到张先生的赏识”,这是个一般承受句,但它表达的基本语义信息与“张先生赏识李小姐的办事能力”这个一般反应句相同,这就是一般反应句向一般承受句的转换。转换前后两句类之间的语义块对应关系是:反应句的引发者及其表现(“李小姐的办事能力”)转换为承受句的承受者,反应句的反应者(“张先生”)和反应(“赏识”)转换为承受句的承受对象和内容。
对存在句类转换的句子进行语义分析和理解处理时,需要进行反转换,就是要还原出转换前的那个句子,这样才能分析出语义块之间隐含的句子语义。这就需要研究一种语言中存在什么样的句类转换关系,如果是做语言翻译,则需要研究不同语言之间的句类转换关系。
句类表示式中的语义块是句子基本语义的必有成分,称为主语义块。除了主语义块以外,一个句子还可以有其他可选的语义成分,称为辅语义块。语义块变换就是指主辅两类语义块之间的变换,如果主语义块以辅语义块的形式出现,就是主变辅,如果辅语义块以主语义块的形式出现,就是辅变主。例如,
英国在香港统治了一个半世纪。
信息技术在现代军事中的作用已经超过了武器装备。
第一个句子中的“在香港”是主变辅,因为“香港”是“统治”的对象,应该是主语义块,现在变换成辅语义块的形式。第二个句子的主语义块“信息技术在现代军事中的作用”中包含了一个辅语义块“在现代军事中”,这是辅变主的一种表现形式。
对句子进行语义分析和理解处理时,要把发生了主辅变换的语义块还原回去,比如主语义块整个变换为辅语义块时,形式上句子就缺少了一个主语义块,这个主语义块需要从辅语义块中还原回来,这样才能得到完整的句子语义,实现对句子的理解。
上述句类知识的四项基本内容,体现了HNC句类体系的基本观点和方法,也是用HNC句类体系研究句子语义的纲领,从中可以看出,句类和语义块概念的建立和运用是非常关键的。对句类知识的研究是一个有系统有层次的大课题,这里只是略述其要。
二 句类知识在自然语言理解处理中的应用研究
前述各项句类知识对自然语言理解处理肯定具有重要的应用价值,但如何利用这些知识来解决理解处理中的具体问题,比如汉语句子多动词的处理、专名及新词的自动识别、汉语单字词的歧义消解等,都需要进行具体而深入的研究。
三 句类与动词语义研究
句子的语义和动词的语义密切相关:一方面,句子的语义一般以动词为中心;另一方面,动词的语义在句子中得到体现,对动词语义的研究应当以动词形成的句子为中心。因此,动词语义研究是句子语义研究的重要内容之一。HNC的句类体系建立了表述句子语义的模式,这一模式自然可用于动词语义研究。在句类体系下研究动词语义的具体内容和做法是:确定动词作为特征语义块核心时所形成的句类,并围绕上文所述四个方面来描述其句类知识。句类是动词语义的具体体现,句类知识体现了以动词为中心的句子所具有的语义、语用和句法特征。例如,对“感谢”这个动词的描写,要点如下:它形成一般反应句(X20J=反应者X2B+反应X20+反应引发者及其表现XBC),其语句格式有基本格式(如例句a)和非基本格式“X2B+XBC+X20”(如例句b),在非基本格式中,特征语义块核心必须采用“表示(深表)+感谢”的复合构成形式。
a.李瑞环││感谢││芬兰外长哈维斯托的周到安排。
b.李瑞环(X2B)││对芬兰外长哈维斯托的周到安排(XBC)││表示感谢(X20)。
如果一个动词形成的句子需要用不同的句类表示式来描述,这就表明该动词具有多个意义。例如,下面两个句子代表了“反映”的两个意义,前者是效应句(Y0J=效应对象YB+效应Y+效应内容YC),后者是信息转移句(T3J=转移发出者TA+信息转移T3+转移接收者TB+转移信息T3C),换言之,这两个句类表示式就表示了“反映”的两种意义。
a.这些现象││也反映了││我们国家当前的经济状况。
b.我们(TA)││向领导(TB)││反映过(T3)││这个问题(T3C)。
按照上述句类模式来研究动词语义,是一项大型的语言工程,其研究成果一定会成为语言理解处理的宝贵资源。
四 句类与语料库的句子语义标注
运用句类体系来分析和标注真实文本中的句子,标注的基本内容是句类和语义块,这样就可以建立起在句子语义级进行了深加工的语料库。这种语料库是句子语义研究和理解处理的另一种宝贵资源,建立这种语料库也是一项大型的语言工程。我们已经用这种方法标注了40万字的真实文本,证明建立这样的语料库是可行的。
建立这种语料库将填补语料库建设领域的一个空白,因为现在已有的语料库加工都是先分词,再标词性,再标词义、短语等,这是一种自下而上的方式,而用HNC的句类体系先标句子的语义类型(句类),再标句子的语义构成单位(语义块),再标语义块的构成,这是一种自上而下的方式。我们认为,语料库建设应该有自下而上和自上而下两种方式。
有了标注了句类信息的语料库以后,可以对HNC的句类系统进行定量的研究,比如:各种句类在语言中的分布比例,及其与文本体裁和领域的关系;各种形式的句蜕的出现情况;特征语义块核心的各种复合构成的出现情况;等等。这些方面的研究成果对制定语句理解处理的策略和方法具有十分重要的指导意义。
五 句类与话语分析研究
话语分析(Discourse Analysis)的中心任务是确定上下文中句子之间的语义连贯性,它的基础是对句子语义的分析。句类表示式为描述句子语义提供了模式,也就为确定句子之间的语义关联创造了基础条件。例如,对省略的处理是话语分析的基本问题之一,句类表示式可以为发现省略成分、确定句间语义关联提供判断依据,看下面一段话:
有一天,10岁的儿子带着3岁的弟弟在山坡草地上玩,突然发现草窝里有5个鸡蛋。小哥俩高兴极了,像报喜似的抱着鸡蛋回到家里。
文中的“小哥俩高兴极了”形式上是个完整的句子,但根据句类表示式可以判定它是有省略的。因为,这是个一般反应句,由一般反应句的句类表示式可知,它应该有三个语义块,即反应者、反应、反应引发者及其表现,句中有反应者(“小哥俩”)和反应(“高兴”),缺少反应引发者及其表现,也就是造成反应的原因,这个原因是由前一个句子(“突然发现草窝里有5个鸡蛋”)的内容表达的。由此可以确定这前后两个句子之间语义上的连贯性。
六 句类与机器翻译研究
机器翻译(Machine Translation)有两个关键环节,一是源语言的分析理解,二是从源语言到目标语言的转换生成,这两个环节都需要有良好的语言模型,与自然语言处理的其他应用相比,机器翻译更需要基于语义理解的语言模型。HNC的句类体系建立了句子级的语义表述和处理模型,把它应用于机器翻译的两个关键环节,将会产生很好的效果。有关的研究表明(李耀勇,2001),基于HNC的机器翻译系统可以使译文的可读率比现有的系统提高15个百分点,达到85%以上。
如何把句类系统应用于机器翻译系统的技术实现,这里面有大量的语言研究工作要做,这些研究都是以句子的语义研究为中心,比如研究两种语言之间的句类转换关系、语义块构成的变换关系、语义块排序的变换关系等。
七 句类与句子语义认知研究
HNC的句类体系建立了描述句子语义的模式,这一模式可用于句子语义的认知研究。从句类和语义块的观点来看,语义块是句子语义的基本认知单位,句类表示式是句子语义的认知模式,人脑在理解句子时就是以句类表示式为语义激活框架,在句子中寻找表示式中的各个语义块,确定了语义块也就意味着对句子基本语义信息的理解。例如,对反应句就要寻找反应者和反应引发者及其表现这两个语义块,对信息转移句就要寻找信息发出者、接收者和信息内容这三个语义块。
句类表示式是否真的符合人脑对句子语义的认知模式呢?这需要用心理语言学的实验方法加以验证。这也是句子语义研究的一个重要方面。
结束语
HNC是为自然语言理解处理而建立的语言表述模式,用它的句类体系开展句子语义研究,可以使语言学的研究成果更符合自然语言理解处理的需要,更好地实现语言学和语言信息处理的结合,是一个有广阔前景的发展方向。本文的内容仅仅是一个简略的开端,我们将沿着这一方向逐步开展具体深入的研究工作,期待有更多的人来参与。