汉语信息处理研究:语义研究--自然语言句子的HNC表示_自然语言处理论文

中文信息处理专题研究:语义研究——自然语言语句的HNC表示,本文主要内容关键词为:自然语言论文,语义论文,中文论文,语句论文,专题研究论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引言

自然语言语句的HNC(Hierarchical Network of Concepts)表示是概念层次网络理论的重要组成部分,是模拟人类语言感知过程的一种理论模式,是句类分析的策略基础,在文献[1]中仅作了简要说明,有关论述已经或即将发表[2-5]。本文就语句HNC表示的三个基本问题:句类和语义块的HNC表示式、句类格式、语义块的构成和分离作进一步的阐述。

一 句类和语义块的HNC表示式

HNC理论的基本假设之一是:人类对自然语言的感知,是以语义块感知和句类辨识为基础的,语义块是句类的函数。基于这一假设,语句的HNC表示式就是语义块HNC表示式的线性组合。因此,语义块的HNC表示式的构造就成为构造语句HNC表示式的关键。

文献[1]指出:自然语言的主语义块有4种:特征E、作用者A、对象B和内容C;辅语义块有7种:条件Cn(Condition)、手段Ms(Means)、工具In(Instrument)、途径Wy(Way)、参照Re(Refer)、因Pr(Premise)、果Rt(Result)。语句的HNC表示式仅考虑主语义块,不考虑辅语义块,因为辅语义块弱依赖于句类,它是否带语义块指示标记不受句类格式的影响。因此,把它们排除在语句HNC表示式之外是必要和合理的。

但应该指出,E、A、B、C仅描述了语义块的共性特征。语义块的个性特征是它的句类属性。语义块的共性和个性两个侧面应视为语句二维空间的两个正交基底。

按照这一思路,语义块HNC表示式的一般构成形式应是:

“个性+共性”=“句类信息+语义块类型信息”(1)

两类信息都用大写字母和数字的串接形式来表达。句类信息项中,字母代表基本句类,数字代表子类;语义块类型信息项中,字母代表语义块类型,数字代表类型的子类。

表示句类信息的字母有:X、P、T、Y、R、S、D,它们分别表示作用、过程、转移、效应、关系、状态和判断。表示语义块类型的字母有A、B、C,他们分别表示作用者、对象和内容。对仅含句类信息的语义块称为E块,对同时含有句类信息和语义块类型信息的语义块称为广义对象语义块,记为JK。

例如,X2、X2B、XAC、X2C分别表示反应句(作用句子类之一)的反应、反应者、反应引发者及其表现、反应者的后续表现等4种语义块,这里,X2是E块,其它都是广义对象语义块。又例如,TB、TC是转移句的对象和内容,而信息转移句(转移句子类之一)的对象和内容分别记为T3B、T3C,关系的双方分别记为RB1、RB2,等等。

这样,语句的一般HNC表示式EJ可写成:

EJ=JK1+E+ΣJKj (2)

这个表示式左方的EJ就是“语句HNC表示式”的符号表示;右方的JK1称为1号广义对象语义块,其余类推。形式上JK1相当于传统语言学的主语。在表示式(2)中,E块安排在1号和2号广义对象语义块之间,这符合SVO语言(包括汉语和多数印欧语)的天然习惯,这种语义块排序是句类格式的基本类型之一(见下文)。表示式(2)并未限定JK的个数,但对于基本句类,实际的自然语言只需要考虑JK个数为1、2、3的情况。它们分别相应于两主块句、三主块句和四主块句。

对于四主块句,JK2一定以对象B为主体,JK3一定以内容C为主体(参看下表),对于三主块句,B或C都可以充当JK的主体。对于两主块句,可以没有E,但这时JK2必须以C为主体,汉语的状态句经常出现这种情况。这些都是概念层面的最重要、最基本的句类知识。

句类有基本句类、混合句类和复合句类之分。基本句类是指表述作用效应链一个环节的句类;混合句类是指用一个E块同时表述作用效应链两个或两个以上环节的句类;复合句类是指用两个或多个E语义块表述作用效应链不同环节的句类(这里说的作用效应链是广义的,包括判断)。

混合句类和复合句类的语句表示式将分别用E1E2J和E1*E2J来表示。表示式(2)实际上是基本句类的表示式,也就是下文将要说明的标准格式。

自然语言的基本句类有7种,其一级子类有50种。混合句类有36种,其一级子类在理论上应有56*57=3192种,但语言中常用的不到十分之一。

基本句类及其部分子类的HNC表示式如右表所示:

二 句类格式的表示

本节介绍句类格式、句类代码和句类转换的概念及其表示方法。

1.句类格式

句类格式的定义是:语句中主块的排列顺序。这个顺序有“标准、规范、违例与省略”四种类型,相应于标准、规范、违例与省略4种格式。

标准格式的特征是:主块按语言的自然逻辑顺序排列。

规范格式的特征是:主块的排列顺序违反了语言的自然逻辑排列顺序,因而偏离了标准格式,但在广义对象语义块之间一定要加指示标记。对三主块句,规范格式有4种,汉语中常用的为两种。对四主块句,规范格式有23种,汉语中常用的和比较常用的共9种。

违例格式的特征是:在广义对象语义块之间部分或全部省略指示标记。对三主块句,违例格式有4种,汉语中常用的为两种。对四主块句,违例格式有47种,汉语中常用的和比较常用的共4种。

省略格式是指句中省略某一个语义块。

2.句类代码

句类代码是语句表示式的编码,是句类知识表示的总纲,它决定主块的数量、每一主块的基本内涵以及各主块的排列顺序。其基本表示式为:EJΣk[,m] (3)

数字序列k[,m]就是句类代码。对于混合句类,E写成E1E2,对于复合句类,E写成E1*E2。上述四种类型句类格式的代码表示式如下:

EJ0mn 表示标准格式EJ2mn 表示违例格式

EJ1mn 表示规范格式EJ3kmn 表示省略格式 (4)

对三主块句,没有表示式中的n。应用句类代码,可表达语句各种复杂情况。

3.句类转换

一个语句所需要表达的内容,不仅可以采用同一句类的不同格式,而且可以采用不同的句类,这种句类之间的变换称为句类转换。句类转换在本质上是一种特殊形式的混合句类。其表示式为:(E2,E1)J (5)

式中,E2是原句类,E1是转换后的句类。

例:中国人民爱戴周总理。 (反应句的标准格式)

中国人民对周总理非常爱戴 (反应句的规范格式)

周总理深受中国人民的爱戴 (反应句转换为承受句)

对转换后的语句进行句类分析时,关键是要排除E1的干扰,恢复到原句类进行处理,因为各语义块之间的关联性决定于E2而不是E1。

三 汉语中的语义块构成和分离的表示

1.广义对象语义块的构成

广义对象语义块的构成有良性与非良性之分。良性构成的特征是:各块素的排列顺序确定;非良性构成的特征是:各块素的排列顺序不确定。

例如,作用句的对象语义块B=XB+YB+YC,其中XB为作用对象,YB为效应对象,YC为效应内容。这三个块素的顺序不容颠倒,属于良性构成。又例如,“张先生怕李小姐的脾气”“张先生怕脾气乖张的李小姐”“张先生怕李小姐发脾气”,这三句均为反应句,前两句X2BC的构成方式分别为X2BCB+X2BCC和X2BCC+X2BCB两种排列顺序,第三句的X2BC则扩展为一个语句(即下文要讨论的块扩)。由此可见,反应句的X2BC语义块属于典型的非良性构成。

广义对象语义块的这种良性、非良性表现密切依赖于句类。在语句表示式中,ABC字母连用的语义块一般具有非良性表现,而单字母的语义块一般则具有良性表现(见上页表)。

2.E语义块的构成

特征语义块E是典型的良性表现语义块,它的各项构成有严密的排列顺序,一般表示式为:E=QE+EQ+EH+HE(6)

式中,QE为E块的修饰部分,EQ和EH是E块的核心部分,HE是E块的补充部分。在EQ和EH之间还可以插入EH的说明部分,这个插入成分可以不加表示。QE通常包含势态、情态、时态和性态四部分,其中,势态、情态和时态在HNC符号体系中都有特定表示。

HE一定是由基本概念的序、时间、空间、数、量与范围、质与类和度构成。

E语义块的核心部分EQ与EH有多种构成方式,主要有高层概念与底层概念、VV概念与V概念、动态概念与静态概念三种搭配方式。

以上三点,都是概念层面最宝贵、最重要的句类知识。

式(6)中EH的后面,汉语可以另加附属成分HE,它大体相当于传统语言学的“助词”。EQ的前面,汉语也可以另加附属成分qE。

3.块扩与句蜕的表示

语句与语义块可以相互转换。语义块向语句转换称为“块扩”,语句向语义块转换称为“句蜕”。块扩的表示式为:JK:=J或JK=J (7)

例如:“我们告诉他这个情况”和“我们告诉他王先生已抵达北京”,都是信息转移句,它的语义块T3C可以扩展为语句,这是概念层面的句类知识,例句中第二句的“王先生已抵达北京。”就是块扩。

句蜕的表示式为:JK:=或JK+ (8)

例如:“张三痛打了李四”“被张三痛打了的李四”“痛打了李四的张三”“张三对李四的痛打”。后面的三个语义块都是由第一个语句蜕化而来。

4.语义块分离的表示

E语义块一般存在分离现象,但不难处理。广义对象语义块的分离要引起高度重视,这种现象在标准格式中不会发生,但在规范格式中却经常出现。广义对象语义块的分离会带来语义块感知的困难,这时语义块的数目多于句类代码所标明的个数或改变了某些语义块的构成,这是句类分析的难点之一,但只要存在语义块分离的指示信息,软件就可以对这一现象游刃有余。

结束语

语句的HNC表示是HNC处理技术的“语义块感知”和“句类分析”两大模块[6]的基本依托。相应软件[7]已顺利通过了大量真实语料的检验,将于近期发布有关结果。对于语音输入或汉语拼单键盘输入,汉语单音词的巨大模糊对语义块感知仍是一个巨大的障碍。汉语的音节应作为一个特殊的语言信息单元进行系统,要深入研究,并寻求它的特殊知识表示方案。

标签:;  ;  ;  

汉语信息处理研究:语义研究--自然语言句子的HNC表示_自然语言处理论文
下载Doc文档

猜你喜欢