刻画量化结构及其推理的汉语部分语句系统,本文主要内容关键词为:汉语论文,语句论文,结构论文,系统论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:B819 文献标识码:A 文章编号:1000-2677(2003)03-0020-06
一、有关背景情况
自然语言的逻辑在国际学术界又叫做逻辑语法(Logical Grammar)。顾名思义,逻辑语法是从逻辑或数学方法的角度给自然语言的生成所制定的法则,也是计算机从句法或语义层面分析和理解自然语言所遵循的语法准则。自20世纪70年代以来,先后出现了蒙太格语法、广义量词理论、话语表现理论、情境语义学及类型—逻辑语法等一系列逻辑语法理论,形成了一个学科群体。这些逻辑语法理论虽然在关注重点以及处理方法方面各有不同,但几乎无一例外地都构筑了关于自然语言的部分语句系统。比如:蒙太格语法创建了最早的英语部分语句系统PTQ;话语表现理论的权威作者在From Discourse to Logic(1993)一书中也构造了相应的英语部分语句系统;情境语义学的部分语句系统在其创始人Barwise的经典著作那里就能够见到,而Cooper在20世纪90年代初也构造了三个有关情境语义学的语句系统;广义量词理论的自然语言语句系统在其经典论文中就已提出来,后来Link及等人也陆续构造了一些与广义量词思想有关的自然语言语句系统;而类型—逻辑语法的部分语句系统则在Carpenter的专著Type-Logical Semantics(1997)中能够找到,等等。
逻辑语法诸理论构造的自然语言部分语句系统,其主要功能是按照计算机程序设计所需要的递归方法去生成自然语言的句子或句子系例,进而遵循组合原则去分析自然语言的语义特征。部分语句系统是自然语言信息处理的产物,是人工智能体分析和理解自然语言的语法准则。我们知道,人类的逻辑推理体现于自然语言之中,分析理解自然语言的句子或句子系列难免涉及其中的推理。所以智能体也需要对自然语言中的推理进行分析和理解,与之相应的是,逻辑语法关于部分语句系统的功能就应该扩大。换言之,在自然语言语句系统那里,其句法部分应该具备生成推理句的能力,其语义部分应该具有关于推理句的逻辑有效定义及其他相关内容。本文要做的工作就是扩大语句系统的功能,在系统中添加对自然语言表述的推理进行刻画的技术手段。
要刻画通过自然语言体现出的逻辑推理,实现推理的计算机信息处理,就必须研究自然语言中与推理关系密切的那些语词或结构。普通逻辑和数理逻辑的研究表明,自然语言中涉及推理的是量词“所有”和“有的”这样的语词,包含量词的量化结构是推理的直接载体。分析自然语言中丰富多样的量词及其量化结构则是刻画自然语言中逻辑推理的必要条件,而构造包含自然语言量词及其量化结构的部分语句系统乃是这种分析的产物,是关于人工智能体分析理解自然语言推理的先期工作。
作为一种特定的自然语言,汉语在量词及其量化结构方面有下列特点:(1)简单量词及其简洁的量化结构;(2)与复合叠置量词有关的量化结构;(3)一些表聚合语义(collective reading)的特定量化结构。本文的研究结果就是构造一个运用广义量词理论方法分析汉语量化结构从而刻画其推理的部分语句系统。
汉语量化结构的第一个特征是说:在汉语中,一个量化句中只有一个量词,这个量词位于句子的最前端且没有量词的辖域问题。这种情况大都通过“是”字句体现出来,如:
(a)所有的自然数是有理数;
(b)有的学生不是球迷。
这些“是”字句的句法语形直接对应普通逻辑关于直言判断的逻辑结构分析,也是构成三段论等推理的量化句。在我们的汉语系统中,(a)的量化结构表现为:
(a')所有(自然数,有理数)
作为一种广义量词,(a')中的“所有”被解释成满足某个条件限制的两个集合的序对作成的集合,这个条件限制为:一个集合包含于另一个集合。(a')中的“自然数”和“有理数”被解释成两个集合。(a')真,当且仅当,“自然数”和“有理数”两个集合组成的序对属于“所有”这个序对的集合,即“自然数”包含于“有理数”。即:
汉语量化结构的第二个特征是指汉语量化结构中含有多个量词的情况。如:
(c)所有的学生都喜欢每门课程;
(d)每个求职者选择不同的职业;
(e)这个志愿者送给那个女童一本书。
按照广义量词理论的处理方式,可以从量词复合叠置的角度来看待上述量化结构,即把量化句中两个或三个量词提升到句子的最前端而叠置成一个复合的整体。如(c)句的量化结构就是:
(c')(所有[,dou],每门)(学生,课程,喜欢)
其中的复合量词“(所有[,dou],每门)”被解释成满足某个条件限制的三元组作成的集合:
(c')真,当且仅当,“学生”这个集合、“课程”这个集合与“喜欢”这个关系满足复合量词“(所有[,dou],每门)”所规定的条件。即“学生”包含于“喜欢每门课程者”,而“课程”包含于“被喜欢的对象”。汉语量化结构的第三个特征为:句中出现的量词表示“聚合”的语义特征。如:
(f)所有的士兵组成一排人墙;
(g)两个和尚抬水吃。
就(f)而言,不是说每一个士兵如何如何,而是指所有士兵组成的那个整体怎样怎样,这就是量词“所有”的聚合语义用法。在下面构造的汉语部分语句系统中,需要设置特定的语义手段来描述量化结构所表现的聚合语义特征。
二、刻画量化结构及其推理的汉语部分语句系统
令FC(fragment of Chinese)表示专门生成并解释汉语量化结构及其推理的部分语句系统。FC系统需要加以如下说明:(1)在句法部分,先由句法规则和词项插入规则生成汉语量化句的表层形态,再由量词提升规则把量化句的表层形态一次转换成类似广义量词基本公式的模样,我们称之为FC系统的量化公式。而不是通常所做的那样把汉语表达式逐层翻译成逻辑表达式;(2)就语义部分而言,FC系统直接针对句法部分所获得的量化公式进行语义解释,而量化公式的构成要素是汉语词项,结构模样酷似汉语量化句。FC并没有定义一个作为中介的逻辑语言来间接解释汉语表达式的意义;(3)FC系统主要描述前面提出的汉语量化结构及其推理,但同时也可以进行扩展,生成并解释更多的汉语量化句及其推理。
FC系统分句法部分和语义部分:句法部分又分句法生成规则、词项的插入规则和量词的提升转换规则;语义部分又分语义解释的代数基础及据此确立的语义解释,即关于量化公式的语义定义(包括量化公式的逻辑有效定义)。
1.FC的句法部分
1.1.FC的句法规则
1.2.FC的词项插入规则
1.3.FC的量词提升转换规则
QR1 若“DET[,subject]N是N'”是词项插入的终端符号串,则可得量化公式“DET[,subject](N,N')(注:这里借用句法范畴符号作为元语言来代表所对应的词条,下文不少地方都采用这样的表达方式。);
QR2 若“DET[,subject]NV1”是词项插入的终端符号串,则可得量化公式“DET[,subject](N,V[,1])”;
QR3 如果“DET[,subject]NV[,2]N'”是词项插入的终端符号串,那么可得量化公式"(DET[,subject],DET[,object](N,N',V2)";
QR4 若“所有(这些)N共(都)V[,2]DET[,object]N'”是句法词项插入的终端符号串,那么可得量化公式“(所有(这些)[,gong(dou)],EDT[,object])(N,N',V[,2])”;
QR5 如果"DET[,subject]NV[,2]DET[,object]N,"是词项插入的终端符号串,则可得量化公式"(DET[,subject],DET[,object])(N,N',V[,2])";
QR6 若"DET[,subject]NV[,3]DET[,object]N,DET[,object]N'"是句法词项插入的终端符号串,则可得量化公式"(DET[,subject],DET[,object],DET[,object])(N,N',N',V[,3]);
QR7 若“有N不是N'”是词项插入的终端符号串,那么可得量化公式“并非所有(N,N')”;
QR8 若“所有N不是N'”是词项插入的终端符号串,则可得量化公式“没有(N,N')”;
2.FC的语义部分
2.1.FC语义解释的代数基础
给定有穷的原子个体域E[,A],由算子"+"和"T"生成联合半格的代数结构〈E,≤[,i]〉,"T"和"+"的定义参见文献[1]第1030~1032页;据此确立FC的语义解释。
2.2.FC的语义解释
FC的语义解释M=〈E[,A],E,T,+,‖‖〉,其中论域E的基础是联合半格〈E,≤[,i]〉。FC语义解释的定义如下:
Se9 ‖这(那)nδ‖={〈X,Y〉:|X|=n&|X∩Y|=n}(注:当"n=-"时,这(那)δ”的语义解释等同于“这(那)nδ”。);
汉语的量化句及其推理与相应的量化公式存在对应关系,由量化公式的真及逻辑有效性可确定汉语量化句的真及汉语推理的有效性,定义:
定义28 设ф是终端符号串且ф'是经过量词提升的量化公式,若ф'是真的,则ф是真的汉语量化句;
定义29 设ф是终端符号串且ф'是经过量词提升的量化公式,若ф'是逻辑有效的,则ф是有效的汉语推理。
给出一些例句来看FC系统的句法和语义部分是如何运作的。请看例句:
(h)这个志愿者借给那个女童一本书;
(i)所有男孩共吃掉50个西瓜。
(h)的句法生成为:
(5)这个志愿者借给这个女童一本书
(据词项插入规则)
然后对(5)的终端符号串运用量词提升规则QR6,就得到相应的FC量化公式:
(6)(这个,这个,一本)(志愿者,女童,书,借给)
于是对(6)进行语义解释:
(6)的真值条件,其直观理解为:“男孩”集合中所有成员作成的那个聚合体的集合包含于“吃掉50个西瓜者”的集合,而这里“被吃掉的西瓜”集合的成员是50个。这就是复合叠置量词“(所有[,gong],50个)”所揭示的量化涵义。
除此以外,FC系统还可以生成并解释汉语表述的逻辑推理。我们知道,汉语量化句中的“是”字句具有逻辑的简洁性,因此非常适合表现推理。在FC系统中能够生成汉语的“是”字量化句并把它们提升转换成量化公式,据此能够确定由汉语体现的三段论、对当关系以及换质换位推理的有效性。系统中表现四种直言判断的汉语量化句与量化公式及其解释的对应如下:
FC系统可以生成汉语的三段论推理,例如:
(j)没有贪官是廉洁的;并且有人是贪官;所以有人不是廉洁的。
其句法生成为:
(1) S
(2) S[,1]所以S[,2] (据Sy1)
(3) S[,1]并且S'[,1]所以S[,2] (据Sy2)
(4) NP[,1]VP[,1]并且NP[,2]VP[,2]所以NP[,3]VP[,3] (据Sy4)
(5) DET[,1]N[,1]VP[,1]并且DET[,2]N[,2]VP[,2]所以DET[,3]N[,3]VP[,3] (据Sy12)
(6) DET[,1]N[,1]是N并且DET[,2]N[,2]是N'所以DET[,3]N[,3]VP[,3] (据Sy6)
(7) DET[,1]N[,1]是N并且DET[,2]N[,2]是N'所以DET[,3]N[,3]不是N (据Sy7)
(8) 没有贪官是廉洁的并且有人是贪官所以有人不是廉洁的 (据词项插入规则)
对(8)运用QR1、QR7、QR10和QR11,就得到FC的量化公式:
(9) 没有(贪官,廉洁的)并且有(人,贪官)所以并非所有(人,廉洁的)
再对(9)进行语义解释,确定是否逻辑有效:
由于(9)是逻辑有效的,再据定义29得:终端符号串(8),即(j)是有效的汉语推理。
就其对当关系而言,其逻辑方阵可以用下表表示为:
有关矛盾关系的推理在FC系统容易生成且不难确定其有效性。此外,FC系统还能够用一种比较自然的方式解决普通逻辑所谓“主项存在”的问题,这是因为:在FC的语义解释定义那里,Sel假定了构成量化公式的汉语词项所对应的集合非空,所以可以证明在FC系统内生成的关于差等关系的推理是逻辑有效的。
此外,FC系统还能够生成换质换位推理并且确定其逻辑有效性。在FC系统,表现这类推理的相应量化公式有:
据FC的语义解释定义,(k)——(o)的逻辑有效性不难证明。这里从略。
更重要的是,在FC系统内可以扩大说明普通逻辑范围以外有关汉语量化结构的推理,例如:
(P)所有失窃者恨所有小偷,所以有些失窃者恨所有小偷;
(q)每个学生读不同的书;所以并非每个学生读同样的书。
就(p)而言,其句法结构生成的符号串经过对其中量词的提升可获得下面的量化公式:
(1)(所有,所有)(失窃者,小偷,恨)所以(有些,所有)(失窃者,小偷,恨)
FC系统能够证明(1)的逻辑有效性,这里从略。依据Se14和Se15,显见(q)对应的量化公式也是逻辑有效的。
值得指出的是,FC系统还有较大的扩充空间。比如增加专名的句法范畴及其合取的生成,补充相应的语义解释,就能够生成并确定下列汉语推理的有效性:
(r)在某部队凡四个新兵可以分得一间寝室;张三/李四/王五/周宁是该部队的新兵;所以,张三、李四、王五和周宁可以分得一间寝室。
(s)海湾地区的任两个国家都建立了外交关系;甲国家是海湾地区的国家;乙国家是海湾地区的国家;所以,甲国家和乙国家建立了外交关系。
三、几点评价和讨论
对本文所构造的FC汉语部分语句系统,几点评价如下:(1)对汉语量化句的特色给予了一定程度的关注,处理汉语量化句的简洁性,运用量词复合叠置的方法刻画汉语量化句中出现多个量词的情况,并且凭借联合半格的代数概念描述汉语量化句的聚合语义;(2)扩大了通常有关自然语言部分语句系统的功能。FC系统的句法语形部分能够生成汉语量化句的推理,运用量词提升规则实现了从自然语言量化推理句到量化公式的转换,在汉语实际推理和逻辑有效的量化公式之间搭起一座由此及彼的桥梁;(3)就刻画汉语量化句的对当关系和三段论推理而言,FC系统以一种比较自然直观的方式解决了普通逻辑所谓“主项存在”的问题;(iv)由于FC系统生成的汉语量化句不限于类似直言判断的句子,因此FC系统能够生成并解释有效的汉语量化推理句就远远超出普通逻辑的范围。
值得进一步讨论的是:FC系统似乎体现了一种新的逻辑哲学思想。FC系统给人的启示是可从两个不同角度来研究逻辑推理:第一个角度是逻辑的固有视角,从大量的实际推理例子中抽象出逻辑有效式,构造关于逻辑有效式的形式系统,并关注形式系统是否推出所有逻辑有效式这样的元逻辑问题。这种纯粹的理论研究不关心怎样生成并理解自然语言表现出来的实际推理,也不考虑从实际推理到逻辑有效式的转换,即割断了自然语言与其逻辑表述之间的渊源关系;第二个角度跟智能体直接分析和理解具体的逻辑推理相关。FC系统生成并解释自然语言表述的推理,并不割断推理和自然语言的关系,这正好满足了智能体在自然语言的基础上分析理解推理的需要。作为第二角度的研究,FC系统只是强调自然语言实际推理的生成过程,并在系统内确定实际推理是否有效,而不太关心系统是否能够生成所有的有效推理句。况且,逻辑推理在FC系统中是由各种汉语词项组成的量化公式表现出来,而不是用特定的人工符号来表述,所以自然语言部分语句系统似乎也很难进行逻辑形式系统那样的元逻辑讨论。尽管如此,研究逻辑推理的两个角度却是互相补充的,各有其存在的价值和理由。
其次,应该思考的问题还有:正因为FC系统直接生成并解释自然语言的推理句,其运作过程时时保持同自然语言的紧密联系,所以针对推理的第二个角度研究可能会涉及一些全人类性以外的东西。不同的自然语言,其句法结构特征可能不同,简单量词在句中的位置可能有别,量词的复合叠置方式及其语义解释也可能有所差异,所以在自然语言部分语句系统内刻画推理难免要涉及特定自然语言的特色。
收稿日期:2002-11-14
标签:自然语言处理论文; 自然语言论文; 语义分析论文; 逻辑结构论文; 逻辑分析法论文; 逻辑符号论文; 语法分析论文; 量化分析论文; 集合符号论文; 推理论文; 关系逻辑论文; 自然数论文;