生成和理解过程中的词汇语义选择,本文主要内容关键词为:语义论文,过程中论文,词汇论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
词汇语义选择是人类语言系统中的一个重要机制。或许因为这一机制太“显而易见”,故而研究这一机制具体运作的文章反不多见。以往凡涉及这一问题的,大多用“词汇语义选择”一词以蔽之,或流于一般的表面现象,而其内部的机理大多不甚了了。词汇语义选择是一个由N个词汇的语义特征集所构成的选择装置,它为语言单位之间的组合提供词汇语义平面的可行性,并为语言的生成和理解提供基础语义解释。那些超越词汇语义选择的组合会提交给包括“隐喻”在内的“超常策略组合/理解机制”,在那里这些超常组合单位将得到特殊处理(例如隐喻路径的寻求),并得到解释。
构成一个合格句的最基本的操作可以归结为:1)词汇语义选择操作;2)句法结构操作;3)句式选择操作。这三者之间关系为:词汇选择操作保证词汇之间在组合上的合理性,避免产生诸如“Colorless green ideas sleep furiously”(Chomsky 1957:15)之类在语义上无解的结构;句法操作保证词汇短语之间在组合上的合法性,避免产生诸如“*Furiously sleep ideas green colorless”以及“*He me and”之类在结构上无解的“结构”;句式选择操作保证语篇的合格性,避免诸如“*她昨天买了一辆新车,今天撞那辆车撞坏了”(比较“她昨天买一辆新车,今天那辆车被撞坏了”)这样的语段。
本文主要讨论词汇语义选择原则,句法结构操作和句式选择操作,我们另文讨论。
2 词汇语义选择是人类语言机制中的基础部分
词汇语义选择是人类语言所共有的最重要的基本机制之一。这一基本机制建立在人类对世界的认知基础之上,其背景是关于世界的“知识”。这种知识普遍存在于人类的头脑中。
我们可以假设人类的大脑中普遍存在一个知识性的“脑词库”,这是人类语言机制的一个基本组件。早先的神经科学(参考卢利亚1987)以及心理科学(参考舒华等2003)的研究都试图证明人类语言机制中存在一个类似脑词库的生理机制。一些对失语症的临床观察部分证明,脑词库中的名词动词等是根据其性质分别存储的。例如命名性失语症表现为其名词受损,而有些病人则表现为动词受损。舒华等(2003)报道,国外的许多研究还表明,人脑的语义系统是按一些更细微的语义类别(如生物、非生物、动物、非动物等)组织起来的。在神经生理上国内外都有利用MRI技术观察被试对某些词在脑部不同区域的反应的报告。张珊珊等(2006)利用ERPs技术所做的实验报告“词更应该是大脑词库中的基本语言单位;诃在大脑中存在状态比较稳定”。这些神经生理学和神经语言学以及相关临床上的报道都与现代语言学中在词汇语义特征描写的基础上建立起来的一些理论不谋而合。例如词汇语法(Word Grammar,WG(注:参见http://www.phon.ucl.ac.uk/home/dick/wg.htm# historical_background(2004.6 页面)、http://www.phon.ucl.ac.uk/home/dick/publications,htm(2004.6页面)。)),核心驱动短语结构语法(Head-Driven Phrase Structure Grammar,HPSG),以及近年来更接近自然语言处理的XTAG语法(注:XTAG is an on-going project to develop a wide-coverage grammar for English using a lexicalized Tree Adjoining Grammar(TAG) formalism.XTAG also serves as an system for the development of TAGs and consists of a parser,an X-windows grammar development interface and a morphological analyzer.(参见http://www,cis.upenn,edu/~xtag/)(2004.6页面)。)、XHPSG语法(注:参见http://www.tsujii,is.s.u-tokyo,ac.jp/xhpsg:/(2004.6 页面)。)以及跨语义和句法的一些研究。而这些理论和研究或多或少地和早期生成语法在词汇组合上的理论有关,例如Chomsky(1965:95)的相关研究。参考下面的例子:
buy[+V,+[+HUMAN]-[-ABSTRACT]]
横线表示动词的位置,横线前是对其主语特征的要求,横线后是其宾语特征的要求。因此这一规则表示,“买”是个动词,处于它前面的主语必须是一个人类名词,处于它后面的名词必须是具体性的。类似这样的规则就可以限制动词选用哪一类名词作主语,选择哪一类名词作宾语。(徐烈炯1988:105)当然,要使这种限制规则能够得到更为细致的刻画,还必须作进一步的加工。这一工作后来在“基于常识的计算机语言处理”方案(Mueller 1990-2002(注:参见http://www.signiform.com/erik/pubs/pubs.htm (2004.6页面)。))以及国内“知网”(董振东1999,2003)、李葆嘉(2003)“南京师范大学十五211重点学科建设项目子课题‘语义网络工程”’中有了更多的进展。此外,词汇函项语法在词汇语义组合规则领域内的研究也有许多成果可供借鉴。(赵军1996)
下面是“知网”中对“生活”、“性格”、“性情”三个词的词汇语义特征描写:
生活
[P-安定,P-安宁,P-安逸,P-单调,P-动荡,P-堕落,P-富裕,P-艰苦,P-艰难,P-简朴,P-困苦,P-困难,P-美满,P-贫苦,P-贫困,P-朴素,P-舒适,P-甜蜜]
性格
[P-呆板,P-温柔,P-脆弱,P-刚强,P-耿直,P-乖戾,P-孤僻,P-豪放,P-豪爽,P-倔强,P-开朗,P-懦弱,P-泼辣,P-软弱,性能-优良,P-特殊,P-温柔,P-文静,P-直爽]
性情
[P-暴躁,P-粗暴,P-粗野,P-浮躁,P-固执,P-豪放,P-豪爽,P-急躁,P-冷酷,P-柔和,P-爽朗,P-温和,P-温柔,P-温顺]
上面可以看作脑词库的一个部分。这是知网的主要工作。其实这些都是基于人对世界认知的基本常识建立起来的知识库,这些知识库也是语言机制中的一个重要组成部分。它所提供的特征集为自然语言理解和生成的处理提供了最基本的词汇组合上的依据。这种词汇语义描写是语言科学中的具有实质意义的基础建设。有了这样的基础部分,我们才能解释句法组合上的可行性问题。例如:
(1)生活艰苦/艰苦的生活
(2)性格孤僻/孤僻的性格
(3)性情急躁/急躁的性情
(4)*生活刚强/刚强的生活
(5)*天气冷酷/冷酷的天气
这些都可以通过上面的词库部分得到检索并通过或阻止。实际上,人脑和电脑在基本词库以及从词库中搜索什么词进行句法组合,在实质上并没有太大的差别(差别或许主要是处理策略上的,例如串行和并行等)。
由于词汇的语义结构在很大程度上决定了句法结构的成员(也可参照配价语法的方法)。在这一点上,我们可以借鉴“知网”、词汇函项语法和配价语法的基本思想,将词汇的语义结构及其内部特征关系描写为:
有词f,其属性或特征为a,b,c,d……,可描写为:
f(a,b,c,d……)
括号内的项目表现f的各种属性或语义特征(该属性可以通过语料库统计得到其频率顺序,可参照董振东1999,2003),例如:
衣服(外观属性:尺寸,颜色……;价值属性:便宜,贵……;质料属性:……;数量属性:……)
洗(施事属性:人物;工具属性:洗衣机、洗衣板、洗衣盆、洗衣粉、肥皂……;对象属性:餐具,服装,蔬菜,水果,……;自身属性:速度,频率,时量……;结果属性:干净,破,白—褪色……,等等)
任何与物质名词所对应的物理世界中的对象都具有“外观”属性,而外观属性内部还具有大小、颜色等更小的性质。一个物质名词与一个形容词之间的匹配关系就是建立在词之间的属性特征的兼容性(或选择性)上的。在脑词库的操作中,形容词和名词都会在对方的属性中寻找与自己匹配的属性,当两个相同的属性得到匹配,这两个试图结构的单位就具备了词汇语义基础。
以上所讨论的似乎是一些不言而喻的基本常识,但是对这一常识的理论关注却不多见。宁春岩(2006)将这种常识提升到“连续合并理论”(参考最简方案中的合并理论)上来观察,为此,宁春岩提出了三个句法操作技术,兹引如下:
A.相互包含集合条件(Condition of Mutually Inclusive Set
B.词项选配原则(the Principle of Lexical Enumeration)
C.连续合并条件(Condition of Successive Merge)
其中“相互包含集合条件”定义为:如果α是β集合的成员,同时β又是α集合成员时,α和β之间呈现为相互包含集合关系。例如,α(βγ,λ,……)同时β{α,γ,λ,……},那么α、β互相包含集合成员。
“词项选配原则”是根据“相互包含集合条件”从词库中提取词项。这一理论的第三部分是在以上A和B的操作之后进行生成语法MP中的“合并操作”(即,将提取出来的词项进行逐级合并,最后得到一个完整的结构)。
我们认为,目前国内在句法最底层所作的最具实质性的也是最好的基础建设工作便是“知网”,“知网”的内部结构(李葆嘉先生的系统无缘了解,不敢断言),很值得语言学家给予充分的关注,甚至应该引起语言科学国家科研项目的关注,如果有更多的语言学工作者投入,它会给我们的语言研究以及语言处理提供更多的支持。
3 生成过程中的语义结构和词汇语义选择
句子生成的前提是为了语义表达的需求,语义表达是句法生成的主要驱动力。而“语义”是非常复杂的,它们有不同的层次,例如:命题语义、论元(角色)语义、构式语义(结构框架语义)、时体语义、语法关系语义(注:阴性阳性、单数复数、主格宾格等表达的是一种语法关系,但是时体和式态等并不表达语法关系,因此它们分属不同类别的语法范畴。它们所表达的意义并不是同一个类别。)、情态语义、式态语义、语态语义等等。这些语义在表达手段上,有些主要与词汇有关(例如命题语义),有些主要与结构框架有关(例如构式语义),有些主要与动词的形态有关(例如时体语义),有些则主要与动词形态、小品词或结构有关(如式态语义),有些和语音及助词有关(如语态语义)。除了这些语义之外,还有焦点、预设、蕴含以及言外之意等,这些语义的表现手段更为复杂。我们对语义的研究、对语义与其形式表达之间的关系的研究还远远不够。
相对一个语言表述而言,命题语义是语义系统中最为底层的部分,也就是自然语言中所承载的最主要的基本语义。其他所有的语义都是在命题语义的基础上逐一叠加上去的(成功的语义学分析应该能够将一个句子的语义在不同的层次上逐一剥离出来)。本文需要讨论的是直接与词汇语义选择有关的命题语义。
在下面的讨论中我们将“命题”定义为“所有词汇单位之间所构成的基本‘述谓’结构”。即,除了通常的动词和名词之间的述谓关系,也包括形容词和名词之间的述谓关系以及副词和动词、副词和形容词之间的述谓关系。
所有的命题可以分解为两类成分,谓词和谓项:
(i)X(Y)
(ii)X(Y,Z)
上面命题(i)只有一个论元Y,是最简单的结构体。命题(ii)有两个论元。即使是最简单的命题结构,要使这一命题结构能够成立,也需要选择恰当的词汇来实现。假定我们把(i)中的X赋值为形容词“帅”,Y的赋值范围首先在人类男性中选择,如果在“商品”、“衣物”、“书籍”等类别中选择,我们的语言机制根据选择规则不会得到任何结果,同理,如果是计算机的自然语言处理,同样得不到任何正确结果。X对它的论元在词汇语义上的选择正是我们所要关注的问题。这个选择是根据什么进行的?有没有一个范围的限定?
任何词都不是孤立地存在的,“没有游离于动词或形容词之外的名词,也没有游离于名词之外的动词或形容词”(宁春岩2006)。任何动词或形容词都可以与相应的名词有“联想”关系,我们在提出一个动词或形容词的时候,可以联想到相应的名词。反过来,我们提出一个名词也可以联想到相应的动词(例如从“饭”联想到“吃”、“做”甚至其他名词)。这种联想关系正是谓词和谓项之间在本文上面所说的“属性”或“语义特征”的一致关系(可替换词:相容、兼容、匹配),或者宁春岩的“互相包含”(集合成员)。
我们假定上面的命题(ii)中的谓词是“写”,另外需要根据说话人要表达的意思(假定为“张三写论文”)选择两个谓项,根据上面的讨论,这两个谓项的选择只能在与“写”有联想关系的名词中选择。结果可想而知:可供选择的有可能是同类名词,例如“论文”、“小说”。显然“论文写小说”或者“小说写论文”的结构是不合法的。在“说话人要表达意思”中有一个参项,即它要求该论元必须是施事,而施事论元要求有“人类”的属性,因此,其中一个论元必须具有“人类”的属性,否则结构不合法。同样,另一个论元的参项是“结果”(或“成品”),只有这样,我们才能保证所选择的词项能够构成一个合格的结构体,例如“张三写论文”。上面的施事和结果这两个参项属于人类语言机制中普遍存在的原则系统(这里参考了生成语法假说),属于说话人和听话人无意识中的语义角色理解(论元语义角色叫什么名称并不重要,关键是说话人和听话人都能理解论元和谓词之间的关系)。
以上的基本理念在生成语法的MP理论中表现为“合并”(merging)操作(例句选自Radord1997:65):
(6)
合并操作与以往最大的不同在于它是自底向上的逐步“组合”,这种组合首先要通过词汇语义的选择,否则任何合并都是非法的。上面的“help”要对后面的名词“赋格”,而后面的名词也必须能够接受动词的赋格,而能够接受“help”赋格的名词可以是“+生命”名词,而一般不是“—生命”名词。这种操作也是建立在词汇语义选择的基础上的。语句生成过程中的“合并”操作如果没有词汇语义选择的制约,其结果很难想象。
以上的讨论试图说明,词项之间的选择是在命题语义的基础上进行的,同时它也必须根据命题中的论元角色关系这一参数确定选择词项的范围。
4 理解过程中的词汇语义匹配操作
在一般的想象中,似乎理解过程是生成过程的逆操作。似乎很自然就能得到生成过程的基本操作是“合并”,而理解过程的基本操作则是“分解”,即对一个结构体进行分解,判定这一结构内部成员之间的关系。而实际上并非如此。理解过程实际上也是一个合并过程。而且是很典型的合并过程。
我们以同步组块理论(陆丙甫1986)为基础,对下面的句子进行技术处理:
(7)张老师昨天买了一本语法书
听话人在听到(或者读到)“张老师”时所作的心理操作仅限于“短时记忆临时储存”,而当他听到“昨天”这个词的时候,他已经做了试图将“张老师’’和“昨天”进行合并的操作,但结果是“失败”,因为“张老师”和“昨天”并没有语义属性上的匹配关系,或者根据我们在第2节中所讨论的,二者之间并没有可兼容的语义属性,“昨天”和“张老师”的属性中并没有可以匹配(兼容)的成员。因此,听话人无法构成一个“张老师昨天”的句法结构。因此,“张老师”和“昨天”作为两个独立的单位被储存在短时记忆中,等候下一步的操作。
接下来,听话人听到“买了”,他会将短时记忆中的候选项提取出来与“买了”匹配,根据我们在第2节中的原则,“买”具有“施事”和“时间”,它与“张老师”、“昨天”分别合并成两个独立的语义结构:张老师买了、昨天买了。由于听话人此时并没有获得“完句”的信号(语调、语气词等标记、结构满足度等),或者在语调上感觉是一个未完整调,则这两个结构将分别储存在短时记忆中,等候下一步的操作。
现在听话人听到“一本”,而我们假定语调上并没有终止信号,因此,听话人不会调用短时记忆中的那两个短语与“一本”作进一步的合并操作,而是将“一本”也储存在短时记忆中,等候处理。
当“语法”出现并且语调上仍未终止时,短时记忆中的“一本”和“语法”也不会合并,而是同时储存,继续等候。直到“书”出现,听话人会调用短时记忆中的“语法”和当时所听到的“书”进行词汇语义属性匹配,并作合并操作,构成“语法书”;并且继续调用短时记忆中的“一本”与“语法书”作词汇语义匹配,并作合并操作,构成“一本语法书”。
到这一步,理解过程还没有完成。听话人需要调用短时记忆中的“买了”和“一本语法书”进行合并操作,如果“买了”在语义属性上能够和“一本语法书”(商品)匹配兼容,则能够得到“买了一本语法书”的结构,此时听话人所得结果如下:
(8)
接下来听话人要做的是句法理解,根据现代汉语语法的语序或位置关系规则,为这些和动词直接相关的成分“赋格”,“张老师”处于句首是典型的主格位置,并且在语义上与“买”构成“主格—动作”关系,“昨天”处于动词之前,是时间格,“一本语法书”处于动词之后,是典型的受格位置,可以断定其为受事。至此为止,整个理解过程得以完成。因此,假如我们的语言机制中缺少了词库中语词的语义属性,缺少了语义属性之间的匹配以及核对,词和词之间能否构成一个有机的结构,是很难想象的。