句子与法语的语义接口问题_自然语言处理论文

句法语义接口问题,本文主要内容关键词为:句法论文,语义论文,接口论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

现在世界范围的自然语言处理研究工作,大致都停留在句处理阶段。其进展不像希望的那样快。句处理的核心问题是怎么让计算机处理、理解自然语言中一个句子的意思,又怎么让计算机自动生成一个符合自然语言规则的、让人能理解的句子。在这个问题的解决上,现在可以说是八仙过海、各显神通。从大的方面说,大致有两种策略,一种是基于规则的处理策略,要求研究者拥有两方面的语言知识:一是范畴 (category)知识,二是规则(rule)知识。范畴知识有句法的,有语义的;句法的如主语、谓语、宾语、定语以及名词、动词、形容词等,语义的如施事、受事、工具以及数量、领属、自主、位移等。范畴用来刻画语言对象的一个或一组特征。规则用来表述范畴间的关系。一个范畴可能刻画为几个特征,一个特征也可能用来刻画多个范畴。所有规则都是建立在已知的或者更确切点说是假设的范畴的基础上。从逻辑上来说,所有规则都可以表示为P→Q这样的蕴涵式。比如,可以有这样的规则,如果某个词W是名词(P),那么W能作主语 (Q)。这条规则在‘“名词’”跟‘“主语’”两个范畴间建立起了一种联系,尽管这条规则所描述的联系是粗糙的,甚至不那么正确,但是,以这样的方式建立范畴之间的联系,是分析语言的结构时必不可少的。而语言学家所要做的,正是去寻找正确的和好的联系。范畴知识一般用词库(机器可读词典MRD)来负载,规则知识则由所谓规则库(规则的集合)来承担。计算机建立了词库和规则库,就可以利用这些词库和规则库,按研究者的需要进行运算、分析,然后研究者根据计算机的分析结果(着重看计算机的分析结果是否跟预期的要求或目标相符),来调整原有的范畴体系、具体语言成分的属性取值以及相关的规则,即改进词库和规则库的内容。基于统计的“句处理”研究,主要借助于计算机对大规模语料库真实文本的统计分析,由计算机来抽象出语言知识。因此,基于统计的“句处理”,其重要依靠就是存放实际的语言交际中真实出现的语言材料的语料库(corpus)。语料库可以分“生语料库”和“熟语料库”。所谓生语料库,是指未加工的、未带有任何语言学信息标注的语料库;所谓熟语料库是指经过词的切分、词性标注等一定加工的、带有语言学信息标注的语料库。[7]、[8]可见,建设一个语料库,除了通过某种手段录入大量语料外,重要的是要对所录入的语料进行如下的标注加工:

词的切分(Segmentation,或者说“分词”)

词性标记(Part-of-speech tagging)

句法层次和范畴标记(Grammatical parsing)

词义标记(Word sense tagging)

篇章指代标记(Anaphoric annotation)

韵律标记(Prosodic annotation)

以上是从大的方面说的。从小的方面说还各有招术。但不管用什么策略,用什么招术,都有赖于或者说都离不开有关自然语言的各种资源,特别需要语法、语义等多方面分析研究成果的支撑。具体到中文信息处理,那就是离不开有关汉语的资源或者说知识。面向中文信息处理的汉语资源建设,已成为中文信息处理,乃至我国的信息科技发展的关键性工程。在汉语资源的建设中,揭示、描述句法语义的互动、接口(in terface)问题是其中的一个重要组成部分[2]。

朱德熙先生[9]生前一直强调语法研究中形式和意义的结合。这是从汉语本体研究的角度来说的,是从汉语本体研究中悟出的道理。从中文信息处理的角度说,亟须从交际过程中编码、解码的角度来考虑问题。从交际过程中编码、解码的过程来说,就是要解决好句法、语义的接口问题。

怎么解决好句法语义的接口问题?现在大家还是在探索之中。句法语义的接口问题,我想,是否可以有不同的研究、探索的思路。

一种是从考虑句子意思的组成的角度来研究探索,研究探索一个句子的意思是由哪些意义编织成的,这些意思是怎样编制成一个句子的意思的。这个思路可以看作是由外往里的思路。另一种是考虑人到底是怎么把自己对于客观世界的认知所得通过言辞表达出来的。这个思路可以看作是由里往外的思路。

就前一种思路说,一个句子的意思是由哪些意义编织成的,是值得考虑、研究的。我先前曾认为,句子的意思是由这样一些意义组成的[3]:

现在先且不说一个句子的意思是不是由这些意义组成的,即使承认是由这些意义组成的,也还存在一个问题:这些不同的意义是怎样编制成句子的意思的?

就后一种思路来说,王黎[6]提出了这样一种看法:从客观世界到最后用言辞把人的感知所得表达出来,这中间一共可以分为五层(以存在事件为例,见下页图表):

以上当然也还只是一种假设。但这一假设为我们深入探索句法与语义的接口问题提供了一种思考的基础;而且,从实际的话语交际中,我们确实也可以体会到:

说话者与听话者在下列认识上取得一致才能进行正常的、顺畅的交际:人对客观世界的认知将形成一个概念框架,这个概念框架一定投射为某个特定的语义框架,这个特定的语义框架又一定通过特定的构式来加以表达,这个特定的构式为能准确表述语义框架的内容,就在语言层面词库中选择最恰当、合适的词语,选择最恰当、合适的词语组合规则,最终形成交际需要的句子。

如果我们承认存在上面假设的内容,也还有许多带关键性的问题需要我们去进一步研究和探索:

1.从客观存在的事物与现象到用言语表达出来,王黎[6]设想了五个层面或者说阶段,并作了具体说明,实际情况是不是这样呢?也就是说,中间到底可以分析为几个层级(或者说层面,或者说阶段)?具体是什么样的层级(或者说层面,或者说阶段)?

2.我们该怎么研究意义框架?对于意义框架的研究是否可以采取从上而下和从下而上两头挤压的办法?譬如说研究“获取”这一意义框架,是否既可以研究“获取”这一意义框架可能会有哪些子框架——诸如“抢”框架、“偷”框架、“买”框架、“赢”框架、“拿”框架,等等;也可以反过来,研究诸如“抢”框架、“偷”框架、“买”框架、“赢”框架、“拿”框架等,可以概括为什么样的上位意义框架。

3.意义框架是否可以认为是由框架元素以及框架元素之间的合乎逻辑的概念关系所形成的?或者说是否可以认为意义框架是由框架元素以及框架元素之间的合乎逻辑的概念关系所构成的?意义框架内各个框架元素之间是主从依存关系呢还是平等依存关系?该理解为主从依存关系能更好地解释种种语义现象呢,还是该理解为平等依存关系能更好地解释种种语义现象?这里,我还觉得,不管你认为是主从依存关系还是平等依存关系,都必须除了正面证明你所认可的依存关系之外,还得证明为你所否定的那种依存关系之不可取,以便强化人们对你所认可的那种依存关系的认识和认同。

4.单个意义框架,只能表述简单的意思,要表达复杂的意思,必须要求多个意义框架参与。这是不是就意味着存在着不同意义框架之间的连接、协调和整合的问题?是不是还应该研究各个意义框架之间的连接问题,还应该相应地研究各个构式之间语言层面的相互连接问题?

5.能否认为意义框架为各个语言所共有,比如说任何语言都会有诸如存在框架、转移框架、获取框架等,而构式是属于个别语言的?怎么给构式定义?是动词唤起构式的形成还是构式决定各个词项的选择?汉语有多少种构式?

6.构式意义从何而来?我上面所说的句子意思还应包括语义结构关系所赋予的意义,这语义结构关系所赋予的意义是否就包含在构式所表示的语法意义之中?

7.进入构式的某个词的词义是通过什么机制发挥它的表义作用的?

8.任何意义的表达都有赖于某个特定的概念结构。概念结构是怎么形成的?就言语交际需要的情况看,到底需要多少、哪些概念结构?不同民族、不同时代的人,其概念结构是否相同?这些问题将涉及到认知科学、脑科学等其他学科。

菲尔墨(F.J.Fillmore)[12]把句子分为情态与命题两部分。以上只是就对命题部分的理解来说的。目前只想到这一些问题,如果把情态问题考虑进来,那么情况将要复杂些,肯定还会提出更多的问题要我们去研究探索。

无论是由外往里的思路(即考虑从句子意思的组成的角度来研究探索一个句子的意思是由哪些意义编织成的),还是由里往外的思路(即考虑人到底是怎么把自己对于客观世界的认知所得通过言辞表达出来的),都不可忽视词语特征的研究。词语携带了丰富的句法语义信息,它在很大程度上决定了它所在的句子的句法语义结构。反过来,句子之所以表现出不同于其他句子的句法语义结构,也正是因为其中所包含的某些关键词语不同。因此,重视词语的句法、语义的特征的研究与描写,将是解决好句法语义接口问题的重要一步。我们注意到,从上个世纪70年代以来,就语言研究说,似有这样一个趋向,那就是逐步重视特征的研究和描写。这一点,无论在语言理论研究上或是在语言应用研究上,都是这样,可以说是殊途同归。

我们知道,乔姆斯基因为认为结构主义对语言的描写所概括的规则太复杂了,所以他要提出生成语法的观点,以简化语法规则。简约,一直是生成语法学的一个很重要的原则。发展到“最简方案”(MP)以及近几年的论述,众多的原则和移位规则更趋简约,D-结构,S-结构都没有了,似只保留了“原则和参数”理论和如下的“X-阶”结构模式:

X是一个结构的中心词(head);X'是X的中节;XP是X的最高节点,或者说最大投射;YP是标示语(Spec.), 2P是补足语(Comp.)。这就进一步强调了简约原则,并提出中心词(head)理论和特征核查(feature checking)理论,注入了新的研究课题——接口(interfaces)研究。基本的句法运作是从基础部分(即词库)取出带有各种各样的有关语义、句法特征的词项,进行来回匹配、合并(Merge),形成词项组合结构。这个词项组合结构如能通过特征核查,即中心语跟标示语,中心语跟补足语,在特征上吻合,便分别去跟音韵和逻辑语义接口,从而最终生成我们所听到或看到的句子。乔姆斯基[10,11]进一步提出句法推导的基本步骤是先从词库(LEX)选出词汇项,构成词汇列(Lexical Array),形成短语(phase),通过“探针”(probe)与“目标”(goal)相互核查后,如果没有不可诠释特征,就“转移”(transfer)给两个语音和语义的界面接口层次,以获得音义结合的语言形式。这就进一步提升了特征描写的概括力。总之,词语特征的分析和描写被放到非常重要的位置,走上了“大词库,小规则”之路。

在自然语言处理与理解这方面的语言应用研究中,现在较为普遍地采用了Pollard & Sag[14]提出的中心词驱动的短语结构文法(Head-Driven Phrase Structure Grammar,缩写为HPSG)。中心词驱动的短语结构文法,是基于约束的词汇主义(Constraint-Based Lexicalism),而基于约束的词汇主义来源于这样的心理语言学事实:语言理解是以一种高度整合和渐进的方式进行的。中心词驱动的短语结构文法认为,词语携带了丰富的句法语义信息,它在很大程度上决定了它所在的句子的句法语义结构。反过来,句子之所以表现出不同的句法语义结构,也正是因为其中所包含的关键词语不同。显然,中心词驱动的短语结构文法[15,16]把语法规则的“重担”几乎全部转移到了词汇上,是严格的词汇主义(lexicalism)。而规则的描述都是围绕中心词展开的,而其最基础的、普遍通用的原则是中心词特征原则,因此中心词驱动的短语结构文法同时采用复杂特征(complex feature set)和合一(unification)运算的方法来实行计算机对句子的理解与生成,这是中心词驱动的短语结构文法区别于其他处理方法的主要特点之一。描写词语的特征,成了描述语法信息的一种主要手段,也是实现其“词汇主义”的主要手段,因而也成了中心词驱动的短语结构文法理论的重要组成部分。这样,自然语言处理与理解的研究最终也走上了“大词库,小规则”的道路。陆俭明、王黎[1]和陆俭明[4,5]曾强调词语的具体意义对句子意思的影响与制约。正如上面已经说到,词语携带了丰富的句法语义信息,它在很大程度上决定了它所在的句子的句法语义结构。反过来,句子之所以表现出不同的句法语义结构,也正是因为其中所包含的关键词语不同。而进一步考虑,实质上也就是概念之间的关系制约问题。重视词语的具体意义(事实上是概念之间的关系)对句子意思理解的影响,重视词语的特征研究与描写,这可能是解决语义与句法接口问题的一条光明大道。

现在的问题是,词语的特征到底该如何描写,才能满足解决语义与句法接口问题的需要,这是亟须探索的新问题。

标签:;  ;  ;  ;  

句子与法语的语义接口问题_自然语言处理论文
下载Doc文档

猜你喜欢