要重视特征的研究与描写,本文主要内容关键词为:特征论文,重视论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
自然语言处理与理解,就全世界范围来看,目前似都滞留于“句处理”阶段。所谓“句处理”,通俗地说,就是怎么让计算机处理、理解自然语言中一个句子的意思,又怎么让计算机生成一个符合自然语言规则、可以让人接受的句子来。人用语言向对方或他人表达自己的思想、看法、情感,或者从对方或他人的话语中准确理解对方或他人的思想、看法、情感,都需经过一个复杂的编码或解码的过程,而在这个编码或解码的过程中事实上要调动各种各样的因素,单就语言这个角度说,起码也得调动语音、语义、语法、语用等各方面的因素。现在任何国家的研究机构都还未在“句处理”研究上有明显的、实质性的突破。
为了希望能在“句处理”研究上能有所突破,有关专业人员做了很多努力,做了很多工作。最早进行“句处理”研究工作是采用基于规则的方法展开的。基于规则的“句处理”策略,要求研究者对语言知识要有全面系统的清晰认识。“语言知识可以分为基于范畴(Category)的‘属性:值’型知识(ATTRIBUTE: value)和基于规则(Rule)的‘条件→动作’型知识(CONDITION→action)。范畴用来刻画语言对象的一个或一组特征。规则用来表述范畴间的关系。‘特征’的数量是不确定的。一个范畴可能刻画几个特征,一个特征也可能有几个范畴都能刻画它。举例来说,‘名词’是一个范畴,它可以刻画一个具体的名词在几个方面的句法特征,如能受数量词修饰,能充当主宾语等等。逻辑上,所有规则都可以表示为P→Q这样的蕴涵式(意即如果存在P,那么必定存在Q)。P和Q这两个命题分别建立在已知范畴的基础上,因此规则实际上表述了命题所涉及的范畴之间的关系。比如,可以有这样的规则,如果W是名词(P),那么W能作主语(Q)。显然,这条规则在‘名词’跟‘主语’两个范畴间建立起了一种联系,尽管这条规则所描述的联系是粗糙的,甚至不那么正确,但是,以这样的方式建立范畴之间的联系,是分析语言的结构时必不可少的。而语言学家所要做的,正是去寻找正确的和好的联系。从形式方面看,研究者要考虑的就是以何种形式化的方式把范畴知识和规则知识组织起来,使得更有利于计算机处理。而所谓语言知识的形式化,就是以一套严格定义的符号系统来精确地表达语言知识,包括范畴的符号化和规则的公式化。”“范畴知识一般用词库(机器可读词典MRD)来负载,规则知识则由所谓规则库(规则的集合)来承担。”(詹卫东2000)根据上述认识,基于规则的研究工作,必须充分利用语言学家已有的研究成果,即语言学家所已经提供的有关汉语的知识。利用这些知识,研究者首先来整理、确立一定的范畴体系,并基于这一范畴体系来建立计算机进行“句处理”所需要的词库,在词库中对每一个具体的语言成分(词或短语)进行尽可能详尽的属性赋值;其次整理、确立能正确地描述范畴之间关系的规则,在计算机内建立规则库。建立了词库和规则库,就可以让计算机利用这些词库和规则库,按研究者的需要进行运算、分析,然后研究者根据计算机的分析结果(着重看计算机的分析结果是否跟预期的要求或目标相符),来调整原有的范畴体系、具体语言成分的属性取值以及相关的规则,即改进词典和规则库的内容。而在开始这些工作前,必须先规划一套初步的语言知识形式化表达体系,以便于计算机在一个严密的表达系统内具体展开上述的工作。基于规则的“句处理”研究策略看来很好,但是工作遇到了重重困难,主要是语言学家所提供的语言规则远远不能满足信息处理的需要,既存在语言规则不够的问题,更存在语言规则不准确的问题,因此并不能如愿以偿。
上个世纪90年代后大家把注意力转向统计的方法。基于统计的“句处理”研究,主要求助于计算机对大规模语料库(corpus)真实文本的统计分析,由计算机来抽象出语言知识。因此,基于统计的“句处理”,其重要依靠就是语料库。基于语料库的“句处理”研究不同于以往的基于规则的“句处理”研究,它主要利用计算机储存的亿万字的语料和计算机的高速运算速度,从语言使用的现实状况出发,通过计算机的自动学习来归纳、总结出语言规则,而不是像基于规则的思路那样,从语言规则出发,去推演可能的语言事实。因此,所谓利用语料库基于统计的研究策略,具体说就是“由计算机对语料(一般得是熟语料,即经过切分和词性标注后的语料)进行统计以获得到语言知识——一般表现为参数,再利用得到的参数对语料进行分析,根据分析得到的反馈结果来调整已有的参数,从而提高分析能力”。(詹卫东2000)到目前为止,统计方法几乎已占了压倒性的地位,但也并未见到“句处理”研究有明显的突破。
现在逐步趋向于将二者结合。“结合”方式是在“统计”中加入各种各样的规则。从理论上来说,这种“结合”应该是一条光明大道,问题是怎么结合?结合点应该在哪里?
最近见到王黎(2005)这样一个看法:语言是跟客观世界和人类思维密切相关的专门用于意义表达的一种工具,准确地说是语义的媒介物。所以,语言存在的价值就是为了表达意义。但是,语言本身并不能凭空产生意义,客观世界和人的认知为语言提供意义的基本来源。同时,语言也不能凭空表达意义,它必须通过一定的实体,即一定的形式去表达相应的意义。所以说,语言形式是为意义服务的工具,是意义赖以存在的实体和物质层,语言最终的落脚点是在意义上而非形式上。从客观世界到最后用言辞把人的感知所得表达出来,王黎(2005)认为这中间一共可以分为五层:客观世界、人的认知图式、语义表达框架、构式以及最终形成的句子,王黎将上述五个层面的关系用下图表示(以用言辞表示存在义为例):
附图
王黎这一看法,当然也还只是一种假设。这一假设怎么样,大家都可以发表自己不同的看法,可以进一步加以验证。但她的假设无疑给人以启迪。这里需要指出的是,用计算机实现“句处理”,其路子不会是如上图所示,即不会是“从大到小”,而应该是“从小到大”,即从抓具体词语入手。具体怎么抓?
我们注意到,从上个世纪七十年代以来,就语言研究说,似有这样一个趋向,那就是逐步重视特征的研究和描写。这一点,无论在语言理论研究上或是在语言应用研究上,都是这样,可以说是殊途同归。
先看语言理论研究。在语言学里,讲特征并非始于上个世纪70年代。最早明确讲特征的可能是音位学,例如他们将[m]、[e]、[n]的语音特征分别分析、描写为:
附图
语音学,以音素为最小的音系单位:音位学,虽然已经充分注意到区别性特征,但它还是以音位为最小的音系单位:到非线性生成音系学则以语音特征为音系的最小单位。总之最早明确讲特征的是语音研究者。接着是语义学。
“语义特征”(semantic feature)原先就是语义学中的概念,指的是某个词甚至某类词在意义上所具有的独特的语义因素,或者说在意义上所具有的特点。语义学中分析、描写词的语义特征,大致有以下三个目的(陆俭明2005):
一个目的是从某个特定角度对某一个语义类再进行细分类。譬如说,在“有生命事物”中,人类是一个语义类,为了说明同一个家族中不同人的不同辈分和相互之间的关系,我们可以根据某些语义特征(“+”表示正面特征,“-”表示负面特征,下同)对家族中不同称谓的人细加分类:
母亲[+直系,-男性,+女性,+长辈,-晚辈,+年长,-年幼]
父亲[+直系,+男性,-女性,+长辈,-晚辈,+年长,-年幼]
哥哥[+直系,+男性,-女性,-长辈,-晚辈,+年长,-年幼]
姐姐[+直系,-男性,+女性,-长辈,-晚辈,+年长,-年幼]
弟弟[+直系,+男性,-女性,-长辈,-晚辈,-年长,+年幼]
妹妹[+直系,-男性,+女性,-长辈,-晚辈,-年长,+年幼]
舅妈[-直系,-男性,+女性,+长辈,-晚辈,+年长,-年幼]
舅父[-直系,+男性,-女性,+长辈,-晚辈,+年长,-年幼]
女儿[+直系,-男性,+女性,-长辈,+晚辈,+年长,+年幼]
侄儿[-直系,+男性,-女性,-长辈,+晚辈,-年长,+年幼]
另一个目的是为了凸显同属一个语义类的不同词语之间的差异。例如“火”和“光”同属一个语义类——可见发光自然现象,但语义上有区别,为了凸显其相互之间的差异,就可以从以下一些方面描写它们的语义特征:
火[+现象,+亮度,+温度,-速度,+形体,……]
光[+现象,+亮度,+温度,+速度,-形体,……]
有了上面的描写,对下面的问题我们就容易说清楚了:为什么有“光的速度”的说法,而没有“*火的速度”的说法?为什么有“大火”、“小火”的说法,而没有“*大光”、“*小光”的说法?再如动词“喝”和“吃”,从某个角度看,属于一个语义类——饮食类,但语义上有差别,为了显示其相互之间的差异,就可以从以下一些方面描写其语义特征:
喝[+动作,+对象为液体,-对象为固体,+用容器,+使事物消失,…]
吃[+动作,-对象为液体,+对象为固体,±用容器,+使事物消失,…]
同样,有了上面的描写,对下面的问题我们也就容易说清楚了:为什么可以说“喝水”、“喝汤”、“喝啤酒”,而不说“*吃水”、“*吃汤”、“*吃啤酒”(有些方言,如吴方言可以说)?反之,为什么可以说“吃饭”、“吃梨”、“吃面包”,却不能说“*喝饭”、“*喝梨”、“*喝面包”?从上面所举的例子我们可以了解到,对词语进行语义特征的描写有助于说明不同词语在词语搭配等一系列用法上的差异。
再一个目的是,在语义学里使用“语义特征”这个概念,可以用来区别看似同义实际并不同义的词。例如“看”和“看见”,好像意义差不多,实际上除了都是凭借眼睛感知客观事物外,没有别的相同之处。通过对这两个词的语义特征的分析,就可以清楚地看出这一点。请看:
看 [+凭借眼睛,-被动感知,+自主,+可控,……]
看见[+凭借眼睛,+被动感知,-自主,-可控,……]
语法学里讲语义特征那是上个世纪七十年代以后的事。当时把“语义特征”这个概念、这个术语借用到语法学中,为的是做两件事:一件事,用以解释造成同形多义句法格式的原因;另一件事,用以说明在某个句法格式中,为什么同是动词,或同是形容词,或同是名词,而有的词能进入,有的词不能进入。(陆俭明2005)
上面扼要介绍了语言研究中对特征分析和描写的情况。现在我们看看在语言理论研究上重视特征的研究和描写的趋向,这里不妨以乔姆斯基的生成语法理论发展为例。
我们知道,乔姆斯基因为认为结构主义对语言的描写所概括的规则太复杂了,所以他要提出生成语法的观点,以简化语法规则。简约,一直是生成语法学的一个很重要的原则。生成语法理论,从1957年的由利用短语结构规则来说明核心句到非核心句的转换,到1964年的从深层结构到表层结构的转换,这比结构主义对语言的描写是简约了,但是从结构主义那里继承来的短语结构规则还是占据了重要的地位。到上个世纪80年代初的“管约理论”(简称GB理论),放弃了短语结构规则,整个规则部分只剩下“α-移位”规则,其他都成了原则,什么“X-阶”原则(X-bar theory)、论旨原则(Theta theory)、“格位”(Case theory)、管辖原则(Government theory)、约束原则(Binding theory)、界限原则(Bounding theory)、C-控制原则(Control theory),等等,还进一步明确建立了“原则与参数”理论(Principle-and-Parameters Theory)。这就进一步向简约化方向前进。到“最简方案”(MP)及其近几年的论述,众多的原则和移位规则更趋简约,D-结构,S-结构都没有了,似只保留了“原则和参数”理论和如下的“X-阶”结构模式:
附图
X是一个结构的中心词(head),YP是标示语(Spec.),ZP是补足语(Comp.)进一步强调简约原则,并提出了中心词(head)理论和特征核查(feature checking)理论,注入了新的研究课题——接口(interfaces)的研究。基本的句法运作是从基础部分(即词库)取出带有各种各样的有关语义、句法特征的词项,进行来回匹配、合并(Merge),形成词项组合结构。这个词项组合结构如能通过特征核查,即中心语跟标示语,中心语跟补足语,在特征上吻合,便分别去跟音韵接口,跟逻辑语义接口,从而最终生成我们所听到或看到的句子。乔姆斯基(1998,2005)进一步提出句法推导的基本步骤是先从词库(LEX)选出词汇项,构成词汇列(Lexical Array),形成段短语(phase),通过“探针”(probe)与“目标”(goal)的相互核查后,如果没有不可诠释特征,就“转移”(Transfer)给两个语音和语义的界面接口层次,以获得音义结合的语言形式。这就进一步提升了特征描写的概括力,总之,词语的特征的分析和描写放到了非常重要的位置,走上了“大词库,小规则”之路。
现在再看自然语言处理与理解这方面的语言应用研究。正如上面已说到的,自然语言处理与理解最早使用基于规则的研究策略与方法来实行计算机对句子的理解与生成,结果不成功;于是提出基于统计的策略与方法,让计算机自己通过对上万上亿字语料的“学习”来实行计算机对句子的理解与生成。结果也不理想。现在较为普遍地采用了Pollard & Sag(1987)提出的中心词驱动的短语结构文法(Head-Driven Phrase Structure Grammar,缩写为HPSG)。中心词驱动的短语结构文法,是基于约束的词汇主义(Constraint-Based Lexicalism),而基于约束的词汇主义来源于这样的心理语言学事实:语言理解是以一种高度整合和渐进的方式进行的。中心词驱动的短语结构文法认为,词语携带了丰富的句法语义信息,它在很大程度上决定了它所在的句子的句法语义结构。反过来,句子之所以表现出不同的句法语义结构,也正是因为其中所包含的关键词语不同。显然,中心词驱动的短语结构文法把语法规则的“重担”几乎全部转移到了词汇上,是严格的词汇主义(lexicalism)。而规则的描述都是围绕中心词展开的,而其最基础的、普遍通用的原则是中心词特征原则,因此中心词驱动的短语结构文法同时采用复杂特征(complex feature set)和合一(unification)运算的方法来实行计算机对句子的理解与生成,这是中心词驱动的短语结构文法区别于其他处理方法的主要特点之一。描写词语的特征,成了描述语法信息的一种主要手段,也是实现其“词汇主义”的主要手段,因而也成了中心词驱动的短语结构文法理论的重要组成部分。譬如对于动词give是这样描述的:
附图
注意,这里列出的并不是动词give的全部信息,这里没有涉及语音信息。上表描述的只是动词give的句法语义(SYNSEM)属性。句法(SYNTAX)和语义(SEMANTICS)的合写,这是HPSG主要关注的属性特征。
中心词驱动的短语结构文法是反乔姆斯基生成语法的。HPSG和生成语法最主要的差别是:HPSG把词汇看作是句法信息的载体,是非派生的(nonderivational)。正是在这一点上,HPSG比生成语法理论更为计算语言学界所青睐。但正如Sag & Wasow(1999:411)所指出的,HPSG是从乔姆斯基生成语法模式中发展而来的一种句法理论,两者之间有很多相似之处。突出的一点是,HPSG的中心词特征原则就酷似生成语法理论中GB(管约理论)的投射原理,更像乔姆斯基后来的中心词理论。基本道理跟乔姆斯基的特征核查是一样的,最终也走上了“大词库,小规则”的所谓“词汇主义”之路,而且认为词汇主义是当今语言学理论发展的头号倾向。
语言的理论研究和应用研究最终走到一条路上去,这绝非偶然的巧合。他们是相互影响的结果。
上面介绍时讲到,中心词驱动的短语结构文法认为,词语携带了丰富的句法语义信息,它在很大程度上决定了它所在的句子的句法语义结构。反过来,句子之所以表现出不同的句法语义结构,也正是因为其中所包含的关键词语不同。这一点必须重视。陆俭明(2004)以汉语实例具体说明了词语的具体意义对句子意思的影响与制约;进一步考虑,实质上也就是概念之间的关系制约问题。
重视词语的具体意义(事实上是概念之间的关系)对句子意思理解的影响,重视词语的特征研究与描写,这可能是自然语言处理中基于规则的方法和基于统计的方法的“结合”点之所在,可能是一条光明大道。