自然语言处理的概率配价模式理论,本文主要内容关键词为:自然语言论文,概率论文,理论论文,模式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
英国化学家Frankland将价的思想引入了化学领域。(Frankland 1852)1890年左右,美国学者Pierce在他的关系代数中首次使用“价”的概念来分析自然语言。(Burch 1991)1959年,法国语言学家Tesnière在其巨著《结构句法基础》(Tesniere 1959)中将价和句法理论联系在了一起。今天人们一般认为Tesnière是现代配价理论的奠基者。配价理论虽然是一种源于欧洲大陆的语言学理论,但这种思想几乎可见于所有现代的语言学理论之中。
传统上,配价理论是一种有关词的句法一语义理论,人们一般用它来描述一个词和其补足语的关系。这样的研究,对于了解词的用法当然很有帮助。但为了分析真实的语句,仅考虑补足语是不够的。此外,一个词的配价可能是变化的,补足语的出现概率不是均等的,价携带者和其补足语结合的过程是相互吸引的,由于存在这样一些问题,这就要求我们从价的根本属性出发,以应用为导向,尽量避开一些一时难以有结论的学术争论,构造一种符合信息时代语言观,即同时考虑人和计算机需要的配价理论。本文本着这一原则,引入一种广义的配价定义,并据此提出了配价模式理论,然后又在此模式中加入概率成分,形成了一种概率配价模式理论(Probabilistic Valency Pattern Theory,简称PVP)。文章首先介绍广义配价和配价模式理论,然后引入概率配价模式的一般理论,并给出了几个汉语词类的配价模式示意图,最后简述了一种基于配价模式的自然语言处理架构。
2 配价和广义配价模式
我们首先来看几种有代表性的配价定义:
“可以把动词比作一个带钩的原子,动词用这些钩子来吸引与其数量相同的行动元作为自己的从属成分。一个动词所具有的钩子的数量,即动词所能支配的行动元的数目,就构成了我们所说的动词的配价。”(Tesnière1959:238)
“价指的是动词及受其支配成分之间的抽象关系;句法配价是指动词在其周围开辟一定数量的空位,并要求用必有或可选共演成分(Mitspieler)填补的能力。”(Helbig and Schenkel 1978:49-50)
“价是语言单元的一种能力,使用这种能力它可与其他特定的单元构成更大的单元。价虽然是一种独立于依存的概念,但我们可以将一个词的价定义为它所属词类的子类具有的向下依存关系之能力。”(Fischer 1997:1)
“如同原子一样,词也不是孤立出现的,而是要和其他的词组合形成更大的单位:可以和这个词一起出现的其他成分的数量与类型是语法的一个非常重要的部分。又如原子一般,词用这种方式和其他词结合的能力可以用一个术语‘价’来表示。”(Herbst,Heath,Roe and Gotz 2004:vii)Hudson在自己的“词语法百科”中,对“价”是这样描述的:“‘价’这个术语是欧洲传统依存语法的一部分。它涉及到一个词所期望的依存关系,在所谓的‘配价词典’里列出了数以千计的词(特别是动词)的所有可能的价模式。说一个词有什么价,指的是它与其他词的‘结合’的方式。本术语一定包含所有的补足语和所有的主语(即,我们的‘价语’valents),并肯定不含说明语(状语)。”(Hudson 2004)
虽然这些价的定义不太一样,但将价理解为一种词的结合能力大致不会有什么问题。从这些定义,也可看出有的学者将价视为一种语言单位的普遍能力,有的则认为它只是动词才有的一种能力;大多数学者也认为配价只应考虑补足语(行动元),而不应包含说明语(状态元)。按照Helbig的说法,对于所有的配价理论研究者,不论他的研究路向是句法、语义还是语用和认知,如何区分补充成分(E)和说明成分(A)都是他们的中心问题(Helbig 2002:146)。但在实际操作过程中,这个问题并不好处理。
图1 是一个配价模式示意图。
配价理论之所以在语言教学和计算语言学中得到了较为广泛的应用,原因就在于它是一种面向应用的语言学理论。因此,我们可搁置争议,从实用的角度出发,来考虑这个问题。
我们认为,配价是词(注:事实上,配价应该被视为是语言单位的一种普遍属性。我们这里只提词或词类,是为了方便讨论。)的一种根本属性,广义的配价是指词具有的一种和其他词结合的能力,这种能力是一种潜在的能力,它在语句中的实现受句法、语义和语用等因素的限制;狭义的配价指动词等词类要求补足语的能力。
其中W表示一个词(类),C1-C3是为了完善或明确W的意义所需要的补足语,A1-A3是可对W进一步做出说明或限定的说明语,C为W潜在的支配词(类)。这个示意图也显示,一个词的结合力,可以分为向心(输入)和离心(输出)两类,向心力表示词受别的词的支配能力,离心力则是它支配其他词的能力。(注:我们采用离向心力的说法,主要是为了更好地解释词形成句子的问题。)一旦W出现在真实的文本之中,那么它就打开了一些需要填补的空位,换言之,在潜力开辟具体空位的同时,它也预言了所需要补足语的数量和类型。同时,W在进入具体文本时也显现了它是否能满足别的词(类)从属者的需要。至于真正的结合能否发生,则要看句法、语义等方面的结合要求是否能得到满足,这样句法、语义特征限制也就成为配价的一部分了。在这个图里,我们也避开了区分补足语和说明语的难题。
我们也认为在配价词表中的词项里,不但应该对该词的价进行量的描述,还应该进行质的研究。具体来说,我们需要对价的数量、种类、性质、实现的条件都要有所涉及。在数量方面,不但应该包括传统配价必需的名词性补足语,也需要考虑其他能够完善该词(类)的成分;在种类和性质方面,语义格关系和语义特征都是需要考虑的;在实现方面,句法、语义乃至语用的模式都属考虑的范围。在此基础上构造出来的配价词项具有分级或分层次的特性,依据应用领域的不同,我们可以使用句法、语义和语用等配价属性来限制价的实现。当然,所用限制条件的多少对分析理解的效率、精度有直接的影响。下面是一种类似于树结构的价图表示:
图2 配价模式的复杂特征表示(树状)
在以上配价表示框架中,我们也可以将所有与语义相关的因素刨除,这样就形成了一个纯形式的基于配价的依存语法分析模型。这样的纯句法模型在生成依存结构树后,需要一套语义机制从有歧义的结构中选择最适宜的结果。鉴于价从它的诞生之日起,就和语义结下了不解之缘,而且我们的目标就是对Tesnière的整个依存句法理论,按照信息时代的需要,进行新的诠释,并在此基础上,提出一套基于配价模式的自然语言分析和理解模型。所以我们的根本观点是价属于语义一句法范畴。语义不但在决定价时有作用,而且在价的实现过程中也有约束作用。语义和句法的及早结合,使得分析和理解结果更加明确,而且在理解的过程中可以做到边处理、边消歧,这也符合人类的语言理解机制。我们的配价词表模式,可以只含有简单的句法信息,也可以含有语义信息,甚至语用和场景信息,这些信息决定了词与词组合时的约束级别。依据不同应用领域和理解精度的需要,这几个层面的信息,可以单用,也可以联合起来使用,为此本配价模式可以称为一种多层级词(类)组合信息描写格式。
3 概率配价模式
配价是一种词与其他词结合的潜在能力,它是对词汇的一种静态描述。当词汇进入具体语境时,这种潜在能力得以实现,也就形成了依存句法的基本构件——依存关系。显然,一个词类可支配的依存关系不是均衡的,换言之,虽然某个词类从理论上说可以通过若干依存关系支配其他若干类词,但是这些依存关系出现的可能性是不一样的。如名词作为“主语”和“宾语”的可能性明显要远远大于它作“谓语”的时候。这意味着,我们可以在词类的句法配价模式中引入量的概念,可以通过语料库来标注依存关系的强度,出现多的数值就高。我们说过一个词的结合力(配价)可以分为向心(输入)和离心(输出)两类,向心力表示词受别的词支配的能力,离心力则是它支配其他词的能力。既然是力,就会有大小,可以用一个词类所能(被)支配的依存关系在数和量上的不同来定性地描述其能力的大小,也可以通过语料库来获得更精确的定量描述(Liu 2007)。引入依存关系的联结强度后,我们所提出的模型从实践的角度有望能够更好地构造一些基于统计的语言信息处理系统。(注:有关计算语言学和自然语言信息处理的一般理论和方法可参看冯志伟(1996)和Jurafsky/Martin(2005)。)在配价模式中引入概率成分,对建立更具普适意义的语言处理(理解)模型也非常必要,因为“大量的语言事实证明,语言是一种概率的东西。在语言理解和生成的过程中,无论是在存取、歧义消解,还是在生成阶段,概率都在起作用。……在句法和语义领域,概率对范畴的渐变性(gradience)、句法合格性的判定以及语句的解释,都有意义。”(Bod,Hay and Jannedy 2003:vii)这样我们所提出的配价模式就成了一种“概率配价模式”(Probabilistic Valency Pattern,即PVP),所谓“概率配价模式”就是在描述一个词或词类的配价模式时,不仅应该用定性的方式来描述它可支配什么样的依存关系,可以受什么样的依存关系的支配,而且也应该用定量的方式给出这些依存关系的权重或概率分布,如名词作主语的概率是多少,作宾语的概率又是多少等等。
我们还可以通过图4表示的方式描述构成某种依存关系的概率分布。
假设一部语法含有n个词类,那么对于此语法中的任何一种依存关系D的实现,从理论上说可以有n×(n-1)种可能,但实际上几乎没有这样的D存在,如主语关系多在动词和名词间形成,而不可能在数词和量词间形成。这样,如果我们去掉那些不可能的组合,剩余的组合也有量的不同。上图就是在这种思想的一种反映,图中上方的词类表示支配者,下方的词类表示从属者,词类之间有连线表示在它们之间可以形成依存关系D,每一条连线上的标记表示这种连接在关系D的总构成里的概率,。当然此图中的词类也可以为具体的单词,现在这样做只不过是为了便于表述。
图4 依存关系的概率分布示意图
将上述定量的方式引入配价描述,可以更好地体现概率统计在语言分析中的作用,也对我们所提出的配价模式中的离向心力有了一个更好的解释,因为力不但有方向,也有大小。概率配价模式也有助于解释,对一篇文本进行依存关系统计,各个依存关系的出现频率为什么是不一样的。这样我们就可以更好地把“依存关系是实现了的配价关系”这一思想和语言研究中的概率与统计方法结合在一起了。利用“概率配价模式”我们也有可能更好地描述熟语和固定搭配的语言单元,因为在这样的结构里,各部分之间的结构强度非常大,难以用一般的方法分开。我们也可以以“概率配价模式”作为基础,研究固定搭配结构的搭配强度,以及花园幽径句的理论解释等问题。
4 汉语词类配价模式举例
Liu and Huang(2006)提出了“现代汉语依存句法”,含有24个词性标记,34个依存关系标记,把依存关系和词类联系到一起,就可以形成一个初步的现代汉语词类组合能力的模式,即汉语词类的配价模式。在图5所示的结构图中,用粗细不同的线形来表示依存关系的强度或概率配价模式中的概率。(注:因为在提出该模式时,我们还缺乏精确的统计数据,所以只能用线条的粗细来表示概率的大小。线条的粗细基本上是靠语感画的。Liu(2007)给出了一种如何从依存句法树库中提取此类信息的方法。)
对于结合力较强的词类,如动词、形容词、名词等,我们将输入和输出分开表示。图中箭头向外的关系表示的是该词类可以支配的关系,箭头向里的关系表示该词类可以满足这种关系。前者可视为词(类)的主动结合力,这是一种开辟空位的能力;后者可视为词(类)的被动结合力,这是一种填补空位的能力。为了简化起见,我们只给出了词的大类结合能力,将一些子类属性也一并归入大类。在具体实现时,这一点需要注意。限于篇幅,我们只给出几个例子。
图中表示依存关系的各种符号基本上都是根据相应英语单词缩写的,如subj是subject的缩写,表示主语等。(注:这些标记的详细意义可参见Liu and Huang(2006)。)箭头的粗细代表配价模式中概率的大小。由于篇幅的限制,本文不再一一详说。
图5 几种汉语词类的概率配价模式示意图
5 基于配价模式的自然语言处理
在我们构拟的基于配价模式的自然语言处理体系里,词库中的词是以游离状态存在的,这些游离的词本身带有一种与其他词结合的能力,这种能力在词处于孤立状态时,虽然是潜在的,但是客观存在的。一旦受到激励,即接受到理解或生成的指令,智能体(大脑或计算机)便从词库中复制涉及到的词汇的副本进入一个临时工作区,这些原本处于游离状态的词进入工作区后,开始试图与别的词进行结合,这是一个将潜力显现的过程。
价的实现过程由于生成和识别的不同而略有不同。在生成时,智能体根据预先的计划在词库中选取可表示生成核心内容的词语(一般是动词),动词的出现构成了整个句子的基本框架,智能体随后可依据此框架有针对性的从词库中选取其他词,此时选取的指标仍然是词的结合能力。在识别时,有两种方法可用,一种是待输入的全部词语都进入工作区后,将它们具有的各种信息依据词库中对应的项一一赋予,然后开始寻亲组合活动(可以采用动词制导策略),如果这些词语可以组成一个有机的整体,则识别成功;另外一种方法是从收到第一个输入的词开始,马上就从词库中提取相关信息,在随后的读取过程中,都采用边读入边分析的策略,这样输入结束之日,也就是结果显现之时。如果采用的是被赋予了概率的配价模式,系统可以生成不同分值的理解结果,当然也可以利用概率作为分析过程中的一种实时的消歧手段。
词库里的有关词汇结合能力的知识,可以通过手工或自动的方式从文本和语言实际运用中提取出来。词的价是一种(可以)从过去或已有经验中学来的东西,这样依据价来理解或生成语言的过程是一种基于经验的方法。
在生成语句时,游离状态的词在临时工作区依据自身的价能力,结合为一个有机的整体后,它是一个二维(或三维)的结构,受人类器官的限制,需要将二维的结构转变为线性(一维)的序列,这需要利用一些约束条件来完成,这些条件因语言的不同而有差别,这些限制可以是词法的、句法的、语义的和语用的。而在分析时,虽然线性约束条件在检测句法的合格性方面有些用处,但由于分析和理解的结果是一种二维的表示,所以词的配价起的作用更大,这样做的结果,有可能某些不太符合句法的输入也能让计算机进行正确的理解,这对于提高系统的鲁棒性会有一定的好处,因此,我们可以说基于配价的依存分析策略是一种语义制导的面向分析和理解的方法。例如,“我看书”、“书我看”、“看书我”、“书看我”等按照词的价(语义结合能力)组合,都可判定或理解为“我看书”,而在考虑线性顺序约束条件后,那些不符合句法的输入就被剔除了。这样我们可以构造出一种根据约束条件多少来衡量理解程度的系统。
需要注意的是,在一个连续的或大于句子的语篇中,处于某个句子中的词的价(空位)在与其他词结合时,如果通过上下文可以容易地得出实现价的填充成分,那么按照交际有效性的原则,一般可以省略这些成分。此种情形,常常出现于日常会话等场景中。此时,不能说这些含有省略成分的句子不是合格的句子。借用Tesnière的小戏比喻,我们可将这种省略成分现象称为配价实现中的“连续剧”效应。因此,在研究和确定配价时,应该以脱离语境的简单句为主要对象。
为了让系统的工作更可控,让理论模型更有效,更具一般性,我们引入了描写某一词类的价模式,从而简化和精练了词表的建构和使用。在这种情况下,词的调用是一个两阶段的过程,首先实现相应词类子类的价模式,然后携带有具体词类的价模进入工作区。
以上过程,如图6所示。从图中我们不难看出一个价关系是由两种元素构成的:有待于完整的成分或结构和一些可以完善它的另外一些成分,前者就是中(核)心词,后者为补足语。我们说过,依存关系是一种实现了的配价关系,但是应该看到,如果我们狭义地解释配价的定义和范围,那么配价只是依存关系的一个子集。因为,无论是把配价定义为要求补足语的能力还是定义为一种词类子类的支配能力,配价及其他的实现都只覆盖了依存关系的一部分。换言之,为了构造完整的基于配价的语言理解模型,只考虑补足语是不够的。
图6大致说明了句子理解的过程,这里处理的只是一种非常受限的结构。显然,使用狭义的配价模式,我们无法表达和分析,在什么时间,在什么地方,和谁一起“吃肉”的句子。这一点,特别是在语句的生成中会看得更清楚。我们说配价的这种局限,是源于配价的语义特性的。它所关心的是如何完善“吃”这一活动的最低语义要求,至于其他一些起说明作用的东西,它就无能为力,同时也不感兴趣了。如果,我们做的是语义分析,而非句法分析,那么我们在提取价模时就需要将语义角色显式化,而不是现在这样把句法功能标示出来。
6 结语
本文从实用的角度出发提出了一种概率配价模式理论(PVP)的架构。PVP理论是传统配价理论的发展,它吸收了配价理论的优点,将配价理论和依存关系更好地结合在了一起,形成了一种较完整的自然语言分析和理解理论。在传统的配价模式中,我们引入概率成分,进一步提升了PVP理论的解释力和应用领域。为了方便理解,我们也给出了几个汉语配价模式的例子并对基于配价模式的语言处理过程进行了简短的描述。目前,我们已在计算机上对基于配价模式的语言分析过程进行了模拟,证明了PVP理论的可行性。我们还通过一个汉语的依存树库,对构建汉语概率配价模式所需的信息进行了研究,表明通过树库是可以获得PVP模式所需要的各种定量信息的。下一步我们还需要进一步研究PVP理论的形式化问题,以及如何自动从语料库中获得PVP模式的方法,如何依据PVP理论提出更好的自然语言自动分析算法等;在理论语言学方面,我们还将尝试用PVP理论对某些语言现象做进一步的分析。
图6 “我吃肉”、“我吃书”的理解过程示意图