自然语言处理中的概率语法,本文主要内容关键词为:自然语言论文,概率论文,语法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在自然语言的计算机处理中,基于规则的句法剖析主要是使用Chomsky的上下文无关语 法。在上下文无关语法的基础上,学者们提出了自顶向下分析法、自底向上分析法、左 角分析法、CYK算法、Earley算法、线图分析法等行之有效的剖析技术(冯志伟 2000, 2002,2003a,2003b,2004)。但是,这些分析方法在处理自然语言的歧义时都显得无 能为力。近年来对上下文无关语法的改进主要体现在两个方面:一方面是给上下文无关 语法的规则加上概率,提出了概率上下文无关语法,另一方面是除了给规则加概率之外 ,还考虑规则的中心词对于规则概率的影响,提出了概率词汇化上下文无关语法。这些 研究把基于规则的理性主义方法与基于统计的经验主义方法巧妙地结合起来,取得了很 好的成果,反映了当前自然语言处理的新趋势。
本文主要介绍概率上下文无关语法和概率词汇化上下文无关语法,我们把它们统称为 自然语言处理中的概率语法。
1.上下文无关语法与句子的歧义
上下文无关语法(Context-Free Grammar,简称CFG)可以定义为四元组G = {N,Σ,P ,S}。其中,N是非终极符号的集合,Σ是终极符号的集合,S是初始符号,P是重写规 则,规则的形式为:A→β。
规则左部的A是单独的非终极符号,规则的右部β是符号串,它可以由终极符号组成, 也可以由非终极符号组成,还可以由终极符号和非终极符号混合组成。
在英语句子swat flies like ants中,swat可以做动词使用,含义是“猛击”,也可 以做专有名词使用,作为苍蝇的名字;likes可以做动词使用,含义是“喜欢”,也可 以做介词使用,含义是“如像”;flies可以做动词使用,含义是“飞”,单数第三人 称现在时,也可以做名词使用,含义是“苍蝇”,复数;ants是名词,含义是“蚂蚁 ”,复数。
如果我们使用上下文无关语法的剖析技术(如线图分析法、Earley算法等)来剖析这个 英语句子swat flies like ants,可以得到如下三个结构不同的树形图。
具有图1树形结构T1的句子的含义是“像猛击蚂蚁一样地猛击苍蝇”。
同样一个英语句子得到了三种不同的分析结果。究竟这个句子的结构和含义是什么?我 们处于举棋不定、进退两难的困境。
目前已经提出了不少基于规则的歧义消解方法来排除歧义,例如,基于选择限制的方 法、基于词典的词义排歧方法等。但是这些基于规则的方法消解歧义的效果都不很理想 。于是,学者们试图改进上下文无关语法,采用基于统计的方法,计算上下文无关语法 重写规则的使用概率,试图根据概率来改进上下文无关语法。
在自然语言处理中关于规则方法和统计方法的争论反映了语言学中的理性主义思潮与 经验主义思潮的对立。有一些学者往往持相当极端的观点。
Chomsky早在1956年就说,“然而应当认识到,‘句子的概率’这个概念,在任何已知 的对于这个术语的解释中,都是一个完全无用的概念。”Chomsky完全无视“句子的概 率”,他对于统计方法是嗤之以鼻的。而IBM公司Watson研究中心语音研究组的负责人
Fred Jelinek在1998年(当时他在IBM语音研究组)却完全排斥规则方法,他竟然语出惊 人地说:每当语言学家离开我们的研究组,语音识别率就提高一步(注:这是Jelinek于 1988年12月7日在自然语言处理评测讨论会上的讲话。在Palmer和Finin(1990)描述这个 讨论会时,没有写下这段引文;一些当时参加会议的人回忆,Jelinek讲的话更为尖刻 ,他说:“Every time I fire a linguist the performance of the recognizer imp roves.”(“每当我解雇一个语言学家,语音识别系统的性能就会改善一些。”))。他 试图完全排斥熟悉语言规则的语言学家参加自然语言处理的研究。
应该说,这两位著名学者的意见都是极端偏颇的。更多的学者则以平和的心态,积极 地探索把规则方法和统计方法相互结合的途径,他们的研究主要包括两方面,一是提出 概率上下文无关语法,二是提出概率词汇化上下文无关语法。下面我们分别介绍这两种 语法。
2.概率上下文无关语法
概率上下文无关语法(probabilistic context-free grammar,简称PCFG)又叫做随机 上下文无关语法(stochastic context-free grammar,简称SCFG)。这种语法是由Booth (1969)最早提出来的。
上下文无关语法可以定义为四元组{N,Σ,P,S}。而概率上下文无关语法则在每一 个重写规则A→β上增加一个条件概率p:
A→β[P]
这样,上下文无关语法就可以定义为一个五元组G = {N,Σ,P,S,D},其中D是给 每一个规则指派概率p的函数。这个函数表示对于某个非终极符号A重写为符号串β时 的概率p。这个规则可写为:P(A→β)。或者写为:P(A→β|A)。
从一个非终极符号A重写为β时,应该考虑一切可能的情况,并且其概率之和应该等于 1。
例如,根据对于语料库中规则出现概率的统计,我们可以获得规则的概率,这样,我 们就可以在上下文无关语法的规则中,给每一条规则加上概率了。因此,我们也就可以 把上下文无关语法改进为一个包含概率规则的上下文无关语法了。例如,这些包含概率 的规则如下:
S→NP VP
[0.8]
PP→Prep NP[1.0]
S→VP [0.2]
Prep→like [1.0]
NP→Noun
[0.4]
Verb→swat [0.2]
NP→Noun PP
[0.4]
Verb→flies[0.4]
NP→Noun NP
[0.2]
Verb→likes[0.4]
VP→Verb
[0.3]
Noun→swat [0.05]
VP→Verb NP
[0.3]
Noun→flies[0.45]
VP→Verb PP [0.2]Noun→ants [0.05]
VP→Verb NP PP
[0.2]
注意,这些规则中,所有从同一个非终极符号重写的规则的概率之和都为1。只有以
Noun为左部的规则的概率之和不为1,由于名词数量很多,我们只简单地列举了几条。 这些数据来自Eugene Charniak的专著《统计语言学习》(Statistic Language
Learning,The MIT Press,1993),都是示例性的。准确的数据应该到树库中去获取。
如果分析的句子是有歧义的,概率上下文无关语法可给句子的每一个树形图一个概率 。一个树形图T的概率应该等于从每一个非终极符号的结点n扩充的规则r的概率的乘积 :
P(T) = Πp(r(n))
n∈T
其中,n表示非终极符号的结点,r表示由该非终极符号扩充的规则,小写字母p表示规 则r的概率,T表示树形图,大写字母P表示整个树形图的概率。这样一来,就可以比较 不同树形图的概率,从而进行歧义的消解了。
例如,我们可以在前面那个句子swat flies like ants的三个不同的树形图的每一个 非终极结点上,加上相应规则的概率。
树形图T1加了概率之后变为图4:
把结点上的相应规则的概率相乘,就可以计算出树形图T1的概率如下:
P(T1) = 0.8×0.2×0.2×0.4×0.45×1.0×1.0×0.4×0.05
= 1.152×10[-4]
树形图T2加了概率之后变为图5:
把结点上的相应规则的概率相乘,就可以计算出树形图T3的概率如下:
P(T3) = 0.8×0.2×0.05×0.4×0.4×0.3×0.4×0.4×0.4×0.05
= 1.2288×10[-6]
比较这三个树形图的概率,我们有:
P(T1)>P(T2)>P(T3)
根据树形图的概率,我们可以判定:swat flies like ants这个句子最可能的结构是 树形图T1,它的意思是:“像猛击蚂蚁一样地猛击苍蝇”。这个结论与我们的直觉是一 致的,足见这个方法是可行的。因此,使用这样的方法,通过比较同一个有歧义的句子 的不同树形图的概率,选择概率最大的树形图作为分析的结果,便可以达到歧义消解的 目的。
这种歧义消解算法的实质是:从句子S的分析所得到的若干个树形图(我们把它们叫做т(S))中选出最好的树形图(我们把它叫做T)作为正确的分析结果。
就形式而言,如果T∈т(S),那么,概率最大的树形图T(S)将等于argmax P(T)。我们 有:
T(S) = argmax P(T)
计算出argmax P(T),就可以得到概率最大的树形图。可见,概率上下文无关语法是歧 义消解的有力工具。
3.概率CYK算法
在“基于短语结构语法的自动句法分析方法”(冯志伟 2000)中,我们曾介绍过CYK算 法(Cocke-Younger-Kasami algorithm),CYK算法是一种自底向上的动态规划剖析算法 ,经过概率上下文无关语法增强之后,就可以计算出剖析一个句子时的剖析概率。这样 的算法叫做“概率CYK算法”。
首先,我们假定,概率上下文无关语法是具有Chomsky范式(Chomsky Normal Form)的 ,也就是说,如果一个语法中的每一个重写规则的形式或者为A→BC,或者为A→a,那 么,这个语法就是具有Chomsky范式的语法。CYK算法假定如下的输入、输出和数据结构 。
输入:
--Chomsky范式的PCFG G = {N,Σ,P,S,D}。假定非终极符号|N|的索引号为 1,2,.....|N|,初始符号的索引号为1。
--n个单词为w[,1]...w[,n]。
数据结构:动态规划数组π[i,j,a]表示跨在单词i...j上的、非终极索引号为a的成分 的最大概率。在这个区域上的反向指针用于存储剖析树中成分之间的链接。
输出:最大概率剖析将是π[1,n,1]:剖析树的根是S,剖析树跨在单词w[,1]...w[,n] 构成的整个符号串上。
与其他的动态规划算法一样,CYK算法采用归纳法来填充概率数组,从基底出发,递归 地进行归纳。为便于描写,我们用w[,ij]来表示从单词i到单词j的单词符号串。这样, 我们就得到:
基底:我们考虑长度为1的输入符号串(也就是一个单词w[,i])。在Chomsky范式中,给 定的非终极符号A展开为一个单词w[,i]的概率必定只是来自规则A→w[,i](因为当且仅 当A→w[,i]是一个重写规则时,有Aw[,i]。
递归:对于长度大于1(length>1)的单词符号串,当且仅当至少存在一个规则A→BC以 及某个k(1≤k<j),使得B推导出w[,ij]的起头的k个符号串,C推导出w[,ij]的后面j-k 个符号串。因为这些符号串都比原来的符号串w[,ij]要短,它们的概率已经被存储在矩 阵π中,我们把这两个片段的概率相乘,计算出w[,ij]的概率。当然,这时w[,ij]也可 能会出现多个的剖析,所以,我们要在所有可能的剖析中(也就是在所有可能k的值和所 有可能的规则中),选择概率最大的剖析作为我们的剖析结果。
仿照概率CYK算法,我们也可以做出概率Earley算法、概率线图分析法等。
4.规则和概率的获取
概率上下文无关语法的概率是从哪里来的?存在两种途径可以给语法指派概率。最简单 的途径是利用句子剖析语料库。这样的语料库叫做“树库”(tree-bank)。
如果我们已经加工并且建立了一个树库,语料库中的每一个句子都被剖析成相应的树 形图,由于树形图中的每一个终极结点及其所管辖的字符串所构成的子树(sub-tree)相 当于一条上下文无关语法中的重写规则,因此,我们可以对于树库中的所有树形图中所 体现出来的这些上下文无关规则进行统计,就可以得出一部概率上下文无关语法。树库 的质量越高,我们得到的概率上下文无关语法就越好。
例如,语言数据联盟(Linguistic Data Consortium)发布的宾州树库(Penn Treebank,Marcus et al.1993),包括Brown语料库的剖析树,规模有100万单词,语料主要来自华 尔街杂志(Wall Street Journal),部分语料来自Switchboard语料库。给定一个树库, 一个非终极符号的每一个展开的概率都可以通过展开发生的次数来计算,然后将其归一 化,就可以得到一部概率上下文无关语法。
但是,树库的加工和建立是非常困难的工作,随着语料库语言学的发展,更为可行的 办法是通过未加工过的大规模语料库来自动地学习语法的规则,这样的自动学习,通常 叫做“语法归纳”(grammar induction)。
对于一般的上下文无关语法,进行“语法归纳”时,自动学习的素材分为两部分,一 部分是“正向训练实例”,另一部分是“负向训练实例”。所谓正向训练实例,指的是 语料库中那些真正属于该语言的句子或者其他类型的字符串。正向训练实例显然可以由 一个语料库来提供。所谓负向训练实例指的是那些不属于该语言的字符串。人们在进行 语法归纳时发现,如果不同时拥有正向训练实例和负向训练实例,那么,上下文无关语 法的自动归纳就是不可能的。然而,目前我们还没有如何获取负向训练实例的有效手段 ,所以,对于一般的上下文无关语法,语法归纳是很困难的。
对于概率上下文无关语法,“语法归纳”问题实质上就是如何通过自动学习来获得一 部带有概率的语法,使得正向训练实例中的句子的概率最大,不需要任何的负向训练实 例就可以进行了。所以,在“语法归纳”时,概率上下文无关语法比一般的上下文无关 语法更容易进行。
如果有一个未加工过的语料库,我们采用“向内向外算法”(inside-outside
algorithm),自动地从语料库中学习规则和概率,就可以得到一部概率上下文无关语法 。在使用“向内向外算法”时,如果句子是没有歧义的,那么做法就很简单:只要剖析 语料库就行了,在剖析语料库时,为每一个规则都增加一个计数器,然后进行归一化处 理,就可以得到概率。但是,由于大多数句子都是有歧义的,在实际上我们必须为一个 句子的每一个剖析都分别保持一个记数,并且根据剖析的概率给每一个局部的记数加权 。向内向外算法是Baker(1979)提出的,这种算法的完全描述,请参看Manning和
Schuetze(1999)。
一般的上下文无关语法的规则不考虑概率,规则一旦建立,就被认为是百分之百地成 立的,是没有例外的,但是,由于语言具有创造性,即使用来自动学习的语料库再大, 也难以保证获取的语法规则没有例外,语料库中总会有新的语法现象会超出已经确定的 语法系统的规定。如果采用概率上下文无关语法,一个规则的成立往往不是百分之百的 ,它只在某个概率下成立,只要统计样本充分大,就可以保证概率有很高的准确性。对 于那些在一般的上下文无关语法看来是例外的语言现象,概率上下文无关语法赋予它们 比较小的概率,仍然承认他们存在的合理性。这样,概率上下文无关语法就可以合理地 处理那些所谓“例外”的语言现象。
一般的上下文无关语法在识别句子时,只能给“合法”和“不合法”两种回答。合法 的句子得到接受,不合法的句子遭到拒绝,非此即彼。这样的办法在分析真实语料时几 乎寸步难行,因为在真实的语料中,很多句子的合法性是很难判定的,是亦此亦彼的, 这种亦此亦彼的复杂情况往往使得自然语言处理系统处于进退两难的境地,不容易达到 实用的要求。采用概率上下文无关语法,我们给合法的句子以较大的概率,给不合法的 句子以较小的概率,这样,概率上下文无关语法就不仅能处理合法的句子,也能处理不 合法的句子,它使语法摆脱了“非此即彼”的困境,给语法带来了“亦此亦彼”的柔性 ,使系统具备了容错的处理能力,而这样的容错处理能力对于实用的自然语言处理系统 是非常重要的。
5.概率上下文无关语法的无关性假设
为了能够使用加了概率的规则进行句法分析,概率上下文无关语法需要做如下的假设 :
假设1:位置无关性假设:子结点的概率与该子结点所直接管辖的字符串在句子中的位 置无关。
为了便于说明,在非终极结点上加了概率的树形图T1中,我们给每一个非终极结点标 上号码,得到如下的树形图:
图7中,在这个树形图的位置4,有一个规则NP→Noun,在位置8,也有一个规则NP→No un,尽管结点NP处在不同的位置,可是,由于这个结点NP直接管辖的字符串都是Noun, 所以,结点NP在这两个不同位置的概率都是相同的,都等于[0.4]。也就是说,结点的概率只与它所直接管辖的字符串Noun有关,而与Noun在句子中的位置无关。
假设2:上下文无关性假设:子结点的概率与不受该子结点直接管辖的其他符号串无关 。
例如,在图7的树形图中,如果把单词swat换成单词kill,只会改变在位置3的结点
Verb的概率,但是,不会改变这个树形图中不受位置3的结点Verb所直接管辖的其他结 点的概率,也就是说,树形图中的其他结点NP,PP等的概率都保持不变。可见,单词的 改变只对于直接支配该单词的非终极符号的概率有影响,而对于树形图中的其他非终极 结点的概率没有影响。这个假设是上下文无关假设在概率方面的体现,它说明了在概率 上下文无关语法中,不仅重写规则是上下文无关的,而且,重写规则的概率也是上下文 无关的。
假设3:祖先结点无关性假设:子结点的概率与支配该结点的所有祖先结点的概率无关 系。
例如,在图7的树形图中,位置4的结点NP和位置8的结点NP的概率都是相同的,因为它 们所直接管辖的字符串都是Noun,可是,在位置4的结点NP的祖先结点是位置2的VP以及 位置1的S,在位置8的结点NP的祖先结点是位置6的PP,这些祖先结点的概率都不会影响 在位置4和在位置8的结点NP的概率。
由于有这三个假设,概率上下文无关语法就不仅继承了一般的上下文无关语法的上下 文无关的特性,还使得概率值也具备了上下文无关的特性,这样,我们就可以利用概率 上下文无关语法进行句法剖析(parsing)。首先使用通常的上下文无关语法的分析算法 来剖析句子,得到句子的句法剖析树形图;然后,给每一个非终极结点加上一个概率值 ,在上述三个假设下,每一个非终极结点的概率值也就是对该非终极结点进一步重写所 使用的规则后面附带的概率,我们得到的树形图是带有概率的树形图。如果句子是有歧 义的,我们就会得到不同的带有概率的树形图,比较这些树形图的概率,选择概率最大 的树形图作为句法剖析的结果,就可以达到对句子进行歧义消解的目的。
6.结构依存和词汇依存的问题
然而,概率上下文无关语法并不是完美无缺的,它还存在结构依存和词汇依存的问题 。
6.1 结构依存问题
根据上述的三个无关性假设,在概率上下文无关语法中,对规则左部的非终极符号进 行重写时,不依赖于其他的非终极符号。正是由于在概率上下文无关语法中,每一条规 则都是独立的,所以规则的概率才可以相乘。
然而,在英语中,结点上规则的转写与结点在树形图中的位置是有关的。例如,英语 句子中的主语倾向于使用代词,这是因为主语通常是表示主题或者旧信息,而要援引旧 信息时往往使用代词,而不是代词的其他名词往往用于引入新信息。根据Francis(1999 )的调查,在Switchboard语料库中,陈述句的主语有31,021个,其中91%的主语是代词 ,只有9%的主语是其他词。与此相反,在7,498个宾语中,只有34%是代词,而66%是其 他词。
主语:She is able to take her baby to work with her.[代词做主语,占91%]
My wife worked until we had a family.[非代词做主语,只占9%]
大部分的主语是代词。
宾语:Some laws absolutely prohibit it.[代词做宾语,占34%]
All the people signed applications.[非代词做宾语,占66%]
大部分的宾语是非代词。
这样的语言事实是对概率上下文无关语法的上述无关性假设的严重挑战。根据无关性 假设,概率上下文无关语法不能处理这样的语言现象。
6.2 词汇依存问题
(1)PP附着:在英语句子中,介词短语PP可以做中心动词短语VP的状语,也可以做它前 面名词短语NP的修饰语,究竟是附着于VP,还是附着于NP,这就是所谓“PP-附着”(PP -attachment)问题。PP-附着与词汇有关。
例如,在句子Washington sent more than 10,000 soldiers into Afghanistan中, 介词短语(PP)“into Afghanistan”或者附着于名词短语(NP)“more than 10,000
soldiers”,或者附着于动词短语(VP)“sent”(单独的动词也可以看成一个动词短语) 。这里存在PP-附着问题。
在概率上下文无关语法中,这种PP-附着的判定要在下面的规则之间进行选择:
NP→NP PP(PP附着于NP)
VP→VP PP(PP附着于VP)
这两个规则的概率依赖于训练语料库,其中,NP附着和VP附着的统计结果如下:
语料库PP附着于NP PP附着于VP
AP Newswire(1300万词)67% 33%
Wall Street Journal & IBM manuals52% 48%
可以看出,在两个训练语料库中,“PP附着于NP”都处于优先地位。根据这样的统计 结 果,我们应该选择PP附着于NP,也就是选择PP“into Afghanistan”附着于NP“more
than 10,000 soldiers”这个结果。但是,在我们上面的句子中,介词短语into
Afghanistan正确地却应该是附着于动词短语VP(sent),这是因为这个VP“sent”往往 要求一个表示方向的介词短语PP,而介词短语into Afghanistan正好满足了这个要求。 概率上下文无关语法显然不能处理这样的词汇依存问题。
(2)并列结构的歧义:
句子dogs in houses and cats是有结构歧义的:
尽管在直觉上我们认为左侧树是正确的,但是,左右两侧的树所使用的规则却是完全 一样的。根据上述的无关性假设,由于规则完全相同,使用这些规则的概率相乘而计算 出来的两个树形图的概率也应该是一样的。在这种情况下,概率上下文无关语法将指派 这两个树形图以相同的概率,也就是说,概率上下文无关语法无法判定这个句子的歧义 。
由此可见,概率上下文无关语法在遇到结构依存和词汇依存问题的时候就显得捉襟见 肘、无能为力了,我们还需要探索其他的途径来进一步提升概率上下文无关语法的功能 ,其中的一个有效的途径,就是在概率上下文无关语法中引入词汇信息,采用词汇中心 语概率表示法,把概率上下文无关语法提升为概率词汇化上下文无关语法。
7.概率词汇化上下文无关语法
Charniak(1997)提出了词汇中心概率表示的方法。他的方法实际上是一种词汇语法(
lexical grammar),这种语法也叫做概率词汇化上下文无关语法(probabilistic
lexicalized con-text-free grammar)。在Charniak的概率表示中,剖析树的每一个结 点要标上该结点的中心词(head)。例如,句子workers dumped sacks into a bin可表 示如下:
这时,概率词汇化上下文无关语法的规则数目将比概率上下文无关语法的规则多得多 。 例如,我们可以有如下的规则,规则中既包括概率,也包括词汇信息:
VP(dumped)→VBD(dumped) NP(sacks) PP(into)
[3×10[-10]]
VP(dumped)→VBD(dumped) NP(cats) PP(into) [8×10[-11]]
VP(dumped)→VBD(dumped) NP(hats) PP(into) [4×10[-10]]
VP(dumped)→VBD(dumped) NP(sacks) PP(above) [1×10[-12]]
这个句子也可以被剖析为另一个树形图,不过,这个树形图是不正确的:
如果我们把VP(dumped)重写为VBD NP PP,那么,我们可以得到正确的剖析树。如果我 们把VP(dumped)重写为VBD NP,那么,就得到上面的这个不正确的剖析树。
我们可以根据Penn Tree-bank中的Brown语料库来计算这种词汇化规则的概率:
第一个词汇化规则VP(dumped)→VBD NP PP的概率为:
在实际的应用中,如果概率出现零值,一般都要都要进行平滑(smoothing),为简单起 见,这里我们不考虑平滑问题。
由于第二个词汇化规则的概率为零,所以,使用这个规则得到的图10中的剖析树是不 正确的。
我们也可以用同样的方法来计算中心词的概率。
在正确的剖析树中,结点PP的母亲结点(X)是中心词dumped,在不正确的剖析树中,结 点PP的母亲结点(X)是中心词sacks。
根据Penn Tree-bank.的Brown语料库,我们有
可见,通过计算PP结点的母亲结点的概率,也可以判断PP(into)修饰dumped的概率比 修饰sacks的概率大。当然,只是一个例子还不能证明一个方法一定比其他的方法好。 另外,我们上面提到的概率词汇语法只是Charniak的实际算法的一个简化版本。他还增 加了一些附加的条件因素(例如,某结点的祖父结点句法范畴的规则展开概率),并提出 了各种回退与平滑算法,不过,现有的语料库要获取这些统计数字还是显得太小了。另 外一些统计剖析器包括更多的因素,例如,区分论元成分(argument)与附属成分(
adjunct),对于树形图中那些比较接近的词汇依存关系比那些比较疏远的词汇依存关系 给以更大的权重(Collins 1999),考虑在给定成分中的三个最左的词类(Magerman and Marcus 1991),以及考虑一般的结构依存关系(例如,英语中右分支结构优先)(Briscoe and Carroll 1993),等等。这些方法都比较专门,限于篇幅,这里就不再赘述了。
概率上下文无关语法和概率词汇化上下文无关语法对于规则方法和统计方法的结合, 进行了有成效的探索,大大地增强了上下文无关语法消解歧义的能力。这样的概率语法 是当代计算语言学的一个新成果,应该引起我们的注意。
作者通讯地址:100010 北京朝内南小街51号 教育部语言文字应用研究所
E-mail:zwfengde@public.bta.net.cn