汉语动词-宾语搭配的自动识别研究_动宾结构论文

汉语动宾搭配自动识别研究,本文主要内容关键词为:汉语论文,自动识别论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]H08 [文献标识码]A [文章编号]1003-5397(2005)01-0137-07

一 引言

(一)研究目标的确定

本文的研究目标是:对一个经过分词和词性标注处理的汉语句子,通过自动分析确定 句子中动词的宾语,即识别汉语文本中的动宾搭配。本文所指的动宾搭配,是指只带一 个体词性宾语的动词和在句子中位于其后的体词之间构成的述宾关系。例如:

现在/t 大陆/nps 确立/vgn 了/utl [建立]/vgn 社会主义/ng 市场/ng 经济/ ng 体制/ng 的/usde 改革/vgp 目标/ng 。/。

当前动词为“建立”,我们的目标是找出它的宾语“体制”。因为我们的主要目标是 从文本中抽取词语的搭配知识,而不是进行句法分析,所以,当动词的宾语是一个复杂 的名词性短语时,我们只找出其中心词,而不是整个短语。

就处理范围而言,我们并不是面向全部动宾搭配。从动词来看,我们只考虑了体宾动 词。这样的选择是因为:体宾动词在动词中占绝大多数。从词语搭配的角度看,动词和 名词之间的搭配是最重要的。从宾语来看,我们所说的宾语仅限于真宾语。

(二)研究价值

1.为建立词语搭配知识库提供有效工具

词语搭配是十分重要的语言知识。由于这样的搭配在使用上习惯性很强,规律性相对 较弱,用规则难以概括。倘若建立词语搭配知识库,收录从真实文本中提取的词语搭配 ,就可以为自然语言处理和语言教学提供重要的知识来源。

2.为关于动词的句法研究提供工具

动词和动词性结构是语言研究中的核心问题之一。而研究动词,可以就动词本身研究 动词,但更重要的是研究句子里边的动词和有关成分,主要是名词成分的关系。建立动 名搭配知识库,可以为研究动词和名词的组合关系提供定量分析的数据。

3.为句法分析提供有用的信息

搭配提取是句法分析的关键环节,动宾搭配是句内的核心成分,是整个句子的轮廓。 假如能准确识别出动宾结构,我们就有可能为实现完全的句法分析奠定一定的研究基础 。

(三)相关研究综述

对于什么是搭配,过去语言学家Choueka(1983),Church and Hanks(1989),Benson等 由于理论背景和应用目的的不同,存在着不同的理解。

汉语的搭配提取,经历了从笼统的研究所有的搭配到分门别类地研究各种类型的搭配 的过程。

孙茂松等《汉语搭配定量分析初探》提出了包括强度、离散度及尖峰三项统计指标在 内的搭配定量评估体系,并据之构造了相应的搭配判断算法。实验结果显示,就“能力 ”一词而言,算法自动发现搭配的准确率约为33.94%。

孙宏林《从标准语料库中归纳语法规则:“V + N”序列实验分析》采用了规则和统计 相结合的方法——从大规模标注语料库中归纳语法规则,来识别动宾搭配。

陈小荷《动宾组合的自动获取与标注》采用统计方法在语料中自动获取动宾组合实例 ,并将未经校对的搭配数据用于动宾结构的自动标注,以检测自动获取的数据价值。正 确率和召回率分别达到74.7%和76%。

二 统计模型

我们全面剖析了搭配的语音、语法和语义特征,并分析了一定数量的统计数据,在此 基础上构造了动宾搭配自动获取的统计计算模型,力图采用多项统计量,全面考虑搭配 的各项性质。我们选用的统计量有:VN结构概率、语义搭配概率、音节搭配概率和跨度 搭配概率。分别考查了搭配的重复出现性、语义约束、音节限制和结构性。

(一)VN结构概率

搭配的一个重要性质是构成搭配的词语在文本中经常共同出现(Benson 1985),但并不 是经常共现的词语就一定构成搭配关系。我们采用条件概率(Conditional Probability )来描述一个动词和一个名词共现时它们构成动宾关系的概率:P(Y|V,N)表示当(V,N )在一定范围内共现时(V,N)构成动宾关系的概率。我们可以根据极大似然估计(MLE)从 一个标注了动宾关系的语料库中估计这一概率值:

其中,C(V,N,VO)表示(V,N)在语料中构成动宾关系的频次,C(V,N)表示(V,N)在 一定范围(本文中指一个小句,即由标点逗号、分号、冒号、句号、问号、感叹号将文 本分割成的句法单位)内共现的频次。

公式(1)虽然能很好地描述一个动词和一个名词构成搭配的概率,但由于它依赖两个词 形的共现,所以在概率估计上会遇到严重的数据稀疏问题。我们解决这一问题的方法是 从基于具体词形的概率模型回退(back-off)到基于语义类的概率模型。

C(V,C = c,VO)指某一特定语义类c与动词V在训练语料中构成动宾关系的频次,C(V, C,VO)指在训练语料中与动词V构成动宾关系的所有语义类的总频次。

实现这一算法需要一定的语义知识,我们利用《知网》作为语义知识的资源。有关实 现的细节见第三部分。

(二)韵律搭配概率

动宾间音节长度的配对关系并不是任意的,比如,双音节动词和单音节的名词构成动 宾搭配的例子就很难见到。节律对句法有限制作用,但这种限制又不是绝对的,它往往 表现出一种倾向性,用概率可以比较恰当地描述这些现象。一个词的音节属性取值有三 种:单音节、双音节、多音节,分别用1,2,3表示。我们在训练语料中统计每一种取 值所占的比例,计算:

Count(RF = rf)指在训练语料中某动词的宾语长度取值为rf的频次,Count(RF)指该动 词宾语长度为任意值的频次。

(三)跨度搭配概率

跨度指动宾之间的距离,这里我们以词为单位。

动宾搭配总体而言跨度较大,我们对已经标注了动宾结构并经过人工校对的50万词语 料进行了简单统计,共有动宾结构23729个,平均跨度为5.31。跨度最大的搭配,动宾 间的距离是83。

搭配通常是具有一定结构的,搭配词并不是完全等概率地分布在各个位置,而总是倾 向于出现在某一个或某几个位置上。对某些搭配,所辖的两个词之间允许有间隔,甚至 调序,但仍保持一定的结构关系(Smadja,1993)。

我们经验性地认为,对一个具体的动词而言,它的宾语更倾向于在某一个较小的范围 内浮动。以动词“赴/vgn”为例,根据我们的统计,该动词宾语的分布是:

表4 跨度搭配概率表

动词动宾跨度频率

概率

赴1 21 0.875000

赴3 1 0.041667

赴5 1 0.041667

赴7 1 0.041667

由上表可知,动词“赴/vgn”的宾语87.5%分布在相邻的位置,只有极小的可能出现在

更靠后的位置上。由此可见,动词宾语的分布具有一定倾向性。

任意位置上的概率定义为:

需要指出的是,如果计算宾语在某个具体位置出现的概率,会导致严重的数据稀疏; 况且动宾搭配具有相当的灵活性,动宾之间的距离并不是绝对稳定的。出于这种考虑, 我们采用了“分组”的思想:根据距离分布的统计结果,计算当前动词的宾语在某个区 间内出现的概率,该概率的值为区间内各位置概率的均值,即:

其中,j,n表示当前区间的起点和终点,N表示区间内有效位置数量。分组的标准是区 间概率的差异,也就是说,如果一个区间跟另一个区间的差异比较大,就可以划分。我 们采用了递归算法来求最佳分区结果,这个过程可以简单地描述为:根据当前动词的宾 语分布统计数据,对任意两个相邻的可能位置i和i + 1,判断a = p(Y|V,d = i)-P(Y |V,d>i)和b = P(Y|V,d = i + 1) - P(Y|V,d>i + 1)的大小。倘若a>b,便认定i 位置是一个分区点。

(四)总结

以上各统计量对搭配识别均有一定的指示作用,但作用并不相同,我们在计算总得分 的时候,根据各个属性的重要程度赋予了各参数不同的权重,并根据实验结果对权重进 行了调整。各权重λ[,1],λ[,2],λ[,3]的初始值分别为:0.5,0.3,0.2。总得分 的计算方法为:

Score = (P(Y|V,N)*λ[,1])*(P(RF = rf)*λ[,2])*(P(Sp[n][,i = j])*λ[,3]) 公 式(6)

三 实验报告与分析

(一)语料选取

1.语料来源及加工层次

本研究所采取的语料(包括训练语料和测试语料)来源于北京语言大学的“现代汉语研 究语料库”。从规模上看,训练语料为50万词。该语料是经过了分词和词性标注的熟语 料。分词规范和词性标记集均以此为准,词性标记集(Tag Set)共有87个标记(不包括标 点符号)。该标记集的一个重要特点是根据词的动态功能提供了较多的句法信息。

2.训练语料的标注方式

以语料的分词和词性标注为基础,在句中动词的宾语后标以“}”。

若动词后有并列宾语,把最后的宾语括起来,并在每一个宾语后标注&表示。

(二)语义资源选取

获取基于语义类的搭配概率时,需要有语义资源的支持。我们采用了面向自然语言处 理的语义知识库——知网。在实词的描述中,DEF中的第一个描述式总是一个基本义原 ,这个基本义原描述了该实词的最基本的语义特征。

1.知识库的生成和优化

我们采用的知网体系共有109606条记录,根据本研究的目的,我们只采用处于DEF的第 一位置的主要特征作为该词语的语义类,对已经人工标注了动宾搭配的语料进行宾语语 义类的自动标注,所以对于一些细微的差别,我们并不关注,因此我们对于知网中词语 、词性和处于DEF的第一位置的主要特征都相同的记录进行了合并,得到52979条记录。

2.基于语义类的条件概率获取方法

要获取这部分信息,首先需要在训练语料中对已经人工标注了动宾搭配的语料进行宾 语的语义类标注。对此,我们采用处于知网对词的定义DEF的第一位置的主要特征作为 该词语的语义类,格式如下:

各/ra 级/qns 政府/ng 都/dr 必须/dr 学会/vgv [运用]/vgn 法律/ng 手段 /ng 方法} 管理/vg 经济/ng 。/。

对于多义词,我们采取了一个简单的排歧方法,首先统计没有歧义的部分,得到用以 消歧的资源,然后选择多个语义类中与当前动词共现最多的。

(三)统计信息的自动获取

这一步的任务是要统计对自动获取动宾搭配识别有用的信息。具体实现过程如下:

在训练集中统计词频,利用公式(1)计算VN结构概率,输出到文件1;

统计动词与宾语语义类的共现频率,利用公式(2)计算概率,输出到文件2;

统计宾语的音节长度,利用公式(3)计算概率,输出到文件3;

统计动宾间的跨度信息,利用公式(4)和公式(5)计算区间概率,输出到文件4。

(四)具体识别步骤及识别结果报告

获得相关信息以后,即可运用它来对候选搭配进行识别了。具体的识别步骤如下:

①扫描句子中标为vgn的动词,和观察窗口内可能的宾语候选,将候选动宾组合存入一 个数组;

②如果数组为空,转⑤;

③计算每一对组合的总得分;

④在分数最高的宾语后标以};

⑤结束。

例如:

现在/t 大陆/nps 确立/vgn 了/utl [建立]/vgn 社会主义/ng 市场/ng 经济/ ng 体制/ng 的/usde 改革/vgp 目标/ng 。/。

我们可以扫描到候选动宾组合:

建立……社会主义

建立……市场

建立……经济

建立……体制

建立……目标

其中,统计到的信息为:

表7 搭配候选统计信息示例表

动词 候选宾语(V,N)结构概率/(V,C)结构概率 音节搭配概率 跨度搭配概率

建立 社会主义 c 0.006667 0.1306666

建立市场0.075269

0.870000 0.1306666

建立经济0.020000

0.870000 0.1306666

建立体制0.853333

0.870000 0.1306666

建立目标c 0.870000 0.061111

(c为用以平滑数据的一个极小的常数)

在所有候选组合中,“体制”得分最高,在“体制”后面加标记“}”,输出句子。

1.封闭测试

应用统计到的数据,对用以统计的语料中的2000句进行自动识别,下表是实验结果:

识别数正确数正确率

2000 1854 94.7%

2.开放测试

应用统计到的数据,对另外2000个句子进行自动识别,实验结果为:

识别数正确数正确率

2000 1624 81.2%

正确率的计算公式为:准确率 = 正确的识别数/识别的总数。

由于本研究所用的语料对动词进行了细分类,这种分类指示了当前动词的语法功能。 我们只把标记vgn作为获取动宾组合的驱动点,因此文本中所有的动宾搭配都会被识别 ,可以说,并不存在召回率的计算问题。

(五)典型识别错误分析

4000句的测试语料中,我们识别错误的句子有522句。错误的主要原因是候选宾语的竞 争造成的,概率值高的候选词排挤了概率值较低的实际宾语候选。错标的宾语候选往往 可以和当前动词构成搭配,但在当前环境中又不是搭配。

四 结束语

(一)本文研究总结

本文提出了一个从经过手工标注的语料库中获取训练数据、并将得到的数据用于真实 文本的动宾搭配识别的算法。实验结果表明,虽然处理结果不甚理想,但从训练语料中 获取的数据可以比较有效地用于自动识别。通过对实验结果的观察,可以初步得出以下 结论:

第一,本文所采用的四个统计量:条件概率、语义搭配条件概率、音节搭配概率和跨 度搭配概率,是自动识别动宾搭配比较合适的统计量,但也只是一种相对的标准。每一 次识别都是它们综合作用的结果,但每一项指标都有可能导致误判。

第二,对以上各个统计量权重的调整,同样存在“跷跷板”现象。多个统计量此消彼 长,在调整的过程中,每改正一部分标注错误,又会造成另一部分错误。

(二)后续工作展望

我们在研究过程中曾产生过一些想法,如:把浅层分析技术引入搭配识别,使用原始 语料或经过简单标注的语料,探索减少人力投入的算法等等,但时间所限没有加以验证 。

收稿日期:2004-07-01

标签:;  ;  ;  

汉语动词-宾语搭配的自动识别研究_动宾结构论文
下载Doc文档

猜你喜欢