“HVP的计算与分析”_动词短语论文

“把…HVP”的计算分析,本文主要内容关键词为:HVP论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

0 引言

“把”字结构一直是现代汉语语法研究的一个热点,但从汉语信息处理的角度对“把”字结构进行专门研究的文献尚不多见。我们尝试用计算机分析“把”字结构,初始目标十分单纯,就是要标出每个介词“把”后边的核心动语短语(Head Verb Phrase,HVP),例如:

……而且把顾客的满意程度也[作为]一种重要标准。

“那些把安眠药[卖给]中小学生吃的事呢?”

其中黑体字部分是“把”字结构,方括号内是HVP。

这不是对“把”字结构的全面分析,但的确是最重要的一步。标出HVP之后,可以向左搜索各种状语,逼近“把”的宾语的左边界, 向右搜索宾语和其他成分,得到整个“把”字结构的右边界。

通常认为,“把”字句有四个特点:(一)谓语一般不能是光杆动词;(二)“把”的宾语一般是有定的;(三)谓语动词一般有“处置性”;(四)助动词、否定词一般不能放在“把”的宾语跟谓语动词之间。(注:参见黄伯荣(1997)。 )除第二个外, 其他三个特点都跟HVP有直接关系。如果能用计算机自动标注出HVP,我们就能对其特点进行定量分析,看所谓“一般”到底是多大的概率,并进一步研究“一般”之外有哪些隐蔽的规律。

词语“配价”是汉语语法的一个新热点,就动词而言,不再局限于研究单个动词的配价。例如,王红旗(1995)、郭锐(1995)研究动结式述补结构的配价,王红旗(1998)研究动趋式述补结构的配价,范晓(1998)研究动介式组合体的配价。这些研究表明,动词跟动词短语在配价上明显不同, 动词短语的配价有一个“整合”过程。 郑定欧(1999)指出,“目前,越来越多的人认为事实上把字句的构造确实很难从动词类别去把握。这是因为以往的研究过分纠缠于语义的分类而忽略了必用的连带成分的组配特点。”从自动分析角度看,句法分析是配价分析的基础,计算机自动标注出来的HVP 恰好就是配价研究者感兴趣的动结式、动趋式、动介式等结构的丰富多样的实例。

对于稍懂语法的人来说,HVP标注不成问题, 但对于计算机来说并非易事,因为它缺乏人类所具有的关于语言和客观世界的各种知识以及推理能力。严格地说,HVP的正确标注取决于对整个句子的完全的句法分析。(注:完全的句法分析是指对句子逐层分析,直到每个词。)但目前用计算机对汉语句子(尤其是真实文本中的句子)做完全的句法分析尚无可行性。退而求其次,可以进行骨架分析(skeleton parsing),得出句子的主要成分,或浅层分析(shallow parsing),例如提取句子中的名词短语。陈小荷(1997)用统计方法标注过真实文本中句子的核心谓词,其开放测试的正确率为90%左右,但所使用的是已标注词性且经人工校对的输入语料,语料代价高,标注算法对特定词性标记集有很强的依赖性。穗志方、俞士汶(1998)用骨架依存分析法识别汉语单句核心谓词,其正确率为87.3%,但输入语料不是真实文本,而且依赖于人工对齐的英语例句。

本文所报告的“把…HVP”的分析有两个特点:第一, 输入语料是只做了自动分词但未做词性标注的真实文本,这种语料代价低廉,容易得到。第二,主要利用语言学知识,特别是有关“把”字结构的知识来进行分析,分析结果便于从语言学角度给予解释,统计方法在这里只起了辅助作用。

1 所有资源

我们使用的是1996年《人民日报》语料,约2500万字,得到1.9 万个含“把”字结构的句子。句子的平均长度是个36个词,句子越长,自动分析就越困难。语料中“把”字结构2万余个,平均每句1.06个。 众所周知,《人民日报》语料的题材、体裁丰富多样。从比例上看,主要反映当代书面汉语的面貌。

1.1 词性问题

句法分析之前要不要先做词性标注?我们权衡了一下利弊。对于“把…HVP”的分析来说,关键是HVP中的动词。如果语料已经标注词性,解决了许多兼类问题,句法分析会方便得多。但同时也对词性标注的质量提出了更高的要求,因为词性标注的错误会在句法分析中扩散,缺乏鲁棒性的分析器将难以从错误中恢复。(注:例如,“把自己圈在办公室里”,“圈”标成量词,“把…继续推向前进”,“推向”切为一个词,不见于词表,误猜为副词。 在这两种情况下, 都无法正确分析出HVP。)一般地说,自动词性标注的正确率可达95%左右, 当然这跟标记集的大小也有关系。汉语的动词是语法功能最多的词类,如果不管它出现在什么语法位置,统统标为V,标注错误的可能性就比较小。 但是,如果要用不同的标记区分它是及物动词、不及物动词、带体词性宾语的动词、带谓词性宾语的动词等等,甚至像北京语言文化大学现代汉语研究语料库那样标出它在当前句子中是否带了宾语、是否做了主语、是否做了偏正结构的中心语等等(孙宏林等,1997),标注错误的可能性就会大大增加。(注:虽然可以通过人工校对来减少词性标注错误,但几乎不可能完全消除错误。过多的人工干预代价高昂,无法满足处理大规模真实文本的需要。)另一方面,用小标记集虽然出错的可能性相对小一些,但对于“把…HVP”的分析来说,所提供的信息也较少, 因为显然不是任何动词都能出现在HVP之中的。

1.2 更丰富的语法信息

未经词性标注的语料如何做句法分析?这取决于所做的是什么样的句法分析。如果是完全的句法分析,就需要在句法分析过程中确定每个词的词性。骨架分析的任务比较单纯,无须准确地判断每一个词的词性,但对于某些关键词语,又需要有非常丰富的语法信息。 就“把…HVP”的分析而言,我们需要知道:

第一,哪些动词能够出现在HVP之中?了解这一点, 可以先排除那些不可能出现在HVP中的动词。处理大规模真实文本时, 动词词表太小是不行的,至少应考察1万个动词。

第二,HVP有各种类型(详后),每个动词能出现在哪几种HVP之中?例如,动词“办”可带动词补语(“办成”)、结果补语(“办好”)、状态补语(“办得…”)、趋向补语(“办出”)、介词结构补语(“办到…”)(注:后两种情形例如:“把这个版办出新水平”,“把自来水公司办到乡镇”。)做HVP, “办”的这些功能应该在词表中逐一标明。了解这一点,可以进一步缩小范围。

第三,每个这样的动词短语,它在“把”字结构中充当HVP 的可能性有多大?例如,根据语感,“办成”、“办得…”充当HVP 的可能性较大,而“办好”充当HVP的可能性就小一些。 最好有来自大规模语料的统计数据对此做定量描写,便于处理多个VP竞争的问题。

为了得到第一项信息,我们以北京大学语法信息词典(电子版)(注:参见俞士汶等(1998)。)的动词词表为基础,有1.1万个动词, 从大规模语料中增补约4000个,总共有1.5万个动词, 然后由人工判断每个动词是否可用于“把”字结构。如果可以,还要指出它能以哪些方式进入“把”字结构,以获得第二项信息。我们得到的结果是,4200多个动词可以这种或那种方式充当HVP,不到动词总量的三分之一。 分开来说,各种用法的动词个数如表一所示:

仅凭语感填写词表信息是很困难的。一方面,对于某个动词的某种用法,我们所想到的例子可能比较勉强,从宽从严各有得失。另一方面,说有易,说无难,例如,“请”似乎不能带“成”类词做HVP, 但语料中偏偏就有“把…请为座上宾”的例子;“设计”似乎不能带介词结构做补语,但语料中“把体育馆赛场设计在二层”这样的用法似乎也很自然。我们的做法是,词表填写从严处理,但为了尽量少遗漏有可能用于HVP的动词,把大多数及物动词也补充到动词词表中。 后补的动词有2300多个,跟经严格检查的4200多个动词分别看待。

为了得到第三项信息,就必须从语料中获取HVP的正例和反例。 所谓正例就是动词短语充当HVP的例子, 所谓反例则是动词短语虽然用于介词“把”之后,但不是作为HVP的例子。例如,“把深入调查研究、 摸清群众的所思所想作为办好实事的基本点”这一实例,是“作为”充当HVP的一个正例,是“办好”充当HVP的一个反例。我们用下式表示一个动词短语充当HVP的概率(注:这个概率可解释为:VP 出现在介词“把”之后这一事件已经发生的情况下,该VP充当HVP的概率, 是一个条件概率。):

1.3 HVP的类型

自动分析的第一步是找出介词“把”之后的所有动词短语VP,然后在这些VP中挑选一个可能性最大的标注为HVP。通过观察语料, 我们把能够充当HVP的动词短语归纳成以下几种类型:

“看得”类:由动词加“得”构成,后面有状态补语,表示动态的情状,如“看得”、“擦洗得”、“开展得”。众所周知,“V得X”是一个歧义结构,“看得清楚”既可以理解为动词加状态补语,也可以理解为动词加可能补语。但是,由于“把”字结构所处的句子里几乎从不出现可能补语,因此可以相当有把握地将介词“把”之后的“V 得”都看成这一类型。据我们统计,“看得”类充当HVP的概率最高。

“列为”类:由两个动词构成,表示一事物转变为另一事物或新形态,或者把一事物看作另一事物,如“列为”、“理解为”、“办成”、“建设成为”、“化作”。后一动词也是个封闭类,包括“成”、“成为”、“为”、“做”、“作”、“如”、“若”等(称作“成”类词)。“列为”类充当HVP的概率也很高。

“放在”类:由动词加介词构成,表示具体或抽象的转移意义,如“放在”、“引向”、“集中于”、“赠送给”。其中介词是个封闭类,包括“在”、“向”、“往”、“到”、“给”、“于”等(称作“在”类词)。过去一般认为是介词结构做补语修饰前面的动词,现在许多研究者认为这种介词跟前面的动词结合更紧密一些,范晓(1998)称之为“动介式组合体”。“放在”类充当HVP的概率相当高。

“摆上”类:由动词加趋向动词构成,表示方向或处所的转移,如“摆上”、“放进”、“带来”、“对立起来”、“分裂出去”。趋向动词是一个封闭类,我们把“入”(跟“进”类似)、“还”(跟“回”类似)也算作趋向动词。在“把”字结构中,复合趋向动词比简单趋向动词用得多些,而且充当HVP的概率较高。不过,从整体上来说, “摆上”类充当HVP的概率不高。

“办好”类:由动词加结果补语构成,表示性质或状态的变化,如“办好”、“毁掉”、“讲清楚”、“摆放整齐”。结果补语多数是单音节的动词和形容词,如“走”、“跑”、“掉”、“高”、“大”、“好”,也有一些双音节形容词和动词,如“清楚”、“干净”、“感冒”、“殆尽”(称作“好”类词)。为识别结果补语,我们使用王砚农等(1987)的词表(注:除掉“在”、“成”等,这些不属于我们界定的结果补语。)。“办好”类充当HVP的概率较低。

“相比”类:由状语加动词构成,如“相比”、“相比较”、“一扔”、“西迁”、“彻底取缔”、“简单地勾画”。我们只搜索了简单的状语,如副词、动词前的方位词和状语标志“地”等,其中“相”、“一”、“地”是较为明显的标志,其他状语就差一些。有些介词结构如“与…(挂钩)”是判断HVP的重要标志,但是“与、和、跟、 同”等词首先有个兼类问题(介词或连词),一旦词性判断不准确就会影响HVP的分析,所以我们没有利用这种标志。从整体上说, “相比”类充当HVP的概率很低。

“删除”类:这一类是光杆动词(注:严格地说,不带任何零碎的才算是光杆动词。我们在较宽泛的意义上使用这个术语,包括带助词的动词。)。虽然从整体上来说,这类词充当HVP的概率最低, 但分小类来看,有些小类充当HVP的概率还相当高,如“X化”(“简单化”、“具体化”、“片面化”、“犹太化”、“市场化”、“哲理化”),某些动词性成语(“大卸八块”、“置之度外”、“融为一体”)、带双宾语的动词(“转告”、“卖”)。剩下的多是一些双音节动词,如“删除”、“过滤”、“忽略”、“公布”等,这些动词能否用作HVP, 很难描述其规律。不过,从语料中观察, 加上助词“了”之后, 充当HVP的概率会明显增加。

需要强调的是,上述动词短语既包括动词性词组,也包括单个动词。词跟词组的区分是汉语语法的一个难题,不在这里讨论。我们把“作为”、“置于”、“引进”、“对准”之类的语素组合(不管算不算词)分别归入“列为”类、“放在”类、“摆上”类和“办好”类。这是为了便于描写VP的组合规律。例如,“作为”虽然是词,但属于“列为”类,不能再带“在”类词构成“放在”类,遇到“把园区作为在华投资的首选基地”时,就不至于将“作为在”误标为HVP。

2 初始标注

为了获得各类动词短语充当HVP的概率, 我们先用一个简单的程序标注了2830个“把”字结构,然后进行校对。这样可以取得一些标注经验。

2.1 标注原则

确定标注原则是为了标注的一致性,同时也有利于简化标注算法。

第一,每个“把”字结构必须且只能标注一个HVP。这样, 我们就只须用“正确率”这一指标来评价实验结果。

有些“把”字结构的HVP是连谓结构,为简便起见, 我们只标出连谓结构的前一部分,例如:

武警 部队 把 支援 和 参加 经济 建设[作为]拥政爱民 的 一 项 重要 内容 抓紧 抓好。从语义上看,“抓紧抓好”跟“把”的宾语关系更为密切,但“作为”一词是HVP的更为明显的标志。 既然还不可能把整个连谓结构都标注出来,那么先标注标志明显的成分就是一种很自然的选择。另外,我们用程序来计算标注正确率,标注的一致性是很重要的。

极个别“把”字结构实际上没有HVP,这是语法错误。 在真实文本中,这种情况是很难避免的。例如,下一句中我们只能勉强把“使”作为HVP:

近 万 名 科技 工作者 长期 活跃 在50 多 个 县 的 乡村,农闲 抓 培训,农忙 作 指导,终于 把 较 先进 的 植 棉 实用 技术 如 宽膜 种植、生物 防治 虫害 为主 等,通过“科技 之 冬”的 形式 和 言传身教 等 手段,[使]棉农 逐步 得以 掌握 并 乐于 运用。

第二,一个句子中可以有多个“把”字结构,它们可以连续出现,但不能嵌套。这就是说,我们可以将含多个“把”字结构的句子切开来分别标注。换言之,前一个“把”字结构的HVP 不会出现在后一个介词“把”之后。在真实文本中,这一假设会有例外,如:

要 把 是否 牢固 树立 马克思主义 的 群众观点,能否 把 人民 拥护 不 拥护、高兴 不 高兴、赞成 不 赞成、 答应 不 答应,[作为]想 问题、办 事情 和 做 工作 的 出发点 和 归宿,[作为]评估 领导 干部 称职 与否 的 基本 条件。

这种嵌套用法即使不是语法错误,至少也不能算是一种流畅的表达。

以上两条原则对绝大多数“把”字结构来讲是成立的,据此可以大大简化分析算法。

2.2 标注算法

初始标注的算法如下:

(一)根据介词“把”,将句子切成若干个片段;每个片段均以介词“把”领头,作为HVP的标注单位。

(二)扫描片段中的每一个词,计算它以某种方式作为HVP 的概率并得到它的同现词。同现词分5种情况:没有同现词(如,删除), 同现词在左边(如,彻底取缔),右边一个同现词(如,看得),右边两个同现词(如,带回到),右边三个同现词(如,“挖”了回来)(注:我们把标点符号也作为一个词。)。在尚未取得统计数据时,我们根据语感给各种类型的动词短语一个概率估值:

(1)如果该词后边一个词是“化”,概率为0.5;

(2)如果该词不见于我们的动词词表,概率为0;

(3)如果该动词后边一个词是“得”,概率为0.9;

(4)如果该动词后边一个词是“成”类词,概率为0.85;

(5)如果该动词后边一个词是“在”类词,概率为0.8;

(6)如果该动词后边一个词是“好”类词,概率为0.5;

(7 )如果该动词后边有趋向动词(动词跟趋向动词之间最多有两个词,且必须是引号或助词“了”),概率为0.7;

(8 )如果该动词前边是副词“一”(此时动词后边必须是逗号)、“相”,概率为0.95;

(9)其他动词概率为0.2,但后加“了”的为0.4。

以上(3—9)各种情况,如果动词不属于经过检查的部分(4200多个),或虽经检查但没有相应的用法,概率估值酌减。

(三)将概率最高的动词短语标注为该片段的HVP。

2.3 统计数据

在初始标注的基础上校对,得到2830个“把”字结构。其中不成句的“把”字结构152个,约占“把”字结构的5%,主要是作定语,跟成句的“把”字结构在HVP上没有显著的不同。 将校对前后的标注语料相对照,初始标注的正确率为81.7%。

从训练语料(注:计算语言学的一个术语,指用来获取统计数据,更严格地说,是用来获取统计模型参数的语料,训练语料是人工标注的语料,或者是机器标注而后经过人工校对的语料。)中得到各类HVP 的正例和反例个数如表二所示:

表中的概率跟标注前的估值相差不大。 可以看出, 各类短语充当HVP的概率高低,跟该类的构成成分, 特别是连带成分的关系比较明显。“看得”类概率最高,因为连带成分只有助词“得”;“列为”类和“放在”类的连带成分都是较小的封闭集,但是“成”类词的语义、用法比较一致(例如“视作”、“视做”、“视若”、“视如”和“视为”,“看作”和“看成”),而“在”类词的语义、用法差别较大,概率有高有低。所以“列为”类充当HVP的概率高于“放在”类。 趋向动词有20来个,能做结果补语的词则有300多个, 所以“摆上”类的概率高于“办好”类。

从校对后的语料中还可统计出各种小类充当HVP的概率。同一类中, 各个小类的概率可能有较大差异,如表三“摆上”类的各个小类:

左边的子表是复合趋向动词充当连带成分,右边是简单趋向动词充当连带成分。可以看出,左边子表的小类充当HVP 的概率大大高于右边子表的小类。

同一个小类里,各个动词短语的概率也有不同。“-入”小类共有19个动词短语,其中正例个数加反例个数大于4的有以下5个,见表四:

3 算法改进

经过对语料数据的分析,我们对初始标注算法做了以下几点改进:

(一)用统计得到的概率来代替原先的概率估值。

(1)能够从训练语料中查到的动词短语, 如果正例加反例个数不小于5,就直接用其相对频率,否则用它所在小类的相对频率; 如果小类的正例加反例个数也小于5,就用它所在大类的相对频率。 例子个数太少,其相对频率不可靠,训练语料规模不大时经常会遇到这种情况。这时用小类或大类的相对频率,可靠性大一些,这也是我们要对动词短语划分类别的目的。

(2)不见于训练语料的,如果动词词表中标明有某种用法的, 用相应大类的相对频率。之所以不用小类的相对频率,是因为我们在填写动词词表信息时只考虑了大类。

(3)不见于训练语料的,如果动词词表中未表明有某种用法的, 也用相应大类的相对频率,但要打折扣(乘以0.5)。 不能完全排除该动词短语充当HVP的可能性, 因为填写词表信息时无法预见真实文本中的各种复杂情形。

(二)尽量在第一、二个小句内寻找HVP。 所谓“小句”就是每个以介词“把”领头的片段中,用逗号、分号分开的各个部分。例如,下边的片段中有三个小句,HVP位于第一小句:

把 风险 管理[作为] 企业 经营 管理 的 核心 来 抓,认真 进行 承保 前 的 风险 评估 及 可能 发生 危险 的风险 控制,不断 优化 险种 结构。又如,下边的片段有两个小句,HVP位于第二小句:

把 数据 通过 车 上 的 无线电话,[送至]监控 中心。

从训练语料中统计到,HVP位于第一、二、三、 四小句的次数分别为2716、93、9、7、5个;也就是说,位于第一小句的占96%, 位于前两个小句的占99%以上。

我们的做法是,当前小句中概率最大的VP,其概率达到某一阈值,就不再搜索后边的小句。根据实验,阈值取为0.4最合适。

(三)若干个VP类型(大类)相同且连续出现,保留最左边的VP,且将这些VP的最高概率赋给它。这是根据我们的第一条标注原则来确定的。

4 实验结果及其分析

将改进后的算法用于封闭测试和开放测试,得到了相当高的正确率。封闭测试是指对提取过数据的2830个“把”字结构的测试,标注正确率为96.86%:

开放测试是指对其他“把”字结构的测试,测试前,将语料划分为若干个文件(注:这里的“文件”跟报纸上的“文章”是两回事。一个文件里的“把”字结构并非都出现在一篇文章中;来自同一篇文章中的“把”字结构通常放在一个文件中,但并非必然如此。我们划分文件完全是按句子个数来进行的。),每个文件大约200个“把”字结构。 这样做是为了检查标注正确率是否稳定。如果某些文件的标注正确率大大高于另一些文件,则说明这些文件之间的差异颇大。 我们随机选择了4个文件进行自动标注,测试数据如表六:

从表中可以看出,标注正确率比较稳定,但其中BA013.VP正确率较低,而BA081.VP正确率较高。我们专门检查了这两个文件中的HVP 跟训练语料的一致性(见表七):

HVP个数是指不同的核心动词短语的个数, 两个文件在这一点上相差不大。但在HVP的出现次数上,BA013.VP跟训练语料只有70 %相同,BA081.VP则高出4个百分点。检查标注错误的例子,发现BA013.VP 中有很多HVP属于识别难度较高的“删除”类,例如:

把彩电义卖 把全部资产投入作股 把房子装修一下

把这钱捐了 把它抽真空把经济发达起来

其中“义卖”、“作股”、“发达”不见于我们的动词词表,“装修一下”是以数量结构为连带成分, “抽真空”以宾语为连带成分, 这些HVP类型都未在我们的考虑之中。“捐了”属于“删除”类, 概率太低,误将后边小句中的VP标为HVP。其他文件也有类似的问题, 虽然不像这个文件这么突出。下一步我们准备对HVP的类型作更细致的考察, 特别是要研究HVP跟“把”的宾语、VP本身的宾语的相关性,将HVP的自动分析建立在更加可靠的基础之上。

“把”字句在汉语语法中的地位无论如何重要,也只是众多句式中的一种。我们为标注HVP而逐一检查了15000个动词以五种方式进入“把”字结构的可能性,似乎有大炮打麻雀之嫌。考虑到形态贫乏的汉语在自动句法分析上的特殊困难,把连带成分看做动词的一种广义形态,或者把动词跟连带成分看成一个基本单位,对于自动句法分析是有好处的。汉语句子中的核心动词往往都有连带成分,“把”字句(以及“被”字句)在这一点上更显突出而已。这样看来,我们其实是在解剖一只麻雀,希望所有方法和资源对其他句式的自动分析也有用处。CK

陈小荷 石定栩(1997)汉语句子的主题—主语标注,见陈立为、袁琦主编《语言工程》,北京:清华大学出版社。

范晓(1998)动介式组合体的配价问题,见袁毓林、郭锐主编《现代汉语配价语法研究》(第二辑),北京:北京大学出版社。

郭锐(1995)动结式的配价结构与成分的整合,见沈阳、郑定欧主编《现代汉语配价语法研究》,北京:北京大学出版社。

黄伯荣 廖序东(1997)《现代汉语》,北京:高等教育出版社。

穗志方 俞士汶(1998)面向EBMT的汉语单句谓语中心词识别研究,《中文信息学报》第12卷第4期。

孙宏林等(1997)“现代汉语研究语料库系统”概述,见《第五届国际汉语教学讨论会论文选》,北京:北京大学出版社。

王砚农 焦群 庞顒(1987)《汉语动词—结果补语搭配词典》,北京:北京语言学院出版社。

王红旗(1995)动结式述补结构配价研究,见沈阳、郑定欧主编《现代汉语配价语法研究》,北京:北京大学出版社。

——(1998)动趋式述补结构配价研究,见袁毓林、郭锐主编《现代汉语配价语法研究》(第二辑),北京:北京大学出版社。

俞士汶等(1998)《现代汉语语法信息词典详解》,北京:清华大学出版社。

郑定欧(1999)《词汇语法理论与汉语句法研究》,北京:北京语言文化大学出版社。

标签:;  ;  ;  ;  ;  

“HVP的计算与分析”_动词短语论文
下载Doc文档

猜你喜欢