汉语信息处理“n+n+n”结构句法功能歧义研究_语义分析论文

面向中文信息处理的“n+n+n”结构句法功能歧义问题研究,本文主要内容关键词为:句法论文,歧义论文,中文论文,结构论文,功能论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

§0 引言

歧义问题一直是计算语言学及语言学本体中的研究热点,国外计算语言学界对歧义结构的研究重点主要在于机器自动消解结构歧义的理论和方法。在搜索策略的安排上,国外的方法大概经历了从不可回溯到可回溯再到确定性的不可回溯的方法。在具体的消歧方法上运用统计或规则的方法,统计方法在当今计算语言学界应用得非常广泛,用于许多机器翻译系统中确实可以解决很多问题,但对于许多数据稀疏现象却无能为力,本文所涉猎的实例真歧义短语恰恰属于这类稀疏现象,而且中文信息处理有其自身的特殊性,不能直接照搬国外的理论和方法,因此我们还是以规则的方法为主,采用选择限制和语义层级体系(参见杨泉、冯志伟2005)相结合的办法,尽量找到一种可供计算机直接操作的消歧方法。当然,我们并不排斥统计的方法,如果能够找到可与本文研究的方法完美结合的统计方法,我们会考虑兼容并蓄。

§1 研究概况

语言学界研究歧义主要是为了找出人与人在交际过程中产生歧义的原因及歧义的全部类型;而计算语言学家的任务则是在语言学专家研究成果的基础上,考察机器在处理自然语言的过程中产生歧义的原因及自动消解歧义的办法,对于中文信息处理来说包括歧义字段切分、多义词义项选择、歧义格式分化等。本文以“n+n+n”这种同类词短语①为切入点,重点研究如何让计算机自动消解同类词短语中的句法功能歧义。

§2 研究基础

2.1 词条确定依据

由北京大学计算语言所开发的WinST系统(Chinese Segmentation and Tagging System for Win32)的词典收录词条较为全面,词条确立标准比较统一,适合语言工程研究者使用,我们把它作为确立词条的标准,这部词典包括六个部分:

UsrLexl②为用户词典1,收入用户定义的人名;

UsrLex2:用户词典2,收入用户定义的地名;

UsrLex3:用户词典3,收入用户定义的机构、团体名;

UsrLex4:用户词典4,收入用户定义的其它所有专有名词;

UsrLex5:用户词典5,收入用户定义的其它普通名词和缩略语(n、j);

UsrLex6:用户词典6,收入用户定义的其它类别的词(a、v、…)。

2.2 语料切分标注工具

Bbibst:全称Beijng Broadcasting Institute Basic Segmentation Tagging,它是中国传媒大学应用语言学系在北京大学开发软件Bst(Basic Segmentation Tagging)的基础上进一步研制开发的结果,可以对生语料进行切分和标注。运用Bbibst对生语料切分标注后,就可以运用CRS对熟语料进行检索从而得到我们需要的语料。

2.3 语料检索工具③

CRS全称Corpus Retrieve System,是中国传媒大学应用语言学系开发的语料检索工具。它可以对熟语料进行检索和提取,其最大的优势在于可以一次性自动检索出三元或三元以上的字串、词串、词属性串及词与词属性的混合串,省去了浩繁的人工二次检索过程,给语料处理带来了很大方便。

2.4 语料来源

本文共收集语料100万字,其中教材类、小说类、传记类、杂志类语料来源于亦凡公益图书馆(网址为:http://www.shuku.net)。电视新闻类语料来自中国传媒大学应用语言学系侯敏教授主持开发的传媒语言语料库。

2.5 语义分类体系④

ONTOL-MT是冯志伟在日汉机器翻译的研究中设计的一个通用知识本体⑤。

2.6 形式化工具⑥

CTT全称Copenhagen Tree Tracer(即哥本哈根句法树跟踪显示程序,简称CTT),CTT是丹麦哥本哈根商学院计算语言学系开发并维护的,是一种自然语言处理程序的图形接口软件(网址是:http://www.id.cbs.dk/~mtk/ctt)。

PATR,PATR是CTT的内置形式化体系,它是一种基于合一的语法,可以把我们的词典及规则库中的信息按照这种语法的格式改写后让机器理解,再通过CTT画出图来。

在PATR形式化体系中,特征结构由特征值偶对的集合构成,其中每一个特征都对应一个值。如果“FS”是一个特征结构,就用“FS>>syn”表示特征“syn”的值,即语法的特征,用“FS>>syn..cat”表示“FS>>syn”的“cat”值,即“FS>>syn”的范畴值。符号“===”被用来表示两个特征结构、变量或Prolog项的联合。如果两个结构不兼容则联合失败。例如,“np=s”失败的原因在于“np”和“s”表示的结构是不兼容的;“Cat===s”和“s===Cat”成功的理由是“Cat”被实例化为“s”;而“Cat1===Cat2”中的“Cat1”和“Cat2”将被设置为同一个没有实例化的Prolog变量;“FS>>cat===np”的含义是把F3中的“eat”特征设成了“np”。

2.7 理论基础

本文在潜在歧义理论⑦研究的基础上发现,一个短语实例化后,在句法功能方面可能产生歧义,也可能不产生歧义,因此我们把实例化后的短语分为以下两种类型。

2.7.1 格式真歧义短语

一种类型的短语类型结构(Phrase Type Structure,简称PT—结构)可能对应两种或两种以上不同的句法功能结构(Syntactic Function,简称SF—结构),每一种PT—结构实例化后都会产生很多不同的短语,每一个短语可能会对应一种或几种不同的SF—结构。一个格式真歧义短语只对应一个SF—结构,但各个格式真歧义短语对应的SF—结构可能会不尽相同,这时PT—结构对计算机来说就是存在歧义的结构。每个PT—结构对于计算机来说都是一种格式,这种只在格式上对机器产生歧义的短语我们称之为格式真歧义短语。它的特点是对机器来说有歧义,对人而言歧义消失。举例来说,“”这个结构有两种组合方式:

这两个对人来说轻而易举就可以理解的语言片断对机器来说切分结构层次、判断语法关系就成了一个难题。“削苹果的皮”、“削苹果的刀”两个短语在没实例化以前其PT—结构都是“”。对机器来说对应动宾和定中两种SF—结构,存在歧义,而实例化后的两个短语对人来说其PT—结构分别只对应一个SF—结构,并不存在歧义,所以说格式真歧义短语是那些只对机器存在歧义的短语。下面是我们用CTT中的CFG语法对上面A、B两个句子画的语义树形图,其CFG语法如下:

v->{削}s->vp np

de->{的}vp->V

n->{苹果皮刀}np->n de n

s->np np

np->v n de

np->n

运用这样的规则画出的树形图如下:

对于同样的语法结构机器会画出两种树形图,说明机器对这两个句子的判断是有歧义的,其根本原因在于对“”这个结构的理解存在歧义。

2.7.2 实例真歧义短语

有的PT—结构实例化后其短语会对应两种或两种以上不同的SF—结构,在PT—结构实例化后,短语本身仍然存在歧义的短语叫做实例真歧义短语,它的特点是对人和机器都有歧义。仍是上面这个格式,如果实例化为“关心自己的孩子”,可以理解为某人关心的是自己的孩子(按A的组合方式),也可以理解为一个孩子关心自己(按B的组合方式)。像这样同一个实例化的PT—结构对应两个或两个以上SF—结构的短语就是实例真歧义短语。

“牛奶面包”可以理解为“牛奶口味的面包”(定中关系),也可以理解为“牛奶和面包”(并列关系),可是CFG语法只能给出一种关系,规则如下:

n->{牛奶 面包}s->np v

v->{分开}np->n n

m->{一}s->mq np

q->{个}mq->m q

树形图如下:

“牛奶面包”这类实例真歧义短语只在语法关系上存在歧义,在层次划分和短语类型上都不存在歧义,是CFG无法处理的,本文正是要找到一种方法,让计算机正确处理格式真歧义短语和“牛奶面包”这类实例真歧义短语中存在的歧义。

格式真歧义短语和实例真歧义短语是专门针对计算机处理语言提出来的,实际上是把潜在歧义结构词汇化后得出的结果。格式真歧义短语对语言学家来说是那些没有歧义的短语,而实例真歧义短语才是语言学家们认为有歧义的短语。

机器在理解一个具体的短语时,要先还原短语中每个词的词性,从其表层结构入手,先分析短语的PT—结构,再分层次组合判断每个短语对应的SF—结构,最后再判别它的意义。因此,对计算机来说格式真歧义短语和实例真歧义短语都是可能产生歧义的短语,我们认为有必要从中文信息处理的角度区分这两种短语。

§3 对于“n+n+n”结构的消歧策略研究

在我们收集到的“n+n+n”语料中,按层次可以分为三个大的类别,按形成的结构关系可以分为以下几种:

(1)((定中)定|中)型。例如:

丹拿佳士拿/nw汽车/n制造商/n罗恩/nw啤酒/n顾问/n

在这个结构中,先修饰,然后作为一个整体修饰,所以是焦点词。

(2)(定|中(定中))型。例如:

世界/n饥饿/n人口/n

这种结构中修饰,再作为一个整体受n修饰,因此是焦点词⑧。

(3)((并列)定|中)型。例如:

教士/n议会/n领导层/n 法西斯/n纳粹/n拥护者/n

并列起来作为的定语,是这个结构的中心语,也是焦点词。

(4)(定|中(并列))型。例如:

元代/t佛像/n浮雕/n 汉代/t画像/n石刻/n

在这个结构中并列受到的修饰,焦点词是,为了与其他结构保持一致,我们统一规定为

(5)((定中)|复指)型。例如:

学校/n教师/n哈格力/nw 学院/n院长/n约翰·威尔金斯曾/nw

在这个结构中,作为修饰语先修饰,然后作为一个整体与同指。因此可以作为焦点词。

(6)(并列|并列)型。例如:

儿子/n父亲/n丈夫/n

三个名词并列都可以做为焦点,为了与其他结构保持一致,我们也规定将作为焦点词。

(7)(主|谓(主谓))型。例如:

姨妈/n满眼/n泪花/n雁容/nw满跟/n泪水/n

在这个结构中,+形成一个主谓结构做的谓语,作为整个结构的谓语中心语,是整个“n+n+n”结构的焦点词。

纵观以上七种结构,都可以把作为焦点词,因此我们对于语料的语义分类以为根据,语义分类完成后,再把语料按不同的结构关系分类。判断各种结构关系主要的依据实际上还是“n+n”的关系,根据“n+n+n”结构内部各个名词间的不同关系,可以对它们进行结构关系的判断,下面以((定中)定中)型结构关系短语中的[+人]类短语为例,说明对格式真短语消歧规则的编写,在这类短语中一般的定语,的定语。

[+人]

沃德姆/nw学院/n院长/n卡文迪斯/nw公司/n秘书/n

阿罗约/nw总统/n政府/n哈格力/nw小屋/n前门/n

诺贝尔/nw兄弟/n公司/n底特律/rw医院/n急诊室/n

由此我们可以给出以下规则:

lex(‘沃德姆’,N):-⑨

N>>cat===‘n’,

N>>sem===‘nW’.

lex(‘学院’,N):-

N>>cat===‘n’,

N>>sem===‘jt’.

lex(‘院长’,N):-

N>>cat===‘n’,

N>>sem===‘r’.

下面以[+集体]类短语为例说明实例真歧义短语语料的消歧规则:

女子/n网球/n协会/n

按类型二切分(女子(网球协会)),意思是某个网球协会是由女人组成的,按类型一切分((女子网球)协会),意思是某个协会是专门搞女子网球的,因此消歧规则如下:

世界/n环境/n大学/n

按类型二切分(世界(环境大学)),意思是世界上的研究环境的大学,按类型一切分((世界环境)大学),意思是某个大学的名称叫做“世界环境”。其消歧规则如下:

§4 结语

本文对语料中出现的全部“n+n+n”的短语消歧规则基本已整理完毕,可以把所有的规则集成一个模块,嵌入到更大的模块——面向信息处理的现代汉语结构歧义消解规则——里面。当然,本文所做的不仅是一些具体的规则,更重要的是在于对结构歧义消解方法的探究。

本文的具体研究成果可以归纳为以下几个方面。

(1)在潜在歧义理论基础上,进一步提出格式真歧义短语和实例真歧义短语。在潜在歧义理论基础上展开研究工作,又反过来验证了这一理论的科学性、合理性,因此,格式真歧义短语和实例真歧义短语的提出实际上是因人与机器对自然语言理解方式的不同而得出的结果。

(2)建立了一个可供计算机使用的汉语知识本体雏形。本文的语义分类体系是在ONTOL-MT基础上建立起来的,ONTOL-MT是一个通用知识本体,下层的具体词语需要使用者自己补充进去。本文在为“n+n+n”短语进行消歧的过程中碰到的具体词条都已经放在了这个知识本体应有的位置。

(3)提出了一个面向中文信息处理的现代汉语短语结构歧义研究的词典和规则库的模式。语义特征是这部机器可读词典的主要内容,其它特征包括:词性特征、动词的次范畴化特征、单词的字符数特征、单词间的意义关系特征。规则库的主要内容有:短语类型特征、句法关系特征。由于我们在实现时采用的是CTT中的PATR语法,因此词典和规则库的形式化表示方法是遵循PATR的要求来设计的。

(4)提出了一种基于ontology语义驱动的句法功能消歧方法。本文以上面的机器可读词典和规则库为核心,把ONTOL-MT作为语义特征来源,意合手段(语义、语法、上下文语境)作为知识表示内容,复杂特征作为知识表达形式,PATR作为实现手段,最终提出了“基于ontology语义驱动的句法功能消歧方法”。

(5)本文根据语料的实际情况,提出了一套具体的消解同类词短语句法功能歧义的规则,最终用CTT中的PATR语言在计算机上实现,并画出了树形图。这些规则可以集成一个模块,嵌入到某一具体系统中,在计算机上运行。

以上总结了本文研究工作的具体成果,希望对于汉语本体、应用语言学及其它相关领域的研究都会产生积极作用。

本研究的意义有以下几个方面。

(1)本文提出的格式真歧义短语和实例真歧义短语实质上是将潜在歧义理论词汇化的结果,验证了大词库、小规则在语言工程实践当中的合理性。这两种短语本身的区分又一次提醒人们在语言信息处理的时代要以崭新的眼光去重新审视古老的语言事实。

(2)本文的研究对象,“n+n+n”短语是同类词短语的典型代表之一,是计算机处理语言时碰到的高频短语,显而易见,这类短语中歧义问题的解决可以提高机器翻译的正确率,更重要的是它对计算机消解其它类型的结构歧义具有方法论上的指导意义。本文初步建立的汉语知识本体、机器可读词典和规则库模式对于其它歧义结构研究甚至其它中文信息处理研究都有一定的启发性。

(3)本文的消歧研究实质上是一种面向中文信息处理的现代汉语句法结构分析方法,其研究成果可以用于计算机自动进行句法关系分析、句法成分及句型的标注和提取。本文规则实现的结果——树形图——可直接存入树库(treebank),为树库的建设贡献力量。

注释:

①同类词短语是指由同一种词性的词构成的短语,其主要构成成分是名词、动词或形容词,数量是二元或三元。形式化的表示方式为:XY(X={n,v or a},Y={2,3})。举例来说,由名词构成的同类词短语二项的有:爸爸妈妈、才子佳人、新郎新娘;三项的有:儿子父亲丈夫、高中文化程度、金属食品罐头。

②UsrLex0为基本词典,收入北京大学计算语言学所“现代汉语语法词典”的所有词条。从北京大学计算语言学所“现代汉语语法电子词典”中提取词语和词类信息,形成了约有5万个词条的切分和标注通用词典。

③第一、二、三项资源均由中国传媒大学应用语言学系侯敏教授提供。

④此项资源由冯志伟提供。

⑤参见杨泉、冯志伟,机用现代汉语“n+n”结构歧义研究,语言研究,2005年12月。

⑥此项资源由中国传媒大学应用语言学系刘海涛教授提供。

⑦参见冯志伟,中文科技术语的结构描述和潜在歧义,中文信息学报,1989年第2期。

⑧冯志伟(1989)指出,在由前后两个句法成分组成的句法功能结构中,句法功能的着重点可能有所不同,这种着重点就叫做功能焦点(functional focus),也叫焦点词。

⑨[ ]表示词语具有的语义特征;and表示合取关系;+表示具有某一特征;or表示析取关系;—表示不具有某一特征;≌表示只能形成的结构关系;if表示条件;=表示可能形成的几种结构关系;else表示除if以外的其它条件;|用来分隔可能形成的结构关系;then表示结论;“”表示终极符号;/表示可能出现的上下文,这样的短语的前面或后面五个词;end表示判断结束,可以继续下一个语言片断的识别。

⑩在附录(一)中有对这些伪码含义的解释。PATR是基于上下文无关语法的一种语法形式化表示认识方法,而利用语境消歧需要用到的语法规则是上下文相关的,因此采用了自己编写的规则。文中“牛奶面包”这个实例在实现时,恰好可以把上下文无关规则转写为上下文相关规则来实现,所以能画出下图。

标签:;  ;  ;  

汉语信息处理“n+n+n”结构句法功能歧义研究_语义分析论文
下载Doc文档

猜你喜欢