面向工程的语义分析系统_语义分析论文

面向工程的语义分析系统_语义分析论文

中文信息处理专题研究:语义研究——一个面向工程的语义分析体系,本文主要内容关键词为:语义论文,中文论文,专题研究论文,体系论文,工程论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

自然语言理解,归根结底是语义理解。句法分析只是一种手段,目的还是理解句子的意思,理解了句子,才有可能达到对篇章和语用的理解。因此,语义分析在自然语言理解中占据中心地位。

哲学、逻辑学、心理学和语言学等许多学科都关注语义问题。计算语言学工作者主要从语言工程的实践中感受到语义分析的迫切需要。面对计算机网络上浩如烟海的文字信息,如何全面、准确、快速地检索出我们所需要的文献,或得到一定比例的摘要,如何有效地隔离各种有害信息,这些工作虽然可以仅用统计方法和一些较低层面上的语言学知识取得一定的成果,但是要想使处理系统既有计算机的速度又具备人类的智能,就不能没有一定深度的语义分析。

在汉语的自动分词、自动标注词性过程中,为了不陷入“需求循环”的窘境,(注:例如,自动分词需要语义分析的支持,但是语义分析至少要在正确的自动分词基础上才能进行。解决办法之一是在自动分词阶段保留若干个最佳的切分结果,等到句法分析和语义分析等较高的处理阶段再根据高层面的语言学知识加以选择。)只能暂时避开语义分析,主要使用统计方法和一些较低层面上的语言学知识,得到了90%以上的正确率。仔细分析起来,这个结果并不十分令人满意。拿自动分词来说,如果以句子为单位来计算,即使较好地处理了人名、地名和交集型歧义切分问题,正确率一般也只能达到大约50%,剩下的问题只有在句法、语义分析阶段才有望彻底解决。(注:作者做过这方面的实验,主要问题是,组合型歧义切分问题(如“将来”“只有”在特定的上下文中该不该切开)、未登录的普通名词问题(包括新词和科技术语等)。)

在没有语义支持的情况下,自动句法分析更是寸步难行。如果只根据词性标记来判断,结构关系歧义和结构层次歧义纷繁复杂,各种可能的分析树的数量按几何级数增长。语言学家看到的只是“咬死了猎人的狗”之类的结构歧义,在计算机看来,连“提高文化水平”这样的短语也充满了歧义:动词“提高”是述语还是修饰语?(汉语有些动词可直接修饰名词)如果是述语,宾语是“文化”还是“文化水平”?假如“文化水平”是一个组合,它们之间是修饰关系、并列关系还是主谓关系?(汉语里名词在一定条件下可以做谓语)事实上,当用"VNN"词性序列来代替这个短语时,人所能做的句法分析也并不比机器高明。

由于语义分析在语言工程中的关键作用,因此,1990年5月开始实施的“八五”国家重点科研项目“中文信息处理应用平台工程”(简称“九○五工程”)的第一个目标是:开发一个通用的、大型的信息处理用的汉语词语信息库。它包括语法词典、语义体系和语义词典,以及运动类概念格关系框架和语义约束。(注:陈力为、袁琦主编《“八五”国家重点科研成果论文集中文信息处理应用平台工程》,电子工业出版社,1995。)

本文打算介绍这个项目中的语义分析体系的设计思想、基本结构、基本方法和应用范围,并对该体系的进一步完善提出一些设想。实施之前,该项目的一些参加人员已经在信息处理用的汉语语义分析方面做了许多工作。例如,董振东对运动类概念分类体系的研究,黄昌宁基于情境语义学理论而提出的关于语义辞典构造的设想,鲁川对汉语谓词格框架的研究,等等。他们的这些研究为该项目的语义分析体系的建造提供了一定的基础。项目实施过程中,陈力为、黄昌宁、董振东、张普、贾彦德、常宝儒、陈群秀等对语义分析体系的构造提出了许多宝贵的指导性意见。

该项目实施前,英语词网WordNet尚未研制完成和发布,因此“九○五工程”的语义分析体系的建造完全没有参照WordNet。但是从结果来看,这两个体系在基本结构、建造方法上有许多相同或相似之处,可以将它们做一些比较。

“九○五工程”语义分析体系有一个语义分类,把所有适合于进行语义描写的词语分为事物类(下分事类和物类,物类又分为具体物和抽象物)、运动类(大致相当于语法上的谓词)、时空类(下分时间类和空间类)和属性类(区分属性域和属性值)四个大类。这个分类是基于一种哲学信念:世界上的一切事物都在一定的时间和空间中运动着,事物的运动和运动着的事物都有其属性,运动的结果是改变事物的某些属性。这四个大类中,运动类的语义分析由河南财经学院承担,其余三个大类的语义分析由北京语言文化大学承担。

这个体系的设计思想:第一,它的基本目标是为汉语信息处理的各种工程提供语义知识的支持,其直接目的是为自动句法分析服务,因为自动句法分析是大规模真实文本处理的一项关键性技术,而且对语义知识的需求也最为迫切。立足于现有的理论基础,汉语信息处理采取先句法分析后语义分析或两者并行的步骤可行性较大,完全绕开句法分析这一关是不现实的。因此我们在设计语义分析体系时首先考虑的就是尽可能满足自动句法分析的需要。另一方面,也要充分考虑将来对大规模真实文本进行义项标注和对句子、篇章做语义结构分析甚至语用分析时需要哪些语义知识。

第二,从工程实用目的出发,选择了格语法和语义场理论作为语义分析的理论框架。我们用义素分析法来分析聚合型语义关系,分析对象主要是事物类和时空类词语;用格语法的思想来分析组合型语义关系,分析对象主要是运动类和属性类词语,也包括许多涉及组合型语义关系的事物类、时空类词语。(注:组合型语义关系是指词义之间的相互依存关系,在这种依存关系中,往往有一个词义居于中心地位,对其他词义有组配要求。通常说的动词配价、名词配价就反映了这种关系。但是这种关系既可以是动态地表现在句子之中,也可以是静态地存在于那个居于中心地位的词义之中。格语法本来只用来描写动词,我们还尝试把这一思想和方法运用于形容词、属性名词的语义分析之中。)

第三,建立一个独立于句法的、自足的语义分析体系。这一点似乎是不言自明的,但是由于语义学的理论基础比较薄弱,从事语义研究的学者又多数是从搞语法研究开始的,因此在语义分析体系的建造过程中,往往会不自觉地受到句法概念和句法分析方法的影响。例如,处理语义分类跟“词类”(Part of speech)的关系时,很容易把语义分类作为词类划分的延续;又如,描写谓词(主要是动词)的格框架时,要把各种必要格和可选格跟句法上的主宾语和修饰语实质性地区别开来,也是有一定难度的。语义分析和句法分析要互相支持,就必须各有自己的一套基本概念和分析方法,如果语义分析的基本概念和方法跟句法分析大致相同,就提供不了多少新的信息,也就谈不上对句法分析的支持了。

按照这个体系,我们总共分析了43230个词语,约50000个义项(其中运动类词语4215个,义项5000个)。从规模上来说,比《同义词词林)等几部义类辞典都小。但是我们分析的词语中没有包括语法上的虚词;另一方面,常用词的收录比较完备。WordNet现有95600个词形式,其中单词51500个、词组44100个,规模比我们的大得多,可是它主要是词组收得多,而且考虑到汉语词类多功能这一特点(例如,汉语的“发展”对应于英语的develop、development、developments、developmental等许多词形式),(注:朱德熙《语法答问》,商务印书馆,1985。)这两部电子词典在处理各自语言的语义信息时,收词的完备性上其实并无太大差距。

WordNet把词分为名词、动词、形容词、副词和功能词五类,语义分析时只处理前五类。他们认为,“把句法范畴加到WordNet中,会造成冗余信息,如back横跨几个词类,但好处是这些句法范畴在语义上的基本区别可以清晰地观察到并加以利用,名词是话题层级性的,动词是根据论元关系的变化来组织的,形容词、副词是按N维超空间来组织的。”[3]这些考虑是可以理解的,不过这样一来,词干相同、词义也基本相同的词形式,仅仅由于形态的不同而放在不同的语义类别中加以描写,还有许多意思相同的词形式,由于词性不同而不能构成一个同义集,不能不说是一个缺陷。我们的四大语义类别跟语法上的词类不是简单的一一对应,大致的对应关系如下:

事物类:名词,表示人或事物的代词;

运动类:名词;

时空类:时间词如“当前”“拂晓”,表示时间的名词,如“年代”“时候”,副词如“刚”;处所词如“前方”“上空”,表示处所的名词,如“制高点”“渡口”;方位词(表示时间或处所)如“前”“后边”;

属性类:表示属性域的名词,如“宽度”“水平”;表示属性值的形容词,如“宽”“红”,状态词如“红彤彤”“活生生”,名词如“高温”“红色”“亚音速”,区别词如“大型”“新式”,量词如“米”“公斤”,(量词是和数词一起表示量化的属性值)以及一些意义比较实在的副词如“全力”等。

菲尔摩的格语法最先提出描写组合型语义关系的思想和方法并系统地运用于动词的句法、语义描写中。[4]“九○五工程”的语义分析体系继承并发展了这一思想和方法,对汉语的4000多个谓词(主要是动词)进行了全面的格框架描写,不仅区分了各种必要格和可选格,而且标明了各个格所属的语义类别,例如“帮助”可带三个格,施事格和对象格的语义类别都是“人类”,目的格的语义类别是“事”。这对于句法分析和句子的语义结构分析十分重要。WordNet的设计者也曾考虑让动词有一个指向名词同义集的指针,但目前尚未实现。此外,“九○五工程”还描写了以下几种组合型语义关系:

(1)整体和部分的关系。例如“花[,1]”(植物)跟“花[,2]”(花朵),“花[,2]”跟“花冠”。

(2)属性值和属性域的关系。例如“快[,1]”“慢”的属性域是速度,“深刻”和“肤浅”的属性域是抽象深度。

(3)属性和事物类的关系。例如,“航速”的属性主体是“飞行器”或“船只”。

(4)事物类与运动类的关系。与格关系描写不同,这里是从事物类出发,描写它跟相关事件之间的语义关系,例如“读者”的相关事件是“获取”,在“获取”中充当的角色是“施事”,“获取”的对象是“文字作品”(所提供的信息)。又如“飞机”的相关事件是“运载”,在“运载”中充当“工具”,“运载”的对象是“具体物”,事件发生的典型环境是“大气层”,等等。

如前所述,“九○五工程”的语义分析体系的基本方法是用义素分析法来分析聚合型语义关系,用格语法的思想来分析组合型语义关系。义素分析法在理论上要求把一个词义的所有的构成成分都列出来,但事实上只有个别举例时才可能做到,在分析一种自然语言的通用词汇时困难很大。我们在做义素分析时只求尽量描写词义的构成成分,使各个词义特别是一个词语的多个义项之间能够互相区别开来;换言之,这种描写是纯粹区别性的(merely differential),不是构造性的(construc-tive)。具体地说,我们采取分类和特征描写这两种方法:以语义分类为经,特征描写为纬,构造事物类、时空类和属性类词语的静态语义网络。语义分类的作用是便于处理特征继承,简化特征描写,同时也为句子的义类序列的统计和分析提供便利。显然,静态语义网络无法完全简化为语义分类树,特征描写的作用是弥补语义分类之不足,使语义分析在深度扩展上有较大弹性,同时也能沟通语义类别之间的横向联系。下面简单介绍上述三个大类的的语义分类树(不展开全部结点)。

(1)事物类

事物-事-领域

-事情

-物-具体物-生物

-非生物

-抽象物-对象-事理

-伦理

-意识-感性

-理性

-信息-形式

-内容

生物之下分了人类、动物、植物、微生物、生物构件五类,非生物之下分了天然物、人工物、遗弃物、几何图形和非生物构件五类,其中人工物之下包括设施物、运载物、器具物、原材料、耗散物、信息物、钱财七类。

抽象物中,事理之下分为结果、方法、目标、投入、效验、范例、依据、事位、现象、实质、关系、规律、来源、障碍、作用、结构、态势共十七类,伦理之下分为责任、权利、道德、规范、功绩、罪错六类。

(2)时空类

时间之下分了时间单位、历史性时间(朝代、时期、年号)、气象性时间(季节、节气)、事件性时间(假日、节日、纪念日、活动期、阶段、时刻)、序化时间(干支时、序数时、分段时)、相对时间六类。

空间之下分了空间层次、线性空间、区域(政区、自然区域、特殊区域)、方位(方向、位置)、抽象空间(社会层次、活动领域、场所、比喻性场所)五类。

(3)属性类

属性之下分了一般属性、时间属性、空间属性、物质属性、生理属性、心理属性、社会属性、认知属性、事情属性、性状属性共十类。

语义分类实际上包括两个方面的工作,一是构造分类树,二是把一个个词义分派到分类树的结点之下。这两方面的工作实施起来都有很多困难。我们的体会是,构造分类树时,语义分类宜粗不宜细,普遍性不够的特征,不宜拿来作为分类的依据,宁可作为特征描写来处理。例如,对于人类(生物之下的一个结点),人们会想到可以根据种族、民族、职业、年龄、性别、宗教等等来进行分类,可是对于表示人的词义(不是对于具体的人的集合)来说,这些特征中没有一个带有较大的普遍性。假定我们把种族作为此下的第一层划分,自然可以分为白种人、黑种人、黄种人等等,可是“好人”“年轻人”“教师”等词义往哪儿放?假定第二层根据职业划分为工人、农民、教师、军人等等,那么这个子分类树理应在白种人、黑种人、黄种人等结点之下分别置放一次,整个分类树便会臃肿不堪,更不用说还有第三层、第四层了。在对抽象物进行分类时,我们又感到可作分类依据的特征太少,所以主要是做了一番同义词的归并工作,目前的这个分类可商榷之处甚多。

现在有一种方法是利用词语的句法组合数据来进行语义的自动聚类,文献[8]介绍了用《现代汉语辞海》中的名词与形容词的组合实例来做名词和形容词的双向优化聚类的算法,并设想可以从大规模真实语料中获取更多的组合实例来确保聚类的质量。自动聚类可能是语义分析走向科学化、客观化的重要步骤。为了使大规模的聚类分析具有可行性,如何先从真实文本自动获取句法组合实例,如何设计更好的算法来提高时空效率,值得深入研究。不过,也不能因此而忽视人的主观内省在语义分析中的作用,因为语料规模再大也有数据稀疏问题,许多合法的组合没有出现。更重要的是,句法组合跟语义组合虽然密切相关,但毕竟是两码事,句法上不能组合,可能只是由于习惯,不见得语义上有什么理据。例如,我们只说“想办法”,不说“想方法”,不能因此而怀疑“办法”和“方法”属于同一个语义类别。我们认为应该把人的主观内省跟计算机的自动聚类有机地结合起来,得到一个更科学、更客观的语义分类。

我们的语义分析体系可以应用在以下几个方面:

(1)句法分析

前面说过,仅仅根据词类序列来做自动句法分析,知识是不充分的。另一方面,直接使用具体词语之间的组合数据,又会面临严重的数据稀疏问题。(注:词语搭配(习惯性的组合,例如汉语中抽象的动词加抽象名词)可能是个例外,这些词语的语义特征比较贫乏,直接利用词语共现频率来进行自动句法分析反倒方便,例如“解决—困难”“提高—水平”“形成—共识”等等。)运用聚合型和组合型语义关系知识可望解决大部分句法歧义问题。例如,从句法上看,当多个体词性短语都有可能做某个动词的宾词时,可以先检索该动词的格框架,看受事(或经常充当宾语的其他格)应该是什么语义类别;然后检查每个体词性短语的中心词属于哪个语义类别,选择其中最为接近的一个体词性短语作为该动词的宾语。

一个动词在句子里往往能带多个格,一个格所要求的语义类别也可能有好几个,例如“包围”的受事可以是人类、地形物、设施物或区域,像“包围了他们的村子”,宾语到底是“他们”还是“村子”?最好是能从大规模语料中为每个动词提取出每个格的出现频率、格的每个语义类别的出现频率等数据,以帮助优选。限于当时的条件,“九○五工程”没能做到这一步。今后,语义描写的量化应该是一个努力方向。

(2)义项标注

义项标注的作用在于排除词汇歧义。从经过词性标注的大规模语料中可以得到兼类词的每个词性的频率,并且为多义词的分化创造了一定条件。从经过义项标注的大规模语料中我们又可以得到多义词的每个义项的出现频率,这对于自然语言的自动分析非常有用。前面说语义知识可支持自动句法分析,实际上还需要义项标注这个前提,否则碰到动词是多义词时不知道该用哪个格框架,碰到体词时不知道它属于哪个语义类别。

义项标注可参照词性标注的经验,运用统计与规则相结合的方法来做。我们的语义分类树(不包括运动类)有414个结点,其中叶子结点309个,最大深度是九层,可以根据需要制定一个规模适当的义类标记集,使多义词的每个义项有不同的义类标记,然后从人工标注过的语料中获取义类标记的二元或多元共现概率以进行自动义项标注。除了义类知识外,词义消歧有时可能需要用到其他的词义特征知识。例如,“打[,1]了一瓶酱油”和“打[,2]了一个酱油瓶”,其中的“打”分别是“购买”和“打破”的意思,要消除“打”的歧义,应该具备以下几个条件:第一,在运动类方面,“打[,1]”的受事除了标明语义类别为“生物耗散物”之外,还应该标明其特征可为“液体”。“打[,2]”的受事除了标明语义类别为“器具物”之外,还应该标明“易碎性”特征;第二,在事物类方面,“酱油”应标明是“液体”,“瓶”应标明其“材料”多为“玻璃”或“陶瓷”,而“玻璃”“陶瓷”等应标明“易碎性”特征。在我们的语义分析体系中,这些都是可以做到的,但是具体到每个词义,有些特征描写得还不够充分,需要加以完善。

(3)句子的语义结构分析

句子的语义结构分析是通向话语理解的关键步骤,词语的静态语义分析是句子的语义结构分析的重要基础。语义结构分析可以揭示句法上没有直接关系的词语之间隐性的语义关系。例如,“他读书”,“读”与“书”是述宾结构的两个直接成分;“他读的书”,“读”与“书”的句法关系疏远,可是从语义上分析,两例中“书”都是“读”的客事。没有这一层分析,仅仅从句法上说后一例是主谓结构“他读”加“的”做定语修饰“书”,是不能达到理解的。除述谓性结构之外,“九○五工程”的语义分析体系还对属性结构的语义分析提供支持。例如,“这辆汽车可载5吨”跟“这辆汽车的载重量为5吨”表达了大致相同的意思,用我们的资源进行语义结构分析后能达到这种理解。查“载重量”的语义类别为“重量”,属性主体的语义类别是“车辆”,该属性的相关事件为“运载”,而“汽车”属于“车辆”,“吨”是表示重量属性值的词,所以这两个句子的语义结构相同,都是除述谓性结构之外还有一个属性结构“属性主体—属性域—属性值”。

汉语语义学的一些基本理论问题,目前还很少论及。“九○五工程”虽有所研究,但还不够深入,因此还谈不上能对语义结构分析有充分的支持。实现这一目标只能作为今后的又一个努力方向。

标签:;  ;  ;  ;  ;  

面向工程的语义分析系统_语义分析论文
下载Doc文档

猜你喜欢