中文信息处理专题研究:语义研究——一个在线义类词库:词网WordNet,本文主要内容关键词为:在线论文,语义论文,词库论文,中文论文,专题研究论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一 词网WordNet的概况
WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。有两种关系:词汇的和语义的。词汇关系存在于词形间,语义关系存在于词义间。通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。WordNet则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。WordNet目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。有一些国家将WordNet进行了本地化。
WordNet和一个标准的词典之间的最明显的区别就在于WordNet将所有英语词汇分成五类:名词、动词、形容词、副词和功能词。实际上,WordNet只包含名词、动词、形容词和副词。相对来说较小的英语功能词集被省略掉了,这是基于它们可能被作为语言的语法成分的一部分单独存放的假设。名词在词汇记忆中被组织成主题的层次,动词被组织成各种推演(蕴涵)关系,而形容词和副词被组织在N维超空间中。
然而,WordNet最雄心勃勃的特点在于它试图以词义而不是词形来组织词汇信息。从这个角度来说,WordNet更像一部同义词汇编(thes-aurus,义类体系),而不是一部词典。但是WordNet并不仅仅是一部在线的同义词汇编,它包含同义、反义、上下位义、整体部分义等多种语义关系的描写,对英语单词的多义也想方设法予以表示,另外,它也能处理英语词形的曲折形态。
在词汇语义学的理论中,如何用定义来表示词语化的概念,取决于该理论是打算成为构造性的还是仅仅是区分性的。对区分性的理论的要求比较低,但也足以构造出所需的映射。如果阅读该定义的人已经获得了该概念,仅仅需要辨认它,那用一个同义词(或近义词)通常就足够了。例如,某人已经知道board可以指称一片木材或是一群为了某个目的集合起来的人,只需要得到plank或committee的帮助就可以挑出原义。同义词集{board,plank(板材)}和{board,committee(委员会)}可以作为board这两个义项的无歧义的指示器。WordNet是用区分性理论来表示词义的。由于英语中同义词很多,synsets通常足以用来作区分的目的。但有时候,找不到一个合适的同义词,例如,board的另一个义项是“包伙食”,这时WordNet用一个很短的注释来解决这个多义问题,如{board,(包伙食,即定时提供一个人的三餐以赚钱}可以用来区分board的这一意思,它可以被看成一个只有一个成员的synsets。
同义当然是词形之间的词汇关系,但是由于它在WordNet中扮演了中心角色,故特用{和}括起有同义关系的记号以区别于用[和]括起来的其他词汇关系。WordNet中最重要的关系是同义关系,而且是一种定义较弱的同义关系。根据一个定义(Leibniz)两个表达式同义,是说用一个去替换另外一个绝不会改变句子的真值。根据这个定义,真正的同义词即使存在也很少。这个定义的一个较弱版本是将同义关系和上下文C联系起来,如果在C中将一个换成另一个不会改变句子真值,那么这个表达式是同义的。例如,在“木工”的上下文中将board替换成plank,基本上不会改变真值,尽管在board的另一些上下文中进行这样的替换将是完全不合适的。
另一个大家熟悉的关系是反义关系。令人吃惊的是它非常难以定义。比如说,“贫穷”和“富裕”是反义词,但是说一个人不富裕并不代表他一定贫穷。看起来仿佛非常简单的对称关系的反义关系实际上相当复杂。反义关系是一种词形间的词汇关系,而不是词义间的语义关系。反义关系为WordNet中的形容词和副词提供了一个中心组织原则。
与属于词形间的词汇关系的同义和反义不同。下位/上位是一个词义间的语义关系:例如,{maple(枫树)}是{tree(树)}的一个下位义,而{tree(树)}是{plant(植物)}的一个下位义。下位/上位(或称子类/上类,子集/超集,或ISA关系)引起了很多注意。下位关系是可传递的,反对称的,而且由于一群相关下位义通常只有一个上位义,便产生了一个分层次的语义结构,其中任意一个下位义均位于它的上位义之下。在信息检索系统中广泛使用这种层次表示法,它们被称为继承系统:一个下位义从比自己更为一般的(上位)概念处继承所有的特征,并且至少加上一个特征,以便和自己的上位义及该上位义的所有其他下位义区分开来。这个约定为WordNet中的名词提供了中心的组织原则。
另一种为人们所熟悉的语义关系是部分—整体关系,词汇语义学家将它称为部分义/整体义。部分义关系是传递的(有限制)和反对称的,而且可以用来构造一个整体/部分层次体系(有一些保留,因为一个部分义可以有多个整体义)。这就是说,部分可以再有部分:手指是手的一部分,手是手臂的一部分,手臂是身体的一部分。与同义、反义、以及下位义类似,这个关系有一个逆表述:如果Wm是Wh的一个部分义(用#表示),则说Wh是Wm的一个整体义(用%表示)。部分义是下位义可以继承的区别性特征。因此,部分义和下位义以复杂的形式互相缠绕。
二 词网WordNet中的名词:一个词汇继承系统
WordNet是一个词汇继承系统。WordNet中包含了大致57,000个名词词形,它们被组织成大致48,800个词义(Synsets)。这些数字是一个约数,因为WordNet不断地在扩充——这是在线数据库的好处之一。
对普通的名词的典型定义通常给出它的上位项再加上一些区别性特征:这一信息是在WordNet中组织名词文件的基础。上下位关系在Word-Net中产生了一个分层次的语义组织形式,该形式在名词文件中用同义词集(synsets)间的有标号的指针再现。这个层次体系在深度上是有限制的,极少超过12层。区别性特征是用创建一个词汇语义继承系统的方法进入系统的,在该继承系统中,每个单词都继承了所有的上位词的区别性特征。有三种区别性特征:属性(修饰),部分(部分义)和功能,但是现在WordNet的名词文件中只实现了部分义,在描述性形容词和表示恰当的属性的名词synsets之间有指针,尚未实现从名词到动词的功能指针。名词间也有反义,但它不是WordNet中名词的基本组织方法。只有同义、下位义才是WordNet中名词的基本组织方法。WordNet中的名词词库分为25个主题文件,每个主题处理一个不同的基础语义成分。
传统的词典或一般的机器词典(尤其是一部好的词典)里存储了大量的信息(比如拼写、发音、词形变化和衍生的形式、词源、词性、定义、用法示例、同义词和反义词、特殊用法说明甚至图示),但缺憾的是:(1)缺少与其上位项的联系,例如tree(树),其上位项是plant(植物),但tree的定义中并没有指明plant的哪一个意思才是正确的上位义;(2)缺少有关同位项的信息,例如要想找到tree的同位项是很费事的;(3)缺少有关下位项的联系,要想知道tree有多少种类是很难的;(4)缺少有关部件(或部分义)的信息以及有关属性和功能的信息。而WordNet则力图避免这些缺憾或改进(至少是前三项),它通过上下位关系形成一个分层次的语义体系结构(一个词汇继承系统),通过上下位项链及列表形式来使tree与其上位项和同位项、下位项联系起来,继承上位(乃至上位的上位等)的属性,并且与部分义也联系着。
部分义一般被称为“是……的一部分”(也有的称为part of关系),常常被拿来和“是一种……”(亦称ISA关系)关系作比较:两种都是反对称的和(有保留地)传递性的。一共有多少种部分义呢?有的说有六部分部分义:部件/物体(树枝/树),成员/全集(树/森林),部分/整个(块/蛋糕),物质/物体(铝/飞机),物征/活动(付钱/购物),以及地方/区域(Princeton/New Jersey)。有人再加入第七种:状态/过程(青春期/成长)。WordNet中只编写了这些部分义类型中的三种:
(1)Wm#p->Wh表示Wm是Wh的一个组成部分;(2)Wm#m->Wh表示Wm是Wh的一个成员;而(3)Wm#s->Wh表示Wm是制造Wh所用的物质。
WordNet如何将下位义与上位义联系起来呢?是通过上位义标识指针"@"和下位义标识指针“~”来联系起来的。例如一个tree的条目的synsets看起来是这样:
{tree,plant,@conifer(针叶树),~alder(桤木),~…}
此处的“…”被很多的指向下位义的指针填满。在数据库中,指向上位义plant的指针"@"会被一个相反的指向plant的synsets中的tree的指针“~”所反射;那个指针被符号“~”标出为“下位义”:
{plant,flora,organism,@tree,~…}
前面提到同义、下位义才是WordNet中名词的基本组织方法,而反义即语义上的对立不是名词之间的基本组织关系,但它确实存在并在WordNet中理所当然地获得了它自己的表示,例如,男人和女人的syns-ets会包含:(此处用"!"指针表示反义)
{[man,woman,!],person,@…(一个男性的人)}{[woman,man,!],person,@…{一个女性的人}}
当所有三种语义关系(下位义,部分义和反义)都被包括进来时,结果是一个高度互相连通的名词网络。下图表示出名词网络的一部分。
层次体系结构的方法之一(WordNet正是采用这种方法)是将名词分成一组组的语义部分——选出一定(相对较小)数目的一般化概念,作为每一个单独的层次体系结构的唯一起点。这些层次体系结构均对应于相对独立的语义场。语义场中所有单词的原始语义成分均来自那个表示一般化概念的唯一起点。
下图列表显示WordNet名词的25个唯一起点:
有趣的是,这些文件相对比较浅。当然,从原则上说,一个继承系统有的可以是层数没有限制的。然而,词汇继承系统很少会比10层还深,而且最深的例子通常包含有不是日常词汇的一部分技术层次。例如,一匹Shetland矮种马是一匹矮种马,一匹马,一只equid(不反刍的奇蹄动物),一只奇蹄目的有蹄类动物,一只食草动物,一只哺乳动物,一只脊椎动物,以及一只动物,追溯到Tops文件中又加上了生物和实物:一共11个层次,其中大多数是技术性的层次。
三 词网WordNet中的形容词
WordNet将形容词分成两个主要的类(适用于大多数形容词,并不完全覆盖):描述性的和关系性的。描述性的形容词赋予它们的中心名词二极化的属性的值,因此用二元的对立(反义)和意思的相似(同义)组织起来。一些描述性的形容词没有直接的反义词,词网可以依靠它们和有直接反义词的形容词同义而使其具有间接的反义词。WordNet中还含有表示属性值的描述性形容词和表示该属性的名词之间的指针(“属性”与“属性值”见后)。参照修饰的形容词具有将它们和其他描述性形容词区分开的特殊的语义属性。关系性的形容词被认为是修饰性名词在风格上的变体,因此和名词文件交互参照。色彩形容词被认为是一个特殊的例子。
WordNet中现在含有大约19,500个形容词词形,组织成了大概10,000个词义(synsets)。WordNet含有描述性的形容词(如“大的”“有趣的”“可能的”“重的”“高的”)和关系性的形容词(如“总统的”“核的”),和由“以前的”“所谓的”这样一小部分形容词组成了参照修饰形容词的封闭类。第一个类都由它的形容词的独特的语义和语法属性来区分。
描述性形容词的语义组织和名词的完全不同,它的语义组织是一个抽象的N维超空间,而不是一棵分层次的树。WordNet中含有描述性的形容词和表示恰当的属性的名词synsets之间的指针。例如“低”和“高”是属性“高度”的值。描述性形容词间基本的语义关系是反义,描述性形容词的功能是用来表示属性的值,而几乎所有的属性都是二极性的,因此反义在描述性形容词的组织中的重要性可想而知。在WordNet中,二元的对立(例如“重”和“轻”是二元对立即反义词)使用双向的标号指针来表示:heavy(重)!→lignt(轻)和light(轻)!→heavy(重)。但有很多描述性形容词好像没有反义词,而且有些意思相似的形容词没有相同的反义词。因此WordNet把形容词synsets看成形容词群,这些形容词以相似关系联系到一个中心形容词,该中心形容词把这一群形容词联系到属性相对的另一个相反的群。这样,那些没有直接反义词的也有了间接反义词,因为它们是有直接反义词的形容词的同义词。在WordNet中,直接反义词是用反义指针"!→"来表示的;间接反义词是通过由相似指针"&→"指出的相似性来继承的。例如“moist(湿润的)”没有一个直接的反义词,但是它的间接反义词可以沿着“moist(湿润的)&→Wet(湿的)!→dry(干的)”的路径来找到。
有一些语义相反的形容词是可分级的,例如属性WARMTH(温暖)可分为torrid(酷热的)、hot(热的)、warm(温暖的)、tepid(微温的)、cool(凉的)、cold(冷的)、frigid(冰冷的)等等。但英语中词语化的分级令人吃惊地少(大多数分级都用比较级、最高级等构词手段或用程度副词来复合),在2500个形容词群中还不到2%,因此,虽然分级也被一些人认为是一种组织形容词的词语记忆的语义关系,但是它没有被编进WordNet中。
大多数属性都有一个定向,把它们设想成是一个超空间的维,每一维的一端都固定在空间的原点,原点处是期望值或缺省值,而与它的偏离被叫做该属性的标定值。即一对反义词中常常有一个成员是主要的:更常见、更常用或者是和属性的名字有形态上的联系。例如“长的/短的”与属性名词“长度”,在WordNet中用一个指针将“长度”与所有表示该属性的值的形容词(例如“长的”“短的”“冗长的”等等)链接起来。
另外一类形容词组成了关系性的形容词这个开放的大类。英语词汇经常有表示相同概念的从不同语言中名词推导出来的好几个(同义的)形容词,反过来,一个关系性的形容词有时指向几个名词。像“乡村的”这样一个形容词联系到好几个相关的概念(和城市相对的“农村”,以及“耕作”)。在这种情况下,该形容词的几个义项中输入指向不同名词的指针。WordNet中还有一些从其他关系性的形容词通过一些前缀推导出来的形容词,这些形容词并不指向任何名词,而是被链接到推导出它们的没有前缀的形容词。
四 作为一个语义网络的英语动词
动词是每种语言中最重要的词汇和语法范畴。动词的多义性比名词更高。例如,考林斯英语词典中的名词平均有1.74个义项,而动词平均有2.11个义项。最常用的动词往往同时也是义项最多的。
当前,WordNet中含有21,000多个动词词形(其中13,000多个都是独特的串)和大约8,400个词义(synsets)。其中有像look up(查找)和fall back(后退)这样的短语性动词。动词在语义准则的基础上被分成15个文件,这些文件除了一个以外都对应于语言学家称为语义领域的东西:有关身体护理和功能、变化、认知、通讯、竞争、消费、接触、创造、感情、动作、感觉、拥有、社会交往和天气的动词。实际上这些文件中的所有动词都表示事件或者动作。另一个文件中含有有关状态而又不能被融入其他文件中的动词,如suffice(足够),belong(属于)和resemble(类似)。后一个群中的动词不构成一个语义领域,而且除了都是指状态以外没有其他的共享的语义属性。这种动词分类方法,反映了对主要概念范畴事件和状态的分类。15个分类文件间的边界不是僵硬的,而且采用这种特定的分类方法,主要是因为它适应动词的组织。很多文件的名字都是来自于这些语义上一致的词汇群中为首的最高层的动词,或称“唯一起点”。这些最高层的动词和“核心动词”相似。它们是不复杂的概念,通过语义关系从它们推导出构成该语义领域的动词。
词汇上很少能找到像shut(关)和close(关)这样真正同义的动词。因此WordNet的动词synsets经常含有短语形式的表达而不是词语化的同义词。形容词性的动词的同义表达形式通常为make或bacome+某个形容词,例如{whiten(白化),become white(使变白)},{enr-ich(丰富),make rich(使丰富)}。
对于任何词汇语义学来说,表示动词的意思都是困难的,对WordN-et来说尤其如此。WordNet避免一种语义上的分解,支持一种关系性的分析,这与以前的方法不同。关系性的语义分析和语义分解不同之处在于它将词汇项而不是假设不能再归约的意义原子作为分析的最小单位。WordNet中采用的关系性分析有一些分解方面的东西,例如,生成语义学的重要子谓词"CAUSE"在WordNet中是一个语义关系:一个连接像“教—学”“展示—看见”这样的动词对的关系。又如,WordNet赋予变化动词的特性不是有一个词义成分CHANGE,而是有一个和动词“变化”的语义关系。这个区别看起来很微妙。
词汇继承的原则可以说是名词间语义关系的基础,而双极性的对立用来组织形容词。与此相似,组织动词的不同关系可以被总结成一个覆盖它们的原则词汇的推演。在逻辑学中,推演或者严格的蕴含,被恰当地为命题作了定义:一个命题P推演了一个命题Q当且仅当不存在能使得P为真而Q为假的可能性。推演是一个语义,因为它涉及到P和Q代表的事物状态。这个术语在这里用来指当句子“某人V1”合乎逻辑地推演了句子“某人V2”时两个动词V1和V2之间成立的关系;这种推演的用法可以叫做词汇推演。例如,“打鼾”推演了“睡觉”,因为句子“他在打鼾”推演了句子“他在睡觉”;如果第一个句子成立,第二个一定成立。
考虑由动词“打鼾”“做梦”和“睡觉”以及“开车”和“乘车”所表示的活动之间的关系,像“开车和乘车”“打鼾和睡觉”这样的动词对之间的区别是由每一对的成员之间的时间上的关系造成的。活动可以是同时的(像“开车和乘车”),也可以一个包含在另一个里面(像“打鼾和睡觉”)。对于这两对来说,进行一个活动就必然进行了另一个活动。因此,每一对中的一个活动推演了第二个活动。这两种词汇推演的语义关系都有时间包含的特点。
方式义是一种特殊的推演,例如“跛行—走路”这一对动词是用方式义联系起来的,“跛行”是“走路”的一个方式义词,而“他跛行”推演了“他走路”。方式义代表了推演的一种特殊情况:总是时间上可延展的而且由推演联系起来的对。
在试图用方式义关系构造动词分类学的过程中,在一个语义领域中许多(并非所有)动词都可以被聚合到同一个唯一的起点之下,有的语义领域必须用几个独立的树来表示。例如,动作动词有两个最高层节点,{移动,进行一个动作}和{移动,旅行}。跟名词相比,动词体系结构倾向于有一个更浅更茂密的结构,体系结构的层次很少超过四层。
动词间对立关系不仅显著,而且其对立关系的语义是复杂的和多样化的。有直接反义词的,有直接从形容词演化来而从词根形容词继承对立关系的,有用形态表示的对立,有从不同的参与者观点的对立。大多数反义的动词是可用属性来表示的状态性或状态变化性的动词之间的对立关系,例如,活/死、醒/睡。很多对立关系的动词对也有一个共同的被推演的动词,例如,“击中”和“落空”都推演了“瞄准”,“瞄准”是“击中”或“落空”的先决条件。这里推演和被推演的动词之间的关系是逆向预设。因果关系也是一种特殊的推演:如果V1必然引起V2,那么V1也推演了V2。
上面区分了四种不同的词汇推演,这四种推演关系如下图所示:
为了覆盖动词的最重要的语法方面,WordNet为每一个动词synsets包含了一个或几个句子框架,通过指出可能包含该动词的句子类型来指定动词在synsets中的子范畴特征。一个人既可以搜索共享一个或多个句子框架的所有synsets并比较它们的语义属性;又可以从一些语义上相似的动词synsets开始,看一看它们是否展示了相同的语法属性;对“共时方式义词”的语法属性的探索也能为“区分方式义词”的语义子类提供基础。
五 WordNet词汇数据库和检索软件简介
现在已经推出了WordNet 1.5版。WordNet数据库为18.4兆。另外“义项索引”文件有5.6兆,根据你的计算机平台的不同,搜索代码可能多达1.5兆。WordNet系统是在一个Sun-4工作站的网络上开发的。软件程序和工具使用C语言、Unix工具和shell scripts写成。现在,WordN-et被移植到以下计算机系统:Sun-3;DECstation;NeXT;IBM PC和PC兼容机;Macintosh。
词典编写数据的内部表示是一个互相关联的链表的网络。WordNet的用户界面可以有多种形式,标准的界面是一个X Windows应用程序,它被移植到几个计算机平台上,以便各种用户进行检索和输出。WordN-et软件套件中含有有关英语形态的智能处理的函数,使得"trees"和"t-ree"都能得到同样的检索。WordNet对于每一个语法范畴(除了副词以外)都有一个例外列表。WordNet的查询比较方便,例如名词"man"在W-ordNet中有10个义项,动词"man"有2个义项,在WordNet中可以很容易地查找到。由于篇幅的缘故,此文对WordNet的查询不作详细举例。希望此文能引起读者对WordNet的兴趣,并对各自的研究有所助益。
你可以从以下ftp站点之一得到WordNet系统,但你必须预先通知Princeton:
美国:ftp.cogsci.princeton.edu[128.112.144.11]
欧洲:ftp.ims.uni-stuttgart.de[141.58.127.61]
词网Email地址:WordNet @ Princeton.edu