广义知网的词汇知识架构与语意表达,本文主要内容关键词为:语意论文,广义论文,架构论文,词汇论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1.广义知网的建构目标和特色
广义知网(E-HowNet)是一个事物和语意关联的架构(entity-relation model),以二元关系架构来表达词汇的语意。广义知网是以知网(Dong and Dong 2006)的架构为基础演化而来的,我们想利用这个语意表达的模型,达到可以自动化理解自然语言的目的。这里所指的可以“理解”一个句子,是表示能够将这个句子里的每一个概念以及概念之间的关联,没有歧义地指认出来,并且能够做出正确的推论,甚至适切地响应该句子。想要理解自然语言,计算机必须要知道句子之间的语意相关性及相似程度,于是需要建构一个符合下述特色的语意表达框架,才能落实自动化理解自然语言的目的。
(1)能辨认近义概念,并能计算两个概念之间的相似程度和语意距离。
(2)能知道两个概念之间的共同语意特征,并区别概念间的语意差异性。
(3)能提出每个概念的独特性,藉此,计算机可以辨识、存取与概念相关的知识。
(4)语意框架能反映语言的独特性质。
(5)根据框架中语意的概念特征继承性质,能够进行逻辑推论。
(6)能够有自动分解与合成语意的机制。
现今的本体知识架构,无法全面满足上述功能,并且也缺少将知网运用于语意合成的研究。因此,我们扩展知网原先的架构,建立广义知网。广义知网承袭了知网的基本架构,但实际用在定义词汇语意时,更加强了以语意框架为基础衍生出来的指称事物和语意关联的架构,我们希望能将此架构应用于语意合成和分解的处理上。自然语言理解的研究中,越抽象的议题则越难自动化且有系统地分析。在自动断词、自动语法剖析的研究都有了一定的成果后,我们也希望语意的研究能跟上前两者的脚步,让语言的分析能更向前迈一步。广义知网设计的目的,就是在这样的希求下,为了有系统地呈现词汇的语意,并且希望搭配语意合成的机制之后,能达到自然语言了解过程中语意理解的目标。基于以上的目标,广义知网有以下五点主要特色:
首先,词汇的语意皆以事物义原、基本概念及其间的关联来定义,以词汇语意的定义式来合成所有的短语或句子语意表达式。其次,实词和虚词的语意,皆有一致的表达方式,不需要另外的系统协助。再者,词汇语意定义时,义原之间的关联能完整而直接地呈现。承接上一点,语意中完整而直接的关联进一步使得广义知网具有语意合成与分解的机制。最后,所产生的词汇与词组语意表达式,皆有近乎标准且唯一的表达形式,这样语意的合成和分解可以在不同层次进行。
2.词汇的网络
现在有许多以词汇语意为出发点的网络,以供认知相关、计算机语言处理、翻译及其他研究应用,几个具代表性的词汇网络有,加州大学伯克利分校的框架网(FrameNet,Baker,et al.1998)、普林斯顿大学的词网(WordNet,Fellbaum 1998)和董振东的知网(HowNet,Dong and Dong 2006)等①。
框架网将一万个左右的词汇(其中歧义词视为不同的单位)详细地分析到八百个事件框架之中,并列举了核心或非核心的框架元素,也就是语意角色。事件的框架在框架网中有非常详细而清楚的定义,对于语意角色在句子结构里的不同呈现方式或配价表达(valences)也有许多讨论。然而框架网虽能厘清事件中的不同角色关系,却无法合成或分解语意。
词网将词义分于不同的同义词集合(synset),将名词、动词、形容词、副词依语法功用各自组成同义词集后,再界定同义词集之间的数种上下位关系。词网的架构亦为一本体知识,其架构表达了概念的上下位继承关系。词网有清楚明确的同义词集,也定义了同义词集间的多种关系,但是它在设计上摒除了虚词,如介系词和冠词等,缺少了语言表达中亦占有一席之地的功能词。同时也缺乏词汇在句子中使用的实际状况,只能理解语意,无法将语言重组表达。
知网是一个以常识为基础,从中英文的词汇里整理出基本概念,并将基本概念依据之间的关系建立索引架构的在线系统,每个概念都可以根据自己的定义和与其他概念的关联来定位。知网的词汇语意定义方式比词网同义词集间的多种特定关系提供了更多的语意讯息,字词间也可依据特征产生适当的关系。另外,相较于词网仅限于词汇的语意,知网的语意表达方式除了词汇,还可应用于词构的语意表达。由于知网具备以上这些特点,故能适用于电子辞典的编纂,或是如词汇相似度、机器翻译、信息检索等自然语言处理的应用研究(Veale 2005)。知网的基础哲学是事物一直在特定的时空中运作或有状态的变化,因此将架构分为万物(thing)、事件(event)、属性(attribute)、属性值(attribute-value)四支,这四个架构间的关系如下(Dong and Dong 2006):
图1中除了属性和属性值之间的明确关系外,我们同时看到万物是属性的主体(host),也是事件的语意角色(role),事件与属性值的关系则是描述事件的方法(manner)。知网的义原为语意的最小单位,而四个架构皆排列出其下义原之间适当的上下位阶关系,并以此来定义词汇,再加上语意角色和义原间次要关系的列表,于是词汇的语意便以妥善的方式呈现,也能以此计算出词汇的相似度等计算应用(刘群、李素建2002)。
有鉴于此,广义知网沿袭了知网原先的哲学基础和基本架构,然而其差别在于广义知网更重视如何达成语意自动合成及分解,因此词素,实词,功能词、词组都有一致的语意表达方式,且表达式中概念之间的关系都必须清楚完整地表达以达到自动结合的可能。在广义知网知识架构上entity和relation是两个并列及并重的上下位层次结构,于是我们改进了部分知网的架构和表达形式,设计了多层次的定义架构,以函数的概念来简化部分定义式,同时也将语意角色和属性的概念结合,以利语意能够更贴切地表达语言中的实际使用状况。关于知网和广义知网两者系统的差别,可参见Chen等(2005)与陈克健等(2005)。以下章节将细部介绍广义知网的架构。
3.广义知网的架构和介绍
我们知道用来表达词汇语意的广义知网,其建构目标是想要达到自然语言理解的目的。在第1节中,也明白地阐述了其五项特点。广义知网包含下面几项元素,首先是一个涵盖了事物和关联本体知识的架构,在事件部分也提供了事件参与角色。另外还有皆以广义知网的语意表达方式定义的词汇语意,这些词汇来自于台湾“中研院”词库小组CKIP词典中的词条。
在广义知网中,词汇语意定义是以事物概念及其关联来表达,概念包含“义原”(知网称为sememes)以及“基本概念”。基本概念虽不在义原的表列,却是在语言中常被使用的概念,有时甚至更贴近原型词汇,也会因语言和文化而有不同。例如{livestockl牲畜}这个义原下有很多人饲养的动物词汇,但是将“狗”和“牛”两个词汇视为近义词,就概念的层次来说又不那么符合直觉,因此在{livestockl牲畜}这个义原下,我们又有{狗|dog}、{牛|ox}、{猪|pig}等这些常被使用的基本概念②。所有的基本概念都有以义原和关联定义的语意定义式,因此必要时,任何定义式中的基本概念可以透过语意分解的过程(semantic decomposition)将基本概念以其义原定义式取代,经过联并(unification)后包含基本概念的定义式即可转换为纯义原组成的定义式(陈克健等2005;陈怡君等2005; Chen,et al.2005;Huang,et al.2008a)。
广义知网的概念架构以本体知识的形式呈现,承袭了知网的义原架构并加以扩充改编,其中在{relation|关联}架构上,更是做了较大幅度的扩充,以利语意合成及分解的运作。义原架构有上下位阶继承的特性(Is-A relation),也就是下位义原会继承上位义原的特质,如{human|人}为{animate|生物},至少有[gender|性别]、[age|年龄]等几项特征值,而{医师}和{病人}皆是{human|人}的下位词,便是指这两个词汇皆继承了{human|人}的所有特征。另外,两者其同参与了{doctor|医治}这一事件,但分属不同的事件参与者语意角色,也就是{agent|主事者}和{patient|受事者},其定义式分别如下所示:
医生def:{human|人:domain={medical|医},predication={doctor|医治:agent={~}|}
病人def:{human|人:predication={or({SufferFrom|罹患:theme={~}},{doctor|医治:patient={~}})}}
本体知识架构的义原除了有上下位阶特征继承的特性之外,还有可以计算两个概念语意距离远近的优点,不仅能知道语意相同处也能显现语意的差异点,这是传统的本体知识架构无法做到的,然而广义知网目前仅完成较粗的语意表达。
本体架构的几个主要子节点如图2所示,而详细的广义知网义原架构及事件中的主要语意角色,请参见http://ckip.iis.sinica.edu.tw/taxonomy/③。
3.1{entity|事物}
广义知网本体架构中的事物,包含语言描述中的两大重要类别,也就是{eventl事件}和{objectl物体}。再往下区分,事件主要分为状态和行动,这两类皆常为句子的核心。{statel状态}含括了{PhysicalStatel物理状态}、{MentalStatel精神状态}、{ChangeStatel改变状态}、{correlationl关连}以及部分的属性值,这些义原及词汇皆为状态的事件,或是描述物体的状态。而{actl行动}之下则有{MentalActl精神动作}、{GeneralActl泛动}、{SpecificActl实动}三种,属于有动作、过程发生的事件。
事物中的第二大类是{objectl物体},其下有{thingl万物}、{timel时间}、{spacel空间}。时间、空间在物体下独立分类,其中{timel时间}依据语言的实际使用再细分为时段和说话时间;{thingl万物}则是指大多数的物体,包含了有指称的{physicall物质}、抽象的物体{abstractl抽象物}、指组织机构的{groupl群体}、以及实指事件的{factl事情}几类。
最后一类为{AttributeValuel属性值},部分的属性值已归类于{状态lstate}之下,但也有部分的属性值无法置于{状态|state},包含数值的度量值、关系性值及定量值等,则置于此类之下。
在语言表达中,事物所包含的义原并不单独存在,而是彼此有关联的。广义知网是以{relation|关联}做为桥梁,连接两个事物,将关联明白地在定义式中呈现,下面介绍广义知网的关联架构。
3.2{relation|关联}
{entity|事物}的义原涵盖了大部分语言描述的实质内涵,然而除了事物之外,仍需要能清楚表达事物间{relation|关联}的义原才能够互相连接。广义知网以关联连结二元事物,也就是rel(x,y),其中x,y是指所描述的事物,rel为事物之间的关联,由于x通常是中心语,因此也就表示为rel({x})={y}。如表达式“agent({吃})={狗}”,就表示“吃的主事者是狗”这样的语意内涵。
广义知网的关联架构之下分为{SemanticRole|语意角色}{functions|函数},前者以描述事物间的关联为主,后者仅用来表达所对应的函数值。语意角色中主体④和属性值的对应不一定在相同的范畴类型,并且可以对应到多个属性值,如例(1-2);而函数则是特殊的关联,只有一个属性值的对应,如例(3-4)。请看下面语意角色的例子以及对范畴和属性值的说明。
(1)material({桌子})={wood|木}
(2)age({tree|树})={aged|老年}
例(1)中的“桌子”是主体,属于物质,而其属性值“木”也是物质,从主体的物质对应到属性值的物质,因此两者的对应关系是相同范畴类型的对应,两个物质靠着{material|材料}这个语意角色连起来;根据常识我们知道,能够当桌子材料的属性值,除了{wood|木}以外,尚还有金属、塑料等可能,这些是相同范畴与多个值的对应。相似的例子在例(2)中,主体“树”属于物质,依着语意角色{agel年龄}对应到的则是一个状态的属性值,是不同类型的对应,且除了{agedl老年}外也还有多个属性值。但在另一方面,函数的对应,则仅会是在相同范畴的对应,并有特定的属性值,用来表达特定事物而非事物间的关系。请看例(3-4):
(3){parents({学生})}
(4){not({change|改变})}
{parents|父母}这个函数,仅能将主体“学生”对应到“学生家长”,也会是“学生家长”的定义式。而{change|改变}加上逻辑函数{not|不}这层函数关联后,用来表达“不改变”。
了解完两者的区别后,先来看{SemanticRole|语意角色}的分类。语意角色下又有{RoleForObject|物体角色}和{RoleForEvent|事件角色}两种,分别以物体或事件为其主体,于是这些语意角色也可视为属性,各有其主体及属性值。{RoleForObject|物体角色}的主体是物体,亦为物体的修饰语,如例(5)中的{color|颜色}就是物体角色。而{RoleForEvent|事件角色}则以事件为主体,也就是事件的修饰语;例(6)的角色{manner|方式},便以事件为主体。
(5)白纸def{paper|纸张:color={white|白}}
(6)大吃大喝def{eat|吃:manner={indulge|放纵}}
区分事件角色和物体角色可以辅助某些自动推理的过程,如“快餐”中的修饰语“快”从广义知网的{AttributeValuel属性值}关系知道为速度值,速度为事件角色,因此必须引介一个事件关系方能将“快”和“餐”做出逻辑完整的修饰联结。这个事件关系可能是“烹煮”或“供应”。因此“快餐”的语意可以解释为“烹煮快速的餐点”或“供应快速的餐点”。语意推论问题在5.3节中有进一步的讨论。
另一类关联,{functionsl函数}包含亲属函数、时间函数、方位与方向的函数以及逻辑函数几类。如前述,函数是用来关联并表达同一范畴类型的事物,其实际用法如例(7)所示:
(7)伯母def:{wife({伯父})}
东台湾def:{east({Taiwan|台湾})}
不同于语意角色,函数并不是将两个事物建立关系,而是在相同范畴中,将一个概念投射到另一个概念。这一关连架构是广义知网扩展出来的,有鉴于原先在知网中以这几类义原定义的词汇,难以简易而精确地表达语意。如亲属关系在知网中仅有辈分和性别的区别,如此一来,便无法清楚表达汉语文化中复杂而重要的人际关系词汇,于是希望透过函数的方式补足这项缺失(Chen,et al.2005; Huang,et al.2008a)。
4.广义知网中的语意表达
表达语意时,若缺乏一些准则便很容易落入主观的缺点,难以达到客观的目标。于是广义知网在定义语意时,遵循下面几个原则:
第一,语意概念应该由上位义原以及本身的显著特色来定义
一个概念的意义应该是由与其相关的概念构成,在定义语意时,我们无法以所有相关的概念来定义,而是要藉由辨识直接上位词与继承的特性,加上足以与其他概念区别的最重要特征共同来定义。原则上,定义名词时,就是以其主要的物性结构(qualia structure)来表达(Pustejovsky 1995);而定义动词时,便是以事件类型的框架概念来表示。事物的物性结构包含“制成”(agentive)、“功能目的”(telic)、“形式特征”(formal)、“组成成分”(constitutive)四种。“制成”表达的是物体的来源或如何产生的;“功能目的”是表示事物的目的或功能;“形式特征”是将对象在较大的范畴内做区分,例如形状、长度或颜色等;“组成成分”指的是物体与其构成的成分,包含部件、材料、零件等。例(8-11)分别为包含前述四种物性结构定义的词汇例子。
(8)早产儿def:{human|人:age={child|少儿},agentive={labour|临产:TimeFeature={early|早}}}
(9)狗食def:{food|食品:telic={feed|喂:target={狗}}}
(10)彩霞def:CloudMist|云雾:color={colored|彩}}
(11)草帽def:{帽子:material={FlowerGrass|花草}}
表达物性结构的属性特征可分为两种,一种为特征值的“简单关系”,另一种为关系子句的“复杂关系”。简单关系为能够单纯以某种属性和值的关系直接连结,用rel={y}的方式表达,如例(10-11)。而复杂关系则是要透过一个事件特征才能连结,上述例(8)中的制成和例(9)的功能目的,便是属于此类,这些事件特征也可视为事件框架。如例(12)中的两个词,分属{foster|饲养}这一事件的主事者和受事者。
(12)家禽def:{bird|禽:predication={foster|饲养:patient={~}}}⑤
饲主def:{human|人:predication={foster|饲养:agent={~}}}
事件类型的概念也会以较为上位的概念来定义,并以框架元素来区分不同之处,框架元素包括参与角色、非核心的元素以及其他语意限制。例如{request|要求}概念下的词汇,可以说话者态度、方式抑或程度等框架元素来区分彼此之间的不同,分别见例(13)中的三个词汇表达式。
(13)有劳def:{request|要求:attitude({speaker|说话者})={modest|谦}}
强求def:{request|要求:manner={force|强迫}}
苛求def:{request|要求:degree={extreme|极}}
但不管是“有劳、强求、苛求”,都是在{request|要求}这个事件框架之下,因此有共同的事件参与角色,包含主事者、受试者、内容等。
第二,以义原或已完整定义的概念和关联,来共同定义新的概念
“义原”是知网用来定义词汇概念的语意单位,然而仅以义原定义语意,常会丧失词汇部分语意信息,而且无法将概念之间的关系以知识架构的方式建立起来。例如,知网定义“狮子狗”一词时与“狗”一词皆用相同的表达式def:{livestock|牲畜}。如此一来,两者对于{狗}有共同概念的讯息就丧失了。我们采用知网的事物关联架构来定义词汇,但广义知网除了义原之外,同时以已经完整定义过的基本概念来定义,并将概念之间的关联充分表达在定义式中。广义知网中的“狮子狗”便用以下方式来定义,def:{狗|dog:source={Beijing|北京}},以{狗}当作语意中心,将“狗”和“狮子狗”两个词做上下位阶的连结,自动形成本体知识的架构。
为了不产生歧义,并且使概念不因语言不同而有改变,广义知网在义原定义时也采用词网的同义词词集编号(synset ID),让概念的表列和表达能与其他语言接轨。请看例(14):
(14)证物
a.广义知网定义式
def:{physical|物质:
domain={police|警},
telic={prove|证明:
instrument={~}}}.
b.对应词网同义词集的编号
def:{[00010572N]:
domain={[06093563N]},
telic={[00686544V+01816870V]:
instrument={~}}}.
c.对应词网同义词集的概念
def:{
domain={
telic={
instrument={~}}}).
第三,多层次的表达:高层级的表达式,可以展开成全部以义原为定义的表达式
广义知网以知网原有的义原作为基础,而且用已经以义原定义过的基本概念一并来辅佐定义,因此以此方式定义的表达式便可以逐步展开,直到全为义原的基础定义式。如“活火山”一词,在概念式中是以{火山}为中心语意来定义,将{火山}一概念展开,其中心语意是{山},而{山}最终是以{land|陆地}这个义原为中心语意表达的,于是层层展开的过程便如例(15)所示:
(15)活火山def:{火山:qualification={active|活跃}}
def:{山:predication={jet|喷出:theme={fire|火},location={~},
qualification={active|活跃}}}
def:{land|陆地:shape={protruding|凸},predication={jet|喷出:
theme={fire|火},location={~},qualification={active|活跃}}}
这样的多层次表达,不仅让语意表达更容易理解也更容易掌控,同时也保留了为语意核心基础的义原定义在其中。多层次的表达方式有以下优点:(1)所有的概念皆能以有限的义原表达;(2)可以利用高层级的语意定义来代替复杂概念较为精确地表达语意;(3)基本概念可以简洁地表达人类认知过程;(4)高层级的语意表达式可以自动展开成基础义原的定义式;(5)高层级的表达式较容易理解,并且可以保留较多的语意讯息,自然形成本体知识的架构;(6)更容易也更适合知识管理。
总的来说,在广义知网的定义中,我们以欲定义的词汇的直接上位概念当中心语,以及与直接上位主要差别来描述该语汇的语意,而阶层式的词汇语意定义式,在必要时可以将概念展开,甚至能够与词网的同义词词集相对应。
(16)厂址defl:{location({工厂})}
def2:{location({InstitutePlace|场所:domain={industrial|工},telic={produce|制造:location={~}}})}
def3:{location({[06371658N]:domain={[02579003A]},telic={[01114991V]:location={~}}})}
4.1语意为基础的实词和虚词表达
词类是依据其语法功能而分的类别,但除了语法功能外,又以是否有实质语意内涵将词分为实词和虚词两种。实词和虚词的分类虽然是以语法的角度来界定,但是广义知网也希望从语意的层面能够有系统地表达这两类词。陈怡君等(2005)提到,实质语意和关系概念两者之间不是一分为二,而是线性的,如图3。
从图3可见,名词和动词是比较偏向有实质语意内涵的词类,而汉语中的“的”字或是介词则是表示关系的词,副词的语意则介于两者之间,很难归类在任一端点。于是许多时候,我们只能说实词偏向有实质语意内涵,而虚词则是偏向引介关系。例(17)是广义知网对于不同词类的实词和虚词的定义方式:
(17)名词 衣物def:{clothing|衣物}
动词 周转def:{arrange|安排:patient={fund|资金}}
非谓形容词 肉食def:predication={eat|吃:patient={flesh|肉},agent={~}}
方式副词 随口def:manner={unintentional|无意}
程度副词 透顶def:degree={very|很}
连接词 因为def:reason={}
介词 代def:benefactor={}
例(17)显示了广义知网偏向以事物的方式来定义有比较多实质语意的词汇;而偏向关系概念的词汇,则是以关联的方式定义;至于介于中间的,便以引介的关联和实质语意共同定义⑥。然而,广义知网的语意定义并不和句法词类完全吻合,也需靠语法词类的辅助才能完整呈现语意和语法讯息。在例(18)中,两个词同样为属性值{red|红},但因语法功能不相同,有名词和状态动词的分别。而例(19)的词汇语意虽皆为{steal|偷},但仍需以词类辅助,以便自动判断“失窃”的主语是失窃物(theme);“偷窃”和“顺手牵羊”的主语是窃贼(agent),但一个及物,一个不及物。
(18)红VH def:{red|红}这颗苹果很红⑦。
红色Na def:{red|红}在中国文化里,红色表示喜庆。
(19)失窃VH def:{steal|偷}
偷窃VC def:{steal|偷}
顺手牵羊VA def:{steal|偷}
广义知网的语意架构是由语意出发,同时以语法信息为辅助,才能呈现词汇语意的全貌,并能够进一步合成或分解短语和句子的语意⑧。
4.2广义知网中概念的不同表达形式
4.1节中,我们提到了事物和关联义原两大架构,并说明语言中语意的表达方式是结合指称事物的义原,以及表达事物义原之间关系的关联义原所组成。了解广义知网的语意定义方式是以二元关联的表达,也就是rel({x})={y},根据二元关联的表达式,定义式的形式有五种,以下分别列出并佐以例子参考:
(20)a.{entity}老天爷def:{humanized|拟人}
b.{functions({entity)}树干def:{BodyPart({tree|树})}
c.relation={value}方形def:shape={square|方}
d.SemanticRole({entity)⑨价钱def:price({entity|事物})
e.relation={}被def:agent={}
例(20a-c)的形式是事物的表达方式,例(20d-e)则为关联的表达式,而大多数广义知网的语意定义式,是以上事物和关联表达式合用的状况,请见下面的例(21-22):
(21)小木屋def:{house|房屋:material={wood|木},size={small|小}}
(22)切口{hole({physical|物质}):agentive={cut|切削}}
在例(21)中有三个事物义原,包含{house|房屋}、{wood|木}和{small|小},以及两个关联义原,其中material说明了{house|房屋}和{wood|木}之间的关联,size则表示了{house|房屋}和{small|小}间的关联。而例(22)的词汇则是由{PartOf|部分}函数的下位函数{hole|洞}和语意角色{agentive|制作}与其他事物义原产生关联来定义的。这样的语意呈现可以在字、构词、词组层次甚至句子层次中有清楚且一致的表达式(Shih,et al.2005,2006)。例(23)为句子中不同层次的语意表达。
(23)波长def:length({phenomena|现象:cause={shiver|颤动}})
波长十公里def:length({phenomena|现象:cause={shiver|颤动}})={10公里}
波长十公里的电波def:{phenomena|现象:cause={shiver|颤动:agent={electricity|电},length={10公里}}
4.3广义知网的优点
广义知网在适合计算机的线性处理和人类实际的认知间建立一道桥梁,因此有下列优点:
第一,语意表达是精确且可依需要而增加广义知网的表达式,不限于语意描述的形态,而可以依据需要来增加语意表达的内涵。纯粹的本体知识架构,如词网,便无法提供概念细微的描述。
白老鼠def1:{鼠:color={white|白}}
def2:{鼠:color={white|白},
telic={experiment|实验:instrument={~}}}
第二,能够根据特征来分类概念。
如上述“白老鼠”一词的语意表达中,可以看到其功能为实验用工具、颜色为白色这两项主要特征。若寻找有相同功能性的事物,会有“培养皿”和“实验所”等同为实验用途的工具和地点的词汇。
培养皿def:{容器:telic={experiment|实验:instrument={~}}}
实验所def:{InstitutePlace|场所:telic={experiment|实验:location={~}}}而在语意分类中,虽然没有“白色动物”这一类,但我们也可以根据color={white|白}这一特征,找到“白熊、白鹅”等白色动物。
白熊def:{beast|走兽:attribute={big|大},
qualification={fierce|暴},
color={white|白}}
白鹅def:{bird|禽:location={waters|水域},
telic={eat|吃:patient={~}},
color={white|白}}
第三,接近核心的语意表达。
假如两个句子的表面结构不相同,但表示相同的语意,它们在广义知网的语意表达式中会有相似的结构。
(24)a.我从门市预购了衣服。
b.(这件衣裳还没上市)我已经向店铺定了。
例24(a-b)中两个句子的词汇与表面结构并不全然相同,但其语意表达式皆为如下所述:
{buy|买:agent={speaker|说话者},
possession={clothing|衣物},
means={MakeAppointment|约定},
aspect={Vachieve|达成},
source={InstitutePlace|场所:domain={economy|经济}}}
第四,语意分解后有多层次的表达。
在广义知网中,语意可利用已经定义过的概念来表达,于是可以将语意分解至全以义原表达的定义式。如“私塾”一词,包含了基本概念和义原在其中的定义式,如例(25),其展开后的定义式如def2所示:
(25)私塾def1:{学校:qualification={private|私},location={China|中国},TimePoint={past|过去}}
def2:{InstitutePlace|场所:telic={or({teach|教},{study|学习}):location={~},domain=
{education|教育}},qualification={private|私},location={China|中国},TimePoint=
{past|过去}}
但若如同知网仅以义原为定义的方式,则失去了从{学校}这一个概念继承而来的“教学场所”。
第五,广义知网可透过词网连接到其他语言,因此是通用的,但又可依语言的独特性质而不同。
例(26)“公布栏”中的“def1”是广义知网的表达式,而“def2”,便是转换定义式为词网同义词集的例子。
(26)公布栏def1:{facilities|设施:telic={announce|发表:location={~}}}
def2:{[(establishment)]:telic={[(announce,denote)],location={~}}}
第六,广义知网整合现有的本体知识架构,如词网、知网、框架网等。
我们将知网的义原和词网的同义词集对应起来,因此在表达语意时,多了同义词集为中介。未来我们也会将广义知网的事件结构与框架网的框架概念连结起来。
5.语意表达的困难
广义知网站在自然语言处理的立场,希望能有系统地呈现语意,并透过一些合成机制,适切地合成和分解语意。然而我们在表达语意时也遇到一些困难,像义面(meaning facet)虽是在同一个语意层面下,却难以全面地表达每一个义面。而较为专门的词汇,也不容易定义清楚。以下分几个方面来介绍这些困难。
5.1相同语意的不同层面与表达
词汇的语意常会包含不同的义面,若这些义面没有强到该区分成不同意义,那要选择哪一个义面为语意的定义就会有困难。例如“白宫”一词,可以指建筑物,或是美国政府办公场所,也常拿来当成政府组织单位,于是在定义语意时便有三个义原可以选择,包含{building|建筑物}、{InstitutePlace|场所}、{institution|机构}。但是不管选了哪一个,总会有另外两个义面被舍去。
名词在同一语意中能包含不同的义面,相似的情况在动词中则会因为说话者切入事件的观点不同,造成词汇所指的虽是个单一事件,却有不同的指涉。{state|状态}和{act|动作}在事件的本体架构中,虽在一开始就已经一分为二,但在语言的实际使用时也可能指涉相同事件,若以不同的观点切入事件,往往会有不同的义原和词汇来表达,如例(27)。
(27)生存def:{alive|活着}
过活def:{MakeLiving|谋生}
“生存”一词是用来描述状态,以{alive|活着}这个状态义原表达,而“过活”则是描写这个事件的动作,以动作义原{MakeLiving|谋生}描述。当然在汉语的事件动词中,也有以相同的词汇来表达不同的观点的情形。以例(28)的“降落”一事件为例,说话者可以指“降落”的过程如例(28a),或是“降落”的结果如例(28b)。这使得单一词汇指涉相同的事件时可能会有不同的语意。
(28)a.飞机勉强在暴风雨中降落时失事。
降落def:{GoDown|下去}
b.跳伞员安全降落于草地上。
降落def:{arrive|到达:means={GoDown|下去}}
另外,中文的词汇中,除了一般的词组之外,还常将成语应用于句子中。这些约定俗成的词组,虽然表达的是一件事或一句话,但当用于句中时,定义式便不适合以原本句子的事件方式直译,于是我们以衍生义为定义。请见例(29a)的句子和成语用法。然而在某些状况下,成语的应用又会采其直译的语意,如例(29b)中的应用,此时,衍生的语意在句子中就无法正确地表达。
(29)a.我们不该削足适履,随意套用他人经验。
削足适履def:{alter|改变:manner={improper|不当}}
b.灰姑娘的姐姐们削足适履,想穿进玻璃鞋当公主。
削足适履def:{cut|切削:patient={foot|脚},purpose={PutOn|穿戴:instrument={鞋子}}}
分辨词汇的不同语意是我们要做到的目标,但语意表达式却很难兼顾同一语意下的不同义面。要如何定义出正确的表达式,而不造成语意合成时过多的歧义负担,是我们面临的两难。
5.2需要基础知识才能表达的语意
在定义语意时,我们发现有一些需要知识才能理解的词汇,较难以广义知网现有的义原和关联来简单清楚地定义。这些词汇需要较复杂的知识背景才能理解,无法在定义式中呈现,例(30)中皆是这样的词汇。“奇数”和“负数”等是数学的相关词汇,虽语意内涵不相同,但我们皆仅能以{symbol|符号}定义,无法给予完整的语意表达。接下来的化学元素词或是语言学词汇,都有相似的情况。另外也有比较复杂的词汇语意,如例(31),“儒家”一词包含广泛的内容与明确的界定,但我们仅能以词汇中的某一特征做为简化的语意定义。
(30)奇数/偶数/负数/分母def:{symbol|符号:domain={math|数学}}
氦/氢气def:{gas|气}
水银/氧化镁def:{metal|金属}
虚词/主词def:{expression|词语}
(31)儒家def:{派别:predication={teach|教:agent={~},content={benevolent|仁}}}
广义知网的义原有限,因此无法精确地描述所有的语意,或者无法将词的中心语意归类到适切的义原。若是无止境地增加义原,虽可以较完善地定义语意,却形成过度复杂的系统。
5.3语意中的省略和推论
根据人类对世界的共同认识,语言本身便允许部分省略的弹性,如此的省略会减少解释的言语,且不会造成沟通上的困难,广义知网在定义语意时,也有相同的做法。
我们在3.2节中提到,关联的语意角色下可区分{RoleForObject|物体角色}和{RoleForEvent|事件角色},并有跨类修饰的语意角色。关于跨类的语意角色,便是在某种程度上的相互借用,让这些语意角色可以同时属于物体和事件。但基于对世界共同的认识,我们也可以将这些因为省略的相互借用,反推出原先的使用状况,正如同语言允许的弹性一样。以下举出一些省略和推论的例子来说明语意角色互相借用的情况。首先是省略事件而修饰物体的角色。
(32)a.快车def:{LandVehicle|车:speed={fast|快}}
b.邻居def:{human|人:predication={reside|住下:theme={~},distance={near|近}}}
(33)a.快车def:{LandVehicle|车:predication={VehicleGo|驶:speed={fast|快},theme={~}}}
b.邻居def:{human|人:predication={reside|住下:theme={~},location={house|房屋:distance={near|近}}}}
语意角色{speed|速度}原是修饰事件的角色,但亦可修饰物体,当用在物体上时,便是省略了某个与物体强烈相关的事件。以例(32a)的“快车”来说,“速度快”用在修饰车子上,就是省略了{VehicleGo|驶}这一个事件,其完整的定义方式应如例(33a)。而例(32b)“邻居”一词的定义中用到了修饰物体距离的角色{distance|距离},当用来修饰{reside|住下}时,便是省略了居住的地点,是指居住地点很近的意思,其完整定义式应如例(33b)。
另外,在指定方向时,也会有省略的情况。{direction|方向}这一语意角色所承接的属性值皆为函数,应用时可分为三类,包含绝对方向、说话者的相对方向以及参考物体的方向,其中最后一类往往会有比较多的省略,例(34a-c)分别为这三种类型的例子。
(34)a.旭日东升def:{rise|上升:theme={太阳},direction={east({earth|大地})}}
b.他往右边走def:{walk|走:theme={3rdPerson|他},direction={right({speaker|说话者})}}
c.兔子跳往森林去def:{jump|跳:theme={兔子},direction={location({森林})}}
例(34a)的“东”是绝对方向,指以地球为准则的东西南北;例(34b)的“右边”虽在句子中没有指出参考点,但我们都能理解是以说话者为参考点的方向;而例(34c)的参考物体是“森林”,也就是“森林的位置”,其所指的方向,其实有很大的省略,应是以主语(在这里便是“兔子”)为原点,物体位置(这里是“森林”)为参考点,两者间拉出一条线所指的才是真正表达的方向。
语言和语意中的省略极为常见,所幸我们对世界有共同的认识,大脑于是能轻易推论到正确的表达,于是这样频繁的省略并不会造成人们彼此之间沟通的困难,或者错误的理解。
6.广义知网未来的方向
知网提出了表达词汇知识的架构,启发我们可以透过扩展这架构来达到自然语言处理的目的。我们基于这模型架构建置了广义知网架构,将义原归类到语意类型,也定义了类型之间的关系,并依此定义了八万多笔词汇,加上这样的语意定义有一致的表达方式,计算机于是能自动化地处理相关语意。
语意合成是自然语言处理中的重要议题,我们提出了一套一致的表达形式,在不同语言层次的语意中,同时适用于词汇里的实词和虚词,如此以助语意的合成和分解。新的概念可用已定义过的概念来表示,且定义式可自动分解至最底层,同时有可依需要而扩增的定义机制,使得语意可以较为精确地加以定义。广义知网接近核心语意的表达式,对于同义词或改述的句子皆能有相近的表达。虽然语意中的省略会造成误解的状况,我们将尽可能利用广义知网的架构,藉由自动推论,来填补这样的语言省略。
从自然语言中自动化地抽取知识,至今仍有许多困难之处。除了语意解歧,还有句法结构和相对应的语意表达无法完全一致的问题。我们需要设立规则,希望能够将粗略的句法成功地对应到细致的语意关联上。另外,如同前述,填补省略的过程也必须整合到这个机制的一部分。而将不同表面结构词句的语意表达标准化至核心的细致语意,这项目标也是不可或缺的。广义知网也希望能厘清义原间的关系,建立事件合理推论的成因和结果,连结状态事件和属性值的关系,并且将万物的多重义面以特征方式加注,以期广义知网架构有完整的义原关系和真实世界的部分知识。
①以上三个词汇网络的网址分别是:http://www.icsi.berkeley.edu/~framenet/;http://wordnet.princeton.edu/;http://www.keenage.eom/[accessed17,Dec.2012]。
②更详细的基本概念与多层次的表达方式介绍,请见陈克健等(2005)的文章。
③网站点击日期为2012年12月12日。
④广义知网的语意架构为指称事物和语意关联的两大架构;而就语意的功能性来看,则分为主体、属性、属性值三部分。
⑤定义式中的水纹号{~}表示指涉到外一层的语意中心,在这个例子中,patient同一层的语意中心是{foster|饲养},而其外一层的语意中心则是{bird|禽}。这样子的指涉,所表达的意思是{bird|禽}为{foster|饲养}的受事者。
⑥陈怡君等(2005)概略介绍虚词和实词的语意探讨,关于虚词中的情态词、时间词表达,还另有Chung等(2007)与Huang和Chen(2009)两篇文章有较深入的讨论。
⑦在例(18-19)中的VH表示状态不及物动词,VA为动作不及物动词,VC是动作及物动词,而Na则是普通名词。更详细的词类介绍,请参考词库小组技术报告93-05。
⑧关于句子层次的语意,参见Huang等的研究(Huang and Chen 2008; Huang,et al.2008b)。
⑨在广义知网的表达式中,SemanticRole({entity})与{SemanticRole({entity})}两个有大括号的差别,前者指的是事物的属性,后者指的是属性值,于是在使用上成为{entity|事物}。