从格语法到框架网络,本文主要内容关键词为:语法论文,框架论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1.格语法与题元角色关系
在理论语言学和自然语言处理中,句子中单词与单词之间的语义关系,有许多不同的表示方法。例如,我们可以用“格”来表示语义关系,采用AGENT(施事者),PATIENT(受事者),BENEFICIENT(受益者)等深层格作为标记;也可以用配价语法来表示语义关系,采用行动元(actant)和状态元(circonstant)等作为标记;还可以用谓词论元关系来表示语义关系,采用Arg0、Arg1、Arg2、Arg3等作为标记。这些表示方法虽然各有不同,但是都可以归结为“题元角色关系”。
题元角色的标记基本上来自菲尔摩(Charles Fillmore)20世纪60年代在《“格”辩》(The case for case)中提出的格语法的格,菲尔摩提出的格有施事格(Agentive)、工具格(Instrumental)、客体格(Objective)、处所格 (Locative)、承受格(Dative)和使成格(Factitive)。菲尔摩本人从来没有说过他提出的格一共有多少个。经过我们归纳,在1966年到1977年间,菲尔摩一共提出了13个格。除了原来的施事格、工具格、客体格、处所格、承受格之外,还增加了感受格(Experiencer)、源点格(Source)、终点格(Goal)、时间格(Time)、行径格(Path)、受益格(Benefactive)、伴随格(Comitative)和永存格/转变格(Essive/Translative)。原来的使成格并入了终点格。现介绍一些主要的格的意义:
施事格:表示由动词确定的动作能察觉到的典型的动作发生者,一般为有生命的人或物。
工具格:表示动词确定的动作或状态所涉及的无生命的力量或客体。
承受格:表示由动词确定的动作或状态所影响的有生物。“承受格”常常被翻译为“给予格”,后者的字面含义容易引起误解。
使成格:表示由动词确定的动作或状态所形成的客体或有生物,或者是理解为动词意义的一部分的客体或有生物。
处所格:表示由动词确定的动作或状态的处所或空间方向。
客体格:表示由动词确定的事物或状态所影响的事物,它是由名词所表示的事物,其作用要由动词本身的词义来确定。客体格后来改称“受事格”(Patientive)。
受益格:表示由动词所确定的动作为之服务的有生命的对象。
源点格:表示由动词所确定的动作所作用到的事物的来源或发生位置变化过程中的起始位置。
终点格:表示由动词所确定的动作所作用到的事物的终点或发生位置变化过程中的终端位置。
伴随格:表示由动词确定的、与施事共同完成动作的伴随者。
格是格语法解释语义和句法关系的基本工具,可是确定有多少格却十分困难。菲尔摩本人从来就没有列出一个完整而明确的格清单,在不同的文章中,格的数目各不相同,连名称也经常改变。我们上面举出的是菲尔摩经常使用的10个格。
格语法在自然语言处理中广为使用,在机器翻译、人工智能等领域发挥了作用,是语言信息处理重要的基础理论。
20世纪70年代中期以后,格语法的发展进入了第二阶段。第二阶段的格语法主要做了如下修改:菲尔摩把第一阶段表示格角色的结构叫做底层结构,底层结构由格角色构成,经过转换就得到表层结构;而在第二阶段,由格角色构成的底层结构,在转换之前还必须经过深层主语和深层宾语等语法关系的分配,从而得到深层结构,深层结构进入转换部分,经过转换得到表层结构。这样一来,每个句子就有格角色和语法关系两个分析平面,它们把句子和句子所描述的事件联系起来,解释句子的语义和句法现象。
菲尔摩提出,句子描述的是场景,场景中各参与者承担格角色,构成句子的底层结构。底层结构经过“透视域”的选择,一部分参与者进入透视域,成为句子的核心成分,每个核心成分根据突显等级体系确定其语法关系,其他的参与者不一定能进入句子,即使它们出现在句子中,也只能成为外围成分。
场景是语言之外的真实世界,如物体、事件、状态、行为、变化,以及人们对真实世界的记忆、感觉、知觉等。语言中的每一个词、短语、句子都是对场景的描述。当人们说出一个词、短语、句子或者一段话语时,都是确定一个场景,并且突出或强调那个场景中的某一部分。例如,动词“写”描写的是下面的场景:一个人在某个物体的表面握着一个顶部尖锐的工具使其进行运动,在物体表面留下痕迹。在这个场景中有4个实体(即4个参与者):发出这个行为的人、实施这个行为所凭借的工具、承受这个行为的物体表面、这个行为在物体表面留下的痕迹。这是在没有上下文的时候,单独一个动词“写”所描述的全部内容,所能产生或引发的全部想象。句子的功能在于突出被描述的主体。假如我对你说,“小王正在写”,那么,这个句子所引发的场景就不同了。这是有关真实世界中的一个事件。当听到这个句子时,你会建立起这样一个场景:小王正握着一支笔,在某一物体表面移动,并且在物体表面留下痕迹。这个场景仍然有4个实体:书写人(小王)、书写工具(笔)、书写物体的表面(纸)、在表面留下的痕迹(字)。但是,这个场景突出了书写人小王这一实体。如果我说“小王正在写信”,那么,这个句子引出的场景仍然只有4个实体,但是突出了书写人(小王)和在表面留下的痕迹(信)2个实体。如果我说“小王用粉笔在黑板上写”,这个句子引发出的仍然是4个实体,但是突出了书写人(小王)、书写工具(粉笔)和物体表面(黑板)3个实体。如果我说“小王用粉笔在黑板上写了一个数学公式”,这个句子引发出的实体仍然是4个,不过,与前面3个句子不同的是,这4个实体都突出了:书写人(小王)、在表面留下的痕迹(数学公式)、书写工具(粉笔)、物体表面(黑板)。
语义联系着场景,但是场景并不等于语义,场景必须通过语言使用者的透视才能进入语言,才能与语义发生联系。我们说出每一个句子或者每一段话语,都有一个特定的透视域。在一段话语的任何一个地方,我们都是从一个特殊的透视域去考虑一个场景,当整个场景都在考虑之中的时候,我们一般只是注意场景的某一部分。例如,商务事件有4个参与者:买主、卖主、款项和货物,款项有时还可以再进一步分析为现金和赊账两种情况。一个原型商多事件应该包括上述的内容,但是,当我们谈论这个事件时,所使用的单个句子要求我们对事件选择一个特殊的透视域。例如,想把卖主和货物置于透视域,就用动词“卖”;想把买主和款项置于透视域,就用动词“购买”,如此等等。这样,任何人听见并理解所听到的某一句话时,心目中就有一个包括商务事件所有必要方面的场景,然而,只有事件的某些方面被置于透视域中。
进入透视域的成分成为句子的核心成分。每一个核心成分在深层结构都有一种语法关系,担任句子的主语或直接宾语。没有进入透视域的成分不一定出现在句子中,即使出现的话,也只是作为句子的外围成分。外围成分通常由介词、状语或者小句引入。
核心成分的突出情况是不同的,菲尔摩提出如下原则来确定核心成分的突出等级:
1)主动成分级别高于非主动成分;2)原因成分级别高于非原因成分;3)作为人的(或有生命的)感受者的级别高于其他成分;4)经历改变的成分的级别高于未经历改变的成分;5)完全的或个性化的成分的级别高于该成分的某一部分或无个性化的成分;6)实际形体的级别高于背景成分;7)有定成分的级别高于不定成分。
这里的等级是按照突出程度递减的顺序来排列的,主动成分的级别高于其他任何成分,原因成分的级别高于除了主动成分之外的任何一种成分,作为人的感受者的成分的级别高于除了主动成分和原因成分之外的任何一种成分,依此类推。因此,在确定核心成分的语法关系时,应该按照突出程度的顺序来考虑。
当核心成分确定为一个时,场景中最高的成分就是主语。当确定核心成分有两个时,应该按照它们在等级中的相对位置来分配主语和直接宾语,级别高的成分为主语,级别较低的成分为直接宾语。当一个动词的主语已经确定,可以在其他两个事物中选择一个作为直接宾语时,在突出等级中级别高的事物占有优先地位。如果两个成分的突出程度相同,那么,它们中的任何一个都可以进入透视域。不过,这种突出等级的划分还处于假设阶段。正如菲尔摩所说的:“在现阶段,这一切还纯属推测。”
格语法中的深层格具有普遍性,适用于描写各种自然语言的语句。一旦用格语法对句子结构进行了格的描写,就能对句子的表层关系和性质做出各种推断,例如,推断主语是什么,能否形成一个主谓结构,如何安排句子中的词序,等等。
菲尔摩在1977年指出,能够描述同一商业事件的不同的动词可以选择不同的方式来表达事件的参与者。例如,在John和Tom之间涉及3美元和1个三明治的交易可以用下面的任何一种方式来描述:
(1)a.John bought the sandwich from Tom for three dollars.
b.Tom sold John the sandwich for three dollars.
c.John paid Tom three dollars for the Sandwich.
在这些句子里,动词buy、sell和pay从不同的视角来表达商业事件,并选择潜在参与者与题元角色的不同的映射来实现这种视角。可以看出,这3个动词具有完全不同的映射。这个事实告诉我们:动词的语义角色必须在动词的词典条目中列出,从潜在的概念结构是不能预测的。
根据这些事实,许多研究者认为,在自然语言处理系统的词典中,需要分别列出每个动词的句法和语义组合的可能性,不能仅靠句法功能和语义关系之间的对应、进行简单的逻辑推理来解决语义分析问题,而动词的句法和语义组合的可能性应该通过“框架”(frame)来描述。
2.框架网络
由于语言中句法功能和语义结构之间的对应关系因单词的不同而不同,因此,菲尔摩深切地认识到需要针对具体的单词来描述句法功能和语义结构之间的对应关系,建立描述句法和语义结构的框架。基于这样的认识,在20世纪末年,菲尔摩提出了“框架语义学”(frame semantics),从格语法进一步走到了框架网络。
框架网络(FrameNet)是菲尔摩主持的一个课题。这个课题的目的在于研究英语中语法功能和概念结构(也就是语义结构)之间的关系,建立用于自然语言处理的词汇知识库。这个课题得到美国国家科学基金 (NSF)的多年持续资助。课题名称是“框架网络++:一个在线的词汇语义资源及其在语音、语言科技方面的应用”,时间是2000年9月至2003年8月。由于这个课题影响很大,2003年8月之后仍然在继续进行,并且不断取得新的成果。
这个框架网络根据框架语义学的理论,依靠语料库的支持,正在建立一个在线的英语词汇资源。截至 2005年10月,整个框架网络的规模至少包含7600个词元(lexical unit),包括动词、名词、形容词,覆盖很广的语义领域,对每个词位(lexeme)的每个涵义都要详尽地描述它的语义和句法的各种结合可能性,也就是它的配价。这些配价是通过手工标注例句以及自动地对标注结果加以组织和整理而得到的。
框架语义学的中心思想是词的意义的描述必须与语义框架相联系。框架是信仰、实践、制度、想象等概念结构和模式的图解表征,它为一定言语社团中意义的互动提供了基础。
框架网络为自己确立的任务是:
1)描述给定词元所隶属的概念结构或者框架;
2)从语料库中抽取包含某个词的句子,并从中挑选能够例示具有某种给定意义的词元的例子;
3)通过把与框架相关的标记(也就是“框架元素”)指派到包含词元的句子中的短语上,使挑选出来的句子得到标注;
4)准备最终的标注总结报告,简明显示每个词元在组合上的可能性;这些被称做“配价描述”。
框架网络数据库的格式是独立于开发平台的,因而可以通过网络和其他交互手段进行显示。
下面,我们通过分析一个简单的例子,使大家对语义框架的做法有一个较好的理解。这里请看一组与称之为“复仇”框架相关的词。唤起“复仇”意义的词元包括:avenge(复仇)、avenger(复仇者)、get back(at)(实行报复)、get even(with)(与……算账)、retaliate(报仇)、retribution(报应)、revenge(报仇〈名词〉)、revenge(报仇〈动词〉)以及vengeance(报仇)。“复仇”必须与为了回应某个不应该的遭遇而施加的某种惩罚相关。一个“复仇者 (AVENGER)”对一个“冒犯者(OFFENDER)”施加某种“惩罚(PUNISHMENT)”,以回应冒犯者早期所做的坏事,即某种“伤害(INJURY)”。“复仇者”也许就是“被伤害方”,即遭受伤害的人,也许不是。对“冒犯者”所造成的“伤害”的裁断与法律无关。这就要求把复仇概念与法律许可的“惩罚”区分开来。复仇情景实例中的事件和参与者,如“复仇者”和“惩罚”,被称做“框架元素”。请看下列包含“复仇”框架词元并做了标注的例句:
(2)[Ethel AVENGER]eventually got even[with Mildred OFFENDER][for the insult to Ethel's family INJURY]
(3)Why hadn't[he AVENGER]sought to avenge[his child INJURED PARTY]?
(4)Yesterday[the Cowboys AVENGER]avenged[their only defeat of the season INJURY][by beating Philadelphia Eagles 20-10 PUNISHMENT].
(5)The Old Bailey was told[he AVENGER]was desperately in love and wanted to get back[at the woman OFFENDER]["for ending their relationship" INJURY]
(6)[The USA AVENGER]retaliated[against the harassment of its diplomats INJURY][by expelling 36 staff from the Iraqi embassy in Washington on Aug.27 PUNISHMENT]
上述例子拥有所需的用以标注主要参与者的各种框架元素。现在我们来看不同的框架元素在语言上是怎样实现的,即框架元素怎样与句法成分相关。有时不同的词元会有不同的可能性。
以上述框架中的动词为例,在主动语态的句子中,“AVENGER”是主语,“OFFENDER”则典型地出现在介词短语当中。介词词汇形式的不同,取决于词元:与get even搭配的是with,如例(1)所示,与get back搭配的是at,如例(4)所示。“INJURY”大多数出现在for介词短语中,但也可以是动词revenge和avenge的直接宾语。“INJURY”的表达可以从原始事件(如my brother's murder,我哥哥的谋杀)的角度理解,也可以从对被伤害方的影响上理解(如my brothers' death,我哥哥的死)。“PUNISHMENT”典型地表现为一个包含动名词补足语的by短语。最后,“INJURED PARTY”有时表现为一个独立成分,特别是像例(2)那样充当 avenge的直接宾语。
相比较而言,某些成分与动词框架之间具有更为特定的语义联系。因此,框架网络区分了中心框架元素和非中心框架元素。框架网络的概念主要是语义的,关注某个概念对于框架的意义理解是否必要。在框架网络中,与动词描写密切相关的配价模式只建立在中心框架元素的基础上。中心框架元素大体上相当于传统句法学中的论元,非中心框架元素包括各种类型的外围修饰语(如事件或者状态发生的时间、地点等),它们或多或少地与各种类型的事件或者状态相协调,如上述例(3)中的时间副词yesterday。尽管任何“复仇”行为很明显地都具有空间和时间的属性,但是时间修饰语yesterday只是动词avenge的非中心框架元素,它仅仅表示动词avenge发生的时间,而并不参与动词avenge的行为,与动词avenge的行为没有特定的意义联系。虽然框架网络今后的二级目标还要对所考察的句子提供更加细致的语义分析,标注者还要给某些成分标上适当的非中心框架元素标记(例如时间、地点等),但是,在目前的框架网络中,对于相关动词的基本配价的描述只包括那些中心框架元素。
由此可见,语义框架是一个类似于“脚本”那样的结构,结构中的各个成分由词汇单元的意义联系起来。
每一个框架是框架元素的集合。框架元素包括框架的参与者和框架的道具,它们是题元角色。在所给定的涵义下,词汇单元的框架语义要描述框架元素的结合方式和在框架中的分布情况。
每一个涵义都要描述它的配价,配价不仅要表示框架元素组合方式的集合信息,而且还要表示在有关语料库中检验过的语法功能信息和词组类型信息。
标注好的句子是数据库的一个组成部分。它们是用XML语言置标的,这些句子是词汇条目的基础。这样的格式可以支持采用框架、框架元素以及它们的组合来进行搜索。
框架网络数据库既可以作为词典来使用,也可以作为叙词表(thesaurus)来使用。
作为词典来使用时,词典中词目的信息包括:
该单词的定义:大部分的定义来自简明牛津词典(Concise Oxford Dictionary第10版)。
标注好的例句:这些例句来自语料库,它们应该是语言学家精选的,在词典的“标注报告”中加以说明。
框架元素表:这个表中要说明框架元素在标注报告中的出现情况以及它们表示的句法关系。
配价模式:要说明该单词可以具有的配价模式,并说明每一个配价模式中的框架元素相应的词组类型和句法功能。
索引:按照字母顺序排列。
作为叙词表来使用时,每一个单词都与它们所参与的语义框架相链接,而框架反过来又与词表和其他相关的框架相链接。
框架网络所使用的语料库是包含1亿词的英国国家语料库(British National Corpus),并取得了牛津大学出版社的使用许可。语义标注是使用MITRE公司的Alembic工作平台进行的,句法标注是使用他们自己的标注程序进行的,这个程序可以给每一个短语标注上语法功能信息和短语类型信息。框架网络中的每一个条目都可以与其他的词汇资源相链接,这些词汇资源包括词网的SYNSET和COMLEX的次范畴化框架。
框架网络中的每个条目要列出该条目所有的论元,包括题元角色及其词组类型和语法功能。
框架网络包括若干个领域,每个领域又包括若干个框架,每个框架由若干个题元角色来定义。
例如,在前期的框架网络中,COGNITION(认知)这个领域包括以下3个框架:
1)STATIC COGNITION(静态认知)框架:如believe、think、understand等;
2)COGITATION(沉思)框架:如brood、ruminate;
3)JUDGMENT(判断)框架:如respect、accuse、admire、rebuke。
在领域COGNITION的各个框架中都有题元角色COGNIZER(认知者),这个题元角色在不同的框架中可以使用不同的名字来引用,例如在JUDGMENT框架中,引用COGNIZER的名字叫做JUDGE(判断者),而在COGNITION框架中则有别的名称。此外,在JUDGMENT框架中的题元角色还有EVALUEE(被评价者)、 REASON(原因)和ROLE(作用)。这些题元角色的意思从下面的关于动词respect的例句中可以看出来(表示题元角色的单词用方括号标出):
(7)JUDGE:[John]respects Kim for being so brave.
(8)EVALUEE:John respects[Kim]for being so brave.
(9)REASON:John respects Kim[for being so brave].
(10)ROLE:John respects Kim[as a scholar].
这些题元角色也就是相应框架的框架元素。
在框架网络中,每一个条目还要标注词组类型(如NP、PP)和句法功能(如Subj、Obj)。
例如,表示判断的动词appreciate有动态认知的涵义和静态认知的涵义,分别见表1和表2。
表1.动态认知的涵义:to be thankful or grateful for
a.JUDGE
REASON EVALUEE
NP/SubjNP/Obj PP(in)/Comp
I still appreciategood manners
in men.
b.JUDGE
EVALUEEREASON
NP/Obj NP/SubjPP(for)/Comp
I could appreciateit for the music
alone.
c.JUDGE REASON
NP/SubjNP/Obj
I appreciate your kindness.
d.JUDGE
EVALUEEROLE
NP/SubjNP/Obj PP(as)/Comp
I did not the artist as a dissenting
appreciate voice.
2.静态认知的涵义:understand
a.COGNIZERCONTENT
NP/SubjSfin/Comp
Theyappreciate that communication is
a two-way process
b.COGNIZERCONTENT
NP/SubjSwh/Comp
She appreciatedhow far she had fallen from grace.
从表1和表2的例句中,我们还可以看出,在题元角色与句法功能(或词组类型)之间存在着对应关系。题元角色JUDGE、COGNIZER一般是主动句中的主语Subj,题元角色ROLE一般是以as为介词的介词短语PP,题元角色CONTENT一般是从句S(句子)。这样的信息,对于句法驱动的自动语义分析是十分有用的。
在框架网络中,还可以使用核心依存图(kernel dependency graph,简称KDG)来表示词项依存关系的基本面貌,而略过那些与依存关系无关的成分。例如,“The professor demonstrated the proof to the class”的核心依存图如下(省略了冠词the):
在标注中,值得注意的是,一个短语的句法核心并不总是最重要的框架唤起者,依存短语的句法核心也不总是这些短语意义的最重要的指示者。这些现象包括:
1)“支撑动词”:一个动词的句法核心在语义方面的作用很小,其主要的框架引介者是与支撑动词有关的名词。
Have、do、make、take、give等“轻动词”是支撑动词最明显的例子。它们的使用频度很高,并且可以与大量的事件名词搭配,而对于名词所唤起的场景几乎没有语义上的贡献。例如,have desire、have an argument、 make an argument、make a complaint、give a speech等。
除了轻动词之外,其他的支撑动词与事件名词的搭配范围很窄,如pay与attention,say与prayers。
一般情况下,支撑动词不作为核心依存图的谓词核心,而应当把事件名词作为谓词核心。
例如,“The team has the desire to sign the player”的核心依存图如下:
在这个句子中,the team是作为外部论元(记为EXT)被引介的,充当have的主语,因此,我们在框架元素experiencer的核心前加EXT。我们用改变箭头方向的方式来显示,在句法上名词desire仍然是支撑动词have的依存成分。
2)零形式框架元素:有时,核心框架元素既不是谓词的依存成分,也不能通过槽填充得以发现,因此,可明显感觉到的概念成分在句子中却没有相应的形式。这种情况叫做零形式框架元素。有3种:
a.结构零形式框架元素(CNI):例如,祈使句中省略的主语,被动句中省略的by短语中的施事。
b.有定零形式框架元素(DNI):缺失的元素一定是在篇章或者上下文中已经理解了的。例如,“John left”中,“离开的地方”一定可以从上下文中得到。核心框架图如下:
c.无定零形式框架元素(INI):缺省的元素的自然类型或语义类型都能够被理解,没有必要找回或者建立一个特定的篇章所指。例如,“The committee replaced Harry with Susan”省略with Susan之后,变为“The committee replaced Harry”,核心框架图如下:
3)透明名词:一个名词短语的句法核心成分代表了数量成分、类型或者容器,它的补足语则包含了这个名词短语的语义核心。例如,several pints of water中的pints、a kind of asbestos中的kind、this type of filter中的type都是透明名词。在核心框架图中,我们应当注意挑选与透明名词在语义上相关的名词作为核心。
句子“The majority of tobacco producer use a kind of asbestos in this type of filter”的核心框架图如果画为如下形式,其语义就很模糊:
但是,如果画为如下形式,提供的信息就多得多:
4)框架元素融合:与两个框架元素相关的信息由一个成分来表达。在有些框架中,成对的框架元素非常紧密地联系在一起,因此,语法上可以容许省略其中的一个,因为被省略的那一个可以从另一个实现了的框架元素中推出来。例如,“I hired[][as my ]”与“I expect to hire two new assis”。在第二个句子中框架元素EMPLOYEE与POSITION融合了。它们的核心框架图如下:
在框架网络中,需要对已经标注好的句子以及这些句子的配价模式进行深入的研究。框架网络课题组为此开发了相应的软件工具,这样的软件工具可以从标注语料库中自动地生成两个报告:一个叫做“词元标注报告”,一个叫做“词条报告”。这两个自动生成的报告可以帮助研究人员进行进一步的深入研究。
在自动生成的“词元标注报告”中,首先列出该词元的框架元素表,然后,展示出用这些框架元素标注的包含该词元的例句,这些例句是从语料库中自动抽取出来的。例如,“复仇”框架中词元avenge的标注报告如下:
框架元素表为:AVENGER、INJURED PARTY、INJURY、OFFENDER、PUNISHMENT。
包含词元avenge的标注例句为:
可以看到,在这些自动抽取的例句中,都进行了框架元素的标注,其中,DNI是有定零形式框架元素,尽管在例句中没有出现,但仍然应当标出。
通过上面带标注的3个例句,我们可以归纳出词元avenge的两个配价模式:
1)[AVENGER]-[INJURED PARTY]-[PUNISHMET]-[OFFENDER]
2)[AVENGER]-[INJURY]-[PUNISHMENT]-[OFFENDER]
如果我们从语料库中自动地抽取出更多的标注例句,还可以归纳出第三个配价模式:
3)[AVENGER]-[INJURED PARTY]-[INJURY]-[PUNISHMENT]-[OFFENDER]
这3个配价模式反映了avenge这个词元的句法语义特性。显而易见,这样的配价模式对于自然语言处理是非常有价值的。
框架网络的软件工具还可以自动地生成“词条报告”。自动生成的词条报告包括“框架元素句法实现表”和“词元的配价模式表”,这两个表格分别总结了框架元素的句法实现情况以及词元的配价模式。
“框架元素句法实现表”可以展示某一词元的全部核心框架元素、被标注的例子的数目以及它们的句法实现情况。例如,词元avenge的框架元素的句法实现如表3。
其中,exx表示在语料中出现的实例。例如,第一行中的33 exx表示在语料中AVENGER这个框架元素出现了33个实例。
“词元的配价模式表”可以分别说明模式中框架元素的词组类型(如NP、VP等)和句法功能(如Ext、Obj、Comp等)。
表4(见下页)是词元avenge的配价模式,它说明了在avenge的3个配价模式中的词组类型和句法功能的分布情况。
这些通过软件自动生成的“词元标注报告”和“词条报告”,以直观的形式为我们提供了充分的语言信息,有助于我们对相关词元的句法和语义功能进行深入的分析和研究。
除了这些能够自动生成标注报告的软件工具之外,框架网络课题组还开发了一个强大的以网络为基础的数据库查询工具,叫FrameSQL,这个工具是由日本Senshu University的Hiroaki Sato教授协助开发的,可通过链接框架网络的网页得到。 FrameSQL能够帮助使用者实现多个搜索参数的数据库查询,如框架名称、框架元素名称、语法功能等。例如,可以查询被称做“惩罚”的框架元素以介词短语的形式出现的任意框架的所有句子。(注:对框架网络有兴趣的读者可以访问下面的网址:http://www.icsi.berkeley.edu/~framenet。)
3.结语
上面我们描述了从格语法到框架网络的发展过程,可以看出,菲尔摩对于题元角色关系的研究有了长足的进步,我们认为,这些进步主要体现在以下三个方面:
第一,框架网络中使用的框架元素比格语法中使用的13个格更加丰富,更加具体,因而也更加便于用来描述单词的句法语义功能,这使我们对题元角色关系获得更加深刻的认识。第二,格语法研究所依赖的语言事实主要来自语言学家本人的语言知识及语感,难免带有主观性和片面性,而框架网络的研究则是在大规模标注语料库的基础上进行的,能够客观地反映语言现象的真实面貌,有助于避免主观性和片面性。第三,格语法的研究方法主要是靠语言学家的内省和对语言现象的洞察力,而框架网络的研究则使用计算机提供各种软件工具,如“词元标注报告”和“词条报告”的自动生成工具、以网络为基础的数据库查询工具等等,这些软件工具成为研究人员的有力助手,能够提高工作效率。
表3.词元avenge的框架元素
框架元素标注实例数
句法实现情况
AVENGER
33 exx NP.Ext 25 exx
....7 exx
Poss.Ext 1 exx
INJURED
14 exx NP.Ext 4 exx
PARTYNP.Obj 11 exx
INJURY21 exx NP.Ext 4 exx
PP.Comp 2 exx
NP.Obj 13 exx
....2 exx
OFFENDER 33 exx PP.Comp 3 exx
....30 exx
PUNISHMENT33 exx PPing.Comp 5 exx
PP.Comp 3 exx
....25 exx
表4.词元avenge的配价模式
标签:语义分析论文;