信息检索系统的语义资源规划_自然语言处理论文

面向信息检索系统的语义资源规划,本文主要内容关键词为:语义论文,检索系统论文,资源论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 问答等检索系统需要哪些语义资源

问题回答(question answering)等信息检索系统如果想要有效地运作,那么就必须具有识别相似概念(similar concepts)和进行蕴涵推理(entailing inference)的能力。例如:(注:例(1)引自Palmer(2006a)和Loper et al.(2006),例(3)引自Pazienza et al.(2006)。)

(1)a.Where are the grape arbors located?

(1)b.Every path from back door to yard was covered by a grape-arbor,and every yard had fruit trees.

(2)a.颐和园在哪儿?

(2)b.颐和园坐落于北京大学的西面。

(3)a.What country does Israel fear for its nuclear ability?

(3)b.Iran scares Israel with its nuclear ability.

(4)a.国家智能技术与系统实验室挂靠在什么单位?

(4)b.清华大学计算机系设有国家智能技术与系统实验室。

如果系统懂得“A在B”与“A坐落于B”同义、“A挂靠在B”蕴涵(entail)“B设有A”,那么就可以从文本中找到跟问句中的关键词虽然字面不同、但是意义相同的答句。

要使系统具有识别相似概念和进行蕴涵推理的能力,必须为之配备相应的语义资源。在最低程度上,这种资源至少应该包括:1)汉语词网(Chinese WordNet,简称CWN),提供基本的词汇概念及其关系信息;2)汉语谓词网(Chinese VerbNet,简称CVN),提供谓词的论元角色及其句法配置信息;3)汉语命题库(Chinese PropBank,简称CPB),提供谓词的论元结构在真实文本中如何实现为命题结构的信息。

2 CWN:汉语词义概念关系知识库

CWN应该在普通语言学和认知心理学理论的指导下,为汉语的词义及其概念关系建立词汇知识数据库,它必须用一致的形式来为汉语的词汇知识建立模型。

从功能上讲,CWN必须对于应用系统的词义消歧(word sense disambiguation)、相似概念识别、词义中所隐含的有关推论关系(reasoning inference)的自动发现等方面有实质性的贡献。这样的设计目标,决定了CWN的下列知识内容、规模和结构上的特点。

从知识内容和规模上讲,英语的WordNet收录将近150,000个词,包括名词、动词、形容词和副词。相应地,汉语的CWN也至少要收录150,000个词,包括名词、方位词、时间词、处所词、数词、量词、数量词、动词、形容词、状态词、区别词、指代词和副词、连词、介词、助词、语气词、感叹词、拟声词等所有的词类。可资参照的是,中国社会科学院语言研究所编的《现代汉语词典》(第5版)收词约65,000条,正在编的《现代汉语大词典》计划收词约120,000条。如果加上网络等媒体上出现的新词新语,150,000个词这种规模可能比较合适。每一个词,都应按照义项(sense)注明其词类属性。

从组织方式上讲,CWN跟WordNet一样,所有的词都按照其义项,以synset(同义词集合)的形式来组织。这样,一个多义词就按照其义项所代表的概念,在多个synset中出现。每一个synset表示一个词汇化的概念,这个概念由一组同义词和对这组同义词的解释来表达。还要表示不同的synset之间的几种基本的语义连接(semantic links)关系,比如:反义关系(antonymy)、上义—下义关系(hypernymy/hyponymy)、部分-整体关系(meronymy/holonymy)、蕴涵关系(entailment)和致使关系(causation)等。这样,就能以synset之间的各种关系所形成的网络的形式,来构建一个词库(lexicon)。(注:

关于WordNet,详见Fellbaum(ed.)(1998);http://wordnet.princeton.edu/,http://www.cogsci.princeton.edu/~wn/。)并且,CWN的知识内容和体系结构的设计,还要考虑到跟某种本体知识(ontology)的相容和衔接;以便将来更好、更方便地为新一代的语义网(semantic web)技术服务。

从实践上讲,董振东先生对知网(HowNet)的研制,为我们建设CWN提供了宝贵的经验和榜样。知网是一个以汉语和英语的词语所代表的概念为描述对象、以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。(注:关于HowNet,详见董振东、董强《知网》;http://www.keenage.com/zhiwang/c_zhiwang.html。)另外,台北中研院的双语知识词网(Sinica Bow),是一个本体知识和词汇知识相结合的数据库,可以为我们建设新一代基于汉语本体知识的词汇和概念关系知识库提供借鉴。(黄居仁2005)

从理论上说,Pustejovsky(1995)等倡导的生成词库理论,可以为我们建设CWN提供科学的方法论指导和词义描写与组织的理论框架。下面对这个理论略作介绍。

生成词库论(Generative Lexicon Theory)面对下列经验上的难题:1)词怎样能够在不同的语境中具有不同的意义(meanings)?2)新的义项(senses)怎样能够在组合时浮现出来(emerge)?3)语义类型怎样可预测地映射到语言的句法形式上?

这种理论企图借助一种语义分类系统来完成对上述问题的解决,这种语义分类系统把名为物性结构(qualia structures)的生成因子编码进入每一个词项。对这些物性结构进行操作的是组合规则,这些规则中包含着能够抓住一个表达式的意义的语境限定[因素]的特定的机制。(Pustejovsky 1998:289)生成词库论从book、lunch和exam等词的逻辑多义性(分别突出名词意义的不同侧面)开始考察:

(5)a.Marydoesn't believe the book. (5)b.John sold his book to Mary.

(6)a.I have my lunch in the backpack.

(6)b.Your lunch was longer today than it was yesterday.

(7)a.The phone rang during my appointment.(7)b.My next appointment is John.

其中,同一个名词采用了不同的指谓方式:book分别指命题内容和有形物体,lunch分别指食品和吃饭事件,appointment分别指约会事件和约会个体即约会者。(Pustejovsky 1998:291-292)(袁案:汉语“尽信书不如无书”中的两个“书”,堪与例(5)的两个book相比。)生成词库论的两个关键性假设是:i)揭示意义之间的逻辑联系,等于解释了语言中什么样的意义组合是可能的;ii)不是假定一个固定的语义原语(primitives)集合来描写词的意义,而是假定一组数目固定的用以构建语义表达的生成机制。因此,其语义语言(semantic language)是通过生成语义表达结构的规则来定义的,而不是通过语义原语词汇表自身。(Pustejovsky 1998:293)生成词库论设定了语言表达式的四个基本的平面:

1)论元结构(argument structure):指定逻辑论元的数目和类型;2)事件结构(event structure):定义一个表达式的事件类型及其子事件结构;3)物性结构(qualia structure):指出一个词项的述谓意义的结构差别;4)词汇继承结构(lexical inheritance structure):识别一个词汇结构怎样跟类型网格(type lattice)中的其他结构相联系。

一组生成机制连接这四个平面,为语境中的词提供组合性解释。这些机制的实际性质以一种限制十分严格的方式决定意义的多形态表达(polymorphic expressiveness)。这些机制包括类型强制(typecoercion)、次级选择(subselection)和共同组合(co-composition)。这种理论假定词的意义是基于下列这四个生成因素(或称为物性角色,qualia roles)建构起来的,这些因素抓住了人类怎样理解世界上的事物和关系,并为词项的语法表现提供了最简解释:

1)形式角色(formal):在一个更大的领域中辨认出一个物体的基础范畴

2)构成角色(constitutive):一个物体跟其各构成部分的关系

3)目的角色(telic):物体的目的和功能 4)施动角色(agentive):涉及物体的来源或产生的因素

物性结构是词库中各种生成属性的核心,因为它为造成带有连接性质的越来越特定的概念提供了一般的策略。比如,“椅子”(chair)和“石头”(rock)都属于有形物体(Physical object),首先可以用基于语义标准的诸如自然种类(natural kind)和人造物体(artifact object)这种一般范畴来区分这两个名词。虽然这种区分是有用的,但是不足以用一种还可以解释其语法表现的方式来区分其语义类型。其实,“椅子”和“石头”的差别涉及到功能性(functionality)这一关键属性。功能性在人造物的个体化过程中起重要的作用,但是对自然类不起作用。这反映在语法表现上,比如“一把好椅子”(a good chair)和“享受这把椅子”(enjoy the chair)是合格的表达,因为它们反映了设计出一个人造物的特定目的;而“好石头”(good rock)和“享受一块石头”(enjoy a rock)是语义上不合格的表达,因为“石头”的功能性(即目的)是不明确的。除非指涉了新概念,比如那个物体被识解(construe)为跟特定的活动相关,例如“那个登山者享受那块石头”(The climber enjoyed that rock)。其中,“石头”通过跟主语名词的意义共同组合,获得了跟目的性相关的新的意义。另外,“椅子”和“石头”在产生(即施动角色)方式上也不同,人造物由人创造,石头在自然中产生。同样,“食品”(food)或“饼干”(cookie)有物理表现形式或外延所指,但是还有功能性基础知识,即跟“吃”的关系。一个范畴的这些表面上矛盾的方面由物性结构为那个概念正交性地表示出来。

为了检验这种理论的效力,笔者从北京大学汉语语言学研究中心CCL语料库中,检索了包含“椅子”和“石头”的语句各50条(一条中可能有几个包含目标名词的小句),考察它们分别跟什么样的动词搭配,希望从“名词—动词”关联对(related pairs)上,检验它们各自的语义结构对其使用和搭配组合的影响。结果如下:

(8)“椅子”

a)默认功能:坐在/到~上,16例;倒骑着~,1例;

b)处置使用:移/拉/放/搁/拿/排/捆/排~,10例;(采)用~,5例;

c)制作形成:加工/编制~,2例; d)存在出现:有~/~跃现在眼前,5例;

e)语篇列举:如/包括~,3例; f)没有动词:8例。

(9)“石头”

a)处置使用:放/抱着/拿(起)/捡起/挑拣出/砸/碰(到)/砍/扔/搬(起)/发出去/

发射/射(穿)/发现/分析/区别/吃/给~,把~叫作,25例;

b)制作材料:砸打~/把~砸成石斧,2例;c)存在出现:有/是/变成~,5例;

d)自然活动:~闪烁蓝光,1例;e)没有动词:18例。

可见,人造物“椅子”的目的角色“供人坐”,作为一种默认性的功能,在“椅子”的搭配组合中起了重要的作用,使得“椅子”和“坐”成为一种共现概率最高的关联对。而天然物“石头”则没有这种目的角色,也就没有类似的关联对,相应地,跟处置使用类动词的共现概率大大地增加了。另外,“椅子”的施动角色“人所造”,在“椅子”的搭配组合中也起了一定的作用,使得人工物“椅子”和“加工/编制”等制作类动词成为一种表示“结果—动作”关联对,尽管其共现概率并不高。而天然物“石头”则没有这种施动角色,也就没有类似的“结果—动作”关联对;因此,它一般不跟专门的制作动词共现,倒是可以跟“(砸)打”等表示具体方式的动词搭配,表示“材料—动作”关系。至于其他方面,两者的差别不大。

值得一提的是,生成词库论还提出了形式化的词义描写框架,和与之相配套的可计算的词义表达式,这特别有利于应用到面向内容计算的语义资源的建设工程上。例如:

利用物性结构,可以把一个词项a的简单的图式描写展示如下:(Pustejovsky 1998:295)

利用这种图式结构,可以把food、book、examination的词义结构描述如下:

(10)food(Pustejovsky 1998:297)

可以用逻辑合取式分析物性角色的正交值,从而用下面的表达式来表示对food的解释:

(12)examination(Pustejovsky 1998:300)

生成词库论甫一问世,便得到Word Net的主要研制者Fellbaum(1997)的高度评价。并且,值得重视的是,生成词库论的开创者Pustejovsky正在主持一个美国国家科学基金(NSF Grant)项目:“统一的语言学知识标注”(Unified Linguistic Annotation),企图把句法树库、命题库、名词化谓词的论元结构标注库、话语树库、观点语料库和互参关系标注库等资源整合起来,并标注事件之间的关系。(Palmer 2006a)可以想见,生成词库论将在这个工程中发挥指导作用。

3 CVN:汉语谓词层级关系和角色框架知识库

句子意义的逻辑表示就是命题(proposition),命题的基本骨架是由谓词及其论元构成的论元结构([predicate-]argument structure)。对于信息检索系统的信息模板来说,有关句子的谓词可以决定该句子对应于什么样的模板,而这个谓词的有关论元的语义角色往往可以决定它对应于什么样的模板元素。(注:袁毓林(2005)展示怎样用表示职务调动类动词的论元结构,跟职务调动事件模板相匹配,从而抽取有关的信息项目(比如,调动者、职务等)。)因此,谓词的句法语义知识对于问题回答等信息检索系统来说,是不可或缺的语义资源。(请参袁毓林2002)CVN应该在认知语言学理论和汉语配价语法研究成果的指导下,为汉语句子的语义结构和谓词之间在概念意义(及其实现形式)上的层级关系建立句法语义知识数据库,它必须用一致的形式来为汉语句子的命题结构及其中谓词的句法语义知识建立模型。

从功能上讲,CVN必须对于应用系统的谓词意义的消歧、相似的关系概念的识别、谓词意义中所隐含的有关推论关系的自动发现、特别是有关模板的对应句子和相关模板元素的对应论元的发现、相关的形式不同但是意义相似的句子配对的自动发现,有实质性的贡献。这样的设计目标,决定了CVN的下列知识内容、规模和结构上的特点。

从知识内容和规模上讲,英语的VerbNet2.0版包括237个分层次组织起来的动词类别(主要按照Levin(1993)的层级)和5,000个动词。(注:关于VerbNet,详见http://verbs.colorado.edu/~mpalmer/projects/verbnet.html。)显然,这对于处理海量英语真实文本来说是不够的;比如,WordNet就收录了约11,000个动词,分为24.632个义项。汉语的CWN呢,除了动词之外,还要收入形容词(包括状态词),因为它们也可以支配论元,作句子的谓语核心。根据我们对中小学语文课本的统计,现代文的总字数有1百多万;其中动词12,000多个,形容词(包括状态词)3,000多个。这15,000个谓词约有40,000多个义项。这些义项应该明确地连接到CWN中表示该谓词的意义的synset上。从结构上讲,CVN跟英语的VerbNet一样,至少要为汉语谓词的每一个义项提供三种句法与语义相连接的描述信息:

i)同类成员,即属于同一个谓词类别的各个成员。比如,“接壤”及其同党“接境、比邻、邻近、挨着、紧靠、紧挨、紧邻”等动词的某些义项佣编号标示)。

ii)语义角色,即该谓词义项所能支配的各个论元的论旨角色,并在括号中标明其语义上的选择限制特征。比如,上面的“接壤”的两个论元的语义角色是“主事TH[+concrete]”和“系事RE[+concrete]”。

iii)句法框架,即该谓词义项所能构成的句法格式;包括句式类型、实例、句法配置和语义描述等内容。

比如,上面的“接壤”的句法框架是:

基本句式

实例:中国和越南接壤。

格式:TH+和RE+_

语义:Contact(During(E),TH,RE),Exist(During(E),TH),Exist(During(E),RE)

我们已经摸索出来的谓词描述系统,在许多方面比上面说的还要精细。例如:

包.01:bāo,〈动词〉通过包裹的方式制作食品。

1)角色集合:

施事A:包制食品的人;

结果R:原料被包制后形成的状态,如“饺子、馄饨、粽子”等;

材料Ma:包制食品所用的材料。一种是内容性的材料,如:“面粉、糯米(粉)、肉馅儿”等;另一种是工具性的材料,如“竹叶、竹箬”等。

2)句法格式:

S1:A+用Ma+_+R;(如“妈妈用那些面粉~了几十只饺子”)

S2:Ma+A+_R;(如“这些肉馅儿我~馄饨|这些竹箬我们~粽子”)

S3:R+A+_了…;(如“饺子我~了一些”)

S4:A+把Ma+_了+R;(如:他把荠菜馅儿~了饺子了)

3)范畴约束:

A,R,Ma→NP。(说明:此公式表示“包.01”的施事A、结果R和材料Ma均为名词性成分。)

4)语义约束:

A→NP[+Human],R→NP[+Food],Ma→NP[+Grain/Leaf]。(说明:A→NP[+Human]表示“包.01”的施事A为指人的名词性成分,……)

5)功能约束:

A,R,Ma→Sub; R,Ma→Obj; Ma→Prep+Obj。(说明:A,R,Ma→Sub表示施事A、结果R和材料Ma都可以实现为主语,结果R和材料Ma都可以实现为宾语,材料Ma可以实现为介词(如“用”)的宾语。)

6)标注实例:

[王大妈]A[用]#[白菜大肉馅儿]Ma[包]@了[一顿饺子]R。

这种体系在给出每一个谓词的语义角色集合时,还根据每一个谓词的特定的意义(或用法),对其所有的语义角色进行具体的语义描写。这种个例化的语义角色,很容易根据应用系统所服务的具体领域,转换成相应情景框架的框架角色。这种把谓词的语义角色集合、语义角色的句法组配方式及其范畴约束、语义约束和功能约束相结合的描述方式,充分地表示了谓词的论元结构和语义角色关系的各种重要的信息。另外,又提供真实文本中的用例及其语义角色标注,这种语义角色知识和真实文本的标注语料有机地结合在一起的描述框架,可以为大规模真实文本的语义标注或内容计算和自动语义提取系统,提供一种相当于一部大型的语义角色词典和一个小型的精炼的语义角色标注语料库相结合的语义资源。从而为汉语真实文本的内容计算和信息检索等创造了一种比较完备的语义角色知识库方面的条件。

建立这样的语义角色框架知识库,主要采用语义角色知识库和语义角色标注语料库互相借重、互相推动、逐步提高的自举式策略(bootstrapping stratgy)。具体的步骤是:

第一步,建立初级的语义角色框架知识库(Role Frame-Ⅰ)。对汉语常用的12,000多动词和3,000多形容词的常用义项,分别建立格式一致的语义角色框架。内容包括:i)角色集合:每个谓词在某个义项下的语义角色集合,ii)句法格式:该谓词跟受其支配的这些角色在句子中的句法配置方式。

第二步,建立语义角色标注语料库(Role Bank)。以上述初级的语义角色知识库为依据,对100万字以上级别的真实文本,进行语义角色关系的人工标注。计划在已经开发好的“汉语句法分析树库”上增加一层语义角色标记,利用树库的各种句法节点来建立索引关系,以便进行自动统计和分析。

第三步,从RoleBank中抽取各种语义角色的句法、语义约束。通过设计专门的软件程序,从上述标注了语义角色的语料库中,抽取上述15,000多个谓词的各种语义角色的下列三方面信息:iii)范畴约束:各个谓词的各种语义角色分别由什么词类范畴的词或短语充当,词类及其次范畴跟树库保持一致;iv)语义约束:各个谓词的各种语义角色分别由什么语义类别的词或短语充当,采用已经开发好的“973语义分类[电子]词典”作为“本体知识”(ontology);v)功能约束:各个谓词的各种语义角色分别可以作什么句法成分,特别是当一种语义角色作某种句法成分时,其他角色可能会作什么句法成分。

第四步,集成上述5种知识,建立完整的语义角色框架知识库(RoleFrame-Ⅱ)。把上述iii)范畴约束、iv)语义约束和v)功能约束三种信息增添到知识库RoleFrame-Ⅰ中,并利用RoleBank对于前述的i)角色集合和ii)句法格式两种信息进行核定和校正,从而完成对初级知识库Role Frame-Ⅰ的扩充和细化。最后,加入一项vi)标注实例:从语义角色标注语料库RoleBank中抽取包含该谓词的各个实例,这些句子都带有语义角色标记,因而可以反映各个谓词在真实文本中跟有关语义角色的句法语义关系。

关于汉语谓词的分类层级,我们正在参考英语的WordNet、VerbNet和Levin(1993)等成果和做法,基于“语义特征—句法格式”相对应的聚类策略,逐步构造出一个具有实用性的分类体系。有了这样的谓词分类层级,我们就可以把一个个谓词逐层归并成跟“商品买卖、股票交易、会话通信、体育比赛、报仇雪耻、物体运动、动物鸣叫、昆虫移动、航班往来”等领域和情景相对应的聚合。从而,达到跟FrameNet同样强大的语义表达能力。(注:关于FrameNet,详见Baker et al.(1998,2003); http://framenet.icsi.berkeley.edu/,http://www.icsi.berkeley.edu/~framenet/。)但是,又比FrameNet更加灵活,可以适应不同的应用系统,并且,在构建程序上具有更大的可操作性。因为FrameNet基本上是从上向下的(top-down),但是怎样逐步分层次地向下分出一个个情景框架,并不清楚;而我们的CVN是从下向上的(bottom-up),可以根据需要形成不同层次的谓词聚类及相应的情景框架,使语义角色的精细程度收放自由、伸缩裕如。

4 CPB:汉语命题结构和事件关系标注语料库

CVN提供的汉语谓词的论元结构知识,基本上是静态的。应该利用CVN对大规模真实文本进行语义角色标注,辅之以时体、模态和指代词与空语类的回指和照应关系的标注,就可以形成初步的汉语命题结构标注语料库。在此基础上,再进行语篇关系标注、事件关系标注等更高、更深层次的语义标注,那么,就可以形成全面的汉语命题结构和事件关系标注语料库,从而为应用系统对于句子意义关系的统计学习提供基本的训练集和测试集。

从功能讲,CPB必须对于应用系统学习跟谓词语义相关的语言规律提供有用的资源,对于谓词及其论元名词的意义消歧、谓词和跟其同现的名词性成分的语义角色关系的识别、谓词及其论元名词在语句中的各种配列方式的发现、有关句子的句法分析时的歧义消解、指代词和空语类的先行语的自动发现和歧义消解等,都有实质性贡献。这样的设计目标决定了CPB的下列知识内容、规模和结构上的特点。

从知识内容和规模上讲,英语的PropBank对宾大树库中的《华尔街日报》语料中的110,000多个句子进行了语义角色标注,为有关系统学习跟动词语义相关的语言规律提供有用的统计资源。(注:关于PropBank,详见Kingsbury et al.(2002)、Palmer et al.(2005)和袁毓林(2007); 另外请看http://www.cis.upenn.edu/~ace、http://www.cs.rochester.edu/~gildea/PropBank/sort/。)同样,CPB也必须标注100,000多个汉语句子的语义角色,才能希望它真正具有实用价值。我们已经选择了中小学语文课本中1百多万字的树库语料,约有10万以上的句子。并且,分别进行了人工手动和软件辅助两种形式的语义角色的试标注。

从结构上讲,宾大的英语PropBank由动词词库和语义角色标注语料库两个部分组成。我们已经有了CVN作为谓词词库,所以CPB中只有语义角色标注语料库一个部分。在这个部分中,要为汉语句子标注下列三种语义信息:

i)谓词编号。从左向右,给同一个句子中的所有谓词进行连续编号,以便接下来给各个谓词的论元及其角色进行依存性一致关系方面的标注。

ii)谓词的义项标注。根据CVN对相关谓词的义项划分(编号),给当前句中的各个谓词标注义项(编号)。

iii)语义角色和依存性一致关系标注。根据CVN对谓词的特定义项的角色集合和句法框架,给当前句中的各个谓词的论元进行语义角色标注;同时,给每个角色标记加上依存性一致关系的标记,即标明这施事、受事等分别是哪个谓词的施事、受事。

从标注方式上讲,一种是直接在生语料上标注语义角色,一种是在句法分析树库语料上标注语义角色。我们已经分别为这两种标注方式制订了比较详细的标注规范,并且都作了尝试。现在,正在100万字的树库语料上分别进行人工手动和软件辅助两种形式的语义角色标注,示例如(13)、(14):

(13)“姑娘听他口气很大,把他仔细打量一遍。”

(14)“北京人爱瞧热闹,但是不爱管闲事。”

可资比较的是,PropBank的词库中包括大约3,600个动词,每一个动词用一个框架(frame)来表示,每一个框架由一个或多个对应于特定动词的义项的框架集合(framesets)组成。它共有5,050个框架集合,每一个框架集合带有一组语义角色(即角色集合,roleset),分别以通用的论元标记Arg0,Arg1,…,ArgM等来标志。角色跟标记之间的映射是基于特定的角色集合的,即在不同的词项中,同样的标记往往指派给不同的角色。PropBank中的语义角色比VerbNet中的论旨角色更加专门,因为VerbNet中的角色是一般性的、对于不同类别的动词都适用,而PropBank中的角色是严格地跟特定的角色集合相联系的。结果,VerbNet只有20个论旨角色,我们的CVB中有22个论旨角色,而PropBank有1,400多个角色。另外,跟VerbNet一样,PropBank的义项相对于WordNet来说是非常粗糙的,因为它们是通过研究动词的框架结构在语料库中的频率而得到的。事实上,框架集合就是通过对那些具有相同语义角色的动词的句法框架进行归组而造成的。并且,PropBank中缺少跟WordNet的连接,这样,在利用PropBank的知识时,就不能直接同时利用Wotd Net关于动词之间的各种关系的信息。(Pazienzaet al.2006;Palmer2006a,2006b;Loper et al.2006;Loper2006)另外,宾夕法尼亚大学的中文命题库Chinese Proposition Bank的建设及其结构,可以为我们建设CPB提供经验和借鉴。(注:详见Xue et al.(2003,2005),另外请看http://www.cis.upenn.edu/~chinese/cpb/。)

必须说明的是,像上面所说的那样,只标注句子中谓词跟其论元的语义角色关系,是远远不能反映句子的命题意义的。因此,许多研究者开始研究怎样把句子的论元结构映射为一个真正的命题。这就需要引进事件语义学的知识和描写技术,研究句子中谓词和名词性成分所表示的事件,研究事件之间的同一和照应关系,进而研究句子跟句子之间的篇章语义关系,并研究怎样把上述语义知识在真实文本上标注出来。

标签:;  ;  ;  ;  ;  ;  

信息检索系统的语义资源规划_自然语言处理论文
下载Doc文档

猜你喜欢