基于同心理论的汉语零回指分析_先行词论文

汉语零形回指解析——基于向心理论的研究,本文主要内容关键词为:汉语论文,理论论文,零形回指论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]H030

[文献标识码]A

[文章编号]1003-6105(2004)04-0350-10

1.引言

汉语回指主要有三种形式:零形回指(Zero anaphora),代词回指(pronominal anaphora)和名词回指(nominal anaphora)(陈平1987)。其中,零形回指的出现频率最高,分布最广泛,似乎不受限制,被认为是汉语回指的标准模式(Li & Thompson l979)。

回指解析(anaphora resolution)是指为回指词(anaphor)确定其所指(referent)的过程(Hirst 1981)。它一直以来就是自然语言处理(Natural Language Processing,简称NLP)发展的主要障碍之一,近十年来引起了许多研究者的关注。

本文主要研究如何运用向心理论(Centering Theory)来解析汉语中的零形回指。向心理论是由美国语言学家和认知科学家在20世纪末发展起来的关于语篇处理和语篇局部结构的理论。这一理论出现后,引起了人们的极大兴趣,并已被广泛地运用于语篇分析、语篇的计算机处理和句法分析等研究领域(苗兴伟2003)。

向心理论是一种话语阐释的计算模型,它可以考察注意状态、指称形式和推理过程的控制之间的相互关系,因其简洁而易处理,一直作为回指解析的主要算法之一(Yamura-Takei et al.)(注:这篇文章是从网上下载的,下载的网址在参考文献中已给出,但无法确定此文章是否发表,或发表的时间,敬请见谅。)。它被用来研究主题突出型(topic-prominent)语言(比如,汉语和日语)中的隐性论元(或称为零形论元);因为在这些语言中,特定语境中通过推理可以找回的凸显性语义实体(salient entity)经常被省略。向心理论可以为零形式(zero form)找回它的所指,因此,我们也希望向心理论能够有效地解决汉语中的零形回指解析问题。

2.汉语中的零形回指

话语中提到某个事物之后,再要论及该事物时,一般使用各种回指形式同上文取得照应。零形回指是话语结构中一类较为特殊的指称形式,它是指一种没有语音形式、无形有义的照应手段,通过零形式从先行项(antecedent)那里获得指代表现出来的一种特性(尹邦彦l999)。与非零形回指不同,零形回指没有实在的词语表现形式可供我们辨认,因此确定这种回指形式在具体场合中存在与否,如何判断回指词的有关性质,成了我们必须首先解决的问题。在这个问题上,陈平(1987)认为主要依靠全句的语义和语法格局,如果从意思上讲句子中有一个与上文中出现的某个事物指称相同的所指对象,但从语法格局上看该所指对象没有实在的词语表现形式,我们便认定此处使用了零形回指。所谓词语形式上没有而意思上有的成分,一般限于下面两种情况:

(一)谓语动词的支配成分

(二)主谓谓语句、名词谓语句、形容词谓语句等非动词谓语句中的主语

本文中,我们采用陈平提出的这个判断标准,下面举例说明:

(1)就从门里甩了出去。(注:表示零形式;下划线部分表示一个语义实体;下标i,j,k…用作区分符号,下标相同表示所指相同。)(贾平凹《地震》)

例句(1)和例句(2)是根据上面的原则标记的。例句(1)中的零形式主要出现在动词谓语句中,充当谓语动词的支配成分;例句(2)中的零形式充当非谓语动词句的主语。

根据零形回指词(zero anaphor)和它的先行词是否在同一个句子结构中,零形回指可以分为句内零形回指(intrasentential zero anaphora)和句间零形回指(intersentential zero anaphora)(Li & Thompson 1981)。这里所谓的“句”,为了便于分析和行文,我们定义为口语中有语音停顿,书面中有点号标记的主谓结构(含主语或宾语为零形式的情形)。也就是说,这里讲的句子,是仅就句法层面而言,不管是否能单独表达满足交际需要的完整意思,它不同于传统语法学中一般的“句子”概念(王灿龙1999)。

按照我们刚才的定义,例句(3)的整个部分,我们称之为语篇片段或话语片段(discourse segment),它包含了五个语句(utterance),语句将是我们的分析单位。

根据Li & Thompson(1981),在汉语中,句内零形回指主要出现在主题句(topic-prominent construction)中,例如:

在这两个例句中,零形回指词和它的先行词位于同一个语句结构中,所以它们是句内零形回指。

在句间零形回指中,回指词和先行词处于不同的句子中,根据包含回指词和它的先行词的语句之间的距离,句间零形回指可进一步分为邻近零形回指(immediate zero anaphora)和长距离零形回指(long distance zero anaphora)(Yeh & Chen 2001)。在邻近零形回指中,含有回指词的语句紧跟在含有其先行词的语句之后,而在长距离零形回指中,含有回指词的语句与含有其先行词的语句之间有其他语句的存在。

3.向心理论的基本原理

很多与语言有关的研究领域,包括自然语言处理、语义学与语用学、言语理解与合成,越来越需要描述和理解与处理复杂性和语篇宏观结构有关的语篇回指现象。但现存的理论在这方面无法满足需要;为了弥补这个不足,向心理论应运而生。它旨在研究语篇处理和语篇的局部结构,阐释有关处理的复杂性与语篇回指的问题(Walker,Joshi & Prince l998)。下面,我们将简介向心理论的基本模型。

语篇是由许多语篇片段构成,每个语篇片段都体现为语篇模型的一部分。中心(center)是指组成语篇片段的语句中做为语篇模型一部分的语义实体。中心又有上指和下指之分。下指中心(forward-looking center,简称Cf),是指某一中心可以成为下一语段所涉及的中心,所有的中心都有这种可能,所以一个语句的所有的中心都是下指中心。下指中心的集合,记作,表示语篇片段D中的语句中所有的语篇实体。Cf中有一个特殊的成员,它可以与上文所提到的实体发生联系,被称为上指中心(backward-looking center,简称Cb)。是指语句最关注的语篇实体,类似于其它文献中的“主题”或“主位。上指中心Cb可以把当前语句与前面的语篇联系在一起。。

下指中心根据语篇凸显性(discourse salience)排列起来,排在最靠前的成员,被称为优选中心Cp(preferred center),Cp是下一句关注的中心,通过Cp,我们可以预见下一句的Cb,有时候Cp也是前一句的Cb,但这不是必需的情况。区分指向上文的Cb和指向下文的Cp是向心理论的一个重要内容,另外向心理论还包括一套规则和制约条件。

制约条件:

4.解析算法推导

在本节中,我们将根据向心理论模型来推导汉语中零形回指的解析算法(resolution algorithm)。解析算法的最终目的是让计算机自动地为自然语篇中的零形回指词找到其所指,所以,我们这里要推导的是面向计算机程序设计的算法规则;通过此算法,计算机工程人员可以设计出成功运行的计算机程序。

回指解析就是为回指词找到其所指。当然,如果找到了回指词的先行词,那么它的所指也就容易找了;特别是对以零形式出现的零形回指,找到了其先行词,我们也就找到了其所指。在解析过程中,首先,把语句作为处理单位输入电脑,然后核查一下这个语句中是否存在表现为零形式的语义实体。这一点,我们主要是根据谓语动词来判断,每个谓语动词都需要一定数目的名词或名词短语来充当它的论元(argument),通过核查语句的表层字符串(surface string),如果发现在表层字符串中出现的语义实体的数量小于谓语动词所需要的论元数,那么我们断定在此语句中有零形式的语义实体。比如,如果一个谓语动词要求有两个论元,而字符串中只有一个语义实体,那么肯定有一个语义实体是以零形式出现,来充当谓语动词的论元。找到零形式之后,我们要根据向心理论来找出此语句可能的Cb-Cf结构。根据向心理论的规则(1),零形式应该为本句的Cb,因为在汉语或日语中,零形式的地位就相当于英语中的代词的地位(Kameyama l985)。再根据制约条件(3),

然而,具体哪些因素决定Cf的排序还是一个悬而未决的问题。Grosz,Joshi和Weinstein(1995)提出,在英语中,Cf排序主要是由语法配置层级(grammatical configuration hierarchy)决定的,即主语要排在宾语的前面。这一观点得到其它研究者的认同(Turan 1998)。Brennan,Friedman和Pollard(1987)在实施向心理论的第一个正式模型时,使用的英语Cf排序为:

主语>宾语>宾语2>其他

(“宾语”是指直接宾语,“宾语2”是指间接宾语)

意指Cf排序中,在主语位置实现的语义实体比在宾语位置上的语义实体排列靠前,宾语位置上的语义实体比在从句中实现的语义实体或起其他语法功能的语义实体排列靠前。但到目前为止,没有人说这是英语中最准确的Cf排序。因为Cf排序的重要性,它引起了众多研究者的关注,人们考察了各种语言中的Cf排序问题(Di Eugenio 1990;Raimbow 1993;Gordon,Grosz & Gillion 1993),一致认为Cf排序因语言而异,由语言本身特定的因素(language-specific factor)决定。下面,我们来看一下汉语中影响Cf排序的因素。

Li和Thompson(1981:15)认为,在对汉语的描述中,除了主语和宾语的语法关系外,还有主题的概念;这是汉语句子结构最突出的特征之一,也是把汉语同其他语言区分开来的特征之一。因为主题在汉语语法中的重要性,汉语可以被称为“主题突出型语言”,主题位置上的语义实体的突显性一般来说是最强的。因此,主题位置上的语义实体在Cf排序中应该排在首位。根据汉语中的语法角色和主题的突出性,我们归纳出汉语的Cf排序原则:

主题>主语>宾语>其他

下面,我们要验证一下这样的Cf排序原则在汉语的自然语篇中是否起作用:

(7)a.他并没有反感老人的嘲弄,

b.Φ倒浑身抖擞地来了精神,

c.Φ拉长声音吆喝毛驴又往前走。

(贾平凹《地震》)

按照上文中叙述的解析程序,计算机会检测到(7b)中有一个零形式Φ,那么它就是本句的Cb,为了给它找到先行词,我们就必须找到(7a)中的Cp,因此,我们需要(7a)中的Cf排序,根据我们上面提出的原则,(7a)中的Cf排序为:

“他”>“嘲弄”>“老人”

其中,“他”是排列最靠前的,因此它就是(7a)中的Cp,那么它也就是(7b)中零形式的先行词。同理,(7c)中的零形式的先行词是(7b)中的零形式,其所指也是“他”,这样(7b)和(7c)中的零形回指都被解析了。

由此可见,我们提出的汉语中的Cf排序规则是可行的,有效的。但是,根据向心理论模型,Cf排序仅仅表明下指中心Cf的相对凸显性,以及成为下一语句中的Cb的相对可能性。也就是说,它不是百分之百的规则,有时候,在Cf排序中并不是排列最前面的Cf成为下一句的Cb。那么具体是什么因素产生的影响呢?看例句:

(8)a.刘四爷就这么一个女儿,

b.Φ眼看是没有出嫁的希望了。 (陈平1987)

如果按照上文提出的解析程序,(8b)中的零形式的先行词是(8a)中的“刘四爷”,但是凭常识,我们也知道这是不正确的。我们不得不继续核查Cf排序中位于第二位的下指中心“女儿”,这时,我们发现“女儿”才是(8b)中零形式的真正的先行词。那么作为Cp的“刘四爷”为何不能成为下一句的Cb呢?因为“刘四爷”的语义与(8b)中“出嫁”的语义是不符合的。所以,在解析过程中,找到的先行词必须要通过零形式所在句的词汇语义(lexical semantics)的核查。看另外一种情况,

(9)a.林小姐的一双手在那里抓捞了一会儿,

b.Φ就呆呆地站在床前出神。

(茅盾《林家铺子》)

根据Cf排序规则,“一双手”是(9a)中的Cp。但是(9b)的谓语动词“站”需要主语必须含有语义特征[+有生命]([+animate]),所以(9b)中零形式的先行词应该是(9a)中的“林小姐”,这种情况叫做“谓语动词的选择限制”(selectional restriction of the predicate)(Yamura-Takei et al)。

还有一种情况就是回指解析时要遵守共指抵触限制(contra-indexing constraint)。共指抵触限制是指在一句话中,比如“He likes him”,“he”和“him”不能共指同一个语篇实体。

综上所述,我们可以总结出汉语中零形回指的解析算法:

但是,当我们把这一算法用于汉语零形回指的解析时,我们遇到了麻烦,这一算法只适用于邻近零形回指。这是由向心理论的局限性造成的,向心理论是一种局部聚焦(local focusing)理论,是处理局部语篇连贯的模型,此理论默认零形回指的先行词出现在前一句中。但事实并非如此,汉语中还存在句内零形回指和长距离零形回指,它们的先行词就不是出现在前一句中。为了使我们提出的解析算法也能适用于句内零形回指和长距离零形回指,我们有必要对向心理论进行扩展。

5.向心理论的扩展

为了把向心理论进一步扩展,我们本节中要进一步考察句内向心和宏观向心。

5.1 句内向心(intrasentential centering)

事实上,自从向心理论提出以来,很多研究者已经注意到了它的局限性,他们也试图扩展此理论,但大部分人只是把向心理论扩展到宏观结构,研究长距离回指,只有极少数人研究句内向心,在这方面做出突出贡献的研究者是Megumi Kameyama。她在句内向心中采用的方法是把一个复杂句切分成一系列次句子单元(subsentential unit),这些次句子单元就相当于句间向心中的“语句”,然后再运用传统向心理论进行处理。这种方法从计算的角度来讲是值得倡导的。对于一个复杂句,一部分一部分地处理,这样处理过程中的计算负担(computational load)更容易控制,因为语句处理的复杂性根据语句中需要解析的照应(reference)的数量以幂的形式增加,并且减轻计算负担也是向心理论的初衷之一。Kameyama(1998)注意到了句内回指和句间回指的相似性,她给出了下面的图式:

Kameyama进而提出了句内向心假设(Intrasentential Centering Hypothesis,简称ICH)。

句内向心假设(ICH):把一个复杂句切分成相当于句间向心中的“语句”的中心更新单元

(center-updating unit)。

下面,我们来看一下ICH是不是适用于汉语句内零形回指的解析。看例句:

如前所述,汉语的句内零形回指主要出现在主题句中,(10)和(11)是典型的主题结构,虽然它们是简单句,我们仍然可以根据ICH对它们进行切分。一般来说,主题部分是一个独立的中心更新单元,句子的其余部分为另一个单元。按照以上分析,我们可以标注出(10)和(11)的向心数据结构(centering data structure)。

  一般来说,主题是句内零形回指的先行词,这是因为主题是句子中最凸显的部分。

综上所述,我们可以得出汉语中句内零形回指的解析算法:

1)把语句作为处理单元输入电脑。

2)如果中包含句内零形回指,把切分成中心更新单元,然后更新中心数据结构。

3)按照句间零形回指解析算法进行解析。

5.2 宏观向心(global centering)

对于在宏观语篇中运用向心理论的问题,许多研究者做了大量的研究。Grosz和Sidner(1986)提出了堆栈模型(Stack Model),Walker(1996)提出了储藏模型(Cache Model),Iida(1998)提出了宏观上指中心列表理论(Global Cb List Theory)。对于解析汉语中的长距离零形回指,我们主要采用Iida的宏观上指中心列表理论。这样做有两个理由:第一,堆栈模型和储藏模型都是语篇宏观结构中关于注意状态的模型,其中有很多认知的成分,非常抽象,并且对于汉语的零形回指并不实用。第二,宏观上指中心列表理论是Iida在研究日语中的长距离回指现象时提出的,对于零形徊指汉语与日语有很多相似之处。此理论适用于日语,也应该适用于汉语。下面,我们简介一下Iida的宏观上指中心列表理论。

(《人民日报》)2002-6-15-8)(注:“2002-6-15-8”表示本例句选自《人民日报》2002年6月15日第8版。)

这一语篇片段由6个语句构成,(12c)中有一个零形式,首先它不是一个句内零形回指,因为在本句中找不到它的先行词,其次,(12b)中的下指中心不符合(12c)中的谓语选择限制,那么它也不是邻近零形回指,它应该是长距离零形回指,这样,上指中心寻回机制被激活,宏观上指中心列表为[世界杯,中国队]。第一个最邻近的Cb是“世界杯”,但它语义不符,继续寻找,“中国队”才是与(12c)限制条件符合的最邻近的Cb。因此,它应该是(12c)中零形式的先行词。(12e)中的零形式可以在(12d)中找到其先行词,这是典型的局部连贯(local coherence)。(12f)中的零形式也是长距离零形回指,通过我们的解析算法,它也可以被解析。

5.3 扩展了的解析算法

我们把句内零形回指解析算法和长距离零形回指解析算法并入第4节中提出的零形回指解析算法,就得到一个扩展了的零形回指解析算法:

9)如果还是找不到合适的先行词,返回NAF(NAF是No Antecedent Found的首字母缩写,意指“找不到先行词”)。当NAF被返回时,这个零形式很可能是零形预指(zero cataphora)或零形外指(zero exophora),也可能是需要相关百科知识(world knowledge)才能解释的情况。

6.实证性研究

我们在向心理论模型基础上推导出了汉语零形回指的解析算法,然后对此算法进行了实证性研究,以检验它的有效性和可行性。实验中所用的语料都是选自最真实的自然语篇,确保这些语料能反映汉语语言的真实特征。具体来说,语料包括11篇《人民日报》的新闻报道和6个当代小说片段,语料的选择是随机的。

本实验具体操作如下:第一步,根据第4节中提出的零形式的确认规则来确定零形式的出现。这里的零形式并不都是零形回指,它们也有可能是零形预指或零形外指。第二步,根据我们对语篇的理解,给零形式找到其所指,确定零形回指的具体数量。第三步,根据我们提出的解析算法来解析每一个零形回指。第四步,用通过解析算法可以成功解析的零形回指的数量除以所有零形回指的数量,就可以得出解析算法的正确率(correction rate)。正确率能够反映出解析算法的有效性。实验得到的具体数据详见下表。

从表中,可以看出在397例零形回指中,367例可以被成功的解析,这样,我们就可以得出解析算法的正确率为92.4%。此正确率表明,我们提出的解析算法还是相当有效的。

但是,仍然有了7.6%的零形回指不能被解析。通过考察,我们发现它们之所以不能被解析主要有以下两方面原因:

首先,当零形回指的先行词不是单一的语义实体时,解析算法不起作用。根据向心理论,零形回指的先行词应该是一个语句中心,一个语义实体,在句中一般实现为名词、名词短语、代词或零形式。因此建立在向心理论模型之上的解析算法也就无法解析先行词不是单一语义实体的零形回指,例如:

(15)a.她表示期待着年内再度与赫里斯坚科会晤,

b.Φ共商两国经贸合作的发展。

(《人民日报》2002-6-16-4)

在例(13)中,零形式与主语从句“德国队在1/8决赛首场迎战巴拉圭队”共指,例(14)中,零形式与主谓结构“我想”共指,而在例(15b)中,谓语“共商”要求至少有两个参与者,因此,零形式应该与“她”和“赫里斯坚科”同时共指。这些成分都不是单一语义实体,因此这些例句中的零形式无法被解析算法成功解析。

另一个原因是解析算法中的制约条件不够严密。在解析过程中,上一句中的Cf要经过制约条件的过滤(filter)。这些制约条件包括共指抵触限制、谓语选择限制和词汇语义限制;但是有些时候,通过这些制约条件还不足以选出正确的Cf。例如:

(16)a.年已花甲的他更期待女儿尽早插上爱情的双翼,

b.Φ在蓝天白云间飞翔啊。

(陈建功《迷乱的星空》)

根据解析算法,“他”是(16a)中的Cp,应该是(16b)中零形式的先行词,但事实并非如此。零形式的真正先行词是“女儿”。但问题是算法中的制约条件不能把Cf序列中最靠前的“他”剔除,零形式无法选择排列靠后的“女儿”,因此该零形回指无法被成功解析。

虽然此解析算法还存在一些不足之处,但总的说来,它还是可以被接受的。

7.结语

本文主要研究汉语中的零形回指解析问题,在向心理论的基础上,我们推导出了汉语零形回指的解析算法。本项研究仅仅是个开始,在这一领域还有很多问题需要解决,比如在解析算法中起重要作用的制约条件还需要进一步扩充,以便提高算法的有效性。本文中提出的汉语Cf排序规则还需要进一步验证。另外,在实证性研究中,由于人力有限,语料也是有限的,今后还需要用更多更全面的语料来检验解析算法的有效性。

正如Botley和McEnery(2000)所说,为回指形式寻找最合适、最正确的先行词对计算机来说是很困难的。虽然很多非常复杂的算法已经被提出,甚至有些已经被付诸实践,但是从目前来看,要想得到一个能解析所有回指形式的计算机系统,仍然还有很长的路要走。

收稿日期:2004-02-16;

作者修改稿,2004-06-18;

本刊修订,2004-09-23

标签:;  ;  ;  

基于同心理论的汉语零回指分析_先行词论文
下载Doc文档

猜你喜欢