未来中心排名对英汉参考文献分辨率影响的对比分析_从句论文

前瞻中心排序对英汉指代消解影响的对比分析,本文主要内容关键词为:英汉论文,中心论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

向心理论参数化研究是将向心理论中的一些基本概念,如“语句”(utterance)、“规则1代词”(rule-1 pronoun)和“前瞻中心排序”(Cf-ranking)等,视为该理论运作的核心参数,研究这些参数的不同设定方式对该理论中的论断所产生的影响。许余龙(2008)对向心理论的参数化研究方法(Poesio et al 2004)进行了较为详细的介绍,并指出,这一研究方法的意义并不局限于检验向心理论本身,还可以系统地找出与向心理论互动的其他一些制约因素和倾向性规律,分析这些要素对指代消解的影响,从而推动和深化语篇回指研究。

在向心理论研究史上,“前瞻中心排序”是讨论最多的一个问题。所谓“前瞻中心”(forward-looking center,Cf),是指在一个语句中提及并可能成为下一语句潜在回指对象的所有语篇实体。在向心理论创始阶段,大多数学者(如:Kameyama 1985,1986; Grosz & Sidner 1986)认为,语法功能(grammatical function)是影响前瞻中心排序的最重要因素。后来,Rambow(1993)认为,线性语序(surface order)也能影响前瞻中心的显著度,语句中提到的第一个实体通常是最显著的。其他被提及的因素还包括已知度(givenness)以及题元角色(thematic role)等。大多数研究者相信,这些因素并非单独起作用;而且Walker et al.(1994,1998)认为,在不同的语言中,影响前瞻中心排序的因素可能是不同的。

本文采用计算语言学研究手段,设计不同的算法程序对英汉自然语篇中的指代词实现自动消解,分析和对比前瞻中心排序的不同设定方法对两种语言指代消解结果影响的异同,并对消解失误实例做进一步分析,探讨消解失误的原因。

2.语料及研究方法

我们的参数化研究的基本方法是:先建立一个标注语料库,然后设计一套算法程序(algorithm),在标注好的语料库里模拟语篇中局部焦点的更新进行指代消解,最后比较在不同的参数设定下取得的不同消解结果。语料方面,我们主要选择了英汉民间故事和儿童故事作为语料①。

在消解算法程序的设计方面,汉语的消解程序我们以段嫚娟等(2009)的算法为基础,做了部分改进(主要是将主语和主题标为双主语,并根据线性语序决定其显著度),然后以此为基础设计了英语消解程序。

在算法设计中,我们主要考察了以下6个影响前瞻中心排序的因素:1)语篇实体在语句中出现的先后顺序,即线性语序;2)语篇实体的语法功能,我们采用了分级式的语法功能排序方法;3)指代词与其候选先行语之间的语法功能平行性;4)语篇实体是否是回指中心(backward-looking center,Cb);5)语法角色平行性和回指中心连贯性的协同作用;6)语篇实体所在语句的主从句层次。

根据上述可能影响前瞻中心显著度排序的6个不同因素,我们共设计了6种不同的指代消解算法:1)Alg1根据线性语序来确定显著度;2)Alg2根据语法功能来确定显著度;3)Alg3在Alg2基础上进一步考虑了回指语与先行语之间的语法功能平行性因素,即回指语和先行语在前后两个语句中倾向于承担同一语法功能;4)Alg4在Alg2基础上进一步考虑了的倾向,即语篇实体的连贯性因素;5)Alg5在Alg2基础上同时考虑了语法功能的平行性和语篇实体连贯性这两个因素;6)Alg6在Alg3基础上进一步考虑了主句中的回指语倾向于回指前一主句中提及的语篇实体,即语句的层级结构这一因素。我们将每次运作的结果读入数据库,与数据库中人工标注的回指信息进行自动比对,从而检验在不同参数设定的情况下指代消解的有效性。

3.数据分析

上述6种算法在对语句做两种不同定义的情况下(U1表示将语句设定为小句,U2表示将语句设定为自然句,详见许余龙等2008;孙珊珊等2013),对英汉民间故事和儿童故事两类语料中出现的两种指代词,即零形代词(ZP)和代词(PRON)的整体消解结果见表1(其中的数值为百分比,代表消解准确率)。

表1显示,无论在汉语还是英语中,Alg2的消解结果都明显好于Alg1。这说明,整体而言,在英汉两种语言中,前瞻中心按语法功能排序,要比按线性语序排序更准确地体现语篇实体的显著度。而对于零形代词和代词的消解,两种语言则既呈现出某些相似性,又有一些差异。消解零形代词的最佳算法,无论在哪种语言中都是Alg6,其次为Alg5和Alg3;消解代词的最佳算法,在英语中是Alg5,而在汉语中是Alg6和Alg4。得出这样的结果并不是偶然的,下面我们将结合具体例子进行分析。

4.影响前瞻中心排序的因素及消解失误分析

4.1 线性语序

在所有影响前瞻中心排序的因素中,线性语序的标注最经济省时,因为它完全可以按照实体在篇章中被提及的先后顺序,由计算机自动标注,无需额外人工标注。而且,线性语序对实体显著性的影响也得到了一些心理学实验的证明。例如,Corbett & Chang(1983)和Gernsbacher & Hargreaves(1988)的研究表明,语句中先提及的实体比后提及的实体显著性强。在我们的研究中,“句子最左边的实体显著性最强”这样的现象存在于60%以上的小句中,究其原因,主要是由于汉语和英语都是SVO语言,语篇实体的线性语序在一定程度上与语法功能显著度排序一致。但以这种方法排序所得到的消解结果却最差,这主要是由于线性语序不能准确反映实体的语法功能。例如,下面例(1)中的18和例(2)中的46都不是句中显著度最高的实体,所以Alg1在消解例(1)中的20以及例(2)中的48、49、51和53时都出现了失误。

(1)a.(蚂蚁国)19NP-SBJ(国王)都惊讶了/,

b.20ZP-SBJ(*)不住地夸21PRON-OBJ(他)/IP-OBJ(22ZP-SBJ(*)能干/,

c.23ZP-SBJ(*)力气大)/。(儿童故事《蚂蚁大力士》)

(2)a.IP-NRET(to 46RP-OBL(which)47NP-SBJ(the peddler)honestly answered/that 48PRON-SBJ(he)had dreamed/that if 49PRON-SBJ(he)came to 50NP-OBL(London)/and 51ZP-SBJ(*)stood there upon 52NP-OBL(the bridge)/

b.53PRON-SBJ(he)should hear 54NP-OBJ(good news))/…(民间故事The Peddler of Swaffham)

4.2 语法功能

语法功能在向心理论研究中被认为是影响排序的最主要因素。最初确定的显著度顺序为:主语>宾语>其他。后来又有学者将宾语进一步分为直接宾语和间接宾语,变为:主语>直接宾语>间接宾语>其他。

我们进一步细化语法功能的分类,运用分级系统为语法功能排序,并区分英语和汉语里语法功能的不同。具体的分级情况如下:

汉语分为三级:第一级为主语(SBJ)、存现句表语(EPRDN)及其修饰语(SM,EM);第二级为宾语(OBJ,IO)、焦点(FOC)及其修饰语(OM,IM,FM);第三级为其他。

英语分为四级:前两级与汉语相同;第三级为旁语(OBL)及其修饰语(OBLM);第四级为其他。

我们为每级附上一个不同的显著度值,使计算机可以识别和确定各句法位置上名词短语的排列顺序。

消解结果表明,Alg2几乎在各种情形下都好于Alg1。这说明,语法功能比线性语序更准确地反映了语句中实体的显著度。表2是这两种算法对消解结果影响的显著度分析。该表显示:1)按语法功能排序的Alg2对英汉语中零形代词的消解结果都要显著好于Alg1;2)将语句设定为自然句时(U2),Alg2对英汉语中代词的消解结果也都显著好于Alg1,而将语句设定为小句时(U1),Alg2对英汉代词的消解结果虽然也好于Alg1,但这一差别不具有统计学上的显著性,这主要与代词是长距离回指,以及语句划分有关(详见孙珊珊等2013)。此外,表1显示,整体而言,无论采用哪种算法,将语句设定为小句时的消解结果都要好于将语句设定为自然句时的结果。因此,在下面的讨论中,我们仅关注各种算法在将语句设定为小句时的消解情况。

上面例(1)和例(2)中没被Alg1正确消解的代词和零形代词,Alg2都能成功消解。但是,如例(3)和例(4)所示,Alg2也会出现消解错误。例(3)中89的先行语是86,例(4)中16的先行语是13,这两句里都出现了主语修饰语的显著度大于主语的现象,这是Alg2无法成功处理的。进一步标注名词短语的生命度或许有助于解决这一问题,因为许余龙等(2013)的研究表明,如果主语修饰语和主语一个有生命,一个无生命,那么那个有生命的通常优先被选为先行语。

(3)a.86NP-SM(财迷精)的87NP-SBJ(院子),平时连88NP-OBJ(闲杂人)也不让进去/,

b.现在89ZP-SBJ(*)看见/IP-OBJ(90ZP-SBJ(*)拉进匹91NP-OBJ(瘦马)来)/……(民间故事《金马驹和火龙衣》)

(4)a....13NP-SM(his)14NP-SBJ(dream)being doubled and trebled upon 15PRON-OBL(him)/,

b.16PRON-SBJ(he)resolved to try 17NP-OBJ(the issue)of 18PRON-OM(it)/...(民间故事The Peddler of Swaffhan)

4.3 附加在语法功能上的两个因素

鉴于Alg2消解结果较好,我们就以语法功能为基础,分别再添加了如下两个因素:1)语法功能平行性;2)语篇实体的连贯性,分别构成了Alg3和Alg4两种算法。Alg5则同时考察这两种因素对消解结果的协同影响。

4.3.1 增添两个因素的理据和具体算法处理

Kehler(1997)和Kameyama(1998)都曾指出,代词更容易消解为与其具有同样语法功能的先行语,即回指语和先行语倾向于在相邻两个语句中承担同一语法功能。因此,Alg3在考虑语法功能的基础上,给前一句中与回指语具有相同语法功能的那个名词短语添加一个额外的显著度值,使其优先被选为先行语。

向心理论认为,连贯的语篇应该体现为实体的连贯,即语篇倾向于连续提及同一个实体(Chafe 1976; Kintsch & van Dijk 1978; Givón 1983),后一语句中的Cb回指前一语句中的Cb。Alg4考虑了这一Cb连贯性倾向,给前一句中的Cb额外附加了一个显著度值,使其优先被选为先行语。

Alg5则同时给前一句中与回指语具有相同语法功能的那个名词短语和前一句中的Cb额外附加一个显著度值。

4.3.2 消解结果比较

我们将Alg2-5的整体消解结果以折线图的方式表示为下页图1(其中ZP:U1表示,在将语句设定为小句的情况下零形代词的消解,其余类推)。图1直观地显示了英汉指代消解的共性:在两种语言中,零形代词的最佳消解结果都主要出现在Alg5和Alg3中;代词的最佳消解结果都主要出现在Alg5和Alg4中。因此,我们认为,总体而言,Alg3在消解零形代词方面具有一定的优势,Alg4在消解代词方面具有一定的优势,而将两者结合起来的Alg5具有更广泛的优势。

例(5)反映了Alg3消解零形代词的优势。(5b)和(5c)两句句式结构平行,其中作为先行语和回指语的零形代词101与105、102与106、103与107的语法功能相对应。Alg3在消解这些零形代词时发挥了优势,特别是对106的消解。106应消解为与其具有相同语法角色的102,Alg3给102添加了额外的显著值,使它的显著度高于101、103和104,因而被选为先行语,成功获得消解。

(5)a.96NP-SBJ(老太婆)见97NP-OBJ(闺女)/98PROO-SBJ(*)不听99NP-OBJ(自己)/100PROO-SBJ(*)说/,

b.101ZP-SBJ(*)要打102ZP-OBJ(*)/103ZP-SBJ(*)104NP-SBJ(心里)疼得慌/,

c.105ZP-SBJ(*)要骂106ZP-OBJ(*)/107ZP-SBJ(*)也是舍不得/……(民间故事《找姑鸟》)

例(6)和例(7)反映了Alg4消解代词的优势。例(6)中的39应消解为前一句中的37,而37是该句中的Cb,因而Alg4给37附加一个额外的显著值,使它的显著度高于36和38,从而被成功选为先行语。例(7)中的83、86和87构成Cb连贯,使用Alg4可以正确消解;但若使用Alg3,87就无法正确消解,因为它与先行语86没有在语法功能上平行。

(6)a.32NP-SBJ(石囤)有一个33NP-OBJ(后娘)/,

b.34ZP-SBJ(*)是一个天下难找,地下难寻的厉害35NP-PRDN(婆娘)/,

c.IP-RET(36NP-SBJ(玉花)给37PRON-FOC(她)端去)的38NP-SBJ(饭)热了/,

d.39PRON-SBJ(她)骂40NP-OBJ(玉花)/41PROO-SBJ(*)想/42PROS-SBJ(*)烫死43PRON-OBJ(她)/……(民间故事《红泉的故事》)

(7)a.IP-ADV(as 81PRON-SBJ(he)was travelling through 82NP-OBL(a wood))/

b.83PRON-SBJ(he)met 84NP-OBJ(an old woman)/,

c.IP-NRET(85NP-SBJ(who)asked 86PRON-IO(him))/IP-OBJ(where 87PRON-SBj(he)was going).(儿童故事The Twelve Dancing Princesses)

零形代词和代词的不同特点是造成Alg3和Alg4消解差异的主要原因。零形代词的回指距离较短。在我们的英汉民间故事语料中,零形代词的先行语95%以上都出现在句内或前一句中(Sun 2011)。Kameyama(1998; 96)指出,语篇中两个相邻语句间存在的平行性也是表达语篇连贯的重要手段,她认为“语篇中相邻的语句间总是寻求最大的平行性”,这种平行性主要体现在零形代词与其先行语的语法功能平行上。此外,零形代词总是回指当前语句或前一句中显著度最高的名词短语,而这种显著度与语法功能有较高的相关度,所以使用Alg3就可以得到较好的消解结果。

代词的回指距离则较长,因此回指语的潜在先行语较多,并可能承担各种不同的语法功能,语法功能平行性并不能帮助选择正确的先行语。

此外,代词并不总是回指前一句中显著度最高的名词短语,它有时用于表示语段中话题的转换(许余龙2004:169),因而经常指代前一句中的Cb,所以Alg4可以较好地消解代词。

当然也有一些例外情况,例如在例(8)中,代词119应消解为前一句中的117,而这两者的语法功能正好相对应,Alg3恰好可以利用这种对应,正确消解119。而Alg4则会错误地将其消解为116,因为116是(8b)中的Cb。但在我们的语料中,这样的例子并不太多。

(8)a.Just as 113PRON-SBJ(he)was going to lie down/,

b.114NP-SBJ(the eldest)of 115NP-SM(the princesses)brought 116PRON-IO(him)117NP-OBJ(a cup of wine)/;

c.but 118NP-SBJ(the soldier)threw 119PRON-OBJ(it)all away secretly/...(儿童故事The Twelve Dancing Princesses)

由此看来,如果情况允许,我们可以分别用Alg3和Alg4来消解零形代词和代词。但是在多数情况下,如果只能选择一种方法的话,Alg5可以综合两者优势,对零形代词和代词的消解都可取得较好结果。例(9)和例(10)反映了Alg5的综合优势。例(9)中的代词65可以被Alg4和Alg5正确消解为61,即(9b)中的Cb,却不能被Alg3消解;而在例(10)中,(10b)主语位置上的零形代词96可以被Alg3和Alg5正确消解为(10a)主语位置上的94,却不能被Alg4消解。这些都反映了Alg5可以综合利用语法功能平行性和语篇实体连贯性这两个语篇回指的特点,在多数情况下具有更广泛的消解优势。

(9)a.58NP-SBJ(二恍恍)呆在59NP-OBL(河边)/,

b.60ZP-SBJ(*)不知道哪里/61ZP-SBJ(*)得罪了62NP-OBJ(丈人)/,

c.63NP-SBJ(邻居王大伯)走过来/64PROS-SBJ(*)告诉65PRON-OBJ(他)/66PROS-SBJ(*)说/:……

(10)a.但93PRON-SM(他)94NP-SBJ(丈人)扬手止住了95PRON-OBJ(他)/:“莫忙!”

b.96ZP-SBJ(*)说罢/,走近船舷,看了看那暗号,马上又吹起胡子说:……(民间故事《种田全靠功夫深》)

同样的情况也出现在英语中。例如,在例(11c)中,内嵌非定式小句(Quirk et al.1985:993)主语位置上的零形代词8,可以被Alg3和Alg5正确消解为主句主语位置上的7;在例(12)中,(12c)中的代词27可以被Alg4和Alg5正确消解为(12b)中的Cb,即零形代词22。这说明,Alg5无论是在汉语还是在英语中,都比Alg3和Alg4具有更广泛的消解优势。

(11)a.ONP-SBJ(Santa Claus)lives in 1NP-OBL(the Laughing Valley)/,

b.IP-NRET(where stands 2NP-SBJ(the big,rambling castle))/IP-RET(in 3RP-OBL(which)4PRON-SM(his)5NP-SBJ(toys)are manufactured)/.

c.6PRON-SM(His)7NP-SBJ(workmen)/,8ZP-SBJ(*)selected from 9NP-OBL(the ryls,knooks,pixies and fairies)/,live with 10PRON-OBL(him)/,(儿童故事A Kidnapped Santa Claus)

(12)a.20NP-SBJ(The birds)sat on 21NP-OBL(the trees)/

b.and 22ZP-SBJ(*)sang so sweetly/

c.IP-ADV(that 23NP-SBJ(the children)used to stop 24PRON-OM(their)25NP-OBJ(games)in order to/26PROS-SBJ(*)listen to 27PRON-OBJ(them))/.(儿童故事The Selfish Giant)

4.4 句子的层级结构

语篇实体所处的主从句层次是我们在最后一种算法中重点考虑的因素。许多研究者指出,主句和从句中的语篇实体显著度是不同的,在算法中应该有所区分。一般认为,主句里的实体显著度高于从句里的实体。具体而言,主句中的代词或零形代词,倾向于回指前一主句中最为显著的实体,而从句中的代词则一般回指从句内的实体(Gundel et al 1993; Kameyama 1998; Miltsakaki 2002)。

Alg6将句子语法结构的层级性这一因素,添加到以语法功能排序并考虑到语法功能平行性的Alg3中。如果回指语出现在主句中,则前一主句中所有的候选先行语都被赋予一个额外的显著度值;如果回指语出现在从句中,则前一并列从句中的候选先行语都被赋予一个额外的显著度值,以确保它们优先入选。

4.4.1 零形代词的消解情况

按照上述算法得出的结果见表1。零形代词的消解结果显示,英汉零形代词在Alg6的算法下都获得了最佳结果。也就是说零形代词的消解符合我们上文的推断,其回指对象通常是与其所在小句同一层级的前一小句中最为显著的实体。以下是两个实例。

(13)a.在这千钧一发的时刻,42NP-SBJ(小蚂蚁达里)一步向前/

b.43ZP-SBJ(*)用44NP-OBJ(坚实的身躯)/45PROO-SBJ(*)顶住46NP-OBJ(米包)/,

c.47PRON-SBJ(他)高喊着/:“快闪开!”

d.IP-ADV(直到48NP-SBJ(蚂蚁们)逃离险区)/,

e.49ZP-SBJ(*)才放下50NP-OBJ(米包)/,

(14)a.IP-ADV(当14PRON-SBJ(他)把15NP-OBJ(蜻蜓)拖到16NP-OBLM(蚂蚁国)17NB-OBL(洞口)时)/,

b.18NP-SM(蚂蚁国)19NP-SBJ(国王)都惊讶了/,

c.20ZP-SBJ(*)不住地夸21PRON-OBJ(他)/IP-OBJ(22ZP-SBJ(*)能干/,

d.23ZP-SBJ(*)力气大/。(儿童故事《蚂蚁大力士》)

例(13)中的49是主句中的回指语,根据句子层级结构推断,它的先行语应该出现在前一个主句中,所以算法Alg6绕开从句(13d),在前一主句(13c)中找到了它的正确先行语47。例(14)中的23则是从句中的回指语,根据推断,它的先行语应该出现在前一并列从句中,所以Alg6选择了前一句宾语从句中主语位置上的零形代词22作为23的先行语,而不是主句主语位置上的20。这两个例子反映了句子的主从结构对前瞻中心显著度排序和指代消解的影响。

4.4.2 代词的消解情况

代词的消解较为复杂。表1显示,代词的消解结果首先受到语句划分的影响,所以在将语句设定为小句的U1和设定为句子的U2中表现出明显的不一致。这里,我们着重看消解结果较好的U1。汉语中,代词在Alg6下的消解结果最好;其次为Alg5和Alg4,两者消解结果相同。英语中,Alg6的消解结果却几乎是最差的,仅略好于Alg1;而Alg5的消解结果最好,其次为Alg4。

这一消解结果差异与英汉两种语言中的从句数量和结构有极大关系。汉语连接词贫乏,从句数量较少,句子结构比较简单,这是Alg6对汉语代词消解结果较好的主要原因。在汉语语料中,我们主要标注了四种从句,即主语从句(IP-SBJ)、宾语从句(IP-OBJ)、状语从句(IP-ADV)和关系从句(IP-RET)。而英语从句种类多,数量大,结构较为复杂,出现的位置也多变,有的在主句之前,有的在主句之后,也有插入主句中间的。因此在英语语料中,我们共标注了七种从句:除了与汉语相同的四种之外,还有非限定性定语从句(IP-NRET)、同位语从句(IP-APP)和插入语从句(IP-PRT)。这些都为英语句子层级结构的识别与划分造成了困难。

不过,Alg6在消解汉语代词时也会遇到问题。例如,例(15)中的8应消解为4,但由于4在从句中,而不是在主句中,与8不处于同一个结构层次,所以Alg6消解错误。

(15)a....IP-RET(4ZP-SBJ(*)唱歌)/的5NP-SBJ(声音)就象6NP-OBL(银铃子)一样/,

b.7NP-SBJ(人们)都叫8PRON-IO(她)9NP-OBJ(巧妹)/。(民间故事《一块黑铁的故事》)

Alg6在消解英语中的代词时遇到的问题更多一些。例如,我们从例(16)的21和32的消解过程中发现,有些从句,例如(16b)和(16c),可以承担语篇中心的转换和连贯的功能。主句(16d)中的代词21可以消解为前一从句(16c)中显著度最高的实体19,而不必从前一主句(16a)中去搜寻其先行语。而(16h)中的32是从句中的代词,应该在从句内部消解,或消解为与其同一层级的前一从句中显著度最高的实体。但前一小句(16g)是主句的一部分,所以只能在其中寻找,消解的结果是30,即该句中显著度最高的实体。但这一消解结果并不正确,因为32是与31同指。

(16)a....9PRON-SBJ(they)would have taken both 10PRON-OM(his)11NP-OBJ(life)and 12PRON-OM(his)13NP-OBJ(money)/

b.IP-ADV(if 14NP-SBJ(a large dog)had not come to 15PRON-OBLM(his)16NP-OBL(rescue)/and 178ZP-SBJ(*)driven 18NP-OBJ(the thieves)away)/.

c.IP-ADV(When 19NP-SBJ(the dog)had driven 20NP-OBJ(the thieves)away)/

d.21PRON-SBJ(he)took 22NP-OBJ(the merchant)to 23PRON-OBLM(his)24NP-OBL(house)/.

e.IP-NRET(25RP-SBJ(which)was 26NP-PRDN(a very handsome one))/,

f.and 27ZP-SBJ(*)dressed 28PRON-OM(his)29NP-OBJ(wounds)/

g.and 30ZP-SBJ(*)nursed 31PRON-OBJ(him)/

h.IP-ADV(till 32PRON-SBJ(he)was well)/.(民间故事The Small-Tooth Dog)

上例同时也显示,英语的主从句层级结构远比汉语复杂,英语代词消解不仅要考虑句子的层级结构,而且还应区分从句的类型以及主从句出现的先后位置。Kameyama(1998)曾提到,在英语中,并非所有的从句都是内嵌式小句;而且从句的相对位置,即位于主句之前还是之后,也与从句是否会继续语篇中句与句之间的实体连贯有极大关系。在例(16)中,从句(16b)和(16h)都位于主句之后,从句所表达的多为对主句所陈述内容的一种补充,此类从句的出现与句与句之间话题的转换没有太大关系;而从句(16c)出现在主句之前,造成了话题的转换,从(16a)中的they转换到(16c)中的the dog。对于从句是否更新中心,Kameyama(1998)提出,补语从句(complement clause)应该作为内嵌式小句处理,不能永久更新中心。Suri & McCoy(1994)认为,状语从句,特别是以before和after引导的状语从句,也应视为内嵌式小句,无法永久更新中心,而其他从句的情况就暂时不清楚了。就when引导的状语从句而言,例(16c)表明,在主句之前的此类从句可以永久更新中心。今后此类研究仍需加强。

此外,在英语中,插入语句的存在也是造成消解结果不佳的一个主要原因。Poesio et al(2004:335)的研究表明,如果将插入时态小句(如she saw a figure—she was sure it was a spirit,very like the village maiden—descend into the cove)、作为主语的时态小句(如that John could do this to Mary was a big surprise to me)和含有虚位主语it的主句(如it is likely that John will arrive tomorrow)排除在研究之外,不算作独立的语句,那么向心理论的预测可以在更大程度上获得支持(另见许余龙2008:233)。我们的英语民间故事和儿童故事中存在大量插入语句,如果在算法中也将这些插入语句处理为非独立的语句,并且无法永久更新中心,那么消解结果或许可以进一步提高。

本文采用向心理论的参数化研究方法,考察了影响“前瞻中心排序”这一参数的一些主要因素,并据此设计了6种指代消解算法,对自建的英汉民间故事和儿童故事语料中的指代词进行消解。研究得出如下主要结论:

1)语法功能是比线性语序更准确的排序方法,前瞻中心按语法功能排序可以得到显著优于按线性语序排序的消解结果;2)考虑语法功能平行性的算法在消解零形代词时具有一定优势,考虑回指中心连贯性的算法在消解代词时具有一定优势,而同时考虑两者的算法具有更广泛的优势;3)按语法功能排序,并同时考虑语法功能平行性和句子层级结构,在对英汉零形代词和汉语代词消解时都可获得最佳结果,但对英语代词的消解结果却几乎是最差的,这说明对英语的句子层次及其对英语代词消解的影响还需进一步研究。

当然,本文的主要研究对象是以民间故事和儿童故事为代表的叙事语篇,语料量也不大。因此,所得出的结论是否同样适用于其他体裁的语篇,尚需验证。

①英语民间故事和儿童故事分别选自;汉语民间故事语料选自人民文学出版社出版的《中国民间故事选》(1980第2版)第一集和第二集,儿童故事选自

②名词短语前的数字是我们的消解程序对语篇里提及的每个实体进行的自动编号,18代表名词短语“蚂蚁国”是《蚂蚁大力士》这一语篇里提及的第18个实体。

③这里的标注参照了美国宾州大学中文树库(Penn Chinese Treebank)的标注方法(见Xue et al 2005),所用符号及其表示的意义如下:NP=名词短语,ZP=零形代词,PRON=第三人称代词,SBJ=主语,OBJ=宾语,OBL=旁语,ADV=状语,FOC=焦点(在Xue et al.(2005)中用于标注位于主语后、动词前的名词短语,本文也用于标注被动结构中“被”或“给”字后面的名词短语),SM=主语修饰语,OM=宾语修饰语,OBLM=旁语修饰语,PROS=主语控制大代语,PROO=宾语控制大代语,PRDN=谓语名词,RP=关系代词,PM=谓语名词修饰语,IP-OBJ=宾语从句,IP-RET=关系从句,IP-NRET=非限定性关系从句。

标签:;  ;  

未来中心排名对英汉参考文献分辨率影响的对比分析_从句论文
下载Doc文档

猜你喜欢