口译语料库的编码与标记:以SIDB为例,本文主要内容关键词为:语料库论文,为例论文,标记论文,SIDB论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
关于口译语料库的建置与研究,迄今以名古屋大学1999-2003年之间开发的英日/日英同步口译语料库(SIDB,Simultaneous Interpretation Data Base)为最大,约达182小时(听写成100万字)。该研究团队在此基础上,自2001-2006年进行了一系列检证口译产出特征的量化研究。 本研究将从其建库到研究成果产出的10年期间,针对该研究团队的学术活动,分析其成员属性、主题分布、经费运用、学术成果、主要特色等,作为今后口译语料库大规模建置及研究开展上的借鉴。 其次,在掌握前述信息的基础下,将以SIDB语料库的编码与标记,进一步描述其建置架构并评估其优势与特色,并与其研究产出之间的关系提出评估报告。 二、SIDB描述 该团队核心成员松原茂树(2001:86)的研究报告指出该语料库是源于名古屋大学“统合音响情报研究据点”(CIAIR,Center for Integrated Acoustic Information Research)武田一哉教授(Kazuya Takeda)于1999-2003年执行文部省COE(Center of Excellence)计划所衍生的一项研究①。其庞大的科研经费主要是投入多元音响信号的综合理解之用,包括汽车行进间的话语辨识及过滤噪声等研究。 前述研究团队为了追求口译自动化的目标,因而于1998-1999年开始着手双语同传语料库的建置准备。当时他们所尝试的是一种“渐进式的英日口语翻译手法”(松原茂树等1998,1999),亦即顺着小句的词序,采取顺句驱动的方式产出译语。然而,他们认为唯有从职业译员获取真实的口译语料,才能为自动化的口译产出找到最佳范本,以利系统的设计与运作。以下是SIDB语料库的概要: 该语料库的建置除了以支持自然语言处理、认知科学、认知语言学、口译研究、口译教学、外语教学等多功能用途为其目标之外,最大的梦想是追求口译的自动产出。甚至,包括在电话、车内等伴随杂音的环境下,得以自动产生优质的口译。基于此,他们在该语料库的语音标记及时间信息上,格外要求精细的记载。而这也是该研究主旨——“多元音响信号的综合理解”的落实与诠释。 三、SIDB的编码与标记 SIDB语料库的语料分成独白与对话两种类型。前者由职业译员担任口译,并由真人进入玻璃录音室,让译员在可看到并听到源语讲者的情况下进行同传。而对话语料则采取面对面与仿真电话的非面对面形式,译员口译时可以听到两位对话者的话语内容,以掌握完整的语境。收录情况如下: 在编码方面,研究团队针对收录语料时的背景数据、语料特征、说话者与译员及其话语媒介等信息分别加以编码。主要可分类为:背景环境、语料特征、话语讲者、话语界面。详见表2: 该语料的标记采取的是自动化语料标记(tagging)方式,可分话语篇章标记、时间信息标记、话语语流标记。以下,将针对各项标记的定义、目的、功能、特征等提出详细描述。 所谓“话语篇章标记”,指的是该语料的语音听写方式。该团队采取的是日本国立国语研究所制订的“日语口语语料库(CSJ)”基准。也就是说,以200msec以上的停顿为其切分(segment)依据,并将此视为一个话语单位(松原茂树等2001:92)。而这样做的目的是为了找出一个明确客观的分割信息依据,同时也可借此确定话语的基本单位。如此,就可以写出程序,并透过程序去自动撷取及分割话语信息,而停顿两秒以上即形成一个可客观辨识的话语标志(discourse marker),有助研究人员据此探究口译产出时的认知意义并加以分类。 由于日语有汉字与假名混杂的现象,故除了第1行是纪录话语的时间序列,第2行是源语的听写文字,第3行则是语音标记(以片假名标示前一行语音的加工程序)。而英语则只有两行——时间序列与源语文字,而无语音标记。详参以下表示时间信息的标记图标(图2、图3): 在“时间信息标记”方面,包含前述水平纪录的时间序列与源语文字形成水平走向(图4)及垂直方向的时间序列纪录(图5)。 SIDB团队充分运用了他们在时间标记上的信息,在后续的研究成果中展现了可观的成绩。其研究课题包括:同传译员发声时点分析、同传与交传的时间特征、同传中的停顿、同传产出延迟分析、语速变动分析、应答词的插话时机等。该团队在时间标记上共提出19篇论文,其中与同传相关的论文即达14篇。可见,同传研究与时间信息标记之间的关联性颇高。 至于“话语语流标记”,主要针对口语表达时的不流畅、语音异常等现象加以标示。例如,发语词(F,filler)、不完整词语(D)、口误(W)、元音拉长(H)、子音拉长(Q)、元音不确定(FV)、句尾(SB)。最后,在句子结束处加上的标记(PB),则用于识别及切分之用。详如表3: 针对以上标记,该团队还研发了一套可自动对齐(alignment)的支持软件,以利标记作业的统一性。其功能包括显示双语语料分句对齐、时间标记(含非时间标记的排除)、词素分析结果等窗口。参见图4、图5及图6、图7,可知表3中的各类标记都已完整显于其中。 四、SIDB的研究成果 SIDB语料内容配合前述编码与标记,及对齐与分析等软件的运作下,该团队以松原茂树为核心,自1994-2012年陆续提出319篇论文②,其中85篇为英文,229篇为日文。主要研究课题包括以下各项,内容扼要摘述如下页表4。 以下,包括SIDB各类论文篇数、同传研究的分布情况,及其出版高峰期等数据,请详见下页表5。事实上,SIDB的建置虽是1999-2003年,但显然关于话语理解、译法分析等研究,早在1994-1998年就已着手启动。到了1999-2003年的计划执行时期,此时的研究集中在话语理解、话语分析、译法分析、语音处理、语料库设计等课题,亦即语料分析与工具开发上。 而在2004-2012年之间,研究课题则偏向时间信息、话语分析、文本处理、文本分析、语料库设计。此时的研究面向,开始以英语或日语的话语/书面的分析与处理(含自动产出)为目标。显然,可以划分为三个主要阶段。详见下页表6。 而另一方面,对于同传的研究成果及其分布情况,亦令人深感好奇。首先,我们发现同传的相关成果,仅分布于1996-2009年,高峰期为2000-2009年。然后,47篇论文中篇数最多的研究课题是时间信息与语料库设计,然后则是译法分析与话语分析。 而同传的相关研究中,从下页表7可看出语料库设计占了1/3,且集中分布于2000-2005年。同样也占1/3分量的是语料的时间信息所衍生的研究,主要分布于2005-2009年。除此之外的连续分布则见于译法分析,在2003-2006年之间。而对照表6可知,时间信息是同传口译产出类型的特征研究,同时也是一项贯穿三阶段(前置、执行、应用),执行期间未曾中断的骨干内容。 表7是研究成果的逐年分布情况: 然而,表7中较令人意外的是话语分析(仅6篇),且主要集中在2006年(4篇)。也就是说,同传的话语分析在SIDB的研究推进过程中,并非持续研究的主要课题。而事实上,在近20年的研究历程中,话语分析是成果偏高的面向,但其中的同传研究比重明显偏低。此外,另一耐人寻味的现象则是时间信息的研究成果。主要成果是在该计划执行结束之后(1999-2003),才连续5年又提出了12篇论文。整体而言,SIDB近20年的研究历程中,一贯稳定产出的研究课题有下列各项: 而各项持续性研究课题的产出高峰期及其重叠期如下图7。 从表8与图7亦可看出,SIDB团队发展同传期间(1999-2003),正是各项持续性研究课题的第一个高峰期。然而,在此之后的研究期间,显然图7中的四项研究课题的比重日益提升。此外,英/日文书写文本的自动抽取等加工处理,已然是其重要的核心议题。同时,配合分布于2009-2010年的人工智能与2010与2012年的认知分析,可知发展自动翻译系统应是其主要目标。换言之,SIDB的重心已经从口译逐渐转入笔译领域了。 五、SIDB编码与标记及其研究成果 若要探究何以SIDB在建置成为全球最大的同步口译语料库之后,其同传研究却消逝得如此迅速,其原因与编码与标记的设计密切相关。 首先,观察其编码与标记的内容,可知并未反映在其研究成果中。例如,编码中对于口译员资历的分类,并未在其后续成果中展现资深(3年以上)与资浅(3年以下)译员的口译表现有何差异(表2)。 而标记方面,关乎译员认知表征的口译错误或失误,如发语词(F)、改口(R)、不完整词语(D)、句中停顿(PS)等重要的口译表现,也并未在研究中提出相关成果。换言之,对于口译的译语内容或技巧表现(performance)等,该团队并未赋予相应的关注。 其实,在拥有前述编码与标记的情况下,其中与译语语流相关的译员认知标记及语音异常标记,以及语料特征与译员资历、话语接口等编码,对于口译技能与策略的探究,似乎值得进一步加以关注。以口译技能而言,不同口译资历译员(3年以上或以下),针对同一语篇的同传表现,必然是该团队当初关注的一项焦点,且因而投注的资金与心力也相当可观。 然而,SIDB自1994-2012年陆续提出的319篇论文中,却没有任何一篇是探讨不同资历译者技能表现的。这一点,确实令人不解。或许,该团队并未将语流的迟滞与语音的偏移,视为口译技能发展中有意义的标志,才导致该项研究议题产出不彰的结果。 假使这一假设成立的话,只要从资深译员是否较资浅译员语流更为顺畅、语音偏移更少,即可得知口译技能发展程度是否与此相关。就量化研究而言,若要证明其结果,数据应如探囊取物,可说易如反掌。 然而,研究团队所关注的重点,大都围绕在时间信息的基础上——包含语速、停顿、源语与译语的时序落差、发语词(F)与听取效果的关系、日译英/英译日与译语延迟的比较等。 这些成果(共14篇)主要针对语速或停顿对于听取理解的影响,并提出量化的测定报告(2005年3篇,2006年1篇)。同时,也运用软件切分语音/文本语料,提出精细的时间测定数据(2002年1篇)。如,同传与交传的时间效益比较(2003年1篇)、源语与译语的时序落差(2006年1篇,2007年1篇)、自动推估单词发声时间(2007年1篇,2008年1篇)、日译英/英译日与译语延迟比较(2007年1篇)等。其后的研究成果则集中在译员的语速变动(2008-2009年3篇)等。 而译法方面共计8篇。他们提出口译时的主要套式、信息单位、衔接手法(分割、省略、反复)、顺句驱动、句构特征、从属句译法、省略手法(省略、压缩)等。(各年度论文篇数如图9所示) 而在话语特征方面共计6篇论文。1996年9月,他们首先提出对话的日语译语特征为主题变换、分割、倒置、反复、改口(纠正)及发语词的高频现象等。只是,这样的发现仅出现于语料库尚未开始建置的1996年,建置初期(2000年)仅完成一篇对话语料库分析的论文。而建置完成之后(2006年4篇),反而并未提出与最初规划时足以呼应且有持续性的研究成果。4篇论文主题分别是:教学应用、发语词对听众理解的影响、演讲的同传类型、对话翻译的日语发言分割。 而占相同比重(14篇)的还有语料库设计研究,持续产出于2000-2005年。可见与同步口译相关的工具开发,与其科研项目的执行是密切相关的。其中主要课题包括语料库设计与利用和对齐手法及其评估。相对而言,这些都是比较概论性质的论文。不过,他们在此同时也申请了两项专利。分别是自动抽取摘要和翻译套式(2004-2005)。 回顾该语料库的研发,得之于编码与标记的研究成果似乎可说偏低。尤其,从总体319篇而言,更是相形见绌。 六、结语:展望今后 从全球首度研发完成的百万字口译语料库的成果剖析看来,似乎令人不无遗憾。其症结点在于口译语料库并非信息科学产品,其分析与研究若无口译学界的加入,甚难发现以口译为核心的问题意识,亦导致其成果受到局限。 反之,从近几年的口译研究课题可知,举凡口译技巧、评量、策略、模式、过程研究、专技发展等,以语料库为工具所做的分析较之过往的观察研究,证据力与解释性皆可大幅提升,颇值得投入此一领域。此外,SIDB的内容是可价购取得的,若与中英、中日等语言组合交互运用,其规模可以扩增达数倍。而且,该语料精确性极高,值得以更具兼容性的接口重制并加以引介推广。 ①总计划由板仓文忠教授以“多元音響信号の统合的理解”为题任总主持人,武田教授所执行的仅是其中四个子计划之一。该子计划5年共获8亿2260万日元(约1000万美元)科研直接经费。1999年:2亿6千万,2000年:1亿8千万,2001年:1亿7千万,2002年:1亿900万,2003年:1亿2393万日元。 ②这319篇论文是以松原茂树列名其中的论文为标的,撷取自日本CiNii学术网。解释语料库的编码与标记--以SIDB为例_语料库论文
解释语料库的编码与标记--以SIDB为例_语料库论文
下载Doc文档