解释语料库的编码与标记--以SIDB为例_语料库论文

口译语料库的编码与标记：以SIDB为例，本文主要内容关键词为：语料库论文,为例论文,标记论文,SIDB论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

关于口译语料库的建置与研究，迄今以名古屋大学1999-2003年之间开发的英日/日英同步口译语料库（SIDB，Simultaneous Interpretation Data Base）为最大，约达182小时（听写成100万字）。该研究团队在此基础上，自2001-2006年进行了一系列检证口译产出特征的量化研究。

本研究将从其建库到研究成果产出的10年期间，针对该研究团队的学术活动，分析其成员属性、主题分布、经费运用、学术成果、主要特色等，作为今后口译语料库大规模建置及研究开展上的借鉴。

其次，在掌握前述信息的基础下，将以SIDB语料库的编码与标记，进一步描述其建置架构并评估其优势与特色，并与其研究产出之间的关系提出评估报告。

二、SIDB描述

该团队核心成员松原茂树（2001：86）的研究报告指出该语料库是源于名古屋大学“统合音响情报研究据点”（CIAIR，Center for Integrated Acoustic Information Research）武田一哉教授（Kazuya Takeda）于1999-2003年执行文部省COE（Center of Excellence）计划所衍生的一项研究①。其庞大的科研经费主要是投入多元音响信号的综合理解之用，包括汽车行进间的话语辨识及过滤噪声等研究。

前述研究团队为了追求口译自动化的目标，因而于1998-1999年开始着手双语同传语料库的建置准备。当时他们所尝试的是一种“渐进式的英日口语翻译手法”（松原茂树等1998，1999），亦即顺着小句的词序，采取顺句驱动的方式产出译语。然而，他们认为唯有从职业译员获取真实的口译语料，才能为自动化的口译产出找到最佳范本，以利系统的设计与运作。以下是SIDB语料库的概要：

该语料库的建置除了以支持自然语言处理、认知科学、认知语言学、口译研究、口译教学、外语教学等多功能用途为其目标之外，最大的梦想是追求口译的自动产出。甚至，包括在电话、车内等伴随杂音的环境下，得以自动产生优质的口译。基于此，他们在该语料库的语音标记及时间信息上，格外要求精细的记载。而这也是该研究主旨——“多元音响信号的综合理解”的落实与诠释。

三、SIDB的编码与标记

SIDB语料库的语料分成独白与对话两种类型。前者由职业译员担任口译，并由真人进入玻璃录音室，让译员在可看到并听到源语讲者的情况下进行同传。而对话语料则采取面对面与仿真电话的非面对面形式，译员口译时可以听到两位对话者的话语内容，以掌握完整的语境。收录情况如下：

在编码方面，研究团队针对收录语料时的背景数据、语料特征、说话者与译员及其话语媒介等信息分别加以编码。主要可分类为：背景环境、语料特征、话语讲者、话语界面。详见表2：

该语料的标记采取的是自动化语料标记（tagging）方式，可分话语篇章标记、时间信息标记、话语语流标记。以下，将针对各项标记的定义、目的、功能、特征等提出详细描述。

所谓“话语篇章标记”，指的是该语料的语音听写方式。该团队采取的是日本国立国语研究所制订的“日语口语语料库（CSJ）”基准。也就是说，以200msec以上的停顿为其切分（segment）依据，并将此视为一个话语单位（松原茂树等2001：92）。而这样做的目的是为了找出一个明确客观的分割信息依据，同时也可借此确定话语的基本单位。如此，就可以写出程序，并透过程序去自动撷取及分割话语信息，而停顿两秒以上即形成一个可客观辨识的话语标志（discourse marker），有助研究人员据此探究口译产出时的认知意义并加以分类。

由于日语有汉字与假名混杂的现象，故除了第1行是纪录话语的时间序列，第2行是源语的听写文字，第3行则是语音标记（以片假名标示前一行语音的加工程序）。而英语则只有两行——时间序列与源语文字，而无语音标记。详参以下表示时间信息的标记图标（图2、图3）：

在“时间信息标记”方面，包含前述水平纪录的时间序列与源语文字形成水平走向（图4）及垂直方向的时间序列纪录（图5）。

SIDB团队充分运用了他们在时间标记上的信息，在后续的研究成果中展现了可观的成绩。其研究课题包括：同传译员发声时点分析、同传与交传的时间特征、同传中的停顿、同传产出延迟分析、语速变动分析、应答词的插话时机等。该团队在时间标记上共提出19篇论文，其中与同传相关的论文即达14篇。可见，同传研究与时间信息标记之间的关联性颇高。

至于“话语语流标记”，主要针对口语表达时的不流畅、语音异常等现象加以标示。例如，发语词（F，filler）、不完整词语（D）、口误（W）、元音拉长（H）、子音拉长（Q）、元音不确定（FV）、句尾（SB）。最后，在句子结束处加上的标记（PB），则用于识别及切分之用。详如表3：

针对以上标记，该团队还研发了一套可自动对齐（alignment）的支持软件，以利标记作业的统一性。其功能包括显示双语语料分句对齐、时间标记（含非时间标记的排除）、词素分析结果等窗口。参见图4、图5及图6、图7，可知表3中的各类标记都已完整显于其中。

四、SIDB的研究成果

SIDB语料内容配合前述编码与标记，及对齐与分析等软件的运作下，该团队以松原茂树为核心，自1994-2012年陆续提出319篇论文②，其中85篇为英文，229篇为日文。主要研究课题包括以下各项，内容扼要摘述如下页表4。

以下，包括SIDB各类论文篇数、同传研究的分布情况，及其出版高峰期等数据，请详见下页表5。事实上，SIDB的建置虽是1999-2003年，但显然关于话语理解、译法分析等研究，早在1994-1998年就已着手启动。到了1999-2003年的计划执行时期，此时的研究集中在话语理解、话语分析、译法分析、语音处理、语料库设计等课题，亦即语料分析与工具开发上。

而在2004-2012年之间，研究课题则偏向时间信息、话语分析、文本处理、文本分析、语料库设计。此时的研究面向，开始以英语或日语的话语/书面的分析与处理（含自动产出）为目标。显然，可以划分为三个主要阶段。详见下页表6。

而另一方面，对于同传的研究成果及其分布情况，亦令人深感好奇。首先，我们发现同传的相关成果，仅分布于1996-2009年，高峰期为2000-2009年。然后，47篇论文中篇数最多的研究课题是时间信息与语料库设计，然后则是译法分析与话语分析。

而同传的相关研究中，从下页表7可看出语料库设计占了1/3，且集中分布于2000-2005年。同样也占1/3分量的是语料的时间信息所衍生的研究，主要分布于2005-2009年。除此之外的连续分布则见于译法分析，在2003-2006年之间。而对照表6可知，时间信息是同传口译产出类型的特征研究，同时也是一项贯穿三阶段（前置、执行、应用），执行期间未曾中断的骨干内容。

表7是研究成果的逐年分布情况：

然而，表7中较令人意外的是话语分析（仅6篇），且主要集中在2006年（4篇）。也就是说，同传的话语分析在SIDB的研究推进过程中，并非持续研究的主要课题。而事实上，在近20年的研究历程中，话语分析是成果偏高的面向，但其中的同传研究比重明显偏低。此外，另一耐人寻味的现象则是时间信息的研究成果。主要成果是在该计划执行结束之后（1999-2003），才连续5年又提出了12篇论文。整体而言，SIDB近20年的研究历程中，一贯稳定产出的研究课题有下列各项：

而各项持续性研究课题的产出高峰期及其重叠期如下图7。

从表8与图7亦可看出，SIDB团队发展同传期间（1999-2003），正是各项持续性研究课题的第一个高峰期。然而，在此之后的研究期间，显然图7中的四项研究课题的比重日益提升。此外，英/日文书写文本的自动抽取等加工处理，已然是其重要的核心议题。同时，配合分布于2009-2010年的人工智能与2010与2012年的认知分析，可知发展自动翻译系统应是其主要目标。换言之，SIDB的重心已经从口译逐渐转入笔译领域了。

五、SIDB编码与标记及其研究成果

若要探究何以SIDB在建置成为全球最大的同步口译语料库之后，其同传研究却消逝得如此迅速，其原因与编码与标记的设计密切相关。

首先，观察其编码与标记的内容，可知并未反映在其研究成果中。例如，编码中对于口译员资历的分类，并未在其后续成果中展现资深（3年以上）与资浅（3年以下）译员的口译表现有何差异（表2）。

而标记方面，关乎译员认知表征的口译错误或失误，如发语词（F）、改口（R）、不完整词语（D）、句中停顿（PS）等重要的口译表现，也并未在研究中提出相关成果。换言之，对于口译的译语内容或技巧表现（performance）等，该团队并未赋予相应的关注。

其实，在拥有前述编码与标记的情况下，其中与译语语流相关的译员认知标记及语音异常标记，以及语料特征与译员资历、话语接口等编码，对于口译技能与策略的探究，似乎值得进一步加以关注。以口译技能而言，不同口译资历译员（3年以上或以下），针对同一语篇的同传表现，必然是该团队当初关注的一项焦点，且因而投注的资金与心力也相当可观。

然而，SIDB自1994-2012年陆续提出的319篇论文中，却没有任何一篇是探讨不同资历译者技能表现的。这一点，确实令人不解。或许，该团队并未将语流的迟滞与语音的偏移，视为口译技能发展中有意义的标志，才导致该项研究议题产出不彰的结果。

假使这一假设成立的话，只要从资深译员是否较资浅译员语流更为顺畅、语音偏移更少，即可得知口译技能发展程度是否与此相关。就量化研究而言，若要证明其结果，数据应如探囊取物，可说易如反掌。

然而，研究团队所关注的重点，大都围绕在时间信息的基础上——包含语速、停顿、源语与译语的时序落差、发语词（F）与听取效果的关系、日译英/英译日与译语延迟的比较等。

这些成果（共14篇）主要针对语速或停顿对于听取理解的影响，并提出量化的测定报告（2005年3篇，2006年1篇）。同时，也运用软件切分语音/文本语料，提出精细的时间测定数据（2002年1篇）。如，同传与交传的时间效益比较（2003年1篇）、源语与译语的时序落差（2006年1篇，2007年1篇）、自动推估单词发声时间（2007年1篇，2008年1篇）、日译英/英译日与译语延迟比较（2007年1篇）等。其后的研究成果则集中在译员的语速变动（2008-2009年3篇）等。

而译法方面共计8篇。他们提出口译时的主要套式、信息单位、衔接手法（分割、省略、反复）、顺句驱动、句构特征、从属句译法、省略手法（省略、压缩）等。（各年度论文篇数如图9所示）

而在话语特征方面共计6篇论文。1996年9月，他们首先提出对话的日语译语特征为主题变换、分割、倒置、反复、改口（纠正）及发语词的高频现象等。只是，这样的发现仅出现于语料库尚未开始建置的1996年，建置初期（2000年）仅完成一篇对话语料库分析的论文。而建置完成之后（2006年4篇），反而并未提出与最初规划时足以呼应且有持续性的研究成果。4篇论文主题分别是：教学应用、发语词对听众理解的影响、演讲的同传类型、对话翻译的日语发言分割。

而占相同比重（14篇）的还有语料库设计研究，持续产出于2000-2005年。可见与同步口译相关的工具开发，与其科研项目的执行是密切相关的。其中主要课题包括语料库设计与利用和对齐手法及其评估。相对而言，这些都是比较概论性质的论文。不过，他们在此同时也申请了两项专利。分别是自动抽取摘要和翻译套式（2004-2005）。

回顾该语料库的研发，得之于编码与标记的研究成果似乎可说偏低。尤其，从总体319篇而言，更是相形见绌。

六、结语：展望今后

从全球首度研发完成的百万字口译语料库的成果剖析看来，似乎令人不无遗憾。其症结点在于口译语料库并非信息科学产品，其分析与研究若无口译学界的加入，甚难发现以口译为核心的问题意识，亦导致其成果受到局限。

反之，从近几年的口译研究课题可知，举凡口译技巧、评量、策略、模式、过程研究、专技发展等，以语料库为工具所做的分析较之过往的观察研究，证据力与解释性皆可大幅提升，颇值得投入此一领域。此外，SIDB的内容是可价购取得的，若与中英、中日等语言组合交互运用，其规模可以扩增达数倍。而且，该语料精确性极高，值得以更具兼容性的接口重制并加以引介推广。

①总计划由板仓文忠教授以“多元音響信号の统合的理解”为题任总主持人，武田教授所执行的仅是其中四个子计划之一。该子计划5年共获8亿2260万日元（约1000万美元）科研直接经费。1999年：2亿6千万，2000年：1亿8千万，2001年：1亿7千万，2002年：1亿900万，2003年：1亿2393万日元。

②这319篇论文是以松原茂树列名其中的论文为标的，撷取自日本CiNii学术网。

标签：语料库论文; 口译论文; 同传翻译论文;

解释语料库的编码与标记--以SIDB为例_语料库论文

猜你喜欢