面向翻译管道的术语加工

卡拉·沃伯顿¹ 著宋楠楠² 朱波²译

(1.Termologic公司，加拿大安大略 L9M 1N1;2.南京航空航天大学外国语学院，江苏南京 211106)

摘要：公司跨国经营离不开翻译，翻译质量和速度是获取目标市场份额的关键因素。积极主动地管理术语，包括预处理翻译项目中的关键术语，会产生积极影响。在商业环境中，翻译内容包罗万象，术语来源广泛。以术语提取为基础，采取重用已有词汇的后处理策略，可最大限度提高效率，把术语自动整合到翻译管道中。从语料库中提取用于翻译的术语，导入术语库，用于商业开发。根据工作经验，作者探讨了术语提取的有效方法。

关键词：计算机辅助翻译；术语提取；翻译记忆；词汇；术语；术语数据库

一简介

产品多元化的大型公司是翻译产业的重要客户。翻译越快，产品面市越早，抢占的市场份额就越大。如今，各大公司都致力于同时上线旗下产品的所有语言版本。提升速度也要保证质量，否则将影响目标市场客户满意度，给公司带来损失。

在压力之下，公司正寻求技术解决方案。哪些工具可减少工作时间，又能保证翻译质量？几十年前，第一种科技工具以计算机辅助翻译(CAT)的形式出现。CAT工具由翻译编辑器和数据库组成，翻译编辑器可查看源句和目标句，数据库保存翻译以便日后重复使用。如今CAT功能日益强大，可用于项目管理、文件管理、术语提取和术语管理等。

虽然CAT转换率更快、一致性更高，但术语数据库(termbase)可获得额外收益。本文将把术语数据库与CAT工具结合，利用术语提取来补充CAT中双语术语的不足。文章将证明术语可以被提取、处理、翻译和重新利用，从而节省商业翻译的时间和成本。

本研究提示，规模化猪场要重视种猪的选育，避免“重引种轻选育”的错误思想。选留种猪要有科学依据，这就要求准确测量和记录繁殖相关基本数据，如母猪的妊娠期、初生窝重、产仔数、产活仔数和断奶窝重等指标，数据测量要持续到第三胎以上，定期进行统计分析，实行体型外貌和选择指数相结合的方法综合选留种畜，真正提高猪场的经济效益和生产效率。

二术语与翻译记忆

大多数CAT工具依赖于翻译记忆(TM)技术，翻译人员不必重新翻译已有句子，节省很多时间。翻译句子时，源句和译文作为一个“翻译单元”存储在数据库中，即TM。每次译者翻译其他句子时，数据库会自动搜寻，看看该句或类似句子是否已存在。如符合，就会显示该句译文，供译者重复使用。历经几十年发展，TM技术已达到“炉火纯青”的地步，目前正寻找获取额外收益的方法。

一些学者认为，术语通常是名词短语(NP)，有多种句法功能，如介词补语、主语、直接宾语等。TM针对完整句子运行。查询句子的部分TM，比如搜寻给定术语的翻译，需要大量资源，不切实际。因此，大多数CAT为补充TM，有单独查询术语的功能。许多公司认为有TM就足够，忽略了CAT术语数据库。使用CAT术语数据库，可减少术语使用中的不一致和错误。研究表明，术语错误是译者最常犯的错误之一。

(2)不受翻译约束的字符串，如字母数字字符串、标记标签、代码、内部注释等。

从理论上讲，可以考虑用这些因素来制定加权公式，以确定与删除匹配项相关的风险因素。同时，需要进一步研究以确定上述风险因素和公式是否可用于过滤术语候选项。

(1)获取项目专用语料库；

(2)从语料库中提取术语；

(3)缩减实际术语候选表(清理“噪声”)；

Analysis on failure mechanisms of a waste slag accumulation slope at a certain

国家税务总局于2005年印发了《纳税评估管理办法(试行)》，该文首次对纳税评估工作给出明确的定义：纳税评估是指税务机关运用数据信息对比分析的方法，对纳税人和扣缴义务人纳税申报情况的真实性和准确性作出定性和定量的判断，并采取进一步征管措施的管理行为。随着时间推移，税收征管改革不断深化，纳税评估工作被赋予了新的内涵，综合体现服务行为与行政执法行为。作为税务机关对纳税人自我申报的义务履行情况进行检查、审核的执法活动，纳税评估具有其他管理手段无法替代的优点。

(4)翻译术语；

(5)保留译后术语为将来所用。

每一个步骤都有自己的挑战，本文着重介绍(2)和(3)。

三独立语料库

语料库是进行研究的基础资源，其中存放的是在语言使用中出现过的真实语料，需要经过加工、分析和处理，才能成为有用资源。因此，提供一个合适途径来访问和汇总提取术语的语料库非常重要。许多公司的产品都是零星开发的，生产部门、地理位置、时区和团队各不相同。通常，团队文件保存在本地网络的存储库中，无法轻易进入并提取术语，所需文件也不确定。大型项目有数千个文件，但并不是每个都有用，比如那些不需翻译或重译的文件。当前可直接利用的语料库数量非常有限，这就需要根据需求构建符合要求的独立语料库，以减少问题，提升效率。

四术语提取

候选术语表大小：当候选表非常大时，目标语言术语学家不可能预翻译所有术语。这时应删除已翻译术语，从而将列表简化为“新”术语，因为至少一些删除的术语在公司术语数据库中具有可接受翻译。

先前翻译项目中已翻译术语可减少新项目术语候选表的清理工作。如果译员的CAT工具接入了公司术语库，那么重新翻译已在该术语库中的术语毫无意义。原则上，公司术语数据库中已有术语可以从新候选术语表中删除。这里假设公司术语库中的术语与候选列表中“匹配”术语具有相同含义，否则就需要不同翻译，两者都要保留。如果候选术语和术语库术语都有词性标注，则可以验证两者语法类别是否相同。

在产品文本中，经常出现的一个词，无论它是否是传统意义上的“术语”，保持翻译一致性非常重要。比如open和save，它们是软件用户界面的关键选项。传统的术语理论支持名词，可能会忽视动词，因为名词比其他语法范畴更能表达有形的概念。此外，如果是一般词汇，而不是某特定主题领域的词，就不能归类为“术语”，因为传统定义术语是“在特定主题领域指定一般概念”。

如果像open和save这样的单词用多个不同术语表达，可能会对公司形象和产品准确性产生负面影响。事实上，软件广泛使用这些普遍和常见的表达方式表明，有必要将单词的出现频率作为是否纳入“术语”的参考标准。通过观察结果，我们得出结论，频率是术语提取的一个重要因素。

虽然动词是软件用户界面中的关键术语，但通常来说，名词是最常见的形式，能传递更多意义。多词名词性组(以名词为词头的多词术语)非常有价值，不仅是因为许多术语是多词名词性，还因为这种词在目标语言中可以有不同的等价词，词序变化或介词使用很常见。因此，用词性筛选提取名词和动词是有益的，需要一个基于规则的术语提取器。在本文描述的过程中，同时依据频率和词性的混合方法效率最高。

肠内营养制剂给药途径肠内营养制剂给药途径繁多[11]，主要输入途径有口服、鼻胃管、胃造口、鼻空肠管和空肠造口等，在不能口服的情况下，短期营养可通过鼻胃管和鼻空肠管供给，长期营养支持更适用经皮胃造口和空肠造口。

五缩减实际术语候选表

每个术语提取工具都会输出“噪声”，“噪声”是指对当前翻译项目没有帮助的词汇或其他各种字符串。翻译术语列表前，应先去除噪声。本文基于规则来定义噪声。

噪声可以通过以下分类过滤:

(1)通用词汇。它们易于翻译，可以在词典中找到，而且翻译不一致对整体翻译质量几乎没有影响。

本地化行业标准协会建议在翻译项目之前预处理给定项目的术语，并输入CAT术语数据库中。确保关键术语可自动索引，并预先确定目标的标准译法。双语术语补充TM：译者可同时从TM中看到之前句子译文和术语库中任何匹配的术语。译员如发现TM段之间或TM和术语数据库之间的术语不一致，可实时修复。长此以往，翻译后的新内容和TM会总体改进。

(3)重复或同义项(稍后将对此进行解释)。

(4)低频术语，除非它们有一些重要的属性，例如它们是否高度可见(在用户界面或包装材料上等)。

缩减候选表是一个复杂的、多阶段的过程，需要一系列特殊技能。经验表明，完全自动化不切实际，但是，如果没有任何自动化，完全手工也耗时耗力。出于这个原因，我们将缩减过程分解为一系列步骤，其中一些可以自动化。在预翻译对项目有价值的术语时，会产生主观因素。因此，可遵循下列原则：

回归方程(1)中因变量DNcal表示经饱和及内部校准后各像元的灰度值，DN表示待校准图像中的像元灰度值，为回归的参数。经过内部校准后的像元DN值，等价于将不同年份不同卫星不同像元的灯光亮度按照统一标准重新调整。经过相互校准后的长时间序列的DMSP/OLS夜间灯光图像数据集之间具有可比性，同时每一期图像都削弱了像元DN值饱和的程度。

1.删除通用词汇

从候选表中删除通用词汇可以增加其与翻译项目的相关性。翻译人员可以轻松地翻译这些单词，而且翻译不一致对整体翻译质量几乎没有影响。如果该词在产品中有重要意义则例外，如前面软件用户界面中的单词。通用词汇示例如下：person、page、time、useful information、correct use、following step。

大多数术语提取工具都可以自动删除虚词(介词、冠词、代词等)，所以我们将重点讨论名词和动词。再以软件行业为例，像socks、cookie、mouse、Apple和worm这样的单词具有特殊含义，与字典解释不同，它们需要根据产品进行准确翻译。使用现有单词表作为排除表可能会无意删除这些单词。因此，除非仔细检查过现有排除表，否则不推荐使用。公司可逐步构建自己的通用词汇排除表，这也是我们采用的方法。手动清理时，术语专家每删除一个单词，就自动存储在排除表中，这需要一个程序自动记录删除时的情况。此外，只有在术语专家删除通用词汇时才启用程序，而不是删除其他类型的噪声。否则，该表将被非通用词汇污染，无法在其他需要纯通用词汇列表的应用程序中重新使用。

由于对术语候选词“普遍性”的决定存在主观性，术语专家应定期检查排除表，收回任何可能有价值的术语。此外，由于通用词汇的含义取决于特定领域，在某些情况下排除通用词汇会更精确。

2.删除专有名词

专有名词应移到单独文件中，因为它们很可能在目标语言中保持未翻译。如果被标注为专有名词，则可以保存在术语表中，以便下游目标语言术语学家能够相应地处理它们。区分普通名词和专有名词需要一个自动词性标注模块。所采取的方法取决于公司中心术语数据库是否允许包含专有名词，因为术语文件最终将被合并到术语数据库中。

3.删除标记不可译的字串符

有些字符串不用翻译。如软件行业的文件名、编程代码和网站链接之类的机器可读信息。理想情况下，源语料库应该用基于XML索引标记语言编码，比如Darwin信息分类体系结构(DITA)。当源语料库中使用“不翻译”标注时，译员可忽略它们的内容。因此，没有必要在CAT术语数据库中包含这些字符串。

4.过滤前置修饰语

在词汇候选表中，应将具有共同含义的前置修饰语(如first、last、following、correct、next、right、wrong等)从多词单元中删除。比如把next replication 简化为replication，不仅能提供更准确的术语，还可以提高术语在自动检索中的再利用潜力。缩减术语可以和其他复合词搭配，比如last replication，failed replication。为此，可以创建或从外部获取一组常见的前置修饰语表，在提取过程中自动对应删除。

（4）有利于提高物流园区建设质量。基于EPC的智慧物流园区总包业务，设计发挥主导决定作用，可以及时便捷的向采购和实施提供技术支持和引导，将智慧物流园区的规划和设计方案贯穿整个总包项目中，实现园区建设质量的提升。

5.合并近似术语

有些术语仅仅是大小写(如Userid和userid)、连字符(如eCommerce和e-Commerce)或者有无空格(如check box和checkbox)的区别，我们将它们称为近似项。有时，候选词的大小写都有效且含义不同(如White House和white house)。在决定两个术语是否近似时，术语专家需仔细评估，从而删除其中一个或同时保留两者。

CAT术语数据库中不需要近似项。大多数CAT工具的自动索引功能支持模糊查找，如果术语库中没有术语直接匹配，则会自动显示紧密相关的术语。删除近似项可实现部分自动化。编写一个程序，依据公司商定的术语表保留或删除。但是，这种自动化涉及成本，虽节省时间，但可能会误删一些有效术语。在大型项目中，自动化可提高生产率，损失一些有效术语在一定程度上可以接受。

3) 提取时间。将艾渣经干燥后进行粉碎，精密称取0.5 g中粉(65目筛)，室温条件下，设定料液比1∶60(g∶mL)，乙醇体积分数为75%，超声功率300 W，提取次数为1次，考察提取时间10 min、20 min、30 min、40 min、50 min及60 min对艾渣总黄酮提取率的影响。总黄酮提取率计算方法同上。

(7)基于删除项自动更新通用单词排除表；

6.删除已翻译术语

这些工具主要使用基于统计的方法，基于语法(有时称为基于规则或语言学)的方法，或语法与统计相结合的方法。用统计方法导出所有单词，并注明出现频率。简单的统计方法使用空格建立术语边界，只导出单词单元。复杂的统计方法基于频率，因此可能导出一些多词单元。基于语法的方法利用语法分析器和标记符来识别词汇的形态和语法属性，可以自动归类，考虑句法环境可以更准确地确定术语边界。两者结合的方法是基于语法来准备初始候选词，然后通过统计数据进一步对词频排序。

确定公司术语数据库中已翻译术语取决于许多因素，包括：

主题领域：如果语料库的主题领域未包含在公司术语库中，则输入的术语与现有术语具有不同含义的可能性更高。

由于内容太多，只靠人工提取不切实际，必须借助一些工具。

公司术语数据库的翻译数量：与翻译较少的语言相比，有大量翻译语言的匹配术语具有不同含义的风险较低。

随着行业的发展和南方航空管理制度不断地规范，程凤萍回忆：“33年来，我不记得接待了多少旅客，受过多少委屈，救过多少人。空姐的任务就是让旅客开心地到来，开心地离开。对待小孩就是阿姨，对待老人就是闺女，对待盲人就是拐杖、对待病人就是医护。”多年的职业习惯让程凤萍在迎接旅客登机的时候都善于观察每一位旅客的表情和神色，稍有反常的情况她都会叮嘱机舱乘务员特别留意，随时都关注晕机或者身体不适的旅客。

一是有效地将一大批矛盾纠纷化解在诉讼渠道之外。该机制运行一年多来，房山区人民法院共对房山区矛盾纠纷多元调解中心及其他社会调解组织制作的700余件调解协议进行了司法确认。在所化解的纠纷中，除婚姻家庭、遗产继承、民间借贷、买卖合同等一般民商事纠纷外，还包括300余起由该区信访部门转办的农民工讨薪纠纷、历史遗留的乡镇煤矿煤工尘肺纠纷等涉民生、涉群体、涉信访纠纷。

为翻译项目提供预先确定、质量过关的双语术语并不简单。要获得高水平术语，需要采取以下步骤:

7.人工进一步整理

完成所有自动步骤后，必须全面清理候选表。删除通用词汇需要在特定步骤中完成，以便可以自动更新通用词汇排除表。我们提到了删除不可翻译的字符串和专有名词，但是，还有清理任务需人工手动改进。

六步骤顺序

这些步骤按以下顺序执行，可最大限度减少人工操作。

(1)删除多词术语中常见的前置修饰语；

(2)删除标注不可译的字符串；

(3)删除已在所有目标语言中翻译的交集词源；

(4)删除同义和近似项；

(5)删除现有排除表中的通用单词；

(6)手动删除其他剩余通用单词；

“学生二食堂之所以具有如此大的吸引力和‘包容性’，离不开武汉帆程恒通餐饮管理有限公司用心、科学、高效的管理。”该校餐饮处相关负责人说，该校学生二食堂由武汉帆程恒通餐饮管理有限公司承接运营，为广大学子提供餐饮服务。在服务过程中，该公司始终坚持专业性与服务性相统一的原则，坚持以人为本，注重保障质量、品质提升。

第一，污水提升方面。其能源消耗与提升的高度以及提升的效率息息相关。正常而言，污水提升消耗的电量大概是总电量的20%，目前，大多污水厂水泵选型过大，因为实际水量常常达不到设计的最大流量，这就严重减低了水泵的效率，直接导致投入过高，能源消耗过大。

(8)将专有名词移到单独文件中(基于词性标注和专有名词的排除列表)；

(9)手动删除其他剩余不可译字符串；

(10)手动合并拆分相关复合词；

(11)手动将其他剩余专有名词移动到单独文件中；

Poster presentation at the meeting of the American Society of Colon and Rectal Surgeons, 2014. Erman Aytac is an assistant professor of surgery at the Acibadem University in Istanbul, Turkey.

(12)删除各种语言的独立翻译术语表。

步骤1～5和7(完全自动化)删除了60%～80%的候选术语，从而减少了人工清理(步骤6、8和9)。统计基于一个包含2000个候选术语的列表，整个过程，包括手动部分，大约需要30分钟，最终得到一个包含100～250个经过验证的词汇列表。

七问题

由于统计方法本身的特点，考量信息较少，只从概率视角来考察词语内部结合强度，进而判断是否是术语，必然造成某些低频术语未被识别；此外，基于统计的方法统计信息有限，忽略了大量语义、句法、词性以及上下文信息，这些信息均对提取术语有很大的帮助。扫描语料库时出现打字和拼写等错误，那么术语候选表将包含这些错误。如果提取时设置一个高频阈值，大多数错误输出时就不会出现。因此，术语提取工具是一种有效的拼写检查工具。术语提取工具把公司术语数据库作为“识别词典”，将公司唯一的术语识别为有效单词，这使得术语提取工具比现有的拼写检查工具更具上下文相关性。

八新术语

如果语料库中有新术语，它们也可能出现在候选术语表中。什么是“新”术语? 在商业环境中，“新”术语是指以前在翻译过程或公司术语数据库中没有考虑到的术语。这种对新术语的解释适用于与术语资源建设有关的专门术语管理，是在现有公司术语数据库中重新使用术语的另一个机会。现有的数据库术语，同样带有词性标注，可以作为“识别表”输入术语提取工具。该工具不像排除表那样排除这些术语，而是使用这个列表来识别已在术语数据库中的语料库术语。这些术语在输出时指定了一个特殊标注。这样，术语专家很容易知道哪些术语是“已知的”，哪些是“新的”，以便进行术语加工。术语专家可以在公司术语数据库中添加可接受的新词，并与产品开发团队一起审查有争议的新词，从而在创建初期进行主动干预。

九翻译术语并重新利用

最终列表只包含每种语言的新术语(即公司术语数据库中没有翻译的术语)，以及词性值和上下文句子等元数据。它们被转换成CAT工具支持的文件格式，然后发送给目标语言术语学家。最终产品是一个翻译后的CAT术语数据库。CAT术语数据库连同要翻译的产品内容一起提供给译员，译员使用TM和术语数据库在CAT工具中翻译。翻译项目完成后，将双语CAT术语数据库导入公司的术语数据库中，如本文所述，在未来的项目中，这些翻译将重复利用。

十迭代改进

近十几年来术语提取方法一直是学者们关注的热点，从双语语言资源中抽取出互为翻译等价对的词语是语言信息处理技术的重要桥梁。提取术语候选表半自动化的清理过程会随着时间推移不断改进。第五节描述了如何筛选术语候选表，未来会越来越自动化。第九节描述了如何重用译后术语。构建专有名词列表(最好在术语数据库中)将迭代改进自动更新的步骤。实践证明，企业特有词典资源可以显著提高词汇提取过程的可行性。

假设G是一个不含4-圈或弦6-圈且没有(3,0,0)染色的极小反例,显然G是2-连通的。给G赋初始权值ch(x)=d(x)-4, V∪F。由握手引理和欧拉公式|V|-|E|+|F|=2。

十一结语

本文方法是基于语料库的术语提取和术语标注原则，满足为翻译管道快速提供相关高质量术语的商业需求。文章描述的过程适用于将大量术语丰富的语料库翻译成多种语言的公司，必须仔细权衡一些自动化步骤的误差幅度，以及通过自动化实现的规模经济。这种方法的优点之一是重新利用现有资源，缺点是有些资源语义没有对齐，可能导致处理错误。语料库和术语数据库之间的术语语义对齐需要进一步研究，将风险降到最低，还应该考虑主题字段参数。目前研究以经验性为主，有待实证检验。

参考文献

[1] Ananiadou S,Frantzi K.Statistical Measures for Terminological Extraction[R].Working paper of the Department of Computing of Manchester Metropolitan University,1995.

[2] Arppe A.Term Extraction from Unrestricted Text [DB/OL].(1995)[2012-12-01] http://www2.lingsoft.fi/doc/nptool/term-extraction.html.

[3] Cabré M T.Terminology-Theory,Methods and Applications [M].Amsterdam/Philadelphia:John Benjamins Publishing Company,1998.

[4] Champagne G.The Economic Value of Terminology:An Exploratory Study [EB/OL].(2004)[2012-12-20].Montreal:Guy Champagne Inc.http://www.termologic.com/EconomicValueTerminology.pdf.

[5] Daille B,Gaussier É,Langé J.Towards Automatic Extraction of Monolingual and Bilingual Terminology[C]//Coling.94 Proceedings of 15th International Conference on Computational Linguistics,1994(1)：515-521.

[6] Daille B.Qualitative Terminology Extraction-Identifying Relational Adjectives[C]//Bourigault D,et al.Recent Advances in Computational Terminology.Amsterdam/Philadelphia:John Benjamins Publishing Company,2001:149-166.

[7] Enguehard C,Pantera L.Automatic Natural Acquisition of a Terminology [J].Journal of Quantitative Linguistics,1994,2(1):27-32.

[8] Fang A C,Cao J,Song Y.A New Corpus Resource for Studies in the Syntactic Characteristics of Terminologies in Contemporary English [C/OL].(2009)[2012-12-10].Proceedings of the 8th International Conference on Terminology and Artificial Intelligence.Toulouse.http://www.irit.fr/TIA09/thekey/articles/fang-cao-song.pdf.

[9] Frantzi K T.Automatic Recognition of Multi-Word Terms [D].PhD thesis.Manchester Metropolitan University,UK,1998.

[10] Gillam L,Tariq M,Khurshid A.Terminology and the Construction of an Ontology [C]//Fidelia I S,Condamines A,Castellvi M.Application-Driven Terminology Engineering.Amsterdam/Philadelphia:John Benjamins Publishing Company,2007(2)：49-73.

[11] Heid U,et al.Term Extraction with Standard Tools for Corpus Exploration.Experience from German [C]//TKE 96:Terminology and Knowledge Engineering.Berlin:Indeks Verlag,1996:139-150.

[12] Hull D.Software Tools to Support the Construction of Bilingual Terminology Lexicons[C]//Bourigault D,et al.Recent Advances in Computational Terminology,Amsterdam/Philadelphia:John Benjamins Publishing Company,2001:225-244.

[13] ISO 1087-1,quoted from the ISO TC37 Termbase [DB/OL].(2000)[2012-12-18] .http://iso.i-term.dk.

[14] Justeson J,Katz S.Technical terminology:some linguistic properties and an algorithm for identification in text [J].Natural Language Engineering，1995,1 (1):9-27.

[15] Nataly K,DePalma D.The Case for Terminology Management.Common Sense Advisory [EB/OL].(2009)[2012-12-20].http://www.commonsenseadvisory.com/Portals/_default/Knowledgebase/ArticleImages/090226_R_terminology_management_Preview.pdf.

[16] L’Homme M C.La Terminologie:Principles et Techniques[M].Montreal:Les Presses de l’Université de Montréal,2004.

[17] L’Homme M C,Bowker L.Terminological Relationships and Corpus-based Methods for Discovering Them—an Assessment for Terminographers [C]//Bowker L,Lexicography,Terminology,and Translation.Text-Based Studies in Honour of Ingrid Meyer,Ottawa:University of Ottawa Press,2006:67-80.

[18] Lee K,Webster J,Fang A C.eSpatial ML:An Event-Driven Spatial Annotation Framework [C]//Proceedings of the 24th Pacific Asia Conference on Language,Information and Computation.Sendai,Japan,2010:223-232.

[19] Li H.Word Frequency Distribution for Electronic Learners’ English Dictionaries [C]//Granger S,Paquot M.eLexicography in the 21st century:New challenges,new applications,Louvain-la-Neuve:Cahiers du CENTAL,Presses Universitaires de Louvain,2010:203-217.

[20] Li H,Fang A.Age Tagging and Word Frequency for Learners’ Dictionaries[C]//Newman J,Rice S,Baayen H,Corpus-based Studies in Language Use,Language Documentation,and Language Learning.Amsterdam:Rodopi Press,2010:157-177.

[21] Sager J.A Practical Course in Terminology Processing [M].Amsterdam/Philadelphia:John Benjamins Publishing Company,1990.

[22] Warburton K.LISA Terminology Survey Results[R].Localization Industry Standards Association,2001.

[23] Warburton K.LISA Terminology Management Survey-Terminology Management Practices and Trends[R] Localization Industry Standards Association,2005.

[24] Woyde R.Introduction to SAE J1930.Bridging the Disconnect Between the Engineering,Authoring and Translation Communities[EB/OL].(2005)[2012-12-20].LISA Globalization Insider.http://www.translationdirectory.com/article903.htm.

[25] Zhang X,Fang A.An ATE system based on probabilistic relations between terms and syntactic functions [C/OL].(2010)[2012-12-24].Proceedings of 10th International Conference on Statistical Analysis of Textual Data.http://lexicometrica.univ-paris3.fr/jadt/jadt2010/allegati/JADT-2010-1135-1144_155-Zhang.pdf.

Processing Terminology for the Translation Pipeline

Kara Warburton,Translated by SONG Nannan，ZHU Bo

Abstract :Companies must translate their content if they want to operate multi-nationally.Both quality and speed of translation are key factors in determining market share in the target market.Proactively managing terminology,including pre-translating key terms for a translation project,has beneficial effects on these factors.However,in commercial environments,the volumes of content and required terms are typically large.Therefore,integrating terms into the translation pipeline requires a process that is as automated as possible.Term extraction is the cornerstone of this process,but to maximize efficiency requires a post-processing strategy that repurposes existing lexical resources.Terms extracted from corpora and subsequently translated should be channeled into the company term base so that they can be leveraged for other purposes.Based on our experiences in one large company,we discussed effective practices for processing extracted terms in this paper.

Keywords :computer-assisted translation (CAT);term extraction;translation memory;lexical resources;terminology;term bases

中图分类号： H059；H083

文献标识码： A

DOI： 10.3969/j.issn.1673-8578.2019.05.003

收稿日期： 2019-06-05

基金项目：江苏省研究生教育教学改革课题(JGLX19_019)和南京航空航天大学研究生教育教学改革课题(2018YJXGG19)阶段性成果

作者简介：卡拉·沃伯顿(1963—)，女，术语管理学博士，曾任国际商业机器公司(IBM)术语专家、本地化行业标准协会(LISA)术语战略专家。通信方式:kara@termologic.com。

译者简介：宋楠楠(1994—)，女，南京航空航天大学外国语学院2017级硕士研究生，研究方向为英语笔译。通信方式：723203319@qq.com。朱波(1971—)，男，南京航空航天大学外国语学院教授，研究方向为翻译学和术语学。通信方式：zhu_bo@126.com。

标签：计算机辅助翻译论文; 术语提取论文; 翻译记忆论文; 词汇论文; 术语论文; 术语数据库论文; Termologic公司论文; 南京航空航天大学外国语学院论文;

面向翻译管道的术语加工论文

一简介

二术语与翻译记忆

三独立语料库

四术语提取

五缩减实际术语候选表

1.删除通用词汇

2.删除专有名词

3.删除标记不可译的字串符

4.过滤前置修饰语

5.合并近似术语

6.删除已翻译术语

7.人工进一步整理

六步骤顺序

七问题

八新术语

九翻译术语并重新利用

十迭代改进

十一结语

Processing Terminology for the Translation Pipeline

猜你喜欢

面向翻译管道的术语加工论文

一 简 介

二 术语与翻译记忆

三 独立语料库

四 术语提取

五 缩减实际术语候选表

1.删除通用词汇

2.删除专有名词

3.删除标记不可译的字串符

4.过滤前置修饰语

5.合并近似术语

6.删除已翻译术语

7.人工进一步整理

六 步骤顺序

七 问 题

八 新术语

九 翻译术语并重新利用

十 迭代改进

十一 结 语

Processing Terminology for the Translation Pipeline

猜你喜欢

一简介

二术语与翻译记忆

三独立语料库

四术语提取

五缩减实际术语候选表

六步骤顺序

七问题

八新术语

九翻译术语并重新利用

十迭代改进

十一结语