CAT下术语提取与对齐论文_李国鹏

CAT下术语提取与对齐论文_李国鹏

(河南师范大学,河南省 新乡市 453007)

摘要:近年来,计算机技术的进步催生了翻译领域的变革,人们开始关注计算机辅助翻译这一领域。翻译软件,语料库的运用,为计算机辅助翻译建立了基础。CAT技术就是利用计算机软件进行辅助翻译,在这一过程中,需要对术语进行提取与对齐,以便进行高效,准确的翻译。

关键词:机助翻译;术语提取;术语对齐

一.术语提取

1.1术语提取必要性

翻译过程中,会出现重复性的词语,如人名,地名,书名,机构名等,也包括特定的专业词汇。为确保译文准确性和前后一致性,译员需要对这些术语进行记录,以便后期查阅核对。随着CAT技术的发展,帮助译员简化了这一问题。机助翻译主要借助计算机强大的数据库功能,利用已建立的术语库和大量数据支持进行辅助翻译,机助翻译一定程度上提高翻译效率。借助机助翻译第一步是要整理术语,建立术语库,

1.2术语来源途径

(1)委托方提供

译者接受翻译任务后,委托人为确保译文原文统一性,客户会提供确定术语表。这种文件一般来自大型企业,这些企业或机构在发展过程中已经形成相应机制,拥有企业内部术语。同时,这些企业对译文质量要求比较高。这种客户提供的术语表可信度比较高,比较权威。但是,客户所提供的术语文件类型不一 ,有Word 文档,有Acess 数据库或Excel 等文字编辑工具存储,此类术语文本不能直接被计算机检索使用,需要进一步处理。

(2)译员通过互联网搜集建立术语表

如今,人们获得信息的渠道越来越多,译员可以根据自己擅长的领域选择建立术语库。而网上资源又不统一,需要译者进行选择,积累。这是一个漫长的积累过程,译员整理的术语表一般倾向于自己从事的领域,储存格式也比较固定,这一部分术语大多是以Excel 表格形式保存。

(3)译员在翻译过程中整理术语表

译员拿到文本会进行整理,将文本中术语进行标注,通过查询词典或专业资料后把术语译成目标语。一般项目翻译流程都是这样,术语可以供整个团队使用,也可以保存以后翻译使用。这种效率相对低一点,但是术语比较准确,可信度也比较高。

1.3术语提取途径

委托方不提供术语表,译员就需要自己提取术语。计算机不发达的年代,机助翻译没有广泛应用,语料库,数据库建设也不完善,译员提取术语一般都采用人工提取的方法。

(1)人工提取优点

术语提取时,译员会细读文章,选出最实用,最有价值的术语,这样标注的术语精确性高。提取术语过程中,译员对文本有一个整体性把握,能够保持术语前后连贯性。

(2)人工提取的缺点

人工提取需要投入大量人力,既耗时又费力,并且很可能出现术语混乱和重复性提取。再者,人工提取术语无法做到共享,提取术语只能供一人同时使用,不能更好提高翻译效率。

(2)软件提取

计算机技术和语料库发展,软件提取术语慢慢取代了人工提取。语料库的发展为术语提取技术提供数据库支撑,语料库建立后会对语言进行分类,并且可以进行词语检索,这些都为软件提取术语奠定了基础。怎么来利用软件提取术语呢?

术语是通过语音或文字来表达或限定科学概念的约定性语言符号,是思想和认识交流的工具。但是,软件如何能识别出它就是术语呢?目前几款主流的软件中主要是依据词组或者词语出现的词频来确定,假如一个词组在文章中重复出现,软件会默认其为术语,进行抓取。比如人名,地名,书名,机构名,这些会反复出现的,软件就会默认抓取,并且会避免重复性,一个词语只要经过识别以后,不会再有重复性提取。

1.3软件提取术语前景

利用软件提取虽然省去了人的一大部分劳动,但是软件提取的精确度还不是太高。软件依据词频抓取的词汇可能不是术语,只是高频词,这样也造成负担。但是,大数据时代的到来,大数据分析技术越来越强大,翻译人员应该确信,术语提取技术将越来越强大,便捷。

二.术语提取软件介绍

2.1 SDL MultiTerm Extract

SDL MultiTerm Extract 是依附于SDL Trados 一个小插件,利用这个插件可以快速进行术语提取,提取出高频词组再经过翻译人员后期加工整理,可以快速形成可以共享使用的术语库。

2.1.1 SDL MultiTerm Extract的基本操作

电脑上要安装SDL Trados 和SDL MultiTerm,SDL MultiTerm Extract 在此基础上才能使用。

(1)首先在电脑页面中找到开始菜单,在“开始“选项中打开 “SDL MultiTerm Extract”,点击文件>新建项目。

(2)该软件提供五种项目,我们这里要创建的是“双语提取项目”选择已经设置好的名称,在项目栏填写项目名称,名称要简单明确,便于以后查找翻译使用。

(3)单击下一步,选择相应语言。语言一般设置为中英两种,然后单击“下一步”弹出添加文件夹界面,选择整理好的文件夹,把文件夹添加进去即可。

(4)点击下一步,之后会弹出 “ 提取术语设置 ” 界面。设置术语最少和最大几个单词后, 这里的设置是设置软件抓取的字段,一般设置两到五个词然后按 “ 停止字列表 ” ,选择原文和译文的 STOPWORDS 。

(5)单击下一步,出现要生成的中英两个文件夹储存位置,点“下一步”再点“结束”,按“是”开始提取术语。

(6) 单击“ 确定 ” ,弹出生成界面,生成界面可以对术语进行处理,选择相应术语,单击右键,可进行其它操作,如果没有错误 ,单击“concordance” ,可将搜索结果添加为译文。编辑完成,保存或导出。 然后,按照指示操作,弹出导出定义界面,选择导文件的类型和要保存的位置,保存即可。

期刊文章分类查询,尽在期刊图书馆

2.2术语库的作用

(1)快速检索,更新

术语库是经过计算机处理,把不同学科内特定的语言进行分类处理,收集,储存在计算机内部的大型数据库,储存的术语库可以被计算机检索,提取。随着计算机技术和语料库学科的发展,目前术语库大致可以分为三类:第一种是用于翻译领域内的,这种术语库一般是双语对照或者是多语种对照,类似人名,地名,约定俗成翻译等;第二种是标准化的术语库,这种术语库的要求比较严格,每一个术语都有自己特定的意义;第三种是概念性的术语,这种主要是表在知识层面,有一定泛指的概念特征,这些概念通过处理可以泛化成一定的知识板块。

术语库是储存在计算机内部的一个大型数据库,在大数据分析背景下,其最大的优点就是实时更新和检索,在原来数据库的基础上可以进行发掘和研究。比如研究前后翻译的一致性,某个特定词汇的出现和使用频率。术语库的收集和建立可以大大提高翻译的效率和准确率,因此,术语库在现代翻译过程中占据这越来越重要的作用。

(2) 避免重复翻译,提高翻译效率,准确率

现代翻译大多采取项目翻译的形式,利用翻译软件,项目成员合理分工,可以提高工作效率。团队翻译中,项目负责人要对项目进行精细化管理,单对术语库建立来说,对于特定项目中术语,由专门术语负责人收集,整理,建成术语库,在翻译过程中,译员无须查找术语译法。重复性术语,可以快速检索,确定准确译法,这样既可以提高效率,又可以避免漏译,错译,达到翻译一致性。

三.术语对齐处理

3.1为何要做对齐处理

建立术语库通常在Excel 表格基础上导入,因此需要把格式不一,排版不一的文本做双语对照处理,然后再复制到Excel中,Excel本身就是一种数据库形式,这样可以用软件识别,检索,生成可以检索和时时更新的数据库。

3.1.1 Word文本对齐处理

术语提取以后,第二步是对齐处理,文本对齐后导入到Excel 表格保存。保存的Excel 形式要标记清楚中英文缩写形式,否则术语转化不能识别。

(1)选定内容,然后点击插入会出现操作界面话框,然后选择表格→文本转化成表格,点击文本转换成表格。

(2)所插入的表格是以段落标记的形式,所以要保持文章中段落标记的一致性。也可根据符号或者其它所需要的标记插入表格,转化过程中一定要注意段落标记形式要把向下段落标记转化为拐角段落标记。

3.1.2双语在同一段落处理办法

1)用Text Tools 工具进行处理

Text Tools 是一款界面简洁,操作简单的文字处理软件,在翻译行业非常实用,主要用于文本的分离,去除空行,提取,大小写转换等。下面是运用Text Tools 进行文本分离,而后进行对齐处理。

复制文本粘贴到Text tool 然后移除空行之后可以直接复制到EXCEL。

(1)把内容复制到Text tool工具中,点击“split English and Chinese”“ 选择“是”就可以把英文和中文分离。Text tool 工具还可以去除空行,点击“remove redundant empty lines”可以去除多余空行。

(2)把分离的文字可以复制到Word 文档,用转化表格的方式进行对齐处理。也可以直接去掉空行复制到Excel 里面。如果对Text Tools操作有疑问或者不知道如何分离某一文本,可以点击Help 键,里面会弹出详细的操作指南。

3.1.3分属不同两个文档对齐方式

有时术语和翻译会分属两个不同的文本,这种文本可以采用ABBY Alinger。它是ALS 公司旗下一款文本对齐处理软件。ALS 主要从事全球语言技术合作和服务,主要业务是翻译本地化方向,术语管理和机器翻译。ABBY Alinger 主要处理的是分属于两个文本的对齐,可以处理较大文本对齐。

(1)把两个文本导入到软件当中,注意选择好中英文,随后点击Align 就可以生成对齐文本。

(2)文件导入选择所需要的文本两个文本都添加之后,选择对齐

最后生成对齐后的文本

3.2 PDF文档处理

PDF文档是一种特殊的文本储存方式,PDF格式类型的文档类似于是以图片的方式储存的,这种储存方式可以保证保存的文件格式不变,内容不会失真,能够保证所储存的文件在其他设备上打开时保持原来的信息格式。PDF文档还可以进行加密处理,避免别人复制,更改自己的信息。PDF文档虽然安全性比较高,也便于保存,但是译者在处理PDF文档时也面临诸多问题,比如:如何处理加密文档,如何处理不可复制文档, 如何进行PDF 文档切分,如何把PDF文档转化为Word 文档等,都是译者应该解决的问题。笔者这里介绍几款PDF 软件供大家选择使用。

3.2.1 PDF文本转化软件

(1) Solid Converter v8

Solid Converter v8 一款文档转换软件,可以处理多种类型文档,输入要进行转换的PDF文档,然后选择输出为word 文档就可以完成转化。用Solid Converter打开要转化的文件,之后输出为word文档,然后用合适的方法进行对齐即可。

(2) Wondershare PDF Password Remover

现在人们的信息保护意识较强,有一些文档会进行加密,因此,许多网上下载的文档不能直接复制使用,该款软件可以快速去除密码,并且界面简洁,易于操作。

结语:

人类的发展不断推动着技术创新与进步,人们获取信息,处理信息的手段也越来越方便,强大的技术支持极大的提高了人们的工作效率。技术不断更新的大背景下,CAT辅助翻译已经成为一大趋势,大数据和人工智能的发展为CAT翻译提供了更多支持,因此术语的收集与处理对CAT越来越重要,也会受到越来越多的重视。

参考文献

[1]康宁,尉莹,曲乐.计算机辅助翻译环境下术语库创建、应用与术语管理[J].青岛科技大学学报(社会科学版),2015,31(03):107-110.

[2]梁爱林.术语管理工具的应用[J].中国科技术语,2015,17(02):27-31.

[3]王华树.《计算机辅助翻译实践》[J].上海翻译,2016(01):64.

[4]王华树,张琢.计算机辅助翻译记忆技术对译者的作用研究[J].译苑新谭,2016(00):102-108.

[5]王华树.科技翻译项目中的术语管理[J].中国科技术语,2015,17(04):17-21.

[6]刘明.面向翻译的术语库建设——加拿大Termium的实践与启示[J].中国翻译,2017,38(05):81-86.

作者简介:李国鹏(1987年—),男,汉族,河南省驻马店市人,在读硕士研究生,单位为河南师范大学,研究方向为英语笔译。

论文作者:李国鹏

论文发表刊物:《知识-力量》2018年9月下

论文发表时间:2018/9/27

标签:;  ;  ;  ;  ;  ;  ;  ;  

CAT下术语提取与对齐论文_李国鹏
下载Doc文档

猜你喜欢