人工智能翻译下的大数据语料库建设*论文

人工智能翻译下的大数据语料库建设

陆 艳

(上海立信会计金融学院外国语学院,上海 201620)

摘 要: 机器翻译的质量依赖可供其学习的语料,随着人工智能的发展,语料库数据的建设成为实现翻译智能化和场景化的关键。人工智能翻译下大数据语料来源众多,互联网、企业数据库,用户生成内容和机器生成内容都将成为语料数据的来源;其类型也呈现出多样性特征,从传统的术语、文本、拓展到非结构化数据和知识图谱。鉴于此,人工智能翻译下的大数据语料库建设可以从基于第三方开源数据、众包翻译的共享模式、基于机器闭环学习模式和人机协同模式四个方面进行,未来的翻译教学也可依托语料库的建设成为翻译智能化中的重要一环。

关键词: 人工智能;翻译语料库;翻译教学

1 概述

大数据技术的发展,使得机器翻译进入到了神经网络的智能翻译阶段,随着相应的人工智能技术(Artificial Intelligence,AI)的突破和发展,基于人工智能的机器翻译成为了近年来的热点。利用人工智能技术,机器翻译的错误可以减少大约60%[1],提高了翻译的准确率。微软、谷歌、百度以及科大讯飞等公司纷纷推出了基于人工智能的在线翻译系统,在信息技术驱动下,许多语言服务企业也提出了基于大数据与人工智能的发展思路[2]

护士对器官捐献的态度得分均分为8.54分,其中9分及以上者有113人,占50.90%;8分及以下者109人,占49.10%。各条目作答情况见表2。

然而,尽管基于神经网络的机器翻译取得很大的进步,但是机器翻译在涉及语义深层结构、不同文体风格、语言风格以及语篇层面等方面,还是欠缺很多[3],尤其是语义链接[4],这就意味着语料库的建设依然是人工智能翻译发展一个非常重要的基础。通过将语料库视为一个知识库,让计算机从中学习各种知识,或者将语料库看成无穷的、持续生成的文本集合的抽样代表,研究语言自动化处理问题是人工智能下机器翻译的主要方法。以自适应学习能力和巨型容量语料库为基础的机器翻译将成为语言服务的主体[5]

经过多年的发展,我国已经形成了“中国英汉平行语料库”、中国语言资源联盟等多个语料库,在翻译教学中得到了广泛的应用,基于语料库的翻译研究和翻译实践得到了开展,形成了独立的“语料库翻译学”[6]。在大数据背景下,在更大规模电子语料这一基本前提下,语料库通过充分记录语言结构和功能特征,基于关联数据模型,整合结构、语义、语境变量、语言类型学属性,进入了3.0时代[7],但是大数据下语料库的构成要素有哪些特点,语料库和人工智能翻译的关系呈现怎样的特点?如何展开语料库的建设?这些研究还尚未涉及,同时直接为翻译教学服务的平行语料库的建库工作也尚未有效展开[8],因此如何建设大数据下的语料库并与翻译实践和教学结合起来,成为了一个重要的问题。本文将旨在通过对人工智能翻译下的大数据语料的特点分析入手,提出大数据语料库的构建思路,并对翻译教学改革如何融入大数据人工智能时代提供建议。

2 AI下的翻译要素

大数据时代,随着人工智能技术的出现和发展,翻译技术得到了迅速的发展,成为翻译界的新宠,对翻译产业产生了重要的影响,也对语料库的建设提出了新的要求。

图1 AI下的翻译三要素

从图1中可以看出,AI下的翻译产业由三个要素构成,一是神经网络系统,这是人工智能翻译的核心部分,包括算法设计,改进了原有的机器翻译,使得机器翻译从基于规则、统计的翻译进入到了基于神经网络的深度学习和强化学习的阶段。二是应用场景。随着信息技术,特别是移动互联网技术的应用,内容产业的需求迅速增长,也带来了场景化翻译需求,例如吃饭、旅游 、看病等生活和工作场景下需要即时的文字、视频、音频的翻译。

甲洛洛蹲在离米九家不远的一个角落里。第九个夜晚,米九出现了,他披着毡衣,手里紧握着一小袋东西,在雨夜中匆匆赶路。

围绕着基于神经网络深度学习和强化学习需求和应用场景的需要,语料库变得更加重要。一方面语料数据的数量和质量直接影响到了机器学习的效果和翻译结果的准确性。基于人工智能的翻译技术需要大量的语料数据支持,一些垂直行业的机器学习的语料数据至少要几百万对,一些通用的机器翻译系统需要的数据往往达到上亿,至少是千万级的。

另外一个方面,语料数据的读取能力和专业化程度直接支持了多应用场景的实现,图像、声音、视频到位置、轨迹、动作等,多维度场景化的语料数据分布使垂直化人工智能开发成为可能,从而保障了翻译的智能化、移动化、泛在化的实现。

因此,AI下翻译的三要素中语料大数据是机器翻译的基础。如何发挥语料大数据的价值并深度结合算法和场景是人工智能机器翻译成功的关键。

3 大数据下语料数据的特点

大数据下语料数据的来源和数据类型与传统的语料数据差别很大,具有新的特点。我们将从数据来源和数据类型两个方面对大数据下的语料数据进行分析。

3.1 大数据下的语料数据来源

1)互联网数据。大数据下的语料数据来源,首先是互联网数据。大量的互联网数据为提炼和形成语料数据提供了强大的基础,从无结构的互联网网页中抽取结构化信息是语料库数据建设的主要目标。例如利用多语言公司的主页,实现多语言网站的抓取和自动对齐。对专利等文档的多语言文件的比对和自动对齐,这类数据的特点是数据量大,存在着一定的数据噪声。

通过语料数据库的共享,可以很好的解决人工智能的机器翻译语料资产不够的缺点,通过AI企业、语言服务企业、用户之间语料数据的共享,可以实现语料资源的整合。例如上海一者信息科技有限公司主要致力于建设基于P2P的语料数据商城Tmaxmall,目前平台每日自增长的语料数据超过百万句对,是行业最具影响力的语料生产与共享交易平台。语料商城为语料需求方和供应方提供了一个很好的平台,通过提供语料数据可以免费享受语料数据服务,具备搜索、上传、下载、账户管理和积分购买等功能。平台支持中英双向检索,检索速度快,语料超过7300万句对,总字数达15亿字,为扩充语料数据资源提供了思路。但是如何有效的减少个人语料提供的质量不足和完善知识产权保护方式成为了该模式持续发展的关键。

通过众包翻译的引入,让众多译者和非译者一起参与到翻译活动中来,从而产生大量的翻译结果。由于众包翻译本质上是一种合作翻译,其连接着个人译者和机器翻译工具,意味着语料需求和语料提供方面都在众包翻译的活动中出现,因此依托众包翻译的组织模式构建语料数据的共享平台成为一种可能。进一步考虑到传统的语料数据的共享模式,存在着个人语料提供的质量不足以及相应的知识产权问题,如果通过众包翻译的方式来组织,可以通过众包翻译的合约规范以及译者的筛选和人机合作等流程控制,有效提高语料数据的质量,减少知识产权纠纷。因此,我们在其基于P2P的语料数据商城的基础上,提出了基于众包翻译的语料数据共享平台,如图3所示。

3)用户生成数据。互联网时代,用户生成内容是一个重要的特征,许多有价值的语料数据往往来源于社区讨论、客户博客、微信群等。通过对用户生成数据的萃取、提炼,可以构成语料数据的来源,但缺点是在数据量大的同时,噪声较大,数据稀疏,需要一定时间的人工数据剔除。

“4G全网建设技术”大赛的比赛内容更新及时,引领教学内容的及时更新,例如:2015年比的是4G全网的组建、网络规划、设备配置、数据配置、业务调试及故障排除等。2016年有理论考试、4G网络配置与优化、4G网络故障排除3部分。其中,4G网络配置与优化部分考核了无线接入网、核心网及承载网等知识点,要求参赛学生基于要求对网络数据进行容量计算、设备部署、数据配置完善及网络性能优化,最终实现4G业务的开通[2]。职业技能大赛赛项大规模纳入通信行业最新技术,导致职业院校通信专业必须对教学内容不断调整,以紧跟通信技术的发展步伐。

3.2 大数据下的语料数据类型

大数据下的语料库具有典型的多模态特征,是指音频、视频和文字语料等多种信息集成[9-10],其主要的数据类型如下:

基于神经网络的机器翻译系统具有了自我深度学习能力,充分利用机器的学习能力,可以让机器在一定的时间段内循环学习,有效改善机器翻译的质量。实践证明,同样的语料数据内容,机器在多次学习之后的翻译效果能够得到明显的改善(如图4所示)。其算法的设计十分关键,例如,AlphaGo的自我学习依赖的是 3000万例棋谱的重复训练,周期性的循环训练并不是简单的重复,而是通过有效的算法设计不断强化和提高计算机的学习和记忆能力。

2)文本。文本数据依然是语料数据的首选。目前机器翻译的语料句对依然是以文本为主,包含了千万级别的语料数据。在机器翻译中文本的作用十分重要,文本包含的丰富的语义信息可以为问答系统、信息检索、语义Web、信息抽取等领域的研究及相关应用提供重要的支持。在本体的形成中最重要的就是文本数据,由于文本数据源具有数据量大、获取方便的优点,围绕文本数据的机器翻译成为了重点的研究对象,例如新译科技公司就以文本翻译作为主要的突破点。

4)机器生成数据。值得注意的是,随着机器翻译和人工智能的出现,机器生成数据成为了一个潜在可行的数据源。例如谷歌翻译等在测试其人工智能系统时,使用了机器生成数据,例如让机器根据真实例句生成相似的句子,或者使用现有机器翻译模型对单语语料进行反向翻译生成双语语料。这类数据的特点在于数据维度多样,数量大,但缺点是不能大量使用,重复性高,缺少语义信息。

3)非结构化数据。在大数据时代,非结构化的数据例如语音等成为主要的数据来源。数据不再只是企业的数据库如CRM,ERP中的信息,数据来源的多元化特征非常明显。大数据来自于网络文本、文件、微博、RFID、视频、搜索引擎,与传统的文本的翻译方式相比,非结构、多元化的数据来源要求更多的翻译技术构建。通过OCR和语音识别技术的读取构成了语料数据类型,由于语言服务的内容不再局限于口译和笔译的文档翻译,手机扫描、拍照等方式的翻译增长了近10%,该语料类型将成为重要的数据类型,如许多用户生成数据就是以此类型存在。科大讯飞、有道翻译等企业都在致力于语音处理以及照片识别方面的语料数据建设。

4)知识图谱。随着大数据的发展,通过各种数据挖掘、信息抽取和知识融合技术,将原本没有联系的数据连通整合在一起,形成一个统一的全局的知识库和基于知识库的各种延伸服务,即知识图谱。语料库的数据类型将呈现出一种知识图谱化,将海量碎片化散落的大数据,通过知识图谱的形式连接起来,以服务即时的、动态的、碎片化的微语言需求。例如百度、谷歌等公司的在线翻译都已经进入到知识图谱的构建阶段。

(4)将车门“V形调成了倒“V”形。车辆车体在AW0(空载)时具有上挠度,为了避免在AW3(超载)时客室车门两门页之间不会因互相挤压而导致无法关闭,即保证车体挠度为0,因此在调整车门时必须保证两门页之间的状态为“V”形(见图6)。

表1 大数据下的语料数据特点

我们将语料数据的来源进行整理,见表1。根据上述对语料数据来源的分析,我们发现大数据下的语料库建设面临着数据种类多样、数据质量不齐等问题,如何建设大数据下的语料库需要从多个方面展开,因此我们将围绕这些方面提出大数据语料库的建设模式。

4 大数据语料库的构建模式

4.1 基于第三方的开源数据

现有的谷歌、百度的在线翻译系统以及翻译记忆库Tmxmall为获取平行语料数据提供了基础,我们可以在现有的第三方数据库的基础上,构建平行语料句对,为人工智能的翻译学习提供基础。例如Atman公司在进行语料数据库建设中,就充分利用了第三方的开源数据,形成了自己的翻译语料。例如针对“你在干什么?我叫你出去没听见吗?”这句话的翻译,可以同时在谷歌和百度中找到,基于两者的结合,可以形成自己的翻译语料 (如图2所示),在该模式中对计算能力的要求较高。由于开源数据往往是基于互联网的,以在线翻译的方式提供,包括视频、音频的多模态组合,因此数量巨大,对抓取能力和抓取算法提出了要求。

图2 第三方开源数据比对模式

4.2 众包翻译的语料数据共享模式

2)企业数据。企业的数据是语料数据中非常重要同时也是非常可靠的信息数据来源。企业的翻译文档例如官方的使用说明书和数据库中的数据信息都是现成的成对双语,数据质量好,数据完备度高,但缺点是获取难度较大,数据维度低。

其实,核心客户的数据资产存量其实是十分巨大的。如果仅仅狭义的定义完整的双语对应的平行语料数据可能较少,但如果利用数据搜索和挖掘能力,许多不完整和不充分的语料数据都可以成为有效的语料资产,这就为将线下客户的广义数据纳入语料数据库提供了机会。通过与传统的文本信息服务企业如报社、出版社等合作,往往能够获得意外的收获。

图上的标号3就是最需要硬度的轴尖。看到随着轴尖的深度变化的硬度变化,在0.003毫米也就是3微米的地方,硬度能达到接近1000HV。一个钟表制造商,能在材料科学和机械设计上做出如此重大的发明十分令人敬佩。非常有意思的是这件专利只在瑞士和中国申请了专利,而且在中国申请的是实用新型专利,从中充分体现了中国市场对于瑞士钟表的重要性,为了适应2013年在中国的发布紧急部署专利保护。

图3 基于众包翻译的语料数据共享模式

4.3 基于机器的自我闭环学习模式

1)术语。术语具有专业知识的指导,是机器翻译的重要依托,对提高机器翻译的准确性和作用重大。互联网大数据下的专业术语翻译库具有“海量”的特点,这里的术语包括字典以及其它术语库,自动术语抽取是平行语料数据库建设的热点[11]。但是目前的网络在线翻译词典基本上都是从纸质版词典转换成网络版,尚未突破汉外词典的传统概念,没有形成汉外多语种术语管理的理念[12],由于术语的专业性和权威性,专业性的语料数据库的建设将是首选。

b“.级音+主调”两节型过腔。如”昆南”阳平声字“门”的唱调(《南西厢·佳期》【临镜序】“倚定门儿待”,686),该单字唱调的过腔是。其中,即第一节级音性过腔,即第二节主调性过腔,由此构成的即“级音+主调”两节型过腔。

图4 机器的自我闭环学习模式

4.4 基于人机合作的协同模式

机器翻译和人工翻译的合作是新时代翻译发展的重要特点[13]。在大数据时代,单纯的机器翻译离不开专家的协作,人机协同的模式将是大数据语料库建设的重要组成。在语料采样、录入规范、偏误类型、标注方案等方面通过专家校审和修改,再交给机器翻译将是最好的方法,如图5所示。

图5 人机协同模式

例如北大人民日报分词标注语料库等的构建就充分发挥了人的作用。但是对于上亿条的语料数据,专业人员的数量就会显得不足,合理的流程设置可以降低对人工校对的需要。

我们将上述四种模式进行整理见表2。

表2 大数据语料库构建模式

5 对翻译教学的思考

人工智能驱动下的翻译技术发展,为翻译教学提供了重要的方法,给我们带来了启示。基于上文的分析,我们对翻译教学提出如下的三个转变:

富察氏吃了一颗,正要合着被子躺下,忽地仿佛听到什么,惊起身来,侧耳凝神道:“是不是永琏在哭?是不是?”

1)从翻译教学的工具使用到语料库驱动的学习。传统的翻译教学往往主张依托翻译现代化工具来提升翻译教学水平,但随着大数据下数据资源的开放性,我们发现翻译教学也应该是翻译智能的一部分,依托CAT的翻译教学的翻译案例文本也构成了大数据下语料数据库的重要组成部分。并且由于老师的指导,专业学生的翻译水平往往使得翻译数据质量更高,从而对语料数据库的贡献更高。这是一种典型的语料驱动的学习,这种语料驱动模式不仅仅是对教学型的语料数据库建设,也是将教学与实践结合的一种语料库建设方式。利用双语平行语料库检索软件检索典型的译例后进行分析和思考,进而互动讨论语言特点、翻译方法和技巧、双语转换、翻译效果。然后让学生再进行实践性的翻译任务,从而形成双语比对的语料数据,将其内容输入到语料数据库。让学生参与到语料库的构建中来,从而更好的激发学生的学习兴趣。平行语料库在教学中的应用,可以把原文、范例译文和学生译文同时呈现,学生通过观察异常数值来判断译文中可能出现的问题[14],将对语料数据库的完善做出贡献。

2)从翻译教学的专业化理论到构建垂直型的语料数据库的实践。在我国众多的外语教学和MTI的构建中,专业性的MTI教学一直以来较为强调,大数据下的语料翻译数据的构建特点告诉我们,依托相关院校的专业MTI,可以构建垂直一体化的语料数据库,如电商专业的语料库,一带一路的法律语料库、中医语料库等,这为翻译教学的理论和实践的结合开拓了一条新的道路。

转录组测序及其在甜菜功能基因挖掘中的应用…………………………………………… 张自强,白 晨,张惠忠,李晓东,付增娟,赵尚敏,鄂圆圆,张 辉,王 良,张必周(39)

3)从翻译型的技能人才到语言服务综合人才的培养。大数据与人工智能的发展对翻译产业带来了长远的影响,翻译界需要进行深远系统的思考,例如在人才培养的方式上,翻译人才的培养不仅仅需要掌握翻译的理论和技能,对于翻译所处的语言服务产业的技术驱动、精细化管理的要求需要得到回应,在课程设置上,关于数据分析的一些基本课程以及翻译的项目管理的课程应该被放到重要的位置,在MTI的教学中融合理论和实践变得更加重要。

参考文献:

[1]Nature.Top Multimedia Picks of 2016 [EB/OL].Retrieved fromhttp://www.Nature.com/news/top-multimedia-picksof-2016-1.21184,2016-12-16.

[2]王华树.语言服务的协同创新与规范发展——2016中国语言服务业大会暨中国译协年会综述[J].中国翻译,2017(1):85-88.

[3]徐琦璐.人工智能背景下的专业口译教学系统的创新研究.外语电化教学,2017,10:87-92.

[4]Zhang J,Sun Y,Jara A J.Towards semantically linked multi lingualcorpus[M].Elsevier Science PublishersB.V.2015,35(3):387-395.

[5]柴明颎.互联网大数据的语言服务——从AlphaGo说起[J].东方翻译,2016(3):4-9.

[6]王克非.语料库翻译学探索[M].上海:上海交通大学出版社,2012.

[7]许家金.语料库研究学术源流考[J].外语教学与研究,2017,(1):51-63.

[8]熊兵.基于英汉双语平行语料库的翻译教学模式研究[J].外语界,2015.4:2-10.

[9]黄立鹤.语料库4.0:多模态语料库建设及其应用[J].解放军外国语学院学报,2015,38(3):1-7.

[10]Knight D,Evans D,Carter R,Adolphs S.Head Talk,Hand Talk and the corpus:towards a framework for multi-modal,multimedia corpus development[J].Corpora,2009,4(1):1-32.

[11]许汉成.基于语料库的军事术语抽取方法初探[J].外语研究,2017.5:43-46.

[12]周敏康,顾鸿飞.欧盟多语种互译专业术语语料库的启迪与借鉴[J].中国翻译,2016(5):70-75.

[13]胡开宝,李翼.机器翻译特征及其与人工翻译关系的研究[J].中国翻译,2016(5):10-14.

[14]王克非,秦洪武.论平行语料库在翻译教学中的应用[J].外语教学与研究,2015(5):763-772.

中图分类号: H059;TP18

基金项目: 教育部人文社科项目(14YJC740062)。

标签:;  ;  ;  ;  

人工智能翻译下的大数据语料库建设*论文
下载Doc文档

猜你喜欢