《应用计算语言学》评介论文



《应用计算语言学》评介

康喆文

(天津外国语大学 中央文献翻译研究基地)

Николаев, И. С., О. В. Митренина & Т. М. Ландо. 2017. Прикладная и Компьютерная лингвистика. Москва: URSS.

一、背景引述

计算语言学是20世纪40年代伴随机器翻译出现的新型交叉学科,主要通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言的能力(邵艳秋,2009:25-26)。

俄罗斯是世界范围内较早从事机器翻译和计算语言学研究的国家,具有众多经验丰富的科研机构。其中,圣彼得堡国立大学数理语言学教研室是全俄公认的结构语言学、应用语言学、计算语言学及数理语言学研究中心。《应用计算语言学》一书是由该教研室编写的一部关于现代语言学技术与应用的专著。该书由俄罗斯科学文献出版集团URSS于2016年首次出版发行,是该领域的一部权威著作。

第一层次主要让学生了解并掌握三聚氰胺的基础知识,如三聚氰胺的理化特性、毒性及危害、三聚氰胺的限量及在食品中的检测方法、食品中蛋白质含量的检测及评价方法等。为了让学生快速进入第一层次的课题,可列出相关的参考文献供学生自主学习。

圣彼得堡国立大学数理语言学教研室成立于1962年,前身为数学系机器翻译实验室。该教研室目前主要致力于应用语言学、计算语言学和数理语言学三个方向的教学及研究,涉及语义学、句法学、术语学、数学模拟、机器词典编纂、矢量语言学、不同语言(俄语、英语、法语、德语)的自然文本处理和自动文本生成等内容。教研室为全球知名的Google,Яндекс,PROMT等机器翻译公司输送了大批人才。《应用计算语言学》一书是由教研室师生联合撰写而成。

二、内容介绍

该书分为理论研究和应用探索两大部分,共14章节。第一部分阐释了应用计算语言学的理论构成,包括计算词法(Компьютерная морфология)、计算句法(Компьютерный синтаксис)、计算语义表征(Компьютерное представление значений)、言语的识别与合成(Распознавание и синтез речи)、语言学领域的机器学习(Машинное обучение в лингвистике)、语料库语言学(Корпусная лингвистика)6个章节。第二部分从应用的角度,介绍了机器翻译(Машинный перевод)、信息检索(Информационный поиск)、信息提取(Извлечение информации)、对话系统和聊天机器人(Диалоги и чат-боты)、文本情感分析(Анализ тональности)、计算机文献学(Компьютерная текстология)、定量语言学(Квантитативная лингвистика)、言语影响及操控(Речевое воздействие и манипулирование)八个章节,书后另附术语索引部分。

第一章以计算词法为核心,介绍了用计算机对词语进行标准化处理、词法分析的操作工具及如何解决词的多义性问题。语言模式化(Языковое моделирование)是计算语言学的基本方法。如何对词进行模式化、定性化描写并予以可操作的形式化手段,使计算机在处理自然语言时有自动词法分析的能力是计算语言学要解决的首要问题。作者从“如何寻找词”切入,开篇解释了词例还原(Токенизация)的概念,即将句子还原为计算机可识别的词例(Токен),如词、标点符号、数字、表情符号等单元。其次,对词进行词法分析。目前自然语言处理领域采取三种方法:基于规则的方法、基于统计的方法和规则统计相结合的方法。基于规则的词法分析器目前有俄罗斯自主研发的AOT自动文本处理(Автоматическая Обработка Текста),Pymorphy2,Mystem、可识别俄语的Tree Tagger,Stemka,FreeLing,Snowball等软件。基于统计的词法分析借助马尔科夫统计模型实现词性自动标注。多义性是计算词法分析目前面临的棘手问题,作者对此提出了使用知识储备进行上下文判断、常用词形分析、语音识别等方法。

第二章“计算句法”介绍了句法自动化分析(Парсинг)的方法及工具。Парсинг一词由Parsing英译而来,作者认为从广义上讲,句法分析可以自动处理任何文本数据;从狭义上讲,句法分析是处理自然语言文本结构及句子结构的重要手段。如何获得句子的结构信息,本章提出了三种方法:依存语法分析法(Грамматики зависимости)、直接成分分析法(Грамматики непосредственных составляющих)、组合分析法(Комбинированные теории анализа предложения)。句法分析器(Синтаксический анализатор)包括俄罗斯有名的ЭТАП机器翻译系列、Dictum公司研发的DictaScope,ATO;非俄罗斯本土研发但支持俄语分析的Stanford NLP,RASP,OpenNLP,Link Grammar Parser,NLTK等。

第三章从计算语义的角度,介绍了计算语义的表现手段。语义分析是自动文本处理过程中最复杂的步骤,是自然语言处理的心脏。计算机对自然语言语义的加工在于如何将语义结构化,并以模板的形式储存在计算机中。作者从表示计算意义的模型出发,描述了语义网络(Семантическая сеть)、概念图示(Концептуальный граф)、框架及程序表(Флейм и сценарий)、知识图谱(Граф знаний)等语义模型的具体运用。形式本体论(Формальные антологии)是计算语义领域表达语义概念的特殊手段,也称“本体技术”,是一种能在语义和知识层次上描述概念体系的主要工具,给词语间相似度计算带来了新的机会(盛秋艳,2012:1238)。作者在此通过本体技术的结构、分类、构成特点、自然语言中介语、自动构建方法、现代本体论资源库、标准化及应用评价等方面为读者做了详尽的介绍。

第十二章的主要内容是定量语言学。作者将数学方法与语言学相结合,向读者阐释了“在语言和言语中可以计算什么”这一问题。作者分别提出了如何通过计算机解码字母和音节辨别语种;如何从类型学的角度辨别词素;如何根据文体学判断文本类型;如何根据同源语言演变史判断语言的年龄;如何使用频率词典(Частотный словарь)等。作者以О. Н. Ляшевская和С. А. Шаров主编的《现代俄语频率词典》(Частотный словарь современного русского языка)为例,说明了词汇频率和语言使用的相互关系。

排污控制区,指生活、生产废污水排污口比较集中的水域,且所接纳的废污水对水环境不产生重大不利影响。在排污控制区排放废污水,不得影响下游水功能区水质目标。县级以上地方人民政府应当结合城市综合整治措施,逐步减少排污控制区[1]。

内部控制建设是医院提升内部治理水平的重要抓手,而内部控制措施的实施离不开信息系统的支持。由于医改等内外部环境的变化,内部控制措施需要不断改进才能满足管理的需要。在当前环境下,将业务流程和控制措施固化到医院管理信息系统中强制执行是医院内控建设的核心工作。

“机器学习”译自于machine learning一词,是人工智能的重要分支,研究如何使用计算机模拟人类学习活动。第五章作者将机器学习限定在语言学范围内,主要指采用数学算法处理自然语言,因此也称数学优选(Математическая оптимизация)或统计控制理论(Теория статистического управления)。作者在介绍机器学习算法(Алгоритм)的同时指出,语言学家应当对算法结果进行人工自省和评价。

随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为计算语言学的主要战略目标(冯志伟,2011:15)。第六章“语料库语言学”详尽描述了语料库的发展历史、主要特点、类型、语料库标记、语料库软件、如何自建语料库、语料库发展前景展望等前沿问题。作者在章节末分别列举了俄语、英语、西班牙语、德语、阿拉伯语、保加利亚语、捷克语、汉语等同语种的国家语料库名称、容量和网页链接。俄语目前常用的语料库有:俄语国家语料库(Национальный корпус русского языка)(http://www.ruscorpora.ru/)、俄罗斯自动文本处理АОТ(http://aot.ru/search1.html#top)研发的语料库等。

文本鉴定(Текстология)是计算机文献学的一个分支,以考据文本历史,校订文本为研究内容。文本鉴定能从历时角度对文本进行溯源研究,是研究语言发展历时衍变的重要参照物。在第十一章作者将计算机技术与文本鉴定相结合,介绍了自动手稿分类、自动手稿比较等内容。

第八章介绍了信息检索的有关内容,这里的信息检索指自动化信息检索(Автоматизированный информационный поиск)。作者在每小节中接连提出了“在哪检索”、“谁来检索”、“如何检索”、“什么是好的检索”、“语言学的任务是什么”等系列问题,并用实例一一作了回答。语言学在信息检索中发挥着基础作用,词法分析器是重要的零部件,语言学的主要任务包括词汇分析、形态分析、句法分析和语义分析。相关性(релевантность)、完整性(полнота)和准确性(точность)是评价信息检索系统的重要参数。相关性即用户的需求(запрос)和文本(документ)的匹配程度;完整性指检索到的文本数量占相关性文本数量的份额;准确性指相关性文本数量在检索结果中的比重。

从第二部分开始,本书的重点转向计算语言学的应用领域。第七章的核心是机器翻译。作者在基于规则的机器翻译、基于统计的机器翻译和混合机器翻译三种方法的框架下,介绍了相应的翻译模型。本章的亮点在于作者提出了机器翻译评估的自动方法,介绍了NIST,MERT,METEOR,TER等评估体系。作者认为机器翻译评估应当考察以下参数:译文的充分性(полнота)和流利性(гладкость)。此外,作者分别描述了世界范围内不同的现代机器翻译系统,如较为成熟的能支持五十多种语言的美国Systran,Google,Bing;美德合作的Logos和OpenLogos;德国Linguatec;瑞士IdiomaX;以色列Babylon;西班牙Apertiom;俄罗斯PROMT,Яндекс等。

第四章“言语识别与合成”主要发展了计算机的言语辨别技能。作者认为言语技术(Речевые технологии)是多学科研究方法的融合,如传统语言学(语音、词汇、语法、语义、语用)、声学、电工学、逻辑学、信息论、概率论、语料库语言学、心理学等。根据编纂合成法和参数合成法,言语合成通过语言文本输入→文本处理→音标标注→声学合成等实现由文本到语音的转换。而言语识别的操作过程与合成恰好相反:声音信号输入→提取标记→声学矢量识别→校准器对比→词汇选择→形成文本。作者介绍了其中涉及的方法、操作系统等内容,为下文的人机对话章节作出了理论铺垫。

第九章作者从网络工作者的角度描述了信息提取的具体操作及目前面临的问题。信息提取包括命名实体识别、实体间的关系析出和事件析出。计算机为了从自然语言文本中获取意义,首先要将自然语言数据转换为结构化数据,这一过程的实现需要对标注过的句子进行命名实体识别,以便于检索者检索到需要的信息。“命名实体”(Именованные сущности)是指以名称为标识的实体,通常包括实体(人名、地名、组织)、时间表达式和数字表达式。对命名实体的标注有组织(ОРГ,от организация)、人物(ПЕР,от персона)、定位(ЛОК,от локация)等。随后计算机需要识别文本中不同实体之间的可能关系。例如,В прошлом году [Яндекс] приобрел [Кинопоиск], а [Майкрософт] купил [Скайп].(去年Яндекс公司合并了Кинопоиск公司,微软收购了Skype公司。)需要对提到的命名实体Яндекс,КинопоискМайкрософт和Скайп进行标记,识别它们之间的相互关系,其次识别句法树中实体之间的动词приобретать和купить。作者还提出了事件析出的模型,以“结婚事件”举例如下。

width=353,height=88.05

第九章末作者还转门介绍了GATE,LingPipe,NLTK,OpenNLP,Standford CoreNLP等软件的信息提取功能。对话系统和聊天机器人是人工智能领域的一项重要应用。

第十章作者首先分析了自然语言对话系统的几个组成部分:话轮交替顺序(Порядок обмена репликами)、对话者的共同背景(Общий контекст собеседников)和对话结构(Структура диалога)。其次描述了人机对话体系的构成要素,包括自然语言理解模型、对话管理和自然语言发声模型。聊天机器人在工作时需要模拟人类对话,并使用如AIML(人工智能标记语),Java,Ruby,Python,C++等专业语言。作者在最后一节中对人机对话系统进行了展望,认为人工智能对话不仅可以达到问答系统的结合,更能实现人与虚拟对话者情感的互动。

随着21世纪数字化时代互联网的普及和应用,自然语言的计算机处理成为人们获取知识和学习的主要手段。计算语言学一方面继承了传统语言学的理论和内容,另一方面又与计算机技术相结合,目的是实现计算机对人脑的模拟。俄罗斯计算语言学研究一直走在世界前列,但国内对该领域研究成果的引介并不多见。目前国内专门介绍俄罗斯计算语言学的仅有2009年语文出版社出版的《俄罗斯计算语言学与机器翻译》一书。《应用计算语言学》是首本全面介绍现代语言学技术的俄文专著,为国内俄语学习者全面探索该领域提供了重要参考。该书具有以下特色。

大学生在参加一项志愿服务活动的过程中,偶尔会因为在当时特殊的场景和特定的环境条件下,大脑突然“灵光一现”,激发了一个新兴的构思,这也许是一项新的技能、是一类新的发明、是一种新的发现,又或许是对困惑自己已久的难题的一种顿悟等等。

第三章最后一小节,作者介绍了计算主体词表(Компьютерный тезаурус)。主题词表是计算语义相似度聚合关系的具体应用形式。Тезаурус也被称为意念词典(Идеологический тезаурус),旨在揭示词汇单位之间的各种语义关系,以构成语言知识库的语义描写系统,并使之与某个具体知识领域的概念层级系统对接起来,为人机通用的知识信息处理服务(傅兴尚等,2009:148)。目前俄语中广为流行的主体词库有RussNet,РуТез,Викисловарь等。RussNet由俄罗斯圣彼得堡国立大学И. В. Азарова在1999年组织发起,主要包括俄语词汇系统、俄语中常用的核心词汇和俄语的主要语义、语法关系等内容。РуТез自1992年起由莫斯科国立大学计算科学研究中心研发,是以社会政治为主题的词库索引,包括经济、政治、法律、国际关系、军事、社会等领域的术语。Викисловарь是维基百科下属的开放式、多语种网络词典,自2002年发展以来已涵盖170个语种。将检索词语输入维基词典,可查询到语音、词源、词法、句法、语义、词的搭配信息、对应翻译等多个内容。目前俄语维基词典已形成了同义词、反义词、下位词、转喻词、近音词等综合的词汇关系谱系网。

最后一章作者探讨了言语影响及操控的问题。作者从信息发出者和信息接收者的角度,结合俄罗斯传统的心理语言学、语言文化学、语用学、跨文化交际等理论阐释了言语交际与非言语交际对交际者意识和行为所产生的影响。言语影响和操控本是俄罗斯心理语言学研究的一项分支内容,作者在此将其与计算语言学结合,提出了“如何探究人们的交际心理,使计算机模拟人的心智,将信息发出者和接收者带入真实的交际情景,实现计算机语言‘鲜活化’”的构想,形成了本书结尾的升华之笔。

三、特色评价

紧接着在第十一章作者介绍了计算机如何模拟人的情感问题。文本情感分析(SentimentAnalysis/Анализ Тональности)的主旨是通过计算机技术识别和挖掘自然语言文本中的主观信息。作者介绍了文本情感分析的主体(文本作者)、客体(文本描述对象)、客体特征、情感评价类型(积极或消极)等实际操作内容。计算机对于文本情感的分析主要基于语言规则的设定、评价词汇词典(Словарь оценочной лексики)、算法规则等标准。

1 逻辑层次清晰,例证丰富翔实

本书具有典范教材的性质,全书始于理论导入,终于实践应用。在章节的编排上采取理论描写和方法阐释并重的方式,多层次剖析,尤其是在方法介绍上采用了丰富的例证加以说明,不仅解决了“是什么”的问题,还解释了“如何操作”的问题。例如,作者在介绍不同的机器翻译系统时,不仅描述了各翻译系统的发展历程和目前的应用范围,还通过具体的图表展示了源语输入和译语输出的过程。又如在最后一章“言语操控与影响”中,作者分别通过词汇层面、句法层面、修辞层面的例子来说明语言使用对言语行为的影响。

山精倒在地上,一动不动,脖子上一道巨大的伤口,几乎让脑袋掉落下来。那张生满白毛的脸,满是惊愕和恐惧。它的胸膛处也有几道深深的伤口,肚腹上的口子最大,从左至右将肚皮剖开,肚肠滑了一地。鲜血汩汩流出,渗入地下的泥土,泥土不及吸收的,便开始朝着四周漫延。

然而,大量调研发现,异步电动机负荷其实对10 kV配电网线路重合闸成功率影响不大。主要原因为目前工业电动机大多采用接触器进行投切,对于常见型号的接触器来说,当其电压跌落至45%~55%UN时,接触器将出现低压脱扣释放,延长释放时间为15~40 ms。由此可见,当重合闸时间整定在秒级时,负荷电动机早已经脱扣,无法提供短路电流和冲击电流,不会影响重合闸成功率。

2 研用交叉结合,涵盖内容广泛

本书理论研究与应用研究两部分独自成篇,相互关联。第一部分以计算语言学的理论构成为主线,拓展了传统语言学词法研究、句法研究、语义研究的概念,针对计算机对自然语言的处理规则,提出了计算词法、计算句法、计算语义等分支理论。此外,考虑到语音系统也是传统语言学的研究重点,又将语音研究转变为计算机可操作的言语技术探究。语料库语言学和机器学习则分别立足于大规模真实文本处理和具体算法,为上述理论转换为实际操作搭建了桥梁。第二部分应用章节涵盖内容广泛,基本上囊括了与计算语言学相关的应用领域,包括时下较为热门的人机对话、文本情感分析等,突出了计算机技术对传统语言学研究带来的变革。

3 语言通俗易懂,资源详尽可靠

本书由数理语言学教研室师生联合编写而成,大部分作者目前工作于全球互联网搜索引擎公司、机器翻译公司等,撰文基本来源于工作实际,语言通俗易懂。作者在每章后专门分出小节,列举参考文献、电子资源的具体网页链接、软件学习的网络课程以及计算语言学相关的国际会议名称等,为读者提供了详尽的网络信息资源,如维基百科多语词典(Wiktionary)(https://www.wiktionary.org/)、机器翻译图书馆(Библиотека по машинному переводу)(http://www.mt-archive.info/)、俄罗斯计算语言学专题会议“对话”(Диалог)(http://www.dialog-21.ru/)等。值得一提的是,书中大量有关计算语言学的专业俄文术语为外语学习者以及该领域的研究者提供了准确参照。

4 面向当代科技,引领数字潮流

语言学正在经历着一场革命性的巨变,计算机技术和互联网逐渐改变了传统语言学的研究模式,面向当代科技的计算语言学为语言学的放飞插上了翅膀。美国文化史学家Doueihi提出了第四种人文主义:数字人文主义。Doueihi称由于它涉及一种和人类融为一体的全球技术,生成了全新的客体,与此同时改变了我们看待所有事物的方法,数字人文主义标志着一个显著的变革,更为重要的是,它标志着一个新学科的诞生(朱波,2017:138)。当代语言学研究离不开大数据的依托,而大数据又再一次将机器翻译、人机对话等应用领域推向新的高潮。本书作者沿着传统语言学研究框架逐一扩展计算语言学的新概念和实际应用,与此同时又突出了俄罗斯语言学的研究特色,即注重言语行为对交际的影响。从交际的视角审视计算语言学,推动了计算语言学与人工智能的紧密结合。

结肠癌高发于40~50岁人群,在我国发病率呈逐年上升趋势,多由于脂肪摄入量过高和纤维素摄取不足引起。结肠癌在美国或西欧等经济发达地区的发病率高于亚洲、非洲或南美。这可能与西方的饮食结构或高脂肪食物的摄入有关。结肠癌发生包括从黏膜过度增生进展至息肉形成,不典型增生,并转化为非侵袭性病变,继而形成有侵袭和转移能力的肿瘤细胞,这中间伴有多基因的改变[2]。

总之,该书以应用计算语言学为核心,全面阐释了计算语言学的理论构成和应用研究,结构编排合理,内容广泛丰富,语言深入浅出,是读者了解计算语言学理论与应用的一部具有价值的参考书。

参考文献:

[1] 冯志伟. 2011. 计算语言学的历史回顾与现状分析[J]. 外国语, (1): 9-17.

[2] 傅兴尚等. 2009. 俄罗斯计算语言学与机器翻译[M]. 北京: 语文出版社.

[3] 邵艳秋. 2009.“计算语言学”及其近义术语详解[J]. 术语标准化与信息技术, (3): 24-27.

[4] 盛秋艳. 2013. 一种基于本体的语义相似度计算方法[J]. 情报科学, (3): 1238-1241.

[5] 朱波译. 2017. 数字化时代的翻译[M]. 北京: 外语与教学研究出版社.

收稿日期:2019-01-22;

修回日期:2019-02-05

作者简介:康喆文,博士生,研究方向:语言学、翻译学

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

《应用计算语言学》评介论文
下载Doc文档

猜你喜欢