认知科学与机器翻译研究,本文主要内容关键词为:认知科学论文,机器翻译论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
0.引言
英国学者查罗纳(J.Challoner)指出,早期的认知科学建立在人脑是一台复杂的计算机这一理论认识基础之上,与人工智能的研究有着密切的联系;认知科学研究的是精神处理,研究我们如何思考和沟通以及如何指导行为,它可以理解为对人类思想的计算理论研究。(2003:29)可见,认知科学对语言自动翻译机的研发无疑具有先导作用。俄罗斯著名机器翻译研究专家皮奥特罗夫斯基(Р.Г.Пиотровский)认为,第二次认知革命的思想和基于行为的人工智能观极大地推动了语言自动机的研发,其实质就是将通信目标不断变化的动态模型引入每个文本自动处理系统中,模型类似于一个交际语用算子,控制着文本的生成与理解。(2002:17)随着第二次认知革命的发生和大量由经验检验的优秀文本自动处理技术的产生,一系列新型文本自动处理与机器翻译系统应运而生,机器翻译研究由此进入新的发展阶段,呈现出崭新的学科研究景观。本文将通过解析俄罗斯言语统计研究组(Исследователъская группа“Статистика речи”)设计并实现的语言自动机ЛИНГТОН系统,探讨认知科学对机器翻译研究的影响和作用。
1.第二次认知革命与机器翻译
20世纪六七十年代的认知与交际过程模糊性研究,其中包括对言语思维范畴的形成机制、信息学与诠释学(герменевтика)的产生机制的研究等,这些研究均取得了重大的理论成果。研究表明,自然语言中信息接受和处理的实际过程并不完全一致。个体与其所处的群体之间存在差异,其中每个成员都拥有自己的个人经验、世界观、文化财富、目标定向、潜在动机、身体组织和情感状态等内在因素,都在按照自己的意愿使用共同的思维空间。(Laszlo & Krippner,1998:65)与群体相比,个体的行为(包括言语行为)很少能严格按照预定的目标计划完成,经常会因为环境或主观评价的改变而发生变化。与人可以不断进行调整的适应能力(包括语言能力)不同,计算机系统按照预先写好的指令(程序)进行工作,每一步操作在文本自动处理系统的语言信息数据库中都要给出相应的解释(是或非)。
第一次认知革命动摇了行为主义在西方心理学界的统治地位,导致了认知心理学的产生。第二次认知革命质疑认知心理学的基础假设——在千变万化的行为背后存在着一个普遍的、共同的和内在的认知机制,进而推动了社会建构论的产生。第一次认知革命是一次不彻底的革命,在许多方面承袭了行为主义的特点,它并没有把认知过程真正看成是积极的、能动的过程。相反,由于它要确立不受认知过程影响的客观真理,因而实际上贬低了认知过程的意义。如此一来,第二次认知革命的发生注定成为历史的必然。
第二次认知革命是后现代主义革命,是对心理学中现代主义思潮的一次反动,它站在后经验主义立场上,对传统认知心理学有关存在一个一般性的认知机制的假设提出挑战,认为在人的头颅中除了大脑什么都没有,不存在一个精神性的中枢处理机制,而所谓的认知、思维等心理现象只不过是人利用语言和符号的结果。“我们会有一种认知心理学,但是这种认知心理学并不像传统的认知心理学那样考察抽象的计算装置运行过程,它研究的是各种各样的符号系统的意向性使用,意向性的使用是由积极的、主动的、处于公共或私下的情景的、且为完成各种任务或计划的人完成的,完成的过程往往是与他人协同作用的结果。”(Smith et al,1995:146)第二次认知革命的意义在于:认知过程被看作是人使用语言和话语的结果,而语言和话语是社会性的,是人际交流的产物,因此认知过程在其根本意义上首先是公开的和社会性的,其次才是私有的和个人的。从这个意义上讲,认知并不存在于个体的内部,而是存在于人际之间。因此,在设计和建造新的人工智能系统时,必须将20世纪六七十年代第一次认知革命期间取得的知识工程逻辑斯提技术与八九十年代第二次认知革命的建构主义思想结合起来。基于这种认识,专家们为能够在日常逻辑、情感、个人动机、语用学等领域建造计算机行为模型做了一些有益的尝试,但大多数人工智能专家对研究人类思维的计算机隐喻反应冷淡,更倾向于基于行为的人工智能观。
应当看到,自然语言与计算机语言之间的障碍与二三十年前相比变得更加难以突破,有关“自然语言的历时性vs.计算机语言的共时性”“自然语言的模糊性和容限性vs.计算机语言的确定性和等价性”的悖论,也由于人与人工智能系统在言语生成和理解机制方面的巨大差异而变得愈益突出。无论现在还是未来,即使利用最好的计算机技术,也无法实现对个人动机、语用、情感的完全模板化及概念模拟。显然,问题的关键并不在于计算机技术发展到了一个什么样的程度。生物电子、微技术(包括微型机器人制造技术)、神经信息学等学科的飞速发展,数据处理技术的随之提高,为高性能计算机的批量生产奠定了坚实的基础。由于自身技术参数的优化,高性能计算机可以为行为智能系统的建造及其与人之间的“社会—伙伴”协作提供保障,但这些系统的实际运作均受两种因素的限制:1)缺少有关人的言语思维和交际活动的神经生理学机制和实用主义机制方面的详细实验数据;2)缺乏研究标准。针对这种现状,在研制新型文本自动处理系统和机器翻译系统时应当注意:1)依据第二次认知革命过程中形成的系统与人进行“社会—伙伴”协作的思想,在文本自动处理的全过程中加强译前、译中和译后编辑工作;2)不能过高期望人工智能系统、文本自动处理系统和机器翻译系统能带给我们高质量的译文,应当以通过消除模糊性快速提取文本信息为主要目标;3)在依靠传统计算机技术的同时,应将业已证明正确的方法与文本处理过程中出现的新方法相结合。
2.经验检验的优秀文本自动处理技术
下面,我们主要介绍言语统计研究组通过经验检验的文本自动处理技术,指明哪些技术可以用于研制新型人工智能系统。
2.1 框架
在第二代文本自动处理和机器翻译系统中,一种比较流行的文本自动处理技术是用事先准备好的预制模板或框架来处理输出结果。这种技术的产生,主要是由于受到20世纪七八十年代认知科学中关于人类智慧的“计算机隐喻”的启发。据此可以认为,人的思维通常利用不同组织形式的知识框架结构——规划、脚本、图示。如前所述,第二次认知革命对一般性认知机制的假设提出了挑战,并质疑人的思维框架模式,但它并不反对使用框架模板和矩阵来设计文本自动处理和机器翻译系统。相反,框架的运用可以提高说明书、电报、证书等标准文献的处理效率。借助于从翻译记忆库中提取的框架及相似文本,标准商业合同处理起来非常方便。言语统计研究组开发的ЛИНГТОН系统在生成和分析不同格式合同及协议书时,均采用了框架模板,框架各个槽中填入的完全是标准化文本的述位内容词汇,其出现概率非常高,很难找到非标准化文本如报刊、科技文本等的述位片段。
这种研究方法的优点在于:框架矩阵预先限制输出文本规范的句法—语义结构和词法结构,这样就能够简化输出文本的综合。但是,框架法也存在缺陷:一方面,在框架综合时判断槽中输入的文本片段及其译文是否正确的算法并不可靠;另一方面,言语统计研究组的经验表明,基于句法—语义方法的机器翻译需要建立多个框架,其数量巨大,对设计人员而言根本无法完成。因此,应该将框架法与其他文本分析和综合的方法相结合。我们完全有理由相信,在建立新型文本自动处理和机器翻译系统的过程中,框架法能够发挥自己非常明显的优势。
2.2 框架与叙词表
机器翻译系统实验表明,框架法与处理文本相关领域的叙词表描述相结合是一种富有成效的方法。20世纪70—90年代,言语统计研究组在研发英俄和法俄机器翻译系统的过程中就曾尝试将这两种方法结合起来。预先建一个树形叙词表作为专业领域的思维模型,在树形叙词表的节点上放置术语词形(c/ф)和术语词组(c/c),并为其中每一个术语都标注节点代码;然后建立输入、输出框架矩阵,要求每一个输入矩阵必须对应于一个且只能对应一个输出矩阵(反之则不然)。一方面,矩阵的连续性及其槽码与叙词表的节点成比例;另一方面,使建立术语词组的句法—语义图示在相应的语言对中得到形式化表征。
2.3 概率信息法与框架
在第二代文本自动处理系统中,概率或信息权重曾被广泛地赋予从算法图的根节点或顶级节点至下一级节点,直至输出节点的所有分支,概率或信息权重大的方向是需要优先解决的方向。从文本索引、自动文摘以及机器翻译系统的实际应用来看,模糊性的直线概率排除对于非常小的文本片断行之有效,但对于长句或超句统一体的处理并不尽如人意。20世纪60年代,有专家曾试图在翻译算法中预先指定最优的加工策略,但结果发现,译文不但无法保证与原文相符,还保留了过多的冗余信息,给用户带来诸多不便,因此人们最终不得不另辟蹊径。针对概率信息法的优点与不足,言语统计研究组开发出了摘要翻译系统,在文本加工过程中计算出决策概率,然后依据概率提取输入文本的框架特征,这样做的好处是可以提高输出文本的正确率。
2.4 文本自动处理的模块层级结构
20世纪80年代以来,在自动文摘和机器翻译系统研究中形成的模块层级结构,对于建造新型文本自动处理系统具有一定的理论价值和应用价值。这种方法立足于“自下而上”的方法,从词形(文本分析的最低层)至句法—语义和语用(文本分析的最高层),逐级减少不确定性因素。在选择最终决策时,与低层相比,高层是优先考虑的对象。下面,我们将以文献标题的机器翻译为例,对其操作流程进行简要介绍。
首先运用机器词典和程序段(блоки)中的机器词法,对读入后的标题完成最初的词汇语法加工。借助边界信号,在第二分析层中将标题分割成句法语义段。为确定这些句法语义段的主述位特征,专门使用一串可进行逻辑判定的过滤程序(第一层过滤)。针对主述位切分结果,在第三分析层中引入交际语用算子,验证标题中的所有词汇单位,以使它们与主述位指示器清单上的词汇单位完全一致(第二层过滤)。借助属于对象子域的主题词形索引,在第四分析层中将标题与所研究对象域的部分对象子域(ППО)进行对比,得出标题主述位切分的唯一解(第三层过滤):最后,利用框架得出意义识别与语义—交际翻译的最终结果。(Пиотровский,2002:22—23)
3.新型文本自动处理与机器翻译系统ЛИНГТОН的架构
研究文本自动处理问题,应考虑人工智能设计与维护的行为准则。这就意味着,所有的文本自动处理技术不仅要消除或减少不确定因素,而且还必须考虑用户的实际需求。当然,用户有义务根据自己的语义—语用交际意图,积极帮助系统将不确定因素降至最低限度。正是基于此种考虑,言语统计研究组研制出了多语言、多功能的语言自动机系统见ЛИНГТОН。最初的语言自动机系统只是一个文本自动处理程序的集合,只有部分程序能合并为程序组进行运作,其中包括将口语生成和识别的标准模块与印刷文本机译系统加以整合的口语机器翻译系统,文本标题的主述位结构识别与翻译系统,对外语文本进行索引、注释并提供俄语译文的科技文献叙词表对话文摘系统。ТАНД,而其余的程序仍作为独立的模块运作。目前,言语统计研究组已将ЛИНГТОН系统原来的所有程序与新建模块进行整合,开发出了基于行为人工智能思想的新一代多功能层级系统。该系统的大致工作流程如下页图所示:
下面,我们将对该系统主要程序段的任务和功能进行分析。
3.1 知识库
传统的静态语言信息数据库一般只包括机器词典、叙词表以及语法分析与综合子程序段。如果要从根本上提高文本自动处理系统的性能,则必须将其改造为动态知识库。静态信息数据库的扩充和改造既可由人工手动实现,也可通过计算机自动完成。词汇—词法数据库(ЛМБД)是主要的动态语言知识库,由以下7个模块构成:1)词典程序段,它包括通用词典和专用术语词典。每部词典的输入端和输出端均由词条组成,并且每个词条都包括6个信息域,即输入语言的机器词干、输出语言的机器词干、输入词条聚合体、输出词条聚合体、输入词汇的语法特征、输出词汇的语法特征;2)叙词表程序段,新版ЛИНГТОН系统不仅使用给定题目文本处理所必须的通用十进制分类法(УДК)、国家科技信息分类栏目大全(ГРНТИ)和专业叙词表,还合理地利用互联网上的数据库资源,例如DIALOG(科学、技术、经贸)、MEDLINNE(医学)或更新的WAIS1型数据库。在研制新叙词表和改造旧叙词表时,注意将已经比较成熟的统计方法和词典编纂方法与文本流处理过程中新词的自动扩充工具适当结合,而新词主要集中体现在术语词组、地名和专有名词等方面。对上述词汇单位进行语义标注,并确定它们与叙词表节点词汇单位的联想关系等操作,均在人机交互过程中完成;3)翻译记忆,包括经常出现的输入文本片段、其等值译文以及同义词词表;4)预备框架集,它不仅可以保证译文在句法和体裁上与原文一致,还有利于生成结构规范的文本自动文摘;5)驻留(内存)词典;6)大规模文本以及单个文献的量化描述工具,即词形、词组、语境的机器频率字母表(Машинный частотно—алфавитный список)的生成程序;7)句法语义和语用知识库,它是动态知识库的一个重要组成部分,包括输入与输出的词汇聚合体、弧的概率权重(вероятностный вес дуг)的转换图系统。这些转换图通常用于名词词组和动词词组、主语和谓语的分析与综合以及输入表层图示的分析与输出句子的综合。此外,根据用户的具体要求和所处理文献的特点,它们可用于生成输出文本的过程之中。这个过程需要借助以下应用程序完成:具体实现人机交互(图形和声音)和人机交互方式(批处理、对话等)的程序;保证系统与用户积极互动的程序等。
图1.ЛИНГТОН系统的工作流程图
3.2 文献处理
目前,由于对输入文本和输出文本识别程序的描述非常多,在此着重考察文献处理的相关程序问题,主要包括:
1)输入文本的图解规范化以及文献语言的确定程序段。第二代文本自动处理系统的研制表明,对各种欧洲语言的大规模文本进行实时处理比较容易,而对东方语言文本的处理就会遇到困难。因此,从一种语言译为另一种语言,不论在什么情况下,无论通过什么方式,都应该对文本的形式做出明确标记。在程序段设置中,语言识别程序应该成为起始模块,既可通过图解指示器限制法,也可利用ЛИНГТОН系统一种工作语言的文本概率统计法完成识别工作。如果ЛИНГТОН系统的工作语言使用不包含字母的图解,或是省略变音符的文本(网络文本),那么就要使用某种语言的概率统计。只有当每个频率词形仅代表ЛИНГТОН系统的一种工作语言时,词形频率才被用做指示器。这样,在使用率最高的5个英语词形(the、of、and、to、in)中,只有前4个可以用做英语文本判断的指示器,因为在德语、意大利语及其他语言中也使用词形in。在文本流的处理过程中,经常会遇到许多不完整或语法不规范的句子。在这种情况下,常常会产生词法拼写错误和印刷错误。但是,所有这些错误并非都能基于隐马尔科夫模型通过标准检查或统计分析得到纠正:这样,不确定性因素就只能通过译中干预(在翻译过程中实施的人工干预)或由用户本人来消除。
2)文献格式及其各部分的识别以及文献风格、题材的确定程序段。该程序段主要包括标准拼写检查工具以及文本对象域、风格和题材(公函、合同、报表等)的确定工具,利用这些工具可以尽可能消除对文本属性进行概率统计时产生的界限模糊性。证书或技术说明书的明显特征是使用典型的标题模板,其中包括专利授予国、专利号、专利申请人和姓名、科研性质、组织、执行人,明细表或报表的格式和体裁也相当固定。而对于具体主题和文本的判断就要复杂得多,它可通过将文献中的关键词和词组与词典中预先制定的标准进行概率对比来实现。这些标准具有确定的风格、对象域和主题标识功能。
20世纪八九十年代,对文本检索和文摘系统的实验研究表明,这些系统的主要不足在于:由于文本的结构经过严格限定,因此不允许随意改变检索和文摘的文本内容和结构。至于实时处理的文本信息流,其语义和格式就更加多样化。在这种情况下,系统很难应对专业领域词汇(主要是术语)的更新。为了弥补这种不足,专家们在两个方面进行了尝试:一方面,借助动态脚本框架(динамичный сценарньй Фрейм),以使文本自动处理系统对所有文献片断进行连续分析;另一方面,通过句法—语义主题分栏(рубрикация)对文献进行有序的归类。由于建立脚本框架需要大规模文本流提供支持,因此句法—语义主题分栏就成为一种更加行之有效的手段。
3.3 机器翻译程序段
在新版ЛИНГТОН系统中,机器翻译模块程序段运行起来最为复杂,它完全采用言语统计研究组设计的多层程序结构。(Пиотровский,1999:209—213;Beliaeva et al,1990:26—35)利用机器翻译程序段进行文本处理,需要经过以下几个层次的操作:1)词法(词典),以词法分析为主,必要时给出词形及固定词组的译文;2)小句法语义块,主要分析并翻译名词词组和动词词组;3)大句法语义块,主要识别并处理功能句法—语义块,即主语、谓语、补语、状语等;4)句子,主要揭示输入句子的句法结构,并选定与之相匹配的输出句子的句法结构;5)文本,主要根据文本的主题、结构和语用特征对机器翻译的结果进行校正和编辑。
每个程序段都要对输入的语言单位进行识别和描述,同时确定等价的输出语言单位。因此,每个层次的输入句子都将被改造为偶对链(цепочка
пар):“输入词汇单位(u)+词法或句法语义特征(x)”与“输出词汇单位(u′)+词汇特征(x′)”。可用公式表示为:
在较低层次上,输入的词汇单位和句子均可从机器词典中直接获得词汇语法特征x和x′而较高层次上的词汇单位和句子,其句法语义特征可在相应程序段中自动生成。如果输入端含有大量不规范的文本,ЛИНГТОН系统的运行经常会出现故障状态,一般通过系统本身或人机对话来排除这些故障。在进行人机对话时,机器翻译程序段的整个配置应该能保证下述操作的执行:1)译中编辑和译文补充。在必要情况下,对输入文本进行形式化和格式化处理,这些操作可以利用编辑器、手动扫描或光笔来完成;2)临时中断文本的翻译。这一步操作的目的是,便于用户将系统在语言信息数据库中没有检索到的词形或词组手动加入机器词典和叙词表中。
受第二次认知革命思想的启发,ЛИНГТОН系统采用“社会—伙伴”式人机协作的运行方式,因此具有较强的自学习功能。为了保障系统获得自学习功能,必须做到:将经常出现的输入文本片段及规范译文及时记录在翻译记忆库中;不断对能够保证译文句法和风格规范的框架集进行扩充;将概率统计结果及时引入机器翻译程序段中。
3.4 ЛИНГТОН系统与互联网的互动
ЛИНГТОН系统与互联网相互协作的关键问题之一,就是编写适用的自动检索及词汇单位匹配程序。由于互联网服务器与ЛИНГТОН系统的动态知识库在词典结构上不一致,这就增加了解决上述问题的难度。互联网服务器主要使用词的原形(名词和形容词第一格,如сварка和сварочный;动词不定式,如сваривать),而在动态知识库中则使用机器词干(свар—、сварочн—、свари—)。实现文本自动处理系统与互联网相互协作的难点还在于:目前缺少能按词的屈折变化形式进行归类的可靠系统。一旦有了这样的系统,文本自动处理系统就可以准确无误地输出互联网上所使用的主题词汇单位。由于互联网技术发展迅速,任何一种文本自动处理系统都很难赶上它的步伐。因此,在设计主题词程序段时,应该事先考虑使用哪种互联网技术:是采用最原始的WASI技术或Telnet、FTP、Goepher、WWW1、WWW2技术,还是采用前景看好的WWW3技术。而且,在机译系统开发过程中,还要确定基于什么网络语言:是简单的HTML语言,还是XML语言。此外,新型文本自动处理系统还应注意更新能够保持系统生命力的工具。
4.结语
通过上述分析不难看出,由于受第二次认知革命的影响,包括言语统计研究组开发的ЛИНГТОН系统在内的现代文本自动处理系统正在朝着增强系统协同能力的方向推进。为了实现这个目标,可将操纵人类言语思维的交际—语用算子模型(моделъ коммуникативно—пагматический операсор)引入语言自动机的研制中。但这个目标在目前情况下根本无法实现,因为该算子的心理属性尚不清楚。因此,从语言工程实施的角度来看,只能尽量对交际语用算子进行最近似的模拟。这表明:一方面,人机交互将参与文本处理的全过程,机器翻译会使用更多的文本处理验证工具;另一方面,这种人机交互将利用一些新的软件工具,不仅可以追踪主题的推演以及文本结构的变化,而且还能够根据变化适时做出某种反应。
基金项目:国家社会科学基金资助项目(05BYY008)。
标签:自然语言处理论文; 程序段论文; 语义分析论文; 文本分析论文; 机器翻译论文; 翻译专业论文; 文本分类论文; 认知科学论文; 概率计算论文; 认知过程论文; 语言翻译论文; 翻译理论论文; 信息革命论文;