杨晓峰[1]2001年在《汉英机器翻译系统中的一种语义排岐模型研究》文中提出本文提出了机器翻译中句法分析的一种语义排歧模型,该模型以《知网》为主要语义知识源,从“制约”与“优选”两个角度同时进行词义及结构的排歧:“制约”是在分析规则中对产生的结果进行约束,而“优选”则是从若干个已分析出的侯选结构中根据某种选择原则挑出一个最优的结构。 在句法分析过程中进行的“约束”语义排歧的主要思想是在句法分析的规则中调用一个评价函数,该函数把当前待归约产生式中各个子成分的搭配情况与模式库中的各搭配结构进行匹配运算,并返回最相似的匹配结果及对应的评价值。分析规则根据此评价值来决定当前的产生式是否能够成功地归约,从而减少分析器产生的歧义结果数量。本文定义了搭配规则的结构模式,并给出了模式匹配的主要算法。 从基于优选的角度对分析生成的中间语言进行排歧处理是本文的论述重点。排歧模型首先利用大规模的语料库获取义原的同现集合,并根据转换模板构造出义原的初始限制规则,再通过手工的方式对初始规则进行修改与调整,以得到一个较完善的规则集。义项的语义限制规则可以由其构成义原的语义规则得到。将此规则与义项所在的语义环境进行相似度的计算,并根据计算结果进行义项选择和结构的语义搭配的评价,从而进行词义排歧与结构排歧及语义结构调整, 本文所提出的语义排歧模型已在机器翻译系统中具体地实现。实验例句的测试表明该排歧模型对解决句法分析中的词汇歧义、结构歧义是有效的。本文共分为五章。 第一章是绪论。简要地说明语义分析的重要性及语义分析的发展情况,从中引出了语义分析中一个研究领域——语义排歧。这一章讨论了中文文本分析的歧义消解问题,并对当前通用的排歧方法做了简要的介绍。最后该章提出了本文的主要工作要点。 第二章介绍了排歧模型的总体思想,并简要介绍了《知网》、分析规则、中间语言等一些必要知识。 第叁章主要介绍在句法分析过程中利用约束进行的语义排歧方法,详细介绍了搭配规则的定义,义原相似度计算、模式匹配相似度计算、词义选择及结构选择等算法步骤。 第四章主要介绍了针对中间语言进行的优选语义排歧的方法,详细地给出了义原同现集合的统计、限制规则的生成、语义环境的确定、义项的评价、词义的选择及结构的排歧、语义结构调整等一系列算法。 第五章总结了本文的主要工作,给出了本文的结论,并提出进一步工作的设想。另外,附录给出了部分歧义短语和句型的排歧结果。
林栋彬[2]2014年在《名词性短语的英汉机器互译研究》文中研究表明机器翻译是计算机技术、语言学、自动化技术、数学等多学科结合的产物。当今的计算机软硬件平台足以支撑大数据存储和高速运算,但机器译文的质量仍然不能令人满意,误译现象经常出现。在英语和汉语中,名词性短语出现的频率较高,搭配与结构比较复杂,因此本文以名词性短语为研究对象,以人工译文和机器译文为对比平台,对机器译文进行详细的分析,找出误译的原因,并提出可供参考的解决方案。本文将已有人工译文的语言片段作为语料,使用通用领域中较权威的两种机器翻译软件作为工具,把语料放入软件中进行翻译,将处理后的机器译文与人工译文作比较,对所产生的误译现象作分析。经分析发现,在英译汉的机器翻译过程中,机器对名词性短语中多义词和介词的语义判断不够准确,会影响整个短语乃至句子的意思。而在汉译英的机器翻译中,除对多义词词义的判断不够准确外,同形异义结构的短语也会让机器难以判断其语义。针对这些问题,本文对数据库中的语料进行语言学特征标记,并在MT软件中运用CAT技术,对翻译后的译文进行存储处理,使其具有采用记忆功能。为了保证机器不被日益增加的数据拖慢运行的速度,机器定期检查数据,对优先调用的数据进行优化处理,并且在存储语料的数据库容量接近限值时,清理不经常访问的数据,以保证其一直有足量的存储空间来容纳新的译文,从而更好地处理语言转换的工作。英语和汉语名词性短语的人机翻译研究,对名词性短语机器误译进行分析并给出解决办法,如建立具有语言学特征数据库等方案,将为研究机器翻译在其他短语、句子、篇章等层面的问题提供合理的参考和借鉴。
参考文献:
[1]. 汉英机器翻译系统中的一种语义排岐模型研究[D]. 杨晓峰. 厦门大学. 2001
[2]. 名词性短语的英汉机器互译研究[D]. 林栋彬. 延边大学. 2014
标签:计算机软件及计算机应用论文; 自然语言处理论文; 语义分析论文; 机器翻译论文;