多语叙词表构建方法研究与实践,本文主要内容关键词为:词表论文,方法论文,多语叙论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2014-08-22 本文起止页码:7-12,24 1 引言 随着网络技术的迅猛发展,互联网已成为人们获取信息的重要途径,用户可以从互联网上获取多语种的信息资源。但随着网络上信息资源数量的增加,如何有效利用多语种信息、满足用户的多语言信息需求,成为一个亟待解决的问题。多语叙词表正是解决这一问题的有效资源之一。 中国科学技术信息研究所语言与知识技术研究室(以下简称“本研究室”)先后承担了英语EI叙词表和日语JST叙词表的汉化工作,探索构建英汉、日汉双语叙词表。EI综合性工程技术叙词表主要用于EI Compendex数据库文献的标引及检索,1993年在EI Vocabulary的基础上发展出第一版EI叙词表。本研究室汉化的EI叙词表是2006年出版的第五版EI叙词表,总收词量19296个,其中叙词9926个,非叙词9370个,族首词85个。日本JST叙词表是日本科学技术振兴机构(Japan Science and Technology Agency,JST)开发的日语叙词表,原始语言为日语,包含37163个叙词、2635个非叙词,词问的相互关系为20余万对,目前已被翻译成英语,主要应用于JST学术及医疗领域文献检索系统JDreamII的索引和检索。 本文首先介绍多语叙词表构建的研究现状及3种主要的构建方法,详细分析基于翻译构建多语叙词表的方法及该方法的主要问题,然后介绍本研究室在多语叙词表构建方面的工作,包括英语EI叙词表和日语JST叙词表的汉化,最后对下一步的工作进行展望。 2 多语叙词表构建方法研究 2.1 研究现状 国外非常重视多语叙词表的构建,以构建和应用多语叙词表为目标的项目和研究工作不断涌现。由CENL(欧洲国家图书馆馆长联席会)资助的“MACS项目”将法语的RAMEAU、英语的LCSH和德语的SWD进行映射,实现利用现有的标引工具进行多语图书目录获取的功能[1];分布式剪报数字图书馆项目专门设计并构建了覆盖大多数新闻领域主题的叙词表——LAURIN,涉及英、法、德、意等7个语种[2]。A.C.Liang等[3]采用映射的方法将英文的AGROVOC和中文农业叙词表进行集成。J.Ramíre[4]等人则以英语为中间语言,利用维基百科和Wordnet,建立英、日、西班牙语多语叙词表。 国内在多语叙词表构建的研究方面相对滞后。常春[5]介绍了将英语农业叙词表AGROVOC翻译为汉语的基本原则及多语叙词表的维护实例。东北大学的Zhao Liang[6]等利用机器翻译软件包Google Translation API获取英文MeSH的中文翻译。香港中文大学的C.C.Yang教授的研究团队分别研究利用Hopfield神经网络[7]和联想约束网络(associative constraint network)[8]基于英汉平行语料库自动构建双语主题词表。曾文等[9]探讨了多语叙词表自动构建的方法和相关技术。 2.2 常用的多语叙词表构建方法 2009年IFLA出版的多语言叙词表指南[10]中将多语种叙词表的构建方法分为3类: 2.2.1 从头开始构建一个新的多语叙词表HEREIN叙词表构建初期就是采用此方法:从英、法、西班牙语3个语种的文化遗产政策报告中提取词汇表,比较不同语种的词汇表、确定词汇间的相互关系,建立起英、法、西班牙语3个语种的叙词表[11]。此种方法费时费力,因此通过先由计算机自动构建、再由领域专家进行校正的方式构建一个全新的多语叙词表的方法更符合实际需求。 2.2.2 合并现有的叙词表 包括将两个或多个现有叙词表合并成一个新的叙词表或者将不同叙词表进行映射两种。GEMET叙词表以8个现有的单语或者多语叙词表为基础,从概念和形式两个层面对它们进行合并[12]。Merimee叙词表将法语的建筑叙词表与AAT及英国遗产叙词表进行映射,构建出英、法双语叙词表[13]。这种方法可以最大限度地利用现有的主题词表,因此相关研究较多[1,3],但是也存在不同语种概念定义不一致、语义关系矛盾冲突等问题。 2.2.3 将现有叙词表翻译成一种或多种其他语种 目前实用的多语叙词表大多采用此方法构建,例如欧盟叙词表EuroVoc、农业多语言叙词表AGROVOC、美国国家医学图书馆标题表MeSH等。下面将对此方法进行详细介绍。 3 基于翻译构建多语叙词表 3.1 基于翻译构建多语叙词表的方法 基于翻译构建多语叙词表的方法通过构建辅助翻译平台,借助外部资源和翻译人员自身的知识,按照既定的翻译原则,由翻译人员进行翻译,再由审校人员进行审核,从而完成叙词表翻译。下面对叙词表翻译过程中的四大要素进行详细说明。 3.1.1 翻译原则 叙词表翻译过程中需要遵循两个基本原则:基于概念翻译的原则和基于概念间关系翻译的原则。具体来说,是指源语言词汇所表达的概念和翻译后的目标语词汇所表达的概念在内涵上应保持一致。同时目标语言词汇所表述的概念间的相互关系也应该和它们对应的源语言词汇所表述的概念间的相互关系是一致的。除此之外,还可根据实际需求增加其他翻译原则,如“汉语叙词统一原则”、“尽量选用使用频率高的自然语言原则”、“使用概念范畴大的词汇原则”等翻译原则[5];多语叙词表ELSST的构建则遵循了“只翻译叙词”、“参考外部叙词表的词汇”等原则[14]。 3.1.2 叙词表翻译人员 叙词表翻译过程需要有翻译人员和审校人员的参与。叙词表中的词汇为专业术语,对翻译人员的专业知识要求较高,有学者提出在选取叙词表翻译人员时应该从翻译人员的专业知识和英语水平两个角度考虑,但是无论从哪个角度考虑,都需要翻译人员掌握基本的领域知识[15]。同样,审校人员也必须对叙词表涉及的领域有深入的了解。翻译人员和审校人员还须对叙词表的概念、概念关系等有一定的认识,明确叙词翻译和普通术语翻译的不同。 3.1.3 辅助翻译平台 为了方便翻译人员和审校人员开展工作,叙词表翻译过程中一般需要借助辅助翻译平台。例如,为了方便对MeSH的翻译,NLM开发了MeSH翻译维护系统MTMS,实现对翻译结果的持续更新[16]。通过MTMS,翻译人员可以将英语的MeSH术语翻译成其他语种,或者插入一个新的概念。在插入新概念时,需提交新概念的英语定义,以方便理解和翻译为其他语种。 3.1.4 翻译资源 叙词表翻译过程中除了可以借助翻译词典、机器翻译系统[8]等翻译工具,还可以利用多语语料库、网络资源等,通过词对齐、翻译词对抽取等方法抽取叙词的翻译结果。如L.Deléger等[17]利用词对齐方法从平行语料库中抽取英文MeSH的法语翻译。Lu Wenhsiang等[18]利用网页的锚文本提取英文MeSH的中文翻译及以英文MeSH叙词为搜索词,搜索中文网页并从中提取中文翻译两种方式构建中英双语MeSH。 3.2 叙词表翻译过程中的问题 叙词表的翻译不同于传统的文本翻译,强调保持不同语种间概念及概念间的关系的一致性,但是由于不同语种间文化的差异,要做到完全的一致几乎是不可能的。 首先,对于某个概念,目标语言中表达概念的词汇可能有多个。例如英语中表达概念“雪”的词汇只有“snow”一个,而爱斯基摩语和冰岛语中分别有40个和15个不同的词对应概念“雪”,这就需要一定的策略在众多的词汇中挑选出与“snow”的内涵最贴切的词汇。 其次,目标语言中没有任何词汇能准确表述源语言词汇的概念,导致翻译结果产生概念上的偏差。目标语词汇表述的概念可能比源语言词汇表述的概念更广或更窄,或者目标语词汇和源语言词汇的内涵有所区别,例如英语“intellectual”的中文虽然可翻译为“知识分子”,但两者涵义存在很大差别。 最后,目标语种中不存在源语言词汇表述的概念。例如,日语“雪水学”在中文中就无对应的概念。借用外来词汇或者创造一个新词的方式虽然能够保证多语叙词表的一致性,但是得到的目标词汇在目标语的概念体系中的使用价值却值得商榷。 解决概念翻译过程中的不一致问题,可以通过对翻译结果添加标注项的方式来实现。但是很多情况下添加标注项并不能解决问题,需要翻译人员和叙词表构建人员进行协商,通过修订源语言叙词或叙词间的关系来保持源语言和目标语言叙词的一致[7]。 3.3 叙词表翻译结果的评价问题 叙词表翻译结果有两种应用方式:一是用于帮助以目标语为母语的使用者更好地理解源语言叙词的意义;另一种是利用源语言叙词表和翻译得到的目标语叙词对不同语种的文档进行标引和检索。因此,依据应用场景的不同,对叙词表的翻译结果,有以下两种评价方式: 3.3.1 从翻译角度评价对多语叙词表进行翻译,可以简单视为将源语言叙词转换为目标语言叙词,因此可以从叙词翻译的角度评价翻译结果的准确度。与普通词汇翻译工作不同的是,虽然从形式上看,叙词只是单个的词汇或短语,但是由于将其置于叙词表的层次结构中,相当于限定了叙词的“上下文环境”,因此在对翻译结果进行准确度评价时,不仅需要从词的翻译准确度角度,更需要从整个叙词表“上下文环境”的角度进行评价。具体来说,从翻译角度评价,可以简单地利用翻译结果的准确率,即以正确翻译的叙词的个数与全部叙词个数的百分比作为评价标准。 3.3.2 从多语叙词表应用的角度评价 将通过翻译构建的多语叙词表应用于多语言信息组织和检索中,除了要保证目标语言叙词与源语言叙词在语义上一致,还需要保证目标语言叙词间的相互关系和它们对应的源语言叙词间的相互关系是一致的。这对叙词表的翻译提出了更高的要求。从多语叙词表应用的角度评价,主要考虑用户在信息组织和信息检索过程中使用多语叙词表的满意度,可以通过座谈会、调查问卷等方式在翻译前确定用户的需求,并通过将多语叙词表应用于真实的信息组织和信息检索场景中发现叙词表构建和翻译过程中的问题,逐步对其进行修正,提高用户的满意度。 4 叙词表的汉代实践 为了高质量地完成EI叙词表和JST叙词表的汉化任务,本研究室组织了技术人员、汉化人员、领域专家等参与到汉化工作中,采用机器辅助翻译和人工翻译校正相结合的方法,借助叙词表辅助汉化平台对叙词表进行汉化。 4.1 叙词表的汉化方法 整个汉化工作分为3个阶段:前期工作主要是技术人员设计和编写相关应用软件;中期工作主要是汉化人员使用前期开发的汉化修编软件进行叙词表全部内容的汉化;后期的主要工作是组织领域专家对汉化结果进行校正。 具体来说,叙词表汉化主要包括3个步骤,流程见图1。多语种同义词库构建方法的研究与实践_英语论文
多语种同义词库构建方法的研究与实践_英语论文
下载Doc文档