多语种同义词库构建方法的研究与实践_英语论文

多语叙词表构建方法研究与实践，本文主要内容关键词为：词表论文,方法论文,多语叙论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

修回日期：2014-08-22 本文起止页码：7-12，24

1 引言

随着网络技术的迅猛发展，互联网已成为人们获取信息的重要途径，用户可以从互联网上获取多语种的信息资源。但随着网络上信息资源数量的增加，如何有效利用多语种信息、满足用户的多语言信息需求，成为一个亟待解决的问题。多语叙词表正是解决这一问题的有效资源之一。

中国科学技术信息研究所语言与知识技术研究室(以下简称“本研究室”)先后承担了英语EI叙词表和日语JST叙词表的汉化工作，探索构建英汉、日汉双语叙词表。EI综合性工程技术叙词表主要用于EI Compendex数据库文献的标引及检索，1993年在EI Vocabulary的基础上发展出第一版EI叙词表。本研究室汉化的EI叙词表是2006年出版的第五版EI叙词表，总收词量19296个，其中叙词9926个，非叙词9370个，族首词85个。日本JST叙词表是日本科学技术振兴机构(Japan Science and Technology Agency，JST)开发的日语叙词表，原始语言为日语，包含37163个叙词、2635个非叙词，词问的相互关系为20余万对，目前已被翻译成英语，主要应用于JST学术及医疗领域文献检索系统JDreamII的索引和检索。

本文首先介绍多语叙词表构建的研究现状及3种主要的构建方法，详细分析基于翻译构建多语叙词表的方法及该方法的主要问题，然后介绍本研究室在多语叙词表构建方面的工作，包括英语EI叙词表和日语JST叙词表的汉化，最后对下一步的工作进行展望。

2 多语叙词表构建方法研究

2.1 研究现状

国外非常重视多语叙词表的构建，以构建和应用多语叙词表为目标的项目和研究工作不断涌现。由CENL(欧洲国家图书馆馆长联席会)资助的“MACS项目”将法语的RAMEAU、英语的LCSH和德语的SWD进行映射，实现利用现有的标引工具进行多语图书目录获取的功能[1]；分布式剪报数字图书馆项目专门设计并构建了覆盖大多数新闻领域主题的叙词表——LAURIN，涉及英、法、德、意等7个语种[2]。A.C.Liang等[3]采用映射的方法将英文的AGROVOC和中文农业叙词表进行集成。J.Ramíre[4]等人则以英语为中间语言，利用维基百科和Wordnet，建立英、日、西班牙语多语叙词表。

国内在多语叙词表构建的研究方面相对滞后。常春[5]介绍了将英语农业叙词表AGROVOC翻译为汉语的基本原则及多语叙词表的维护实例。东北大学的Zhao Liang[6]等利用机器翻译软件包Google Translation API获取英文MeSH的中文翻译。香港中文大学的C.C.Yang教授的研究团队分别研究利用Hopfield神经网络[7]和联想约束网络(associative constraint network)[8]基于英汉平行语料库自动构建双语主题词表。曾文等[9]探讨了多语叙词表自动构建的方法和相关技术。

2.2 常用的多语叙词表构建方法

2009年IFLA出版的多语言叙词表指南[10]中将多语种叙词表的构建方法分为3类：

2.2.1 从头开始构建一个新的多语叙词表HEREIN叙词表构建初期就是采用此方法：从英、法、西班牙语3个语种的文化遗产政策报告中提取词汇表，比较不同语种的词汇表、确定词汇间的相互关系，建立起英、法、西班牙语3个语种的叙词表[11]。此种方法费时费力，因此通过先由计算机自动构建、再由领域专家进行校正的方式构建一个全新的多语叙词表的方法更符合实际需求。

2.2.2 合并现有的叙词表包括将两个或多个现有叙词表合并成一个新的叙词表或者将不同叙词表进行映射两种。GEMET叙词表以8个现有的单语或者多语叙词表为基础，从概念和形式两个层面对它们进行合并[12]。Merimee叙词表将法语的建筑叙词表与AAT及英国遗产叙词表进行映射，构建出英、法双语叙词表[13]。这种方法可以最大限度地利用现有的主题词表，因此相关研究较多[1，3]，但是也存在不同语种概念定义不一致、语义关系矛盾冲突等问题。

2.2.3 将现有叙词表翻译成一种或多种其他语种目前实用的多语叙词表大多采用此方法构建，例如欧盟叙词表EuroVoc、农业多语言叙词表AGROVOC、美国国家医学图书馆标题表MeSH等。下面将对此方法进行详细介绍。

3 基于翻译构建多语叙词表

3.1 基于翻译构建多语叙词表的方法

基于翻译构建多语叙词表的方法通过构建辅助翻译平台，借助外部资源和翻译人员自身的知识，按照既定的翻译原则，由翻译人员进行翻译，再由审校人员进行审核，从而完成叙词表翻译。下面对叙词表翻译过程中的四大要素进行详细说明。

3.1.1 翻译原则叙词表翻译过程中需要遵循两个基本原则：基于概念翻译的原则和基于概念间关系翻译的原则。具体来说，是指源语言词汇所表达的概念和翻译后的目标语词汇所表达的概念在内涵上应保持一致。同时目标语言词汇所表述的概念间的相互关系也应该和它们对应的源语言词汇所表述的概念间的相互关系是一致的。除此之外，还可根据实际需求增加其他翻译原则，如“汉语叙词统一原则”、“尽量选用使用频率高的自然语言原则”、“使用概念范畴大的词汇原则”等翻译原则[5]；多语叙词表ELSST的构建则遵循了“只翻译叙词”、“参考外部叙词表的词汇”等原则[14]。

3.1.2 叙词表翻译人员叙词表翻译过程需要有翻译人员和审校人员的参与。叙词表中的词汇为专业术语，对翻译人员的专业知识要求较高，有学者提出在选取叙词表翻译人员时应该从翻译人员的专业知识和英语水平两个角度考虑，但是无论从哪个角度考虑，都需要翻译人员掌握基本的领域知识[15]。同样，审校人员也必须对叙词表涉及的领域有深入的了解。翻译人员和审校人员还须对叙词表的概念、概念关系等有一定的认识，明确叙词翻译和普通术语翻译的不同。

3.1.3 辅助翻译平台为了方便翻译人员和审校人员开展工作，叙词表翻译过程中一般需要借助辅助翻译平台。例如，为了方便对MeSH的翻译，NLM开发了MeSH翻译维护系统MTMS，实现对翻译结果的持续更新[16]。通过MTMS，翻译人员可以将英语的MeSH术语翻译成其他语种，或者插入一个新的概念。在插入新概念时，需提交新概念的英语定义，以方便理解和翻译为其他语种。

3.1.4 翻译资源叙词表翻译过程中除了可以借助翻译词典、机器翻译系统[8]等翻译工具，还可以利用多语语料库、网络资源等，通过词对齐、翻译词对抽取等方法抽取叙词的翻译结果。如L.Deléger等[17]利用词对齐方法从平行语料库中抽取英文MeSH的法语翻译。Lu Wenhsiang等[18]利用网页的锚文本提取英文MeSH的中文翻译及以英文MeSH叙词为搜索词，搜索中文网页并从中提取中文翻译两种方式构建中英双语MeSH。

3.2 叙词表翻译过程中的问题

叙词表的翻译不同于传统的文本翻译，强调保持不同语种间概念及概念间的关系的一致性，但是由于不同语种间文化的差异，要做到完全的一致几乎是不可能的。

首先，对于某个概念，目标语言中表达概念的词汇可能有多个。例如英语中表达概念“雪”的词汇只有“snow”一个，而爱斯基摩语和冰岛语中分别有40个和15个不同的词对应概念“雪”，这就需要一定的策略在众多的词汇中挑选出与“snow”的内涵最贴切的词汇。

其次，目标语言中没有任何词汇能准确表述源语言词汇的概念，导致翻译结果产生概念上的偏差。目标语词汇表述的概念可能比源语言词汇表述的概念更广或更窄，或者目标语词汇和源语言词汇的内涵有所区别，例如英语“intellectual”的中文虽然可翻译为“知识分子”，但两者涵义存在很大差别。

最后，目标语种中不存在源语言词汇表述的概念。例如，日语“雪水学”在中文中就无对应的概念。借用外来词汇或者创造一个新词的方式虽然能够保证多语叙词表的一致性，但是得到的目标词汇在目标语的概念体系中的使用价值却值得商榷。

解决概念翻译过程中的不一致问题，可以通过对翻译结果添加标注项的方式来实现。但是很多情况下添加标注项并不能解决问题，需要翻译人员和叙词表构建人员进行协商，通过修订源语言叙词或叙词间的关系来保持源语言和目标语言叙词的一致[7]。

3.3 叙词表翻译结果的评价问题

叙词表翻译结果有两种应用方式：一是用于帮助以目标语为母语的使用者更好地理解源语言叙词的意义；另一种是利用源语言叙词表和翻译得到的目标语叙词对不同语种的文档进行标引和检索。因此，依据应用场景的不同，对叙词表的翻译结果，有以下两种评价方式：

3.3.1 从翻译角度评价对多语叙词表进行翻译，可以简单视为将源语言叙词转换为目标语言叙词，因此可以从叙词翻译的角度评价翻译结果的准确度。与普通词汇翻译工作不同的是，虽然从形式上看，叙词只是单个的词汇或短语，但是由于将其置于叙词表的层次结构中，相当于限定了叙词的“上下文环境”，因此在对翻译结果进行准确度评价时，不仅需要从词的翻译准确度角度，更需要从整个叙词表“上下文环境”的角度进行评价。具体来说，从翻译角度评价，可以简单地利用翻译结果的准确率，即以正确翻译的叙词的个数与全部叙词个数的百分比作为评价标准。

3.3.2 从多语叙词表应用的角度评价将通过翻译构建的多语叙词表应用于多语言信息组织和检索中，除了要保证目标语言叙词与源语言叙词在语义上一致，还需要保证目标语言叙词间的相互关系和它们对应的源语言叙词间的相互关系是一致的。这对叙词表的翻译提出了更高的要求。从多语叙词表应用的角度评价，主要考虑用户在信息组织和信息检索过程中使用多语叙词表的满意度，可以通过座谈会、调查问卷等方式在翻译前确定用户的需求，并通过将多语叙词表应用于真实的信息组织和信息检索场景中发现叙词表构建和翻译过程中的问题，逐步对其进行修正，提高用户的满意度。

4 叙词表的汉代实践

为了高质量地完成EI叙词表和JST叙词表的汉化任务，本研究室组织了技术人员、汉化人员、领域专家等参与到汉化工作中，采用机器辅助翻译和人工翻译校正相结合的方法，借助叙词表辅助汉化平台对叙词表进行汉化。

4.1 叙词表的汉化方法

整个汉化工作分为3个阶段：前期工作主要是技术人员设计和编写相关应用软件；中期工作主要是汉化人员使用前期开发的汉化修编软件进行叙词表全部内容的汉化；后期的主要工作是组织领域专家对汉化结果进行校正。

具体来说，叙词表汉化主要包括3个步骤，流程见图1。

图1 汉化流程

4.1.1 词典匹配叙词表汉化的基本工具是专业领域翻译词典。在与词典进行匹配之前，首先要对叙词进行预处理，使其形式和翻译词典中词条的形式一致，包括特殊符号的过滤(比如“*”、“-”)、复数转化成单数等。EI叙词表汉化时，采用3部共有约100万词条的词典进行匹配，其中包括两部工程技术类词典和一部通用词典。匹配后约有62％的描述词和20％的入口词得到中文译项。JST叙词表的汉化过程中，采用一部涉及14个领域、约90万词条的日汉专业词典进行匹配，匹配后约有48％的日语叙词得到中文译项。

4.1.2 机器翻译系统自动翻译考虑到日本JST叙词表的叙词涉及的领域较广、数量较多，为了辅助汉化人员的工作，利用译星汉日机器翻译系统对日语叙词进行翻译。译星汉日机器翻译系统是中软公司开发的基于规则的日汉机器翻译系统，翻译准确率在75％以上[19]。通过该机器翻译系统，约有52％的日语叙词得到汉语翻译结果，但是由于机器翻译系统翻译专业术语的质量无法保证，在具体汉化过程中，机器翻译结果仅供汉化人员参考。

4.1.3 人工汉化人工汉化工作包括两个部分：普通汉化人员的初步汉化及领域专家的专业校正。普通汉化人员的工作主要有两个方面：一是对翻译词典的匹配结果进行精选；二是对词典未给出翻译结果的叙词，通过查询在线词典、搜索引擎、机器翻译系统等多种方式确定叙词的译项。领域专家的工作主要是借助自身的专业知识，对初步汉化结果进行修正。汉化人员的工作均借助叙词表辅助汉化平台完成，其详细功能将在4.3节进行介绍。参与本工作的普通汉化人员包括相关领域的硕士生等。领域专家包括理工科高校和科研院所的教师和博士研究生等。

人工汉化过程中借助了多来源的辅助翻译信息，包括专业技术词典、机器翻译系统及网络在线资源。其中专业技术词典和机器翻译系统的辅助翻译结果由辅助汉化平台自动提供给汉化人员。

网络在线资源包括CNKI翻译助手、Google搜索引擎的跨语言搜索工具等。CNKI翻译助手汇集从CNKI系列数据库中挖掘整理出的800余万常用词汇、专业术语、成语、俚语、固定用法、词组等中英文词条以及1500余万例句，不仅提供术语翻译，而且提供依据CNKI文献数据库统计出的各种术语翻译的使用数量[20]。虽然CNKI翻译助手仅提供汉、英词汇的翻译结果，但是由于JST叙词表中大部分日语叙词都有对应的英语翻译，因此也可利用它辅助JST叙词表的翻译。Google跨语言搜索工具可搜索到与术语有关的平行语料，有助于确定难度较大的叙词翻译。

4.2 汉语词汇的选取原则

在选取源语言叙词的汉语翻译结果时，遵循以下3个基本原则：

4.2.1 选择与源语言叙词概念内涵一致的词汇选择汉语词汇时，应尽量保证汉语词汇和源语言叙词表达的概念内涵一致，不存在扩展或缩小的情况。允许通过加注括号说明、罗列多个翻译结果等方式实现汉语词和源语言词的概念一致性。

4.2.2 使用概念范畴大的词汇具有上下位词间关系的词，为了包含更多的下位概念，翻译时应在保证上下位关系的同时尽量使用概念范畴比较大的汉语词汇。

4.2.3 尽量选用使用频率高的自然语言词汇当多个汉语词汇表达的概念含义相同时，应选择其中最常用的词汇作为翻译结果。

在具体的叙词表翻译过程中，对于不同来源的辅助翻译信息，以专业翻译词典的结果为首选，其次为CNKI翻译助手，Google翻译、百度翻译又次之，机器翻译系统的结果仅作参考。通过翻译词典获得叙词的多个译项后，可以借助Google和百度的检索功能，比较各个译项在海量的网络信息中出现的频率，出现频率大的词语选作对应汉语翻译。如果在所有翻译资源中都找不到某个叙词的译项，则采取人工强制翻译的方法，但要对人工强制翻译的结果进行标识。

4.3 叙词表辅助汉化平台

建设叙词表辅助汉化平台的目标是使用尽量少的人力、物力，在较短的时间内完成叙词表的汉化。叙词表辅助汉化平台的主要功能是术语汉化，应在详尽展示叙词表中包含的概念和语义信息的基础上，协助汉化人员利用多来源信息完成汉化工作，同时保证数据的安全性、完整性和汉化结果的可恢复性。具体来说，叙词表辅助汉化平台包含以下功能：

4.3.1 术语汉化功能借助叙词表本身的信息及各种外部资源，为汉化人员提供多来源的辅助汉化信息。辅助汉化信息包括两类：一类是叙词表本身提供的有助于确定叙词准确含义的信息，这部分信息主要通过叙词表展示模块中提示的信息来获取；另一类是各种翻译资源提供的翻译参考信息，包括翻译词典匹配的翻译结果、机器翻译系统的翻译结果等。

4.3.2 叙词表展示功能展示叙词表的叙词、非叙词、它们间相互关系的信息及分类信息等。例如JST叙词表汉化修编软件界面提供了包括叙词、叙词的上位词、下位词、相关词、叙词所属的主题的名称及叙词对应的英文翻译等信息。叙词表展示越详尽生动，越有助于汉化人员确定叙词的准确含义从而给出其精确的汉语译项。

4.3.3 叙词表搜索功能帮助汉化人员快速查询、定位某一指定的叙词，允许用户依照系统的ID号、短语等方式搜索特定的叙词。

4.3.4 翻译恢复功能保证当汉化人员出现错误时，可以将数据恢复到指定时点的状态，从而便于对汉化工作进行控制，保持数据的可恢复性。软件仅允许汉化人员恢复自己的汉化操作，不允许对其他人员的操作进行修改。

同时，汉化修编软件还包括用户管理功能、汉化人员工作量统计功能等基本功能。

由于汉化人员工作的网络环境不同，EI叙词表汉化修编软件利用数据库管理叙词表及翻译结果等信息，多名汉化工作人员可同时在线操作服务器数据库，而JST叙词表汉化修编软件则将叙词表信息存储成文本格式，每名汉化人员无需联网，可直接独立操作各自的文件。图2和图3分别展示了EI和JST叙词表汉化修编软件的用户界面。

图2 EI叙词表辅助汉化平台用户界面

图3 JST叙词表辅助汉化平台用户界面

4.4 汉化结果的评价

4.4.1 评价方法由于本研究室仅受委托进行EI和JST叙词表的翻译工作，不能得到将汉化结果应用于信息组织和信息检索中的效果的反馈信息，因此本研究仅从翻译的角度，利用翻译结果准确率指标对汉化结果进行评价。

在目前进行的EI叙词表汉化结果初步评价中，采用按类别选词验证和随机选词验证相结合的方法，汉化结果的评价人员为此前完全没有介入汉化工作的领域专家。分别选取类别码为400series(bridges and tunnels，桥梁与隧道)、700series(electrical engineering，电器工程)和800series(chemical engineering，化学工程)的术语，描述词和入口词的选词数量不完全一致。

由于时间有限，目前只对JST叙词表汉化结果进行了简单评价，采用随机选词验证的方法，将9名参与汉化工作的普通汉化人员分为3组，分别从每个人的汉化结果中随机抽取一定数量的词条，交由3位领域专家进行评价。

4.4.2 评价结果按照上文所述的评价方法，分别对EI叙词表和JST叙词表的汉化结果进行评价，评价结果如表1和表2所示。

分析评价结果发现，大部分出错术语的译项里都有人工强制翻译的标记，说明在无法参考外部翻译资源、普通汉化人员依据自身知识进行叙词翻译时，翻译结果出现错误的概率非常高。所有汉化结果中出现类似情况的部分都需要领域专家重点校正。还有一类主要错误是虽然普通汉化人员给出的翻译结果并没有错误，但由于受到专业知识不足的限制，汉语词汇不符合特定领域约定俗成的说法，这类问题也需要领域专家的参与才能解决。

5 结语

随着不同文化和语言背景的信息交流需求的增加，支持多语种信息组织和检索的工具也日益重要，多语化是叙词表发展的一个重要趋势。本研究室先后承担了EI和JST叙词表的汉化工作，构建叙词表辅助汉化平台，通过机器辅助翻译和人工翻译校正相结合的方法，借助专业翻译词典、机器翻译系统和多种在线资源，完成了这两个叙词表的汉化。但是目前的叙词表汉化和应用工作还存在一些问题，主要体现在：

(1)中文叙词间关系的确定。目前的汉化工作只是完成了对叙词表的翻译，由于不同语种概念间的差异、翻译人员知识水平的限制等多方面原因，翻译得到的中文叙词间的关系还需要进一步确认。下一步将考虑采取为翻译结果增加注释，适当修改源语言叙词表的结构以使得源语言主题词和目标语主题词间的关系相互对应等多种方法确定中文叙词间关系。

(2)多语叙词表的应用。投入大量人力、物力构建多语叙词表的目标是为了将其应用到多语信息组织和检索中。对于普通用户来说，相比于自然语言，利用叙词表的受控语言标引和检索文档的难度要大很多，因此开发相应的工具，缩小受控的叙词与用户的自然语言间的使用差异是实现叙词表大规模应用的有效方法之一。

标签：英语论文; 翻译专业论文; 百度机器翻译论文; 语言翻译论文;

多语种同义词库构建方法的研究与实践_英语论文

猜你喜欢