跨语言信息检索中的查询翻译方法研究_自然语言处理论文

跨语言信息检索中的查询翻译方法研究,本文主要内容关键词为:信息检索论文,语言论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 前言

跨语言信息检索是指利用一种语言(源语言)从由另一种或多种语言(目标语言)所表示的文档集合中检索相关信息的技术。由于信息检索技术相对较为成熟,人们自然就想到把跨语言信息检索分解为翻译和检索两个过程,将现有信息检索技术和机器翻译技术的研究成果结合起来解决这一问题。因此翻译也就成为跨语言信息检索中至关重要的环节之一。

依据翻译方向的不同,跨语言信息检索可以分为:查询式翻译,即把查询式翻译为文档所用语言;文档翻译,即把文档翻译为查询式的语言;中间语翻译,即通过某种中间语言将查询语言和文档语言建立翻译关系。由于查询翻译方法能够在线快速执行,而且可容易和现有的信息检索系统结合使用,所以它目前是跨语言信息检索中的主流方法。

2 跨语言信息检索中查询翻译方法的分类

依据查询翻译过程中所利用的资源的不同,现有的查询翻译策略可分为以下四类:基于机器翻译系统的查询翻译方法,基于知识(包括字典、多语主题词表、多语本体、维基百科全书等)的查询翻译方法,基于语料库的查询翻译方法及上述方法的混合使用。

2.1 基于机器翻译的查询翻译方法

利用机器翻译系统进行查询翻译的优势就在于可以利用机器翻译系统的词法、句法、语义分析得到更为准确的翻译结果。但是将机器翻译系统应用在查询翻译中并没有取得很好的效果[1],其主要原因包括:(1)机器翻译系统的翻译质量不高;(2)查询式长度通常很短,甚至只是一个词从而影响了机器翻译的效果[2];(3)多数商用的机器翻译系统只返回一个最优翻译结果,不提供可供选择的翻译列表。但随着机器翻译技术的发展,很多学者选择使用机器翻译系统进行查询翻译,如在第五届NTCIR会议上,几乎所有的双语和多语跨语言信息检索的参与者都利用机器翻译系统或者是机读字典作为翻译资源[3]。

2.2 基于知识的查询翻译方法

此种方法主要利用人类专家总结的知识,例如机读字典、本体、主题词表、百科全书等完成对查询式的翻译。

2.2.1 基于机读字典的查询翻译

基于字典的查询翻译方法是最常用的查询翻译方法之一,是指从机读双语字典中抽取查询式中每个词或者词组的合适的翻译进行替换的方法。常用的从字典中选择词语的方法主要有:全部选择、选择前n个或是选择最合适的n个。对于通过统计方法产生的概率词典,还可以通过概率信息选择翻译词语,比如通过设置阙值,选择概率和小于阙值的翻译词集合作为翻译。

此种方法的主要问题包括:字典的覆盖度问题、曲折语的处理、词组的识别和翻译、歧义问题[4]。其中歧义问题是基于此种方法所面临的最大问题,因为字典中给出的词通常都是有多个词义的,而查询式通常又提供很少的语境,所以要选择一个符合用户信息需求的词义是非常困难的。

2.2.2 基于多语主题词表、本体的查询翻译

最早应用在查询翻译中的方法就是基于多语主题词表的方法。1969年Salton等人[5]就利用人工构建的英德双语概念列表进行了首次跨语言信息检索实验,拉开了跨语言信息检索研究的序幕。主题词表大都是面向某个特定领域的,所以其在针对特定领域的跨语言信息检索中应用较多。例如,Eichmann[6]等人就使用了医学领域的UMLS中的超级主题词表进行西班牙语、法语到英语的跨语言检索,其中西班牙语英语的跨语言检索的平均查准率为单语言检索的71%。

本体中包含比主题词表更详细的概念定义,更广泛的关系描述以及公理实例等,更好的反映出独立于语言的更为本质的东西,利用他们可以对查询式进行语义层次的理解,精确翻译结果,从而获得更优的检索结果[7]。现有的多语本体主要有包含荷兰语、英语、意大利语、西班牙语等多种欧洲语言的Euro Wordnet,英汉双语的Hownet,英俄双语本体Russian Wordnet等,它们都是参照美国普林斯顿大学创建的Word Net构建的。这些多语本体都是进行查询翻译的很好的资源。

但是,构建一个包含精确语义关系的资源是需要耗费大量人力物力的,而且现在可用的主题词表、本体资源大都是面向某一特定的领域,不具有通用性,因此领域不匹配时会导致检索效果的下降。

2.3 基于语料库的查询翻译方法

由于基于知识的方法都需要投入大量的人力进行翻译工具的构建,人们就开始研究从语料库中直接提取词的用法的统计信息,进行查询翻译。根据所使用的语料库的不同,此种方法可以分为基于平行语料库的方法和基于可比语料库的方法。

平行语料库依据对齐程度又可分为篇章对齐、段落对齐、句子对齐和词对齐,一般来说对齐的粒度越小,对齐的精度越高,查询翻译效果越好。平行语料库在查询翻译中的主要应用在构建双语对照词典,主要包括两步:首先计算词共现矩阵,矩阵的每个元素是对齐单元中源语言词和目标语言词共现的次数。然后利用这个词频矩阵计算一种语言的词语出现时另一种语言的词出现的条件概率,从而就建立起翻译词典,在使用时通过阙值的设置来提取翻译对[8]。

但是基于平行语料库的方法在语料库的获取和对齐都比较困难,于是学者们就提出利用可比语料库进行翻译信息的提取。使用可比语料库最著名的方法就是相似性叙词表。有学者[9]利用一个瑞典语新闻语料库和英语新闻语料库,构建双语可比语料库,从中提取出双语的相似性主题词表信息并且用于查询翻译中。实验结果显示此种方法所获得的检索性能是单语言信息检索性能的一半左右。

随着互联网技术的发展,学者们开始试图从Internet这个多语资源中构建语料库,统计翻译信息。Resnik[10]是第一个认识到可以利用互联网构建平行语料库。他指出可以利用语言标记或者是其他的特征,识别网页的各种不同语言版本,从而构建平行语料库。Wessel Kraaij等人[11]对Resnik的方法进行了改进,通过URL模式匹配,文件长度,HTML结构,语言和字符集等信息对Web网页进行过滤,最终生成句对齐的平行语料库。利用生成的平行语料库和不同的统计翻译模型进行查询翻译,得到平均查准率在单语言的74.1%-93.7%之间。另外Web资源还可以用来进行未登录词的翻译[12]、音译[13]等等。Internet语种的多样性,信息的丰富性为基于语料库的查询翻译方法的发展提供了广阔的空间。

2.4 混合方法

这种方法是综合利用上面各种资源的优点以求取得更佳检索。此种方法中应用最广泛的资源组合是将双语字典和一些单语资源,例如单语本体Word Net[14]、单语语料库[15]等结合,利用字典进行翻译知识的抽取,利用单语资源进行翻译消歧。Wessel Kraaij[16]比较了三种翻译资源:机读字典、从平行语料库中抽取的统计字典及机器翻译系统在跨语言信息检索中的效果。文章中指出利用这三种资源所得的检索结果均能够达到单语言检索的90%,但是当把三种资源结合使用,所取得的检索结果是单语检索的98%。三种资源混合使用取得了最好的检索效果。

3 查询翻译过程中所涉及的基本问题

跨语言信息检索查询翻译可以分解为三个要素:查询式,包括源语言和目标语言,源语言到目标语言的转换过程以及在此转换过程中所使用的翻译资源(见下图1)。依据这三个要素,查询翻译过程中所遇到的基本问题也分为三个方面。

3.1 查询式的词法分析

世界上的语言有近3000多种,每种语言都有其自身的特点,可根据其特点对查询式进行预处理。例如,像英语、法语等西语,可以对其进行词法分析,实现词根还原。Krovetz等通过设计词根还原器,充分利用各种词法信息,实现了词义消歧(准确率达到80-96%),提高了跨语言检索的效果[17]。但是词法分析需要进行到何种程度才能最大程度提高检索效果呢?Larkey等人[18]研究了词法分析的深度对跨语言信息检索的效果的影响,回答了上述问题:对于词法分析来说,重要的不是得出正确的词干或是词根,而是能够最大限度地把所有不同的形式相关词联系起来。

对于汉语、日语等没有明晰分隔符的语言来说,要对查询式进行翻译就必须要确定翻译单位,或者说是与翻译资源匹配的单位。Lixin Shi等人[19]分别以一元、二元和词为单位对查询式进行翻译,实验结果表明n-元为单位进行翻译和以词为单位进行翻译时获得的检索效果差别不大。但是目前来说,在查询翻译过程中最常使用的翻译单位还是词,分词的效果对查询翻译有很大的影响。

3.2 查询式翻译时歧义问题

跨语言信息检索涉及到两种语言之间的相互转换,在此过程中主要会出现的问题是歧义问题。在自然语言中一词多义和一义多词的现象是很普遍的。对于机器来说,要理解词义是很困难的,尤其是理解只包含少量语境信息的查询式中词语的意思。

跨语言信息检索中的歧义来自源语言和目标语言两个方面,在处理上的难度很大。现有的主要消歧方法包括:(1)词性标注技术;(2)短语、习惯用语的识别和翻译;(3)词法分析;(4)词的共现统计技术;(5)相关反馈技术。

在自然语言中,很多词都属于兼类词,即一个词有多种词性。在对查询进行翻译时如果能够利用上下文信息确定词的词性,并且在选择目标语言词汇时只选择词性相同的词,就可以获得一定的消歧效果。Davis[20]尝试利用词性进行消歧,相对于全选策略的平均准确率(0.1422),利用词性消歧的平均查准率(0.1949)提高了37%,达到了单语言信息检索平均查准率(0.2895)的67.3%。

在自然语言中很多短语、习惯用语等通常都有固定的语义,其意义很多都不等于其中词的语义的简单组合。因此当把其按照单个词进行翻译时失掉其本来的语义信息。JIANFENG GAO[21]等设计了三个统计模型:共现模型(Co-occurrence Model),名词短语翻译模型(Noun phrase Translation Model),依存翻译模型(Dependency Translation Model),其中后两种模型分别可以识别名词短语和依存三元组(dependency triples),例如动宾短语(verbobject),所有的三种方法都能起到很好的翻译消歧效果。

跨语言信息检索中的词的共现技术可以理解为提问式的各个词的合适的翻译更倾向于出现在同一篇译文中,而不合适的翻译很少出现在同一篇译文中[22]。该方法只需要使用目标语言的单语语料库就能够进行消歧,但是也存在两个问题,即首先如果查询式只包含单个词汇或是毫不相关的词汇,就无法提取词的共现信息,其次是仅利用目标语言语料库进行共现统计可能会获得错误的翻译组合,因为源语言中不相关的词的译文也可能同时出现在目标语料库中。

查询翻译中的一个难题就是用户查询表达式通常都比较简短,缺少充足的语境信息对其进行准确的翻译,相关反馈技术一定程度上解决了这个问题。相关反馈技术在跨语言信息检索中主要的应用是查询扩展,包括翻译前查询扩展,翻译后查询扩展以及两者的结合。但是三者哪个效果更好,不同的学者有不同的结论[23]。产生这种结论上的差异性的原因是多种多样的,包括查询扩展时所利用的资源,采用的查询扩展方法、检索系统等,因此如何排除其他因素的影响,明确查询扩展在跨语言信息检索中所起的作用也是一个亟待解决的问题。同时自从2001年起,交互式跨语言评价论坛(iCLEF)开始对交互式跨语言信息检索系统的设计进行了讨论,出现了一批面向用户的、交互性强的跨语言信息检索实验系统,如美国马里兰大学的MIRACLE,西班牙的UNED系统,荷兰Twente 大学的Twenty-One系统,英国Sheffield大学的Clarity系统等,用户开始在跨语言信息检索中扮演重要的角色。

3.3 翻译工具存在的问题

在查询翻译过程中经常使用的翻译资源包括机读字典、主题词表、本体、语料库等。这些翻译资源对于查询翻译的影响包括翻译资源的获取问题,覆盖度问题,准确度问题等。

(1)资源的获取

机读字典的可获取度最高,有很多免费的机读字典可供使用,这也是基于字典的查询翻译方法应用的如此广泛的原因之一。对于多语主题词表、本体、语料库等资源,虽然也有很多免费的资源可以利用,但是构建这些资源是很耗费时间和人力的,并且都具有领域性。Web作为一个海量的多语言资源,其在查询翻译中有很大的应用前景。

(2)资源的覆盖度

Jinxi Xu等人研究了字典的词条数目对检索效果的影响,发现平均查准率随着字典词条数目的增加而增加,但是当英语里常用的20000个词语都包含在字典里的情况下,增加词条数目对平均查准率的影响就不大了[24]。Demner-Fushman和Oard进一步证明了这个观点,指出词条数目小于3000条的词典对跨语言检索的词的翻译没有很大用处,并且指出了9种使用字典可能无法得到其翻译的词,其中命名实体所占的比重最大[25]。但是不同的领域各种词所起的作用应该是不同的,在检索一些科学文献时专门术语所起的作用就比较大,而在检索新闻等文章时,命名实体的作用可能就比较大。因此,在选取翻译词典或者是抽取翻译对时可以针对检索对象的不同特点,着重保证某类词汇的翻译准确度。上述两项试验结果也说明在利用字典进行查询翻译时无需一味的扩大词条的数目,只要保证字典包含所有常用词汇就能够对绝大多数用户的查询进行翻译。

字典中没有包含的词我们称之为未登录词(Out-of-vocabulary),包括一些新词、人名、地名、专业术语等,需要借助其他资源或方法进行处理。如,对于字典中不包含的新词,除了可以采用定期更新词典的方法解决,我们可以将其直接写入目标语言查询式中。对于一些人名、地名等,除了采用和新词相同的处理方法之外,也可对其进行音译。而对于一些专业词汇,通常都是将通用字典和领域字典相结合使用,获得最终翻译结果。这种方法多应用于某些特定领域的跨语言检索,并且对基于本体的跨语言信息检索也有一定的借鉴作用。现在比较常用的通用本体有Euro Word Net等,而像UMLS(Unified Medical Language System)等则是某个专业领域的本体,将两者结合进行查询翻译,能够取得更好的效果[26]。

(3)资源的准确度

资源的准确度对翻译结果存在很大影响,这是毋庸置疑的。上面我们已经说明了平行语料库的对齐程度对于查询翻译结果的影响。对于本体、主题词表这种总结了人类知识的资源来说,其准确度体现在其更新上。必须保证查询翻译中所用的资源能够及时更新,反映科学技术的发展状况,才能提供给用户正确的检索结果。

4 查询翻译的未来发展方向

(1)多种查询翻译方法的结合:辞典提供较广(一般)、较浅的覆盖度,而语料库提供较窄(领域相关)、较深(实时反应现在用语)的覆盖度[27],本体、主题词表则提供了丰富的概念层次和语义关系,如能将多种查询翻译策略相结合,充分利用各层次知识,可以提高查询翻译的效果。

(2)语义层次进行查询式翻译:现在比较流行的、相对成熟的查询翻译方法(如基于字典的翻译方法)总体来说还是字符级的匹配,只有从语义层次上理解查询式,才能获得更优的查询翻译结果,因此越来越多的学者开始使用本体这样包含语义信息的资源进行查询翻译。

(3)语种的多样性:现在跨语言信息检索主要集中在双语言信息检索,尤其是英语和另外一种语言的检索。尽管互联网上英语仍然是最大的语种,但是汉语、西班牙语等的比例也很大,实现这些语种之间的跨语言信息检索的意义也是非常重大的。

标签:;  ;  ;  ;  ;  ;  ;  ;  

跨语言信息检索中的查询翻译方法研究_自然语言处理论文
下载Doc文档

猜你喜欢