论跨语言信息检索_自然语言处理论文

论跨语言信息检索_自然语言处理论文

论跨语言信息检索,本文主要内容关键词为:信息检索论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

全球网络化信息迅速增长,激发了人们对信息检索的急剧增长性需求。然而,面对互联网这个涵盖了多种语言的知识库,人们能理解的信息往往只是冰山一角。更普遍的一种情况是:大多数人通常只在自己的母语里查找相关的信息。即使部分人能够了解多种语言,他们也往往分别在不同的语言集合里查找所要信息。后一种情况对人们的语言水平提出了较高的要求,而这种要求在通常情况下是很难满足的,这就要求有这样一个系统:人们仅仅需要用自己最熟悉的语言进行查询,系统就能返回多种语言的相关结果。跨语言信息检索正好能够满足这方面的要求。

跨语言信息检索(Cross-Language Information Retrieval,简称CLIR),就是用户用某种语言(query language,也称为源语言source language)表示查询,检索其他语言(collection language,也称为目标语言target language)表示的文档集的过程[1]。根据检索要求的不同,跨语言检索的结果可以用文档集语言或查询语言表示。相对应地,传统的查询语言和文档集语言一致的检索称为单语检索(Monolingual IR)。

跨语言信息检索可以看作单语信息检索和机器翻译的基础上发展起来的一种技术,与单语信息检索相比,它主要需要解决如下问题:不同语言间的翻译或转换问题;文档集语言超过一种情况下的不同语言检索结果的合成问题。

从所涉及的文档集语言的数目来看,跨语言信息检索可以分为双语检索(Bilingual IR)和多语检索(Multilingual IR)。双语检索就是在查询语言和文档集语言两种语言之间的检索;而多语检索的检索对象是多种语言的文档集。一方面,多语检索可以通过转化成多个双语检索的方法来实现;另一方面,多语检索也有自己区别于双语检索的问题和技术。

跨语言信息检索的一个重要方面是评测,通过建立统一的查询问题集、多语文档集和标准评价方法来评价不同的跨语言检索技术是国际上一些重要的评测组织或评测会议的主要目标。评测标准的日益规范化,在一定程度上也促进了跨语言信息检索技术的发展。

1 双语检索

如何能够在查询语言和文档集语言这两者之间建立起沟通的桥梁是目前双语信息检索技术研究中最核心和关键的问题。一般来说,架起二者之间桥梁的方法有:基于查询的转换方法、基于文档的转换方法及同时把查询和文档转换成某种中间语言或中间表示的方法。值得注意的是,我们称“转换”而不是“翻译”是因为我们觉得“转换”更贴切,虽然目前在转换中用翻译技术比较多,但是应该说翻译只是转换的一种实现手法,其本质都是将查询和文档映射到同一空间进行比较和匹配。由于文档集一般很大,转换起来非常费时,而查询相对较短,转换效率很高。因此,目前大部分研究采用了基于查询转换的方法。而就基于查询的转换来说,包括基于机读双语词典的方法、基于机器翻译的方法和基于平行或可比语料库的方法。

1.1 基于机读双语词典的方法(Machine Readable Dictionary Method)

这种方法依赖于一部从源语言到目标语言的机读双语词典,它的工作流程是:对源查询语句进行可能的词法分析过程(如对于一些亚洲语言的分词操作、对西方语言的词汇原形还原操作等);对源语言中的每个词,通过机读双语词典找到其相应的译词,通过某种规则形成目标语言表示的查询;然后在目标语言文档集上进行单语检索来返回检索结果。

单纯地看起来,这种词到词(word by word)的转换方案是一个很顺利的流程,但是由于双语对应关系中一词多义和一义多译的存在,使得现实问题没那么简单。目前虽然没有彻底地解决该问题的方法,但研究者探索了一些比较有效的方法,最主要的都是通过引入短语(固定搭配或者出现频率较多的非固定搭配)翻译的概念来减少翻译中的组合。这种方法要借助于另外的短语词典,或直接包含短语的双语词典,在word by word翻译和短语翻译都可以的情况下,优先考虑短语翻译。

使用机读双语词典的另外一个问题是如何构造这样一个双语词典和构造合适的短语词典问题。目前机读双语词典已经比较完善,所以重点是构造短语词典。目前,短语词典的构造只在特定的领域上效果较好,还没有可以通用的一般意义上的短语词典。另外一个问题是有些人名、地名、组织机构名、技术术语以及新出现的一些流行词在双语词典及短语词典中不存在的问题,比如“超女”、“神六”等等。这个问题也称为OOV(Out Of Vocabulary)问题。目前OOV问题引起广大研究人员的兴趣,许多方法被提出。这些方法可以归结成基于规则的方法和基于统计的方法。基于规则的方法的目标就是研究某些类型的OOV问题(如人名)的翻译或转换规律[2]。基于统计的方法通过语料、WEB甚至搜索引擎的结果来得到可能的转换结果[3]。

1.2 基于机器翻译(machine translation)的方法

从原理上讲,跨语言信息检索可以认为是信息检索和机器翻译的某种交叉,所以把机器翻译引入到信息检索是再自然不过的做法了。但是机器翻译用于CLIR存在三个问题:第一是现有的机器翻译技术通常是基于整句翻译的,包括词法、句法分析等复杂的过程,而CLIR中的查询常常是几个甚至单个词,缺乏足够的上下文信息;第二是机器翻译中需要从众多的词中选择一个词,出现了选择词时的困难;第三是当某个词有多个同义或相关翻译时,选择其中一个在目标语言中进行检索,往往一些相关文档被漏查。虽然有一些比较成熟的机器翻译系统可供使用,但是目前全自动机器翻译系统只能在受限的领域才具有较高的翻译质量。

由于机器翻译作为自然语言处理的一个问题本身没有得到很好的解决,加之它用于跨语言检索的特殊问题,所以该方法需要进一步的研究。

1.3 基于平行(Parallel Corpora)和可比语料库(Comparable Corpora)的方法

平行语料库就是两种语言一一对应的文档的集合,也可以说是同一内容的不同语言表现形式。现存的手工构造的平行语料库很少,最著名的是Canadian Hansard语料,是英法的平行语料。

基于平行语料的翻译是一个不错的方法,但是由于手工构造的平行语料库是一个稀缺资源,所以在一定程度上制约了其发展。不过,Jiang Chen等人实现了自动获取英法平行网页的PTMiner方法[4],其现实基础是网络上存在很多同种内容、不同语言的网页,通过一些明显的标记:如英语网页中的French Version连接,和网页中同时出现English Version和French Version的连接,就把其作为平行网页保存起来,PTMiner方法还利用了其它一些信息来获取平行网页。实验证明用自动获取的平行网页效果可以达到单语检索效果的70%左右,但平行网页获取中存在噪音问题的影响。

由于平行语料的不易获得,人们试图用大量存在的可比语料库代替平行语料库。可比语料库不是直接的翻译,可能只是主题相关,因此获取可比语料库需要一定的对齐技术(如句子对齐、主题对齐、窗口对齐等),而识别主题是一个很难的问题,简单的窗口对齐破坏了文档固有的结构,所以采用句子对齐其实是一个比较好的方法。

1.4 翻译查询vs.翻译文档

跨语言信息检索主要集中在对查询的翻译上,因为对于大的集合翻译整个文档(网页)是不切实际的。但是翻译查询会出现以下难以解决的问题[5]:第一,查询语句不一定是完整的句子,往往是一些孤立的词,没有上下文提示信息,增加了精确翻译的难度;第二,由于查询语句的语言一般较短,所以译词选择不好往往对检索结果有很大的影响。

但是就其实验本身来说,由于测试集的有限性,翻译查询和翻译文档都是可行的。

由于查询尤其是短查询只能提供支离破碎的信息,所以在实验中翻译文档的效果要好于翻译查询[6],当然在应用中翻译文档的较大开销是需要考虑的。

1.5 双语检索的其他做法

以上讲的只是把一个源查询语句翻译成一个目标查询语句,然后在文档集上进行检索。另一种做法是通过隐马尔科夫模型找出源查询的最好的N个翻译,然后再对每个翻译在文档集中利用机器学习的方法进行文档查询,通过综合考虑翻译模型和检索模型,找出排序最靠前的N篇文档,来返回查询结果。

对于双语检索还有一种做法,就是既不用翻译查询,也不用翻译文档,直接通过词之间的匹配进行查询,不过这种做法只适用于相近的语言对之间,譬如对于德语和西班牙语之间的双语检索。

2 多语检索

顾名思义,多语检索就是在多种语言构成的目标文档集合上进行的检索。多语言信息检索的发展依赖于以下三个因素[7]:(1)有效的单语检索系统;(2)查询的混合翻译工具;(3)各种策略的有效结合。目前一般有三种做法:第一种做法是把源语言查询翻译成多种目标语言,分别在各种目标语言集合上进行检索,然后把各个语言集合上返回的检索结果进行混合,这种做法称为“separate-retrieval-then-merging”方法;第二种做法是先把查询翻译成某种中间语,然后再通过中间语把其翻译成各种目标语言,以后的做法同第一种方法,我们称之为“中间语”方法;第三种做法把查询翻译为感兴趣的N种语言,形成一个包含着N种语言的查询,利用这个查询同时对文档集进行处理,然后在文档集中按单语检索去查找,我们称之为“类单语言检索”方法。

2.1 “separate-retrieval-then-merging”方法

该方法很清晰地划出了各种语言之间的界限,每种语言的文档分别隶属于不同的文档集,各个翻译后的查询分别在各自的文档集中进行检索。这种方法是目前多语言信息检索中最常用的方法,其一般步骤如下[8]:首先进行源查询翻译,把用源语言表示的查询翻译成感兴趣的所有查询;然后进行文档检索,用源查询和每个翻译得到的查询分别在对应的子文档中进行检索;最后进行结果合成,把不同语言返回的结果用一定的排序策略形成最终的结果列表,返回给用户。

这种方法存在的问题是:每种语言单独处理,然后再合并成最终的结果集,首先增加了合并的步骤,另一个问题是在不同语言上检索的结果很难比较,也就不容易形成比较客观的评价标准来指导结果的合并。

2.2 “中间语”方法

使用这种方法的一个基本考虑就是如果两两翻译N种语言,需要做N(N-1)次翻译,如果借助中间语,只需要2N次翻译,这里中间语可以选一种在一定时期内使用最为广泛的语言,如英语。这样一方面人们可以通过中间语建起两种不常见的语言之间的桥梁,而不需要专门的语言学家,另一方面由于需要翻译的语言对减少了,人们可以集中力量来提高各种语言与中间语之间的翻译效果。这种方法的一般做法同2.1,不同之处是翻译源查询需要两个步骤:把原查询翻译成中间语,然后再把中间语翻译成感兴趣的所有语言。

2.3 “类单语言检索”方法

以上两种方法都是把一个多语言混合的文档集分解成几个单语言子文档集然后再在子文档集上检索、最后进行合并的方法。不过其效果往往低于在整个文档集上的检索,这虽然是单语检索上的结论,但在多语检索上依然成立。

基于上述考虑,Jian-Yun Nie和Fuman Jin[9]尝试把查询翻译为感兴趣的N种语言,然后把N种翻译和源查询一起进行目标查询,最后在整个文档集中按单语检索去做。把多种语言放入同一个文档集出现的第一个问题是:同形字在不同语言中的异义问题,解决方法是在词语后面加上表示语言的后缀。其实验结果表明,通过对目标查询中的各种语言赋予合适的权值,该方法能比传统的“separate-retrieval-then-merging”方法的效果提高10%以上。

不过该种方法的一个缺陷就是由于其要对文档集进行处理,在实验中的测试文档集中尚可,在大规模的实际文档中未必合适。

3 跨语言信息检索的相关优化技术

3.1 查询扩展

查询扩展是在用户输入检索提问后,采取一定策略对用户的检索要求进行扩充,前提是添加的词汇必须是受控且与原检索词相关。通常利用同义词典来进行查询扩展。首先,使用用户的检索式检索出排列好的文档,然后,在前面N篇文档中抽取M个出现频率最多的词进行查询扩展。这里查询扩展中需要注意的两个参数N和M,在实验中需对其进行合理调整。从时间上看,查询扩展可分为翻译前进行、翻译后进行、二者兼有三种方式。从效果来看,翻译前扩展可以有效地提高精确率,翻译后扩展有利于提高查全率,但从跨语言检索本身来看,对精确率的要求相对较高,让一个不理解目标语言的人在返回的结果中进行筛选是一件很费劲的事。

3.2 检索反馈技术(Retrieval Feedback Technique)

在跨语言信息检索中,通过一次检索往往得不到想要的结果(目的文献),这时就需要通过检索结果中反馈的信息对提问式检索方法或翻译方法进行改进。特别是当用户和信息系统进行交互式检索文献时,适当的用户反馈相当重要,大量的实验也表明使用检索反馈技术可以极大地改善CLIR系统[10]。

3.3 关于消除检索词的多义性的研究

无论什么语种,一词多义现象都是普遍存在的。对查询来说,确定查询中检索词的确切含义是查询扩展的基础;对于被检索信息来说,明确信息中出现的检索词的含义,是提高检索准确率、确定信息相关性的关键。可以利用一种词的共现技术(Co-Occurrence Technique)[11]来消除词的多义性,以明确其含义。词的共现技术,就是若两个有一定关联的词共同出现在某一篇文献或者文献的某一个部分,就可以非常容易确定其含义的技术。Jialun Qin[12]等人利用短语和词的共现技术进行消歧,其检索效果比word by word方法提高了74.6%。同时也可以考虑利用词性标注(Part-Of-Speech tagging,简称POS)的方法来解决词的多义问题[13]。

4 跨语言信息检索的评测组织和评测标准

最早提出跨语言信息检索系统的是在1996年的ACM-SIGIR会议上。1997年在美国国家标准技术局(NIST)召开的第六届TREC加入了CLIR评测(http://trec.nist.gov),此后CLIR逐渐从实验室环境走上了日益标准化、正规化的道路。

4.1 跨语言信息检索的评测组织

TREC(Text Retrieval Conference)在1997年加入了CLIR的评测。TREC一开始主要集中在西方语言之间的跨语言检索,后来也增加了中文、阿拉伯文与英文之间的跨语言检索评测项目。近几年TREC中取消了CLIR任务,具体评测已经交由NTCIR(NⅡ-NACSIS Test Collection for IR Systems)举办。NTCIR是由日本国立信息研究所(National Institute of Informatics)主办的信息检索测试集评测会议。它主要构建亚洲语言和英语有关的测试文档集以及对相关的检索系统做出评测。测试项目包括单语及跨语检索、单语和跨语言问答,WEB检索等等。其中跨语言检索所涉及到的语言主要包括中文和英文、日文和韩文。另一个比较有影响的评测组织是欧洲跨语言评测论坛CLEF(Cross Language Evaluation Forum,http://www.clef-campaign.org/),它是欧洲委员会资助的数字图书馆研究中的一部分内容。该评测论坛为欧洲语言的单语和跨语言检索的测试、评估提供服务,同时为测试和评估提供可重用的多语数据集。从2000年开始举办到目前为止已经举办了6次会议,其测试项目包括欧洲语言的单语检索、跨语言与多语言检索、受限领域检索以及交互检索,涉及的欧洲语种有10多种。

4.2 跨语言信息检索的评测标准

标准的评测需要考虑的因素[14]:不同的语言对之间如何评测,评测组织为不同文档建立一个文档池;合理的问题集,问题集中的问题既不能太易也不能太难,还要考虑长查询和短查询的比例问题;相关与否的评价标准,这需要专业人员的协助。就非正式的评测来说,有两个相对的比较标准[1][12],一是跟单语检索(最好的效果)相比,能达到单语检索效果的多少;二是跟最基准的word by word翻译方法(最差的效果)相比提高的比率。

标签:;  ;  ;  ;  ;  ;  

论跨语言信息检索_自然语言处理论文
下载Doc文档

猜你喜欢