数字时代情报学发展前景(书面语)--跨语言检索技术的策略与方法_自然语言处理论文

数字时代情报学发展前景(书面语)--跨语言检索技术的策略与方法_自然语言处理论文

数字时代情报学发展展望(笔谈)——跨语言检索技术:策略与方法,本文主要内容关键词为:情报学论文,笔谈论文,策略论文,语言论文,数字论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着经济全球化、网络化的发展,跨语言检索(简称CLIR)已成为全球知识存取和共享的一个关键因素。国外情报学领域已将CLIR视为研究热点之一,近年来举行了很多有关该主题的专题会议。TREC(文本检索会议)1997年起也将其纳入评价项目中。国内的研究相对较少,且主要集中在汉语外语(主要是英语)机器翻译系统的研究开发方面。

一、跨语言检索的涵义和作用

CLIR是这样一类技术,它允许用户以他们熟悉的语言构造检索提问式,然后使用该提问式检索以系统支持的任一种语言写成的文献。它可用于回溯检索、定题服务系统以及自适应过滤系统中。跨语言检索对于能够阅读多种语言的用户,特别是不能有效地用非母语表达其信息需求的用户,具有十分重要的价值。对于只能阅读一种语言的用户,CLIR系统也可能很有用。有的CLIR系统能够对检索出的文献进行翻译。虽然系统显示给用户的结果可能只是一种粗略的翻译,但也足以向用户提供文章的要点以及帮助用户作出相关性判断。此外,即使CLIR系统不对文献进行翻译,用户也可能通过使用该系统找到若干篇参考文献中包含了以该用户的母语写成的文章的论文,这无疑会为该用户提供很有价值的线索。总之,最重要的是CLIR系统能够检索出多种语言的相关文献资源,以及能够指导用户作出收集与否的判断。

但是,基于受控词表的CLIR系统存在以下缺陷:(1)必须使用受控词标引文献,通常由人工完成,成本很高,从而限制了系统的规模;(2)受控词表更新速度较慢,往往不能及时反映新出现的主题和术语;(3)非专家用户往往不熟悉多语种叙词表的用法(此缺陷部分是由早期的用户界面友好性差造成的。解决的办法之一是将叙词表导航功能嵌入检索引擎中,MIT的Richard Marcus对这种方法进行了研究)。这些问题激励着有关研究人员研究开发其它的CLIR方法。

二、现代CLIR系统模型和匹配策略

与其他检索系统类似,一个CLIR系统中,文献以字符编码文本、印刷页或录音等多种形式存在,而且每种形式又有若干种表示方式。文献预处理的目标之一是针对每种语言的文献,将其各种可能的表示简化为一种一致的字符编码文本表示。为此,需要事先识别出一篇文献的语种。一篇文献的形式、语种以及编码方案确定之后,接下来需要识别文献的标引特征,对文献进行手工标引或自动标引。

为了与所用检索系统的理解能力相匹配,用户在构造提问式时必须调整其需求信息。检索系统常通过提供提问专指性工具和提问式求精技术(如相关反馈)来支持这一过程。除构造提问式之外,选择、检查和传递也属于系统用户界面模块需要考虑和具备的功能。Moustafa A.Youssef为CLIR系统用户界面设计提出了一些有益的建议。

匹配模块负责将提问式(即用户需求表示)与标引信息(即文献表示)进行匹配,以识别出那些最有可能满足用户需求的文献。它是CLIR系统的核心部分。在匹配过程中,跨越语言障碍的策略主要有四种,即:同源匹配、提问式翻译、文献翻译和语间转换技术。

1.同源匹配策略。同源匹配根据两种语言的语词拼写形式或读音相似度来判断其中一种语言语词的意义,不进行任何翻译。例如,康奈尔大学的Buckley等人开发了一个英语/法语匹配程序,它将英语单词视为可能拼错的法语单词,以此来实现英语提问式与法语文献的匹配。同源匹配可以单独使用,而多数情况下是与其它策略结合使用。

2.提问式翻译策略。提问式翻译将用户输入的提问词翻译为系统支持的每种语言,然后将多种语言的提问式提交给匹配模块。它是目前最为常用的策略。其优点是能够在线快速执行,主要缺点是提问式通常很短,语境信息很少,难以消除歧义。每个提问词被其所有可能的译法所替代,翻译模糊性问题严重,故控制翻译的模糊性是设计有效的提问式翻译技术的一个关键问题。一种办法是只翻译短语,因为短语翻译通常表现出较少的模糊性。研究表明,短语识别策略能够大幅度提高检索效率。微软研究院的Jianfeng Gao等人介绍了一种使用统计模型识别名词性短语以提高提问式翻译质量的方法。另一种办法是,通过用户的介入(利用交互式用户界面)也可以有效地控制翻译的模糊性。Davis和Ogden开发的QUILT系统能够将英语提问词的西班牙语翻译显示给用户,具有西班牙语知识的用户可以对翻译进行识别和判断。Mark Davis开发了一个交互式搜索引擎ARCTORS,通过选择性用户界面,用户可选择将英语、法语、德语或意大利语的提问词翻译为系统支持的其它语言,然后对候选翻译进行选择,修改提问式并发送给某个特定语言的检索模块。Yamabana等人提出了一种更为复杂的方法,将每个提问词的候选翻译连同每个候选翻译到提问式语言的回翻都显示给用户,这样,即使是不能阅读候选翻译的用户也能够迅速浏览回翻结果,并选择出合适的候选翻译。

3.文献翻译策略。文献翻译(与提问式翻译相对立)将所有的文献或文献表示转换为系统支持的语言。其主要优点是:(1)由于具有完整的文献语境,故可以提高翻译质量;(2)可以离线执行。缺点是速度很慢,且需要将文献库中的文献翻译为系统支持的每一种语言,这使得文献库的规模不可能很大。相对于提问式翻译策略,采用文献翻译策略的CLIR系统要少得多。“欧共体远程通信和信息处理技术”(EU Telematics)计划下的Twenty-One项目组开发的Twenty-One系统使用的主要跨语言方法就采用了文献翻译策略,并以提问式翻译作为辅助。

4.语间转换技术。语间转换是将提问式和文献都翻译为同一种独立于原语言的表示方式。其典型代表是基于多语种词表的CLIR技术。它将文献和提问式都翻译为受控词表中的语词。MNIS-Text Wise实验室的“概念中间语文献检索”(Conceptual Interlingua Document Retrieval)项目小组开发的CINDOR系统使用了较为独特的语间转换技术来实现CLIR。该系统以WordNet的同义词群“synsets”为基础,通过将几种语言的同义词都链接到表示对应概念的“synset号”上,建立了一个名为“概念中间语”的概念表示知识库。这样,系统就可以将文献标引词和提问词都转换为“synset号”,从而跨越了语言障碍。全自动语间转换技术(例如潜语义标引和广义向量空间模型)也在研究探索中。

三、面向自由文本的CLIR

进入90年代,研究人员开始研究面向自由文本的CLIR技术。与基于受控词表的CLIR不同,它直接使用出现在文献中的词。Landauer和Littman最早研究了基于自由文本的CLIR,并利用一种扩展了的自动技术来降低词汇差异对检索效果的影响。Radwan和Fluhr在1991年提出一种使用了人工编码的翻译知识,通过提问式翻译策略实现CLIR的技术。尽管此后又取得了很多进展,但上述两项研究所确定的两种主要方法——基于语料库的方法和基于知识的方法,仍然占主导地位。

基于知识的方法所使用的翻译知识来自人工编码的翻译知识,而基于语料库的方法使用的是来自语料库的翻译知识,这两种方法并不是相互排斥的。目前,面向自由文本的CLIR研究的趋势是综合使用两种方式,以实现检索效率最大化。Twenty-One系统就是一个综合利用了多种翻译知识的系统,它能够支持荷兰语、法语、英语和德语,在基于词典进行提问式翻译的同时,使用了基于语料库的歧义消解方法。

按照所使用的翻译知识源,基于知识的CLIR方法可分为基于普通机读词典的方法、基于机器翻译词典的方法以及基于本体的方法。

1.基于普通机读词典的方法。机读词典特别是机读双语种词典是目前最常用的跨语言翻译知识源,被广泛用于支持提问式翻译策略。基于词典的CLIR的基本思想是通过查阅词典,将提问式中的每个词翻译为合适的目标语言词汇。有两个因素限制着这种方法的性能:(1)很多词并不是只有一种翻译,不同的翻译通常具有不同的意义。例如,日本信息和通信系统实验室开发的一个基于日语/英语双语词典的搜索引擎TITAN,目前遇到的最大困扰就是一词多译或翻译的模糊性问题。有的系统将基于词典的方法与其它方法结合起来使用,在一定程度上实现了对翻译模糊性的有效控制。(2)词典的范围是有限的,可能缺乏正确解释提问式所必须的一些词,尤其是缺乏技术或研究方面的术语。随着专为提问式翻译设计的词典的开发,第二个因素对基于词典的CLIR的负面影响有可能降低,但是不可能完全消除,这是因为语言的使用是一项创造性的活动,词汇的产生同将它纳入标准的参考工具(如词典)之间总会存在滞后现象。

2.基于机器翻译词典的方法。将机器翻译词典应用于CLIR的最直接的方法是利用机器翻译系统来翻译提问式或者文献集合。与普通词典不同,机器翻译词典中包含有自然语言自动分析、翻译以及生成所需要的信息,故机器翻译系统可以利用上下文的句法和语义特征来改进翻译质量。其中一个例子是美国南加州大学信息科学研究所的Chin-Yew Lin和Eduard Hovy开发的“多语种摘录和翻译系统”(简称MuST)。目前,该系统允许用户使用英文提问式检索印尼语、西班牙语、阿拉伯语以及日语的Web资源。

然而,机器翻译系统遇到了一个难题:用户使用常规的信息检索系统(例如Web搜索引擎)时输入的提问式通常很短,提供的上下文很少,不足以消除语词的歧义。而机器翻译系统一般是为每个词选择一个首选的翻译,这种单项性选择可能会对检索效率产生负面影响。因此,在较短的提问式的翻译方面,机器翻译系统相对于基于词典的方法的优点并不确定。而对于较长的提问式特别是以完整的句子或段落描述的提问式来说,机器翻译系统通常能够产生较好的翻译结果。

3.基于本体的方法。基于知识的方法还可以利用一种更为复杂精致的知识结构——本体。本体是一种通过指明概念之间的关系将知识编码的结构。美国普林斯顿的WordNet项目小组创建的WordNet就是其中的一个例子。前面提到的CINDOR系统就使用了WordNet来进行CLIR。在欧洲,EuroWordNet项目小组开发了一个与“WordNet”类似的多语种本体,已经含有荷兰语、英语、意大利语及西班牙语四个部分。它们通过一个语间索引链接起来,并正计划扩展到其它欧洲语言。

实现基于知识的CLIR方法的重要障碍是要为大型的应用系统手工构建词典或者复杂的多语种叙词表,这通常是不切实际的。基于语料库的方法利用现有的大型文献集合,对其进行自动分析,进而抽取出构建自动翻译技术所需的信息。已提出的方案有:Littman等人的跨语言潜语义标引(CL-LSI)方法、CMU的Carbonell等人的采用广义向量空间模型的方法、Ballesteros和Croft的基于未对齐的语料库并使用伪相关反馈技术实现CLIR的方法以及ETH的研究人员开发的一种使用“相似度叙词表”来进行提问式翻译的CLIR方法等。这些方法的一个共同特征是都使用了语料库资源来训练CLIR机制或者建立用于检索的信息结构。

所用的语料库有三种类型:平行语料库、可比较的语料库或者未对齐的语料库。

1.平行语料库。平行语料库是由若干包含一篇文献及其对应的一种或几种语种的译文的集合所构成的,库内含有很多翻译知识。这些知识能够以下列的方式利用:(1)可从对齐的语料库中自动衍生出双语种或多语种词典,特别是专业性的平行语料库对于推断短语的翻译或者至少对于识别短语极为有用;(2)系统输入新文献之前,将平行语料库中的文献存储在双语种或多语种向量空间中,并对它们进行潜语义标引,从而可以获得一个双语种或多语种语义空间。通过将系统新输入的文献映射到该空间,可以使得系统实现跨语言潜语义标引。跨语言潜语义标引所需的语料库只需在文献一级对齐;(3)将平行语料库与基于知识的CLIR方法结合使用,可以有效地控制基于知识的方法所面临的一词多译问题。

基于平行语料库的CLIR面临着这样三个问题:(1)如何获得合适的文献集合以构成适合特定CLIR系统的语料库,这也是任何一种基于语料库的方法都面临的一个问题;(2)文献译文的创建成本很高,这是一个更为严峻的问题;(3)基于平行语料库开发的技术原则上可应用于不相关的应用系统中,但实验表明,在将基于一个系统开发的技术应用于不相关的其它系统时,检索效率会锐减。

平行语料库不仅可以在文献一级对齐,而且可以在句子一级甚至语词一级实现对齐。Davis使用了一个句子一级对齐的平行语料库来扩充基于词典的翻译。马里兰大学的Dorr和Oard开发了一种基于语词一级对齐的技术,该技术在集成基于词典的技术和基于语料库的技术方面表现出一定潜力。

2.可比较的语料库。可比较的语料库通常是由多种语言写成的具有相似主题的文献所构成,其中的文献按照所论述的主题进行对齐。它只能在文献一级实现对齐,但获得它要容易的多,因为它不需要包含文献译文。可比较的语料库同样可用于消解语词歧义以及潜语义标引。目前,对基于可比较的语料库的方法研究相对较少,可能是因为可比较的语料库要求基于文献所论述主题之间的相似度进行对齐,而现有的自动和半自动基于相似度的对齐技术都不具备良好的通用性。

3.未对齐的语料库。它不需要将语料库中的文献以任何方式对齐,而是利用伪相关反馈技术来改进提问式翻译质量,使之与集合中的文献更相似。Ballesteros和Croft对这种方法做了介绍。

五、结论

CLIR研究始于使用受控词表的试验,发展到今天,面向自由文本的方法成为主流技术。自由文本方法按照使用的翻译资源可分为:基于机读词典、机器翻译系统、本体或者基于语料库的方法。任何方法所采用的跨语言匹配策略都离不开以下四种:同源匹配、提问式翻译、文献翻译或者将提问式和文献都翻译为同一种独立于语言的表示的语间转换技术。

值得一提的是,为了改进CLIR方法和系统,近年来举行了多次有关CLIR的评价会议,其中较大型的两个会议是TREC(文本检索会议)和CLEF(跨语言评价论坛)。TREC中CLIR任务的主要目标是:(1)为测试跨语言检索技术创建基础结构,通过创建一个大规模的多语种测试集以及一个通用的评价体系;(2)调查某个多语种语境中的有效的评价程序;(3)提供一个交流研究观点的论坛。CLEF始于2000年,它将重点放在了欧洲语言的CLIR上,而TREC更为偏重亚洲语言的跨语言检索问题。此外,还有十多次关于跨语言检索专题的评价会议或研讨会,Oard对它们做了较为全面的罗列。有关的评价结果和会议论文都可以从这些会议的网站上获得。

标签:;  ;  ;  ;  ;  ;  ;  ;  

数字时代情报学发展前景(书面语)--跨语言检索技术的策略与方法_自然语言处理论文
下载Doc文档

猜你喜欢