国内外跨语言信息检索的比较研究_信息检索论文

跨语言信息检索的国内外比较研究,本文主要内容关键词为:信息检索论文,国内外论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

在进行信息检索时,通常会遇到这样一种情况,大多数人往往只在自己的母语里查找相关的信息。但是,面对互联网这个涵盖了多种语言的知识库,就对人们的语言水平提出了较高的要求。而面对多语言的障碍,人们的信息获取要求往往得不到满足,有时甚至造成信息鸿沟。这就需要有这样的一个系统,人们只需用自己最熟悉的语言进行查询,系统就能够返回多种语言的相关结果,跨语言信息检索正好能够满足这方面的要求。

1 引言

跨语言信息检索(Cross-Language Information Retrieval,简称CLIR),就是用户用某种语言(也称为源语言source language)进行查询,检索其他语言(也称为目标语言target language)表示的文档集的过程[1]。有的CLIR系统能够对检索出的文献进行翻译。虽然系统显示给用户的结果可能只是一种粗略的翻译,但也足以向用户提供文章的要点以及帮助用户做出相关性判断。此外,即使CLIR系统不对文献进行翻译,用户也可能通过使用该系统找到若干篇参考文献中包含了以该用户的母语写成的文章的论文,这无疑会为该用户提供很有价值的线索。总之,最重要的是CLIR系统能够检索出多种语言的相关文献资源,能够指导用户做出收集与否的判断。

网上信息跨语言检索的过程是:网络蜘蛛(Webspider)搜索网络信息,在统计方法、自动标引技术的支持下编制以语言为基础的索引,服务器接受以一种语言描述的提问式,并返回跨语言检索的结果,这一结果是由不同语言描述的信息集合构成的[2]。

在某种程度上来说,跨语言信息检索要解决的就是查询条件和查询文档集之间的语言障碍。一般来说,有5种不同的技术路线:同源匹配(cognate matching)、查询翻译(query translation)、文献翻译(document translation)、中间语言技术(interlingual technique)、不翻译(no translation)[3]。

2 研究现状

有关跨语言信息检索的最早试验是在1969年由Cornell大学的Salton进行的,他通过翻译已有英语概念列表中的一些单词为德语,来构建一个多语概念列表,而后利用该表扩充其SMART信息检索系统。在1973年的研究中,他实现了英法多语概念列表,并通过在建立一个共同的概念集之后,单独开发针对每种语言的相应部分,来达到更为完整的覆盖范围。Pevzner在1972年对英俄跨语言信息检索进行了研究,表明受控叙词表对于查询翻译是非常有效的[4]。1978年国际标准组织颁布了关于多语言叙词表的国际标准ISO5964,该标准在1985年进行了修改。

上述研究主要是针对国际联机检索进行的,而当时联机检索系统并不普及,国际互联网尚不为人们所知,人们对网络信息的需求亦不强烈,研究工作没有取得重大的进展。但是到了20世纪90年代后期,由于互联网的迅猛发展,人们的信息需求量增大,关于跨语言信息检索的相关论文陆续发表,一些实验性的跨语言信息检索技术相继问世。下面我们通过对国内外有关数据库中的文献进行检索,分析跨语言信息检索的研究现状。

2.1 文献量分析

对国外研究现状的了解,本文选择美国ISI公司的权威数据库Web of Science作为数据来源,对1997年至2007年间发布的论文用检索式“TI:(cross-language OR bilingual information retrieval)”进行文献检索。对关于跨语言信息检索的文献总量及分布、著者、主题等情况进行统计分析,共检索到179篇相关文献。

对国内现状分析,本文选取CNKI作为数据源,同样对1997年至2007年发表的论文用检索词“跨语言信息检索”、“跨语言检索”进行文献检索。共检索到35篇相关文献。国内外年发文量对比见表1。

表1 1997-2007年国内外跨语言信息检索文献的年发文量

年份 1997

1998 1999 2000 2001 2002 2003 2004 2005 2006 2007

国外2 1211 611123512373110

国内0 0 0 0 3 1 1 6 613 5

从表1中可以看到,国外1997-2002年文献量基本维持稳定状态,这段时间是跨语言信息检索研究真正开始发展的时期,尽管在这期间文献量有少许波动,但基本处于平稳中略有上升的状态;2002-2003年是文献量的第一个增长期,尤其是2003年出现了一个文献量增长的小高潮;2004年文献量出现了一个低谷;2005-2006年是文献量增长的第二个时期,虽然每年的文献增长幅度在降低,但文献量却呈现大量增长的趋势。据此可以预测,跨语言信息检索在今后一段时间内仍将迅速发展,研究将逐渐走向成熟。

值得注意的是,2003年的小高潮和2004年的低谷。通过阅读发现,2002年ACM SIGIR(Association for Computing Machinery Special Interest Group on Information Retrieval)在芬兰举行了第25次会议。ACM SIGIR是ACM多个特殊兴趣小组中的一个,该小组致力于信息的存储、检索和传播研究,包括研究策略、输出方案和系统评价。跨语言检索、多种语言检索和机器翻译是其感兴趣的领域之一。因此,可以说该会议的召开对跨语言信息检索文献量的增长有一定的影响。对于2004年的低谷,可能是由于2003年的高峰后形成了一定的疲软。

而对比国外,国内跨语言信息检索起步较晚,从2001年开始陆续进行研究,而且总的发文量也很小,还处在一个初步探索阶段,与国外存在很大差距。但我们也可以发现,国内研究当时虽才起步,但是保持着一定的平稳增长。通过与国外的比较可以发现,2004年出现的小高潮是在国外2003年的小高潮之后,而2006年出现的小高潮也是在国外2005年的小高潮之后,说明国内的研究存在着对国外的“跟风”现象,论文质量也不如国外。

通过国内外的比较分析还可以得到一些一致性的结论。跨语言信息检索是一个起步较晚而发展很快的研究领域。该领域的研究始于20世纪70年代初,起初十几年的发展较慢,进入20世纪90年代以后,随着计算机技术和网络技术的迅猛发展,跨语言信息检索的研究也取得了快速进展,初步形成了一个完整的研究体系。尤其是近年来,保持着平稳的研究趋势,并且新的研究成果不断涌现,体现了该领域良好的发展势头。

2.2 著者分析

在Web of Science检索到的179篇文献中,作者共有366人(包括合作者),发表1篇论文的作者有291位,发表2篇论文的作者有42位,发表3篇论文的作者有16位,发表4篇论文的作者有5位,发表5篇和7篇的都是3位,发表8篇和10篇的都是2位,发表11、12篇的都是1位。发表1篇论文的作者数量约占所有作者数量的79.5%,这与洛特卡定律所描述的发表N篇论文的作者数量约为发表1篇论文的作者数量的以及发表1篇论文的作者数量约占作者总数的60%并不很吻合,表明跨语言信息检索领域的研究尚未完全成熟,写1篇论文的作者群体过大,在未来的发展中发表多篇文章的作者将会增加。

发文多于3篇的作者比例逐渐降低,发表论文最多的作者发文量达12篇,可见还是有一些核心作者的。这里列举发文数量在7篇以上(包括7篇)的作者情况,见表2。

表2 1997-2007年国外跨语言信息检索论文核心作者

排名作者

文献量

研究主题

1 Sanderson M

12 计算机科学、理论与方法

2 Clough P 11 计算机、信息、图书馆学

3 Gonzalo J 10 计算机科学、理论与方法

4 Oard DW

10 计算机科学、理论与方法

5 Jones GJF 8 计算机科学、理论与方法

6 Verdejo F 8 计算机科学、理论与方法

7 Chen HU7 计算机科学、理论与方法

8 Federioo M 7 计算机科学、理论与方法

9 Lopez-Osieaero F

7 计算机科学、理论与方法

对于国内来说,跨语言信息检索还处在一个起步的阶段,发表的论文量非常有限。很多研究人员还没有涉足到这个领域,因此跨语言信息检索的研究还处于起始阶段,其中只有2位作者发表了1篇以上论文,其余的作者都只发表了1篇论文,故无法进行著者分析并确定核心作者。

2.3 学科分析

跨语言信息检索的研究论文按学科性质主要分为4个领域:计算机科学、理论与方法,计算机科学、信息系统,图书馆学、情报学类,计算机科学、人工智能。纵观Web of Science中收录的关于跨语言信息检索的179篇文献可以发现,其中计算机科学、理论与方法方面的文献高达93篇,计算机科学、信息系统方面的文献有40篇,图书馆学、情报学类方面的文献有30篇,计算机科学、人工智能方面的文献有16篇。以上数字充分说明这4个领域是跨语言信息检索研究的核心领域,而这4个领域的核心又是计算机科学,因此,计算机科学是跨语言信息检索的重中之重。

而国内的情况完全不同。跨语言信息检索的核心领域是图书馆学、情报学,它的文献达到29篇,占83%;计算机科学、理论与方法的文献为4篇;计算机科学、信息系统方面的文献为2篇。对跨语言信息检索的研究还是在图书馆学、情报学界,许多计算机领域的研究人员还未涉足这个领域,因此对国内来说这是一个新兴领域。因此研究的广度和深度都不太理想,存在与国际脱轨的问题。而在文章后面部分提到的应用状况中,正好反映了这个问题:我国对跨语言信息检索的利用情况非常不理想,与国外存在很大差距。这与研究上的脱节也存在着一定的影响关系。

3 研究热点

对搜索到的文献再进行主题分析,我们可以得到国内外研究的重点和热点问题。

综合国内外文献,将跨语言信息检索分为基础理论与方法、测试集、翻译技术、词义消歧、语料库、字典、索引项、其他关键技术、系统开发及具体应用这几个主题。见表3。

表3 1997-2007年国内外跨语言信息检索文献的主题分析

主题 国外(单位:篇) 国内(单位:篇)

基础理论与方法 27

14

测试集 351

翻译技术

274

词义消歧92

语料库 70

基于字典的方法 82

索引项 60

其他关键技术

275

系统开发92

具体应用

245

从国内外的对比分析中可以看出,两者共同关注的问题包括以下几个方面:测试集、基础理论与方法、系统开发、翻译技术、词义消歧、基于字典的方法等关键技术。

在基础理论的研究上,国外该方面的研究占总研究比例的15%,而国内则占到40%。与国外相比,我国存在着偏理论的问题,技术含量不够。但是我们同时也应该看到,由于我国的跨语言信息检索才处在初级阶段,所以侧重于理论研究也是无可厚非的,这与国外在刚起步阶段有较多理论研究情况相符。因为基础理论与方法一般研究年份比较靠前,不能代表现在的一个研究热点和趋势,因此不将它列入热点研究分析。

对于关键技术的研究国外占总研究的47%,国内占总研究的40%,可见两者都花了大量的精力在关键技术的研究。不难看出,对于跨语言信息检索的技术问题是一个非常重要的研究领域,检索的实现都是要依赖于这些技术的,所以形成对技术的热点研究完全符合常理。

3.1 测试集

测试集在跨语言信息检索领域占有决定性的地位。在跨语言信息检索这样很大程度上依赖实验的学科,相关的检索系统评测会议对于该学科的发展起到了很大的推动作用。跨语言检索领域中定期召开的4次国际会议,分别是:TREC(文本检索会议),在1997年开始将跨语言信息检索的评测作为中心议题之一;CLEF(Cross Language Evaluation Forum),它是与欧洲语言跨语言信息检索有关的评测会议;NTCIR是日本国立信息研究所(NII)主办的信息检索测试集评测会议,主要构建亚洲语言有关的测试文档集以及对相关的检索系统做出评测;ACMSIGIR(美国计算机协会信息检索特殊兴趣小组会议)在第25次会议中跨语言检索、多种语言检索和机器翻译是其感兴趣的领域之一。

这些会议全面反映了当今跨语言信息检索的研究热点和趋势。从前面对近十年来跨语言信息检索文献的年发文量的分析可以发现,对于该领域的研究呈一定的增长趋势往往是在这些会议之后,会围绕着会议的内容出现一些研究热点。而且在主题分析中也发现,评测会议的主题内容往往会在这一年或者下一年引发研究热潮,它起着一个方向性的引导作用。可见这些评测会议对跨语言信息检索研究进展的重要性。

在研究这些评测会议中还发现,对于集的研究主要集中在CLEF,对TREC的研究报导只有4篇,对NTCIR的研究报导仅有1篇,并没有发现对于ACMSIGIR的研究报导。可见CLEF在这些评测会议中占有绝对性优势。但是由于它是与欧洲语言跨语言信息检索有关的评测会议,对于亚洲语言没有涉足,导致亚洲语言,特别是中文的跨语言信息检索研究与欧洲语言造成的差距也产生了一定的影响。这也可以用来解释我们在应用中遇到的问题。

测试集的研究是国外研究的热门,但是在国内我们遗憾的发现只有1篇文献对其进行专门报导。

3.2 翻译技术

跨语言信息检索涉及查询语种和检索语种两个基本的概念。查询语种是用户查询请求所属语种,检索语种是检索目标对象所属语种,如何能够在这两者之间建立起沟通的桥梁是目前跨语言信息检索技术研究最核心和关键的问题。这些工作分别从以下3个方面来展开:机器翻译系统、基于语料库的方法和基于字典的方法[5]。

机器翻译可以使用专业化的产品(如Systran)来实现对查询的翻译,也可以使用在线翻译器实现。基于语料的方法从分析现有大规模的语料人手,从中抽取所需信息自动构建与应用有关的翻译技术。基于词典的双语词条方法就是利用双语词典,来建立两种语言对照的词对,进而对查询进行翻译[6]。从单独列出来的基于语料库的方法和基于字典的方法都可以看出,对这两种方法的研究也是一个热点问题,因为这两种方法的解决直接关系到查询翻译的效果问题。

正因为机器翻译的关键性和核心作用,它成为继测试集之后的第二大研究领域。无论在国外还是国内,对翻译技术的研究都是重点领域,有相当大的篇幅和文献来对其进行研究。

3.3 词义消歧

翻译中词义的歧义性是跨语言信息检索的重要问题。对于被检索信息来说,明确信息中出现的检索词的含义,是提高检索准确率、确定信息相关性的关键。由于它对检索效率有非常大的影响,也因此成为国内外学者广泛关注的研究领域。它所依赖的语言资源有词典、主题词表、本体、语料库等[7]。词义消歧是一个传统的AI难题,除了传统的WSD方法,越来越多的学者借助WordNet、FrameNet等本体资源来实现跨语言信息检索中的消歧。多语言本体的构建机器在CILIR重点消歧应用是一个研究热点,也面临着许多挑战。

3.4 系统开发

对于有关跨语言信息检索可行系统的开发和测试也是一个研究的热点问题。将研究运用于实践,用系统来实现跨语言信息检索,通过不断的系统开发与测试来推进跨语言信息检索的进展。如IBM就自行开发测试了一套跨语言信息检索系统的实例。此外还有很多关于系统的实证研究。

3.5 研究趋势

从前面的主题分析和所掌握的资料来看,跨语言信息检索还有很多正在崭露头角的研究方向和领域,代表着今后研究的一个趋势:

跨语言信息检索内容不再限于文档,在主题分析中发现有3篇跨语言地理信息检索文献、3篇跨语言图像检索文献、1篇跨语言语音检索文献、1篇跨语言问答系统文献、1篇跨语言新话题发现和跟踪方面的文献。所以说跨语言信息检索正在朝着多样化的方向发展,研究的领域在进一步拓展。

对翻译技术、词义消歧、测试集等热点问题的研究还将持续,这代表了一个技术和评价上的逐步发展。同时还有一些问题有待进一步研究,如专有名词识别、音译研究、跨语言信息检索系统的检索结果处理等,将成为新的研究方向。

4 应用状况

4.1 在搜索引擎中的应用

从搜索引擎诞生的那一天起,寻求对多语种的支持就是在激烈的竞争中制胜的法宝之一。据2001年的文献显示,当时的Google支持的语种有14种,Altavista支持的语种有25种,而雅虎则推出了数十种本地化的搜索引擎[8]。

这些宣称支持跨语言检索的搜索引擎其实只是多个单语模式搜索的融合,即用户只能以一种语言提问,返回同一种语言的信息。用户如果需要在多种语言中查找信息,就必须同时使用多种语言提问。最近两年,真正的跨语言搜索引擎得到飞速发展。目前,通过Google的“使用偏好”选项可以进行跨语言信息检索,Google支持的查询语种有115种,可以检索用35种语言所写成的网页[9]。

为了更好地了解跨语言信息检索在搜索引擎中的应用状况,选取了国内外著名的搜索引擎各10个,以实际检索和浏览网站介绍的方式,对它们支持跨语言信息检索的情况进行了调查,调查结果见表4。

表4 网络著名搜索引擎支持跨语言信息检索概况

首先要指出,由于选择的搜索引擎具有较高水平,因此代表一定领先性。在受调查的20个中英文搜索引擎中,支持跨语言信息检索的有10个,占调查总数的一半。这说明跨语言信息检索的重要性已被搜索引擎所认识。但要指出的是,如果推广到整个搜索引擎界,实际比例应远低于这一数值。

在支持跨语言信息检索的10个搜索引擎中,国外的占了8个,国内只有2个。这说明在跨语言信息检索的应用开发方面国内尚有一定的差距,这从前面文献分析中阐述的关于对此研究的匮乏可见一斑。可喜的是,国内搜索引擎界对此已有所认识,百度、搜狗、中国搜索3家中文搜索引擎已能提供中英文线上翻译功能。目前支持跨语言信息检索的搜索引擎中,能同时提供网页翻译功能的只有Google和AltaVista,而且都是国外的搜索引擎。国内还没有同时提供这两项服务的搜索引擎。在由互联网市场研究公司ComScore发布的2007年全球十大搜索引擎排名研究报告中显示百度已成为全球第三大搜索引擎,相信它将为中国本土化跨语言搜索引擎带来新的机遇。

从这些跨语言搜索引擎的翻译效果来看,情况也很不理想。一般而言,对英文的翻译效果较好,而对其他语种翻译效果则较差,而且涉及的语种也相当有限。

4.2 跨语言信息检索系统

随着跨语言信息检索技术的发展,到目前为止,国外已经涌现出不少成功的跨语言信息检索系统。但遗憾的是国内没有这方面的系统出现。

将这些系统分为两类:示范系统和商业系统[10]。示范系统有Aport系统、Arctos系统、Erie系统、Mulinex系统、Mudial系统等。还有一些投入实用的商业系统,有Cindor系统、Rotondo系统、TextFinder系统等。

Mulinex系统是1997年德国语言技术研究室人工智能研究中心研究开发的,是世界上第一个成功地运用跨语言自动翻译技术,使人们能够利用本国语言就能有效获取网上其他语言信息的跨语言网络信息检索系统,可实现英、德、法三语种之间的两两对译[11]。

Cindor系统是MNIS公司的一个产品,目前所支持的语言有英、法、德、意、日和西班牙语,而对于中文的支持正处于研究之中。该系统的特点是:统一的字符编码标准、自然语言检索、查询自动扩展、申请专利的跨语言检索技术等。Cindor有3项核心技术,即概念中间语言、语言分析、搜索管理。

Keizai是美国新墨西哥州立大学计算研究实验室开发的一个系统,是一个跨语言的交互检索和摘要系统。它使用了统一字符编码检索体系(USRA)和交互文档摘要方法(MIDNS)。它提供了自动和用户帮助两种方法,以构建和提高跨语言查询的效率。

在Keizai提供的示范系统中,有英文查询输入框、新闻源选择框、翻译查询按钮、提交查询按钮、存储查询按钮等。它目前所提供的新闻源有英文、法文、德文、西班牙文、意大利文、中文、日文、韩文的新闻,支持以上几种语言的跨语言翻译和检索,不过查询只能是英文的。

收稿日期:2009-03-13

标签:;  ;  ;  ;  ;  ;  ;  ;  

国内外跨语言信息检索的比较研究_信息检索论文
下载Doc文档

猜你喜欢