跨语言信息检索理论与应用研究,本文主要内容关键词为:信息检索论文,理论论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G354文献标识码:A文章编号:1003-6938(2006)02-0079-03
CLC number:G354Document code:AArticle ID:1003-6938(2006)02-0079-03
1 前言
信息检索泛指用户从包含各种信息的文档集中找到所需要的信息或知识的过程。传统的信息检索系统主要是针对单一语种的文档集,其查询语言通常为单一语种,如用中文检索中文书写的文献、用英文检索英文书写的文献。随着互联网的全球化发展趋势,用各种语言书写的信息汇聚在一个集合中,使系统提供对多语种文献进行同时查询的需求变得越来越迫切,由此而引发了信息检索界对跨语言检索的研究。跨语言检索(Cross Language Information Retrieval,CLIR)即可用一种提问语言检索出用另一种语言书写的信息,也就是一种跨越语言界限进行检索的问题。
跨语言信息检索研究涉及了语言学、情报学、计算机科学等多门学科知识,是一个综合性强、富有挑战性的研究领域。跨语言检索技术的实现应用了信息检索、文字处理、和机器翻译等技术,如文字切分技术、词汇翻译、词频技术、索引技术等。
2 跨语言信息检索的研究状况
跨语言信息检索研究最早可追溯到1973年G.Salton先生Experiments in multilingual information retrieval一文的发表。[1] 当时的研究主要针对国际联机检索进行的,由于检索系统不普及,因而人们对网络信息的需求并不强烈。跨语言信息检索研究真正成为热点,是在Internet迅猛发展的90年代后期,在很大程度上,Internet的全球化信息结构引发了对跨语言信息检索的迫切需要。这就促使越来越多的研究团体深入研究跨语言信息检索问题,并研制开发跨语言信息检索的不同方法。这一时期国际上先后有许多相关论文发表,一些实验性跨语言信息检索技术相继问世。
国内对于跨语言信息检索的研究很少,所查找到的一些资料基本都在2001年以后。国际上,从跨语言信息检索研究领域定期召开的一些会议,也反映了当今跨语言信息检索的研究热点和趋势。这些重要会议分别是文本检索会议(TREC)、跨语言评价论坛(CLEF)、日本国家科学信息系统中心信息检索系统测试集会议(NTCIR)、美国计算机协会信息检索特殊兴趣小组会议(ACM SIGIR)。
其中TREC是由美国国家技术标准局组织召开的国际会议,其旨在促进大规模文本检索领域的研究,加速研究成果向商业应用的转化,促进学术研究机构、商业团体和政府部门之间的交流与合作。TREC-6,7,8,9,10五次会议对于跨语言信息检索问题给予了极大的关注,每次的侧重点不同。TREC-6,7,8这三次会议主要对欧洲语言(英语、法语、德语以及意大利语)的跨语言检索问题进行了研究;在TREC-9会议上,对中英文的跨语言检索问题进行了研究;[2] 在TREC-10会议上,对于阿拉伯语和英语、法语之间的跨语言检索问题进行了研究。
3 跨语言信息检索的实现方法
3.1 跨语言信息检索研究重点
跨语言信息检索需要解决如下几个主要的问题:
(1)提问与文献分属不同语言。这是跨语言信息检索的最主要特征,由于提问与文献分属不同的语言,因此在两者之间需要通过词典等方式建立匹配的对应关系。
(2)词的歧义和多义性。由于原始提问中有些词义的不确定性,系统中需要借助歧义性、多义性分析机制,将原始提问排歧后转换成最终提问。
(3)提问中词的切分。一些语言(如中文、日文、韩文等)由于词与词之间没有明显的分隔符号,因此词的切分问题成为此类语言的跨语言检索研究要点之一。
(4)文献的多语言性。在跨语言检索系统中,由于原始文献是用不同的语言书写的,因此语种识别是检索的基本工作,此类情况常出现在自动标引的系统中。
(5)输出结果的排序方式。检索结果中,不同语种的文献如何排序,如何对不同语种的文献进行相关度的计算,也是跨语言资讯检索系统必须研究的问题。
3.2 跨语言信息检索基本方法
跨语言信息检索的实现方法可以简单地归并为查询语种和检索语种的统一及单一语种的检索。其中,语种的统一是最为关键的,主要通过三种方式实现,即提问翻译、文献翻译和中间语种转换。[3]
(1)提问翻译。将提问用语种转换成文献用语种(如将中文提问转换成英文提问),然后再进行单语言检索。提问翻译的实现方法一般包括两个步骤:找到对应的词汇、并选择正确的译词。前者与词典的覆盖度、词典的结构有关,而后者与正确理解并消除歧义有关。由于用户提交的提问一般比较短,而语言的正确理解往往需要借助一定量的文字及上下文环境,因此消除歧义的研究甚为关键。提问翻译是实现跨语言检索最经济而且实现难度较小的方法,在目前推出的一些跨语言检索系统中大多数采用的都是此方法。
(2)文献翻译。将源文献语种转换成提问用的语种(如将英文源文献转换成中文文献),即不对提问式进行翻译,而是对集合中的文献翻译成与提问用的语种一致的语言。由于文献层次的翻译与提问层次的翻译相比,其语境更加宽泛,进行歧义性分析所能利用的线索比较多,因此比较容易消除歧义。但是这种方法所使用的文本自动翻译技术的正确率目前还难以达到实用水平,而且将集合中全部文献从一种语言翻译到另一种语言的工作量非常巨大,因此目前采用这种方法的实验系统尚未见报道。
(3)中间语种转换。将提问和文献转换成一种逻辑形式,或者第三种语言。这种方法常用在多于两个语种的跨语言检索系统中,或者两种语言之间不存在直接对应转换(例如在TREC中很难找到德语和意大利语之间直接对应的语言转换)的跨语言检索系统。
此外,还有一种非翻译方法可实现跨语言检索。如Deerw,ester等人1990年用潜在语义标引法,[4] 将英语词汇、法语词汇、英法双语文件映射到一个向量空间中。尽管这些术语是不同语言描述的,但是可进行语义上的比较匹配,而无需翻译转换。Berry等人在希腊文—英文、Oard在西班牙文—英文等不同语言配对上进行了实验,验证了这种方法具有一定的有效性。
3.3 提问翻译方法的实现
提问翻译的方法,由于其在系统造价及实现上的优势,而逐渐成为主流。在提问翻译的实现中,根据其具体的处理方式,又可分为基于机器翻译系统的方法、基于语料库的方法、基于词典的方法和基于语料库和词典的混合方法。
(1)基于机器翻译的方法。接受用户的输入并提供输出的翻译结果。例如IBM公布的IBM HomePage Dictionary TM2000就提供英译汉的机器翻译功能,它包含一个480K的英汉字典,字典中包含单词、常用词组、缩写以及专用名词,对大部分的单词翻译的模棱两可的情况都能有效解决。[5]
(2)基于语料库的方法。在对应语料库的帮助下过滤查询翻译后产生的非正常翻译结果。用户提问中出现的每一个单词或者词组,往往能找到多个翻译结果与之对应,此时就需要选出正确的翻译结果作为检索对象。通常情况下,提问语种语料库中的单词(或词组)出现的概率大小与对应的检索语料库中的概率大小有关,这样就可以通过比较它们出现的概率来协助去掉干扰项并确定一个最佳翻译。[6]
(3)基于词典的方法。在查询翻译后,每一个词都有一个以上的译词与之对应,它们之间可形成不同的组合。在检索中,可以直接使用这些组合进行检索。基于词典的方法需要解决的关键是消除词的歧义和词典本身的覆盖率问题。
上述方法中基于机器翻译的方法实现较难,而且目前机器翻译技术正处在研究阶段,其翻译结果的正确率不能保证,因此在跨语言检索中采用还为时过早。基于语料库的方法由于现成的语料库不多且量不大,所覆盖的主题面有限,真正实现还需要借助其他技术。基于词典的方法不涉及机器翻译的问题,但需要保证词典的覆盖率,并消除词的歧义性。由于词典可提供有一定的覆盖率,可实现通用检索;而语料库可提供特定领域用语的匹配,可实现专业检索。因此,采用基于词典和语料库混合的方法是比较好的做法。
4 跨语言信息检索实践与应用概况
4.1 跨语言信息检索系统
随着跨语言检索技术研究的发展,伴随着一些跨语言检索系统的出现。如Aport、Arctos、Eric、Mulinex、[7] Mudial等实验系统。也有一些投入使用的商业系统,如Cindor、Rotondo、TextFinder等系统。
Cindor系统是MNIS公司的一个产品,它目前所支持的语言有英、法、德、意、日和西班牙语,而对于中文的支持正处于研究之中。系统的特点是:统一的字符编码标准、自然语言检索、查询自动扩展、申请专利的跨语言检索技术等。Cinor有3项核心技术,即概念中间语言、语言分析、搜索管理。
Keizai系统是美国新墨西哥州立大学计算研究实验室开发的一个系统,它是一个跨语言的交互检索和摘要系统。使用了统一字符编码检索体系(USRA)和交互文档摘要方法(MINDS)。它提供了自动和用户帮助两种方法,以构建和提高跨语言查询的效率。在Keizai提供的示范系统中,有英文查询、新闻源选择、翻译查询等。它目前所提供的新闻源有英文、法文、德文、西班牙文、意大利文、中文、日文、韩文,并支持这些语言的跨语言翻译和检索,但系统提供的查询语言仅为英语。
4.2 跨语言搜索引擎
知名的跨语言搜索引擎有我们熟知的Google,[8] 它除了可以指定搜索用特定语言编写的网页外,还提供了对用户输入的词、句子或者网页进行在线翻译的功能。Google目前所支持的语言种类达到了64种(包括不同形式的同一语言,如中文的繁体和简体)。
5 CLIR在专业领域数据库中的应用
机器人信息系统数据库是中国高等教育文献保障系统(CALIS)二期重点资助的特色数据库建设项目,在该系统中,储存了有关机器人的中文和英文信息。将跨语言信息检索技术应用在机器人信息系统中,有利于方便用户通过一个提问而获取较全的信息。
笔者在机器人信息系统项目的研制中,拟采用词典和语料库混合的方法实现跨语言信息检索。系统结构见图5.1。
图5.1 系统结构图
对于源语言的查询,首先去掉符号和禁用词,抽取提问词(包括单字和词)。以一个英文查询为例:improvement or proposal of data mining methods,我们首先去掉or、of,提取improvement、proposal、data mining methods,然后对提取出来的提问词进行逐词翻译,并保留词在提问中的顺序。[9] 为了简单起见,词与词之间是相对独立的,词汇的翻译方法分为两步:第一步从基础词汇中提取所有可能的翻译;第二步利用基础词典翻译中提取的语料集进行歧义的消除。
在消除歧义中,汉英翻译和英汉翻译采取同一个语料库。首先,在英汉转换过程中利用双语词典进行翻译,如果词典中没有对应的词,则进行人工干预,并进入新词词典,或留待机器自学机制识别。另一方面,在汉英翻译中,我们考虑所有中文词可能的切分,选择包括最少数量的基础词是我们最优先的选择。
对于专业数据库来说,由于其专业性强,从数据库中直接提取语料库后翻译的效果较好,相对来说翻译的歧义性将大为降低,因此跨语言检索技术在专业数据库中的应用有望取得较好的效果。
6 结语
目前,国外对跨语言信息检索技术的研究方兴未艾,中英文跨信息检索也正成为新的研究热点。但在国内,这方面的研究起步较晚,研究也相对薄弱。当前跨语言信息检索的查准率普遍比单语言检索的查准率低,这也说明了跨语言信息检索还有很多问题值得研究、还需要有较大的力度深入研究、还需要提出更多的思路和方法并进行探讨。有理由相信,在Internet全球化浪潮的推动下,将会有更多的专家学者投身于跨语言信息检索的研究中,跨语言信息检索的研究成果也将会给大家在多语种文献的检索中带来更大的便利。