2006~2007年国外信息检索基础理论研究进展_信息检索论文

2006~2007年国外信息检索基础理论研究进展_信息检索论文

2006-2007年国外信息检索基本理论研究进展,本文主要内容关键词为:研究进展论文,基本理论论文,信息检索论文,国外论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]G252.7[文献标识码]B

1 近两年国外信息检索研究概述

美国计算机协会的信息检索特别兴趣小组(Special Interest Group on Information Retrieval,SIGIR)是信息检索研究的重要团体之一。Djoerd Hiemstra等人于2007年以SIGIR出版物为调研对象,分析了SIGIR在信息检索方面的热点研究主题、作者分布和合著情况[1]。Djoerd Hiemstra等人通过术语在语言模型中的概率和论文出版年之间的相关性分析判断术语的新颖性(word’s trendiness),从而找出可以代表发展趋势的术语,如“classification”、“TREC(Text Retrieval Conference,文本检索研究小组)”、“text”、“web”等术语。从发表论文数量在10篇以上的国家分布(1998-2007)来看,按发文量可以把这些国家分为3组:以美国、英国为代表的发文量较大的国家为第1组,以法国为代表的发文量相对较少的国家归为第2组,其余国家归入第3组。值得注意的是,中国和澳大利亚在信息检索研究方面的发文量增长迅速,于2006年超过法国,与法国一同成为第2组的国家之一。从SIGIR的作者数量和论文数量的发展图中可以发现,最近几年来,此主题的每篇论文的平均作者数量有显著增加,这表明合著现象日益增多。SIGIR作者的社会网络分析显示,中心度最大的作者是Wensi Xi,后两位依次是Bruce Croft和Edward Fox。发文量大的作者Bruce Groft,其后第2位是James Callan。具有最多合作关系的作者是Wei Ying Ma,其次是Bruce Croft。

2 近两年国外信息检索基础理论研究

从检索到的文章来看,2006-2007年对信息检索基础理论的研究主要集中于决策理论、隐含语义索引理论研究以及信息检索评价理论研究。

2.1 决策理论研究

决策理论在信息检索中的应用主要集中在辅助检索策略的构建[2]和基于决策理论的检索系统评价[3],与此方面相关的两篇文章的作者都将信息检索过程作为一个决策过程来进行研究。Gloria E.Phillips-Wren等人设计了一个基于层次分析法和智能软件代理的决策支持系统,以辅助具体技术领域的研究人员进行信息检索,改善检索结果,这种方法被称为聚合检索(convergent search)或辅助检索(Aided search)。Ye Diana Wang等人认为目前检索系统评价的不足之处是,以用户为中心的评价研究和以系统为中心的评价研究结合不紧密,而应该从技术和用户的角度研究信息检索系统。这就需要在评价时将输出结果和检索过程的评价标准结合到一起,以反映相关性的多维度和动态性特点。针对这种不足,他们提出了检索系统评价的决策理论模型,将信息检索看为一个多标准决策(multiple criteria decision making)问题,建立了一个多指标的评价体系,并利用层次分析方法(Analytic Hierarchy Processes)进行评价。

2.2 隐含语义索引理论研究

语义信息在信息检索中的应用研究是学界关注的重点领域,对基于隐含语义分析(Latent Semantic Analysis)检索技术的研究越来越多。Harksoo Kim等人研究了FAQ检索中基于隐含语义分析进行查询日志分类的技术,并在此基础上设计了常见问题检索与聚类系统(Faq Retrieval And Clustering Technique,FRACT),解决了FAQ系统设计中知识库和规则重构存在的问题[4]。隐含语义索引(Latent Semantic Indexing,LSI)是一种基于隐含语义分析的检索方法,April Kontostathis等人在前人研究的基础上,发现了LSI效果与其数学基础SVD(Single Value Decomposition)之间存在的相关性[5]。

2.3 信息检索评价理论研究

L.Egghe于2004年提出了一种信息检索评价通用方法,即,指标M(Missing link M)和通用信息检索面(universal IR Surface)[6]。在既定的信息检索系统中,在准确率(P)、查全率(R)、遗失率(M)和误识率(Fallout)之间存在如下关系:(P/1-P)*(1-R/R)*(F/1-F)*(1-M/M)=1。在后续研究中[7],Egghe又证明了相反的命题,如果给定4个在[0,1]之间的比值且它们满足上式,那么就存在一个这样的检索系统,这4个值(以任何顺序排列)分别是准确率、查全率、误识率和遗失率,这个结论也适于3个比值和2个比值的情况。

3 近两年国外信息检索基本原理的研究进展

3.1 信息检索中的分类研究

分类和文献的主题领域识别是两个主要的研究领域,这也与Djoerd Hiemstra等人对SIGIR的分析相一致。在这两个方面的研究主要集中在对各个模型和方法以及它们的改进上。

3.1.1 有关分类器的研究

分类器是文本自动分类的重要组成部分,Akinori Fujino等人利用文档的附加信息设计了文档分类的生成/判别复合模(hybrid generative/discriminative approach)[8],这种方法首先为主文本和附加成分设计了单个成分的生成模型,然后在最大熵原则的基础上将这些经过训(train)的模型结合到一起,在每一个成分生成模型的组合权重的基础上设计了类别后验概率分布。对比实验也表明,采用这种复合方法的分类器性能要优于采用单一方法的分类器。目前,这个模型的不足之处是其采用的成分生成模型比较单一(即朴素贝叶斯模型)。与其它分类器相比,关联分类器具有许多显著的特点,如训练时间快、分类准确性高、解释性强等。但这种分类器应用到文本分类时也存在一定的问题,如因目标文本集多维度而造成训练时间过长。Yongwook等人提出了基于单词和类别变量间多种信息的特征选择方法来减小关系分类器的空间维度[9]。对于因训练过程中产生规则过多而降低新文献的分类效率的问题,Yongwook等人通过引入保存和整理分类规则的方法来改善这种情况。

3.1.2 有关特征选择的研究

特征选择是影响分类效果的一个重要因素。Francois Paradis等人将传统的特征选择与情景方法结合到一起,利用bi-gram和命名实体(Named Entities)对文本文档进行分类[10]。这种方法最初应用于招标文件方面,但相关实验表明它也可适用于其它类型数据集。而且实验还发现,尽管通过bi-gram和命名实体的结合取得了最佳结果,但是后者的影响却不是特别明显。特征选择方法可以通过特征空间的降维来实现,但是在特征高度冗余的情况下,就需要利用像贝叶斯网络分析器这样的更加复杂的依赖模型(Dependence Medel)了。而Changki Lee等人提出了一种非复杂依赖模型的特征选择方法——基于信息获取(information gain)和分散(divergence)的特征选择方法[11]。在选择适当的文本分类特征过程中,这种方法能在保持信息获取的同时减小特征空间的冗余,与Koller和Sahami的方法相比更加有效。

3.1.3 有关领域相关词的研究

领域相关词(Field Association term)是一系列确定文献领域的词。通过出现在某文献中的高频领域相关词就可以判断该文献的领域或主题。在这种方法中,领域相关词字典的构建是关键,领域相关词可以通过网络搜索引擎来抽取。E1-Sayed等人提出了一种利用网络搜索引擎自动构建领域相关词的方法[12],先利用搜索引擎找到候选领域相关词,与领域相关词字典中原有的词进行比较,然后将候选领域相关词追加到字典中。EL-sayed等人发现,在利用网络构建领域相关词字典的时候,因为要从整个文档中抽取相关词,所以字典中会有许多非相关的词,于是在2007年又提出利用段落检索技术来改善这个问题的方法。而该方法主要是利用Salton的段落技术抽取领域相关词而不是从整个文档中抽取领域相关词[13]。实验数据显示,与原来方法相比,利用这种方法将有24%的相关领域相关词重新被发现,32%的非相关领域相关词被删除,查全率和查准率分别达到94%和98%。

3.2 有关信息检索统一框架或模型研究

信息检索有不同的模型,不同的检索模型具有不同的核心概念,如词频和逆文献频率是面向内容(Content-Oriented)检索模型的核心概念,pagerank,authorities和hubs则是面向链接(Link Oriented)的检索模型的核心概念。但是它们都是基于矩阵的,只是类型不同。面向内容检索模型一般是基于文档-词语矩阵,而面向链接的检索模型则是基于邻接矩阵的。Thomas Rolleke等人为信息检索主要概念的描述设计了一个通用矩阵框架[14]。该框架包括3个空间:资源空间(collection space)、文档空间(document space)和查询结果空间(query result space);每个空间包括两个维度,每个维度都是一个邻接矩阵。这个模型的二元性体现在,资源空间中的文档一词语矩阵的相似性指标与查询结果空间中的查准率-查全率指标相对应,基于链接的检索技术与资源空间中的文档维矩阵的根向量相对应。矩阵操作与关系代数密切相关,本文所设计的框架为信息检索在关系代数层次上的建构提供了基础,因此将信息检索与数据库技术紧密地集成到了一起。Thomas Rolleke等人为信息检索建模提供的矩阵框架,不仅包括了面向内容的检索和面向链接的检索,还包括了文档结构、检索质量和标引词的语义等内容。这个框架具有高度的重用性和抽象性,这使信息检索系统的构建变得更加高效。

信息检索模型包括不同的数学基础,如代数、逻辑、概率和统计等。按相关性计算方法可以将检索模型分为3类:基于相似度的检索模型、概率相关性检索模型和概率推理模型。ChengXiang Zhai等人将检索看作一个统计判定问题,构建了一个新的基于贝叶斯决策理论的文本检索通用概率框架[15]。在新检索框架中,查询和文档通过统计语言模型建模,用户参数通过损失函数建模,而检索被视为一个风险最小化问题。这个风险最小化框架(Risk Minimization Framework)不仅可以把已有的检索模型统一到一个通用概率框架下,而且也有助于基于统计语言模型的新的文本检索方法的开发。风险最小化框架和现有的检索框架的区别在于,它将整个检索问题看作一个决策问题,而且将统计语言模型作为框架的主要成分。利用风险最小框架,可以将不同的因素包括到模型开发中,从而构建个性化、情景敏感的交互式检索模型。

3.3 有关信息检索类型的研究

从本文所检索到的相关文献的主题分布来看,2006年到2007年,国外学者除了对传统结构化文献检索予以高度关注外,焦点检索、图像检索、视频检索、合作过滤、机器音译以及无线网中网也是其研究的重点领域。

3.3.1 焦点检索

通常而言,信息检索的结果是为用户提供符合其检索需要的相关数据、文献或事实,之后由用户自己去查找检索结果中的相关信息。焦点检索(Focused Retrieval)则是为用户提供对相关信息的直接访问。焦点检索以不同的形式存在于信息检索的各个领域,如问答系统、段落检索和元素检索等。Jane R等人提出了结构化文档的焦点检索(focused retrieval),这种检索方法强调用户自然浏览行为的重要性,将浏览和查询范式结合到一起,返回结构化文档的最佳访问点(Best Entry Points,BEP),通过BEP用户可以浏览到其它相关文档成分。Jane R等人在对BEP的特点[16]、类型进行了分析并对BEP在检索中的应用进行了验证后指出[17],当有许多相关对象时,利用BEP进行查询是非常有效的。研究还发现了影响BEP识别的因素,如数据的主题域和逻辑结构、查询的类别、相关性判断的特点和实验的参与者等。

3.3.2 图像检索

近两年来,国外关于图像检索的研究也在不断深入。Tzu-Chuen Lu、Adenike M.Lam-Adesina和Wen-Cheng Lin等人分别对彩色图像检索、文献扫描图像检索和跨语言图像检索进行了研究。Tzu-Chuen Lu等人构建了一个基于颜色分布和图像位图的彩色图像检索框架[18],利用颜色分布、平均值和标准差表示图像的整体特征,利用图像位图表示图像的局部特征以增强检索系统的准确性,这种检索框架可以检索单一物体图像和复合结构图像。作者的实验结果表明这种技术在检索准确性和分类检索能力方面要超过其它的检索框架。Adenike M.Lam-Adesina等人考察了字符识别错误对文献扫描图像检索的影响[19],实验表明这种错误对基本的信息检索影响不大,但是使经过查询扩展的相关反馈变得非常不稳定。针对这一问题,他们提出一个不借助任何字典或训练数据等外部资源而对标准相关反馈方法的改进方法,这种新的方法大大提高了错误较多的OCR转换的相关反馈的效率。Wen-Cheng Lin等人在跨语言图像检索中将文本信息和视觉信息结合到一起,提出了将文本查询自动转换成视觉展现的方法[20]。首先挖掘文本与图像间的关系,利用挖掘到的关系从文本查询中构建视觉查询。然后将文本查询和视觉查询的结果组合到一起。如何选择恰当的文本检索词构建视觉查询是这个方法中的关键问题,实验结果表明,这种方法有利于检索效果的提高,而且利用名词生成视觉查询是比较合适的方法。

3.3.3 视频检索

目前视频检索多是基于内容的,对语义概念及其关系的自动识别和语义概念的本体构建也引起了视频检索研究领域的关注,但是对基于视频对象的检索研究不够深入。Alan F.Smeaton等人将基于文本的、图像的和对象的检索方式融入到了一个迭代的视频镜头检索系统中[21],并在受控的实验条件下对用户的迭代利用情况进行了研究。实验结果表明,在第一次迭代时,尽管基于对象的检索利用率远不及基于文本的检索,但是当相关镜头集找到后,这种方法便成为用户主要的检索方式了。

3.3.4 合作过滤

目前,尽管利用用户间的相似度进行合作过滤的方式是推荐服务的主流技术,研究人员还是认识到项目的内容信息对于推荐服务的重要性。同时,采取合作过滤和基于内容过滤的复合系统,虽然在一定程度上提高了系统性能,但多数研究都未能处理合作过滤的3个基本问题:非相关性、用户偏见和零起点。而Qing LI Sung等人设计的基于项目概率模型的音乐合作推荐系统(Collaborative Music Recommender System,简称CMRS)[22]中,利用了音频特征来解决上述3个问题:利用用户评价和音频特征对音乐进行分类;利用评价的高斯分布进行推荐预测;利用音乐的流派性质来解决零起点以及非相关性问题。CMRS利用真正评价(real rating)和虚拟评价(pseudo rating)来计算两个项目之间的相似度,前者就是用户评价,而后者从项目的内容信息中获得,如对项目的流派信息进行编号作为虚拟评价。内容信息用从音频的物理特征(如音质纹理、旋律和音高等)中抽取出的集合特征(aggregate features)表示。实验表明,从梅尔倒频谱参数、滑动和旋律中抽取集合特征取得的推荐效果是最好的。相关的实证研究表明,如果将内容信息用诸如流派、演员和导演之类的文本描述来表示,这种方法也适用于电影的推荐。

3.3.5 机器音译

机器音译(Machine Transliteration)是跨语言检索的一个重要研究内容。机器音译就是在一个字母系统中自动生成另一个字母系统的相应字符或单词,可用于跨语言检索中的查询翻译结果,等等。目前有许多种机器音译模型,但是单独一种音译模型在反映所有可能的音译行为上或许有局限性,为提高机器音译的效果,需要将不同的音译模型结合到一起,相互补充。Jong-Hoon Oh等人对基于3种不同音译模型的方法即基于字形的音译模型、基于音素的音译模型和基于字形和音素的音译模型进行了研究[23],韩语信息检索系统测试集(Korean Test SET,KTSET)和日语信息检索系统测试数据集NTCIR-I(NII Test Collection for IR System)数据测试结果表明,综合上述3种模型后的机器音译方法可以将信息检索系统的性能提高10-34%。

3.3.6 无线网中网

无线网中网(Wireless mesh community network)吸引了越来越多的人关注,在这种网络中,用户可以根据自身意愿与他人分享各种通信资源。由于这种网络的社区精神,用户很有可能也愿意共享其它的资源,如数据、图像、音乐、电影等。为支持这种资源交流,需要高效的信息检索算法。Laura Galluccio等人在viceroy peer-to-peer算法的基础上,提出了资源位置信息检索算法Georoy[241,而Georoy则通过资源ID和包括资源位置信息的节点间直接映射的设置和管理提高查找速度。

3.4 有关信息检索方式的研究

在信息检索方式的研究上,上下文检索、集成检索、问答系统检索以及用户查询处理等问题仍然是国外学者近两年所关注的内容。而对检索效率的研究,人们更多地集中在查询语句扩展或重构以及检索效率评价上。

3.4.1 上下文检索

H.C.Wu等人提出了一种新型文档上下文检索复合模型[25],利用现有成功的技术使检索模型中包括了词语在文档中的位置信息:这个模型首先利用了BIM(Binary Independence model)检索模型中的log-odds作为出发点,将现有的概率模型从文档层次扩展到文档上下文层次,通过文档上下文来查找相关信息。与信息检索中语言建模方法相类似,在概率估计中利用了平滑技术。当计算上下文分值时尝试了不同的聚合操作符,如扩展布尔逻辑运算符、Dombi模糊运算符和有序加权平均运算符。研究中对不同上下文范围、训练方法、平滑方法和上下文分值聚合方法进行了测试对比。结果表明,作为训练方法,上下文训练方法要优于文档训练方法;在最佳参数确定的情况下,不同的平滑技术产生的结果是相类似的;而扩展布尔逻辑OR运算符生成的结果是最好的。利用不同数据集对模型的检验表明,这个复合模型适用于不同规模和语种的数据集。

3.4.2 集成检索

集成信息检索系统中通常会包括多个数据库,每个数据库的内容或标引语言可能不同,这就需要对不同标引语言建立转换关系,使用户可以利用任何一种标引语言在多个数据库中进行检索。Xueying Zhang首次利用RST模型(Rough Set-based Transfer)对跨库检索中的不同文献数据库进行概念集成[26],作者利用RST模型通过不同的标引语言将不同数据中的概念联系到一起,达到了比基于条件概念的方法和跨词汇索引(cross-concordance)方法更好的检索效果。框架匹配(schema matching)是分布式信息检索中非常重要的研究内容。Henrik Nottelmann等人构建了一个框架匹配概率框架sPLMap[27],这个框架可以在给定的框架实例集中自动学习框架映射规则,利用不同的技术来寻找适用的候选映射。sPLMap可以对这些侯选映射的预测权重进行概率解释,选择匹配概率最高的规则集,并输出能够处理映射过程内在不确定性的那些规则。

3.4.3 问答系统检索

为了使FAQ检索取得更高的效果,在FAQ系统设计时往往利用知识库或人工定制的规则。但是当应用的领域发生变化时,往往需要花费大量的时间和精力去重新构建这些知识库和规则。为解决这个问题,Harksoo Kim等人采用基于隐含语义分析的查询日志分类技术设计了FRACT(Faq Retrieval And Clustering Technique)系统[4]。FRACT系统包括两个子系统:查询日志聚类系统和基于簇的检索系统。查询日志聚类系统将每一个FAQ看作为一个独立的类,该系统定期收集、整理用户的查询日志并根据隐含语义空间的向量相似度指标将查询日志进行分类。在分类的基础上,聚类系统对查询日志分组,计算每一个查询日志簇中心。当用户进行检索时,基于簇的检索系统计算查询式和FAQ的相似度,根据相似度进行排序并返回相关的FAQ列表。利用这种方法可以解决部分词语不一致的问题。定义问题应答(Definitional question answering)主要是回答定义性问题的系统,由于定义性问题的特殊性,答案的抽取和选择算法对于这种系统来说特别重要。Kyoung-Soo Han等人在系统设计时采用了基于语言特征和定义术语(definition terminology)的答案抽取与排序方法[28]。这种方法采用基于简单替代解析(Simple Anaphora Resolution)的段落扩展技术检索出更多的揭示性语句,利用基于句法信息的短语抽取方法生成更加准确的答案。因为外部定义不可能涵盖到所有的问题,所以对这些短语进行排序时利用了外部定义和定义术语相结合的方法,利用反映短语与定义语句相似度的定义术语分值作为补充。

3.4.4 用户查询处理

对用户查询的有效处理,如查询扩展、重构等,是提高信息检索效率的重要途径之一。Ben He等人认为查询扩展的性能不仅与文献评价质量有关而且也与查询语句加权的质量有关,利用不同领域特征组合可以改善查询扩展[29]。交互查询扩展(Interactive Query Expansion,IQE)对于改善用户的查询表达,提高检索效率有很重要的作用。Ryen W.White等人提出了IQE的改进方法——实时查询扩展(Real-Time Query Expansion,RTQE)[30],当用户界面的文本框架中输入查询时,RTQE就可以为用户建议一些其它查询语句。此外,Olga Vechtomova等人利用传统的查全率和查准率对基于相关性反馈的查询扩展方法进行评价比较[31]。一种是基于句子的,一种是基于名词短语的,评价结果显示在检索性能改进上,后者要优于前者。基于聚类的检索与查询扩展一样,也是解决信息检索中词语不匹配问题的方法,Seung-Hoon Na等人对语言建模框架下的查询扩展和基于聚类的检索进行了实证研究[321。研究结果表明:简约转换模型(Parsimonious Translation Model)不仅可以显著减少时空复杂度,而且还可以大大提高检索效果;基于聚类的检索效果取决于聚类的算法以及聚类的数量,但是优于一般的语言建模方法。当查询扩展和基于聚类的检索效果优于一般的语言建模时,两者的组合效果是非常好的。此时,查询扩展后聚类检索与基于聚类的查询扩展相比要略胜一筹。会话代理(Conversational Agent)可以进行基于静态过程的用户查询分析,但是无法处理比较复杂的用户查询表达方式。Kyoung-Min Kim等人所提出的基于语义贝叶斯网络的智能会话代理不仅可以减少了用户查询构建的复杂程度,而且还可以推断用户意图及其语义信息[33]。为了正确理解用户的意图,基于语义贝叶斯网络的智能会话代理利用复合主导交互(mixed-initiative interactin)获取用户丢失的信息和清除虚假的概念,这不仅减少了网络的复杂性而且提高了对用户意图推断的主动性。为提高检索效率,C.Lioma等人提出了基于句法的查询重构技术(Syntactically-based Query Reformulation,SQR )[34]。基于句法的查询重构利用了浅句法结构,并将其定义为词性(Part of Speech,POS)块,从大量的语言样本中抽取出定长POS块,从用户查询中抽取出与POS块相对应的词语部分,从而实现查询的重构。SQR不受抽取句法特征的语言样本量大小的影响,也不受语言样本与测试集之间语言相似度的影响。实验结果表明,SQR是一种有效的查询重构技术,SQR与虚拟相关回溯(Pseudo Relevance Feedback)具有相同的检索效果,如果将两者结合到一起,检索效果会大大提高。目前网络搜索引擎是人们查询信息的重要手段之一,SooYoung Rieh等人通过网络搜索引擎查询日志对网络查询重构进行了分析[35],得出了查询重构的3个面(内容、形式和资源)以及9个子面。通过对修改过程的分析确定了8种不同的模式:具体、一般、并行、组合、动态、多任务、再现和格式重构,并且根据Saracevic的分层模型在研究结果的基础上设计了网络查询重构模型。

此外,许多研究通过对信息检索中不同方面的改进研究,提高信息检索效率。如Cher-Sheng Cheng等人通过基于分区的文档标识符分配算法(PBDIA)提高信息处理速度[36],Vanessa Murdock等人利用对自然语言问题的处理提高过程性问题的检索效率[37],Anni Jarvelin等人通过对S-gram重新定义,提高字符串匹配效率[38]等。对查询结果的表示问题研究也正在成为人们关注的重点内容,如Hideo Joho等人利用视觉特征的改进,改善用户与检索结果的交互[39],Simon Sweeney等人对小屏幕移动设备中的查询结果显示问题的研究[40]。

4 结语

本文通过调研2006-2007年国外信息检索的相关研究成果,介绍了近两年国外信息检索在理论、模型、过程等方面研究的最新进展。从研究内容上来看,这一时期有关信息检索的研究主要是对现有理论、模型和方法的改进和完善;从研究方法上来看,这一时期有关信息检索的研究一般都采用实验或实证研究的方法,这与Djoerd Hiemstna等人得出的研究估论是一致的;从研究的形式上来看,合作研究是这一时期有关信息检索的研究较为显著的特征之一。这些特点表明,信息检索研究经过几十年的发展,目前研究已进入一个相对稳定的阶段,而且由于信息技术的发展,使得信息检索的研究深入到不同的领域。对分类、问题应答、跨语言检索和隐含语义等方面的研究将进一步成为信息检索领域的重点关注方向。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

2006~2007年国外信息检索基础理论研究进展_信息检索论文
下载Doc文档

猜你喜欢