INEX历年项目及其发展,本文主要内容关键词为:历年论文,项目论文,INEX论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
INEX(基于XML检索技术评价平台)创立于2002年,是由欧盟信息社会技术署(IST)旗下数字图书馆项目DELOS(Network of Excellence on Digital Libraries)提供经费支持,美国电气及电子工程师学会(IEEE)提供XML测试用文档集合,致力于XML文档信息检索技术评价的组织。自2002年发展至今,INEX的参加机构和测试项目不断增加,其检索领域历年来不断扩展,从最开始的文本检索:自然语言处理、异构检索、相关反馈,到多媒体检索,再到近几年延伸到其他领域的链接发现、实体检索、问答检索以及网络发现。分析INEX的发展历程,总结INEX的项目特点,关注INEX的发展趋势,对于把握文本检索乃至信息检索的发展动态,指导我国信息检索的研究方向都有重要的现实意义和参考价值。
1 INEX项目特征分析
INEX每年举办一次,从2002年诞生到2010年不到10年时间。从2004年[1]拥有最初5个测试项目,2005年[2]至2009年保持约在7~8个项目,到2010年9个测试项目,可以看出对于XML的检索技术正在飞速进展中,并不断地应用新技术,为用户提供高效的检索方法,以适应网络的多元化发展。有关历年的INEX项目数量及任务统计,如表1所示。
INEX每年的检索项目体现出INEX关注的检索方向,这些入选的检索项目同时也代表检索领域发展的热点动向。INEX每年的项目虽然有所不同,但是有两个项目从2004年出现到2010年没有变化过。Ad hoc Track(特设检索)[1]和Interactive Track(交互式检索)。INEX的发展更加成熟,检索项目在2007年[6]至2010年趋于稳定并不断发展,2008年和2009年的评价项目一样。随着INEX的不断发展,有些任务逐渐退出项目评价的舞台,比如2004年到2006年[4]出现的一些检索项目:Heterogeneous Track、Natural Language Processing Track、Multimedia Track、Document Mining Track、Use Case Track,他们对当时的检索评价做出了贡献,也将继续影响INEX检索项目的发展。同时INEX与TREC不同的是:TREC参与者不仅来自学术领域,还有来自IBM、AT&T、Microsoft、APPLE等不少商业集团,而INEX大部分参与者为高校和科研机构。
2 INEX近几年关注的项目
从2007年开始,Link-the-Wiki检索、书目查询检索、XML挖掘检索、INEX问答检索四类检索项目在INEX检索评价中得到了很高的关注。2010年又增加了两项新的检索项目:数据中心检索(Data-Centric)和网络发现检索(Web Service Discovery)。
2.1 Ad hoc检索
Ad hoc检索调查XML信息检索的效率,调查文章检索中的三个Ad hoc检索任务(集中、相关文档、文档中最优)。在信息检索文献中,Ad hoc检索被描述为一个图书馆,而且它包括一个新的主题搜索静态文档。尽管原理与TREC是相同的,但是INEX的不同在于图书馆书库的构成是XML文档,询问式包括内容和结构条件两个部分,任意的XML元素可以从图书馆书库中被检索。信息检索的总体目标是为一个提交请求找到相关信息。而XML检索是为每一篇包含相关信息的文章从不同元素和段落返回整个级别中的优值。
2.1.1 Ad hoc检索任务
(1)元素检索。在内容子任务中,询问式只包含内容相关的条件,不含有结构相关的条件。搜索引擎的任务是找出一个合适大小的相关元素。用户可能会决定在他们的询问式中加入结构限制,去降低内容询问中返回相关元素的数量。这个内容结构式询问由内容(CO)和结构(CO+S)子任务构成。通过补充结构限制中的严格或模糊的结构限制后,搜索引擎的任务是找出相关元素。
(2)段落检索。检索结束后并不确定返回用户的元素就是最佳答案。在段落检索子任务中,搜索引擎的任务是找出文章的相关段落以满足用户的信息需求。询问式与在元素检索任务中一样,可以比较元素检索和段落检索的算法,内容(CO)和结构(CO+S)两个子任务都可以运行。
2.1.2 用例
两个不同的用例在INEX用到。在集中检索中,用户喜欢单一元素和询问式相关,尽管它可能包含一些宽泛非特定的内容(不能包含重复元素)。在文本检索中,用户对高度相关文章中的元素感兴趣——他们想看到文档的那些部分将最好地满足他们的信息需求。
2.2 交互检索
交互检索主要在两个方面。首先调查用户与大量XML结构化文档结构交互的习惯,第二是调查和开发基于用户环境下的元素检索。INEX交互检索开始于2004年,虽然在任务内容和关注上有过变化,但是基本在四个方面:(1)一般主题组建的过程;(2)一般用户任务集和数据集合方式,如浏览指南和问卷表;(3)一般用户/系统的交互登录过程;(4)理解数据集合应该被所有的参与者分析。
这些保证了通过易操作,参与机构在质量和数量的分析中,拥有足够规模和详细度的关于用户背景和用户习惯的大量同类数据。这些材料是很多论文和会议记录的来源。
2.3 相关反馈检索
与传统的信息评价检索方法不同,相关反馈检索提交后将会是一个电脑执行程序。参与的组织将会以动态链接模型的形式创造、提交他们的相关反馈和排序算法,提交的内容将会被用来与其他提交的执行算法比较,与基于传统的排序算法比较。评价检索希望通过比较和可再生的实验,对不同相关反馈方法的优点提供决定性的答案。
因为呈现给用户的相关结果的反馈增加,参与组织将创造一个或多个相关反馈模块,目标是对于一个询问式排序一个文档集。这些反馈模块可以形成动态链接模型(包括JAVA相关反馈模块文件和动态链接库文件),进而实现一个标准定义的界面。评价平台与模块直接交互,刺激用户搜索进程。评价平台将一个相关反馈模块对象作为示例,还提供一个XML文档集和一个询问式。相关反馈模块将以文档的排序(反馈除外)作为响应,而且将排序返回到评价平台。
因此,可以将反馈前和反馈后排序质量的不同进行比较,决定相关反馈对于结果的影响程度。评价平台将请求下一个测试集中最为相关的文档(还未呈现给用户),并发调用评价平台放行,由相关反馈模块提交的关于最后文档的反馈(以段落分支和长度形式)。这个反馈来自各主题的qrels,由Ad hoc检索评估者提供。刺激用户反馈可能被相关反馈模块用以重新排序剩余不可见的文档,返回下一个最为相关的文档。因为文档集和相应的反馈直接来自相关评估(产生于INEX Ad hoc检索主题池的评估),所以真实用户没必要循环。
评估平台会继续提交请求给相关反馈模块,直到集合中的所有相关文档被返回。评估平台将保留相关反馈模块产生的显示文档排序。这个顺序将被特设检索以一般的方式评估,伴随基于标准文档的检索算法。期待有效的动态相关反馈方法将比静态排序方法产生更高的分数(即:初始基线等级排序)。在所有的主题和系统中评估将会被执行,使用标准的INEX和TREC算法对所有主题集的平均表现排序。为了比较集中相关反馈和整个文档反馈,实验对于每个提交会执行量词。第一次,集中在反馈;第二次,反馈整个文档,即:返回的相关文档将会是整个文档。对于一个询问,每个主题由一个文档集(主题池)和一个完整详尽的手工评估组成。因此,对于每个主题池有一个经典的Cranfield实验,作为对于单一询问式完整评估的小集合。
2.4 Link-the-Wiki检索
Link-the-Wiki检索是给文档间链接评估制作一个进程和度量的标准。在一个非链接的文档集合中,任务是分析文本和推荐一套来自其他文件汇集的内部和外部链接——从链接锚文本到最佳切入点(BEP)。这意味着链接锚文本将会与目标文档的特殊地址链接,作为开始阅读相关材料的最佳切入点。不同于传统文本分析,文件级和元素级的链接发现将被评估。在链接发现中,参与者将给一个Te Ara百科全书文档集。任务是发现内部和外部链接。这个任务需要参与者在传统INEX中的协作评估。
2.5 书目检索
书目检索的目标是提高交叉学科研究调查技术,以支持用户在数字图书中搜索所需文章,提供一个交换研究思想的平台。书目检索关注四个检索方面:信息检索、人机交互、数字图书馆和电子书。关注的应用是:(1)搜索数字图书集,(2)用户与数字图书的交互,(3)增加数字图书内容检索的可行性。
2010年书目检索的任务有四个:(1)证实任务。找到书中的证据去肯定或否定一个事实陈述。系统需要返回来自书中相关评论的XML元素。这个任务测试应用了集中检索,超过50 000本数字图书作为测试集。(2)最好、相关书本的任务。在给定相关事实的主题中,找到最好、最为相关的书目。这个任务是测试在超过50 000的数字图书集中,特定域全文本的搜索方法。(3)积极阅读任务。指挥用户学习积极阅读,即探索在特定的使用情景中,用户如何并且怎样关注电子书的使用性能。(4)结构提取任务。建设数字图书的导航工具,构建来自OCR文本的超链接内容列表和发布1000部样本图书的版面信息。
2.6 XML挖掘检索
XML挖掘检索探索两个主要问题:(1)识别关键问题和挖掘半结构文档;(2)研究和评估监察,为半结构化文档分类和聚类,提供半监察和无人监察学习技术。检索包括分类和聚类任务:聚类任务需要参与者将文档用无监察认知运算法则在没有任何聚类标签的情况下组合聚类;分类任务要求参与者用监察和半监察学习算法和训练集给文档分类。聚类任务提供了一个新的平台测量,使用Ad hoc Track相关性评价,确定相关文档聚类是多否恰当。
2010年,XML挖掘聚类任务通过应用标准评估指标,如Purity,Entropy,F-score,Normalized Mutual Information评价无监察学习,解决事实分类。同时也评估了无监察学习方法在XML信息检索的应用。这决定了聚类的质量与集合目标是否相关,给出一组来自Ad hoc检索的手工询问评估。
聚类假设:Jardine和van Rijsbergen 1971年提出,聚集在一起的文档对于一个给定的询问式有相似的关联。这个任务就是将144 625个XML挖掘文档集合打散,如果这个聚类假设成立,如果合适的聚类可以实现,那么一个聚类将取代一些聚类,以满足任何给定的询问。这个假设如果成立,只有一小部分聚合需要搜索,将大大提高信息检索系统的检索效率。
这个任务可以给聚类的数量加以限制,提交不同聚类方法产生的不同数量的聚类:50、100、200、500和1000。也可以通过“+/-5%”给聚类的数量加以变更。任何聚类的数量不是以上这样的形式将不会被评估。
2.7 INEX问答检索
问答检索由INEX2009-2010年参与者集体履行,用维基百科回答一个学术问题。参加者提出的问题为评估目标,需要从文档集中提取元素和段落的答复。答复的正确性只由支持段落和文件的参加者建立。两类回答结果需要被考虑:(1)短的结果,一个单独的实体(名词短语、整数、分数或者日期)和那些用在多元条件问题(MCQ)下的学术测试。(2)长的结果,回答由一些优先检索段落组成的整体。参加者需要提交至少一个完整的全自动运行结果。然而,手工运行是被鼓励的,在过程的任何层次中需要人的介入都被看作为手工运行。
2.8 数据中心检索
现在对于XML数据的关键词搜索可以分为两类:一类是以文档为中心的XML,结构是简单的文本占主导;另一类以数据为中心的XML,结构复杂并且携带了关于对象及其之间关系的重要信息。前些年,INEX关注于以文本为中心的XML的不同检索方法的比较,而多数以数据为中心的XML检索的研究工作不能用同样标准的评价方法。这个新的检索旨在为研究者和使用者提供一个通用的平台去比较以数据为中心的不同检索技术,因此有必要提高这个领域的研究工作。
每个XML文档是经典的树状模型,以节点为标签的树。关键词询问的结果定义为一组“密切相关”的节点——对于询问式“共同相关”。所以每个结果可以确定为子树集——来自于一个或多个相关而且共同覆盖相关信息的XML文档。任务是返回结果的排序列表(子树集),评估对于用户信息需求的价值。子树集的内容不能被重叠,这个与特设检索中的集中任务相似,但是数据中心XML集允许来自单一文档或者多个文档不同部分的结果建造。
参与者可能提交10个运行。每个运行可以包含每个主题最大为1000条的结果,以相关度的降序排列。所有运行可以用任何主题,但是只有当运行用
3 结语
通过对INEX评测会议的分析,XML检索评价关注Ad hoc、交互检索、相关反馈检索、Link-the-Wiki检索、书目检索、XML挖掘检索、问答检索、数据中心检索。Ad hoc检索在INEX评价平台每年都会进行,是非常重要的评价项目。2010年随着网络的普及,信息量的迅猛增加,信息的挖掘、分析、发现技术尤为重要,因此更关注数据中心及网络发现检索项目。