亚洲语言信息检索评测会议NTCIR介绍,本文主要内容关键词为:亚洲论文,信息检索论文,语言论文,会议论文,NTCIR论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
序言
随着全球化进程席卷全球,互联网所提供的信息资源不再集中于英语等少数几种语言,同时英语非母语的互联网用户比重也在快速增加。根据预测,到2005年,非英语互联网用户将增加到总用户数的68%,其中中文用户增长速度最快,大约占总用户的21%左右,而其它非英语语种也有不同程度的增长。对于大多数不精通外语的用户而言,熟练地使用外语查询所需要的相关的其它语种信息较为困难,而使用母语查询条件检索出相关的外语信息,再借助于辅助翻译工具浏览相关的信息则相对较为容易。因此自动将用户的母语查询条件翻译为相应的其它语种查询条件,再使用相关信息检索系统检索出所需的信息,是方便用户获取网上资源的有效途径。跨语言信息检索(CLIR:Cross-Language Information Retrieval)研究的正是这方面的内容,它是信息检索研究为了克服语言障碍而发展出来的一个分支[1,2]。
在跨语言信息检索的研究上,近几年有多项国际会议举办专题演讲,甚至举办特定国际会议。著名的计算语言学和信息检索领域国际会议,如ACL、ACM SIGIR、COLING等,都有特别的议程探讨跨语言信息检索的发展。除了理论和技术外,跨语言检索评测更是检索系统发展过程非常重要的一环。传统对于信息检索系统的评测都在标准化的实验室环境中进行,以比较检索系统或者检索技术的检索性能,然而早期的测试文档集规模通常较小,与真实的检索环境之间有很大的差距,因此基于这样的测试集的检索系统,在实际应用中无法达到较好的性能。对于像跨语言信息检索这样很大程度上依赖实验的学科,相关的检索系统评测会议对于该学科的发展起到了很大的推动作用。跨语言信息检索方面比较有影响力的系统评测会议包括TREC[3]、CLEF[4]和NTCIR[5]评测会议。本文主要介绍针对亚洲语种的跨语言信息检索会议——NTCIR,第一部分介绍NTCIR的历史沿革;第二部分详细介绍NTCIR的日程安排,任务构成以及评测语料的情况;第三部分对于TREC和CLEF做一简单介绍。
1 NTCIR的发展历史
NTCIR是由日本文部省下的情报信息研究所(NII)主办的多语言处理国际评测会议。主要关注中、日、韩等亚洲语种的相关信息处理。该评测会议的主要目的就是增强信息获取技术的研究交流,包括信息检索、问答系统、文本摘要、信息抽取等。其举办目的主要为:
(1)提供大规模可重用的测试集并在此基础上允许不同语言处理系统进行结果比较,建立通用的评测体系和标准。
(2)提供各种用来交流思想的相同兴趣小组,讨论实验方法的论坛。
(3)探索研究评定各信息获取技术优劣的评测方法和更科学地构建大规模可重用数据集的方法。
大规模可重用标准测试集在信息获取(IA)研究中的重要性已经被普遍认可,而以提供数据集和交流论坛为特征的评测会议也被看成是有力促进当前活跃的研究项目发展的新形式。通常,评测会议会提供试验测试集和统一的实验结果评价流程。在NTCIR中,每个参评小组独立完成自己的研究和试验系统,并使用NTCIR组织者提供的相同的数据来测试系统的效果。
首届NTCIR评测会议发起于1997年,每一年半举办一次。迄今已举办五届,今年是第六届。相比TREC等评测会议来说,虽然NTCIR评测举办历史不长,但发展很快,几乎每届都会根据上届情况和当前研究热点提出新的比赛项目,参与的单位数目也急剧增加,其中,在第5次NTCIR评测会议上,有来自12个国家和地区的超过100个研究小组参加了各种类型的评测,同时会议的影响也急剧扩大。
下面简要介绍一下NTCIR历届举办的情况。NTCIR第一次会议开始于1998年11月,会议论坛在1999年8月30号至9月1号之间举行,地点是日本KKR宾馆。在这次会议上,有来自6个国家的28个工作组参加相关比赛并提交了实验结果。第二次会议开始于2000年6月份,会议论坛在2001年5月的7、8,9号3天举行,有来自8个国家的46个工作组注册,36个组参与并提交了至少一个比赛项目的实验结果。第三届开始于2001年10月,会议论坛在2002年10月8-10号举行,来自9个国家的65个工作组提交了结果。前三届使用的测试文档集、比赛项目参与者、组织单位情况如表1所示。
我们从前三届的比赛项目以及参加的单位数目可以看出,NTCIR发展很快,到第三届时,NTCIR已经基本具备了较完备的信息获取方面的热点领域评测,比如跨语言信息检索、WEB信息检索、QA系统、文本摘要以及专利检索等。之后分别于2003年6月和2004年10月开始的第四、五届NTCIR评测会议基本沿袭了第三届的比赛项目设置,只是根据当前研究及应用趋势,逐渐推进了对信息自动处理的一些要求,这主要反映在专利检索和基于WEB的检索上。
值得关注的是,与第三届首次将专利检索引入评测时采用的有效搜索(validity search)不同,从第四届开始将检索要求改成了无效性搜索(invalidity search),即将给出的初始文档集全部看成相关文档,根据给定的专利要求声明找出不相关的文档。再就是从第五届开始,取消了文本摘要的评测。为了适应NTCIR发展的需要,也是出于时刻关注信息获取相关领域最新发展动向的要求,从NTCIR举办以来,几乎每届都会在正式比赛项目之外,提供一些可供选择并鼓励各参赛单位参与的新的热点项目,并且也欢迎参赛者根据自己的研究兴趣提供新的项目类型及提交已取得的进展以供会议论坛讨论,有价值的就会被选入下届评测,例如基于WEB的信息检索中的Speech-driven信息检索和检索结果分类(result classification)曾作为可选的项目出现,随后又被选为正式比赛部分。在今年的第六届NTCIR评测会议上,针对人们发表的主观观点进行的信息检索(opinionanalysis)作为当前研究热点就是新列出的项目。历届NTCIR评测也非常欢迎没有参与比赛的研究单位的参会单位就信息获取的某一个方面提出自己的有益建议。
NTCIR项目从一开始,会议就同时关注传统的基于实验室类型的IR系统测试和更富挑战性的技术的评测。对于传统的基于实验室类型的IR系统测试部分,会议把重点放在两个方面:对各亚洲语种的信息检索(IR)、语言信息检索(CLIR)。而对于具有挑战性的新技术部分,从以文档为检索目标转向以信息为检索目标以及有效利用文档中信息的技术,更接近现实需求的评价标准和体系,包括对摘要的评测方法,多级相关性判断,以及针对特定文档类型检索和处理的评价方法等。
推动NTCIR发展的一个主要因素就是它提供的大规模的应用在各评测项目上的文档集及整理的上千个专题。NTCIR文件集的来源主要为NACSIS学术会议论文资料库中的摘要和关键词等资料,目前已有超过300,000笔,并且为英日对照,每篇文件均具有SGML标示,部分文件还有词类标注。NTCIR文件集的另一个主要来源就是各种主流新闻报刊,以及日本国内近几年发表的专利文档。并且这些文档和专题规模每届都还在增加。
NTCIR另一个主要的努力点则在信息检索评价标准的探索和完善上,每届评测都针对各主要比赛项目制定很细致的评价标准,以尽量符合信息检索对任务要求的本质。在采纳主流的基于recall-precision和precision的评测体系的同时,也引入了更能反映检索内容相关性的F-grained评测体系。
2 NTCIR跨语言信息检索评测
NTCIR跨语言信息检索评测以亚洲语言为主,初期是以英文和日文的跨语言检索为主。2000-2001年台湾大学陈光华教授和陈信希教授与日本文部科学省情报信息研究所合作,共同举办中文信息检索评比和英中跨语言信息检索评比。2001-2002年规模扩大至中、日、韩、英四国语言的跨语言信息检索评比。本文以下部分从NTCIR跨语言信息检索的评测日程安排、评测子任务设置以及评测语料等几个方面,对于NTCIR跨语言信息检索做一简单介绍。
2.1评测日程安排
每届评测从参评队伍注册到评测完全结束时间跨度大约为1年左右时间,下面是NTCIR5的日程安排计划[5]:
2004-09-30:参加评测队伍申请截止日期
2004-11-20:文档集合发布(中日韩)
2005-05-01:查询条件集合发布(中日韩)
2005-06-01:参评队伍提交结果(中日韩)
2005-07-07:英文文档集合发布
2005-08-15:参评队伍提交英文结果
2005-09-13:参评队伍得分发布(中日韩)
2005-10-02:参评队伍得分发布(英文)
2005-10-15:提交会议论文截至日
2005-12:举办NTCIR Workshop 5会议
2.2 跨语言信息检索评测子任务
一般每届跨语言信息检索评测包含以下三项子任务[6-8]
(1)单语言检索:
提供给参评队伍的文档集合与查询条件集合属于同种语言,所以有以下四种单语言检索:中文,英文,日文,韩文。
(2)双语检索
双语检索的任务是给定某种语言的查询条件集合,在另一种语言的文档集合中查找相关文档;比如给定中文查询条件,在英文文档集合中查找相关文档;参评队伍在报名时刻可以选择自己想要参加的双语检索类型。
(3)多语言检索
多语言检索的任务是给定四种语言其中之一的查询条件集合,在两个或者两个以上语言构成的文档集合里面查找相关文档,比如NTCIR5就允许参评队伍任意选择四种语言中的一种语言作为查询条件,然后在中,英,日,韩所有四种语言的文档集合中查找相关文档。
2.3 评测语料
跨语言信息检索评测语料包括查询条件集合、文档集合以及标准答案三个部分组成。查询条件(Topic)模拟用户需求,由若干字段组成,采用规范格式描述用户希望检索的信息。文档集合是由海量的文档构成的数据源。每个参评队伍在得到查询条件集合以及文档集合后构造自己的单语检索系统或者跨语言检索系统,并将检索结果按照指定的格式提交给NII,NII将各队提交的答案和标准答案进行比较,其得分用以评价参赛队伍检索系统的效果。
2.3.1 查询条件
信息检索中的查询条件是模拟真实世界用户搜索的信息需求,NTCIR的查询条件遵循基本的格式,其格式延续TREC的查询条件定义,每一检索主题包括查询条件标号、标题、描述和相关叙述。由于是跨语言信息检索,因此也提供不同语言的查询条件集合,在每个主题加上语言的类别标签。NTCIR的查询条件是由日本、韩国、中国台湾以及TREC共同制作的,换言之,查询条件集合具有国际化的特色。而且,每一个问题都有四个语言的版本,亦即中文、英文、日文以及韩文。NTC旧使用
2.3.2文档集合
NTCIR跨语言信息检索的文档集合也同样包含中文、英文、日文以及韩文四种语言,中文、英文和日文分别收集于近期中国台湾和日本报社的新闻,韩文为1994年的经济新闻。整体而言,中文和日文文件量相当,其次是韩文、英文,其文件数量相对较少。
随着NTCIR评测的逐渐完善,其文档集合也在不断的扩展和完善.每次评测制定文档集合会根据上届各个参评队伍返回的意见不断调整语料集合并修正一些错误。在四种语言的文档集合中,日文、韩文以及英文的变动相对较小,中文文档集合的变动相对较大,下面以中文文档集合的变化为例简单说明。
中文文档集合到了第五届NTCIR评测会议已经历经CIRB010、CIRB011、CIRB020、CIRB030发展到了CIRB040版本,包含901446个新闻文档。其中CIRB010、CIRB011、CIRB020是早期第一届和第二届采用的文档集合,第三届和第四届采用CIRB011和CIRB020合并的方式,到了第五届则在修订已经发现的问题基础上扩充文档数量,形成了CIRB040文档集合(表3)。
NTCIR的文档集合中的每个文档也采用XML标签来对文档不同域进行标记,其采用的标记集合见表4。
2.3.3相关判断
NTCIR在判断文档集合哪些文档是标准答案的时候与TREC一样采取Pooling作法[9]。也就是说,针对每个查询主题,从参与评比的各系统所送回的测试结果中抽取出前列文档,合并形成一个Pool,视之为该查询主题可能的相关文档候选集合,将集合中重复的文档去除后,再送给该查询集的构建者进行相关判断。以此得到的相关文档作为标准答案来评价每个参评队伍检索系统的性能。
2.3.4 评价指标
参评指标主要采用MAP和R-Precision两个指标,其含义如下:
(1)MAP(Mean Average Precision)
单个主题的平均准确率是每篇相关文档检索出结果后的准确率的平均值。主题集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。
(2)R-Precision
单个主题的R-Precision是检索出R篇文档时的准确率。其中,R是测试集中与主题相关的文档的数目。主题集合的R-Precision是每个主题的R-Precision的平均值。
3 其它跨语言信息检索评测会议
在跨语言信息检索评测领域,除了上文介绍的NTCIR、TREC和CLEF也是非常著名的跨语言信息检索评测会议。
在1992年,美国国防部高级计划研究计划局(DRAPA)与美国国家标准技术局(NIST)共同举办了本检索会议(TREC)。通过大型测试文档集的建立,测试项目、测试程序、评估准则的制定,为不同的检索系统和检索技术提供了一个标准的评比环境,并举办论坛让参与者讨论和分享结果。它首创了前所未有的大型测试文档集,使得测试环境得以更加接近真实情况,对检索技术的发展与系统性能的提升具有很大的贡献。从第6界TREC会议开始,CLIR成为正式的测试项目之一。TREC会议主要集中在西方语言之间的跨语言检索,后来也增加了中文、阿拉伯文与英文之间的跨语言检索评测项目。
CLEF是欧洲委员会资助的数字图书馆研究中的一部分研究内容。它是与欧洲语言跨语言信息检索有关的评测会议,从2000年开始,到目前为止已经举办了六次会议。其测试项目包括欧洲语言的单语检索、跨语言与多语言检索、受限领域检索以及交互检索,涉及的欧洲语种有十多种。
4 小结
NTCIR是个开放程度很高同时发展很快的国际评测会议,它主要面向中、日、韩、英等当前受到广泛关注的语种。本文主要介绍了NTICR的发展历史,重点介绍了NTCIR跨语言信息检索评测的一些方面。NTCIR目前在国际上已有不小的影响,随着参赛单位数目增加以及各种评测语料集合的逐步完善,可以预见它的影响将进一步扩大并对相关学科产生积极的影响。
标签:信息检索论文;