问答式信息检索查询优化技术研究,本文主要内容关键词为:技术研究论文,信息检索论文,问答式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2009.05.006
1 引言
随着互联网的飞速发展,计算机可读的文本信息也越来越多。要从如此规模的信息中抽取有用的信息资源,对信息处理的速度和精度将提出极为严格的要求。信息检索服务已经成为信息时代的一项必不可少的服务,“特别是网络信息检索(即搜索引擎),已经是继电子邮件服务之后的网络第二大服务[1]”,对我们的科研和日常生活产生不可估量的影响。
问答式信息检索(Question Answering,QA)这一自然语言处理研究领域中具有挑战性的研究方向近年来受到广泛关注。通常意义下的文本检索输入的查询是关键词,返回相关文本,用户需要进一步查找定位所需信息。一个成功的问题回答系统可以克服传统搜索引擎的弊端,它接收自然语言描述的问题,在文档集合中搜索并返回问题的精确答案。
由美国国家标准技术局(National Institute of Standards and Technology,NIST)和国防部高级研究计划局(Defence Advanced Research Projects Agency,DARPA)组织召开的一年一度的文本检索会议[2](Text Retrieval Conference,TREC)设立了问题回答这一项子任务,对问题回答系统进行科学的评测,该会议已经成为文本检索领域最具有权威性的评测会议。
一个完整的问题回答系统包含三个主要组成模块。第一模块是问题分析,它决定答案类型并生成查询;第二模块是检索,根据第一模块输出的查询在文档集上搜索,返回相关文档或片段,这些文档或片段可能包含了答案;第三模块是答案抽取,分析第二模块返回的文档或片段并抽取出问题的精确答案。
由此看到,在第三模块中实现最终的精确答案获取,前提必要条件是第二模块能够返回包含正确答案的相关文档或片段。检索模块性能的提高将直接影响问题回答系统的整体性能。
信息检索的核心问题是如何改善和提高其查全率和查准率,其困难主要来自于用户如何准确地表达自己的查询请求,有效地和信息检索系统交互。通常,用户进行初次检索时输入的关键词往往不够具体,不够准确,并且这些关键词所能够反映的信息量是有限的。
查询优化成为信息检索中的一个研究热点。查询扩展是改善和提高信息检索系统查全率和查准率的关键技术之一,利用计算语言学等多种技术,把与原查询相关的语词或者概念添加到原查询,然后再次检索文档,解决信息检索领域长期困扰的词不匹配问题,弥补用户查询信息不足的缺陷。
查询扩展技术的核心问题是如何设计利用扩展词的来源。目前扩展词的来源有三种:一是来自初检文档中认为相关的文档;二是基于大规模通用语料库的统计信息例如同现概率、互信息等构造扩展词表[3];三是来自某种包含词与词间相关的信息资源,这种资源既可以是人工生成,也可以是利用大规模语料通过统计的方法自动生成,其中,常用的资源为WordNet[4]和HowNet[5]。
问答式信息检索中,大多系统采用成熟的搜索引擎实现相关片段检索。基于Web的QA系统中,Google、AltaVista等优秀的搜索引擎是好的选择。Eugene Agichtein[6]提到将多个Web搜索引擎的结果综合使用以提高系统性能。本文采用Google作为QA系统的搜索引擎。因此,在检索过程中,查询技术成为关键。Cody Kwork[7]采用的查询生成和查询扩展方法包括词形转换、词序调整等。Dragomir Radev[8]提出用概率模型生成查询。本文提出两种应用于QA系统的查询优化策略:基于模式实现查询优化;基于Web资源蕴含关系的查询扩展。
本文按照如下内容进行组织:第2节介绍基本查询的生成方法;第3节介绍查询优化技术,包括模式优化及基于Web自动构建语义资源;第4节介绍实验分析及性能评价;最后是结论。实验结果表明,经过查询优化,系统检索性能有了较大提高,同时进行了t-test,性能提高统计显著。
2 基本查询生成
我们的QA系统采用Google作为搜索引擎,Google具有一个重要的特点:短语搜索功能,即通过添加双引号搜索短语(如:“like this”),在查询到的文档中,引号内的内容将作为一个整体出现。我们利用Google的短语搜索功能,在很大程度上缩小检索范围。
基本查询的生成采用如下两种方法。
2.1 短语查询
对问句进行分析,完成词性标注、短语标注工作。将问句中的短语作为查询,提交给搜索引擎。其中,每个短语提交作为一个整体。
例如:Who is the inventor of the telephone?
由短语标注后,得到如下结果:
the inventor—名词短语
the telephone—名词短语
将以上短语进行组合,得到查询项:
{“the inventor”“the telephone”}。
2.2 句法成分组合查询
由于Web包含了海量的数据信息,我们认为会有一些文本以最直接的方式回答提出的问题,也就是说,答案会出现在问句的陈述句形式中。比如:Practitioners of Wicca worship mythical goddesses.回答了问题What do practitioners of Wicca worship?基于这样的想法以及Google的功能特点,我们对问句进行句法分析,根据句中核心动词确定主语、谓语、宾语及状语,将问句转换为陈述句式,如“practitioners of Wicca worship”,以更准确的定位答案信息。所用到的句法分析器为Link Parser[9],准确率达到90%。在我们的实验中,该Parser处理普通简单句子的平均速度少于0.1s。
根据问句成分的不同,用不同的方法来组合问句成分。
(1)按照“主语+谓语+宾语+状语”的结构,将所有可以连续组合在一起的问句成分都用引号“”括起。
这样生成的查询词是最严格的,返回的检索结果也是最可能包含正确答案的。示例问题:
What do practitioners of Wicca worship?
主语:practitioners of Wicca
谓语:worship
宾语:what
状语:NULL
可生成基本查询:
3 查询扩展
3.1 模式查询优化
QA系统的检索模块,基本查询的生成是基于短语和问句的句法成分,取得了较好的效果。但也有部分问题,检索模块没有返回包含正确答案的相关片段或返回很少的相关片段。答案模式描述了问题的答案可能出现的不同表达形式,这是一个非常好的资源,可以充分利用,实现查询扩展,使检索模块得到更好的性能。
两类模式实现查询扩展:问句转换模式;模式知识库。
(1)问句转换模式查询扩展
对问句进行句法分析,根据句中核心动词确定主语、谓语、宾语及状语,最后将这些句法成分进行组合生成问句转换模式,该模式进一步生成扩展查询。
在问句转换模式生成过程中,用到启发式规则集,针对不同类型的问题采用不同的策略。规则举例如下:
3.2 Web蕴含语义查询扩展
很多研究者采用“伪相关反馈”的方法进行查询扩展。利用统计方法从第一次检索返回的前n篇文档中选取m个术语加入到查询中,并利用扩展后的查询进行检索。该方法依赖于第一次的检索结果,如果第一次检索的结果中前n篇文档只有很少的文档与查询相关,那么很多与查询不相关的术语也被加入到查询中,导致检索性能降低。
为了降低伪相关反馈方法对第一次检索结果的依赖性,结合问答式检索的特点,本文提出针对不同的问题类型,基于Web资源获取具有蕴含关系的术语,实现该类问题相关术语资源构建,进行查询扩展。
表2所示为问题类型与其所表示的问题对照示例。一类问题类型模式可表示多个不同的问题,针对每个问题获取相关术语,构建该类问题的查询扩展术语资源。
结合语义关联信息选取相关术语。由问题的基本查询提交给Web,对返回的前20篇网页文档信息进行分析,判断其中出现频率高且同基本查询中的关键词具有蕴含关系的词汇,将其加入查询列表,作为扩展查询。该策略可以根据Web资源自动的构建语义资源,具有更好的时效性和实用性。
自动识别文本蕴含[11](Recognizing Textual Entailment)关系近年来引起关注,它对于推理技术的实现有极大的推动。文本蕴含关联可分为不同的级别:词汇级蕴含、句法级蕴含、深层语义蕴含以及各种不同级别蕴含的组合。查询扩展是针对词汇级的扩展,我们目前利用WordNet进行词汇级蕴含研究,实现基于语义关联的查询扩展。
WordNet是一个在线的结构化词汇知识库,它包含多种语义信息。我们利用同义、相似、上下位和蕴含4类语义信息,在词汇级挖掘语义关联信息,实现查询扩展。
(1)同义、相似关系
若词汇T与词汇H在WordNet中是同义关系或相似关系,则称词汇T蕴含词汇H(或词汇H蕴含词汇T),二者之间存在语义关联。例如,“trouble”和“problem”;“help”和“assist”等。
(2)上下位、蕴含
设包含词汇T的同义词集(synsets)为ST,包含词汇H的同义词集(synsets)为SH,如果在ST和SH之间存在一条由“上位”、“下位”以及“蕴含”构成的路径,则认为词汇T和词汇H之间存在蕴含关系。在我们的实验中,限定路径长度不大于4。例如,“snore”和“sleep”各自所在的同义词集之间存在由WordNet的“蕴含”关系构成的路径,存在语义关联。
该策略在进行查询扩展时,不仅考虑被扩展词汇与基本查询术语的共现频率,同时,综合分析词汇之间的语义关联,有效提高检索精度。
4 实验分析及性能评价
我们利用TREC提供的问题集与答案集(TREC8-TREC13)做了几组实验来测试查询优化方法的性能。
搜索性能的评价,通常采用的指标为精度(precision)和召回率(recall),具体含义为:
本系统基于Web信息借助Google实现检索,在这里,采用评价指标——P@n,即前n选的精度(top n precision),评价所生成查询的质量。在检索返回的结果中,用户往往对排在前面的结果最感兴趣,而一般不会浏览后面的结果。因此,排在前面的结果的质量也直接影响用户对检索的满意程度,前n选精度也是在信息检索中一个有用且常用的指标。
图1(a)-(f)分别表示在TREC8-TREC13测试问题集上,不同查询优化技术应用的性能。
我们同时做了t-test来测试系统检索性能提高的显著性,如表3所示。
图1 检索性能比较(P@n)
P@n代表搜索引擎对每个提交的查询返回前n个结果时系统的精度。这里,我们最多只对每个查询返回的前20个结果进行评价。
实验结果说明,模式查询扩展以及Web蕴含语义查询扩展策略的应用,系统检索性能得到提高。如表3所示,两种查询优化技术在P@5,P@10和P@15评价时,性能明显高于基本查询的性能,统计显著;在P@20评价时,蕴含查询扩展策略性能提高不显著。
5 结论
问答式信息检索系统中,检索模块具有举足轻重的作用,直接影响系统整体性能。检索模块返回包含正确答案的片段越多,系统抽取正确答案的几率越高。基于Web的QA系统,查询生成及优化技术成为检索模块的核心。
本文在基本查询基础上采用了两种查询优化策略:基于模式扩展的查询优化;Web蕴含语义资源查询优化。模式知识库包含问题回答中的答案抽取模式,描述了问题的答案可能出现的不同表达形式,利用它实现查询优化,有效提高检索效率。另外,Web包含了丰富信息,并具有更好的时效性和实用性,对网页进行分析并从中提取相关术语,自动构建语义资源,进行查询扩展。实验结果表明,相对于传统的查询生成方法,本文采取的查询优化策略,检索性能有了较大提高,t-test结果表明,系统性能的提高统计显著。
收稿日期:2008年4月16日