自然语言检索的实现及其关键问题_自然语言处理论文

自然语言检索的实现及其关键问题,本文主要内容关键词为:自然语言论文,关键论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G354.2文献标识码:A文章编号:1007-7634(2007)05-0733-09

1 自然语言检索的意义与研究现状

1.1 自然语言检索的作用

在信息检索中,尤其是在信息检索的标引过程中,所谓的自然语言是相对于受控语言而言的,自然语言本质上是未经加工和规范化处理的非受控语言。从信息检索的整个过程来看,自然语言检索包括自然语言标引和自然语言提问查询两个方面的内容。可以认为,自然语言检索就是直接以源文档中的内容作为检索标识,用户能够直接使用自然语言表达提问,并完成信息检索的一种检索形式。所以在自然语言检索中,用户可以直接使用自然语言,通过字、词、句子甚至段落等作为提问式进行检索。

一般认为,自然语言检索系统应包括以下三个方面的特征:①在生成信息源检索标识时,使用作者、摘要编写者原来所用的词语或标引人员自拟的词语,而一般不使用取自词表的规范词语进行标引;②在技术实现上,自然语言检索将自然语言处理技术应用于检索系统的信息组织、标引和检索输出中;③从检索用户的角度来看,自然语言检索直接采用自然语言形式的字、词甚至整个句子、段落作为检索提问输入和对话时的交互方式。

目前,网络信息资源在信息检索中所占的比重不断增加,成为越来越重要的信息资源形式。丰富的网络信息资源造就了大量的网络信息用户。在网络环境下,信息用户构成发生了变化。终端用户不再以专业技术人员为主,而是包括了不同年龄阶段、不同职业的用户,非专业人员的网络检索行为的比重大幅度提高。由于用户的多样性,用户的检索需求也由学术性信息转为更加生活化的信息。这样,大多数用户,尤其是没有经过检索培训的用户,趋向于使用自然语言来描述他们的信息需求。

1.2 自然语言检索的特点

相对于传统的受控语言检索,自然语言检索具有很多明显的特点。随着近年来网络信息检索的发展,基于传统受控语言的检索由于条条框框太多,在一定程度上限制了它的应用。而其较大缺陷在于受控语言是一种用户不熟悉的语言,用户使用起来较不方便。

相对于受控语言而言,由于未经任何的规范化处理,基于自然语言的检索比较符合人们的检索习惯。因此,作为信息检索的一种类型,自然语言检索可能成为未来信息检索的主流形式。具体地说,自然语言检索不受词表的限制,保持与新概念的同步,可以有效地跟踪新事物的发展;同时,直接采用文献作者使用的自然语言,使标引工作摆脱了对受控语言的依赖,更便于进行自动标引;而对于大多数普通检索用户而言,直接使用自然语言进行检索更符合其行为习惯;另外一个重要的特点在于:由于自然语言检索采用自然语言处理技术,因而能够在一定程度上理解文本信息和用户提问的含义,并在某些环节上进行概念控制,所以能更准确地定位检索目标,实现较好的查准率。

自然语言不存在受控语言的统一兼容问题,在使用自然语言的各数据库间可实现标引、检索成果的共享。另外自然语言不受词表及各种复杂标引规则技术的干扰,更具备联合建设数据库的优势。此外,自然语言检索不仅适合文献检索,更适合数值检索和事实检索。

虽然自然语言检索具有多方面的特点,但这并不意味着一定要用它来代替其他类型的检索。同其他检索形式一样,自然语言检索也有其自身意义和适用范围。一个检索系统可以同时采用多种检索方式,不同的用户可以根据需要选择使用,传统的信息检索方式仍将在信息检索中发挥其作用。

1.3 自然语言检索的研究现状

国外很早就注意到在信息检索中采用自然语言处理技术以提高检索效果,并开始了相关的研究和试验。但研究工作多体现于自然语言检索的一个方面,即使用自然语言处理技术对原始文档进行处理,尝试基于自然语言处理的标引。自然语言检索的最早研究工作是将自然语言处理应用于信息检索的相关环节中,这些工作主要体现在20世纪60年代到70年代早期的自动检索研究中。

早期自然语言检索的研究目标是希望通过机器处理,在自动标引中达到和人工标引相同的效果。Salton(1968)早期的研究和Bely(1970)的有关自动标引工作都表现了该方面的思想。F.W.Lancaster(1972)也就索引建立过程中自然语言和受控语言的索引性能和对信息检索的影响进行了理论研究[1]。80年代后,Sparck John和Tait(1984)运用自然语言处理判定用于抽取复合词的句子结构,Fagan(1987;1988)和Croft、Turtle与Lewis(1991)在此期间都作了重要的工作等。他们对前期的系统作了比较,深入研究了复合词做标引项的可用性以及各词的权重分配问题[2]。

虽然这一时期有很多研究探讨语言现象的细节问题,并在句法,甚至语义层次上进行研究,但是,由于受自然语言处理技术发展水平的限制,很多研究的实际处理结果并不理想。这样,有些人试图在完全的自然语言检索和传统的形式语言检索之间寻找一条中间道路。J.Nie(1987)对信息检索中的类自然语言(Quasi Natural Language)用户接口进行了研究[3]。

由于名词和名词短语在表达概念上具有重要作用,名词和名词短语的识别与提取就成为自然语言检索中的一个关键问题。L.S.Gay和W.B.Croft(1990)对信息检索文本中的名词复合结构的处理进行了研究[4]。L.E.DuRoss(1990)对信息检索中的语言重复现象进行了研究[5],D.D.Lewis和K.S.Jones(1996)总结许多试验研究的成果[6],指出复合词和短语能够比单词更好地表达文献内容概念,而自然语言处理能够帮助信息检索系统自动识别、抽取或构成表达文献内容的复合词或短语,便于进行概念检索,提高检索效率。此外,C.W.Young,C.M.Eastman等人(1991)对文献检索过程中不良输入形式的自然语言提问进行了分析[7],对Thomas Cooper Library和South Carolina University自然语言检索提问中的各类不良输入进行了分析。这些不良输入现象主要包括拼写错误、重复冲突、关联、省略、标点符号遗失或错误等,该研究分析了这些不良输入的出现频率和出现形式等。

这一时期,句法分析和语义分析被越来越多地被引入到相关的研究中。D.P.Metzler; S.W.Haas(1990)在信息检索中使用了领域无关的句法分析器。U.Hahn(1990)研究了信息检索中的主题剖析问题[8]。在语义层次的研究中,T.Sembok和Van Rijsbergen(1990)进行了检索试验,建立了一个试验系统SILOL[9]。F.Zheng(1997)的研究探讨了一种自动标引的语义转换模型[10],此外,E.D.Liddy等(1995)利用当时正在调试的DR-LINK系统对检索中用户提问和相关反馈进行了研究[11];H.K.Kang和K.S.Choi(1997)使用互信息方法,通过双层文档排列方法建立了一个自然语言检索模型[12];T.Pritchard(1995)对两个具有自然语言接口的法律全文数据库检索系统,WESTLAW数据库的WIN系统和LEXIS数据库的FREESTYLE,进行了比较研究[13]。

20世纪90年代以后的一些试验研究可通过TREC体现出来。从1992年开始,自然语言检索就参与评测。到TREC-4时,TREC增加了自然语言处理测试项目,用于探讨自然语言处理技术在信息检索领域所能达到的效益,并与非自然语言检索的结果相比较。在历届TREC会议中,较引人注目的是T.Strzalkowski等人的研究工作。

在TREC-3上,T.Strzalkowski等人在原有的统计方法基础上,引入自然语言处理技术。从T.Strzalkowski的试验结果来看,虽然系统对文本和查询的处理能力提高了,但在查全率和查准率上并没有显著的改善。在TREC-4中,人们探讨了这一现象的原因,发现无论语言处理的层次如何,用户的提问越长,检索的效果也就越好。于是,TREC-5的重点放在构造查询提问的问题上。从TREC-6开始,研究重点转移到查询扩展方式和流索引的合并算法上。

此外,90年代末期,国外很多著名的数据库,如Dialog、BIOSIS、ProQuest online等也开始在自己的检索系统中提供自然语言检索接口,进行自然语言检索尝试。很多面向网络信息资源检索的试验系统及搜索引擎采用了一定的自然语言检索技术,在一定程度上实现了自然语言检索功能,这些试验系统及搜索引擎主要有:START、IRENA[14]、FERRET[15]、Ask Jeeves(http://www.ask.com)、Geoquery(http://www.cs.utexas.edu/users/ml/geo.html)、ixquick(http://www.ixquick.com)、Northern Light(http://www.northernlight.com)、Ask Northern Light a question、Electric Library(http://www.elibrary.com)等。

需要说明的是,国外对自然语言检索的研究都是以研究者的母语为对象的,实际上几乎都是针对英语的。虽然一些自然语言处理的思想和方法可以脱离具体的语言,具有一定的普遍适用性,但是在很多具体的研究内容上,特别是在具体语言现象的处理上,很多方法,甚至问题本身都是与语种紧密相关的。对于非英语的其他语言的自然语言检索来说,有关的各种问题需要在自身的语言环境中寻找合适的解决方案。

在20世纪90年代之前,国内信息检索领域针对自然语言检索的研究以自然语言标引为主,其他的相关研究也多集中于从理论上探讨用自然语言对文本进行标引上。90年代中期之后,出现了一些针对用户提问接口方面的研究。张琪玉教授是国内较早关注自然语言检索的学者,他从情报语言学角度对自然语言标引信息检索效率的各种影响因素作了较深入的研究,提出文本类型、检索范围、检索用词的专指度、文本用词的不规范性、不同的标引方法以及对自然语言进行控制的程度都会对检索系统产生影响[16]。台湾大学图书馆学系的陈光华使用LOB Corpus语料库作为训练语料库,利用SUSANNE Corpus为测试语料库,在句法层次上进行了自然语言检索研究[17]。近几年来,国内也出现了一些提供自然语言检索的试验性网络搜索引擎,主要有TRS检索系统、尤里卡搜索引擎和纳讯中文新闻搜索引擎。所以,国内对自然语言检索及有关问题尚缺乏系统、深入、面向具体问题的微观层次的研究,有很多重要的问题等待着人们去解决。这些问题分布于自然语言检索的各个环节之中,所以,目前对自然语言检索的研究仍然处于探索阶段,一些检索实现方案和试验系统也都只是在一定程度上对少量试验样本所进行的。同时,对汉语自然语言检索的研究较少,缺乏较为深入的研究。由于对自然语言检索可以在不同层次上实现,如有些系统对一些简单的自然语言提问进行简单处理,并利用普通全文索引进行字面匹配,也可以得到一定的检索结果,但这些技术和方法都还不能完全应用于对大规模真实文本的检索中。就目前的情况看,自然语言检索,特别是汉语自然语言检索尚未形成成熟、理想的方法,对有关自然语言检索,特别是汉语自然语言检索的关键问题进行深入研究是非常有必要的。

2 自然语言检索的关键问题

2.1 自然语言检索的实现途径

自然语言检索的研究和应用包括两个方面的工作,它们是使用自然语言进行标引和用户使用自然语言形式的提问进行检索。这两个方面的研究可以独立进行,在技术上分别实现,同时,它们相互之间又具有密切的联系。其中,前者是对规范标引检索语言的自然语言化[16],后者的实质是为用户提问提供自然语言接口,使信息检索系统理解用户以自然语言形式表达的检索需求,系统处理用户的自然语言提问。

自然语言处理理论与技术是自然语言检索处理的重要基础,一般可以把自然语言处理的内容从低到高划分为6个层次,它们是:①语音学层次,即关于对声音的识别、理解和合成处理;②词形学层次,对各种词形和词的可识别部分的处理,如英语中的前后缀,复合词等;③词汇学层次,重点在于对词操作和词汇系统的控制;④句法层次,该层次的处理与语言结构单元的鉴别有关,具体来说就是利用词汇层次的词性标注输出,对输入的词性序列进行分析,划分出短语和从句,考查它们能否构成合法句子,如果能则给出相应的合法句子结构;⑤语义层次,指对自然语言文本意义的识别、理解和表示,它涉及各级语言单位(单词、词组、句子和句群)所包含的意义及其在语言使用过程中所产生的意义。⑥语用学层次,该层次涉及上下文和语言交际环境以及背景意义和联想意义的语义分析。语用学研究不同种类文本的结构,从文章的结构提取附加的含义。自然语言处理利用这种可预测的结构来理解一条信息在文章中起什么作用,如结论、观点、预测或事实。

在实际应用中,根据自然语言处理的内容,人们将词形学和词汇学层次的工作归入词法分析。目前,句法分析方法在信息检索中的应用还不十分普遍,但是由于通过句法分析可以更好地提示词与词之间的联系,较之词汇学层次的处理更全面地理解文本的内容和用户提问的含义。语义分析的处理还没有完全成熟,而语用分析方法距离实际应用也较为遥远,至今未见其在信息检索中的应用。这样,人们更多地关注词法、句法和语义三个应用层次。

依据处理过程中对自然语言文本处理的深入程度,自然语言检索可以只应用词法分析技术,在较低的词法分析层次实现,也可以在检索处理过程中使用句法分析技术,从而在较高的层次实现。所以,在自然语言检索中,对提问与文档的处理可以涉及到词法、句法和语义三种不同层次的分析,它们之间的关系如图1所示。

图1 不同语言处理层次在检索系统中的关系

2.2 自然语言检索实现的重点问题

虽然对自然语言检索的研究已有一段时期的研究,但是其中仍存在着很多值得深入探讨的问题。这些问题包括自然语言文本的分析与处理、面向自然语言检索的标引、用户提问的机器处理、匹配过程控制和查询扩展等。这些问题涉及不同的研究方面,具有一定的难度,其最终解决依赖一些相关学科的发展。

(1)主题分析与标引。高性能的检索需要有效的索引支持。自然语言检索的关键问题之一就在于如何从文档中提取出能最准确、充分地表达文档中与主题相关的词语,以及这些词语在表达文档主题概念时的关系,并将这种关系存储于索引之中,以支持后继的检索过程。该难点的复杂性在于文档作者的用词无明显的规律性,其实质在于如何克服自然语言的不规范性和缺乏语义关联给检索造成的困难。

(2)用户提问的机器处理。自然语言检索的另一个关键问题是用户自然语言形式的提问的机器理解和表示。理想的检索系统应该能够“理解”用户真正用自然语言表达的检索要求,而不只是理解自然词语。不仅要理解用户明显陈述的意义,而且要领会隐藏在表述中的意义。这样,最终用户就不需要多费心思去表达需求、学习烦琐的命令和格式。用户自然语言检索提问的机器理解与文档主题分析及索引所依赖的技术在一些方面是相同的。文档主题分析及索引的一些算法可用于计算机理解自然语言表述的信息检索需求。

当然,由于纯粹自然语言提问处理的困难,要想在现阶段完全解决用户提问的理解问题是不现实的。可行的方法是在不同的语言处理层次上探讨相关的问题,以逐步使机器处理用户自然语言形式的提问,从而在此基础上展开检索匹配过程,得到可接受的检索效果。

(3)提问与索引的有效匹配。提问与索引的有效匹配是自然语言检索的另外一个难点所在。具体的匹配算法取决于索引的结构和提问处理的层次,同时,所采取的检索模型也会在很大程度上影响匹配算法。当索引经历了关键词索引、全文索引、短语索引和语义索引的变化,用户提问的形式和处理也不断变化之时,检索模型和相应的匹配过程如何改进,从而更有效地支持新的检索形式就成为一个重要的问题。

(4)检索中的概念控制。从本质上说,自然语言检索是一种概念检索,它需要一定的概念体系,或知识库支持。从长远来看,自然语言检索系统应以综合知识库为基础,使信息检索与导航服务更具有智能性。知识库中的知识有助于解决表达差异的问题,即解决文本信息源和用户使用不同的词语表达相同的概念。而知识库中的同义词可以消除这种表达差异带来的检索困难。

3 面向自然语言检索的标引

3.1 标引对检索效果的影响

在计算机信息检索系统中,标引方法和结果对检索效果有较大的影响。目前,常用的自动标引方法有无标引形式的全文索引和抽词标引形式的关键词索引。对于具有很强的概念检索特征的自然语言检索来说,这样的标引和索引方式不能很好地满足检索的需求,所以需要探讨新的标引和索引形式。实际上,标引对检索的影响主要体现在以下几个方面。

(1)标引深度。标引深度是指标引一篇文档所用的标识数量,它反映了标引处理对文档的主题分析描述的全面性和专指性程度。作为检索标识的索引词数量越多,查全率就会相对升高,相反,索引词数量越少,查全率就会相对降低;而同时,作为检索标识的索引词数量越多,一些不相关的、无用的“噪声标识”也就可能越多,查准率就可能下降,与此相反,索引词数量越少,这样的“噪声标识”也就越少,查准率可能会相对高一些。

(2)索引标识的质量。标引标识的质量即选用的索引词与所反映文档主题的相关程度,两者相关程度越高,查全率和查准率也就越高,反之查全率和查准率就会降低。索引标识的质量受多方面因素的影响,如文档本身的用词规范程度、专业领域的特点以及自动标引方法。

(3)标引词间关系的表示。文档主题内容是由多个标引词组合在一起共同表达的,在表达某一文档主题时,表达主题的标引词间存在特定的语法联系和限制关系,这种关系在检索上体现为标引词相互间的组合形式。在自动标引过程中,标引词间的关系分析得越准确、在索引中表达得越完备,文档主题概念表达的也就越准确,相应的检索效果也就越好,主要体现在查准率也就越高。

(4)标引文本块的规模。在进行标引时,一个需要考虑的问题是标引项所指向的文本块的规模大小,可以称这样的文本块为标引单元。标引单元是指在标引过程中对多大规模的文本块产生一个标引项集合,它反映的是标引对象的粒度。标引粒度可以是一篇文档、也可以是文档中的一章或一节,甚至是一个段落。在有检索意义的前提下,标引粒度越小,标引也就越精细,在此基础之上的检索针对性、指向性也就越强。

3.2 段落分析与主题标引

就标引单元来看,目前的标引基本上是以文档的物理实体为单位的,这主要是受传统的标引工作的影响。传统的针对印刷型文档的手工或自动标引常以文档的物理实体为标引单位,即以一本书、一篇文档或一个网页为单位进行标引。标引工作是从文档中抽取或为文档赋予一组标引词,这些标引词的目的地址最终指向某个文档。而用户所需要内容具体在文档中的什么位置,则需要用户自己再去进行查找。所以,这种标引更适合那种以寻找文档实体为目的查询要求。

虽然以文档实体为标引单元的标引也可以支持信息检索,但它也存在一系列问题。不难发现,这种标引的索引强度取决于文档本身的规模。对于一定数量的标引词而言,如果文档本身规模较小,其所包含的主题就相对简单,就可以有较好的描述效果;反之,如果文档本身规模较大,那么所包含的主题就相对复杂,主题层次就会多,分主题数量也越多,从而也就很难全面地对文档进行准确的描述。虽然这时也可以通过增加标引词数量的方法来提高标引的网罗度,但也同样会增加不同标引词间错误组配的机会,从而生成出虚假的标引主题概念,在一定程度上造成检索的混乱。产生这些问题的原因就在于,以文档实体为标引单元的标引面对的是一个多主题的描述对象。在生成索引的过程中,无论一个文档实体包含多少主题,标引都是将该实体作为一个完整的单位进行描述。由此可见,在对文档进行标引时,如果能对文档进行适当的划分,使标引对象包含尽可能简单、尽可能少、甚至是单一的主题,就可以降低索引词间错误匹配的机会,提高索引强度和揭示能力,从而更好地支持信息检索。

自然语言检索具有概念检索和事实检索的特征,这些特征使得它对文档内容的检索更细微化。文档通常包括多个主题,用户经常对被检索文档的特定主题或部分感兴趣,所以,检索目的往往是针对文档中的某个分主题,针对不同层次细节的文档内容进行检索,这些内容可能出现在文档中的某个或某几个段落中。对信息检索而言,特别是对自然语言检索而言,有效的标引应该是面向主题概念、面向事实内容的。通过段落分析进行主题标引,是指以一个或若干个有检索意义的主题为标引单元而生成的索引。实际上,概念检索和事实检索都要求检索应面向主题,而不是面向文档实体,这样,传统的全文索引或以整个文档为标引对象的索引都难以有效地支持这种检索。为了能更好地实现自然语言检索,应对源文档进行分析,将文本切分为关联的主题,分割并提取出其中的分主题,使文档的主题层级化表达出来,根据文档主题和分主题将文档分成不同的部分并进行标引。在段落分析的结果进行主题标引,并利用其生成的索引进行检索匹配,可减少甚至消除错误组配,从而提高查准率。

4 用户提问处理

自然语言检索的特征之一就是允许用户使用自然语言的形式直接向系统表达检索需要,这与传统的检索系统限制用户使用词语表达提问的形式不同。由于使用自然语言形式,以自然句子形式表达的提问在形式上与系统索引中的索引项对文档主题的表达形式不同,所以两者无法直接进行比较匹配,这样,就需要先对用户提问进行必要的处理,将以自然语言形式表达的用户提问形式化,产生与索引中索引项相一致的数据形式,从而建立起检索匹配的基础。为了确定处理用户自然语言提问的方法和过程,需要了解用户可能的提问形式。并在此基础之上进行用户提问分析与设计。

4.1 用户提问处理的内容

能够有效处理自然语言形式的用户提问是自然语言检索最外在、最直接的目标。总的来看,用户提问处理的任务就是从用户的自然语言提问中,分析出其信息检索需求,并以系统可处理的形式予以表达。具体地说,就是从连续的词语串中抽取出能够表达检索主题的有效词以及词间关系,并以此为基础构成系统内部的检索形式。为建立这种检索形式,一般对自然语言形式的用户提问处理应包括两个方面的工作,它们是形式上的分解转换和内容上的调整。

(1)形式上的分解转换。利用自然语言提问进行检索时,除非检索系统中的索引项在语言层次采用和用户提问完全相同的形式,否则,必须要对用户提问进行处理,将其转换为系统索引项的形式,这样才能进行匹配。无论用户的提问式是简单的短语还是一个复杂的句子,都应先进行分解处理,从中提取出能反映提问内容的短语,并用词对的形式表示出来,以建立与索引匹配的对象。形式上的分解转换通过对提问进行句法分析而实现。

(2)内容上的调整。自然语言检索具有概念检索、语义检索的特点。同时,用户使用自然语言表达检索需求时,由于提问在构成时基本不受限制,所以自然语言提问式本身具有模糊性、随意性等特点。因此,为达到更好的检索效果,理论上应对其进行概念层次上的处理,即利用一些有关的语言学词典,如同义词词典、概念关系词典等,或相关的知识库,完成概念的判断和调整。用户检索提问内容上的调整可以在检索匹配前的用户提问处理中完成,也可以在检索控制中实现,即在提问扩展和相关反馈中进行概念和语义控制。

4.2 提问语言学现象分析的主要内容

自然语言形式的用户提问在很多方面还表现出与一般的词语提问表达形式所不同的语言学上的属性和特征,这些属性和特征为系统的检索控制带来了新的问题,检索系统在处理自然语言形式的提问时应该考虑相关的问题。通过对用户提问进行分析,应对自然语言提问的以下几个方面的语言现象进行分析。

(1)提问的长度。根据其复杂程度,这种用自然语言表达的用户提问可分为长提问、短提问两种,有时为了分析方便,也可将短提问进一步划分为短提问和超短提问。

(2)疑问词。用户提问表达的是对所查询事物的疑问,所以很多提问都使用了疑问词。由于使用自然语言的系统往往被用户认为具有事实检索和数据检索的能力,所以用户提问也会出现针对事实检索和数据检索的内容。疑问词隐含地说明了要查询内容的类型。

(3)否定形式。对检索过程而言,关键之处在于能够对所存在的否定形式进行识别,并对否定的作用域进行判断,然后将其转化为检索操作控制。在现代汉语中还有一些词,虽然具有否定含义,但已经和所限定的部分结合,形成一个肯定的整体,如“非结构化决策”、“非欧几何”等。

(4)回指、省略与重复。在文本的上下文中,一个事物往往会被多次提到。对于第一次出现,后面的提及就是回指。在汉语中,人们常常用到指代和省略,它们可以起到简化句子和概念的作用。回指有名词回指、代词回指和零形回指三种形式。回指的对象往往是检索中需强调的内容,可以认为是检索需求表达中潜在的中心概念。

(5)时间与空间信息。提问中具有对时间信息与空间信息的描述,这主要是因为需要对检索目标进行时间和空间上的限制。时间与空间信息通过两种方式表现出来,一是通过疑问词,二是通过表示时间与空间的名词。疑问词有“哪里”、“哪个城市”、“哪一年”、“何时”等。通过名词表示的提问如:“2008年奥运会在哪个城市举办”等。

(6)提问用词。由于使用自然语言提问,所以用户表达检索意图的用词具有多样性和不规范性,如用户可能使用关键词“计算机”进行查询,也可能使用“电脑”进行查询。在提问中还存在一些词语,这些词既不是构成提问句子必须的语法成分,对检索也并无实际意义,它们只是用户与系统进行交流语气的一种的反映。如“吗”、“能……怎么样”、“请”等。

(7)标点符号。在提问中,短提问中有些有标点符号,有些则没有,而长提问中都有比较正确、完整的标点符号。对短提问和超短提问而言,标点符号并不重要,有无标点符号并不影响对提问的理解,而对于长提问来说,标点符号,如冒号、顿号等对分析各部分的关系具有一定的作用。

(8)失形与句法错误。汉语是一种语言现象复杂、语法相对宽容的语言,不像一些其他语种的自然语言,如英语那样具有严格的时态、语态、人称和数的变化。从这个意义上说,汉语不会出现失形的情况,即形态错误。

5 检索匹配及概念控制

5.1 自然语言检索的检索匹配模型

在信息检索系统中,标引是系统的后端处理,它为检索建立了索引数据。而用户提问处理是系统的前端工作,它提供了系统和用户之间交互的接口。而匹配控制是真正完成检索功能的处理所在,它将标引工作所生成的索引项与用户提问处理所得到的匹配框架中的检索项进行比较,以确定所对应的文档是否满足用户的提问要求。在检索过程中,索引项与检索项间的比较在一定的匹配控制机制下完成,该机制可以通过检索匹配模型表示。实际上,检索匹配模型不仅直接决定了检索匹配的过程,也间接地影响了索引的形式和用户提问处理的过程。目前常用的检索模型有布尔检索模型、向量空间检索模型和概率检索模型。

从理论上说,自然语言检索可以使用以上三种模型中的任何一种来构造检索过程。但是,当选用不同的检索模型时,相应的索引结构和匹配机制都要与之一致。向量空间模型本身具有结构简洁,形式化强,易于实现的特点。同时,它的实现机制,即通过文档特征项和用户提问项进行比较,并利用权重来计算相似性,然后通过相似性来判断检索结果的机制,部分地克服了传统布尔检索的缺陷,能够产生一种快速将相关文档筛选出来的检索过程,这也是该模型被广泛应用的原因。当然,向量空间模型存在着一些缺点,它的两个主要缺点是:标引词的权重较难确定,对标引词的相互独立的假设不符合实际情况。长期以来,人们也一直在寻找扩展向量空间模型的方法,以尽可能地避免这两个问题对检索的影响。但由于这些扩展模型过于依赖人工的经验参数,在理论上存在着一些问题,所以基本的向量空间模型仍是人们经常使用的模型。而自然语言处理技术的应用为两个问题的解决提供了新的途径,基本模型的不足可以通过自然语言处理技术来弥补。有关分析技术的应用,可以更好地发现索引项在揭示文档内容上的作用,从而为权重的确定提供更准确的结果。同时,短语索引项的使用,也为解决向量空间模型中的问题提供了更多的手段。采用短语索引项使词之间的相互独立的关系变为短语之间相互独立的关系,从而使词之间的关系被更好地体现出来,增加了向量空间模型在信息检索中的优势。而它的另外一个缺点,相似度计算量大的问题,相对较好的准确性来说,在目前计算机硬件飞速发展的情况下,相似度计算量对检索速度的影响已不再是一个难以解决的问题。

5.2 概念控制与语义扩展

在处理自然语言提问的用户检索时,在检索匹配过程中仍使用模式匹配技术,即通过关键词或短语的比较来完成。模式匹配具有处理速度快,简单易行的优点,但是由于自然语言提问未受规范处理,因此具有模糊性和不规范性的特点,所以检索处理时如果只是机械地采用简单的模式匹配处理,而没有采取相应的概念控制措施的话,模式匹配方式就会暴露出自身的缺点,这些缺点主要表现在以下二个方面:

(1)自然语言检索系统对同义词、近义词、多义词以及其他一些与其相关的词语没有进行规范和统一,词间缺乏有机的联系。当然也就无法知道各词汇之间的关系。当用户提问的检索概念具有多种表达形式时,采用单一的关键词或自然语言索引词匹配方式势必会影响查全率。如用户使用关键词“计算机”查询相关文档,则使用术语“电脑”的文档就会漏检。

(2)自然语言检索系统的选词没有严格限制,词量较多,词汇较为杂乱,这样会影响查准率,并且会过多地占用磁盘的存贮空间,影响查询匹配的速度。

为了解决这些问题,必须在匹配过程中对自然语言查询做进一步的处理,即在概念层次上进行控制。用户提问通过关键词表示检索概念,而概念并不是孤立存在的,一个概念总是与其他概念之间存在着各种各样的关系,如上下位关系、同义关系、反义关系等。同时,关键词也会出现一词多义、一义多词以及同一事物多种表述的情形。根据概念之间的相互联系,在词的概念含义层次上建立联系,为检索用户提供相关的结果分析是概念控制的一个应用前景。例如,“体育”这一概念根据上下位类的关系可以细分为足球、排球、奥运会、亚运会等,单纯的字面匹配就会漏检,甚至误检很多与之相关的信息。通过概念控制就可以将一个上位类的概念扩展为多个相关的子概念,这样就可以进一步提高检索效果。“计算机”和“电脑”是同一事物的不同表述,采用概念控制的相关方法可以将这些相同概念的词汇统一到检索匹配中,这样就扩大了检索面,从而提高了查全率。在自然语言检索系统中进行概念控制,就是把信息检索从目前的基于关键词层面提高到概念检索的层面,使检索能够从概念意义层次上来认识和处理检索用户的请求,从而提高查全率和查准率。

概念控制主要的方法是利用知识体系建立的概念间的关系进行查询扩展,深度匹配,优化检索效果。概念控制的内容包括:①提问句概念语义块的抽取,从提问句中切分出概念词或词组等语义单位;②概念扩展,基于知识体系对抽取出的语义单元进行概念扩展;③概念的组配,将选择出的各检索单位基于知识体系的组织信息转换成体现概念关系的逻辑表达式。在概念控制的三项关键活动中,概念扩展和概念组配都离不开语义知识库的支持。所以,进行概念控制的关键是语义知识库的建立。

查询扩展用于实现概念扩展,查询扩展的工作内容是在用户输入原始的查询请求后,借助已有的自然语言资源,采用一定的技术和方法,根据用户提问项中的词语,把相似或相关的概念加入到用户提问的短语结构中,把指向同一概念的词聚集起来。在提问处理中,利用自然语言处理技术对用户原始提问进行处理后,解决了提问的词法分析和句法分析问题,但从检索的角度看,以此为基础进行的检索仍存在着一些相关文档的漏检。其原因在于检索用户和文档作者之间以及不同用户之间都存在表达差异,对相同事物的表述,除了句法结构上的不同,在用词上也有很大的差别,在文档中某些词常常不是用户提问句中使用的关键词,而是这些关键词的同义词。这样,基于字面的“精确匹配”就可能造成漏检,因此需要对提问项中的词语做适当的扩展来提高查全率,避免由“字面匹配”带来的漏检问题。

查询扩展的实质是找出提问词的相近词,用那些语义上相关的概念去补充原始的查询提问,可以认为是一种词汇含义的规范化过程。查询扩展的方法取决于词语之间的语义关系,具体有两种形式:在计算机的自动处理中,可利用某种语义知识库对查询直接进行扩展;在用户干预的情况下,查询扩展还可以从另一个方面入手,即对检索的结果进行分析,并从中选出更多的信息加入查询中,这时的查询扩展就是一个相关反馈过程。在自然语言检索中,查询扩展可以在不同的处理阶段采用两种不同方法。利用语义知识库,把表示同一概念的不同词汇聚集起来,扩大了检索的范围,它不改变查询的语义;利用相关反馈,则是在分析文本内容之后,加入一些新的相关概念,使原查询表达的内容更加明确,提高了检索的准确性。

随着互联网的发展,丰富的网络信息资源造就了大量的网络信息用户,非专业人员的网络检索行为的比重大幅度提高。由于用户的多样性,用户的检索需求也由学术性信息转为更加生活化的信息。这样,需要一种新的检索方式,以适应信息网络环境的需要。大多数用户,尤其是没有经过检索培训的用户,趋向于使用自然语言来描述他们的信息需求。传统的基于词语检索的系统已不能较好地适应这些用户的要求,自然语言检索的必要性越来越强。

在自然语言检索中,自然语言标引和用户自然语言提问的分析处理,虽然这两方面的问题可以分开单独进行研究,但是,两个问题具有密切的逻辑相关性。多年来,自然语言检索研究取得了一些成果。但是由于自然语言现象本身的复杂性和多样性,以及纯粹自然语言的模糊性和歧义性导致其处理非常困难。从信息检索的角度看,目前对原始文档的处理手段和技术还远未到达人们希望的水平,已有的试验系统也未达到完全实用化的阶段。所以,自然语言真正进入实用还需进行更多的努力。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

自然语言检索的实现及其关键问题_自然语言处理论文
下载Doc文档

猜你喜欢