信息检索中修饰语作用的研究,本文主要内容关键词为:修饰语论文,信息检索论文,作用论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
现代信息技术的发展和广泛应用,为我们呈现了内容丰富的信息空间。然而,信息爆炸式的增长也使我们在检索信息时,常常得到数目庞大的查询结果,用户不得不花大量时间浏览、辨别真伪信息。造成这一现象的原因,一方面是大量与用户查询无关的信息——信息垃圾占据了检索结果的相当大的一部分;另一方面,由于查询语句的严格限制,导致信息检索系统无法反馈更多的与查询相关的信息,有时甚至得不到任何反馈信息。这两方面缺陷使得信息检索系统的效力大大降低。
产生上述缺陷的原因分析如下:
(1)一词多义。一个词、短语或句子可以作两种或两种以上的理解,或者说有两种或两种以上的含义,这种现象称为词的多义性。在自然语言中,很多词形相同的词,在不同语境下具有不同的含意。如“黑车”,既可以理解成黑色的车,又可以理解成违法的车。离开上下文,人们很难判断其真正语义,而计算机就更难做到这一点了。正是由于词的多义性,使得在信息检索时,无论是否与查询语义相关,只要与查询词词形相匹配的信息均会被检出,因而产生了大量的垃圾信息。
(2)查询约束。用户提交查询时,由于过度限制,使得基于统计的信息检索系统只能检索到与查询关键词完全匹配的信息。但在自然语言中,表达同一个意思的时候,可以使用不同的方式、不同的词汇,这种现象称为词的同义性。如“电脑”与“计算机”,“汉语”与“中文”,它们词形不同,但却表示同一个意思。由于词的同义现象,使得检索时很多与查询相关的信息被漏掉,造成检索结果不全面。
因此,需要一个能够过滤大量垃圾信息,同时又能够保留有价值信息的工具和方法。目前虽然用于文本信息检索的模型很多,而且在某些程度上也能够满足用户的查询要求,但是,它们都忽略了一个能够影响检索效力的重要因素——修饰语的作用。
为了研究修饰语在文本信息检索中的作用,本文构建了一个新的文本信息表示模型——修正的向量空间模型MVSM(Modified Vector Space Model)。它以传统的向量空间模型(VSM)为基础,不同之处在于,传统VSM模型中的关键词是孤立的实词(名词、动词、形容词和副词),而MVSM模型中的关键词是修饰语(形容词和副词)与中心语(名词和动词)合成后的整体关键词,本文称其为合成短语。其目的是在文本表示模型中增加中心语的语义信息,屏蔽与查询语义无关的信息垃圾。同时为避免合成短语的过度限制,本文利用建立的模糊同义词词典将修饰语与中心语分别进行同义扩展并重组,其目的是扩大与查询语义相关的搜索空间,从而提高检索系统的效力。
本文开发的基于MVSM模型的信息检索系统,利用修饰语的限制作用,使信息搜索空间相对缩小,提高了系统的检索精度。同时,利用查询扩展,使同义相关查询得以实现,扩大了检索的覆盖面。
最后,通过使用标准TREC语料库,进行了修正的信息检索系统检索效力的测试。试验数据表明,通过修饰语的限制作用及查询扩展策略,增强了本文建立的信息检索系统的效力。
2 对修饰语作用的分析及解决思路
2.1 对修饰语作用的分析
修饰语指的是一个或一组词语,其作用是描述或限制另一个或一组词语。修饰语能够使被描述或限制的对象更加生动与精确,主要作用归纳如下:
(1)描述作用。修饰语与中心语搭配,可增加中心语的语义信息,有助于识别中心语的语义类属。本文中修饰语指的是形容词和副词,中心语指的是名词和动词。从语法角度来看,形容词[1~4] 指明了一种属性,与名词相关,用来修饰名词或描述名词;副词则是修饰或限制如形容词、动词、副词或这些词类的词组,说明地点、时间、环境、方式、原因、程度等关系。
(2)限制作用。修饰语的语义包含在被修饰的中心语中,它对中心语的限制作用体现在:在范围上,对被修饰中心语的语义进行限定;在深度上,对被修饰中心语的语义进行延伸。
此外,修饰语与中心语之间还存在一个搭配原则问题。修饰语与中心语不能够任意搭配,必须满足搭配规则,否则不合事理。
基于以上分析可知,如果修饰语独立于中心语存在,则没有实际意义。修饰语是一些限制性的词语,不是独立的概念,对起语义描述和限制作用的修饰语进行重点研究,会使检索系统的检索结果更加理想,能够改进文本信息检索系统的检索性能,提高检索质量。
2.2 解决思路
在目前存在的检索系统中,根据模型所表达的词性分析,索引关键词一般都是孤立的名词、动词、形容词和副词这样的实词。由于起修饰作用的形容词或副词孤立存在没有实际意义,本文认为将修饰成分与中心语组成合成短语,通过对中心语的语义限制,能在一定程度上消除中心语的歧义性,缩小搜索空间,提高检索系统的准确率。为避免修饰语的过度限制作用,本文对合成短语采取同义扩展策略,扩大搜索覆盖面,以提高检索系统的查全率。
据统计,查询语句中最常出现的修饰语与中心语搭配的形式为形容词修饰名词,因此,本文以形容词作为修饰语、名词作为中心语为重点,来研究修饰语的作用。
本文的基本方法是:首先将带有修饰语的查询语句中的修饰语与其所修饰的中心语组合成合成短语,并进行索引标注;然后利用建立的模糊同义词词典对合成短语的修饰部分和中心部分分别进行扩展,将得到的扩展修饰语和中心语按照一定的搭配原则重新组合成新的具有相近意义的合成短语;最后计算这些合成短语的权重以及文本向量与查询向量间的相似度。
例如:带有修饰语的查询语句为:Find documents that discuss instances about violent crime。传统模型中检索关键词为{instances; violent; crime},修正的模型中检索关键词为{instances; violent crime}。设同义词模糊阈值为0.7。在模糊同义词词典中查到,instance的同义词有A={instance(1.0),case(0.9),example(0.8)}; violent的同义词有B={violent(1.0),fierce(0.9),furious(0.9),terrorist(0.8)}; crime的同义词有C={crime(1.0),offence(0.9)}。则修正的模型中,经过查询扩展之后的检索关键词为{A,B×C}。
修正的检索模型与传统检索模型的主要区别及优势在于:将传统的检索关键词与修饰语作为一个整体关键词来看待,一定程度上解决了多义词含义辨别问题;同时,将检索关键词中的修饰语以及它所修饰的中心语进行同义扩展并重组,可使那些与用户查询相关的语义相似的信息能够被检索出来。
3 修正的文本信息检索系统
3.1 检索模型的选择
信息检索的概念被提出后,出现了许多基于文档(document)和查询(query)的文本计算模型。这些模型从不同的角度出发,使用不同的方法处理特征加权、类别学习和相似计算等问题。
这些模型中,向量空间模型是最简便有效的文本表示模型之一。向量空间模型自从Salton等人于1960年代末首先提出,并在著名的SMART(System for the Manipulation and Retrieval of Text)系统中得到成功的应用之后,该模型及其相关技术,包括项的选择、加权策略以及采用相关反馈进行优化查询等,在文本分类、自动索引、信息检索等许多领域得到广泛的应用。特别是随着网上信息的迅速膨胀,还被广泛地应用到搜索引擎、个人信息代理、网上新闻发布等信息检索领域新的应用中,并取得了较好的效果。
虽然优势较明显,但向量空间模型也有其自身的不足,如对索引关键词两两正交的假设太僵硬,向量空间维数的改变对检索结果产生影响等。这些不足,使得它用于文本信息检索时,难以顾及到文本中词的语义关系。
鉴于向量空间模型在信息检索研究中的影响力,并且在性能方面优于其他模型[5],因此本文以传统的向量空间模型为基础构造修正的信息检索系统,并着重对修饰语进行试验研究。本文称该模型为修正的向量空间模型(Modified Vector Space Model,MVSM)。基于此模型开发的信息检索系统由于考虑了修饰语的作用,试验结果表明在一定程度上提高了信息检索系统的效力。
3.2 修正的向量空间模型(MVSM)
在传统的向量空间模型中[6],文本索引关键词为孤立的实词(名词、动词、形容词、副词)。在文本集合中,任意文本d[,i](i∈[1,m],m为文本集合中包含文本的数量)可以表示为带有权重的文本向量:
对于一个给定的查询语句,同样可将其表示为一个查询向量q[,j](j∈[1,n],n表示查询语句的总数量)。具体可表示为:
针对以上传统的向量空间模型,本文进行以下几方面改进:
(1)索引关键词提取。根据本文提出的方法,如果索引关键词有附加的修饰成分,则将其替换为合成短语。为了简单起见,选取跨距为1的修饰语与中心语进行合成。因此,公式(1)~(9)由原来计算独立的索引关键词的权重转变为计算合成短语的权重。
(2)查询中合成短语扩展。本研究基于WordNet[11],建立了模糊同义词词典,辅助查询扩展。假设给定的查询语句q[,j]中包含l个短语,并且所有给定的短语根据模糊词典都可以被扩展,那么新的扩展的查询向量可表示为:
以上的权重计算既与查询语句中出现的所有短语有关,又与短语之间的贴近度有关。从数学意义上来说,权重取的是查询语句j中的扩展短语t[,e]和所有短语之间的贴近度的均值。
本研究中,扩展短语被直接加到向量中,作为新增的维数。由于新增加的维数独立存在,所以这种简单的添加方法大大改变了原来查询语句的重点[14]。为了解决这一问题,引进一个修正系数β[,e],用来降低在短语扩展时由于人为因素引起的重点偏移。具体做法是将β[,e]与w[,ej]相乘,作为修正的权重。因此,公式(12)被修正为:
为了研究修饰语的作用,本文根据上述思路建立的文本信息检索系统架构如图1所示。
图1 研究修饰语作用所建立的文本信息检索系统主要构架
4 对修饰语作用进行的试验及结果分析
试验中,使用的是TREC[15] 语料库中一个小样本数的文本集合——LA-Times(洛杉矶时报,一家美国报纸)。表1列出了相关统计信息。
表1 LA-times文本集合统计信息
文本集名 文本数量 查询语句数量 文本集大小(Mbytes)
LA-times331929+4215
注:LA-times语料提供108个标准查询语句,表中29是从108个查询语句中挑选出的带有修饰语的查询语句数;42是本文另外构造的带有修饰语的查询语句数。
为实现查询扩展,本文建立了两个模糊同义词词典,分别为模糊形容词词典和模糊名词词典。由于此模糊词典是基于WordNet构建的,所以同义扩展时只有出现在WordNet同义词表中的同义词才给予考虑。
本文使用查准率和查全率对建立的文本信息检索系统的效能进行评价。试验结果列于表2。
表2 71个带有修饰语的查询语句检索结果
平均查准率
平均查全率
(%) (%)
普通试验20.5670.22
合成短语试验
(λ=1) 25.4452.77
合成并扩展试验
(λ=0.6)24.8755.44
本文对29个带有修饰语的标准查询语句及42个带有修饰语的自构查询语句,分别进行了3种检索试验。其中,普通试验为使用独立实词作为检索关键词的试验;合成短语试验是利用修饰语的限制作用,将合成短语作为检索关键词的试验;合成并扩展试验是将修饰语与中心语分别扩展,再重新组合成合成短语,用这些新扩展的合成短语作为检索关键词的试验。3种检索试验所得的平均查准率和平均查全率的直观表示如图2所示。
图2 71个带有修饰语的查询语句检索试验结果
从图2中容易看出,将普通检索方法应用于带有修饰语的查询语句,查准率较低,但查全率比较高。具体分析原因是,当用户利用传统模型进行检索时,由于搜索关键词各自独立,缺乏词间的语义联系,造成大量的与查询语句语义不相关的文本被检索出来,结果使检索系统的查准率大大降低;但由于反馈结果多,使系统获得了较高的查全率。使用合成短语作为关键词的较精确的检索方法,正如前面所述,使检索系统的查准率在一定程度上得以提高。本次试验中,提高幅度达5个百分点。这种检索方法使检索结果数量相对减少,所以损失了一部分查全率。不过,拥有50%以上的查全率,本文认为这种损失是值得的。对于合成并扩展试验,通过查询扩展,检索系统查准率稍有降低,但得到了查全率回升的回报。总体来看,修饰语对于改善信息检索系统精度所起的作用相对来讲更为重要。
由上述可见,修饰语在文本信息检索中,具有不可忽视的作用。利用修饰语的描述和限制作用,建立文本表示模型及信息检索系统,能在一定程度上改善系统的检索性能。
5 结论
本文主要针对文本中的修饰语提出了一种修正的向量空间模型,在此基础上,建立了修正的信息检索系统(MVSM检索系统),以研究修饰语的作用。
通过使用标准TREC语料库数据进行试验,其结果表明,修饰语对提高文本信息检索系统的查准率起着重要的作用。本文提出的将修饰语与相关的中心语合成,是一种改善基于孤立实词的传统信息检索系统性能的有效方法。
分析该方法及试验结果可见,在文本信息检索中,与普通的基于孤立实词的检索系统相比较,用修饰语限制中心语,能提高信息检索系统的查准率,而将修饰语和中心语同时扩展并重组,能提高信息检索系统的查全率。该方法比普通的检索系统在查准率上更具优势。当然,这一优势还需在其他语料上进行大样本测试。
标签:信息检索论文; 自然语言处理论文; 同义词论文; 形容词论文; 向量空间模型论文; 查全率与查准率论文; 语义分析论文; 文本分类论文; 文本分析论文; 关键词分类论文; 查全率论文; 查准率论文;