基于网页抽象分析的元搜索引擎研究_搜索引擎论文

基于网页摘要分析的元搜索引擎研究,本文主要内容关键词为:摘要论文,搜索引擎论文,网页论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】TP391

1 元搜索引擎基本原理

元搜索引擎是一种基于搜索引擎的搜索引擎[1]。它有自己独特的用户交互界面,接受用户查询并进行处理。通过调用多个成员引擎,分别提交处理后的针对具体成员引擎的提问式,进行实际的网络搜索查询。再将各成员引擎的搜索结果进行处理,然后用统一的界面提交给用户作为最终查询输出[2]。其基本结构如图1所示。

在元搜索引擎的具体实现中需要解决许多具体的技术问题,主要集中在查询转换、成员引擎的选取、查询结果处理这三个方面,分别由Query Translator、Engine Selector以及Result Merger模块来完成[3]。

图1 元搜索引擎结构

2 元搜索查询结果处理

对查询结果的处理一直是元搜索引擎的核心问题,它的主要任务是对成员引擎返回的查询结果进行整合排序[4]。可以将融合看作是一个动态求解空间,在这个问题空间中,不同的组合会产生不同的最佳效果。在元搜索引擎结果处理过程中,融合的目的是将与用户查询相关度高的结果放在前面。但是由于不同搜索引擎所采用的技术不尽相同,例如索引的内容不一样,采用的排序方法不一样,是否采用Stemming技术等,所以很难按照一个统一的标准去排列这些结果[5]。目前,元搜索引擎的结果处理算法主要有以下几种。

2.1 成员引擎结果合成

即利用各个成员引擎返回结果的排序,通过某种策略进行调整后作为最终排序提交给用户,而不对网页内容本身进行分析。这种方法有多种变形:例如将各个结果集交叉排列,或是利用某种规范化分值策略将其重新排序。MetaCrawler、SavySearch及Profusion都采用后一种方法。

2.2 网页下载重排

即将所有成员引擎检索到的结果下载到本地,再根据每篇文档的全文内容重新计算相关性分值,进行结果重排。这种方法排序效果最为可靠,但是响应时间较长。其代表是Inquirus[6],它根据下载到本地的成员引擎搜索返回的结果网页来计算一个分值,这样有利于去除重复链接与死链接,并进行更加复杂的内容分析,例如基于查询的文档摘要、相似度排序以及查询扩展。

2.3 利用网页简要内容

考虑到元搜索引擎的特殊性,可以充分利用成元搜索引擎提供的结果基本信息,如网页标题、网页摘要等。目前几乎所有的搜索引擎都提供网页标题与网页摘要,对于网页大小、网页快照等项目则不完全提供[7]。因此,笔者选择网页标题和网页摘要作为相关度分析的依据,这就是基于网页摘要的相关度算法。这种方法还可与第一种方法结合,在利用成员引擎结果排序的基础上进行网页摘要相关度分析。

3 基于网页摘要的相关度算法

3.1 算法可行性讨论

一篇文章的摘要究竟能代表多少文本原来的内容?摘要是否能够保证提供与网页实际内容接近的信息?是否能用摘要中的关键词代表文本关键词?现有研究只是对比了网页摘要中关键词数量与实际网页中关键词数量,证明两者相同的情况占大多数。但是,在确定网页标题关键词的权重与网页摘要关键词权重的量化关系时缺乏一定的依据,而这些都是利用网页摘要进行相关性分析的基础。

为此,笔者设计了实验,利用传统信息检索技术和统计学方法考察目前网络上网页标题及摘要与网页内容的相关度,目的是确定网页标题及摘要信息与网页实际内容之间的关系,确定合理的权重设置,以提高元搜索引擎的搜索结果平均准确率。

(1)度量指标定义

首先,必须确定度量网页摘要与网页内容之间的相似性标准。在传统的信息检索中,度量提问与文本的相似度使用下面的公式[8]:

在信息检索过程中,文档中的每个索引词对文档内容的贡献是不同的,故可以把索引词的重要程度看成一个聚类问题。索引聚类包括类间相似度和类内相似度。类内相似度是通过计算词ki在文档dj中出现的频率得到的,一般用tf(term frequency)表示,tf越大说明这个词表现文档内容的能力越强。类间相似度是计算一个索引词在整个文档集合中出现的倒频率,一般用idf(inverse document frequency)表示。idf用来确定通过tf得到的表示文档特征的词是否真正具有使本文档区分于其他文档并且表征本文档特征的能力,因为一个在其他文档中都出现的词并不具有使本文档区别于其他不相关文档的能力。向量模型需要同时兼顾tf和idf这两个参数并进行折中考虑。

上式也称为IR模型的tfidf方法。

这里,借用传统的信息检索方法,利用向量空间模型来构造网页摘要与网页内容的相似性度量指标。首先将每篇网页摘要及网页内容都表示为一个n维向量。其中n表示检索系统中词典所收录的词的个数,在网页摘要或网页内容中所占的权重。这样网页摘要和网页内容之间的相似度就可以表示成两个向量的点积,即通过计算两个矢量的余弦夹角得到。

在度量网页摘要与网页内容的相似性时,用关键词的权重来构造文本向量。将网页摘要看作一个文本集合,将网页内容看作一个文本集合。度量每一对摘要和内容的相似度时,选用摘要向量与文本向量的点积作为度量指标:

从此公式可以看出:此度量指标的最小值为0,表示摘要关键词向量与内容关键词向量完全不同的情况;最大值为1,表示摘要关键词向量与内容关键词向量完全重合的情况。

(2)样本选择

陈伟雄曾对网页摘要关键词语网页内容关键词之间的关系进行小规模地统计[9]。根据统计数据,网页摘要中的关键词与网页本身的关键词数量相同的占约60%,前者小于后者的约占20%,前者大于后者的约占20%。因此可以近似的认为前面定义的相似度指标sim(a[,j],c)服从正态分布。由前面的定义可知,相似度指标的最大值为1,最小值为0,因此可大致估计出总体的

据调查,目前网络上的网页数已达到500亿(5×10[10]),设可接受误差值为0.05,则n=100,若可接受误差值为0.025,则n=400;若可接受误差值为0.005,则n=10000,即取出10000个网页作为样本。

(3)统计分析

本实验抽取10000个网页进行调查,因为不同搜索引擎提取网页摘要的算法各有不同,所以分别取Baidu,Google,Yahoo中文,中搜,北大天网时代的查询结果网页进行分析,每个各取2000个网页;为了涉及各种主题类别的网页,取不同主题类别的网页,分为新闻、经济、科技、体育、娱乐、旅游、汽车、文艺、游戏、房产10个主题。

本实验在Visual Studio.Net 2002平台上进行,针对每一主题,分别提取上述5个成员引擎的前200个搜索结果并提取标题和摘要。为了判断标题和摘要与实际网页内容的相关度,还需提取每个网页的主要内容。本实验采用北京TRS信息技术有限公司分词软件进行分词处理。在对题目、摘要以及网页内容分别进行分词处理之后,确定题目关键词集合、摘要关键词集合以及网页内容关键词集合。根据公式(1),确定每一条结果记录的标题、摘要以及网页内容关键词的权重,从而确定标题、摘要及网页内容向量。根据公式(2),分别计算每一对网页摘要向量与网页内容向量之间的相似度值,再计算每一对网页标题向量与网页内容向量之间的相似度值。如此对10个主题下的网页集合进行处理,观察相似度值的分布情况,统计如图1、图2所示。

图1 网页标题与网页内容相关度

图2 网页摘要与网页内容相关度

从直方图可以看出,两种相似度大致都呈正态分布,只是两者的尖削程度不同。正态分布的密度函数为:

可以通过拟合曲线,计算峰态系数来进行描述。根据峰态系数,可以设定不同的权重,并验证哪种权重设置获得的搜索结果最好。

3.2 算法及验证

很多搜索引擎对关键词的匹配都是采用先完全匹配,然后部分匹配。两者对于搜索引擎来说都是必不可少的,且完全匹配与部分匹配存在的几率倍数大约为2:1,即完全匹配出现次数2倍于部分匹配。通过上面得出的标题与文本相关性的量化关系以及摘要与文本相关性的量化关系,确定查询关键词与标题关键词完全匹配、与标题关键词部分匹配、与摘要关键词完全匹配、与摘要关键词部分匹配4部分的权重比例。从而设计相关度判断算法,并进行验证。

基于网页摘要分析的相关度计算公式如下:

这里笔者设定一个Wt与Wa的比值。根据标题关键词与网页内容关键词的相似度、摘要关键词与网页内容关键词的相似度这两种相似度关系曲线得出网页标题权重与网页摘要权重的比值范围大约为0.1-1.5。关键词完全匹配权重、关键词部分匹配权重可以设定为2:1。根据这些权重设定,来考察元搜索引擎的平均准确率,可得到如图3所示。

图3 权重比值与平均准确率变化

3.3 实验结果分析

从实验结果可以看出,搜索平均准确率随Wt/Wa的增大而减小,但是在此范围内,平均准确率始终都大于现有的搜索引擎平均准确率。证明笔者对网页标题及网页摘要的权重设置是有效的,见表1所示。

4 结语

目前的元搜索引擎都不如Google、百度等这些独立搜索引擎成功。除了因为它依赖于现有独立搜索引擎之外,更重要的是它没有吸引用户的独特之处。由于元搜索的主要精力是放在成员引擎结果处理上,因此如何充分利用现有搜索引擎的搜索结果,快速、有效地进行相关性判断,将最相关结果提供给用户是元搜索引擎需要考虑的主要问题之一。

从目前的发展趋势看,利用聚类技术对结果进行处理是元搜索的一大创新。以往的搜索集合对用户来说就像一个巨大的杂乱的信息仓库,而聚类结果就像是按规则摆放好的信息图书馆。国外利用聚类技术进行结果处理的元搜索主要有vivisimo、Kartoo、mamma等,国内的有 ez2www、bbmao等。它不是一个简单的用户界面上的创新,而是提供了一种新的思路。在提高结果相关性的基础上将结果以更好的形式提供给用户是今后努力的方向之一。

笔者认为,元搜索的主要功能不是为用户搜集信息,更重要的应该是整合信息、采用数据挖掘的方法组织信息,使搜集到的信息能够产生更多的情报知识。有效利用元搜索的信息收集优势和信息组织优势,为用户展示出更多的情报知识。

收稿日期:2006-09-14

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于网页抽象分析的元搜索引擎研究_搜索引擎论文
下载Doc文档

猜你喜欢