中文搜索引擎搜索结果符合率研究_搜索引擎论文

中文搜索引擎的搜索结果重合率研究,本文主要内容关键词为:搜索结果论文,中文搜索引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

1.1 研究背景

互联网最近的10多年发展中,Web资源的增长非常迅速。据谷歌(Google)、雅虎(Yahoo!)、麻省理工学院(MIT)等机构的测算和估计,至2007年7月,互联网上大约有710亿个公众可以访问的静态Web页面,有65亿个限制在内部网上访问的静态Web页面,另外还有深藏在数据库中的超过2200亿的动态Web页面[1]。

据中国互联网络信息中心(CNNIC)的调查,至2005年底,中国大陆(不包括香港、澳门、台湾地区)的网站拥有网页总数约为24亿个,网页总字节数约为63932GB。另外,还有在线数据库约29.5万个[2]。

搜索引擎是网络用户使用频率仅次于电子邮件和新闻浏览的互联网应用服务,网络用户几乎每天都在使用[3]。Web资源是互联网上最丰富的信息资源,而搜索引擎是Web资源的索引,是使用Web资源的导航和指南。在浩如烟海的Web信息世界中,如果没有搜索引擎的导航,那么对于Web资源的有效利用来说将是不可想象的灾难。然而,正是由于Web信息世界的浩瀚,任何一个搜索引擎在它面前都显得渺小,其覆盖范围只占了整个Web世界的一小部分。据Google公司的披露和一些学者的估计,2004年底,Google大约索引了80亿个Web页面[4],而到了2007年年中,Google收录的Web网页达到了125亿[1]。这个数字离互联网上Web资源的总量还差得很远。据有的学者估计,至2007年中,被常用搜索引擎收录的页面数还不足互联网上全部网页的10%[1]。

由于搜索引擎网页抓取程序覆盖范围和更新频率的不同以及搜索结果排序算法的不同,对于同一个查询提问,不同的搜索引擎会有不同的搜索结果。每个引擎按照自己的相关性排序规则将搜索结果呈现给用户,网络用户在使用不同的搜索引擎时将会得到不同的结果。这就导致了只使用一个引擎的用户可能会遗漏掉许多有用的结果。据北京正望咨询公司2007年9月发布的中国搜索引擎京沪穗用户调查报告,有64.3%的用户常用一个引擎,有29.8%的用户经常使用两个引擎[5]。国内外其他的搜索引擎用户调查也有类似的结论。大部分用户只常用一个搜索引擎,可能会漏检许多相关性较高的搜索结果。

本研究的目的就是测试当前主流的中文搜索引擎搜索结果的重合率,以揭示不同搜索引擎之间搜索结果的差异程度,为用户的搜索引擎使用提供参考。

1.2 相关研究现状

搜索引擎搜索结果的重合率问题,从20世纪90年代末开始就有学者和搜索引擎公司做过一些研究和测试。研究的结论是搜索引擎之间的重合率普遍较低[6~8]。美国学者Amanda Spink、Bernard J.Jansen和元搜索引擎Dogpile.com公司合作,分别于2005年4月、2005年7月和2007年4月对主流英文搜索引擎的搜索结果重合率做了3次大规模的测试。他们得出的结论是,Google、Yahoo!、Ask和MSN四大搜索引擎之间搜索结果的重合率很低,并且随着时间的推移,重合率还在继续降低[9~11]。

中文搜索引擎之间搜索结果的重合率研究只有零星的报道,但没有正式的成果发表。中国科学院研究生院管理学院吕本富教授在2006年主持的一项关于搜索引擎相关性改进的研究中发现,三大中文搜索引擎(百度、谷歌、中国雅虎)的搜索结果重合率只有7%左右[12]。该结果根据270位测试者的近2万条搜索结果分析得出。大样本量的搜索结果重合率测试还未见报道。

2 研究方法

2.1 实验设计

基于以上研究目的,我们设计了一个实验。编写一个程序,将一个预先生成的提问集中的提问依次提交给主流的中文搜索引擎,并将返回的搜索结果自动存储在一个文件中。通过对各个搜索引擎搜索结果的统计和分析,就可以得到搜索引擎的重合率和差异程度。

主流中文搜索引擎的选取,主要是依据中国互联网络信息中心(CNNIC)的中国搜索引擎市场调查报告和Alexa.com公司的网络流量排序。根据CNNIC2006年和2007年的调查,中文搜索引擎按照所占市场份额的大小排列依次是百度、谷歌、中国雅虎(以下简称雅虎)和搜狗[13]。根据Alexa的用户流量排序(traffic rank),中文搜索引擎2007年9月至10月的流量排在前4位的也依次是百度、谷歌、雅虎和搜狗[14]。为了便于和Dogpile的研究结果进行比较,我们选择了这4个中文引擎。

一个提问返还的搜索结果往往有很多,截取多少条搜索结果才能较真实地反映出各个搜索引擎之间的重复率呢?我们认为只要截取各个搜索引擎的第一页搜索结果即可。主要理由有以下两点。

一是绝大多数搜索用户的点击发生在搜索结果的第一页上。国内外搜索引擎日志的分析结果一再证实这一点。2006年8月在Earners Forum.com网站的一个讨论搜索引擎优化和搜索引擎营销的论坛上,有人根据美国在线(AOL)公布的自2006年3月1日至5月31日的部分用户搜索日志,统计了9038794条用户搜索及相应的4926623次点击,第一页(排序号前10位)搜索结果的点击次数占全部点击次数的89.82%,第二页(排序号11至20)搜索结果的点击次数占全部点击次数的4.37%[15]。Dogpile统计了2007年3月和4月的部分搜索日志,发现第一页搜索结果的点击次数占全部点击的88.5%[10]。Dogpile和AOL搜索日志的分析结果基本一致。

中文搜索引擎搜索结果的被点击情况也类似。王继民和彭波分析了北大天网2003年9月和10月的用户日志,他们发现,第一页搜索结果的点击数占全部点击数的62%,前两页搜索结果的点击数占全部点击数量的76%[16]。

二是根据搜索引擎的相关性排序算法,排在第一页的搜索结果和用户的查询提问是最相关的,第二页次之。排序越靠后,相关性越小。因此,对于多个引擎搜索结果的重合率来说,只比较第一个页面时重合率应该最高,比较的页面越多,其重合率也越低。

基于以上认识,同时为了验证比较的页面越多重合率就越小的推断,我们记录了各个搜索引擎反馈结果的前两页。

2.2 提问集的生成

为了保证结论有较高的置信度,我们决定采用大样本量的提问测试集。

测试用的提问集来源于搜狗实验室公布的2007年3月搜狗搜索引擎的部分用户搜索日志[17]。我们从3月1日至3月10日的日志中随机抽取了20000个真实的用户提问,先进行去重,然后通过人工筛选的方式删除部分提问。被删除的提问主要有两类,一类是有明显输入错误的,如有错别字的和输入不完整的,另一类是极端不健康的。最后得到一个包含11171个提问的提问集。提问集中绝大多数提问是用中文表达的,只有少量的提问是全数字和全英文表达的。

2.3 数据收集和预处理

数据的收集通过程序自动完成。我们编写了一个程序,先从提问集中提取一个提问,然后将该提问依次提交给百度、谷歌、雅虎和搜狗,并分别将各个引擎返回的前两页搜索结果的相关项目记录下来。每个搜索引擎都有赞助性搜索结果和非赞助性搜索结果两类。赞助性搜索结果是广告性质的,一般显示在搜索结果页面的上边和右边,有时也在页面的下边出现。赞助性搜索结果不按照相关性高低排序。非赞助性搜索结果和广告无关,是按照和用户提问的相关性高低排序的。我们只记录了非赞助性搜索结果。记录的相关项目包括提问编号、搜索引擎名称、搜索结果的排序号、页面号和URL。提问的提取是按顺序的,从提问集中的第一个一直到最后一个。这样设计程序的目的是为了有效地减少因为搜索引擎索引的更新而带来的影响。

程序是在11月3日晚上至4日上午运行的。程序在运行过程中碰到的最大问题是搜狗在接受了我们大约600条提问后封杀了我们后续的请求。因此,我们只好放弃搜狗,改为只收集百度、谷歌和雅虎三家引擎的反馈数据。

通过对收集到数据的初步分析,我们对数据进行了预处理。预处理主要包括两个方面:

一是删除了百度的推广性搜索结果。百度的推广性搜索结果具有广告性质,虽然标明了推广,但安插在按相关性高低排序的非赞助性搜索结果之间。

二是对部分搜索结果的URL进行了规范化处理。经过对搜索结果的URL分析和比较,我们发现存在不同的URL对应于同一个页面的现象。例如:

http://ent.sina.com.cn/v/f/yxpl/(百度返回)

http://ent.sina.com.cn/v/f/yxpl/index.html(谷歌和雅虎返回)

以上两个URL指向同一个页面。再如:

http://zhidao.baidu.com/question/3890141.html(百度返回)

http://zhidao.baidu.com/question/3890141.html?fr=qr13(谷歌返回)

以上两个URL指向同一个页面。再如:

http://yc.book.sohu.com/series-7134.html(百度和谷歌返回)

http://yc.book.sohu.com/series.php?id=7134(雅虎返回)

以上两个URL指向同一个页面。我们对这些类的URL进行了规范化处理。

2.4 重合率的定义

搜索结果的重合率是指针对一个用户提问,参与测试的全部搜索引擎共有的搜索结果数量和全部搜索结果数量之比。以三个引擎为例,重合率的具体计算公式如下:

3 数据统计结果

3.1 样本的基本情况

对预处理后的数据进行统计,11171个查询提问,三大搜索引擎共计返回第一页的搜索结果(未去重)328156条,平均每个提问9.79条;前两页的搜索结果(未去重)659337条,平均每个提问19.67条。详细数据见表1。

因为百度在搜索结果的第一页面中时常嵌入推广性质的搜索结果,而这些推广性质的搜索结果的排序号都是0,因此删除了推广性质的搜索结果后,百度每页的平均搜索结果数量比其他两个搜索引擎要少一些。

3.2 三大搜索引擎的搜索结果重合率

经过对第一页搜索结果在每一个提问层次上的去重处理后,我们获得如表2和图1所示的统计结果。从图表中我们可以看到,在全部的289897条第一页搜索结果中,百度、谷歌和中国雅虎三个引擎中任何一个引擎独有的搜索结果总数占89.34%,任何两个引擎之间重合但和第三个引擎不重合的搜索结果总数占8.11%,三个引擎重合的搜索结果数量占2.54%。也就是说,三大中文搜索引擎第一页搜索结果的重合率只有2.54%。从图1表2中我们也可以看到,百度、谷歌和雅虎独有的搜索结果数量分别占29.84%、29.35%和30.16%,三者相差不大。百度和雅虎之间的重合比例相对较低,谷歌和雅虎之间的重合比例相对较高,百度和谷歌之间的重合比例居中。

表3是经过对前两页搜索结果在每一个提问层次上的去重处理后获得的统计结果。在表中我们可以看到,百度、谷歌和雅虎三大中文搜索引擎前两页搜索结果的重合率从第一页的2.54%下降到2.20%,任何两个引擎之间重合但和第三个引擎不重合的总比例从第一页的8.11%下降到7.88%,而三个引擎中任何一个引擎独有的搜索结果的总比例从第一页的89.34%上升到89.91%。这两组数字在某种程度上证实了前面的推断,即比较的搜索结果页面数量越多其重合率就越低。

3.3 只使用一个引擎时的漏检比例

假设三个引擎返回的第一页搜索结果都是和用户的提问相关的,那么只使用一个搜索引擎的用户将会漏检掉其他两个引擎返回的且和用户选择的引擎不重复的搜索结果。表4列出了当用户在三个引擎中只使用一个引擎时漏检的第一页搜索结果的比例。

3.4 三大搜索引擎两两之间的搜索结果重合率

表5、表6和表7分别是百度和谷歌、百度和雅虎、谷歌和雅虎两两之间的重合率统计结果。从表中我们可以看到,只计算两个引擎之间的搜索结果重合比例,百度和雅虎之间的重合率最低,第一页的重合率为6.82%,前两页的重合率为6.30%。而谷歌和雅虎之间的重合率最高,第一页的重合率为9.65%,前两页的重合率为8.97%,比百度和雅虎之间的重合率高出了40%。百度和谷歌之间的重合率居中,第一页的重合率为7.78%,前两页的重合率为7.08%。

3.5 各个搜索引擎搜索结果的独有比例

表8、表9和表10分别是百度、谷歌和雅虎各个搜索引擎搜索结果的独有比例统计结果。从表中我们可以看到,百度第一页搜索结果的独有比例相对最高,为81.35%;雅虎次之,为78.61%;谷歌相对最低,为76.92%。百度前两页搜索结果的独有比例也相对最高,为82.53%;雅虎次之,为79.54%;谷歌相对最低,为78.22%。总的来说,每个引擎搜索结果的独有比例都比较高,这意味着各引擎搜索结果之间的差异较大。另外,每个引擎前两页搜索结果的独有比例相应地比第一页的独有比例都要高。

3.6 三大搜索引擎第一条搜索结果的重合率

表11为三大搜索引擎第一条搜索结果的重合率统计结果。三个引擎第一条搜索结果的重合率只有3.86%,但比整个第一页面的重合率2.54%要高出50%多。

表12为三大引擎两两之间第一条搜索结果的重合率统计结果。这个结果和整个第一页面的情况一致。百度和雅虎的重合率最低,只有7.65%;谷歌和雅虎的重合率最高,为10.85%;百度和雅虎的重合率居中,为9.20%。总的来说,三个引擎两两之间第一条搜索结果的重合率略高于两两之间第一页搜索结果的重合率。

3.7 三大搜索引擎前四条搜索结果的一致程度

表13是关于三大搜索引擎前四条搜索结果的一致程度的统计结果。对于第一条搜索结果,在全部11171个查询提问中,三个引擎有1115个查询提问的结果是一致的,大约占10%。对于前两条搜索结果,不要求排序次序相同,三个引擎只有73个查询的搜索结果是一致的,只占了0.65%。对于前三条搜索结果,不要求排序次序相同,三个引擎只剩下11个查询的搜索结果是一致的,只占千分之一。对于前四条搜索结果,同样不要求排序次序也相同,三个引擎则没有一个查询的搜索结果是一致的。

4 分析和讨论

4.1 不同的引擎,不同的结果

从以上统计结果来看,不同引擎搜索结果的差异是很大的,这就意味着:不同的搜索引擎,不同的搜索结果。这个问题已经受到了各国Web搜索领域的学者和商界的普遍关注。针对搜索引擎搜索结果重合率低的现象,有的学者建议搜索用户经常切换引擎[18],也有学者建议用户经常使用元搜索引擎[11]。

搜索结果重合率低的事实并不意味着一个用户在使用搜索引擎时一定要选择多个引擎进行重复检索。如果把搜索的类型分为导航型、信息型和资料型,那么在导航型和信息型搜索时,用户只要找到一两条正确的或者满意的结果即可,不必点击更多的搜索结果,这时一个搜索引擎足可以解决问题。只有在资料型搜索时,为了全面收集,用户需要点击多个搜索结果,这时,选择多个搜索引擎同时搜索或者使用元搜索引擎对用户来说将是很有帮助的。

造成搜索引擎搜索结果重合率低的原因比较复杂。搜索引擎覆盖范围不同,搜索引擎对网页和用户提问的自然语言处理方法的不同,搜索结果相关性算法的不同,搜索引擎索引更新频率的不同等,都会导致搜索结果的不同。

4.2 中英文搜索引擎搜索结果重合率的对比

根据Dogpile.com公司2005年和2007年3次大样本量的测试结果,我们提取出三个引擎(Google,Yahoo!,Ask)的数据和我们的测试结果进行比较,具体数据见表14。

从表中我们可以看到,中英文搜索引擎的搜索结果重合率都很低,且很相近。英文搜索引擎搜索结果的重合率随着时间的推移在不断降低,但降低的速率逐步减缓。从表中的数据我们可以推断,中文搜索引擎的重合率在将来也会进一步降低。

4.3 中文元搜索引擎的发展

元搜索引擎不同于独立搜索引擎,它没有独立的网页抓取和索引功能,它只是将用户提问同时提交给多个独立搜索引擎并将这些独立搜索引擎返回的搜索结果经过整理后再反馈给用户。元搜索引擎的优势在于对已有独立搜索引擎资源的整合。Dogpile.com公司在2007年4月的测试中发现,对于第一页非赞助性质的搜索结果,Dogpile的搜索结果覆盖了Google、Yahoo!、MSN Live、ASK四个引擎全部重合的搜索结果的98.8%,任意三个引擎重合的搜索结果的96.7%,以及任意两个引擎重合的搜索结果的81.9%[10]。

在美国,元搜索引擎的发展历史已有10年,已经为人们所接受和广泛应用。2007年秋季在一项主题为“哪个是你最喜欢的搜索引擎”的调查中,参加调查的181位北美被访者评出了他们最喜欢的10大搜索引擎。Google没有悬念地名列第一,元搜索引擎Vivisimo和Yahoo!并列第二则有些出乎人们的意料,另一个元搜索引擎Dogpile位列第六。人们对这两个元搜索引擎的评价是:对来自各大搜索引擎的搜索结果进行聚类排序很有吸引力,相关性较高,是Google和Yahoo!之外的有效选择[19]。

中文元搜索引擎的发展不是很顺利,新千年以来,虽然断断续续有几家出现,但功能有限,速度较慢,使用者寥寥。近一两年出现了比比猫(bbmao.com)等采用聚类排序的中文元搜索引擎,技术有了较大的进步,但在用户中的影响还不大。

由于主流中文搜索引擎之间搜索结果的重复率很低,每个引擎的差异很大,这为元搜索引擎的发展提供了较大的发展空间。充分发挥擅长于整合各个搜索引擎优势的特点,相信元搜索引擎在搜索成功率(平均每次搜索带来的点击数)和结果相关性方面会有较好的表现。

5 结论

通过实际测试和对统计结果的分析,我们可以得出以下结论:

(1)不同的引擎,不同的结果。百度就是百度,谷歌就是谷歌,雅虎就是雅虎,相互之间的差异很大。由于目前搜索引擎索引量的增长速度落后于互联网上Web资源增长的速度,因此搜索引擎之间搜索结果的差异程度在一段时间内还会继续扩大。

(2)搜索引擎需要进一步完善。尽管搜索引擎已经有了十多年的发展历史,但离庞大的网络资源对于信息组织和信息导航的需求以及广大网络用户对信息查询的要求还有较大的距离。搜索引擎技术在许多方面还有待进一步提高。

(3)中文元搜索引擎发展的条件已经成熟。元搜索引擎有助于减小搜索引擎之间存在着的巨大差异。随着人们对搜索引擎要求的不断提高和元搜索引擎整合优势的逐渐发挥,我们相信,元搜索引擎必将逐渐为人们所接受和应用。

本研究的目的只是想通过实际测试来验证中文搜索引擎搜索结果之间存在着较大的差异。和这一问题相关的研究还有许多,例如搜索结果重合和相关性高低的关系,不同类型提问的搜索结果重合率,影响重合率的因素等。这些问题有待于我们进一步探索和求证。

致谢:感谢北京大学信息管理系王继民博士的帮助,他参与了本研究的多次讨论,并为本研究的目标确定、实验设计和数据处理提供了许多宝贵的建议。

收稿日期:2008年1月9日

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

中文搜索引擎搜索结果符合率研究_搜索引擎论文
下载Doc文档

猜你喜欢