几种网络搜索引擎分析,本文主要内容关键词为:几种论文,搜索引擎论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
Internet上的信息资源爆炸式增长,据美国NEC研究院2000年初报告称,目前Internet上可索引的网页达到10亿,WWW的规模正以每4个月增长一倍的速度飞速发展。如何准确快捷地查询所需信息,是摆在许多网络用户面前的一个难题。为解决这个问题,各种不同类型的网络搜索引擎应运而生。
由于有巨大的应用市场,网络搜索引擎的研究发展日新月异。目前,全网级网络搜索引擎有十几个,专业搜索引擎有数百个。这些搜索引擎性能各异,各具特色。合理地选用适当的搜索引擎,可使我们的信息检索达到事半功倍的效果。本文重点论述几种常用的搜索引擎的特点和检索方法,以期为网络用户选择合适的搜索引擎提供一定的参考。
1 Altavista(http://www.altavista.com)
AltaVista是美国DEC(数字设备)公司加洲Palo Alto研究室在1995年开发研制的。它基于DEC公司的Alpha硬件平台,是所有搜索引擎中功能最全面、查全率和查准率最高、全文标引系统质量最可靠的搜索引擎。AltaVista信息涵盖了因特网上的200多万个站点、27.56万个服务器的3000万个网页和所有网络新闻组(Internet Usenet news groups)共计3万多个讨论组(discussion group)发布的信息。用户可以利用Alta Vista上的多种检索途径进行网上信息查询。其检索方法有主要检索、高级检索、目录查询和多媒体检索等。可选择中、英、德、法、日、俄等26种语言,并提供英语与法语、德语、意大利语、葡萄牙语和西班牙语之间的互相翻译。
1.1 主要检索(Main Search)
指Alta Vista主页上默认检索方式。可进行快速信息查询。用户输入能描述所需内容尽可能多而精确的单词或词组,系统会按相关度大小排序,给出检索结果。也可以使用自然语言检索、精确词组检索等。
1.2 高级检索(Advance Search)
高级检索包含了主要检索的所有特性。它是一种结构式的操作和公式表达的方式,与主要检索最大的区别是使用逻辑运算符将两个以上的词组成检索式。AltaVista支持的逻辑运算符有AND、OR、NEAR和ANDNOT,也可以使用符号代替单词:&-(AND)、|-(OR)、~-(NEAR)、!-(ANDNOT)。
1.3 目录查询(Web Directory)
当网络用户不能确定所要查找信息的关键词时,可以选用目录查询。AltaVista有Science(科学)、Health & Fitness(医疗保健)、Computer(计算机)、News & Media(新闻与媒体)等16个大类目录。用户可以选择Alta Vista上Web目录中的某类,通过逐级浏览类目查找期望的内容。
1.4 多媒体文件检索
Alta Vista具有因特网上最大的多媒体索引数据库,支持图像(Images)、音频(MP3/Audio)、视频(Video)文件检索,用户可根据需要在Alta Vista主页的检索框上选择相应栏目检索图像文件、音频文件或视频文件。
2 Yahoo!(htt://www.yahoo.com)
Yahoo!是1994年设计研制的,是目前最好的分类搜索引擎。它收集约20多万个网站、2万个目录,它在网上影响很大,每天有数百万人次访问它。它的工作过程是首先收集新网站的域名(URL),其中大部分URL通过网站建立者Email方式提供,其余部分由Yahoo!的网上软件机器人(Spider/softbot)通过扫描网上的链接来搜集。Yahoo!最大的特色是提供优秀的主题浏览工具,对网点信息按主题建立分类索引,按照用户的使用频度和习惯分为14类,每个类别都有子类别,呈树状结构。用户可通过分类目录浏览,搜索自己所需的信息。Yahoo!主要搜索三个主要区域:Yahoo!目录、Yahoo!上的网址和Alta Vista。前两部分是在Yahoo!的数据库中,相关度的排定是根据匹配次数,如果在自己的数据库中找不到与用户提问式适宜的类目和站点,Yahoo!会自动用Alta Vista搜索。Yahoo!还可通过Dejanews(search.dejanews.com,Usenet搜索引擎)搜索Usenet。
Yahoo!有18个地区性站点与美国站点相连,各站点还附加了除目录搜索的其它的信息服务。仅美国本土的Yahoo!就有70多个服务器提供服务。高峰期通讯量达数百Mbps。除了分类目录浏览外,Yahoo!还具有关键词检索功能。
3 Infoseek(http://www.go.com)
Infoseek是美国Infoseek公司1995年2月推出的。是Internet上第一家收费的查询系统。开始只对110万个URL进行索引,1996年4月启用新的Ultra Smart/Ultraseek服务器之后,能对8,000多万个URL、Web、近四周的News Group(新闻组)、FAQ:文件传输站点(FTP)、Gopher等进行全文检索。
Infoseek网络查询服务除了主要的Ultra Smart/Ultraseek外,还有News Center,smart Into Infoseek spotlight Program以及big Yellow(黄页)等多种项目的服务。其中News Center主要可供查询来自路透社、有线商业网等有线新闻以及来自CNN、纽约时报、华盛顿邮报等7个新闻机构的当日重要新闻、商业信息、技术信息、体育信息和娱乐信息等。
Infoseek拥有最好的搜索参数集成,对缺乏经验的用户进行检索提供了方便。它采用词频统计方法来确定词语的重要性和相关性,可按词序检索、词汇大小写有别,检索结果按相关性排列,检索人名、地名和其它专用名词效率较高。
4 Excite((http://www.excite.com)
Excite是Architext软件公司研制成功的。它在搜索引擎中占有很重要的地位。它的主要特点是不仅能进行关键词检索,还能进行概念检索(Concept index)。这些概念的建立主要是基于词义间的联系,如同义词、反义词等,这些联系通过统计方法得到。例如它可以把含有movie和film的文献都归于后者的概念下,因为这两者是同义词。Excite采用一个称为“智能概念抽取”(ICE)的专用查询软件,允许用户用自然语言提问。“智能概念抽取”(ICE)的专用查询软件可实现两个基本功能,一个是ICE自动编制摘要,另一个是实现概念检索。
5 Google((http://wwwgoogle.com)
Google是1998年研制的。它标引5亿6000万个网页,采用全文标引方式,并提供每日更新。Google为全球80多家门户和终点网站提供支持,客户遍及20多个国家。2000年6月Yahoo!宣布将不再采用Inktomi的搜索服务,而将Google作为其搜索引擎技术的提供商,使Google名声大振。Google最大的特点是易用性和高相关性。Google采用网络技术(Webstrucyure Mining)对WWW的连接结构进行分析和大规模的数据挖掘,从而提供页面等级,帮助用户找到相关主题的权威网站。
Google提供了两种检索方式:基本检索和高级检索。基本检索的本质是布尔检索功能,Google提供的高级检索功能包括:(1)可以将检索结果局限在一个网站上;(2)可排除某个特定的站点的网页;(3)可对网页以及检索结果页面的语言类型进行限定;(4)可检索链向某一个网页的所有页面;(5)可以检索与某个网页相关的所有网页。
6 Ask Jeeves(http//www.aj.com)
Ask Jeeves是1996年研制的。据统计,1999年Ask Jeeves每月有130万人次访问,每日有50万个提问,而到2000年5月,Ask Jeeves每月就有1100万人次访问,每日的提问数增至1500万,分别是1999年的8倍和30倍,说明它受到网络用户的特别关注。
Ask Jeeves区别于其它搜索引擎的最大特色是它的流行度打分系统(Popularity Scoring System)。该系统采用独特的Award Winning用户相关度排序算法,通过分析百万个Internet用户的检索记录,从而输出与新用户提问相关的检索结果。Ask Jeeves只提供单一的自然语言检索,但这项检索功能非常强大。Ask Jeeves的检索结果是按流行度排序的,它的检索结果的首页仅提供5个结果,只有点击"More results"链接后,才能看到完整的10个结果。
此外,Ask Jeeves提供专家站点的链接,提供元搜索功能,在向用户提供检索结果的同时,提示其它搜索引擎的命中数目,用户如果对此感兴趣,可以点击这些链接。