网络搜索引擎探析,本文主要内容关键词为:探析论文,搜索引擎论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
因特网上的信息资源极其丰富,就目前而言,其用途可以归纳为两个方面:一类为信息交流,另一类为信息查询。因特网上存在着数以百万计的主机,如何在浩如烟海的信息资源里寻找对自己有用的信息,不是一件简单的事情,需要对因特网上资源的分布情况和搜索工具有较深入的认识。本文就网络上的信息查询问题进行一定的分析。
1 网络搜索引擎(Search Engine)
搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。用户的查询途径主要包括自由词全文检索、题词检索、分类检索及其它特殊信息的检索。由于目前因特网上比较拥挤,我们必须要掌握一定的检索技巧,灵活运用各种检索策略,正确地选择主题词和叙词,才能提高查准率和查全率,节约上机时间。
因特网上的网络信息搜索工具大致分为交互式信息服务软件、名录服务软件和索引服务软件。目前在因特网运行的交互式信息服务软件主要基于Gopher和WWW;名录服务软件主要基于WHOIS、NETFIND和X.500;索引服务软件主要基于Archie、Veronica、Jughead和WAIS。其中WWW是因特网上最先进的网络信息检索系统,它把超文本技术、网络技术和多媒体技术融为一体,并把因特网上的信息按一定的规则组织起来,以提供进一步的查询。Archie是为FTP资源服务的;Veronica和Jughead是为Gopher资源服务的;WAIS可作为因特网整个文本信息资源服务的搜索工具。因特网搜索工具一般具备以下功能:首先有一个简单易用、功能强大的前端界面,使得查询方式容易设定;检索方式比较完备,可以按用户所需的方式进行查询;检索结果具有较好的准确性和可读性且检索速度较快。
1.1 网络文献搜索引擎的现状
自从1993年英国NEXOR公司的Martijn Koster开发出最早的网上检索工具AliWeb(Archie-Lide Index of the Web)以来,网上搜索工具以惊人的速度发展成熟起来。但这些网上检索工具大都是英文检索工具,中文检索工具只是在近几年内才开始起步。因此,国外著名的搜索工具如Yahoo,Excite,Alltavista,HotBot,Infoseek等等,在数据库范围、检索功能、检索性能、输出结果和用户满意程度等方面与国内中文网上检索工具如搜狐(SOHOO)、首都在线(263)、新浪网(SINA)、北极星(BEIJINXING)、网易(YEAH)、常青藤、网络指南针(COMPASS)等相比,在各方面都比较成熟。但对于处理中文信息来说,国外和国内相比则是国内检索引擎优于国外,尽管对于处理中文的许多问题如切词问题,还没有较完善有效的解决办法。
目前网上的搜索引擎大多数是针对WWW的查询,其模式为获得信息整理建立数据库提供查询。而所使用的软件一般叫做"Spider"、"crawlers"等。网络搜索引擎一般都有其后台数据库,连接方法多样,可以通过CGI实现客户端与服务器端的交互,或用Java中的JDBC连接数据库,也可以使用ActiveX数据库控件实现WEB与数据库的连接。
1.2 搜索引擎的工作过程
第一步是"Spider"软件访问一个站点,并通过其中的链接阅读该站点的页面,而且"Spider"会不时地自动回访该站点以检查变化情况;该"Spider"获得的站点信息形成一个巨大的网络信息库,如同整个网络上已经访问站点的备份,当然记录的不是所有的内容。这也就是我们所说的数据库。
第二步是查询服务。这是通过查询软件实现的,当你输入查询内容,该软件就会在其数据库中找到相关内容,然后按照“它的”规则进行排序。
1.3 因特网上的搜索引擎可分为两大类
第一类是全文检索(Full text search)的搜索引擎,用户能够对各网站的每个主页中的每个词进行搜索。全文搜索引擎的优点是查询全面而充分。当全文搜索引擎遇到一个网站时,会将该网站上所有的网页全部获取下来,并收入到引擎的数据库中。只要用户输入查询的“关键字”在引擎库中的某个主页中出现过,则这主页就会作为匹配结果返回给用户。从这点上看,全文搜索真正提供了用户对Internet上所有信息资源进行检索的手段,给用户以最全面最广泛的搜索结果。但是它提供的信息虽然多而全,但可供选择的信息太多反而会降低相应的命中率。由于没有分类式搜索引擎那样清晰的层次结构,常给人一种繁多而杂乱的感觉,而且提供的查询结果重复链接较多。
第二类搜索引擎是建立在分类学基础上的目录分类式搜索引擎。它通过“人工方式”将所收入的站点进行分类而建立数据库,以提供查询。目录分类式搜索引擎当遇到一个网站时,它并不像全文搜索引擎那样,将网站上的所有文章和信息都收录进去,而是首先将该网站划分到某个分类下,再记录一些摘要信息(Abstract),对该网站进行概述性的简要介绍。用户提出搜索要求时,搜索引擎只在网站的简介中搜索。分类搜索引擎的优点是将信息系统地分门归类,用户可以清晰方便地查找到某一大类信息,这符合传统的信息查找方式,尤其适合那些“希望了解某一方面/范围内信息,并不严格限于查询关键字”的用户。缺点在于这类搜索引擎的搜索范围,较全文搜索引擎要小许多。Yahoo就是目录分类式搜索引擎的一个典范。
2 几个网站的搜索引擎分析
2.1 搜狐(http://www.sohoo.com.cn)
搜狐的搜索系统核心采用了上海欧姆龙计算机有限公司汉化的Search'97全文检索引擎,Search'97是美国Verity公司面向Internet/Intranet的世界上最先进的全文检索产品,能够对各种网络资源(尤其是中文资源)进行搜索,将帮助您迅速、快捷地找到所需的信息。升级后的搜狐中文检索系统分为四个部分:(1)搜狐分类检索:搜索搜狐的分类架构中与输入的关键字相关的内容。(2)搜狐网站检索:搜索搜狐的分类数据库中收录的网站,结合搜狐分类结构显示。(3)全球网页检索:对整个internet上与关键字相关的网页,进行全文搜索和关键字匹配。(4)搜狐新闻检索:搜索最近三个月搜狐新闻的内容。
2.2 新浪网(http://www.sina.com.cn)
新浪网搜索引擎(前四通利方RichSurf)是面向全球华人的网上资源查询系统。新浪搜索收录了大量的中文网站地址,内容丰富,分类详细。新浪搜索目前共分为15大类,1万个细目和10余万个网站,是目前互联网上规模最大的中文搜索引擎之一。为了使您方便快捷地找到所需信息,新浪中文搜索引擎提供“分类检索”和“关键词查询”两种查找方法:(1)分类检索——您可以从主页按照主题分类来查找所需信息。(2)关键词查询——在新浪目录、网站和网页中搜索您指定的关键词。新浪搜索查询次序为先执行目录搜索再执行网站搜索最后执行网页全文检索。如果新浪搜索尚未收录您所查找的网站,您可以在符合新浪搜索收录原则的条件下自行登录新站。
2.3 网络指南针(http://www.compass.edu.net.cn:8080)
该网站是国内首家采取多种分类类型,以学科分类、图书分类、普通分类分别组织类目体系的。数据库收集了中国教育和科研计算机网(CERNET)、CHINANET、中国科技网(CSTNET)、中国金桥网(CHINAGBN)。WWW网页数量多达20多万页,系统提供中、英文查询,用户可采用多种输入方法。在以类目体系为主的情况下,提供主题查询,使用一些辅助符号,增加查询检准率和检全率,如:用“+”表示“与”关系。网络指南针的分类系统非常有代表性,而且考虑到不同的用户需求,采用了不同的分类系统,这一点非常令人满意。网络指南针一共采取了三个分类系统,按学科分,按一般的分类系统分以及按中图法分。这样做的优点就在于可以同时满足不同类型的用户需求,既面向大多数的一般用户,又可以使专业人员的查询更方便,而中图法的分类系统对于熟悉图书分类的科技情报工作人员来说,更是能轻车熟路地找到自己需要的文献。相比之下,yahoo,sohu等搜索引擎的分类就没有考虑到这一点,它们所面对的只是一般的用户,采用的分类系统也就略显单薄。
2.4 悠游中文搜寻引擎(http://www.goyoyo.com)
它号称是一个极具高度智慧的中文搜索器,Goyoyo所说的“智慧型搜寻”指的是:超智能Robot(机器人)按时主动地寻找新网页资料,自动地在网页文章内找出关键字或词,做精细的区分。在按使用者要求进行搜索时,能把合适的文章和有关连性的文章一并找出。如:用户要找有关“音乐会”的文章,Robot会把有关“演奏会”、“演唱会”、“钢琴演奏会”、“莫扎特”等内容的文章也找出来。Goyoyo还说,“用户无需使用空格把词分开,可完全按照书写习惯输入检索请求,方便易用”。
3 搜索引擎问题讨论
3.1 搜索引擎应当考虑到不同的用户需求进行分类工作
3.2 类名的设置问题
不同的搜索引擎类名各不相同,各子类的设置也不同。目前看来,我们不可能强求所有的搜索引擎都使用一个相同的标准,而且制定这个标准也并不容易。一段时间内只有听之任之,但类名不同的问题的确给用户带来了一定的麻烦。
3.3 关于分类的深度问题
网络文献与传统的纸制文献有着很大的区别,这也就导致了网络检索系统的分类应当具有一些与传统分类法不同的特点。例如,在传统的图书检索时,由于图书是放在书架上任读者浏览的,这就使读者在查找一个子目的图书时,也可以很方便的浏览到与该子目并列的类目甚至上位类的内容。而网络检索时,由于是单屏显示,使得上下级和同级类目不可见,用户只有通过超级链接才能浏览到别的类目。在目前的网络带宽和速度下,如果分类级别过深,虽然会使整个系统逻辑性更强,却必然会浪费用户大量时间,可谓得不偿失。减小分类深度必然是以扩大宽度为代价的,这对于网络公司来讲是一个挑战。就我自己而言,如果查找一个主题到第5级子类时仍然没有结果,就会放弃本次查找,转向别的类目,考虑到大多数用户的心理,我认为网络分类的深度以4级为最合适,最多不超过5级。网络分类中的级别问题还应视类目不同而不同,一个成熟而完善的学科(如医学类),在这方面存在的问题不大;而经济类与计算机类则不同,由于不断出现人们想象不到的新兴学科,给分类工作造成了不小的麻烦,此处不再详述。
3.4 空类的设置问题
指南针中设了很多空类,所谓空类,就是指没有文献的类目,这一点与传统的文献保证原则完全相悖,但我认为空类的设置完全必要。因为网络信息呈几何级数疯长,每一刻都有无数的新信息,也就是说数据库完全有可能在一次刷新后发现该空类的有关信息,然后放入该类。空类的设置使得数据库在发现新信息时不至于不知所措。
3.5 关于热点问题
有许多搜索引擎都直接把热点摆在桌面上,用户可以直接点击进入,这样做当然极大地方便了用户。在网络指南针中,就收集了3日热点、10日热点、30日热点,它的统计是根据该网站的访问频率来确定的。那么,在把热点放在桌面上之后,还有没有必要再在热点应属的类目中进行反映呢?答案是肯定必要的。这样才能保持分类系统本身的完整性。另外,用户没有注意到桌面上的热点的可能性也是有的,当他按照其本身的检索路径去查找也应当可以正确地得到结果。由于网络的超级链接功能,这样的重复反映不会耗费太多的人力物力,所以重复反映热点是非常必要的。
3.6 存在的一些缺陷
首先应当把用户急于查找的类目单独分出来方便用户。二是收集网站过少是一大问题,在网络指南针专业分类系统的医学类中大概有70%以上的类目为空类,其数据库容量亟待扩充。三是词汇后控不完善,数据库刷新率不高现象也非常严重。四是同一搜索引擎同级类目的关系上,网络分类体系也存在一些问题。例如,类目划分不完全,缺少一般类等。如,在搜索客上没有关于操作系统的类目,新浪网上并不分出数据库的类目。这样,用户在查找相关的内容时,必须在意义相近的几个类目里进行查找,降低了效率。
4 搜索引擎评价标准
通过上述分析,总结出评价搜索引擎大致标准如下:
(1)分类系统的合理性、分类的广度和深度、限制在类别内搜索的能力是衡量一个搜索引擎性能的重要标准。
(2)搜索引擎收集的网站(或网页)数目,因为这直接影响到搜索结果的广泛性。
(3)搜索引擎搜索结果的满意度,包括查询结果相关项中数量、死链接和重复链接的数量等。
(4)搜索引擎数据库的更新频度、时效性。
(5)搜索引擎提供的查询功能使用便利性,如除了支持简单搜索,是否还支持逻辑查询和多词查询,多词查询是自动分词还是须加标记,是否能自动识别中英文等。
参考网站
中文雅虎http://gbchinese.yahoo.com
搜狐http://www.sohu.com
新浪网http://www.sina.com
搜索客http://www.cseek.com
网络指南针http://www.compass.edu.net.cn:8080
悠游中文搜寻引擎http://www.goyoyo.com
标签:搜索引擎论文; 搜索引擎收录论文; 网站数据库论文; 数据库软件论文; 国外搜索引擎论文; 数据检索论文; 互联网论文; 数据库论文;