国内外网盘搜索引擎分析与比较,本文主要内容关键词为:国内外论文,搜索引擎论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
网盘即网络硬盘,是目前非常流行的在线文件共享方式。很多人会把自己搜集的软件、游戏、资料、视频、动漫、电影、音乐、PDF电子书等等都放在网盘上,这些由千千万万网民上传的内容组成了一个非常巨大的资源宝库,并且其中的优秀资源越来越多,特别是一些论坛、博客推荐的资源大多保存在网盘中。但是网盘服务网站通常不提供检索功能,通用网络搜索引擎“Google”、“百度”也没有对网盘资源进行专门的索引,检索效果不理想,往往出现信息纷杂、良莠不齐、陈旧过时等问题,为此专门针对网盘进行搜索的工具——网盘搜索引擎应运而生。本文在对网盘和网盘搜索引擎进行简要介绍的基础上,重点分析和比较了国内外17个知名网盘搜索引擎的性能,并以五星制进行了评分,希望对用户选择网盘搜索引擎提供参考,同时通过对比发现国内网盘搜索引擎的不足及原因,对国内网盘搜索引擎的发展进行了思考。
1 网盘和网盘搜索引擎
1.1 网盘
网盘,又称网络磁盘、网络空间、网络U盘、网络优盘等等,是一些网络公司推出的在线存储服务,向用户提供文件的存储、访问、备份、共享等文件管理功能[1]。拥有网盘的用户可以把重要的资料上传到网盘永久保存,不用担心因电脑硬盘、U盘等储存器问题而致资料丢失,还可以随时随地方便地提取使用。免费网盘的可用空间较少,一般对文件大小、下载速度、存放时间等进行限制;收费网盘具有速度快、安全性能好、容量高、允许大文件存储等优点,适合有较高要求的用户。网盘的盈利模式主要是广告以及收取高要求用户的存储费。同时网盘通常以每千次下载给上传文件用户一定报酬的方式吸纳优秀资源。
电子邮箱所提供的附件功能是最早的网络硬盘,随着网络技术的发展及人们对网络存储需求的提高,近年来,涌现出一大批专业提供网盘服务的营运商。国内知名的网盘有Rayfile(飞速网盘)、Namipan(纳米盘)、Damipan(大米盘)、115网盘、Brsbox、dbank(数据银行)、163盘(易盘)、Qiannao(千脑盘)、Ziddu(香港),Xun6(香港)等。国外知名的网盘有Rapidshare、Megaupload、Mediafire、DepositFiles、Hotfile、Filefactory、Uploaded、4shared、Easy-share、Zshare、Badongo等,其中Rapidshare和Megaupload是老牌网盘,深受国内用户喜爱。
1.2 网盘搜索引擎
网盘服务大都没有提供搜索功能,用户要从网盘找到某一个文件一般有4种途径:(1)有该文件的提取码(每一个上传成功的文件有唯一一个提取码)或具体链接地址,缺点是在文件上传者没有公布该提取码或链接地址的情况下,他人不可能通过此途径找到该文件。(2)直接通过搜索引擎搜索(如Google、百度、搜狗等),缺点是需采用关键词匹配、“site:”限制检索等较专业的搜索方法,用起来比较麻烦,检索效果不理想,并且不是每个人都知道这些方法。(3)通过资源分享论坛查找资源(如RayFile资源论坛、下载圈、网盘资源共享地带51pan等),缺点是一次只能在一个论坛中查找资源,往往不能保证找到有效资源。(4)通过专用网盘搜索引擎查找,解决了上述三种途径的缺点,其特点是方便快捷,一次可以搜索多个网盘,有丰富的功能选项,大大节约了用户查找特定文件的时间。
网盘搜索引擎的类型非常多,国内目前活跃的网盘搜索引擎有找文件(http://www.zhaofile.com)、网盘精灵(http://www.files2me.com)、盘搜(http://www.pansou.com)、搜网盘(http://www.souwangpan.com)、网盘下载资源搜索中心(http://www.wangpan8.com)、飞速网盘搜(http://www.feisuso.com)、网盘搜搜(http://wpsoso.com/new.html)等。国外网盘搜索引擎数以百计,更是多种多样,如针对Rapidsharede搜索引擎就有百余个[2]。知名的国外网盘搜索引擎有Rapidshare Search Engine(http://www.filesearch.gr/)、Megadownload(http://www.megadownload.net/)、Filestube(http://www.filestube.com、)、Filecrop(http://www.filecrop.com/)、Rapidlibrary(http://rapidlibrary.com/)、JetDL(http://jetdl.com/)、Uprius(http://uprius.com)、Sharedigger(http://sharedigger.com/)、Sharedirectory(http://sharedir.com/)、Uvrx(http://www.uvrx.com/)等。本文以上述7个国内网盘搜索引擎和10个国外网盘搜索引擎为调查和研究对象。
2 国内外网盘搜索引擎各项性能的分析与比较
2.1 搜索的网盘数量及检索结果量分析与比较
搜索的网盘数量和类型决定了网盘搜索引擎可搜资源的范围。国内网盘搜索引擎中找文件、网盘精灵和盘搜不仅搜索国内网盘还搜索国外网盘,特别是网盘精灵能够搜索至少4个国内网盘和34个国外网盘,其他国内网盘搜索引擎搜索网盘总量在4-16个之间,如表1所示。在调查的10个国外网盘搜索引擎中,Rapidshare Search Engine是专门搜索Rapidshare的搜索引擎,Megadownload和Filecrop是专门搜索Rapidshare与Megaupload的搜索引擎,其他网盘搜索引擎可搜索的网盘总数在5-55个之间,并且均为国外网盘。可见国外网盘搜索引擎中除了针对老牌网盘Rapidshare和Megaupload的专门搜索引擎外,能够搜索的网盘数量普遍较多,但都没有将国内网盘纳入搜索范围,这与国内网盘起步较晚,影响力还不够大有关。同时由于国外网盘不支持中文文件名上传文件,导致用户使用国外网盘搜索引擎时输入中文字串往往没有检索结果,如笔者用“活着”、“瑞星”在采用自有搜索技术的国外网盘搜索引擎中检索时均没有检索结果,这必定影响国内用户对国外网盘搜索引擎的使用。当然,对掌握了搜索技巧的用户另当别论,如将“活着”、“瑞星”分别转换为字串“huozhe”、“rixing”即搜索出关于电影《活着》和软件“瑞星”诸多结果。
检索结果量是受搜索引擎所搜索的网盘数量、网盘类型、搜索技术等共同影响的反映搜索引擎性能的一项重要指标。为了比较各搜索引擎的检索结果量,统计了各搜索引擎对“活着”、“瑞星”、“Kaspersky”、“yesterday once more”四个字串检索结果量①的平均值,即表1中的“平均检索结果量”。国内网盘搜索引擎的检索结果量普遍较少,均不超过200,远远低于国外网盘搜索引擎大多超过1000的检索结果量,并且国外网盘搜索引擎中多采用自有搜索技术,检索结果的准确度也更高。可见与国外网盘搜索引擎相比,国内网盘搜索引擎的有效检索结果量比较低。为了更直观地比较检索结果量,给出“检索结果量星级”,标准是“平均检索结果量”99个以下为2星,100-999个结果为3星,1000-4999个结果为4星,5000个结果以上为5星。如表1所示,国外的网盘搜索引擎“检索结果量星级”为4星以上的有6个,其中Filestube的平均检索结果量最多,达9855.50个,而国内的网盘搜索引擎“检索结果量星级”均在3星以下,特别是网盘精灵的检索结果量与其标注的可搜38个网盘很不相称。
2.2 搜索技术及检索速度和准确度分析与比较
目前国内外网盘搜索引擎采用的搜索技术有两种类型,一是采用Google自定义搜索技术对特定的网盘资源进行搜索,二是采用自有搜索技术,有自己的蜘蛛程序,到互联网上各个资源发布站点、博客、论坛等抓取共享文件信息,收录到自己的数据库,当用户搜索时从自己的数据库中查找资源,这种类型的网盘搜索引擎往往提供较高相关度的结果[3]。笔者调查的7个国内网盘搜索引擎中只有网盘精灵采用自有搜索技术,其他均为Google自定义搜索技术。而国外网盘搜索引擎中只有Rapidshare Search Engine、Sharedigger和Uvrx采用Google自定义搜索技术,其他均为自有搜索技术。可见国内网盘搜索引擎提供商技术研发力量及资金投入都远逊于国外网盘搜索引擎提供商,当然给用户的搜索体验也是完全不可比拟的,后者往往搜索速度更快,搜索结果的准确性更高,如表2所示。
表2中“平均检索时间”是各搜索引擎针对“活着”、“瑞星”、“Kaspersky”、“yesterday once more”四个字串检索结果量对应检索时间的平均值。采用自有搜索技术的网盘搜索引擎检索时间通常在数十微秒左右,其中国内的网盘精灵搜索速度最快,只有6.7个微秒,而采用Google自定义搜索技术的搜索时间通常为数百微秒,如国内的盘搜,国外的Sharedigger等。由于搜索时间都在一秒以内,对终端用户的使用影响不大,因此,“搜索速度星级”仅给出3个星和5个星两个等级。对于不显示搜索时间的搜索引擎根据其采用的搜索技术给定星级。
检索结果是否准确是用户选择搜索引擎的一项重要指标,通过上述检索结果的分析,发现采用Google自定义搜索技术的搜索引擎是对整个来源网页进行匹配检索,准确度差;采用自有搜索技术的搜索引擎中,Filecrop、Rapidlibrary、网盘精灵是对检索结果来源网页的网页标题和网页中的文件名进行匹配,准确度较高;其余自有搜索技术的搜索引擎是对检索结果来源网页中的文件名进行匹配,准确度非常高。为此,“准确度星级”分别给出2星、4星和5星三个等级。
2.3 搜索功能分析与比较
搜索引擎是否吸引用户,除了衡量检索结果量、检索速度和准确度,还要看其功能是否强大和实用,功能差别较大的搜索引擎在其他性能相当的情况下,其实现的信息挖掘结果会有较大区别,这很大程度上影响用户找到需要的文件。笔者通过对17个搜索引擎的调研,列出表3所示的11个功能,并对每个搜索引擎的相应功能打分,总分为100分。各个功能及给分标准说明如下:
(1)“检索限制”和“结果排序”是用户找到所需文件的常用功能,也是多数搜索引擎具有的基本功能,满分各15分。检索限制有网盘、文件类型和大小限制三种类型,具有一种类型检索限制的给5分,两种给10分,三种给15分。Filestube、Rapidlibrary和网盘精灵分别有三种检索限制方式。检索结果排序方式有相关度、文件名、大小、下载次数(有的搜索引擎为“受欢迎程度”,即popular指标)、文件上传日期、来源页面链接地址(Source site)六种类型,具有一种排序方式的给5分,两种或三种排序方式的给10分,四种以上排序方式的给15分。Filecrop、Filestube、Sharedirectory分别有四种结果排序方式。
(2)“链接检查”、“分组聚类”和“类似文件推荐”是方便用户进一步找准、找全文件的重要功能,但有这些功能的搜索引擎不多,为了不拉大各搜索引擎功能总分差距,满分仅给10分,有则给满分,没有则为零分。其中链接检查是避免网盘中一些已经删除的资源而搜索引擎仍给出检索结果的一项实时链接检查功能,只有Filecrop和Sharedirectory有该功能;分组聚类功能是在检索结果中将同一文件的不同部分聚合在一起列出,如将《一人一首成名曲》(港台版)8个CD的不同下载地址聚合在一起,而无论它们来自哪个网盘,只有JetDL有该功能;类似文件推荐是针对每一个检索结果列出与其相关的其他文件,方便用户进一步扩展检索,只有Megadownload和Rapidlibrary有该功能。
(3)“高级检索”应该是网络搜索引擎的常设功能,但所调研的网盘搜索引擎中有高级检索功能的只有Sharedirectory和Filestube,并且其作用是将上述功能整合在一起供用户选择(Filestube的高级检索还提供了逻辑组配关键词功能)。为了不拉大各搜索引擎功能总分,满分仅给10分,有则给满分,没有则为零分。
(4)“检索推荐”是指搜索引擎为没有明确检索目的的用户推荐检索的资源,包括数据库最近新增资源、用户最新搜索资源(包括当月、当天搜索内容甚至几秒前的搜索内容)、热搜资源三种类型。具有该功能的搜索引擎比较多,满分为10分,具有一种检索推荐功能的给4分,两种给7分,三种给10分。
(5)“界面语言”、“用户注册”、“地区检索”、“AJAX应用”是对用户检索结果影响不大的功能,可以称其为附加功能,各给5分,有则给满分,没有则为零分。关于界面语言,对于提供一种界面语言的给1分,四种以内界面语言的给3分,五种以上界面语言的给5分,其中Uvrx和Filestube分别提供了包括中文在内的8种语言和7种语言;用户注册指搜索引擎为用户提供注册以及附加功能,如检索定制功能,只有Sharedirectory和FilesTube具有用户注册功能。地区检索功能指用户可以选择文件所在服务器的所属国别或地区,只有Filecrop为用户提供了包括中国在内的21个地区选择检索。AJAX即“Asynchronous JavaScript and XML”,是时下流行的创建交互式网页应用的网页开发技术[4],应用AJAX的搜索引擎的所有操作都在一个页面上,用户能够获得更好的搜索体验,只有Sharedirectory和搜网盘应用了AJAX技术。
表3中“检索功能总分”是上述11个检索功能的得分和,最高为57分,最低为6分,总体得分不高是因为上述的很多功能仅在个别搜索引擎中存在。根据“检索功能总分”给出了各个搜索引擎的“检索功能星级”,标准是19分以下为1星,20-29分为2星,30-39分为3星,40-49分为4星,50分以上为5星。国外网盘搜索引擎中获得4星以上的有5个,其中Filestube和Sharedirectory检索功能最强,而国内网盘搜索引擎中只有网盘精灵勉强获得2星,其他均为1星,可见国内网盘搜索引擎的功能普遍很弱。
3 国内外网盘搜索引擎综合性能排序
对网盘搜索引擎各项性能的分析与比较为其综合性能评分提供了条件,如表4所示,“各性能得星和”是检索结果量星级、检索速度星级、准确度星级和检索功能星级得星之和。由于对搜索引擎各项指标的打分标准均为笔者自行设定,有的是粗略给分,其科学性有待商榷,为此以4分为一星,将“各性能得星和”转化为五星制,以“综合星级”作为对各搜索引擎的最终性能得分。Filestube、Sharedirectory、JetDL、Rapidlibrary为5星级网盘搜索引擎,推荐用户使用,特别是Filestube,其各项性能均达到5星级。国内网盘搜索引擎中网盘精灵由于采用自有搜索技术在检索速度、准确度方面高出一筹,检索功能也不是很差,成为国内唯一的4星级网盘搜索引擎。
4 对国内网盘搜索引擎发展的思考
通过前述的分析与比较,总体上看国内网盘搜索引擎的各项性能与国外网盘搜索引擎差距都比较大,原因主要两个,一是多数搜索引擎没有开发自有搜索技术,导致检索速度慢、准确度差、检索功能单一;二是以国内网盘资源为主要搜索对象,而国内网盘由于起步晚,多数没有给上传文件者提供奖励政策或奖励幅度没有国外网盘高,使得国内网民将很多优秀资源上传到国外网盘上,导致国内网盘资源不够丰富,公布的资源链接少,搜索引擎的检索结果普遍较少。
国内网盘资源的丰富不是短时间能实现的,而国外网盘资源由于政策原因很多无法访问,为此国内网盘搜索引擎提高性能的突破口在于开发自有搜索技术,提高搜索结果的准确度,丰富和完善搜索功能。此外,要尽量扩大可搜索的网盘资源范围,特别是要密切关注国内可以访问的国外网盘,随时将其纳入搜索范围,提高检索结果量。笔者相信,通过上述改进,国内网盘搜索引擎凭借其中文界面优势、支持中文字串检索以及4亿中国网民的基础,必将得到良性发展。
注释:
①检索结果量统计于2010年11月10-16日,均是在所有可以搜索的网盘中同时检索的结果量。如果搜索引擎没有该功能,如“盘搜”,是对国内网盘和国外网盘分别检索结果量的和。另外,Sharedirectory的检索结果量是包括链接失效文件、结果不聚类状态下的检索结果量(高级检索选项中不勾选“hide deleted files”和“group files”);“网盘下载资源搜索中心”和“网盘搜搜”每次检索最多返回100个结果。