网络信息计量学与搜索引擎研究,本文主要内容关键词为:计量学论文,搜索引擎论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号]G350
随着互联网(Internet)的不断扩展和功能的不断增强,搜索引擎(Search Engine)在网络社会中的地位日益重要。对于科学工作者来说,搜索引擎研究已成为诸多科学领域所关注的焦点。但是,在情报学领域,人们对“搜索引擎”的认识始终停留在“工具”的层面。即使有所尝试,也因为缺乏合适的切入点,而难以真正介入到这一热门的研究领域中。本文的讨论正是在这一背景下提出来的。我们认为,搜索引擎既是网络信息计量学的重要研究工具,也是重要的研究内容,两者之间存在着十分密切的联系,对两者进行综合研究具有十分重要的科学意义和广阔的发展前景。
1 搜索引擎在网络信息计量研究中的应用
1.1 搜索引擎的重要作用
对于任何计量科学研究来说,系统、全面地收集所需要的原始数据都是开展研究的基本前提。因此,数据收集方法始终是网络信息计量学重点研究的问题。
目前用于网络信息计量研究的原始数据主要有两种来源:结构化或半结构化的数据资源,主要是连接到互联网上的各种专用数据库,包括各种联机信息系统、引文索引、全文数据库、专题网站等。这类数据资源属于高度组织化的信息资源,并配备有专用的信息检索工具,使用方便,数据可靠,但数量有限,成本较高,而且其数据一般都不能直接用于网络信息计量研究,需要进一步挖掘;非结构化数据:网上拥有大量的自然语言文本、图像、声音等数据,无法用统一的结构表示,被称为“非结构化数据”[1]。这类数据中隐含着许多非常有价值的信息,如能加以开发利用,将产生巨大的效益。但是,由于具有内容丰富、类型多样、数量巨大、结构复杂、变化频繁、质量不一等特点,对其进行开发利用的难度很大。就目前来看,人们主要依靠各种商业“搜索引擎”来搜集这类“非结构化数据”。
网络信息计量学作为一门以“网络信息”为研究对象的计量学科,自其诞生之日起,就与搜索引擎结下了不解之缘。从最早的T.C.Almind和Peter Ingwersen[2] 所做的研究开始,一直到今天,相当多的网络信息计量学研究者都依靠搜索引擎来收集数据。所用到的搜索引擎也是种类繁多,特点各异,包括Alta Vista、AllTheWeb、Northernlight、Google、Excite、Lycos、HotBot、Infoseek等在内的众多知名搜索引擎都曾被应用于数据搜集工作中[3]。可以说,没有搜索引擎,网络信息计量学就失去了有效的研究手段,不可能得到如此迅速的发展,搜索引擎无疑是当前网络信息计量研究中最重要的数据收集工具之一。
应用搜索引擎的首要问题就是选择合适的搜索引擎。互联网上的搜索引擎数量众多,且处于不断增长之中,但并非每个搜索引擎都适合于网络信息计量研究。这就需要我们时刻关注搜索引擎的最新进展情况,充分掌握各种搜索引擎的功能特点,在实践中根据具体的研究目标和研究对象,选择最合适的搜索引擎。就目前而言,AltaVista(www.altavista.com)由于其检索功能强,检索途径多,能满足多种计量的需要等优点,成为迄今为止在网络信息计量研究中应用最多的搜集引擎。除了选择合适的搜索引擎之外,恰当地使用它同样是影响数据收集效果的关键。其中最重要的环节就是检索语句的编制。这要求我们要充分掌握搜索引擎的语法格式、指令功能及其正确的使用方法,最终确定高效率、高质量的检索语句来达到研究目的。例如,Ray R.Larson[4] 在其研究中就灵活使用了AltaVista的高级检索式:“link:pubweb.parc.xe2rox.com/map AND:link:xtreme.gsfc.nasa.gov”,来获取同时指向两个网址的网页。近年来,随着搜索引擎技术的迅速发展,越来越多的搜索引擎也提供了强大的检索功能,使研究者们有了更多的选择。一般来讲,搜索引擎的基本使用方法可查阅有关的参考书或者搜索引擎网站上的帮助文件。但是,更复杂的使用方法和对使用效果的评价则需要研究者的反复实验和系统总结。
1.2 搜索引擎的不足之处
尽管搜索引擎在网络信息计量研究中具有如此重要的地位,已成为不可或缺的数据收集工具。但与此同时,搜索引擎在实践中也表现出了种种局限性,使其检索效果一直深受质疑,并直接影响到了整个网络信息计量研究的可靠性和合理性。
简单地说,搜索引擎的设计目标可以用“全”、“准”、“快”来概括,与之对应的是评价搜索引擎性能的三个主要指[5]:查全率(Recall Ratio)、查准率(Precision Ratio)和响应速度。对于一般的网络用户来说,“查准率”是上述指标中最为重要的,这也使得近年来搜索引擎的进步主要表现在“查准率”的提高上。但是,对于以数理统计为基础的计量学科来说,数据的“查全率”无疑具有更加重要的意义。因此,我们在网络信息计量研究当中所使用的搜索引擎,应该覆盖尽量大的网络,这样才能得到较为全面的研究数据。那么,搜索引擎到底覆盖了多少网络呢?
上世纪末,NEC美国研究所(NEC Research Institute,NECI)的Steve Lawrence和C.Lee Giles对Aha Vista、Google、Hot-Bot、InfoSeek、Lycos、Northern Light、Snap、Yahoo!等主要商业搜索引擎的网络空间覆盖范围进行了全面而深入的研究,结果于1998年和1999年连续发表在Science[6] 和Nature[7] 上。他们的研究表明:尽管处于信息技术飞速发展的时代,单一搜索引擎的最大覆盖率在两年内却由34%降低到16%。这是因为,尽管随着网络信息检索技术不断提高,搜索引擎所能检索的信息量在绝对数量上不断扩展,但其增长速度依然落后于网络的增长速度,这就导致搜索引擎原本就不高的覆盖率继续缩小。而事实上,情况还要糟糕得多。Lawrence等人在研究中引入了“可索引的万维网”(Indexable Web)的概念,将其测量范围限定在“能被搜索引擎编入索引的万维网”。那么,“不可索引”的部分呢?2001年,以Michael K.Bergman为首的Bright Planet公司(brightplanet.com)的研究者将网络明确划分为表层网络(Surface Web)和深层网络(Deep Web)。前者相当于Lawrence和Giles所测量的“可索引的万维网”,后者就相当于剩余的“不可索引的万维网”。他们采用交迭分析(Overlap Analysis)估算出“深层网络”的信息量是“表层网络”的500倍,且前者的信息增长速度大于后者[8]。美国“How much information?”研究小组的报告[9] 进一步表明:前者是后者的550倍,证实了Bright Planet公司的结论。综合以上研究成果,我们可以估算出一个令人沮丧的结论:最大覆盖率的搜索引擎在1999年的时候仅仅覆盖了0.03%(=0.16/550)的网络信息资源(包括“表层网络”与“深层网络”)。而且,按照Lawrence等人的研究结果来推论,这一比例还在继续缩小当中。
搜索引擎的覆盖率如此之低,其适用范围自然大打折扣。正如庞景安所言:“由于通常搜索引擎对Web的覆盖率有限,所以对这类统计结果应谨慎处理,避免产生荒谬的结论”[10]。除此之外,搜索引擎还存在使用不便、效率低下、功能不足、稳定性差、精度不高、缺乏客观性等其他不足,同样限制了其在网络信息计量研究中的应用。尤其是商业利益的驱动,使得“商业搜索引擎的数据收集和排列,往往受到收费的影响和支配,而导致数据的不可信”[11]。Herbert Snyder等人更是一针见血地指出:“搜索引擎种种局限性的根源既不在于Web的固有属性,也不在于网络信息检索的技术问题,而在于商业搜索引擎的‘市场驱动(market- driven)’本质”[12]。
1.3 困境与展望
一方面,搜索引擎是网络信息计量研究不可或缺的工具;另一方面,搜索引擎所具有的种种局限性,又使得网络数据的搜集仍然缺乏普遍有效的方法,严重制约着网络信息计量学的发展。多年来,研究者们为了突破这一困境,一直进行着不懈的努力。从目前来看,主要有以下几个发展方向:
·开发专用工具。为了提高数据收集效果,一些学者针对特定的研究对象和研究目的,开发了专用的数据搜集工具,以实现数据的自动收集和筛选工作。例如。Alastair G Smith和Mike Thewall[13] 在研究中就使用了自己设计的“爬行器”。“专用工具”虽然具有“量身定做”的优势,但开发周期过长、投入过多、技术门槛过高使得这种方案难以推广。
·利用网络信息查询平台。近年来,网络上出现了一些专门的信息统计网站,它们提供的统计数据类似于传统文献计量学中的“二次文献”,可以作为开展网络信息计量研究的数据来源。例如,“Alexa”(www.alexa.com)就提供了关于网站统计(Site Stats)、联系方式(Contact Info)、流量细节(Traffic Details)、相关链接(Related Links)等方面的信息。再如,Bright Planet公司开发的DQM(Deep Query Manager)平台就是一个集信息发现、收割(harvest)、管理和分析于一体的的深层网络信息查询平台,不仅可以对位于“深层网络”数据库进行信息查询,还可同时对网络上成百上千个搜索引擎、目录索引和联网数据库中的信息进行自动收割。但是,这些平台有的还处于起步阶段,技术水平较低,涵盖范围有限,难以推广应用;有的需要收费,成本较高,利用困难。
·专业搜索引擎。搜索引擎作为IT行业中炙手可热的投资领域和研究热点,许多国家都投入巨大的资源进行研究,由此产生的技术成果自然十分丰富。如果能够摆脱“商业搜索引擎”这种通用工具的种种局限性,同时又能够充分利用搜索引擎的技术优势,无疑是最理想的选择。以此为出发点,人们开始将注意力投入到“专业搜索引擎”的开发中。这种搜索引擎将检索范围限定在一定的专业领域内,提高了检索结果的有效性。有些还依托特定的数据库,使得“查全率”得到大幅度提高,对于某一领域的特定研究工作是很有效的工具。从总体上来看,开发“专业搜索引擎”是最被看好的发展方向,受到许多搜索引擎厂商的重视。
2 网络信息计量学中的搜索引擎研究
以上,我们探讨了搜索引擎在网络信息计量研究中的应用,它作为数据收集工具,其重要性是显而易见的。但在另一方面,却很少有人意识到,搜索引擎同时是该领域重要的研究对象。事实上,针对搜索引擎的研究始终都渗透在各种网络信息计量研究中,并取得了相当多的有益成果。我们可以按照研究目的和内容的不同,将这些成果大致分为评价研究、应用研究和改进研究三个方面。
2.1 搜索引擎评价研究
如前所述,选择合适的搜索引擎是应用搜索引擎收集数据的首要问题。搜索引擎评价研究的目的正是通过对搜索引擎的各个性能指标进行比较分析,探讨各种搜索引擎的功能特点和适用范围,为研究人员选择适合的搜索引擎提供依据。
对搜索引擎进行时序跟踪研究是研究者们最常采用的研究方法。这种方法按照一定间隔,在某些特定时间点上收录搜索引擎检索结果的数量、相关性及其结构特征,以便观察是否有大量的变化、不一致性或不规则的现象,探讨搜索引擎的稳定性问题和成长状况。例如,Rousseau[14] 于1999年对Altavista和NorthernLight进行了21周的连续跟踪研究。结果显示,随着网页的成长NorthernLight检索的数据亦呈稳步增长,这与网络发展的步调是一致的。而Altavista的结果在某一特定日期前始终处于很大的变化之中,检索结果不稳定,直到后来系统重建才进入到一个相对稳定阶段。他建议利用中值筛选(Median Filtering)来降低这种不稳定性对检出结果的影响。再如,Judit Bar- Ilan[15] 分别在1998年和1999年对当时6个主要的搜索引擎进行了连续几个月的跟踪研究,专门研究搜索引擎检索结果的变化及其原因。Mike Thelwall[16] 则通过对多个搜索引擎为期7个月的跟踪研究,得出了Google实时性最强,而Alta Vista最稳定的结论。2001年,夏旭等人[17] 对性能较好的10种医学搜索引擎进行检索和比较分析,结果发现医学搜索引擎的覆盖范围有限,而且检索结果的相关性不如通用引擎。此外,还有的研究者致力于搜索引擎评价的方法研究上,探讨如何对各种搜索引擎的性能进行综合评价。例如,1997年,Clarke和Willet[18] 就提出了现实可行的搜索引擎评价方法,并对AltaVista、Excite 以及Lycos三个搜寻引擎作了比较,结果发现AltaVista的性能明显优于Excite和Lycos。
2.2 搜索引擎应用研究
尽管目前的搜索引擎存在着种种局限性,但在相当长的时间内,它们仍将是网络信息计量研究者们主要依靠的数据收集工具。那么,如何在现有条件下利用搜索引擎获得尽量“优质”的研究数据就成为一项有意义的研究工作。为此,网络信息计量学的研究者们也做了很多有益的尝试。例如,Steve Lawrence和C.Lee Giles[6-7] 就曾指出,为了克服单一引擎的局限性,可将几个主要引擎结合起来使用,也可通过利用一些具有自动抓取功能的研究型搜索引擎来获得信息。他们的研究结果表明,多个搜索引擎的覆盖范围组合之和是估计总页数的42%,远高于单一搜索引擎最大16%的覆盖率。2001年,Alastair G Smith和Mike Thewall[19]自己设计的爬行器和AltaVista进行了比较,结果表明:AltaVista更便于做探索性研究,专门的爬行器在验证性的研究上要好一些。2005年,吕俊生等人[20] 对用于网络链接关系检索的搜索引擎进行了系统的调研分析,提出了用于链接分析的搜索引擎的选择方案。2006年,杨木容[21] 对国内链接分析中使用的主要搜索引擎进行了比较分析,明确指出需要进一步开发针对网络链接分析研究的专门搜索引擎。
还有的学者提出通过对检索结果的二次加工来提高检索结果的有效性。例如,2003年,肖建华等人[22] 提出的二次搜索系统,就借助链接分析技术,对搜索引擎搜索结果进行再次处理,为用户提供一个高质量的搜索结果。
2.3 搜索引擎改进研究
随着搜索引擎的地位日益提高,如何利用信息科学技术的新成果、新方法、新工具改进搜索引擎的搜索效果,提高搜索引擎的性能已成为互联网行业乃至整个IT领域的关注焦点。一直以来,搜索引擎的开发和改进,似乎都是计算机、网络、通讯、软件工程等信息技术专业的专利。但事实上,网络信息计量学作为研究网络信息的数量特征和内在规律的科学学科,它的许多研究成果同样可用于搜索引擎的改进当中。下面,我们试举一例。
一个搜索引擎系统的核心是其所采用的“信息检索模型”,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制等诸要素[23]。正如前文所述,“查询结果的排序”在很大程度上决定了搜索引擎的性能。在过去,搜索引擎主要采用人工判断、竞价排名、检索词频率、登录时间、索引顺序等方式来确定排序标准。但由于主观性强、效率低下、商业因素的干扰等原因,这些排序方法的效果都不太理想。
近年来,许多研究者发现,网络上的链接结构是个非常丰富和重要的资源,通过对链接结构进行分析来确定网页的重要性,作为检索结果排序的依据,可以极大地提高检索结果的质量。其中最成功的例子莫过于“Google”。Google作为目前最好的搜索引擎之一,其体系结构类似于传统的搜索引擎,但最大的不同处在于对网页进行了基于权威值的排序处理,使“最重要的”网页出现在结果的最前面。这种重要的网页被称为“权威(Authoritive)网页”,其判断依据是Sergey Brin和Lawrenc Page创立的Pagerank算法。他们使用该算法计算出网页的“Pagerank值”,其含义是:“假定用户一开始随机访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值”。简单而言,Pagerank算法的基本前提是:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页[24]。显然,这一基本前提与传统文献计量学中的引文分析法的基本思想如出一辙,可以说是网络信息计量学特征方法的典型应用。
3 结语
综上所述,网络信息计量学与搜索引擎之间存在着十分密切的联系,两个领域的研究工作是相辅相成、互相促进的关系。一方面,过去和现阶段的网络信息计量研究主要依赖搜索引擎来获取原始数据,搜索引擎的进步将为网络信息计量学提供更加有效的数据收集手段;另一方面,搜索引擎一直以来都是网络信息计量学的重要研究对象,所取得的研究成果可以有力地促进搜索引擎的发展。因此,我们有理由相信,把网络信息计量学研究与搜索引擎研究结合起来,在这一交叉领域开展综合性、系统性的研究,将是一项十分有意义的研究工作。本文就这一问题进行了初步探讨,权作引玉之砖,希望能为研究者们提供可咨借鉴的参考。
收稿日期:2008-06-16修回日期:2008-07-30