链路分析研究综述_搜索引擎论文

链接分析研究综述,本文主要内容关键词为:分析研究论文,链接论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

链接分析(Link Analysis),如果从李彦宏1996年提出的链接分析算法[1]算起,已有十余年的研究历史了。综观十余年来国内外链接分析研究的相关文献,便会发现其主要著者为文献计量学、网络计量学、信息检索等领域的学者,不同领域的学者研究的侧重点有所不同。本文在国内外链接分析研究相关文献的基础上将其综述为四大研究视角,并提出了链接分析发展中的问题及发展趋势。

1 链接分析研究四大视角

1.1 网络计量学的视角

邱均平等从网络计量学的角度提出了链接分析的研究内容包括如下几个方面[2]:链接和被链接量、链接网页的类型、链接的频次和变化、链接网页之间的关系和网络电子图书、期刊引证分析等。在这样的研究框架下,部分学者用统计的方法研究网站网页的链接特征;部分学者借助入链数量与网络影响因子评价网络信息资源及网站的网络影响力,并以此与电子期刊及大学评价排行榜类比;还有一部分学者则对链接分析的理论基础提出质疑,并尝试论证其有效性。

1.1.1 链接特征分析

邱均平等将链接特征分析的指标归纳如图1所示,并从101个美国商学院和医学院网站中抽取40个作为样本,考查了网站链接特征的相似性,站内外链接数量的比例等[3]。以相似的研究方法,马大川等分析了中美心血管学网站的链接特征,以探讨网站质量与链接特征之间的关系[4];段宇锋分析了中美大学网站的链接特征及中国财经类院校[5]、美国商学院和医学院网站的链接特征[6],以探讨网站评价的指标体系,并将网站分层,对不同页面层的链接数量分布、链接密度、页面平均链接数进行比较,进而得出结论:网站各层在规模、文件类型和所拥有的网络链接数量等方面的变化具有明显的规律性,它取决于各层的功能定位[7]。链接,作为网络形成的枢纽,是互联网研究的重要研究对象之一,通过对链接特征的分析,可以深入了解网络信息资源的网状结构及资源分布状况。

图1 链接特征分析常用指标

1.1.2 网络信息资源评价

网络计量学中的链接分析法犹如文献计量学中的引文分析法,可用于科学评价,其基本假设为:链接代表认可,其评价对象主要为网络信息资源,如网站等。在网络信息资源的评价中,链接分析主要作为一种定量评价方法,通常与定性方法相结合,构成综合性的评价指标体系[8][9][10][11]。

而在网站评价的实证研究中,网络影响因子通常扮演着不可忽视的作用。1998年,Ingwersen在The Calculation of Impact Factor[12]一文中提出了“网络影响因子(Web Impact Factor)”这一概念,用于计算网站的影响因子,类似于期刊的影响因子(也称加菲尔德因子[13]),进而评价网站的网络影响力。Ingwerson将网络影响因子定义为:指定时间内,指向某一国家或网站的外部链接与自链接页面数的累计和与该国家或网站内部页面数的比值,并特意强调这一算法中的分子是外部链接与自链接的页面数量之和,而不是外部链接与自链接数量之和。而自WIF诞生至今,其适用范围问题、有效性问题一直饱受争议,有许多学者纷纷提出了改进算法,如将分子中的内部链接数剔除[14],将分母改为“大学全职科研人员总数”,用于大学网站的评价[14][15][16][17][18]等。

在WIF用于网站评价的过程中,学者们多结合实例,多选取国内外不同学科、不同大学、不同院系的网站作为评价对象,而对于评价结果与效果,大多也各执己见[21][22][23][24][25][26]。除了用链接分析的方法评价国家、大学、院系网站、电子学术期刊等,Franz Barjak,Xuemei Li和Mike Thelwall还用链接分析的方法评价了科学家,作者选取欧洲6个国家5个学科的456名科学家的个人主页作为研究对象,对其进行了评价[27]。不仅如此,学者们还将网络影响因子评价网站的结果与电子期刊的影响因子比较[28],与大学评价的排行榜比较[29][30][30][31]。

1.1.3 对链接分析有效性的论证

十余年来,链接分析在蓬勃发展的同时,因沿用引文分析的理论方法而受到重重质疑,如网络影响因子这一指标是否合理、商业搜索引擎作为链接分析工具得出的数据是否可靠、用链接分析这一方法评选核心网站是否可行等[32][33],毕竟,网络环境与学术期刊环境有着本质的不同。

刘雁书、方平认为站外链接关系反映的是被链网页被利用与被推荐的总体情况,与被链网页质量存在正向(肯定)联系,因此利用站外链接评价网络信息是可行的[31][35]。张晗为研究该方法的可靠性,选择Medical Matrix作为对照工具,将专家对网站的评价等级与链接分析法的评价结果做相关性检验,检验二者的一致性[36]。邱均平、李江从链接分析与引文分析比较的角度对链接分析的有效性进行论证,并对链接分析理论沿用引文分析理论的适用范围作了说明[37]。

当前网络计量学视角的链接分析的有效性可谓见仁见智,作为网络计量学的重要组成部分,作为情报学的重要研究方法,链接分析在不断发展着,也在不断完善着。

1.2 检索优化的视角

网络计量学视角的链接分析研究自然在网络计量学诞生(以1997年T.Almind和P.Ingwersen发表Informetric Analyses on the World Wide Web:Methodological Approaches to“Webometrics”[38]为标志)之后,但在此之前,用于信息检索结果相关性排序的链接分析算法就已经诞生了。随着网络计量学研究的深入,搜索引擎被用作链接分析工具,链接分析效果也反过来作为搜索引擎性能的测度指标。当前,搜索引擎主题不明确等问题日益突显,为解决这一问题,聚焦爬虫成了研究热点,链接分析也在其中有了应用。

1.2.1 检索结果相关性排序

1998年Pagerank算法[39]和HITS算法[40]的诞生改变了检索结果相关性排序的历史。Pagerank算法在google中应用至今,商业上取得了很大成功,以至于催生了网络中的SEO(Search Engine Optimization)的诞生,虽然其在应用过程中也暴露出了一些缺陷,也出现了各种各样的改进算法[41][42],包括IBM Almaden实验室的CLEVER系统、Compaq系统研究中心的Web Archaeology项目以及王晓宇提出的STED算法[43]。但基本都遵循了Pagerank算法的迭代原理。而HITS算法更大程度上是一种实验性质的尝试,它必须在网络信息检索系统进行面向内容的检索操作之后,基于内容检索的结果页面及其直接相连的页面之间的链接关系进行计算。这使得在实际应用环境中使用HITS算法变得十分困难,尽管有人尝试通过算法改进和专门设立链接结构计算服务器等操作,可以实现一定程度的在线实时计算,但这对于每天要处理超过几十亿次用户需求的商用搜索引擎而言,这样的计算代价仍然是不可接受的。此外,HITS算法在主题提取中有着广泛的应用,但因存在如下缺陷:①站点内部网页在权威度数值上的相互加强;②网页辅助制作工具自动生成的链接条目的干扰;③与主题无关的网页或者主题漂移[44]。其诞生后的改进算法也层出不穷[45][46][47][48][49][50][51][52]。

1.2.2 对搜索引擎性能的评价

链接分析研究初期,对链接数量等各指标进行统计时,主要以商业搜索引擎Google、Alltheweb、Altavista等为工具。国外初期的链接分析工具以Altavista为代表。如Larson[53],Ronald Rousseau[54],Peter Ingwersen[55],Owen Thomas和Peter Willett[56]在做实证分析时,均以Altavista为链接分析工具;国内早期的链接分析的实证研究中,吕俊生[57]、刘雁书等以Fast Search为工具[58],邱均平[25][59]、段宇锋[5][20][30]、朱雷[60]等以Alltheweb为工具,马大川以Google为工具[4]。

而反过来,搜索引擎用作链接分析工具时的效果可用于评价搜索引擎的性能,如Peter Ingwersen指出,计算WIF值时,搜索引擎统计结果时的性能可以作为搜索引擎质量评价的一个测度[55]。国外学者纷纷用“一致性/不一致性(Irregularity[61]、Flexibility[62]、Inconsistency[63][64][65]、Stability[66])”描述搜索引擎对于同一检索式在不同时刻返回不同结果的特征,许多学者也将不同搜索引擎用作链接分析工具时的性能做了比较研究[67][68][69][70][71],邱均平、李江等人通过严格的数学计算和统计分析得出结论为:Google、Alltheweb、Altavista三者之间的检索结果一致性存在显著性差异,Google检索结果一致性最好,Alltheweb次之,Altavista再次之[72]。

1.2.3 聚集爬虫(Focused Crawler)

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎,例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性[73]:①不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页;②通用搜索引擎的目标是追求尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;③万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取;④通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源[73]。在聚焦爬虫的研究方面,链接分析也起到了各种各样的作用,G.Almpanidis等人开发了基于潜在语义的、结合文本与链接分析的分类器[74];汪涛等人则利用链接分析对主题爬虫的爬取算法进行了改进,并通过实验,比较引入链接分析前后的结果,论证了其设计的可行性与可操作性[75]。

1.3 Web结构挖掘的视角

苏新宁将Web数据挖掘分为三类[76]:Web内容挖掘、Web结构挖掘和Web日志挖掘。Web结构挖掘主要对Web中页面链接关系进行处理和挖掘,以此了解Web站点的主题、用户接口、标记语言、连接与响应速度、站点信息构建、潜在关联内容等,并从这些内容中发现站点的受重视程度、站点主体的信息化水平等。

1.3.1 Web页聚类

聚类就是将数据对象组成不同的类(或簇),使得类间的相似性尽量小,而类内的相似性尽量大[76]。Web文档中不仅包含内容,还包含指明Web文档间关系的链接,利用其间的链接关系可将Web页聚类。事实上,Web页聚类是数据挖掘中的一个重要研究分支,可应用于信息检索、网络计量学等领域,笔者按方法特性将其放在Web结构挖掘视角下进行探讨。

Web页聚类研究中,有学者直接利用页面间的链接关系提出或改进聚类算法,用于Web页聚类,如何拥军等[77]、王元珍等[78]在链接分析的基础上提出了将检索结果聚类的方法,用于提高检索效率;也有学者利用共链分析法挖掘页面间的潜在关联后将其聚类,如牛春华、沙勇忠运用链接分析方法,探讨了我国38所“985工程”院校网站Web空间内部的链接情况,并采用聚类分析、多维尺度分析进行了网站聚类[79]。

1.3.2 基于共链分析的潜在资源发现

Web结构挖掘的实证研究中,网络共链分析(Web Colink Analysis,WAC)是有一种常用而有效的方法,尤其是在获取一些隐性网络信息资源方面。虽然当前共链分析研究的学者多为网络计量学领域的学者,多从将共链分析与文献计量学中的共引分析比较的角度着手,但因为共链分析早在网络计量学诞生之前就已出现(1996年[53]),因此笔者未将其放在网络计量学视角下叙述,而从应用的角度将其放在了Web结构挖掘的视角下。

1996年,美国加州大学伯克利分校的情报学家Ray R.Larson率先研究了共链现象。他认为通过Web网页共链关系可以观察网络空间(cyberspaces)的结构,并做了相应的实证分析——利用Altavista搜索引擎获取数据并分析了地球科学、地理信息系统、卫星遥感三个学科的相互关系以及发展趋势[53]。2003年,Mike Thelwall等人利用共链和耦合理论进行了网络中相似学术网站的发现与识别研究[80]。2004年,Vaughan分析了32家电信企业在“雅虎全球”和“雅虎中国”上的共链情况,得出各企业在全球和中国两个市场中的相对竞争地位[81]。2006年,Alesia Zuccala将网络共链分析(Web Colink Analysis,WAC)和作者共引分析(Author Cocitation Analysis,ACA)从数据选取、数据搜索策略、数据矩阵、数据地图和聚类、对共引共链的解释五个角度进行了比较分析,认为二者可称为网络计量学与文献计量学中的姐妹技术,但因链接分析理论尤其是链接动机分析理论方兴未艾,WAC的适用性有待深入考证[82]。

Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息。通过对社区信息的认识可以帮助我们总览Web的全貌。而将Web按照社区来组织有许多优点:社区可以引导用户找到感兴趣的信息;社区可以帮助Internet/Intranet服务提供者有效地组织门户;社区可以帮助制造商准确地找到消费者;社区还代表了Web的社会活动,因为Web就是一个社会性的网络。因此,“网络社区发现”便成了链接分析研究的又一个应用。基于共引用与共耦合关系的社区发现方法便是一种有效的发现Web上根据“主题”聚集在一起的多个社区的方法[83]。

1.4 Web结构图建模的视角

将互联网的整个结构图作为对象来研究不仅对理解互联网的各种属性有直接意义,同时还对很多互联网算法(例如搜索、爬取以及社区发现等)都有重要帮助。另一方面,在研究这些互联网算法的同时,很多实验和观察也进一步促进了Web结构图的研究。

1.4.1 随机模型

Kumar R等人认为,将页面和页面上的链接视为结点和边便形成了有向图,根据创建结点和删除结点的随机特性,认为Web结构图是一种随机模型[84]。这种图不同于传统的图模型,传统的图模型是静态的,即模型一旦被创建,则图中节点和边的数目就固定了。但是,Web结构图模型中有新的结点和边随着时间的变化不断在图中出现,而已有的一些结点可能在图中消失。

1.4.2 Internet小世界模型

小世界现象通常可解释为:若网络中两点间的平均距离L随网络大小(网络中结点数N)呈对数增长,即LlnN,当网络中结点数增加很快时,L变化相对缓慢。六度分离现象中,平均距离L便等于6。有学者设计了一种软件,通过这种软件对Internet做数据采集分析发现,Internet中的平均距离是19个链接,也就是说,在Internet上随机任意取两点,不断地点击这上面的链接,点击19次即可到达另一点,这便是Internet小世界特征[85]。用这样的模型来描绘Web结构图,有助于我们深化对Web结构的理解。不仅如此,研究Web结构图模型可以改善Internet的信息交流过程,如利用小世界网络特征来缩短Internet上信息传播的路径长度和提高网络的可靠性。

总之,链接分析不仅局限于上述四大视角,还有学者从其他视角研究链接分析,但因停留于尝试阶段,未能得到广泛认同。因此,我们并未将其作为一大研究视角单独列出。如杨光以海尔和LG集团为例,说明链接分析原理和方法除在网络计量学等领域得到较广泛的应用外,也可以应用到企业竞争情报系统的建设中[86];Peter Stephenson提出链接分析可用于跟踪网络中各种类型的欺诈[87]等。

2 链接分析的发展趋势

链接分析尽管已得到蓬勃发展,但作为新兴研究领域,其理论基础、研究工具、研究方法等方面仍需进一步研究。理论基础方面,笔者认为最需研究的是对链接的认识,如链接类型、链接动机等,对链接认识不足便进行链接分析是不严谨的;研究工具方面,专业链接分析工具是网络计量学视角下链接分析得以发展的基础,对其深入研究也是当务之急;研究方法方面,除了当前的研究方法外,可借鉴社会网络分析法等其他学科方法以丰富其内容和拓宽其应用。

2.1 链接类型识别

当前国内外链接分类研究可谓链接分析中的热点之一,关于链接分类的依据及分类结果则是众说纷纭,表1列举了国内外几种有代表性的分类依据与分类结果。

除此之外,还有很多学者将链接分类,结果可谓五花八门[91][92][93][94][95]。根据当前链接分析的研究现状及链接分析分类的应用研究,笔者赞同Smith A,G将链接分为实质性链接与非实质性链接两类,前者代表“认可”,而后者则通指不代表“认可”的链接。这样简单分类可提高链接分类的可操作性,分类后的实质性链接可用于链接分析的各大算法及测度指标,以提高其有效性,如实质性PR值,实质性共链分析等。因此,链接分析的下一步工作便是将链接按这一标准分类,当然,是计算机自动分类,而不是手工分类。

基于上文的论述,我们将链接类型识别定义为:计算机根据链接源页面和目标页面之间的关系,自动识别链接类型的过程。链接类型识别是链接分析的难点之一,也是发展趋势之一。

2.2 专业链接分析工具的开发

所谓链接分析工具,是指用于统计链接总数、入链数、出链数、链接密度、页面平均链接数、共链频次、共链次数等链接分析指标的工具,即网络计量学视角的链接分析工具。链接分析研究初期,对链接数量等各指标进行统计时,主要以商业搜索引擎Google、Alltheweb、Altavista等为工具。发现商业搜索引擎的缺陷无法避免之后,部分学者从中择优使用,另一部分学者则尝试自制链接分析工具。1999年,Lei Cui等人参照引文分析的方法,以自制的“Checkweb”为工具,分析链接状况,为统计链接数量作准备[96];2001年,M.Thelwall针对商业搜索引擎检索结果的不一致性,自制了链接分析软件,用于测度网络影响因子[14];2005年,段宇锋以自制“Webstat”为工具做了链接分析的实证研究[97]。

商业搜索引擎存在检索结果的“不一致性”的缺陷,且网页收录范围不同,使用不同的搜索引擎作工具,便会得出不同的结论;而自制链接分析工具功能简单、适用范围小[98],因此开发专业链接分析工具是链接分析研究中的大势所趋。

2.3 社会网络分析法的应用

社会网络分析(Social Network Analysis,SNA)方法一般是研究组织中诸如咨询、信任、友谊、情报、沟通和工作流程等关系的网络,以解释组织内部的决策、沟通、人事变动和组织冲突等问题[99]。社会网络研究发端于上世纪二三十年代英国人类学的研究,目前在情报学领域已有了多种应用,裴雷等列举了SNA方法在Web、网络计量学、网络链接行为和动机及知识管理等方面的应用[99],Linda S等人则将社会网络分析与引文网络分析比较,并认为二者都是科学交流研究的重要方法[100],韩玺分析了社会网络分析在竞争情报中的应用[101]。

不仅如此,在链接分析的研究中,社会网络分析法可与链接网络比较,用于为Web结构图建模,结构洞理论(罗纳德·伯特1992年在《结构洞》一书中提出[102])可用于分析结点网页的信息保持与信息控制能力,也可用于挖掘链接结构中处于核心位置的结点网页。在深化我们对链接的认识方面,社会网络分析将起到重要作用。

3 结束语

链接分析研究自网页间以“链接”形成Web开始,并将随着Web的发展而不断深入。不同领域的学者的研究视角不同,图书情报领域学者多从网络计量学视角研究,计算机领域学者则多从检索优化、Web结构挖掘、Web结构图建模等视角研究。不仅如此,链接分析研究中也逐渐渗入其他学科的研究方法。链接分析作为一个新兴研究领域,在仅十余年的发展时间里,已经取得了瞩目的成就,如Pagerank算法成功的商业化应用等。但从颇具争议的网站影响力评价、不成熟的链接动机判断与链接类型识别、难以提供准确数据的链接分析工具以及对Web结构图粗略的认识之中,我们可以发现当前链接分析研究的诸多不足之处,解决这些问题是我们共同努力的方向。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

链路分析研究综述_搜索引擎论文
下载Doc文档

猜你喜欢