网络链接分析研究进展,本文主要内容关键词为:研究进展论文,链接论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G202 [文献标识码]A [文章编号]1003-2797(2004)06-0003-05
1 引言
自网络诞生以来,许多研究者将文献计量学中的引文分析法应用于网络信息计量研究中,由此产生了网络信息计量学的重要研究方法——链接分析法(Hyperlink Analysis)。可以说,网络链接分析的研究是和“网络信息计量学”相伴而生的。网络信息计量学作为一门新兴的交叉性边缘学科,作为信息计量学的一个新的发展方向和重要的研究领域,从其诞生之日起,就把网络链接作为它的主要研究对象之一。
2 网络链接分析研究的进展
随着网络信息计量学的发展和更多学者的参与,文献计量学引文分析中的许多概念、指标、规律、方法、工具不断被“借用”到网络信息计量学研究中来,而网络技术、通讯技术、计算机技术的迅猛发展,又为网络链接分析的研究不断提供新的方法和手段,这一切都促进了网络链接分析研究工作的迅速发展,不断走向深入,其应用也越来越广泛,在短短几年内就取得了丰硕的研究成果。
从目前情况看,我们认为,有关网络链接分析的研究主要集中在以下几个方面[1~7]。需要说明的是,我们之所以这样分类,主要出于以下考虑:第一,和其它新兴的研究领域一样,有关网络链接分析的研究还缺乏整体性和系统性,存在很多重叠、交叉和难以定性的地方。第二,目前的研究思路主要是从传统文献计量学的角度出发的,很多新概念、新规律、新指标都是直接借用或者转换文献计量学和引文分析中的相关内容,因而从这一思路来进行归纳总结,更具有代表性和针对性。
2.1 链接的数量分布规律研究
文献计量学的基本规律在网络环境下有哪些新的特点,大量研究都是围绕这个问题展开的。Loet leydesdorff等人使用链接计数分析,研究了大学—产业—政府三者关系密切程度的历史演变[8]。Jakob Nielsen发现网页点击率和网页链接率都符合Zipf定律,并认为可以通过Zipf曲线来分析网页的受欢迎程度[9]。Rousseau认为对网页链接关系的研究与对发表文章的引文研究相似,但又不尽相同,他对网址的分布模式和进入网页的链接作了分析,发现在他所研究的343个网址中最高层域名服从洛特卡分布,而且对这些网址的引用也符合洛特卡分布,自引比例约为30%[10]。Google搜索引擎的创始人Sergey Brin和Larry Page通过对搜索到的网页的超链接进行定量分析来对其搜索结果排序,他们认为,Web站点的链接潜在地提供了确定给定主题的最有影响的或最权威的站点的途径[11]。Oppenheim通过对英国图书情报部门网站的链接分析,发现网站链接量与该部门的科研排名并不相关[12]。Heting Chu等人则发现美国图书情报学院的排名与它们网站的链接量存在相关关系[13]。Tang Rong等人选择美国大学中属于化学、心理学、历史学三个学科(分别代表硬科学、社会科学、人文科学)的共89个院系,对链入这些对象网站的国际链接和国内链接的模式进行了计数分析,为传统科研生产力和网络可见度之间的相关性提供了有力的证据[14]。Liwen Vaughan等人通过对中国IT行业100强企业商务网站的分析研究,发现网站链接数量与企业的年收入、利润、研发投入都有直接的相关性,并据此认为,商务网站的链接数量可以作为企业经营表现的指针和商业信息的来源,这些信息对网络商业情报和网络数据挖掘都有重要意义[15]。Zhao Dangzhi等人对基于网络和基于传统纸质期刊的学术交流进行了比较研究,他们分别对ResearchIndex索引的Web文献和SCI索引的传统期刊文献作了引文分析,得出了作者可见度,研究结果证明了对学术交流活动基于多种数据源的引文分析的重要性和可行性,并验证了未来的一种“双轨”学术交流体系[16]。Hildrun Kretschmer将超链接和网络引文作为评价和协作中的网络指标进行了实证研究,得出结论认为,用大学网络站点的链接数量来评估其研究工作的网络影响值是无效的,但基于科研生产率和国家内链平均值来建立大学的基础数据却是有效的,超链接结构并不能反映通过合著者数据建立的协作结构;另一方面,网络引文不同于超链接,一般认为网络引文与文献引文具有可比性,甚至可以代替文献引文。另外,一种改进的叫做“协作中的网络可视率”的网络引文被成功地用作协作中的网络指标[17]。
2.2 网站同引分析研究
将文献计量学中同引(Cocitation)概念和聚类(clustering)研究应用到网站或网页的链接分析中,亦是网络信息计量学的研究主流之一,这种关系被Rousseau称之为“Co-Sitaion”[18]。美国伯克利加州大学信息管理与系统学院的Ray R.Larson教授认为,Web网页链接可以清清楚楚地观察网站内容之间的链接,这种相当实体化的引用链接,配合同引分析一组高度被链接的网站,可以探讨网络空间的知识结构。他利用AltaVista搜索引擎收集到有关地球科学文献的同引情况数据,对有关地理信息系统、地球科学和卫星遥感方面的网站进行了同引分析,使用同引频率矩阵识别相关站点群落,并以此分析了地球科学、地理信息系统、卫星遥感等学科相互关系以及发展趋势[19]。
2.3 网络影响因子研究
理论上讲,高度链接的站点被认为是高度集中的信息源,这一点与文献计量学中核心期刊的测定类似。1998年,Ingwersen受文献计量学中的期刊“影响因子"(Impact Factor)的概念启发提出了网络影响因子(Web Impact Factor,WIF)的概念,用来分析一定时期内相对关注的网站或网页平均被引情况,以此来评价网站在网上的影响力,Ingwersen对计算网址的影响因子的可行性和可靠性作了研究,定义网站的网络影响因子等于某个国家的网址(或某个网址)被其它网址和其自身所链接的网页数量的逻辑和除以该国家(或该网址)的所有网页数,并按链接量的算法不同计算了三类Web空间的Web影响因子:自链接网络影响因子——测量所考察Web网站内页面之间的链接;外部链接影响因子——测量来自外部的对该Web网站的链接;全部链接影响因子——测量所考察Web空间的所有链接。Ingwersen利用搜索引擎AltaVista统计与网站链接的网页数量,通过对7个国家(挪威、英国、法国、丹麦、瑞典、芬兰和日本)、4个顶级域名(gov、org、com、edu)和6个学术机构网站影响因子的测量,得出了3个结论:①由于用作搜索引擎的AltaVista只能统计链接到某个网页的网页数量而不是链接的次数,因此自链接不会影响网络影响因子的结果。4个主要域名的自链接WIF值平均为0.5,“com”的自链接WIF值为0.59,平均来自外部的链接页的WIF为0.39。②网络影响因子对于国家和顶级域名来说具有很大的可信度,但对于学术机构、个人网站等非主要域名来说,其WIF的可信度要小得多。因此,Ingwersen的网络影响因子较适合评价国家层次的网域,不大适用于机构或个人层级的网域。③在做WIF计算时可以利用计算结果发生的变化作为评价网络引擎性能的一个测度[20]。
对于上述第二个结论,Smith和Thelwall也分别作了研究。M.Thelwall在对英国大学网站作链接分析时,考虑到大学网站与学术期刊网站的不同之处,对Ingwersen提出的WIF的计算公式作了改进,并发现英国大学网站特定网络空间中的WIF与各大学的科研排名存在显著的相关性[21]。邱均平教授及其学生陈敬全等人在对中国主要大学网站作链接分析时,也根据研究对象的具体情况对Ingwersen提出的WIF的计算公式作了改进,指出了网络影响因子在测度中国大学网站网络影响力上的不足之处,提出外部链接量是测度大学网站网络影响力的有效手段之一[22]。Alastair G.Smith对澳洲的大学、国家图书馆等机构和电子期刊的站点进行了网络影响因子研究,并把研究结果与传统的研究方法得出的结果进行了对比,得出结论认为,大学和研究机构的网络影响因子是评价其网络影响力的一个有用指标,通过影响因子比较,可以确定这些机构在某一特定领域的地位,但对电子期刊则不然。他还通过对东南亚国家的站点进行网络影响因子研究,确定了三大群域,并认为其研究结果接近反映了国家的整体发展,明显可由GDP反映[23]。Owen Thomas和Peter Willett对英国大学图书情报系网站的网络影响因子做了分析,得出结论认为:链接分析的数据不适合用于对图书情报系的研究能力进行定量研究[24]。Alastair G.Smith和Mike Thewall通过用自己设计的爬行器和AltaVista对英国、澳大利亚、新西兰大学之间的相互链接情况做过统计分析,分别得出了网络影响因子的分子部分。对于分母部分,也采用了两种计算方法:一种是网站所包含的网页数,另一种为学校的研究人员数。他们发现,用自己设计的爬行器和AltaVista在链接值上有很强的相关性,皮尔逊相关系数为0.815246。同时他们也把用这两种工具得出的值与传统的研究方法得出的结论做了对比。结果发现,网络影响因子的值与传统结论相关性很小[25]。Alastair G.Smith根据Web链接来源页面和目标页面的特点以及链接动机对一组面向研究的网站的样本进行了分类,得出了一些尝试性的结论。他还以分类研究的结果为基础,提出了实质链接以及实质网络影响因子的概念,并认为研究中所涉及的链接的20%是实质链接[26]。
目前网络的结构具有分散性、多元性、动态变化性等特点,网页制作和链接缺乏规范,搜索引擎功能也不够完善。正如Boundaries等人所指出的:通常遇到的Web搜索问题,主要与Web页面缺乏结构,以及Web页面缺乏形式和内容的统一性,因而搜索参数不能够严格地设定[27]。正是由于这些原因,一些学者对基于搜索引擎数据的网络影响因子的实际可操作性产生了怀疑[28]。Thelwall认为,现存的网络影响因子的概念在实际应用中还只是一个相对粗浅的提法,因而所得出的结论也存在很多问题[29]。Alastair G.Smith认为Web影响因子,似乎是评价Web站点的有用工具,但使用时需要特别谨慎,并且要与其它评价手段结合使用。
2.4 链接分析工具研究
在这方面的研究中,最典型的就是Website.net仿照《科学引文索引》(SCI)的做法编制的“网络引证分析索引”(Web Citation Index,WCI),用来统计分析网页的引用情况,研究网页链接之间的关系和规律,监视网页链接的变化情况等。它还提供了一个自动引文索引系统“Citeseer”,用来查找和了解网页的引用和被引用情况,评价网页、网络杂志、有关作者研究课题的情况[30]。此外,英国南安敦大学的“开放期刊计划”(Open Journal Project)开发了一个网页自动链接工具,根据语义的相似性定量分析,可将电子期刊有关的内容和有关的网页进行自动链接,并可以对有关文章的引证关系进行定量研究[31]。Webquery通过网页的链接关系和内容进行检索,然后再把结果用三维图像可视化手段表现出来,使相关节点之间的关系一目了然[32]。目前还出现一种叫做“文献的书目示例计量检索工具”(Bibliometric Retrieval Of Documents,BIRD),它先给出一篇读者感兴趣的文章,然后再根据其引文链找到相关资料[33~34]。
2.5 国内网络链接分析研究的现状
与国外相比,目前国内有关网页链接分析的研究尚处于起步阶段,主要以介绍国外研究成果和进展以及理论探讨性的文章为主,开创性研究和探索性研究不多。
文献[35]探讨了Web网页链接的结构、类型、功能、作用、缺陷以及Web网页链接分析的主要内容和意义,是对Web网页链接分析所作的一个比较全面、系统的论述。文献[36]对“网页链接”和文献计量学中的“文献引用”进行了可比性分析,通过分析网页链接的原因和动机,把网页链接分为网站内部链接(包括网站结构链接、信息关联链接)和网站间链接(包括信息推介链接、信息来源链接、网络结构链接),然后逐一探讨了各类链接的测度意义,并分析了网页链接测度的应用及其存在的问题。文献[37]探讨了超链接分析的理论可行性、优点及注意事项,并对网页超链接分析的应用前景进行了分析。文献[38]认为链接分析法存在着链接分析赖以进行的前提有时不能成立、链接分析数据的准确性难以保证等问题,并提出了一定的改进方法。文献[39]从网络信息计量学的定义;研究对象出发,论述了链接分析法是网络信息计量学的研究方法之一,并对链接分析法的数据源的选择、实践及注意事项等问题进行了探讨。文献[40]论述了网络影响因子的概念、功能和测度方法,列举了国外的有关测度实例,并对其发展进行了展望。文献[41]认为通过计算网络影响因子,能评价出某一科学领域最有影响和最有权威的站点。文章详细介绍了网络影响因子这种Web站点评价测量工具,并对Alastair Smith所做实验结果进行了分析。文献[42]讨论了链接分析法在网络计量学中的具体应用。文献[43]认为链接分析法是网络信息计量学的重要研究方法,是情报学研究的新领域。文献[44]阐明了链接分析法类同于引文分析法的机理,主要论述了链接分析对于数字图书馆文献资源建设、情报科学信息计量、搜索引擎网络爬行及检索结果排序等网络计量方面的应用。
在实证研究方面,国内的一些学者也作了有益的尝试,取得了一定的成果。文献[45]提到网络引文分析已成为衡量网页质量的一个基本指标,该文应用引文分析法对网上被高频引用的医学信息网址作了分析,对美国排名前25位的医学院(实际分析采用了19所)网页链接的统计分析,发现在1731个链接中有1/3的链接集中在74个网址上,这一结果符合布拉福德分散定律,网址分布为1∶4∶42。文献[46]从中国大陆20所大学网站的总链接数、站外链接数、教育网站外链接数入手,比较总网络影响因子、外部网络影响因子、总科研网络影响因子、科研网络影响因子、教育网影响因子的效用,并对站外链接数、教育网站外链接数与我国较有影响的两所大学排名的相关关系进行测度。文献[47]以部分工程类中文期刊为例,利用All The Web搜索它们网站的外部链接数,并计算其网络影响因子,然后将中国科学技术信息研究所2001年底公布的2000年期刊影响因子与它们一一对应比较,发现期刊的影响因子与期刊网站的网络影响因子和外部链接数之间均存在着有意义的相关关系,并据此认为,网站的外部链接数和网络影响因子均可作为网站评价的重要指标。文献[48]以心血管学为例,在中、美两国务选择10个研究型网站,通过对样本网站中超文本文件内存在的链接进行统计分析,对网站质量与链接特征之间的关系进行了初步探索,并对中、美网站的链接特征进行比较分析。在此基础上提出了心血管学研究型网站链接特征评价的参考指标。文献[49]对中国主要大学网站的总链接量、外部链接量和网络影响因子(WIF)作了深入研究,分析了它们与大学排名中的总得分和科研得分的相关关系,指出了网络影响因子在测度中国大学网站网络影响力上的不足之处,提出外部链接量是测度大学网站网络影响力的有效手段之一。此外,段宇锋的博士学位论文《网络链接分析与网站评价研究》从三个方面对学术型网站的网络链接进行了较为全面的探讨,这在国内是开创性的。
3 网络链接分析研究存在的问题
目前网络链接分析研究工作虽然取得了一定的成果,但还存在着不少问题。许多学者对此进行了分析和论述。最有代表性的观点是,网络信息资源覆盖范围广、动态性强,具有信息量巨大、不确定性、缺乏合理组织、难以预测等特点,信息过载和信息污染现象严重,引用与被引用关系也变得十分复杂,网站的被链接数量还与它的商业推广有着密切的联系,因此链接分析法作为评价方法在某种程度上缺乏客观性,其适用范围是有限的[50]。面对网络链接复杂的状况,学者们普遍认为,必须全面考虑各种载体的具体情况,从链接动机和链接类型出发区分网页的权重,对链接进行详细的分类统计,把对测定结果的解释和应用建立在统计指标发展变化的内部机理分析的基础之上,并进行深入的分析,才能得出有意义的结论。另一方面,随着网页链接规模的不断扩大,网络结构的不断复杂化,在链接分析中引入数据挖掘、知识发现、XML和元数据等先进方法和技术,不断改进搜索引擎的限制性搜索与控制功能,研制专业链接分析工具,可以使研究结果更加科学化和精确化,链接分析也必将发挥越来越大的作用。
值得一提的是,文献[51]在对国内外网络链接分析研究现状进行全面、细致分析后,将目前的问题归纳为缺乏有效的理论指导、缺乏有效的研究方法、缺乏完善的研究工具等三个方面,同时进一步指出,网络链接研究需要从以下几个方面完善:①明确网络链接的研究对象和相关的基础性理论问题;②加强对研究方法的探索;③大力开发和完善网络链接分析专用工具;④积极探索网络链接分析的应用领域。
4 结语
最后需要说明的是,本文所探讨的“网络链接分析研究”只涵盖了以网络链接为直接研究对象的研究内容,至于网络链接结构和网络链接分析算法等方面的研究,我们认为属于Web挖掘或网络搜索引擎的研究领域,故在本文中没有涉及到。