Web空间内部链接特征的聚类分析,本文主要内容关键词为:特征论文,链接论文,空间论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G350 [文献标识码]A [文章编号]1003—2797(2006)06—0022—06
自从链接分析方法(Hyperlink Analysis)创立以来,就一直是网络计量学的核心方法。它来源于文献计量学中引文分析的思想,并使其与信息科学建立了联系[1]。目前,链接分析是开展其他网络计量学研究的基本方法[2]。因此, 本文从链接分析出发,探讨我国38所“985工程”院校网站Web空间内部的链接情况。同时采用聚类分析、多维尺度分析对空间内的网站进行聚类;考察Web 空间内网站间的连通情况;定量分析Web空间内部链接与现实地域之间的关系。 目的在于一方面通过实证分析探寻认识Web空间内部链接特征、链接结构的系统方法;另一方面, 挖掘链接背后的网络交流特征,并对其产生的原因和机理进行理论解释和思考。
1 数据来源、收集工具与方法
1.1 样本的选择
样本选择基于以下的两点考虑:①对于网络结构单元之一的大学网站,从网络计量学诞生之初就受到了普遍的关注。如马大川、邱均平、段宇锋、陈敬全、Thelwall,M.等人都进行过相关研究。②作为进入“985工程”的38所大学,基本上体现了我国高校的最高水平,对它们之间网络链接状况的分析比较有代表性。因此,我们选择这38所院校的网站(见下页表1)构成一个Web空间,作为分析样本。
表1 “985工程”院校及网址
1.2 研究方法及研究指标的确立
首先,基于链接本身的类型,选取Web空间内部各网站相互的链入、链出数量作为基础分析指标,并统计各网站的总外部链接数、来自edu.cn的外部链接数、来自其余37所“985工程”院校的外部链接数等作为辅助分析指标。
然后,调用SPSS12.0中的聚类分析和多维尺度分析模块,根据基础分析指标进行网站聚类,并借助图论软件对38所大学网站之间的连通情况予以图示化表达。最后,构造距离矩阵,利用SPSS12.0分析实际地域与网站相互链接之间的相关关系。
1.3 数据收集工具的选择和使用
正如Peter B.Musgrove等人所指出的,关于Web链接数据的搜集与解释问题,仍然具有很多争议[4]。目前的三种数据搜集方法中,利用商用搜索引擎较易实现。虽然商用搜索引擎搜索网站链接数据的可靠性有诸多不足[4],但仍不失为一种可行的方法。尤其对于Altavista, 其良好的性能更是得到了广泛的承认, 例如,Vaughan,L.和Thelwall,M.等都对此有过阐述[5—6]。
因此,我们也选取Altavista作为数据收集的工具。所用语法如下:
link:www.pku.edu.cn AND host:tsinghua.edu.cn(从清华大学网站指向北京大学网站的链接数);link:www.lzu.edu.cn NOT host:lzu.edu.cn (兰州大学的总外部链接数);domain:edu.cn AND link:www.lzu.edu.cn NOT host:lzu.edu.cn(兰州大学的来自edu.cn的外部链接数)。
考虑到搜索引擎的数据更新,为了数据的一致性,我们在2006年5月28日至5月30日集中采集了数据,形成了38*38的基础数据矩阵以及其他辅助数据(见表2、下页表3)。
表2 38所大学间链接数(部分)
* from清华大学to pku表示从清华大学网站指向北京大学网站的链接数
** 对角线上为各网站指向自己的链接,不予统计,记为0
表3 38所大学各自外部链接数、来自edu.cn的外部链接数、连通率等
其中:①大学名称:使用网址中的缩写;②link:总外部链接数;③edu.cnlink:来自edu.cn的外部链接数;④edu.cnlink%:来自edu.cn的外部链接占总外部链接数的比例;⑤37Ulink:来自其余37所“985工程”院校的外部链接数;⑥37Ulink%:来自其余37所“985工程”院校的外部链接占来自edu.cn的外部链接数的比例;⑦链出连通:在该空间内,通过该大学网站的向外链接所能联系到的大学数目;⑧链出连通率:在该空间内,通过该大学网站的向外链接所能联系到的大学数目占37所大学的百分比;⑨链入连通:在该空间内,指向该大学网站的链接所连接的大学数目;⑩链入连通率:在该空间内,指向该大学网站的链接所连接的大学数目占37所高校的百分比;(11)相互连通:在该空间内,与该大学网站互相有链接的大学数目;(12)相互连通率:在该空间内,与该大学网站互相有链接的大学数目占37所高校的百分比;(13)总连通:在该空间内,所有与该大学网站有链接关系的大学数目;(14)总连通率:在该空间内,所有与该大学网站有链接关系的大学数目占37所大学的百分比。
2 数据的处理与结果
对收集到的各项数据,我们作了如下处理:
2.1 聚类分析与多维层次分析
对表2所示的38 所大学网站之间的链接数分别按列和行作聚类分析和多维尺度分析(列表示链入数,行表示链出数,例如,第一列为各大学指向清华大学的链接数;第一行为清华大学指向各大学的链接数)。其中,聚类分析采用Hierarchical Cluster Analysis,方法选用Nearest neighbor; 多维尺度分析采用古典多维尺度分析(Classical MDS,CMDS)模式。
(1)聚类龙骨图(见下页图1)。
图1 链入链接的聚类龙骨图(部分)
(2)多维尺度分析二维图(见下页图2)。
图2 链出链接的聚类龙骨图(部分)
2.2 Web空间内部连通率
根据我们定义的相互连通概念,可利用图论方法,将38所大学的网站作为节点,它们之间的相互连通作为路径,作出如下无向图(见下页图3,图4)。
图3 链入链接的多维尺度分析结果示意图
图4 链出链接的多维尺度分析结果示意图
2.3 Web空间内部链接数与现实地域的相关分析
首先构造距离矩阵(38 * 38)来表示38所大学之间的相对距离。同城市的赋值为1,同省的赋值为2,不相邻的隔一个省加1,以最短陆地距离(经过的省份最少)为准。直辖市和省、自治区同等对待。
将距离矩阵的每一列(行)与表2矩阵中的相应列(行)作相关分析,也就是求各大学网站对其余37所大学网站链出情况与地域的相关系数以及其余37所大学网站对该大学网站链入情况与地域的相关系数。采用Pearson相关系数,所有76 个相关系数分布情况见下页图5。
图5 各网站空间内链入链出数与地域之间的相关系数示意图
4 讨论与结论
据上面的数据和统计分析,我们可从下面几个方面认识该Web 空间内部网站之间的链接特征。
4.1 Web空间内部网站之间链接的数量及分布
各大学网站之间的平均链接数量虽然达到8.26,从绝对数值上来看也还不算太低,但通过其频数分布则发现并非如此:在1406个链接数据中,0出现562次,占40%;1出现225次,占16%;2出现141次,占10%;5及5以内的累积百分比达到85.1%;10及10以内的累积百分比达到93%;50以上的总百分比仅为2.2%。可见各大学网站之间的链接数量还是普遍偏少。
此外,为了进一步考察,我们对每所大学的如下三组数据作了比较(见下页图6):外部链接数(非edu.cn)、来自edu.cn的外部链接数(非其余37所大学)和来自其余37所大学的外部链接数。这三组数据之和即为各大学网站的总外部链接数。
图6 38所大学外部链接数中三个构成部分的数量分布示意图
通过图6,结合表3的数据,可以明显发现各大学的外部链接中,来自edu.cn的所占比例很少,最多占到33.05%,最少的只有1.7%,大多都在15%以下。其中,来自“985工程”院校的链接数目就更加微不足道了。
表4 距离矩阵(部分)
4.2 Web空间内部网站之间的连通
依据表3的数据,有55.26%的网站链出连通率达到了80%以上,但链入连通达到这个水平的网站只有5.26%,至于相互连通,就只剩下2.63%了。可见这38所大学之间的连通并不充分。38所大学之间完全充分连通的话,总共应该有38*(38-1)/2=703条路径,但实际上只存在238条,整个图的连通率仅为33.85%。
4.3 网站链接与地域的关系
从图5可以看到,所有的76个相关系数都分布在-0.3~0.4之间, 有一部分甚至很接近0,这说明现实地域的远近与这38 所大学网站之间链接数目的多少并无直接的关系。
4.4 链接特征的相似性
每个大学网站在特定Web空间内的链接特征虽不尽相同,但势必会表现出某些规律性。为了清晰起见,我们在图1、图2的聚类龙骨图上添加了虚线,将各类分隔开来,并用A、B、C、D等字母标识。同时,依照龙骨图对多维尺度分析结果也添加了同样的标识。其结果如图1、图2、图3、图4所示。其中,最为突出的是龙骨图中的A类在多维尺度分析的四个象限下呈分散状。 虽然单独观察多维尺度分析结果图能够发现网站间一定的集聚和分散状态(例如,图4中最右面的点集),但对照前面的链接统计数据,对集聚和分散并不能给出关于实际意义的合理解释。因此,我们认为38所大学网站在聚类龙骨图和多维尺度分析中呈现了较强的分散性,其链接特征并没有明显地归结为少数几个模式,各自的相异性较大。
一般情况下,对网站呈现出的集聚和分散状态进行解释,考虑较多的因素有地理距离、文化、语言等。在上文4.3中已经排除了地理距离对38所大学网站的影响,所以我们认为可能的解释是它们的校园文化和学术活力的不同。校园文化和学术活力相似的大学越有可能表现出相近的模式。当然,这还需要进一步的研究来加以验证。
英国的Peter B.Musgrove等人曾经利用上述方法对欧洲15个国家间大学网站的链接做过类似的研究[7],研究中,这15个国家较为清晰地聚为4个大类,与我们的结果相比有较大的差异。关于这一点,我们认为,一方面与我国大学网站间交流的不充分和不稳定有关,从统计数据可以看到,38所大学网站间的链接数存在较多的极端情况(0、995等),如表2中的第七行, 这些极小或极大的链接值往往是由于网站交流尚未被充分利用或某些特殊原因(如校庆、校友会活动)而产生的。这势必会影响到聚类效果的好坏。另一方面与两项研究所选用的样本有关,Musgrove的研究中选用的是欧洲15个国家,其文化、语言、地理、政治、经济等因素相异之处较多,易于形成较为明显的聚集和分离态势,而我们的样本相比较而言,各方面的因素相异之处都没有那么显著。
在研究中,还有一个问题就是聚类龙骨图和多维尺度分析图存在差异,例如聚类图1中:tsinghua和hit归为一类,但在多维尺度分析图3中,它们之间又加入了hust。这种现象在不同样本的情况下表现程度不同。Peter B.Musgrove等人把它归因于聚类分析的工作过程及合并类目的不同顺序。同时还认为MDS 虽然没有上述的局限,但并不能说明它将总能提供比聚类分析更好的结果,二维显示往往并不能准确地表达多维问题。
收稿日期:2006—07—05
[基金项目]本文系兰州大学“985工程”建设项目“网络计量学”(231—582636)的研究成果之一