三种网络分析方法对比实证研究,本文主要内容关键词为:三种论文,实证研究论文,方法论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2012-08-13
1 引言
自1997年Almind和Ingwersen提出“网络计量学(webometrics)”一词以来[1],该领域的研究已取得显著进展。目前,最普遍的研究对象是网络链接,其主要研究方法之一——链接分析,已经由理论逐步发展成为了一项科学计量学乃至社会科学的实用工具[2]。通过入链分析、互链分析及共链分析,可以获得大量的知识信息。链接分析主要利用网络搜索引擎获取原始数据(如Alta Vista、All the Web、Google、Yahoo!等),但近年来,执行数据收集的商业搜索引擎的可用性成为了链接分析研究的限制性因素[3]。目前,Yahoo!成为了唯一可以满足该需求的搜索引擎。但是,由于其被归并入微软的Bing(由于过度的使用而撤消了其绝大部分的链接检索功能),Yahoo!于2012年也将终止该项服务[4]。这对该领域的发展来说是一个极大的威胁。鉴于此,我们需要挖掘其他类型的网络资源,替代和补充传统的超链接元素,扩展数据源并开发新的方法,以防止该领域研究的停滞,促进其发展。
网络共链分析的思想来源于文献共引分析。一般认为存在共链关系的网站,在主题上或多或少都具有一定的相似性或相关性,利用网站共被链入的次数(共链频次),可以测度网站内容的相关度或相似度。共链频次越高,相关度越大[5]。基于此,衍生出了两个新的网络计量学概念——URL共引以及网络标题共现。二者反映了网站或机构之间的间接联系,可以作为超链接的替代或补充,获取隐性网络信息资源和反映知识结构。
早在1998年,B.Cronin等人便提出了Web Mentions的概念[6]。随后,其便被广泛地应用于期刊文献的分析研究中。2010年,L.Vaughan等人利用网络标题共现法测度了电信业两大阵营WiMax和Long Term Evolution中公司的关联性,并将其与共链分析结果进行了对比,证实了网络标题共现法的应用价值[3]。URL citations的概念提出较晚,K.Kousha等人主要将其用于期刊文献集的评价[7-8]。2006年,D.Stuart等利用URL引用数研究了英国西米德兰兹郡汽车产业不同机构间的三螺旋关系[9]。2011年,M.Thelwall等人比较了为学术机构收集网络引用数据的三种方法[10]。2012年,M.Thelwall等又利用URL引用数以及机构标题涉及数构建并分析了链接与共链网络图[2]。我国学者对该主题的研究相对较少,较为典型的是张洋等人利用网络共链和共词分析法对国际银行业竞争态势进行研究,并提出二者属互补关系,应结合使用[11]。
本文阐述了共链、URL共引以及网络标题共现这三种网络分析法的概念、特性、优势与局限性、数据来源与收集方法,并以全球30所高校及其网站为例,比较了三者的相关性与有效性。
2 三种方法的概念与特征
2.1 概念
共链包括共入链与共出链。所谓共入链,就是指两个网站同时被其他网站链接;所谓共出链,是指两个网站共同链接向其他网站,亦称耦合。一般情况下所讨论的共链指的是共入链。网络共链分析提供的是分析对象之间由链接关系形成的相互关系的亲疏程度,通过一组网站之间的共链关系可以形成共链网络,网络节点之间的远近可以反映它们的亲疏关系,进而揭示网站间的关系模式,并利用聚类分析、多维尺度分析等统计分析方法,将这种群落关系表示出来,以实现网络结构可视化及网络群体间相互关系的挖掘[12]。
传统定义中的“链接”,一般指的是“超链接”,但是也可以使用URL引用“链接”或者网络标题“链接”来代替。由此衍生出URL共引以及网络标题共现分析的概念。
所谓URL共引,是指两个网站的URL同时被其他网站引用/包含。所谓网络标题共现,是指两个网站/机构的标题名称同时出现在其他网站的页面中。与共链分析法相对应,URL共引分析以及网络标题共现分析法分别是指利用URL共引关系以及标题共现关系对分析对象进行相似性测度的方法,进而揭示网站/机构之间的关系模式,实现隐性知识信息的挖掘与获取。
2.2 特征
根据共链、URL共引以及网络标题共现的定义,三者主要具有以下特征,如表1所示。
网站A与B存在共链是指第三方网站C的页面中同时含有指向网站A与B的链接;而网站A与B存在URL共引是指第三方网站C的页面中同时含有网站A与B的URL或域名,但不需要是指向网站A与B的链接;网站/机构A与B存在网络标题共现是指第三方网站C的页面中同时含有网站/机构A与B的文本名称。共链与URL共引在结构上是相同的,二者都嵌入网页中并且都指向其他的网页;网络标题共现相对普通,可以是一个网络机构或非网络机构的名称。
网络标题共现与URL共引以及共链的一个重要的区别在于,前者暗指机构,而后者指代的实体为机构的网站。对于网络机构(如sina)来说,它们的区别可能较小,但是对于非网络机构(如大学)来说,这种区别是显著的。
另外,共链与URL共引都具有较为明确的网站导航性;然而,网络标题共现并没有明显的导航特性。因此,它们的创建动机并不是等价的,在不同的环境下,存在差异性[2]。
2.3 优势与局限性
三者的优势与局限性如表2所示。
共链分析会受到搜索引擎链接检索功能可用性的限制,因此,只能在有限的搜索引擎中使用。然而,URL共引以及网络标题共现分析不会受到此类限制,可以作为传统超链接的替代和网络资源的补充。
网络标题共现分析具有明显的语言敏感性,标题所使用语言的不同(如“Tsinghua University”与“清华大学”)对于查询结果会产生很大的影响;相反,由于链接或URL使用全球统一的html语言进行编码,因此,共链分析与URL共引分析并没有语言敏感性[3]。
除了语言敏感性外,网络标题共现还存在一个问题,即“一义多词”以及“一词多义”现象。所谓“一义多词”是指同一个实体具有几个不同的标题名称,如果仅使用其中一种或几种标题名称进行查询的话,会造成查询结果的遗漏。该问题可以通过“多重检索”来解决,即对每一个标题名称单独进行检索,然后将所有结果进行去重、合并,得到最终结果。所谓“一词多义”,一般出现在使用首字母缩写代表标题进行共现查询的时候,是指同一个标题名称代表几个不同的含义,这会造成查询结果的虚假扩大(掺入非准确结果的噪声)。该问题可以通过在原标题中加入附加文本信息(限定信息)来解决,以保证所查询的是正确的实体。共链以及URL共引元素具有明显的指向性和唯一性,因此,并不存在该限制。
但是,三者都依靠搜索引擎进行原始数据的获取,因此都会受到搜索引擎覆盖率、检索变化以及检索异常[9]等搜索引擎自身因素的影响。
3 数据来源与收集方法
3.1 研究对象选择
本文以高校及其网站为研究对象,以先进性、地域代表性作为样本的选取原则。根据《美国新闻及世界报道》(U.S.News & World Report,简称U.S.News)公布的2011年世界大学排行榜[13],从排名在前60位的高校中选取了分布在全球不同国家/地区的30个高校及其网站作为研究对象。
3.2 数据收集方法
目前进行三者数据查询所使用的搜索引擎一般为Yahoo!与Bing[2-3,10,14]。由于Yahoo!是目前唯一可以执行共链检索的搜索引擎,因此,本文选其作为数据收集的工具,所用检索式如表3所示(以清华大学和哈佛大学网站为例)。
考虑到搜索引擎的数据更新,为了保持数据的一致性,笔者在2012年4月19-22日集中采集了数据。
4 实证分析
4.1 相关性
为了验证共链网络、URL共引网络以及标题共现网络之间是否具有相关关系,笔者利用Ucinet软件对上述矩阵两两进行二次指派程序(Quadratic Assignment Procedure,QAP)分析。QAP分析可以用来研究两种关系矩阵之间是否相关[15],所得结果如表4、表5所示。
其中,QAP Correlations是指网络之间实际的,即观察到的相关性系数[16];QAP P-Values是指显著性水平,当P<0.05时,说明两个网络存在某种必然的联系[17]。
由表4、表5的计算结果可知:①共链网络与URL共引网络的相关系数为0.249,显著性水平为0.005<0.05,说明二者在统计学意义上存在一定的相关性,且相关程度为0.249;②共链网络与标题共现网络的相关系数为0.477,显著性水平为0.000<0.05,说明二者在统计学意义上具有明显的相关性,且相关程度为0.477;③URL共引网络与标题共现网络的相关系数为0.125,显著性水平为0.076>0.05,说明二者在统计学意义上不存在明显的相关性,且相关程度仅为0.125。造成该现象的原因可能有三个:①样本性质的限制。本例中选取的研究对象仅为高校及其网站,其他类型的机构及其网站并未涉及。②样本规模的限制。本例中的样本量较小,可能不能很好地反映整体网络的实际状况。③URL共引与标题共现的本质机理并不相同,决定了二者之间并不存在显著的相关关系。
4.2 有效性
评估某种分析方法有效性的途径主要有两种:一种是将分析结果呈现给专家,由专家直接判断其价值与效用,该方法的弊端是容易掺杂个人的主观意识;另一种方法是将其结果与权威的外部测度源进行对比,以确定其有效性大小。
《美国新闻及世界报道》(U.S.News)公布的世界大学排行榜,其排名融合了academic peer review(学术评分)、employer review(雇主评分)、student to faculty(师生比例)、international faculty(国际学院评分)、international students(国际学生评分)[13]等指标,是当今世界权威的大学排行榜,可作为其他测度方法有效性判断的一个重要的外部来源。点度中心度是指与某节点存在直接联系的其他节点的数目,是衡量节点重要性大小的一项指标;其值越大,说明该节点与网络中其他节点的联系越密切,在网络中的点度核心程度越高。为评估共链、URL共引以及网络标题共现分析法的有效性,笔者将各高校及其网站的点度中心度与其在大学排行榜中的排名进行相关性分析,所得结果如表6、表7所示。
由表7可知,30所高校及其网站的共链、URL共引以及网络标题共现点度中心度的排名与U.S.News公布的世界大学排名次序呈现出明显的相关性,其相关程度分别为0.783、0.613和0.683。说明三者都是进行网络信息计量的有效方法,都能够有效地揭示和映射网络信息资源及其特征。
共链与URL共引以及网络标题共现点度中心度的排名相关系数分别为0.749和0.744。说明URL共引以及网络标题共现法,作为新的网络计量学方法,在揭示网络信息特征等方面与共链分析法存在很强的相关性,呈现出相似的功能,因此,可以作为共链分析法的替代或补充,用于网络计量分析研究。
URL共引与网络标题共现点度中心度的排名相关系数为0.597,说明二者在揭示网络资源重要性方面具有一定的相关性与相似度。
5 结论
本文通过对共链、URL共引以及网络标题共现分析法进行比较,得到了以下结论:
●共链、URL共引以及网络标题共现分析法在概念、特性、数据收集方法等方面既相互联系又存在着一定差异。
●共链网络与标题共现网络具有明显的相关性;共链网络与URL共引网络存在一定的相关性;URL共引网络与标题共现网络在统计意义上不存在明显的相关性。
●URL共引以及网络标题共现分析法是补充和替代共链分析法的有效的网络信息计量方法;二者可以作为新的数据源,代替传统的超链接数据,进行网络计量研究。
以上关于共链、URL共引、网络标题共现分析法的相关性及有效性的结论都是建立在30所高校及其网站基础上的,其可推广性还需要进一步的讨论。因此,下一步的研究需要注意以下几点:扩展研究领域(如商业机构或政府机构);扩大样本规模,避免样本统计随机性过大而给分析结果带来影响;进行定性分析,补充和完善定量分析结果。