社会网络、引文网和链路网的比较_网络图论文

社会网络、引文网络和链接网络之比较,本文主要内容关键词为:网络论文,引文论文,链接论文,社会论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

社会网络是社会网络分析的重要研究对象,而社会网络分析原是一种重要的社会学研究方法,现在已发展为一门跨多学科的研究方法,在图书情报学领域也得到了广泛的应用。超链接网络分析正是将社会网络分析的技术和方法应用于网络信息资源,研究网站或网页之间的超链接形成的链接网络[1]。而关于链接网络的另一个研究领域是网络计量学视角的链接分析,它更倾向于在传统“三计学”——文献计量学、科学计量学和信息计量学的基础上应网络技术和现代信息技术的发展对网络信息资源开展研究[2]。不过二者均可理解为以网站或网页间的链接为研究对象的分析活动。文献计量学的重要研究内容引文分析以及当前引文分析新的研究热点网络引文分析正是以引文网络为研究对象的。可见,在研究社会网络、引文网络和链接网络的过程中必然会存在某些交叉,而以上分析中通常采用的测度指标正是根据社会网络、引文网络和链接网络结构特点并结合实际评测需要设计的,在一定程度上可以体现社会网络、引文网络和链接网络的异同。因此,我们从网络本身的结构特点及三类网络测度指标的两个方面对社会网络、引文网络和链接网络进行比较。

2 社会网络、引文网络和链接网络的结构特点比较

2.1 社会网络结构

社会网络是指人与人之间、组织与组织之间为达到特定的目的进行信息交流的关系网,基本上由节点和联系两大部分组成。节点(nodes)是人或群体,联系(links)表示节点之间的关系或者相互之间的流动方向[3]。

我们可以从两个极端上将社会网络分为规则网络(regular networks)和随机网络(random networks)两类,如图1[4] 所示。规则网络是一种最简单的社会网络,其特点是每个节点的近邻数目都相同,具有大的聚簇系数和大的平均距离,而随机网络是一种最复杂的社会网络,多数节点有大致相同的连接数,具有小的聚簇系数和小的平均距离,但是,现实社会既不是完全确定的也不是完全随机的,因而规则网络和随机网络都不能很好的描述真实网络[5,6]。近年来人们发现规则网络和随机网络之间有很大的复杂网络的生存空间。基于此,Watts和Strogatz[7] 于1998年提出了小世界网络(small- world networks)的生成机制模型(如图2)[8],而Albert R和A-L.Barabasi等[9,10] 在1999年发现了无标度网络(scale- free networks)。小世界网络具有类似于规则网络的大的聚簇系数和类似于随机网络的小的平均距离,无标度网络的节点连通度服从幂律分布,幂律分布没有任何特定的尺度,存在一些度很大的节点,但是大部分节点的度都很小。大量实际网络是高度连接的复杂社会网络,兼有小世界和无标度的特性。

社会网络的结构特点有:①社会网络是动态的,即社会网络不是静止不变的,而是在互动中不断演进、扩展甚至重构;②社会网络由具有一定特征的社会关系连接而成,没有方向性;③社会网络的节点不可以自己连接自己,而是代表个体、团体或组织的节点之间的连接;④社会网络中节点之间的连接没有时间要求;⑤社会网络中节点间的联系体现的是利益集中,因为节点之间的联系中包含着重要的资源与信息,可以通过联系所代表的特定社会关系的运行为节点所代表的利益方创造价值。

图1 规则网络和随机网络

图2 小世界网络

2.2 引文网络结构

引文网络是引文分析的研究对象,顾名思义,是指被施引文献与引用文献之间因引用关系而形成的一种网络,基本上由引文和引用组成,引文包括被施引文献与引用文献,如图书、论文等,引用指文献间的参考、援引关系。当前引文分析的新发展——网络引文分析同样是以引文网络为研究对象的。

如果用结点代表引文,用有向箭头代表引文之间的引用关系,描述在时间上,就可以绘出引用网络图,随数字增大,表示年代越靠后,如图3,图中包括多个应用,其中存在大量的同引和耦合。

引用网络

另外可参见党亚茹的《引文网络系统的结构模型化》[11] 一文中关于引文网络的时序图,见图4。

图4 引文网络时序

引文网络的结构特点有:①引文网络是静态的,不可以在任何已有节点上增加新的代表引用的单向箭头,也不可以随意删除已有的代表引用的单向箭头,因为文献一经出版之后,它的参考文献就一成不变了;②引文网络中的引用是单向的,即只能是后期的文献引用前期的文献,而前期的文献不能反过来引用后期的文献;③引文网络中的引文不可以自引,引文不能自己引用自己,在引文分析中,自引主体只能是作者、期刊、学科、机构等;④引文网络中的引用是有固定时间的,即文献A引用文献B是有固定时间的,这个固定时间正好是文献A的发表时间,且文献A的发表时间必然在文献B之后,如图3中8和8′同时发表,故不存在8引用8′或8′引用8;⑤引文网络中引文间的引用呈现出主题集中,因为引文间引用的正式性和文献出版的质量控制,引文基本来自同一科学领域或关系紧密的领域。

2.3 链接网络结构

链接网络指施链和被链的网站或网页之间因链接关系而形成的一种网络,基本上由节点和链接组成,节点主要是指网站或网页,链接,即超链接,是一种简单声明文档或信息之间关系的文件指针[12]。

同样的,用节点代表网站或网页,用有向箭头代表网站或网页间的链接关系,可以绘出链接网络图,如图5,图中包括大量入链、出链、自链和共入链、共出链等。

另外可参见陈定权的《自动主题搜索的应用研究》一文中关于链接网络的Web图[13],如图5所示。

图5 链接网络

图6 链接网络的Web

链接网络的结构特点有:①链接网络是动态的,链接可以随时增、删、改,即链接是处于不断变化与更新中的;②链接网络中的链接可以是单向的,也可以是双向的,即一个网页可以链出,也可以被链入,后期和前期的网页也可以互链;③链接网络中的链接可以自链,即链接可以包含该网页自身;④链接网络中的链接不具有时间性,后期和前期的网页可以互链;⑤链接则呈现出主题发散,因为网页的发布具有随意性以及链接的随意性等特点使得链接的内容很可能互不相关。

2.4 社会网络、引文网络和链接网络之结构特点比较

比较社会网络、引文网络和链接网络,可以发现社会网络、引文网络和链接网络之结构具有以下特点:

(1)状态上 社会网络和链接网络是动态的,引文网络则是静态的。图1和图2中的联系在互动中得以不断演进、扩展甚至重新构建。图5和图6中的链接可以随时增、删、改,可以在任意节点上增加入链或出链的有向箭头。图3和图4中不可以随意增加或删除代表引用的单向箭头,因为文献一经出版之后,它的参考文献就不可能再发生改变。

(2)方向性上 社会网络中的联系是没有方向要求的,引文网络中的引用只能是单向的,而链接网络中的链接可以单向的也可以是双向的。如图1和图2所示的社会网络是由具有一定特征的社会关系连接而成,因而没有方向性。图3和图4所示的引文网络图是有时间方向的,即只能是后期的文献引用前期的文献。而图5和图6显示的链接网络图中,一个网页可以有出链或入链,后期和前期的网页也可以互链。

(3)节点的自连上 社会网络的节点不可以自己连接自己,引文网络中的引文也不可以自引,但链接网络中的链接则可以自链。图1和图2的社会网络图代表了个体、团体或组织的节点之间的连接,而不是节点自己和自己的连接。图3和图4所示的引文网络中,后期的文献引用前期的文献,不存在自引,在引文分析中,作者、期刊、学科、机构等可以自己引用自己的文献。图5和图6的链接网络中网页的链接可以包含该网页自身,如P22网页的自链L4。

(4)节点连接的时间上 社会网络中和链接网络图中节点之间的连接没有时间要求,而引文网络中的引用是有固定时间的。图3、图4所示引文网络图中,文献A引用文献B是有固定时间的,社会网络图和链接结构图中则没有。

(5)集中性上 社会网络中节点间的联系体现的是利益集中,引文网络中的引用体现了主题集中,而链接网络中的链接则呈现出主题发散。社会网络因其联系中包含着重要的资源与信息而呈现利益集中,引文网络因引用的正式性和文献出版的质量控制呈现主题集中,而网页发布的随意性以及链接的随意性等则导致链接的主题发散。

3 社会网络、引文网络和链接网络的测度指标比较

评测社会网络、引文网络和链接网络的指标正是根据三类网络自身的结构特点并结合实际评测需要设计的,在一定程度上可以体现这三类网络的异同。我们按照类似的标准即指标的应用将三类网络的测度指标分别分为四类。

常见的社会网络测度指标可以分为四类:①连接数量特征测度指标:连通度、闭合度、平均距离;②连接分布特征测度指标:聚簇系数、网络密度;③节点重要性测度指标:介度、中心性(包括点度中心性、中间中心性和靠近中心性)、边界跨越者和外围节点指标;④网络分布特征测度指标:网络群落指标、网络结构洞分析、是否小世界网络或无标度网络的分析等。

常见的引文网络测度指标可以分为四类:①引文数量特征测度指标:引文数;②引文分布特征测度指标:平均引用数、自引数与自引率、被引次数与引用数的比值;③期刊(论文)影响力测度指标:被引用数、同引和耦合、期刊影响因子、即年指标;④文献老化规律测度指标:衰减系数等。

常见的连接网络测度指标可分为四类:①链接数量特征测度指标:总链接数、出链数;②链接分布特征测度指标:链接密度、网页平均链接数、网络使用因子;③网站(或网页)影响力测度指标:入链数、共链(包括共入链和共出链)、网络影响因子、链接倾向;④网页重要性测度指标:Pagerank算法、HITS算法等。

我们主要对社会网络、引文网络和链接网络的测度指标从连接的数量特征和节点影响力方面进行比较,具体来说:

(1)社会网络的连通度、引文网络的引文数和连接网络的出链数

连通度是衡量一个节点直接连接边数多少的指标,这里是指个体、团体或组织在社会网络中与其他个体、团体或组织之间联系的多少。在社会网络分析中通常将连通度与平均距离、聚簇系数相结合[14,15]。平均距离是度量社会网络中任意两个节点之间联系需要经过的连线数。聚簇系数则代表了两个节点之间通过各自的相邻节点连接在一起的可能性,当然这两个节点之间可能直接连接。如将这三个指标结合起来,学者们发现了无标度网络和小世界网络。引文数指文献结尾处的参考文献(不含脚注、间注、夹注等),表示一篇文献引用其它文献的数量。出链数是对引文数的沿用,指一个网页的出链总数,反映了该网页指向能力的大小,出链数越大,则该网页指向能力越强。与社会网络中不同的是,引文网络和链接网络的联系是有方向的,所以引入了被引用数和入链数,不过它们通常是用作衡量节点重要性的指标。被引次数则是指某文献被其他文献引用的次数。入链数是对被引用数的沿用,指一个网页的入链总数,反映了一个网站的网页被重视和利用的程度。

(2)社会网络的中间中心性、引文网络的同引和耦合、链接网络的共链

在引文网络中存在大量的同引和耦合[16]。同引(或称同被引)是指两篇或两篇以上文献共同被之后的一篇或多篇文献引用,如图3中5和6同时被之后的8和8′引用;引用它们的论文的多少,即同被引程度,称为同被引强度。耦合则是指两篇文献共同引用了一篇或多篇文献,如图3中2和4共同引用了1;耦合的文献之间总存在着这样或那样的联系,其联系的程度称为耦合强度。共链(包括共入链和共出链),类似于同引和耦合的结构,共入链类似于同引,如图5中L1′和L1″是P11的共入链,共出链类似于耦合,如图5中L2和L2″是P12的共出链。中间中心性指失去该节点,节点之间将失去联系,反映该节点处于其它节点之间的情况,较高的中间中心性说明该节点的媒介作用显著。

(3)社会网络的中心性、引文网络的期刊影响因子、链接网络的网络影响因子

中心性是决定节点在网络中的地位和权利大小的重要测度指标,而点度中心性(degree centrality)、中间中心性(between centrality)和靠近中心性(closeness centrality)是社会网络中心性分析的三个主要指标[17]。其中,点度中心性指节点拥有的直接联系数量,反映该节点与其它节点间存在着直接联系。靠近中心性指节点之间距离的远近程度。但并不能说节点中心性越高越好。中心性与网络安全性和稳定性密切相关。如果中心节点被毁坏或去除,整个网络就会崩溃,分散为互不相关的网络碎片。高中心性的网络由于有一个或者少数几个中心节点,因此容易受到针对中心节点的恶意攻击和破坏。相应的,低中心性的网络由于难以对其组织针对几个节点的目标明确的攻击而具有较强的攻击性。

期刊影响因子是衡量期刊重要性和影响力的重要指标,其算法为:

其中论文总数、时间和被引次数是计算期刊影响因子的三个基本要素。

网络影响因子是对期刊影响因子的沿用和改进,测度了网站吸引链接的能力,是测度网站影响力的重要指标。其算法为:

其中分子是提出了剔除内部入链数以后的结果,而分母除了该国家或网站内部的网页数外,还可以是科研生产率代或科研人员数。事实上,沿用引文网络的指标测度链接网络在很大程度上是不合理的。至于Pagerank算法、HITS算法,Google利用Pagerank算法进行网络链接排序、IBM利用HITS算法进行基于主题的搜索等,就算法本身而言,比网络影响因子合理[20]。

(收稿日期:2008-05-23 编发:王宗义)

标签:;  ;  ;  ;  ;  ;  

社会网络、引文网和链路网的比较_网络图论文
下载Doc文档

猜你喜欢