博客社区非正式沟通:基于网络链接的实证分析_社区功能论文

博客社区内的非正式交流:基于网络链接的实证分析,本文主要内容关键词为:实证论文,链接论文,博客论文,社区论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

自有科学史以来,科学交流就一直是科学活动的主要组成部分之一。进入大科学时代以后,以出版系统为基础的正式交流逐渐取代了非正式交流成为科学交流的主要途径,但是非正式交流并没有消亡,而且在20世纪80年代后期,伴随着各种新型网络通讯技术的发展而重新崛起。进入21世纪后,互联网对传统科学交流模式的影响愈加显著。在正式交流领域,网络数据库逐渐取代印刷期刊成为学者的首选;在非正式交流领域,博客的兴起则给在线科学交流带来了崭新的面貌。

从科学交流的发展历史看,博客可以被视为继电子邮件和BBS之后的一种计算机中介的非正式交流工具,它融合了信息交流和个人出版的双重功能[1],因而不仅受到普通民众的追捧,也受到众多科学家和工程师的青睐。随着博客用户的增长,各种主题的博客社区也随之成型。

目前,有关博客社区的研究虽然揭示了博客空间的整体特征[2~5],但普遍忽略了博客交流的微观过程。本文认为有必要从宏观和微观相结合的角度透视博客社区内部的交流结构和交流模式,以揭示科学交流系统在网络虚拟环境下的演变,进而为创新科学交流体系和设计下一代科学交流系统提供理论指导。

2 研究回顾

2.1 非正式交流

门泽尔曾把科学交流过程分为正式交流和非正式交流。非正式交流克服了正式交流的时滞性缺点,并在面对面的交流中促进了新思想的激发与创造,因而得到了众多学者的青睐。克洛宁对非正式交流给予了高度评价,他认为非正式交流网络是“科学发展的生命源泉,不管是对自然科学还是对社会科学”[6]。针对非正式科学交流网络,普赖斯提出“无形学院”的概念,并指出科学家的大约80%的情报资料都是通过无形学院得到的。通过进一步的研究,普赖斯还发现无形学院通常由100位科学家组成[7]。

最早对无形学院内的交流网络结构进行实证分析的是克劳福德。通过对睡眠科学家的调查,克劳福德发现73%的睡眠科学家参与了非正式交流过程,在非正式交流网络中存在少数核心科学家,他们既拥有较高的论文产量和被引率,又拥有较多的社会纽带。通过不超过两步的联结,核心科学家就可以把科学情报传播给非正式交流网络中95%的科学家[8]。克劳福德的研究不仅揭示了科学社区的网络结构,也证明了科学家的社会关系对其获取科学情报的潜在价值。

不同时代的非正式交流手段并不相同。20世纪80年代,电子邮件组和BBS的应用范围十分广泛,由此形成的各种在线科学社区被情报学家称为“电子学院”。传统的无形学院没有因为计算机网络的兴起而消亡[9],相反,在计算机网络支持下无形学院变得更加开放、参与者更多,科学交流也更加快捷。在考察了互联网对无形学院的影响后,格里夏姆认为电子会议和电子期刊的发展会促使无形学院升级成“赛博学院”,并最终发展成“虚拟学院”[10]。格里夏姆没有对虚拟学院给出太多解释,但他指出正式交流和非正式交流相互融合是科学交流系统的未来发展方向,虚拟学院正是代表这一方向的新型科学交流体系。

2.2 博客与博客社区

博客(在本文中既指weblog,又指blogger)是一种自建档(self-archiving)式的个人出版工具,同时也是一种在线交流工具。博客通过发表、浏览、引用、评论等活动表达个人兴趣和观点,并借此实现与其他博客的交流。在交流过程中,具有相同兴趣的博客逐渐聚集形成了各种主题社区。这些在线社区的形成是互联网上信息自组织的结果[11]。在感知到自己所属的主题社区后,博客发表文章的目的不再仅仅是记录个人信息,还隐含了与其他博客进行交流的强烈需要[12]。

与社会学中的地缘性社区和建立在熟人关系之上的电子邮件社区均不相同,博客社区的成员往往并不居住在同一地区,相互间的联系仅仅存在于互联网上,所以博客社区是一种缺乏实体联系的网络虚拟社区,同时也是一种在线社会网络[13]。林南(LinNan)认为社会网络是社会资源流通的渠道,个体通过社会网络可以获得情感、资金和信息等资源[14]。在博客网络,特别是在由科学家或工程师组成的博客社区内,流动的社会资源主要是专业知识和技术信息,而非资金和情感,所以博客网络属于一种情报网络,博客间的联系代表的是交流关系。

博客常常使用注册ID代替自己的真实身份,交流双方之间常常并不相识,由此导致博客之间的联系是一种弱联系。格拉诺威特认为弱联系往往能给个体带来新鲜的外部信息[15]。从该意义讲,个体使用博客进行在线交流可以获得在现实社区中无法获得的外部信息。

3 问题

早期的非正式科学交流通常是面对面进行的。即使不处于同一个大学、研究所或研究团队内,交流双方仍旧可以借助正式交流系统了解对方的兴趣、研究方向和学术声誉等背景信息。这些信息给个体选择交流对象提供了判断依据,所以高产的作者和论文被引率较高的研究者往往能获得更多的社会联结[16]。

博客系统内的情景大不相同,博客身处异地,相互之间并不认识,再加上博客习惯使用注册ID代替自己的真实姓名,这就使得评价和选择交流对象成为一个难题。在缺乏正式交流系统提供背景信息的虚拟交流环境中,博客到底如何选择交流对象呢?博客之间如何开展在线交流呢?博客社区内的交流结构与传统的非正式交流结构存在哪些差异呢?这些都是本文要回答的问题。

4 模型与方法

研究博客的交流特征必须首先识别互联网上的博客社区。博客社区包括显性社区和隐性社区两类[17]。显性社区就是博客群组。由于很多博客服务商并不提供群组服务,所以显性社区比较少见。隐性社区是由兴趣相似的博客形成的潜在的Web社区。科莫和娜狄曾分别根据博客特征和博客相似性进行了隐性博客社区的识别,这两种方法只能说明哪些博客拥有相同的属性、兴趣和讨论话题,不能肯定这些博客之间存在互动交流行为,所以无法用于揭示博客交流规律。博客间存在丰富的超级链接,它们不仅仅具有网络导航的作用,还带有明显的社会属性,揭示了博客间的交流关系,具有较高的可信性。基于这种考虑,本文决定采用博客间的链接关系构建博客交流模型(见图1),并以此分析博客社区内的交流网络结构以及博客交流模式。

4.1 模型

在博客系统内,代表博客交流关系的超级链接有三类,分别为好友链接(Blogroll link)、参考链接(Citation link)和评论链接(Comment link)。好友链接一般处于博客主页的特定列表区,指向该博客感兴趣的特定博客或网站。参考链接存在于博客文章内,代表了博客间的引文关系。评论链接指博客评论者留下的指向自身地址的链接。

参考链接和评论链接体现了不同的博客在特定话题上的交流,而好友链接是博客综合考虑的结果,代表了一个博客对链接目标(博客或兴趣网站)频繁而持续的关注。相比较而言,好友链接蕴含了更多的社会关系因素,体现了更多的博客兴趣和交流特征,是我们研究博客兴趣及交流规律的最佳选择。

图1 博客交流模型

好友链接存在方向性,其链接方向与知识流动方向正好相反,如图2所示。根据博客拥有的链接特征可以把博客分为三种类型:只有链出关系的博客、只有链入关系的博客和既有链出关系又有链入关系的博客。只有链出关系的博客通常是关注者和知识接收者;只有链入关系的博客通常是被关注者和知识发送者,而既有链出关系又有链入关系的博客则既是关注者又是被关注者,即中介者。

图2 好友链接方向与知识流动的关系

4.2 方法

社会网络分析(social network analysis)是分析社区结构及其成员互动模式的常用方法。作为一种可视化的网络分析方法,社会网络分析除应用于社会学领域外,在信息科学也有广泛应用[18],特别是在合作网络[19]、引文网络[20]、无形学院[21]、Web社区识别[22]、网页排序[23]和网络计量[24]等领域。

社会网络分析拥有个体中心网络分析(Ego Network Analysis)和整体网络分析(Whole Network Analysis)两个传统[25]。个体中心网络分析可以揭示单个节点的网络特征,使用的指标主要包括程度中心性和中介中心性;整体网络分析可以揭示网络整体结构特征,主要指标包括密度、中心势、平均距离、聚集系数等。

在博客网络中,每个博客都拥有链入度中心性(Outdegree Centrality)、链出度中心性(Indegree Centrality)和中介中心性(Betweenness Centrality)三种属性,分别代表博客被关注的程度、博客关注其他博客的程度和博客对其他博客交流过程的控制程度。群体出度中心势(Outdegree Centralization)和群体入度中心势(Iutdegree Centralization)分别代表关注博客和被关注博客的集中化程度。群体中介中心势(Betweenness Centralization)代表网络整体交流关系被少数博客垄断控制的程度。在社会网络分析中,网络的密度,平均距离和聚集系数分别代表网络节点间关系的密集程度,网络任意节点间的平均最短距离和网络内的小集团聚集程度,它们是揭示一个网络是否具有小世界特征的主要指标[26]。为了从宏观和微观两个层次研究博客交流的规律,我们综合使用了整体网络分析和个体中心网络分析两种方法。

5 数据与分析结果

5.1 数据获取

我们的数据来自中国最大的IT工程师博客网站CSDN博客(http://blog.csdn.net),该网站的大部分用户都是软件工程师,少量用户是计算机领域的研究员和高校科研人员,他们关注的话题主要集中在信息技术领域,讨论的内容多为产业发展、技术进展和工作技巧等专业知识。

我们没有采用网络爬虫的方法采集博客数据,而是直接与CSDN网站管理员联系,从CSDN博客系统的数据库中直接导出了所有使用了好友链接功能的14016名博客,及其添加的96084个链接数据。

5.2 数据处理

在所有好友链接中有81152个(84.46%)指向CSDN博客系统外部,其中大约75%指向IT类网站,20%指向其他博客系统内(如cnblog.com、blogbus.com)的博客。这一数字显示CSDN博客的关注和交流的对象大约有一半存在于CSDN博客外。

由于无法获得CSDN外部的博客的相关数据,我们将博客网络的分析范围限制在了CSDN博客系统内部,由此获得了11106个有效链接,它们共来源于6587个博客,其中2852个博客(43.3%)只有链出关系,2062个博客(31.3%)只有链入关系,1673个博客(25.4%)既有链入关系又有链出关系。链出关系数大于10的123个博客的链出关系总数为8347,即1.86%的博客发出了75.1%的链出关系。链入关系大于10的195个博客的链入关系总数为8525,即2.96%的博客获得了76.7%的链入关系。

5.3 网络整体特征分析

为了分析博客社区的整体网络结构,我们利用UCINET6软件计算了博客网络的整体网络指标。

从表1可以看出,博客网络的密度只有0.0003,聚集系数却有0.087(接近于0.1),平均距离为8.4。这些数字表明CSDN博客间的交流关系并不紧密,甚至可以说相当稀疏,但小世界特征十分明显,博客网络是一个典型的小世界网络。

从链接度特征来看,最大链入度明显大于最大链出度,而且群体入度中心势也明显大于群体出度中心势,这说明虽然博客关注对象的数目差别不大,但博客的被关注程度差别很大,少数博客比其他博客获得了更多的关注。从群体中介中心性来看,0.0088的数值也表明既有链出关系又有链入关系的博客数量较少,其中介性地位并不突出,对信息传播过程的垄断程度非常低。

图3 博客链入度频数分布

从链入度和链出度分布特征来看(见图3、图4),博客网络中的大部分博客都只有一个链接,但有少数博客发出了大量的链接,同时另外一批少数博客又获得了大量的链接,这使得整个博客网络呈现出明显的幂律特征,也就是无标度(scale-free)现象,这说明少数关键博客的影响力远远地高于普通博客的影响力。

图4 博客链出度频数分布

为了分析关键博客的交流规律,我们选取了链入度大于40的20个博客及其关联博客进行了分析。它们共有1187个节点和2210条关系。我们把这些博客及其联系形成的网络称为“骨干网络”(见图5),其中这20个博客称为“核心博客”,其余的1167个博客称为“普通博客”。从表2可以看出,与整体博客网络相比,骨干网络的密度更高,链接的聚集程度更大,小世界特征更明显。

图5 骨干网络图

说明:节点大小代表节点的度值

为了分析核心博客与普通博客各自的交流特征,我们把骨干网络分成了拥有20个核心博客及其交流关系的核心层和拥有1167个普通博客及其交流关系的外围层。在核心层内部存在12条链接关系。在核心层和外围层之间存在1621条链接关系,其中1593条由外围层指向核心层,28条由核心层指向外围层。在外围层内部存在577条链接关系。核心层和外围层的网络密度分别为0.0316和0.0026。这一数字表明核心博客间的联系较为密集,普通博客间的联系较为稀疏(见图6)。

图6 去除核心博客之后的网络图

进一步统计表明,20个核心博客(0.3%)通过不超过两步链接可以把消息传播给1746个(26.5%)普通博客。如果将链入度大于20的博客(共75个,1.14%)视为核心博客的话,两步链接的覆盖面为54%。如果将核心博客的链入度阈值降为10的话(共195个,2.96%),两步链接的覆盖面为68%。与克劳福德统计的核心科学家通过两步链接可以将消息覆盖到95%的网络相比,核心博客的整体影响力明显较低,网络中存在大量核心博客的影响力无法波及的游离节点。

从骨干网络的链接结构还可以看出,每个核心博客都有自己的“追随博客”,即同时链接到某一个特定核心博客的所有普通博客,他们共同形成了特定的主题社区。主题社区的拓扑结构基本上都是星状结构的,即链接主要存在于核心博客和普通博客之间,链接的集中度非常高。核心博客与普通博客间的链接多数是单向的,由普通博客指向核心博客,这说明核心博客往往是某个领域的专家,也是普通博客获取领域知识的重要来源,反过来却不是。

5.4 核心博客分析

为了从微观角度分析博客的交流特征,我们对这20个核心博客进行了个体中心网络分析(见表3)。20个核心博客中,最大的链入度值为192,最小的为41;最大的链出度值为10,最小的为0。

博客发表的文章显示了个人的兴趣主题。为了分析博客的兴趣对交流过程和交流结构的影响,我们根据这20个博客的自我描述,确定了各自的兴趣主题,如表4所示。结合这些博客的兴趣特征及其链接关系,我们绘制了图7。

从图7可以发现,兴趣相似的核心博客间的链接密度远低于核心睡眠科学家间的联系密度,但是这些核心博客间的12个链接中有7个(58.3%)指向兴趣相异的博客。这一比例略高于克劳福德的统计,她曾发现睡眠研究科学家的42%的联系来自于其他专业的科学家。这些发现意味着博客社区内的链接并不紧密。与普通博客相比,核心博客关注的范围更广,而且更愿意同兴趣相异的其他核心博客进行在线交流。

6 讨论

6.1 博客交流的范围

与传统的非正式交流模式相比,基于博客的交流门槛很低,任何地区的网络用户都可以利用博客进行在线交流,并且很容易聚集形成各种主题社区,其容量往往也超过了100人,这可能主要得益于搜索引擎的发展,如百度、Google和Technorati。这些搜索引擎使博客用户搜索信息的范围不限于博客网站内部,而扩展到整个博客空间,所以博客发现兴趣相似者的几率大大增加,交流的范围也相应地大大拓展。

6.2 博客交流对象的选择

博客在交流对象选择上更有针对性。这种结果可能源于网络消除了空间和时间的距离,博客可以利用文章显示自己的爱好和兴趣,所以博客用户在线上发现兴趣相似者比在线下发现兴趣相似者更加容易,由此导致博客用户更容易陷入特定主题的交流社区。对于普通博客用户而言,博客社区更像一个开放性的、可以参与的数字图书馆,但其关注对象常常集中在特定的核心博客上。对于核心博客而言,博客社区更像一个信息发布渠道,而且他们更愿意与其他核心博客交流,这种特征与无形学院十分相似,都表明个体更愿意与知识富有者交流。由于本文使用的是链接数据,无法分析到底是何种原因促使核心博客产生。如果仅从复杂网络视角来看,“优先连接原则”无疑是促生核心博客的重要原因,但是博客用户的交流动机是多种多样的,如何从内容角度解释核心博客的形成还需进一步探讨。

6.3 博客交流的层次与知识流动方向

米哈伊洛夫曾指出“等级结构是科学交流系统最稳定的结构,任何一个‘无形学院’都有少数著名科学家组成的‘核心’。等级结构是所有社会系统本质上所具有的特征。社会系统相应数量特征的等级分布是符合齐夫定律的”[27]。我们的统计表明,博客社区存在明显的等级层次,而且不同等级的博客数量符合齐夫分布规律。此外,我们还发现同层级内的交流往往是双向的,不同层级间的交流是单向的,博客社区内的中介者也较少。这些特征表明,相对于传统的由面对面交流形成的非正式交流网络而言,博客交流网络更加扁平,信息流动更加自由,但信息流动中的不对称现象依旧明显。

6.4 核心博客与网络整体特征

在博客社区内虽然存在少数核心博客,但这些博客间的链接并不密集,特别是兴趣相似的博客间的链接密度远不如睡眠科学家间的关系密度高,这说明在个体社会背景信息的网络虚拟社区中,即使是核心成员,相互之间的纽带也是很弱的。从整体上看,博客系统内存在大量游离博客,他们与其他博客间几乎不存在链接关系,这意味着核心博客的影响力是有限的,而且主要集中在特定的主题社区内部。总的来看,博客社区内的交流结构呈现出明显的“多元中心化”特征。

7 结论

本文利用中国最大的IT博客网站上的链接数据实证研究了博客社区内的非正式交流结构与模式,研究结果表明博客交流网络与传统的非正式交流网络并不相同,博客交流网络更加开放,参与门槛更低,而且存在明显的小世界特征。博客社区内还存在明显的等级层次,核心博客与普通博客的数量符合幂律分布,不同类型的博客之间的交流是不对称的。由此结果,我们认为科研人员通过博客交流不仅可以发现同行,还可以非常方便的扩展个人的在线社会网络,通过新的人际联系获得更多科学情报。

需要指出的是,本文的分析对象是博客间的链接数据,然而大多数博客上并没有这项链接,这并不意味着这些博客没有在线交流行为,所以我们的结论可能存在一定的偏向性。未来我们将对博客间的其他交流行为(如发表评论)进行实证分析,以证实我们的发现。此外,我们将对博客交流过程的动力学特征进行统计研究,以深化我们对Web2.0环境下信息自组织过程的认识。

收稿日期:2007年12月14日

标签:;  ;  

博客社区非正式沟通:基于网络链接的实证分析_社区功能论文
下载Doc文档

猜你喜欢