新浪微博中的“权威”与“人气”:以社会网络分析为方法,本文主要内容关键词为:新浪论文,人气论文,权威论文,方法论文,社会论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 微博研究现状
2009年7月新浪网推出新浪微博后,微博在中国开始发力,成为目前互联网中最为热门的应用之一,在互联网业界引起了广泛的关注,同时也吸引了学术界日益聚集的目光。近两年来,学术界对于微博的研究越来越多,通过对国内外相关研究成果的调研和梳理,我们将目前关于微博的研究归纳为以下四个方面。
1.1 微博网络结构与特征研究
作为Web2.0下的新媒介和新工具,微博平台构成了一个新型的网络世界。学者们主要从以下三个角度展开了对微博网络结构特征的研究。①微博网络整体拓扑结构。研究发现,微博网络属于典型的无标度网络,表现出小世界现象[1],微博用户的关注数分布呈现长尾现象,用户被关注数遵循幂律分布,博文数近似幂律分布等结论[2]。②微博的社会网络分析。社会网络分析方法近年来发展迅速,在组织关系网络、虚拟网络等领域中得到了广泛的应用。运用社会网络分析方法对微博网络的中心性[3]、微博交流网络特征[4]、微博社区网络交流结构[5]等问题进行研究成为国内微博研究的一个显著特色。③微博的媒体传播特征。这方面的研究将微博定位为一种新型媒体,从传播学角度来研究微博对信息传播的影响,研究者也多为新闻传播领域背景。
1.2 微博用户研究
微博用户的研究主要包括用户的动机、角色分类、行为等内容。有学者根据微博用户的动机划分出用户的角色[6],有的学者综合微博中用户的关注数、被关注数、博文数得出不同的用户类型[7]。不同类型用户的发文量[8],表征用户关系特征的关注数、粉丝数、博文数之间的关系[9],用户在微博中的人际交往特性,在微博中提问的方式和策略[10]等也成为微博用户研究的关注热点。
1.3 微博热点挖掘和趋势分析
随着Twitter的发展,它已不仅仅是用来回答“我正在干什么?”这样的问题,而且还成为了信息发布和分享、人际传播交流的新渠道,并被视作为SAS(Social Awareness Stream)系统中的一种,允许面向熟悉的人或者全体公众快速、即时地分享信息。通过Twitter中的相关数据可以分析挖掘出群体智慧,用于政策制定、决策支持、经济分析、流行热点分析等。这些研究中有的是以Twitter上的一些个体事件进行内容分析,有的则着眼于监测和识别出Twitter中的趋势,揭示Twitter趋势背后的模式和规律特征,从而了解这些趋势是如何产生以及如何演化[11]。这个方面的研究与舆情分析、文本挖掘等领域有着密切的相关性。
1.4 微博应用研究
随着微博应用的普及和渗透,其所承担的角色已经由最初的信息交流传播工具逐渐扩展到人们的日常生活乃至社会的各个方面。关于微博的应用问题也成为人们研究的重点。
(1)商业应用方面。微博作为一种电子口碑的作用逐渐为人们所认识到,学者们开始研究Twitter中所包含的品牌评论、情感以及意见的博文,并进一步考察品牌商如何利用Twitter来进行更为有效的客户关系管理,由此提出品牌商可以利用微博作为他们整体营销战略的一部分[12]。在竞争情报工作中可通过对Twitter内容发布的监控来掌控竞争对手的行动信息,利用Twitter交流可视化来构建竞争对手社交网络图[13]。
(2)科学研究方面。微博成为了一种新兴的令人瞩目的科学交流工具,为数字科学交流的发展及研究注入了新鲜的活力,近两年国外在这方面的研究尤为突出。除了探寻微博平台Twitter的特征在为特定专业和理论发展方面所产生的影响[14]外,许多学者针对微博在学术会议交流中的应用和所发挥的作用[15-17],以及在微博上是否有学者引用现象以及引用如何开展等问题[18]展开了较为集中的研究。
(3)其他应用领域。除了商业和科学研究之外,还有一些研究涉及微博在其他方面的应用,如美国大型城市的警察部门使用Twitter的情况[19],图书馆如何将微博客与现有的短信服务和博客服务相结合,构建读者、馆员之间更为高效的信息网络,提高高校图书馆利用率和服务质量[20]。
2 本文的研究视角和问题
本文以新浪微博作为研究对象,选取“时尚”标签下的用户,利用社会网络分析方法力求解决以下3个主要问题:
(1)揭示新浪微博特定标签圈的网络结构特征。以往的研究大多采用滚雪球或者随机抽样方式来确定微博社会网络分析的用户,所揭示的主要是整个泛化的新浪微博网络的结构特征。本文选取了“时尚”标签下的微博用户,旨在探寻该特定标签下的微博网络特征,揭示微博网络中该标签领域的权威人物及网络成员之间的关系。
(2)对比分析不同矩阵所构成的微博网络的特性。本文根据微博用户之间不同的关系属性构建出两个不同的关系矩阵(“相互关注”矩阵、“共同关注”矩阵)。以往的微博社会网络分析基本上采用的是相互关注矩阵,对共同关注矩阵分析较少。我们的假设是,虽然微博用户相同,但由不同关系所构建的矩阵所反映出的网络特性是不尽相同的。我们通过对比分析,来对这一假设进行检验。
(3)关于微博核心用户的确定。目前微博平台中常采用一些“人气”指标来确定热门用户,运用社会网络分析方法所得出的微博核心用户与人气热门用户之间是否一致?我们通过对几组指标的相关分析,尝试寻找这个问题的答案。
3 数据获取与矩阵构建
3.1 数据来源及处理
本文以新浪微博“时尚”标签下经新浪微博认证的个人用户作为研究对象①。我们于2010年12月9日选取了“时尚”标签下排名前50位的用户,对其粉丝数和关注人数进行统计。在此基础上,于2010年12月9~10日进一步获取了以下数据:
(1)这50位用户之间相互关注的情况,以构建“相互关注”矩阵;
(2)这50位用户之间所共同关注的人员情况(去掉了机构用户以及非新浪微博认证的个人用户),以构建“共同关注”矩阵;
(3)这50位用户从各自开博之日起至2010年12月9日所发表的微博博文总数、每篇博文的转发数和评论数,并求得博文的平均转发数和评论数。
根据(1)中数据构建“相互关注”矩阵。该矩阵中,用“1”表示两位用户之间的相互关注关系存在,“0”表示这种关注关系不存在,矩阵主对角线的值定义为0。由于关注与被关注具有双向性,因而该矩阵是一个非对称矩阵。
根据(2)中数据构建出“共同关注”矩阵。该矩阵非主对角线上的值为50位用户两两共同关注的人数C[,ij]主对角线上的数据定义为每行(列)的最大值。根据具体数值所得到的原始矩阵为对称矩阵。然后将上述矩阵转化为二值标准化矩阵,具体方法为:计算出原始矩阵的平均值,为4.1736,取其近似值为4,将原始矩阵中数值大于等于4的值定义为1,小于4的值取0。(3)中的数据存储在EXCEL表格中,留待5.3节中的分析使用。
3.2 矩阵构建的说明
在以往的微博社会网络分析当中,通常只选取微博用户的相互关注这一类数据作为构建矩阵的来源。本文中我们选取了微博用户的“相互关注”和“共同关注”两类数据,主要原因是我们持有一个假设,即:由不同关系所构建的矩阵所反映出的网络特性会有所不同。我们认为,“相互关注”矩阵所反映的微博网络和“共同关注”矩阵所反映的微博网络,由于二者的网络属性不同,因而在社会网络分析中二者的网络特征也会出现差异。我们希望通过对比分析来检验这个假设。
微博网络的“共同关注”与文献计量分析中论文作者的“共同引用”、网络计量分析中博客网站的“共出链”的思想是一致的,都属于耦合关系。“共同引用”和“共出链”这些指标的选择,是由于作者之间、博客用户之间的直接关系较难寻找,转而借助于与人有关的客观实体(论文、博客网站)来反映作者之间、博客用户之间的社会网络关系。而微博网络的“共同关注”指标则可直接通过人与人之间的行为来直观反映微博用户的社会网络关系。我们看到,微博等社会网络工具(SNS)的出现正在为科学交流、信息交流等领域的研究带来新的气象和面貌。
4 数据结果分析
4.1 社会网络分析结果
本文采用UCINET6.308软件分别对上述两个矩阵进行分析。在分析过程中,50位用户的序号是按照其在统计当天(2010年12月9日)粉丝数的排名确定的。下面我们将从密度、点度中心性、中间中心性、凝聚子群等几个方面来具体分析两个矩阵所反映的微博社会网络属性。
密度。利用UCINET对“相互关注”矩阵和“共同关注”矩阵进行分析,所绘制出的社会网络关系图如图1、图2所示。图1中,每一个结点表示一个用户,他们之间的连线表示存在着“关注”与“被关注”的关系。箭头从结点A指向结点B,表示A“关注”B。图2中,结点之间的连线表示他们存在“共同关注”他人的关系。
图1 “相互关注”社会网络关联图
图2 “共同关注”社会网络关联图
密度指的是一个图中各个点之间联络的紧密程度,固定规模的点之间的联系越多,该图的密度就越大。在社会网络分析中,密度已经成为最常用的一种测度[21]。经过分析得出,由“相互关注”矩阵所反映的微博社会网络的密度为0.0404(见图3)。这个密度值偏低,说明该网络之间的结点交流不够密切,联系非常松散,这与图1所示结果一致。由“共同关注”矩阵所反映的微博社会网络的密度为0.3104(见图4)。这个密度值较“相互关注”网络的密度值(0.0404)要高,说明该网络中的节点联系比“相互关注”网络中节点联系更密切,这与图1和图2二者对比的所示结果一致。
图3 “相互关注”矩阵密度计算结果
图4 “共同关注”矩阵密度计算结果
点度中心性。中心性是一个重要的个人结构位置指标,评价一个人重要与否,衡量他的职务或地位的优越性或特权性,以及社会声望等常用这一指标。中心性指标主要包括点度中心性(Degree Centrality)和中间中心性(Betweenness Centrality)。其中,点度中心性常用来衡量谁在团体中成为最主要的中心人物,拥有高点度中心性的人,在这个团体中也具有一个主要的地位。中间中心性衡量了一个人作为媒介者的能力,即在网络中控制其他行动者的能力[22]。接下来我们通过点度中心性来分析微博网络“时尚”标签中的核心用户,即与其他用户联系较多,在微博时尚圈中拥有较大权利的人。我们将通过中间中心性来分析微博网络“时尚”标签中的桥梁用户,即在较大程度上影响并控制了该网络中信息传播的人。
“相互关注”网络和“共同关注”网络的点度中心性分析结果如图5、图6所示。
图5 “相互关注”网络点度中心性结果
“相互关注”网络是带有方向性的,因此其点度中心性包括了点出度和点入度。点出度表示某用户“关注”其他用户的程度,点入度表示某用户被其他用户“关注”的程度。结果显示,点出度最大的是吴雨霏(点出度为6),其次是大左和庄思敏(点出度都为5);点入度最大的是蔡康永(点入度为35),其次是angelababy和张晓梅(点入度都为34)。在50位用户中,吴雨霏最关注他人,而蔡康永最受人关注。杨菲菲、尹岩、于洪江、月之海、丁春妹这5个人的点出度和点入度都为0,他们既没有关注他人,也没有被他人所关注,在网络中成为了孤立的节点。
图6 “共同关注”网络点度中心性结果
除了用点度中心度来考察网络中点的核心情况外,我们还可以用点度中心势来分析整个图的中心趋势。中心势特指一个作为整体的图的中心度,它关注的不是点的相对重要性,而是图的总体整合度或一致性。“相互关注”网络的标准化点出度中心势和点入度中心势分别为8.288%和43.690%,说明网络中点的点入度差异比点出度差异更大。微博用户被关注的程度与用户关注他人的程度相比,前者具有更明显的集中趋势。
“共同关注”网络点度中心度最大的是蔡康永,其次是angelababy,张晓梅和大左,他们在该网络中属于比较核心的人物。而于洪江、袁玮成、鲍春来、李承铉、郭振东、丁春诚的活跃度则较低。从点度中心度的数值来看,网络中的50位用户由高到低呈现出比较均匀的差值分布,整个网络的标准化点度中心势为41.41%,说明其仍具有较明显的集中趋势。
表1中列出了两个网络点度中心度标准值前3位的用户。其中,angelababy在两个网络的三个指标排行中都出现;蔡康永在“相互关注”网络的点入度中心度和“共同关注”网络的中心度指标中都排名第一,在“相互关注”的点出度中心度中没有进前3,这也反映出其在微博网络中较强的受关注程度;张晓梅、大左则在“相互关注”的点出度中心度和“共同关注”网络的中心度指标有较好表现。这4位用户在新浪微博“时尚”标签中表现出较强的核心用户特征,他们在微博网络中的活跃程度与各自在行业领域中的权力身份有着密切的关联。
中间中心性。“相互关注”网络和“共同关注”网络的中间中心性分析结果如图7、图8所示。
图7 “相互关注”网络中间中心性结果
“相互关注”网络中,蔡康永的中间中心度值最高,说明其在该网络中控制信息流动的能力最强;其次是大左、朱梓骁,网络中的其他人想要获取信息对他们的依赖程度也是比较大的。所有50人中,有26人的中间中心度值为0,他们在该网络中不具有任何交流节点的作用,不能控制其他任何行动者。从整体来看,“相互关注”网络的标准化中间中心势为23.77%,数值并不是很高,说明该网络中大部分的人不需要通过桥梁节点就可以获取信息。
图8 “共同关注”网络中间中心性结果
“共同关注”网络中,中间中心度最大的是曽玉,她在整个网络中对信息的控制程度是最大的;其次是张晓梅、卢兰,他们在网络中充当着重要的桥梁作用。所有50人中,有13人的中间中心度值为0,他们基本上不具备对信息的控制能力,从整体来看,“共同关注”网络的标准化中间中心势为11.31%,数值也并不高,说明该网络中信息的交流传递对于桥梁节点的依赖性并不强。
表2中列出了两个网络中间中心度标准值前6位的用户。在两个网络中,蔡康永、张晓梅、angelababy、大左都表现出了较强的信息中介能力。本文所研究的是新浪微博“时尚”标签下的用户,而我们进一步分析表3中的这些用户的职业身份发现,除了angelababy(模特、艺人)、航悦(化妆师)、朱梓骁(演员)这3位与时尚行业紧密相关之外,其余的蔡康永(主持人)、大左(男主播)、张晓梅(出版人)、曽玉(董事长)、卢兰(运动员)似乎与“时尚”圈并不十分贴近,但他们却在“时尚”标签网络中充当了重要的信息桥梁的作用。我们认为,这很大程度上与他们的职业特征有关,这些职业身份使得他们在信息传播方面具有天然的优势,因而在网络中的中介角色也由此凸显。
凝聚子群分析。凝聚子群分析是社会网络分析中的重要方法,其目的是为了揭示社会行动者之间实际存在的或者潜在的关系,利用一些算法找出行动者集合中具有相对较强的、直接的、紧密的、经常的或者积极关系的个体,以确定组成整个网络中小的团体,团体内部成员联系紧密,信息分享频繁[23]。凝聚子群分析方法有多种类型,我们选择建立在点度数基础上的凝聚子群分析方法k-丛,其分析入手点是子群成员与其他成员之间的关系频次[24]。
(1)“相互关注”网络。对于“相互关注”网络,我们取k值为2,根据K值大小与网络规模之间的限制性关系经验规则,网络的最低规模数为4,即最小的团体不得少于4个节点,则k=2,n=4时,得到42个子群;若k=2,n=5,则得到1个子群,50个人属于一个团体,不具有分析意义。取k值为3,网络最低规模数为5,则k=3,n=5时,得到97个子群,无法判断;若k=3,n=6,则得到0个子群,不具有意义。因而,我们选择k=2,n=4,得到42个子群(如图9所示)。
图9 “相互关注”网络k-丛计算结果
可以看出,有的用户隶属于多个2-丛,如1号(蔡康永)、2号(angelababy)、11号(吴雨霏)、4号(古巨基),他们活跃于多个小团体中,在“相互关注”网络的信息交流和传递中扮演了重要的角色。但是我们也发现子群规模比较小,密切联系仅仅建立在少数人之间,说明整个网络的互动性还不够强。结合图10所示的聚类图,1号(蔡康永)、2号(angelababy)、11号(吴雨霏)、4号(古巨基)关系相对紧密,说明他们在“相互关注”网络中关联较大,这可能与他们同为港台演艺圈人士有关。
图10 “相互关注”网络树状聚类图
凝聚子群密度(External—Internal Index,E-I Index)主要用来衡量一个大的网络中小团体现象是否十分严重,我们借助于这个指标可以观察“相互关注”网络中各个子群内部交流、子群之间交流的紧密程度。利用UCINET计算出“相互关注”网络凝聚子群的密度,结果如图11所示。
图11 “相互关注”网络子群密度分析结果
凝聚子群密度的取值范围为[-1,+1]。该值越接近于1,意味着网络中小团体现象越为严重,派系林立的程度越大;该值越接近-1,意味着派系林立的程度越小;该值越接近0,表明关系越趋向于随机分布,看不出派系林立的情形[25]。图11的结果显示,“相互关注”网络的凝聚子群密度为-0.123,比较接近于0,表明该网络中的关系倾向于随机分布,基本看不出小团体和派系林立的现象。
(2)“共同关注”网络。对于“共同关注”网络,我们也采用k-丛方法进行凝聚子群分析。若k=2,n取网络最小规模值4,得到591个子群,无法判断;待n的值取到14时,得到33个子群;n值取15时,得到14个子群。若k=3,n取网络最小规模值5,得到97个子群,无法判断;n值取6,则得到0个子群,不具有意义。通过不同取值的尝试,我们选择k=2,n=15,得到14个子群(如图12所示)。
图12 “共同关注”网络k-丛计算结果
可以看出,有的用户隶属于多个2-丛,如1号(蔡康永)、2号(angelababy)、3号(朱梓骁)、12号(戚薇)、28号(大左)、33号(宋姗姗)、43号(吴辰君)、49号(扎西顿珠)、50号(ai媚儿),他们活跃于多个子群当中,在“共同关注”网络的信息交流和传递中扮演了重要的角色。与“相互关注”网络相比,“共同关注”网络的子群规模要相对大一些,用户之间的交流和互动更充分一些。结合图13所示的聚类图,上述的用户之间关系紧密,说明他们在“共同关注”网络中相互关联较大。
图13 “共同关注”网络树状聚类图
利用UCINET计算出“共同关注”网络凝聚子群的密度,结果如图14所示。结果显示,“共同关注”网络的凝聚子群密度为-0.057,非常接近于0,表明该网络中的关系倾向于随机分布,几乎看不出小团体和派系林立的现象。
图14 “共同关注”网络子群密度分析结果
4.2 “相互关注”网络与“共同关注”网络的比较
前面我们选取了新浪微博“时尚”标签下排名前50位的用户,根据用户之间不同的关系属性,分别构建了“相互关注”网络和“共同关注”网络,并运用社会网络分析方法,对这两个网络进行了分析。通过分析我们看到,在分析对象(都是由相同的50位用户所组成的网络)和分析方法(网络密度、点度中心性、中间中心性、凝聚子群)都一致的前提下,两类网络在一些共性特征的基础上也表现出了不同的属性(如表3所示)。下面我们将对此进行比较和分析。
网络密度。“相互关注”网络的密度明显小于“共同关注”网络,图1和图2也直观反映出这两个网络稀疏程度的差别,说明这50位“时尚”标签的新浪微博用户彼此之间的相互关注不是很多。虽然同为特定标签下的用户,但用户的关注行为并不集中局限在特定的圈子内部,而是更多地将目光投向整个网络之中。
点度中心性。由“相互关注”矩阵所构建的网络是有向图,因而点度中心度分为了点入度中心度和点出度中心度两个指标。可以看出“相互关注”网络的点入度和点出度并不均衡,而且标准差和中心势显示,样本中的50位微博用户在被他人关注和关注他人方面,前者的差异大于后者,少数的用户身上聚集了多数人关注的目光,例如蔡康永的点入度就达到23(绝对值),表明50人中就有23人关注了他。
“共同关注”网络是由“共同关注”矩阵构建而成的无向图,其点度中心度的各项指标都高于“相互关注”网络,反映出“共同关注”网络中的用户在与其他用户的联系以及信息权力上要强于“相互关注”网络的用户,即样本中50位微博用户的信息传递和交流更多地发生于大范围的微博网络中,而并不局限于“时尚”标签圈内部。
中间中心性。从表1的数据来看,两个网络的中间中心势都不是很高,说明两个网络中均未出现对其他节点具有较强控制能力的节点。“共同关注”网络的中间中心性指标值都低于“相互关注”网络,因而“共同关注”网络中用户的信息控制能力和信息中介能力要弱于“相互关注”网络的用户。
凝聚子群。经过凝聚子群的k-丛分析,两个网络的子群密度都接近于0,这两个网络中的用户关系倾向于随机分布,基本上看不出小团体和派系林立的现象,而两者比较之下,“共同关注”网络的子群密度又更趋近于0,其网络关系的随机分布特征更为明显。图10和图13的树状聚类图也直观地反映出了这一点。
关于“派系”和凝聚子群的研究是适用于所有社会网络的,对于因特网也同样适用。在论坛等传统网络社区里,对派系的判定较为容易;而在博客、SNS、微博等新兴社区里,派系的判定要更复杂。网络中派系的形成是由于人际关系、价值取向等相关因素。正是“派系”或凝聚子群的存在,使因特网中的社会网络也会以某种共同意识或文化来影响个体[26]。对于我们所研究的新浪微博“时尚”标签下的用户,与时尚相关的某些特质被视为他们的共同特征。而研究结果显示,在微博“时尚”标签圈当中,50位样本用户并没有形成更次级的同质小团体,他们的关系非常松散和随机,这与我们原先所持有的也许会在同类职业领域(如艺人、模特等)中形成关系密切的群体的设想不甚符合。但我们不能就此否定微博中小团体的存在,这个问题仍有待进一步的研究。
差异原因分析。通过分析我们发现,“相互关注”网络和“共同关注”网络在特征上具有一些共性,同时也表现出差异性。由此便引发出一个问题:这两个网络中的50位用户都是相同的,为什么在同样的分析方法下,二者之间会产生这样的差别?例如网络用户之间关系的疏密、用户在信息权力和信息中介能力方面的强弱以及网络关系的小团体属性等。
我们认为,这种差别主要是由于“相互关注”和“共同关注”这两个社会网络在构建时所依赖的两个关系矩阵所导致的。社会网络是从“关系”的角度出发来定量地界定网络节点及网络的整体属性,当网络中的“关系”发生变化时,相应的网络节点及网络的属性和特征也会随之发生变化。“相互关注”网络是在“相互关注”矩阵基础上构建的,矩阵中所表征的是微博用户之间相互关注的关系;“共同关注”网络是在“共同关注”矩阵基础上构建的,矩阵中所表征的是微博用户两两同时关注他人的关系。前者的关系仅局限于50位“时尚”标签用户之间,而后者的关系除了这50位微博用户之间,还包括了50位用户之外的整个“时尚”标签圈的用户以及其他标签用户,即包括了整个新浪微博中的用户。
文献[27]通过博客链接对图林博客显著度进行了分析,其中提出了内部显著度和外部显著度的概念。内部显著度是基于所选博客之间的单链分析,反映的是某个博客在图林博客网络中的显著度;而外部显著度是基于两个博客同时被其他网站(网页)链接的情况,即共入链分析,反映的是某个博客在整个因特网中的可见度。借鉴这个观点,本文中的“相互关注”网络反映的是样本中的某个用户在这50位微博“时尚”标签用户所组成的网络中的显著度,“共同关注”网络反映的是样本中的某个用户在整个新浪微博中的显著度。
通过文献梳理,我们发现目前关于微博社会网络分析的研究中,绝大部分是选取微博用户之间的相互关注数据来构建“相互关注”矩阵,进而进行相关的社会网络分析。本文通过两个矩阵的分析和比较,认为“共同关注”矩阵的关系属性更能体现出大范围开放型网络的特征。但相对于“相互关注”矩阵,“共同关注”矩阵数据的获取存在更大的难度。本文所选取的只是50个样本,采用的是人工统计的方式。假若样本数量增大,再加上伴随微博发展而带来的用户信息的增多,数据的获取和统计无疑将成为难题。在以往的研究中,研究者可以通过论文数据库、搜索引擎等工具来方便获取作者共现、论文共被引、博客共链等方面的数据,而在微博研究中尚且缺乏这样的工具,这将成为制约研究进一步深入的瓶颈。
我们在对微博相关研究成果的梳理中发现,国外的微博研究多为实证研究,而且样本数据量庞大,种类丰富,这些数据的获取除了有研究者自己开发的软件抓取之外,还得益于Twitter自身的一些开放性APl和平台统计工具,这为研究工作的展开提供了极大的便利。这也许可以为国内微博平台的发展提供一些参考和借鉴。
4.3 关于几组指标的相关分析
除了关注数和共同关注数之外,我们还统计了50位样本用户从各自开博之日起至2010年12月9日所发表的微博博文数、每篇博文的转发数和评论数。为了探求不同指标变量之间的相互关系,我们利用SPSS对各组指标数据进行了相关分析。
粉丝数、博文转发数、博文评论数的相关度。表4列出了50位微博样本用户的粉丝数、博文平均转发数、博文平均评论数之间的相关系数。我们看到,三组指标变量都存在显著性差异(p<0.01)。其中,转发数与评论数之间相关系数达到了0.950,说明二者之间存在高度相关。文献[28]也对新浪博客的相关样本进行了分析,得出的结论是:博文转发数与博文评论数之间存在中度相关关系(Spearman相关系数为0.501)。这与本文所得出的结论有一定的差异。通过仔细阅读,我们发现,该文献所选取的博文转发数和评论数是每篇样本博文的指标,其所做的相关分析是基于博文单元的。本文选取的博文转发数和评论数是每位样本用户的平均指标,即每位用户每篇博文的平均转发数和评论数,我们所做的相关分析是基于用户单元的。因而,样本的不同、取值层面的不同等,都有可能造成分析结果上的一些差异。
作为表征微博文特征的指标,转发数的大小反映了微博文的扩散程度,评论数的大小反映了微博文在扩散过程中所引发的反响程度,即影响力。同时,转发与评论还反映出微博用户对于其他用户微博文的一种态度和评价。虽然两个研究的结果存在一定的差异,但都显示出博文转发数和评论数之间存在着比较明显的相关性,即转发数较高的微博文,其评论数也相对较高,从而也揭示出微博文的扩散性和影响力之间的相关关系。
粉丝数与转发数、粉丝数与评论数之间的相关系数分别为0.556、0.494,属于中度相关。微博用户的粉丝数是微博文的转发数和评论数的基础,但拥有较大的粉丝群体并不一定就意味着必然会有较高的转发数和评论数,这还与博文本身质量等因素有较大关系。
社会网络分析指标与人气指标的相关度。前面通过社会网络分析,我们得出了50位微博样本用户信息权力和信息中介能力的强弱关系。为了进一步探讨前文的分析结果与微博用户粉丝数、微博文转发数及评论数之间的相关程度,我们对这些指标变量也作了相关分析(如表5所示)。可以看出,基于“相互关注”网络的指标变量与粉丝数、转发数、评论数这三个指标的相关度比“共同关注”网络更高,而且存在显著性差异(p<0.01)。我们认为,粉丝数、转发数、评论数这些非常显性的“人气”指标更多反映出的是微博用户受关注的程度,“相互关注”的有向网络正好表征出这种属性,因而二者之间存在一定的相关性。而“共同关注”网络是基于微博用户共同关注其他用户的关系属性所构建,其未能够有效反映用户受关注的程度,因而“共同关注”网络中的用户信息权力(由点度中心度表示)、用户信息中介能力(由中间中心度表示)与粉丝数、转发数、评论数这些人气指标之间相关度极弱,“共同关注”网络中所确定的核心用户与微博人气用户也产生了差异。
关于微博用户影响力的衡量,目前较多的是根据粉丝数、转发数、评论数等指标来得出各种排行榜,这也基本上为大众所接受。在文献[29]的研究中,作者认为粉丝数是衡量一个普通用户在微博客中影响力的重要因素,并将粉丝数设为因变量,关注数和博文数设为自变量,进行回归拟合,以此建立了微博用户影响力回归方程。在本文中,我们采用了社会网络分析方法,发现所得出的微博核心用户与“人气”指标中的热门用户并不完全一致,甚至有的情况下还出现了较大的差异。由此产生的一个问题是:我们应该如何判断微博网络中的核心用户,是依赖大众化的“人气”指标,还是根据学术研究指标?抑或是二者兼顾?如果二者兼顾的话,该如何兼顾?这是一个值得继续探讨的问题。
5 讨论
5.1 主要结论
本文通过对新浪微博“时尚”标签用户的社会网络分析,得出以下主要结论:
(1)微博标签圈的网络社区中也存在核心成员和意见领袖,他们在微博网络中的活跃程度与各自在现实行业领域中的权力身份有着密切的关联;微博标签圈中的用户关系并不对称,权威用户的受关注特征明显,且标签圈内的用户并不局限于内部网络的活动,他们更倾向于该圈子之外的外部网络交流。
(2)在微博标签圈网络中,没有出现中介能力和桥梁作用特别强的节点用户,小团体现象很不明显,微博网络组织结构比较松散和独立。
(3)通过比较分析,微博时尚圈的“相互关注”网络和“共同关注”网络在特征上具有一些共性,同时也表现出差异性,这验证了我们之前所持的一个假设,即由不同社会关系所构建的矩阵所反映出的社会网络特性是不尽相同的。
(4)微博标签圈用户博文的转发数-评论数具有极其显著的相关度,而粉丝数-博文转发数、粉丝数-博文评论数这两组指标内部具有较大的相关度。微博标签圈用户的人气指标反映其受关注程度,社会网络分析所得出的学术指标则反映用户在网络中的核心程度和控制能力,人气指标与学术指标之间相关度不高。
由(3)和(4)可以引发出值得我们进一步思考的问题:
第一,关于微博数据的深度获取。目前对于微博的社会网络分析,较多采用“相互关注”的数据,由于数据获取的难度制约了“共同关注”等研究数据的获取。微博研究的进一步深入,急需相应的数据获取工具的支持,特别是当研究对象选取的是博文的时候,数据量会更大。除了由研究者自行开发数据获取工具外,微博平台自身或许也可以考虑开发一些数据获取和利用的开放式平台,这将有力推动微博研究的深入和微博的进一步发展。
第二,关于微博影响力的衡量。目前普遍采用的人气指标与学术指标在衡量判断用户影响力方面各有侧重,二者的结果也产生了差异。我们应该如何更加合理科学地衡量微博的影响力,这也是值得继续探讨的问题。
5.2 研究局限与展望
(1)研究样本只选取了50位用户,网络规模较小,后续的研究需要进一步扩大样本数量,从更大的规模来探讨微博网络的特征。
(2)本文选择了新浪微博的“时尚”标签网络,对于不同行业和领域的微博网络,其特征又是如何,还需要展开新的研究。
(3)本文只是探讨了微博标签圈的网络结构特征,对于微博网络中动态的信息交流机制没能进行探讨;另外,微博作为一种特定的社会网络类型,与其他的网络社区的比较(如博客、论坛等),也将是后续进一步研究的内容。
①本文所要研究的是微博真实个人用户所组成的微博网络群体,因而未被新浪微博认证的用户,以及组织、杂志等官方微博用户未作为数据采集对象。