微博用户行为关系特征的实证分析--以新浪微博为例_新浪微博论文

微博客用户行为特征与关系特征实证分析——以“新浪微博”为例,本文主要内容关键词为:特征论文,实证论文,为例论文,新浪论文,关系论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

修回日期:2010-03-26

[分类号]G350

1 引言

微博客是博客的一种变体,在维基百科中被描述为“一种允许用户及时更新简短文本并公开发布的博客形式,允许任何人阅读或者只能由用户选择的群组阅读。用户可通过即时通讯工具、网页等终端发布、更新博文”。博客虽已成为一种有效的信息沟通与交流方式,但依然具有进入门槛,而微博客则将门槛降到最低[1]。

本文首先分析微博客的运行机制,再以“新浪微博”作为研究对象,提取数据样本,应用社会科学统计软件、表格处理软件和文本自动分类方法,挖掘“新浪微博”中用户行为特征;最后应用社会科学统计软件对表征用户关系的参数进行相关与回归分析,揭露“新浪微博”中用户关系的一般规律。

2 微博客网站的运行机制

2.1 跟随机制

用户之间的沟通交流基于一种“关注与被关注”的跟随机制,即用户可随时“关注”他人,成为他人的“粉丝”,其他用户也可“关注”自己,成为自己的“粉丝”,此过程为双向可逆过程。跟随机制使得用户以最简单的方式订阅信息、广播信息,形成一个个大小不一的传播节点。如图1所示。

图1 跟随机制示意

2.2 信息传播机制

用户信息在发布的同时会被传送到跟随用户的接收终端(PC、PDA、手机等),跟随者接收后可及时做出评论,也可选择将消息继续转发出去,让更多的用户得以分享。在信息传播过程中,信源与信宿之间是一种“后背对前脸”的信息流动,可以一点对一点,也可以一点对多点,信息像广播一样同时传递给所有跟随者。

3 数据获取与预处理

本文研究样本来自“新浪微博”的“随便看看”板块。“新浪微博”是由新浪公司开发的一款国内主流的微博产品,作为样本具有一定代表性。从2009年11月30日至2009年12月30日,在每天的19点至21点时段,随机选取该板块100条微博内容。对每条微博内容的处理过程为:提取发布者、发博途径、博文内容、博文转发数、博文评论数五项数据,再通过“发布者”链接至其个人主页,提取个人的关注数、粉丝数、博文数三项数据,上述八项数据组成一条记录。最终得到3 000条记录作为样本,将样本记录保存为Excel文件。

4 用户行为特征分析

4.1 转发与评论行为分析

所有记录对应的3 000条博文,有1 176条被转发,1 660条被评论,分别占总数的39.20%和55.33%。有些博文包含一个链接地址,指向新的页面,本文称之为含链博文。在含链博文中,被转发和评论的比例分别为37.30%和53.17%;剩余的不含链接博文,对应比例分别为39.47%和55.64%。如表1所示。

表1 博文被转发和评论情况

类型

含链博文不含链博文 博文

数量 378 2 6223000

被转发数141 1 0351 176

比例37.30% 39.47% 39 20%

被评论数201 1 4591 660

比例53.17% 55.64% 55.33%

上述数据说明不管是否添加链接地址,不管是可直接阅读的博文还是需要打开链接再阅读的博文,被转发率和被评论率基本持平。

4.2 发博途径分析

超过80%的用户通过新浪网页发布博文,通过手机网页和手机短信发布的用户分别占到11%和7%,另有少量用户借助手机彩信更新内容(见图2)。

图2 发博途径发布

大部分用户习惯使用较传统的微博网站发布博文,其比例与国外微博网站(如Twitter)差别较大。据加拿大社会化媒体分析公司Sysomos Inc对Twitter网站的调查,有超过一半(55%)的Twitter用户使用工具而不是通过Twitter.com发布信息;Twitter网站创立时间较早,拥有大量客户端插件,用户发博方式多种多样[2]。

4.3 博文长度分析

由于含链博文是由一个超链地址及少量说明性文字组成,进行博文长度分析的意义不大,因此将含链博文暂时剔除,对剩余的 2622条博文进行长度分析。新浪微博规定每条博文最长不超过140个中文字长,每个汉字或中文标点符号为一个字长,每两个数字、字母或英文标点符号为一个字长。以此为标准,利用Excel文本统计函数计算每条博文长度;博文如包含英文单词或数字,以手工方式处理,一个单词或一组数字计一个字长。结果如图3所示。

图3 博文长度分布

可以看出,包含10-20个字的博文所占比例最高。随着博文包含字数的增加,相应的博文数量逐渐减少,说明微博内容短小精致的特性迎合了大部分用户的需求。多数人发布微博内容远远低于140个字的最高限定。值得注意的是,也有一定数量的微博由140个字组成,表明其用户希望尽可能详细地进行自我表达;如果超出字数限定,他们可能发布含链博文。

4.4 发博数量分析

约2 100人(占样本总数的70%)已发博文数集中在200篇以内,约300人(占样本总数的10%)已发博文数在200到400篇之间。随着微博数量区间不断增大,对应的发博人数不断减小,整体呈现出比较明显的幂律特征。如图4所示。

图4 发博数量分布

4.5 博文内容分析

提取样本中的博文内容生成词频统计分析样本,采用武汉大学ROST WordParser中文分词系统进行切词及词频分析。样本总长度为284 988字,切词后得到74 304个词语,删去没有实质意义或专指度很低的关键词及其频次,比如“是的”(1 181次)、“多少”(105次)、“没有”(160次)、“还是”(118次)、“什么”(140次)等,将剩下关键词的频数阀值设定在20次,将每个词的频次记在表的同一行上[3],如表2所示。

表2 微博内容词频统计

关键词 词频关键词 词频 关键词 词频

关键词词频

自己283 觉得82世界51 台湾 26

大家240 分享80上海50 社会 26

我们233 他们77美国43 天气 26

今天189 生活76围脖43 今年 26

快乐155 工作71博文35 事情 23

现在152 看到71博客33 明年 23

中国148 你们68市场32 机场 22

平安131 昨天62成功32李字春 22

朋友121 最近60同事32演唱会 20

微博94 新浪58相信28

哥本哈根20

北京91 电影57广州26小沈阳 20

结果分析:①“今天”、“现在”、“昨天”、“最近”、“今年”、明年等词语突出时间概念,这与微博客注重随时沟通与分享的核心价值、注重信息传递过程中的时效性等特征相吻合。②“自己”、“大家”、“我们”、“你们”排序靠前,表明发布者倾向于以第一人称、口语化、较随意的形式进行自我表述。③“中国”、“北京”、“世界”、“上海”、“美国”、“广州”、“台湾”等词语反映的是一些热点城市或国际热点地区。也许因为大量用户来自北京、上海等发达地区,也许是用户更多关注热点地区问题,从目前的信息中无法推测,需要结合其他方法加以验证,这也是今后需进一步探索的内容。④“李宇春”、“哥本哈根”、“小沈阳”等词语的出现,表明可以借助微博客适度挖掘一段时间内的热点词汇或热点问题。

5 用户关系特征分析

由于“博文转发数”、“博文评论数”、“关注数”、“粉丝数”、“博文数”等数据项不满足正态分布,本文应用Spearman相关系数对上述数据项进行相关性分析及回归分析。Spearman相关系数计算公式如下:

5.1 样本二次处理

“新浪微博”的商业运作注重名人效应,用户中不乏各界名人,有些名人所发博文甚少,仅靠名人效应能吸引大量粉丝(如著名主持人何炅,博文数为1,粉丝数为17 615),此类记录易对统计分析结果造成干扰。现将包含“名人认证”标识的记录删除,得到新的样本,共2 102条记录。

5.2 相关分析

相关分析是一种基于假设检验的统计分析方法,相关系数表明两变量之间的相关程度。一般情况下,相关系数绝对值≥0.8时,视为高度相关;0.5≤相关系数绝对值<0.8,视为中度相关;0.3≤相关系数绝对值<0.5,视为低度相关。显著性水平反映拒绝某一原假设时所犯错误的可能性。以下检验均设置显著性水平为0.01,即在原假设事实上正确的情况下,研究者接受这一假设的可能性为99%[4-5]。

本文采用社会科学统计软件SPSS,导入Excel文件中的样本记录,将“博文转发数”、“博文评论数”、“关注数”、“粉丝数”、“博文数”作为分析变量。由于“博文转发数”与“博文评论数”为某篇博文的属性特征,“关注数”、“粉丝数”、“博文数”为某用户的属性特征,因此将上述五变量分两组进行相关分析。对变量做散点图,初步判断有相关关系,再分组进行两两相关分析,分析结果见表3、表4。

原假设为“相关系数为零”,经计算,统计量的相伴概率为0.000,低于0.01,因此可认定“相关系数为零”的可能性很低。表3所示转发数与评论数的Spearman相关系数为0.501,即博文的转发数和评论数之间存在中度相关关系。此分析表明,如果跟随者发现一篇有价值的博文,在选择转发的同时也很有可能评论一下博文内容,而且一篇博文被转发的次数越多,则被评论的次数也越多。

表4中,关注数与粉丝数相关系数为0.723,相伴概率为0.000,正相关性为高度显著,表明一般情况下用户关注别人越多,就越容易引起别人的关注,使得自己的粉丝数增加;而随着粉丝数量的增长,自己也会更多地去了解自己的粉丝并关注自己的粉丝。关注数与博文数相关系数为0.613,相伴概率为0.000,正相关性为高度显著,表明用户关注别人的兴趣与写博文的兴趣成正比。粉丝数与博文数相关系数为0.833,相伴概率为0.000,表现出高度正相关性,表明随着发布博文数的增加,用户会吸引越来越多的粉丝关注自己,而伴随着粉丝数量的增加,用户写博文的欲望也会随之提高。正如Sysomos Inc公司对Twitter的调查所显示的:随着追随者人数越来越多,Twitter用户发Tweet的次数也更加频繁[2]。

为研究关注数对粉丝数、博文数之间相关关系的影响程度,进行偏相关分析。设置粉丝数与博文数为偏相关分析变量,关注数为偏相关分析控制变量,进行双侧检验,偏相关分析结果如表5所示。

粉丝数与博文数的偏相关系数为0.494,其相伴概率为0.000。对比粉丝数与博文数普通相关系数0.833,可得关注数对于粉丝数和博文数的正相关关系有较大的影响。

5.3 回归分析

回归分析是通过提供变量之间的经验公式定量描述变量间相关关系的数学过程。不仅可以利用概率统计知识对经验公式的有效性进行判定,还可以根据自变量的取值预测因变量的取值。粉丝数量是衡量一个普通用户在微博客中影响力的重要因素。设粉丝数为因变量Y,关注数为自变量X1,博文数为自变量X2,回归分析过程如表6所示:调整后决定系数为0.747,t检验的相伴概率为0.000,具有显著统计学意义。

粉丝数与关注数、博文数的拟合结果为:Y=0.678X1+0.087X2+1.084,其中关注数和博文数的系数相伴概率均为0.000,有显著的统计学意义。

为检验上述拟合结果,做标准化残差直方图(见图5)。

图5 标准化残差直方图

残差符合正态分布,表明此回归模型是合适的。

6 结语

从本研究中可以看到,微博客网站入门门槛低、使用随意、方便快捷、注重时效、注重沟通与分享,这些特性迎合了用户的需求;超过10%的博文为含链博文以及一定数量的包含140个字的博文,表明将内容压缩在140个字以内并不能满足所有用户的需求,他们正在或者将要借助链接将跟随者引入博客、论坛或其他页面,因此微博客需要同博客、论坛等其他信息组织形式紧密结合,不断发掘信息资源的组织与利用方式,不断提高自身的生存能力;表征博文特征的转发数、评论数之间具有中度相关性,表征用户关系特征的关注数、粉丝数、博文数之间均具有高度正相关性,符合常规意义上人际交往的特性,体现出微博客在人际交往上的促进性,同时也为依托微博客网站进行社会化网络媒体经营提供了一定的借鉴,即尽量增加博文的被转发数,吸引更多人的评论与关注。积极地关注别人,保持较高的发文数量,就可以吸引更多的粉丝,获得更高的关注度,使得社会化网络媒体营销更加有效。从另一个角度看,超过八成的用户均通过网站入口发布博文,使得“新浪微博”在用户体验方式多样性方面尚有欠缺。事实上,“新浪微博”正在不断完善这方面的设置,陆续推出新的插件和挂件,同时加大宣传力度,让更多用户掌握工具的使用方法。

本研究较为系统地考察了“新浪微博”的基本结构、用户行为和关系的一般规律,对于促进微博客网站功能的完善及对信息资源的挖掘与利用,促进社会化网络媒体营销的发展均具有一定的现实意义[6]。在研究方法上,由于本研究只是一定时间段内微博客内容的数据统计,并不能全面反映用户行为、用户关系和用户活跃程度,相关结论需要后续研究进一步论证。

标签:;  ;  ;  ;  

微博用户行为关系特征的实证分析--以新浪微博为例_新浪微博论文
下载Doc文档

猜你喜欢