网络舆情事件中微博用户行为特征和关系分析,本文主要内容关键词为:舆情论文,特征论文,关系论文,用户论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 如今,网络舆情被认为是由于各种事件的刺激而产生的、通过互联网传播的、人们对于该事件的所有认知、态度、情感和行为倾向的集合[1]。在新媒体兴起的时代里,随着互联网文化的发展,社交媒体平台上产生的网络舆情更是成为国内外学者研究追逐的热点。 目前,国内学者研究的网络舆情基本上是基于微博、网络论坛、博客、微信等几个热门的社交媒体平台进行的。据中国互联网络信息中心显示,截至2015年6月,我国微博客用户规模为2.04亿[2]。微博具有用户草根化、内容微小化、介质移动化、传播碎片化、交互多样化等沟通特征[3,4],这些特征使得微博进发出巨大的传播力量,并改变着整个网络环境,成为自媒体时代的网络舆情发酵池。同时,在网络舆情传播中,用户的信息发布数、转发数、评论数与关注的话题等行为不仅影响着传播的内容与过程,而且经由这些行为在传播过程中形成的网络关系影响着舆情的交互性、群聚性与可控性。所以,用户行为及其关系在网络舆情传播中引导着传播内容的发布、扩散与效果,对其研究可为支撑政策决策具有重要的价值。 据此,本文以新浪微博为研究平台,以“2015年雾霾调查:穹顶之下”舆情事件为研究对象,采集该事件数据信息,挖掘新浪微博中的用户行为特征,并用SPSS对用户之间的关系数据进行相关分析和回归分析等研究。同时,采集的数据和分析结果亦将为新媒体研究理论提供数据基础。 2 文献综述 舆情事件爆发后,在短时间内就成为公众的焦点,而舆情在未形成公共舆论之前是属于个体的公共意见。所以,舆情被认为是人民的众意和公意的反映,广义上是指民众的全部生活状况、社会环境和民众的主观意愿,也就是通常所说的社情民意[5];狭义上是指民众受中介性社会事项刺激而产生的社会政治态度[6]。刘毅[7]认为,舆情是由个人以及各种社会群体构成的公众,在一定的社会空间内,对自己关心或与自身利益紧密相关的各种公共事务所持有的多种情绪、态度和意见交错的总和。 随着美国的Twitter和Facebook、英国的Bebo、中国的新浪微博、腾讯微博、人人网等社交平台的日益普及,社会媒体逐渐扮演着大众社交和信息传播的核心枢纽的角色,影响着社会舆情的传播与演变,促使基于社交媒体的网络舆情研究成为国内外学者关注的热点。在国内,王晓光[8]以新浪微博采集的数据为样本,研究其基本结构、信息传播模式以及用户行为和关系的基本特征;甄峰等[9]以新浪微博为例,研究了中国城市网络的发展特征;廉捷等[10]对新浪微博的数据挖掘方案进行了研究,提出微博API与页面解析的数据获取方案;宋恩梅等[11]研究了微博中标签领域的权威人物以及网络成员之间的关系。在国外,学者Kumar等[12]究了Flickr和Yahoo两大在线社交网络,并对个体网、凝聚群体、核心群体做出分析;Lin等[13]对用户使用在线社交网络媒体做探索性因素分析,运用动机理论和外部因素揭示为什么用户愿意不停地使用社交网络的原因;Binder等[14]对人类想要保持独立的状态就要加强社交网络的使用提出假设,并通过对Facebook用户社区进行研究来验证假设;Mislove等[15]对4个热门的在线社交网络进行测量,验证社交网络的传播符合小世界性、幂律和无标度性。 在社交媒体用户行为分析方面的研究中,余佳慧等[16]从独立查询词分布同一session内的用户查询习惯,以及用户是否使用高级检索功能等方面入手对用户行为进行分析;罗建光等[17]对视频直播中的真实用户行为记录进行分析,并据此提出一种适用于视频直播的应用层组播树生成算法,并得出结论:算法对减少视频直播应用下应用层组播树的数据传递中断次数有明显作用;毛佳昕等[18]提出一个新的方法,即通过预测用户传播信息能力大小来分析和度量用户社会影响力,且该方法结合社会网络结构和用户行为因素两方面的信息获得更好的反映影响力测量结果;Hajli和Lin对社交媒体上的用户信息的安全和隐私进行研究,具体是用一个经验案例证明感知因素在社交媒体中用户信息分享行为的重要性[19];Sun等[20]结合网络环境的享乐性、社会性和功利性等特点,通过技术接收模型研究在线社交网络用户继续使用行为的倾向;Lee[21]讨论了社会网络服务社交媒体及用户的社会知识价值感知对于企业社交媒体口碑传播的影响;Krasnova等[22]研究文化因素会影响社交媒体上用户的发文和分享信息的动机,并从个人视角测量文化因素对自我决策的影响;Jeong[23]对社会媒体用户行为特征进行机器计算,研究内容是应用社会网络的算法预测用户偏好和对识别喜好后的用户使用社会网络中的信息关系进行分析。 综上所述,国内外有关社交媒体的舆情及其用户行为研究主要集中在单一数据特征的研究上,而针对不同数据项的关联分析及其在内容层面的深度挖掘研究上还有待深入。本文将对“雾霾调查:穹顶之下”舆情事件微博用户的行为特征和关系做出内容挖掘和统计分析,以揭示新浪微博用户行为特征和关系的规律,为管理实践和科学研究提供理论及方法支持。 3 研究设计 3.1 研究设计的总体思路与样本事件的总体概述 现今世界环境污染严重,环境问题受到公众高度重视。关于环境的舆情不断地在网上传播扩散,其中,“2015年雾霾调查:穹顶之下”由于发布者与发布时间等要素的影响导致其成为当年一个重大的舆情事件。本文选择以该舆情事件为研究对象,以新浪微博传播的数据为来源,以分析该事件在传播过程中的用户行为特征与关系为目的设计研究方案。首先收集并归纳该事件的总体情况,其次采集舆情传播过程中的用户行为数据并加以整理,再次利用信息分析方法对处理后的样本数据进行分析与验证,最后根据分析结果探索对策建议。 经过相关信息的搜集与汇总,得知“2015年雾霾调查:穹顶之下”事件的总体情况如下:2015年2月28日,柴静经过优酷推出自费拍摄的雾霾深度调查《穹顶之下》。纪录片主要内容是:(1)雾霾是什么,雾霾的危害是什么;(2)从复合污染、燃煤和燃油入手调查;(3)谈论煤和油的污染危害;(4)对于环保问题治理的思考;(5)呼吁公众保护环境且积极参与环保监督。同时,根据百度百科词条“穹顶之下”搜集到信息还显示:2015年2月28日,《穹顶之下》在各大视频网站播出之后,引起不少网民的关注。截至28日20点30分,各网络平台已累计播放超过3500万次,《穹顶之下》的热度已超过了很多热门电视剧。 《穹顶之下》在发布后立刻引起公众关注,社会影响广泛,优酷、土豆、微信、乐视、腾讯等社交平台和各大门户网站引发刷屏效应。网络反馈积极,而且片中提及的有关“我们不可能改变自然条件,我们只能改变我们自己”等言论成为热点话题。政府方面,环保部长陈洁宁对纪录片《穹顶之下》做了回应。 3.2 数据搜集和整理 新浪微博(http://weibo.com)是国内最热门的社交平台之一,其用户的代表性与平台的数据开放性可为研究提供支撑。本研究的数据采集基于新浪开放的API平台进行。利用自行开发的软件结合滚雪球爬行策略,获取用户、其转发用户、评论用户等信息;然后再爬取该用户的二级用户信息。采集的时间从2015年2月28日起到2015年3月7日止,24小时抓取微博数据。数据包括:微博内容、转发数、评论数、微博发布者ID、转发者ID、评论者ID、微博ID等数据。将搜集到的数据保存到MySQL数据库中,最终选取549 992条微博进行分析。本研究将搜集到的信息进行编号整理,数据结构片段如表1所示。 4 用户行为特征分析 4.1 微博转发和评论行为数据统计 首先本研究统计出爬取的新浪微博转发、评论行为549 992条记录,达到大样本标准,其中,转发数为30 412条,占总数比例的55.4%;评论数为24 510条,占总数比例的44.6%。这样的数据结构有足够的基础消除或削弱个体差异对数据整体的影响[24]。以上统计结果还表明,在新浪微博的互动平台中,转发率高于评论率,用户更倾向于使用转发功能。用户以自我为中心转发或者评论信息,使信息得到及时地传播与扩散,这种行为倾向是符合自媒体时代的传播特征的。上述统计数据可为后续的运算分析提供依据。 4.2 微博行为数量频率与分布统计 本研究通过爬取的数据统计出微博发布数量分布的频率,具体统计结果如下:“穹顶之下”舆情事件中共有35 965人发布微博,发布微博数在200条以内的有24460人,占总样本的68.1%;发布数在200~400条之间有9400人,占总样本的26.1%;发布数在400~600条之间有1400人,占总样本的3.9%;发布数在600~800条之间有500人,占总样本的1.4%;发布数在800条以上的只有5人,占总样本的0.014%。由此可知,随着微博发布数的增多,发布人数在逐渐减少,微博发布数量分布符合幂律分布的特征。 4.3 用户关注的舆情内容及其行为分析 为研究用户对该事件关注的内容及其行为特点,本研究采用ICTCLAS中科院分词系统进行分词、停用词过滤、词频统计并抽取高频词作为关键词,生成微博内容词频统计分析样本,总共得到3609个词语。删除“小时”(432次)、“转发”(461次)、“是否”(527次)、“没有”(611次)、“成为”(414次)、“不能”(330次)、“不会”(313次)、“不到”(315次)等没有实际意义的词。按照词频高低的排列顺序,选出频率值最靠前的44位,如表2所示。 下面主要从舆情事件传播过程中用户关注的内容及其表达形式、关注内容时的情绪与价值观、个体心理诉求与期望表达等方面研究用户的行为特征。 首先,在用户关注的内容及其表达形式方面,由表2统计结果分析可知:“纪录片”、“调查”、“视频”等词频都出现在2000以上,说明“穹顶之下”报告发布后便引起公众的高度关注,公众对此次报告的谈论量很大,反映出用户在舆情传播扩散中所关注的内容主题具有集中度较高的特点。如博文中高频提到“女儿”、“孩子”、“妈妈”等词语,这表明当话题涉及公众利益群体角色时所关注的内容是与自身利益密切相关的。“觉得”、“应该”、“感觉”属于主观动词,词语表达虽然比较口语化,但是说明用户在舆情传播中具有表达自己主观意愿、发表言论的主动性,用户在微博平台支撑下的口语化表达也表明网络舆情传播更具有随意性特点;其次,在关注内容时的情绪与价值观方面,由于微博为公众表达情绪与表述价值判断提供了便利的平台,“影响”、“需要”、“批评”、“赞美”、“支持”、“震撼”、“价值”等表达情绪、价值判断等词语高频出现,表明借助于微博等网络平台涉及有关公众的重要问题或有关共同生活团体的问题时公众表达倾向性大。同时,在基于调查报告中所展示的一系列由于企业生产制造而污染环境的问题,如煤炭燃烧污染空气并导致健康问题等内容,都能引起公众思考和情感积累。所以,随后在博文热点词中又高频出现“肿瘤”、“健康”、“污染”等高频词,这些不仅反映出用户的价值认可度,而且也体现出用户经由舆情传播所具有的心理特征。再次,在个体心理诉求与期望表达方面“政府”、“治理”、“社会”、“希望”、“期待”、“关注”等高频词出现在博文中,表明面对环保这种公共问题时,用户对政府寄予厚望,期盼雾霾问题能够得到政府有效治理,防止环境进一步污染。而“深度”、“意义”、“清楚”、“思考”等词表明用户希望通过媒体获取更多更资深的信息并带动更大的社会意义。此外,“崔永元”等名人、大V成为高频词之一,又表明微博用户在传播中倾向关注意见领袖。 5 用户行为关系分析 5.1 样本数据预处理 本研究将数据采集与整理后按照设计的数据结构存储于MySQL数据库中。从数据库中抽取出转发数、评论数以及检索意见领袖信息表,获取粉丝数、关注数、微博数。如今新浪意见领袖也是名人效应的反映,然而有些加V的微博发文很少,但粉丝众多,此类记录对于大规模的用户行为关系数据分析会产生节点过于集中而网络结构过于松散等干扰,所以在数据预处理时将类似包含名人或加V认证的微博删除,以得到更具有反应整体关系的样本数据。预处理后得到的转发、评论各样本数为24 500条记录,粉丝数、关注数、微博数各样本数为1220条记录。然后,对以上所获取的转发数、评论数两个因素的之间关系和粉丝数、关注数、微博数三个因素之间的关系进行分析,以探索其表征的用户行为之间的关系与程度。 5.2 用户行为的相关分析 相关分析研究的是两组变量间整体的线性相关关系,它是将每一组变量作为一个整体来进行研究,而不是分析每一组变量内部的各个变量。相关系数的绝对值小于0.3表明无线性相关、绝对值在0.3到0.5之间表明低度相关、绝对值在0.5到0.8之间为中度相关、绝对值在0.8以上表明高度相关。将相关分析用于舆情传播的用户行为分析中,其目的是要研究不同行为之间是否具有一定的相关性及其程度如何。在研究中,首先,本研究将统计的微博转发数、评论数、粉丝数、关注数、微博数导入SPSS中进行分析。以通过微博转发数和评论数之间的相关性分析研究用户行为特征之间的关联,通过微博粉丝数、关注数、微博数之间的相关性分析研究用户属性特征之间的关联。由此,将以上5个变量分成2组进行分析;其次,经过初步的验证,微博转发数、评论数、粉丝数、关注数、微博数不满足正态分布,所以本研究选取Spearman相关系数对以上数据进行相关分析。Spearman相关系数公式如下: 从表3中可以得出,微博用户转发数与评论数的Spearman相关系数为0.829,且p=0.042<0.05,模型建立有效。微博的转发数和评论数之间的关系高度正相关,表明一条微博发出后,如果粉丝很感兴趣,那么粉丝在转发微博的时候同时也可能会评论该微博,而且一条微博转发次数越多,评论的次数也越多;反之,评论数越多,转发数也会越来越多。因此,微博用户的转发行为与评论行为之间呈现出相辅相成的关系。 同理,测量第二组用户属性特征“粉丝数、关注数、微博数”之间的相关关系。统计结果如表4所示。 由表4中测量结果可以得知:首先,粉丝数与微博数Spearman相关系数ρ=0.432,说明粉丝数与微博数具有相关性,且p=0.000<0.05达到显著水平。但是ρ=0.432在0.3到0.5之间,说明粉丝数与微博数只具有低相关性,所以,博主发布微博的数量只是吸引粉丝的原因之一,而并非是完全的决定因素。而粉丝数与微博数具有正相关性,又说明随着微博发布量的增加,博主的粉丝数也会随着增加,只是增加得较为缓慢。同时,粉丝数的增加也激励博主发布微博,微博数也随之增加;其次,微博数与关注数Spearman相关系数ρ=0.329,p=0.000<0.05达到显著水平且非常显著,说明微博数与关注数具有明显的低相关关系。分析结果说明,微博主如果发微博的数量增加其受到关注的数量就会随之增加。同时微博主受到关注越多也会促进其发布数的增加,二者具有正相关系。再次,粉丝数与关注数Spearman相关系数ρ=0.313,且p=0.005达到显著水平,表明模型有效,说明粉丝数与关注数之间具有低相关性。测量结果表明,如果微博主关注别人越多,会引起其粉丝的增加,粉丝数的增加也会促进微博主关注自己的粉丝。 由此,通过以上所做的相关性分析发现,两组测量结果都是正相关。微博用户的转发行为与评论行为之间呈现高度相关性,粉丝用户行为与微博主行为、微博主行为与用户关注行为、粉丝用户行为与用户关注行为都具有低度相关性。各组因素间的关系两两成正相关性,表明在网络舆情传播过程中,由微博主带动起来的具有一定粉丝群体且在有转发、评论等关注行为的支撑下,舆情传播中所构成的群体成员间的互动不仅会相互促进,而且能够促使传播内容的交互与扩散。 然而,为进一步研究关注数、粉丝数、微博数之间的关系,本文又选择以关注数对粉丝数、微博数之间相关关系的影响程度进行偏相关分析。设粉丝数、微博数为偏相关分析变量,关注数为控制变量,然后进行双侧检验,偏相关分析结果如表5所示。 根据检测结果得知,微博数和粉丝数的偏相关系数为ρ=0.367,且p=0.004<0.05达到显著水平。在上述分析中微博数与粉丝数Spearman相关系数为0.432,测量结果略高于与偏相关分析系数,则说明关注数这个因素对微博数和粉丝数是有一定影响的。因此,上述测量结果显示,关注数的加入会使得微博数和粉丝的相关性增高。同时,群体会受到某个因素的影响而发生变化,也表明群体行为本身具有多变性和不稳定性的特征。但是,这些特征没有直接反应在粉丝数与微博数的相关性统计特征中,而是通过引入控制变量关注数参与测量得出的结果。 5.3 用户行为的回归分析 由SPSS统计出的回归结果得到微博数、粉丝数和关注数的多元线性回归方程为:y=5.421+6.938+8.063,回归系数和变量显著性检验的p值分别为0.004和0.013,均小于0.05,通过显著性检验,且=0.732,模型建立有效。同时,在残差分析中,观测值的总数为1220。根据概率的3西格玛原则,标准化残差的预测最大值为2.162<3说明样本数据中没有奇异值。为检验上述拟合结果,进一步做残差分布直方图和标准化残差的标准P-P图。由图1可知,回归模型的残差直方图基本上呈现为正态分布曲线,且大约有95%的标准化残差在(-2,2)之间,符合检验标准。图2中散点密切分布在斜线两则,特别是P-P图中的斜线对应着一个均值为0的正态分布,由此可以认为残差分布基本上是呈正态分布的。所以,关于微博数、粉丝数、关注数的回归线性假设以及误差项是成立的,此回归模型建立有效。 6 结语 当某一公共事件爆发后,在意见领袖、网络推手的促动下微博发布数增多,舆情事件引来大量的转发和评论行为。公众的意见开始产生,公共意见逐渐形成。随着用户的转发量、评论量积累到一定程度时,公共意见声音堆积一致从而形成舆情。本研究选择以“2015年雾霾调查:穹顶之下”事件为案例,借助于新浪微博获取数据,并利用SPSS、相关分析和回归分析等工具和方法,通过对体现用户发布、转发、评论行为的微博数、粉丝数、关注数及其舆情主题进行分析,研究舆情事件中用户行为特征和关系,得出如下思考: (1)从用户发布与转发、评论数量及其关注内容的行为看,在新浪微博的互动平台中,用户以自我为中心传播信息,用户的转发率高于评论率,相对于评论用户更倾向于使用转发功能,体现出自媒体时代用户更能及时跟随与评议传播内容;微博发布数量呈现幂律分布状态表明大多数用户活跃度较低,只有少数用户是舆情传播的主要推动者;在对舆情内容的关注上,该舆情在传播扩散中具有主题集中度较高的特点,用户在主观意愿与言论表达上具有主动性与一定的随意性,在涉及有关公众的重要问题或有关共同生活团体的问题时公众表达情绪的倾向性较大,集中的话题能够得到公众情感与价值观的认可,在个体心理诉求与期望表达方面具有强烈的意愿,同时,微博用户在传播中倾向关注意见领袖。这些结论不仅表明了网络舆情事件中微博用户行为的特点,而且研究的结果反映出在舆情传播中的公众个体心理需求和公共意见的表达[25]。 (2)从对反应用户行为相关性及其关系的数据分析来看,转发数与评论数具有高度正相关性,关注数、粉丝数、微博数两两具有正相关性,而且三者之间具有多元线性关系并呈现正态分布。在研究关注数、粉丝数、微博数之间的关系时,通过将关注数作为控制变量来观测,发现其加入和撤出对微博发布数和粉丝数都是有影响的。这些表明网络群体就像通过大量的公众形成的舆论一样,具有不稳定性,大众群体的多变是一种常态[25],是符合社交媒体平台人际关系的互动特征的。同时,上述研究结果也显示由于微博使用门槛低、传播模式小众化和窄众化,能充分满足用户个性化舆情传播需求并充分给予自媒体用户话语权,不存在用户因不表达公共意见而被孤立的情况。所以在使用便捷无压力的情况下,随着微博数的增加可以吸引更多的人转发、评论及关注,甚至粉丝数也随之增加,反之,粉丝数的增加也促进微博被关注数量的增加。这样,在舆情传播中,所构成的群体成员间不仅会相互促进,而且能够促使传播内容及时交互与扩散发酵。 (3)通过对用户行为及其关系研究结论的分析,可进一步认为,新浪微博在公共舆论议题化的过程中比起其他很多的大众传媒更能起到推动促成议题的作用,这也体现出通常社交媒体等大众媒介设置议程的显著性也会成为公众头脑中的显著性特点[26]。用户关注议题呈现出比较高度的一致性与行为之间的相关性,使得社交媒体在传播舆情中对价值观与文化整合及其群体聚集等方面具有较强的作用。所以,如何利用新浪微博在议题设置与传播上的显著性、引领性与及时性,加强议程设置,使得公共舆论的理性部分与传播成正相关性,主动发布公众关注的内容、恰当引导意见领袖并促进传播行为之间的合理互动,是政府在舆情引导与管理决策中值得研究的问题。 综上所述,本文以新浪微博为代表的网络舆情事件中用户行为特征和用户关系的研究结论,将对于政府决策和管理实践提供一定的理论参考与依据。然而,本文在研究上仍有一些局限,主要体现在两方面:其一,由于受到节点数、时间等因素的影响,本研究只选取了一段时间的数据,不能完全反映事实情况,用户行为、用户关系的研究还需要通过时间细化进一步论证;其二,本研究的主题层次、角度也较为单一。今后的研究还需要通过调查其它大众媒体,并将大众媒体与社交媒体结合,研究其大众议题和意见是否重合,公众是否会在某个特定的问题上拥有一种特定意见,会不会因此类问题形成“道德规范”等,这些问题也是后续研究的重点和难点。标签:舆情论文; 用户行为论文; 舆情分析论文; 新浪舆情论文; 社交网络论文; 相关性分析论文; 群体行为论文; 用户研究论文; 社交平台论文; 用户分析论文; 网络行为论文; 新浪论文; 社交媒体论文;