基于主题河的网络舆情可视化关联分析方法,本文主要内容关键词为:舆情论文,方法论文,主题论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 网络舆情是由于各种事件的刺激而产生,通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合[1],其实质是大众公共观点在互联网媒介中的反映。 2014年1月16日,中国互联网络信息中心(CNNIC)发布《第33次中国互联网络发展状况统计报告》,数据显示,截至2013年12月,中国网民规模已达6.18亿,互联网普及率达到45.8%[2]。中国网民数量已经稳居世界第一。在此背景下,基于各种Web2.0技术的社会媒体产生的网络舆情,不仅影响着社会群体的观点,也深深影响着整个社会的行为。探索各种类型网络舆情的特征和演变机制,对于增强新形势下社会公共治理能力和商业竞争策略具有重要意义。但是,通常人们难以从海量的网络文本中直接获取到有效的信息,因此大大限制了分析信息的能力。信息可视化是一种通过利用人类的视觉能力,来理解和分析抽象信息的意义,从而加强人类的认知能力的途径[3]。 本文提出一种网络舆情可视化分析的方法,并设计了相应的原型系统。该系统能够以一张图为核心对原始数据进行多角度数据展示,用户可以探索式交互地了解一段时间内网络某事件中舆情随时间的演化过程、演化的细节、热点话题以及分析推动种种变化的原因。本文以兰州2014年发生的一起公共事件为例,对本方法的可用性及其有效性进行了验证。 2 研究回顾 网络舆情作为数据表现为基于时间序列的具有社会属性的海量短文本集合。舆情分析一大核心目标是从这些纷繁复杂的文本中抽取涉及的主题。对文本主题在时间上的建模可以简单地分为两大类:一类是将时间视为连续随机变量建模,另一类是基于离散化的时间点构建动态贝叶斯网络模型[4]。 国内计算机和信息科学学者在文本可视化方面开展了一定的基础方法以及应用研究。清华大学孙茂松指出可视化方法是文本挖掘的重要组成部分,文本可视化综合了文本分析、数据挖掘、数据可视化、数据集图形学、人机交互、认知科学等学科的理论和方法,为人们提供了一种理解海量复杂文本的内容、结构和内在规律等信息的有效手段[5]。在文本可视化方面,武汉大学的周宁团队进行了大量的研究工作,对文本可视化技术进行了综述,细致探究了图符标识法、高维空间描述法[6-7],提出文本信息可视化通用模型[8],给出了基于非线性映射的可视化文本聚类的方法[9]。张兆锋、陈颖、安海忠、刘永等学者对文本挖掘中的信息结果和关系可视化进行了多角度的应用阐释[10-13]。 目前,我国针对网络舆情的研究非常活跃,积累了大量的成果。但是,结合舆情自身特点的可视化分析研究工作并不多。部分学者开展了一些应用层次上的研究,比如武汉大学申莹对舆情中的话题聚类和一般可视化呈现做了探索和实现[14]。信息工程大学郭建忠等人研究了舆情在GIS上的反映[15]。公安大学许星等人利用斯坦福大学开发的protovis对微博中舆情信息可视化进行了技术可行性方面的初步尝试[16]。总的来说,系统化、基础性的研究工作还比较缺乏。 传统的文本分析办法难以反映舆情文本之间的时间属性。主题河(ThemeRiver)是一种被证明为有效的反映文本之间的时间属性的方法[17]。在这种可视化方法中,时间被表示为从左往右的一条水平轴,然后用不同的颜色条带代表不同的主题,条带的宽度代表该主题在该时间的一个度量(例如主题的提及频率),使用这种表示方式的最大优点是人们可以很容易地跟踪任何一个主题在量上随时间的变化。此外,也能容易地比较不同的主题在同一个时刻的相对规模大小。经典主题河技术发展主要侧重于集成更多维的数据,而较少涉足关联分析研究。 3 基于主题河的网络舆情可视化关联分析模型 3.1 网络舆情事件的数据模型 本文假定文本集合包含的每一条发言都具有一定的指向性和倾向性,参考文献[18-19]对舆情事件的数据模型定义如下:该模型命名为PO,PO=(D,P,J,W)。 3.2 网络舆情事件分析的任务模型 网络舆情分析的技术目标主要为:抽取文本集合D中所涉及的对象特征,对特征归并,对观点X进行分类。分析结果得到一个四元组(J,O,X,M),J是观点持有者,O指舆情事件实体,实体O可以是产品、政策、机构、人、组织、事件等。数据分析最终期望发现D中的所有隐含信息[20]。 3.3 网络舆情事件分析的可视化关联分析模型 基于以上舆情事件的数据模型和任务模型,本节给出舆情事件的可视化关联分析模型,使每一个具体舆情事件分析动作可用该模型的一个程序运行期实例表示。 定义1 可视化操作F 舆情事件可视化变换可分为基本变换和复合变换两种类型。基本变换由分析员对关联信息图的操作产生,复合变换由程序经基本变换关联操作后自动产生。“变换”实体的属性包括(aId,aNum,aType):aId为唯一性识别标识符;aNum表示所关联事件的个数;aType表示关联方式,1表示时间关联,2表示发言者身份关联,3表示主题关联。 定义2 可视化映射规则R 映射规则完成舆情事件实体属性及操作的图形化表达。基本属性映射如表1,基本操作映射参考。 4 可视化关联分析设计与实现 4.1 可视化关联分析功能结构设计 “主题河”体现了时间轴上不同类属的量的比例变化关系,是一种非常合适的舆情数据可视化分析工具。“主题河”不仅能够使用户了解某一个主题的演化进程,还能够对数据集合整体态势有较为直观的认识,有助于帮助人们分析该主题的演化、发展情况和近期关注热点。 我们以“主题河”为基础进行了关联扩展,提出了一种新的网络舆情可视化分析方法。该方法核心视觉元素为主题河、扫描线和关联功能图。通过扫描“主题河”驱动同一时间点的关联功能图数据(见图1)。 本可视化分析方法定义四种基本类型的关联功能图: (1)明细表格:查看明细数据; (2)网络图:观察数据之间的各种关系属性(传播,核心节点,用户间关系等); (3)标签云:概览数据全貌,热点话题等; (4)分类图:多值分类,对观察对象进行进一步分类聚类。文本数据经常需要和其他相关的非文本数据融合在一起进行关联分析。例如微博数据既包含了文本数据,也包含了用户的一般性资料,如地理信息、年龄段、性别等结构性的非文本数据,对这些信息的分类常常可以用来解释不同舆情形成现象。 4.2 可视化关联分析交互流程设计 借鉴可视化工具Prefsue的思想[21],设计可视化关联分析交互的基本流程如下(见图2): (1)载入数据。将待处理文档集合以可视化映射规则R中属性映射为指导转换成绘图引擎的内嵌图形化结构数据,建立待处理数据对象模型实例。 (2)建立可视化对象。可视化对象负责将装载的数据映射为可视化元素,根据关联分析模型所定义的关联主客体要素建立数据动态响应关系。 (3)可视化服务响应实例生成和实例注册。通过前述操作自动触发实例映射,生成实例,在系统中注册实例,服务响应实例负责绘制可视化元素。 (4)建立图形变换可执行策略。以可视化映射规则R中属性映射和操作映射为指导提供操作的规范。本步骤根据舆情信息的类型、频率和语义关系等属性信息分别赋予不同图形特征,及其特征变换方法,比如可视化元素的位置、形状、大小、颜色和投影的设置。本步骤生成关联分析操作库,其执行逻辑如下(见图3)。 (5)初始化显示。由形成初始图形布局。 (6)交互式情报分析。完成舆情信息探索过程。 4.3 系统实现技术框架 前端系统整体界面设计选用Bootstrap,Bootstrap是Twitter推出用于前端开发的开源工具包,它是一个基于Jquery的CSS/HTML框架。数据可视化部分选用D3,D3是近几年出现的具有广泛成功案例的可视化JS库,它被很多其他的Web系统所使用,它允许绑定任意数据到DOM,然后将数据驱动转换应用到Document中。 系统数据处理后端功能模型由如五部分组成,即数据采集、数据清洗、数据存储、数据分析和数据可视化。后端功能实现选用基于Python的技术栈。 文本处理方法方面,使用了GitHub上开源的JIEBA分词系统,该系统基于Python,支持三种分词模式。本文中的研究重点不在于具体的统计学习算法,因此直接集成现成的开源算法包中需要的算法,用到的工具包括:NetworkX(图模型)、scikit-learn(机器学习)、Pandas(统计处理)、Pytables(时间序列处理)。 4.4 系统使用基本流程 系统使用基本流程包括七个步骤:(1)领域问题设定;(2)选取数据源;(3)采集数据;(4)文本处理;(5)根据可视化目标模型设置相应的配置文件;(6)基于主题河,配合合适的关联功能图选取,利用扫描线进行数据关联分析;(7)分析结果,发现数据中蕴含的问题特征、效应、机制等深层知识。 5 兰州自来水苯超标事件实证分析 5.1 事件背景 兰州自来水苯超标事件指的是兰州市威立雅水务集团公司出厂水及自流沟水样中苯含量严重超标。2014年4月11日,据威立雅水务集团公司检测显示,4月10日17时出厂水苯含量高达118微克/升,4月10日22时自流沟(自来水一分厂与二分厂之间中间段)苯含量为170微克/升,4月11日凌晨2时检测值为200微克/升,均远超出国家限值的10微克/升。4月11日11时,兰州市已停运北线自流沟,排空受到污染的自来水;南线输水管道正常供水;兰州官方特别提示,自来水不宜饮用,其他生活用水不受影响。4月12日,根据调查,造成兰州自来水苯超标系中国石油天然气公司兰州石化分公司一条管道发生原油泄漏、污染了供水企业的自流沟所致。4月14日,兰州四区全部解除应急措施,全市自来水恢复正常供水[22]。 5.2 数据来源 于2014年4月26日,对百度贴吧用关键字“兰州苯”进行搜索,然后用爬虫抓取了相关发言及其跟帖共计5328条,将数据存储为JSON格式。 5.3 数据预处理 本阶段为后续工作做准备:(1)清除JSON文件中不必要的数据;(2)提取文件内容:ID、发言时间、发言内容;(3)对发言内容进行分词;(4)利用大连理工大学研制的“情感词典库”做特征项过滤;(5)标注训练数据。 5.4 利用贝叶斯方法进行情感分类 朴素贝叶斯分类算法是以贝叶斯理论为基础的一种在已知先验概率与条件概率情况下得到后验概率的文本分类方法,其分类算法实现比较简单,分类效率也比较高,在文本分类方面表现比较好。具体算法如下: 5.5 其他处理 (1)层次聚类数据生成。用K均值聚类方法对不同时间段的发言分类,存入数据库。 (2)网络图关系数据生成。网民之间发言的相互关系以矩阵存储太过稀疏,因此将相关性关系用JSON格式以链表形式存入数据表的长文本字段。 (3)标签云数据生成。用互信息方法进行词频统计后的特征词选取,计算结果以文本文件形式保存。 5.6 可视化分析 在系统配置文件中将分类项(关联主体)设置为上述处理结果数据库中的情感分类表。运行程序,可以看到网民情感随着时间的变化趋势(见图4)。 选取“标签云”功能,移动扫描线(图4中坐标区间竖线)到需要观察的时间点,可以看到网民在该时间段对此事情议论的热点话题(图4右边部分)。 在系统配置文件中将“网络分析项”(关联客体)设置为“意见领袖”,选取“网络分析”功能,移动扫描线到需要观察的时间点,从网络图中可以较清楚看到该时间段内主导、带动讨论的核心节点,也就是意见领袖(见图5右侧)。 在系统配置文件中将“网络分析项”设置为“观点聚类”,选取“网络分析”功能,移动扫描线到需要观察的时间点,从层次图中看到该时间段讨论内容的聚类结果。结果显示,聚类较理想的将网民发言分成了四个具有明显区分度的不同类别:情绪发泄、事实陈述、质问政府、其它(见图6)。 结果表明,该可视化方法能较好地反映现实情况。例如,在文本流比较明显的两次情绪反弹的转折点中,均是政府相关单位的不当言论使得网民对该事件的关注度再次增大,从而使得该话题的活跃度明显增加。且进一步观察可以看出,互联网用户的情感从刚开始的由担心健康安全产生的恐惧心理比例较大,渐渐地变为对相关部门的愤怒主导,这也比较符合人们的认知常识。 6 结语 本文介绍了网络舆情分析的背景和现实需求,引入了一种可视化分析的思路。然后,基于前述方法进行了一个完整实验,从而为我们方法的可行性和有效性进行了验证,也提供了实践方面的依据。文章所涉及的工作还有几方面需要进一步研究,如可视化模型中更为丰富的图形映射集、关联规则中的因果函数的有效获取、数据接口设计的完备性等。标签:关联分析论文; 网络舆情论文; 数据可视化论文; 舆情分析论文; 文本分类论文; 文本分析论文; 网络模型论文; 分类数据论文; 主题模型论文; 聚类论文; 数据分析论文;