面向突发事件的网络用户画像情感分析 *
——以天津“8·12”事故为例
任中杰 张 鹏 兰月新 张 琦 夏一雪 崔彦琛
(中国人民警察大学 廊坊 065000)
摘 要: [目的/意义] 作为突发事件舆情演变的重要途径,微博的集群性、突发性、爆炸式传播特性给舆情管控造成了巨大的压力,在舆情发生时及时预测和把握每个用户情感倾向,有助于进行针对性的舆情引导。[方法/过程] 提出一种基于微博情感分析和用户画像的突发事件情感预测模型。运用爬虫技术建立用户画像,通过贝叶斯分类器对评论文本进行情感分析,并对情感倾向的影响因素作相关性分析,最后在采用word2vec和one-hot编码处理特征的基础上,采用梯度提升树算法,以粉丝数、关注数、评论时间、性别、年龄、地址、学历等用户画像特征作为自变量,预测公众情感倾向度。最后以天津“8·12”事故为例,建立模型进行分析验证。[结果/结论] 结果表明,模型预测结果基本符合实际情况。模型可以为精准到个人的分类舆情引导策略提供辅助,为舆情危机应对决策提供理论支撑。
关键词: 微博;舆情;用户画像;情感分析;情感预测
0背 景
随着网络迅速发展,以微博为主的社交传媒平台逐渐成为突发事件舆情发展、演变、传播的主要空间。据统计,2018上半年中国微博用户规模为3.37亿人,与2017年末相比增长2 140万人,在整体网民数量中微博用户比例达到42.1%。微博用户的情感表达能够迅速感染其他用户的情绪,导致舆论的爆发。在杭州保姆纵火案、上海靖安区火灾、天津港“8·12”爆炸事故的舆情演化中,微博都扮演了重要角色。然而突发事件产生后,由于信息传播的不平衡,虚假信息和谣言涌现,出现意见领袖主导民意、不实信息大量传播的现象。官方媒体和政务微博回应滞后,在微博舆情应对中失去优先话语权。在微博中,具有负面和极端情绪的评论容易引发其他用户共情,因此更容易得到广泛传播,在应对措施不及时的情况下,负面情绪集中爆发,产生网络谣言和舆情危机[1]。
如能在突发事件中,提前对微博用户情感倾向进行及时准确地预测,就能把舆情管控的关口前置,起到防范舆情风险的作用,对不同用户制定针对性的舆情引导策略,防范舆情危机的出现[2]。
2.1 BMI对肝癌术后OS的影响 Kaplan-Meier分析显示,在388例HCC患者中,消瘦组、体质量正常组与超重肥胖组的中位生存时间分别为21、66、81个月;在208例ICC患者中,消瘦组、体质量正常组与超重肥胖组的中位生存时间分别为8.3、18、26个月。
本文基于情感分析和提升树算法,用贝叶斯分类器进行情感分析得到用户情感倾向度,与网络爬虫获取的用户信息共同构成用户画像,通过相关分析方法分析用户个人信息对其情感倾向度的影响大小,最后采用GBRT梯度提升树对用户情感倾向进行建模训练,最终达到预测用户情感倾向的目的。
2.2.2 混合对照品溶液的制备 精密称取龙脑对照品、水杨酸甲酯对照品各适量,加乙酸乙酯溶解,制成含龙脑、水杨酸甲酯质量浓度均为0.1 mg/mL的混合对照品溶液。
1国内外研究
目前,针对舆情情感预测的文献多是群体情感趋势的预测,通过时间序列和灰色预测方法,预测未来公众情感倾向短期变化趋势。如杜智涛等通过建立灰色预测模型进行网络舆情预测[3];钱爱玲等采用多时间序列关联规则分析论坛趋势[4];王努努采用ARIMA模型和BP神经网络结合进行情感倾向预测[5];张和平等建立了一种改进灰色Verhulst的马尔可夫模型预测舆情发展[6];黄亚驹等人通过遗传算法和粒子群算法优化的BP神经网络对“萨德”事件舆情时序数据进行预测[7]。
当前舆情预测的研究,多采用时间序列方法,预测对象是百度指数或是公众平均情感倾向。时间序列使用简单,体系成熟,在舆情走势变化平稳时,能很好地预测公众平均情感短期趋势。然而,舆情复杂多变,群体差异大,时间序列难以进行长时期预测;同时预测的目标是公众平均情感,不能反映群体情感中的情感倾向分布情况,无法预测群体成员每个人的情感,因此不能有针对性的对每个用户的情感倾向分阶段进行针对性的预测引导。此外,用户自身属性,如学历、年龄、性别、粉丝数目、关注人数等身份特征和微博活跃情况等属性,对于用户情感倾向往往有很大的影响,而在时间序列预测中无法体现。
实验中,实验班以团队为单位整体作战,考核评定中,要想取得个人好的成绩必须帮助团队其他成员也取得好成绩,此时团队凝聚力最高。对照组中,传统教学的考核评定以学生个人的考核成绩为主,评定结果分为优、良、中、合格、不及格五个层次,大家只关心自己,同学之间容易孤立;当同学在考核中出错,同学之间会出现取笑和指责,很难形成好的群体凝聚力。
用户画像是现实生活中真实用户的虚拟代表,是一个从海量数据中获取的、由用户信息构成的形象集合,目前对于用户画像的研究广泛应用于广告精准营销投放[8-10]。用户画像分为静态和动态两类,其中静态画像是用户的基本信息,短期内不会变动,建立后无法修改。动态画像需要动态采集用户信息,利用贝叶斯函数、神经网络等技术,建立用户偏好的动态模型[11]。通过用户画像可以建立用户个性特征信息库,有针对性的进行广告投放、商品推荐。目前将用户画像的数据用于精准舆情引导的研究十分稀缺。在突发事件相关的微博评论信息中,可以看出用户情感倾向存在一定的规律性和集群性,即性别、年龄、学历等特性相似的用户对突发事件情感倾向接近。
通过这次活动,山西省孝义市中和路小学将遵从传统仪规,以礼乐致敬先贤,吟诵经典,传承礼仪,在中和这片沃土上,人人争做“中允明德,和协至善”的好少年!
因此,本文试图通过爬虫获取静态用户画像,利用朴素贝叶斯方法计算得出情感倾向度作为动态画像属性,构建用户画像库。通过GBRT梯度提升树,利用画像属性,预测用户每个阶段的情感倾向。
2基于用户画像的突发事件微博舆情情感预测模型构建
2.1研究方法 鉴于情感预测研究目前尚存在不足,为了更准确地预测舆情空间中每个用户的情感,进行针对性舆情引导,本文建立了基于用户画像的突发事件微博舆情情感预测模型。模型中涉及的研究方法如下。
a.网络爬虫。爬虫是一种从网页数据进行数据批量化搜索和下载的计算机脚本[12-13]。微博数据爬取过程需要涉及到微博的模拟登陆、模拟翻页等操作,因此需要专门编写针对微博的爬虫进行舆情微博评论信息和用户信息的数据爬取。
b.自然语言处理。自然语言处理是通过计算机和数学对自然语言进行分析的一门学科,包括分词、关键词识别、情感分析、向量化表示等。现有的分词算法可分为三大类:基于词典的方法、基于统计的方法和基于规则的方法[14]。结巴分词是目前操作简单、分词效果较好的中文自然语言处理模块,本文采用结巴分词进行评论文本分词。本文采用的文本编码模型Word2vec是一种把文本向量化表示的模型,通过word2vec计算得出的词向量可以有效反映词语上下文含义,被自然语言处理领域广泛使用[15]。
c.机器学习方法。朴素贝叶斯和GBRT是机器学习的重要算法。采用朴素贝叶斯分类器,依据贝叶斯公式可以对舆情评论文本进行情感分析,得到的情感倾向数值可以作为用户画像数据,用于训练GBRT预测模型[16]。梯度提升树(GBRT)算法,通过迭代多棵回归树来共同决策,将弱学习器提升为强学习器,具有良好的泛化特性[17]。
d.相关分析。相关分析可以对事物之间的关系进行分析。相关分析往往采用相关系数分析变量之间相互关联性。简单相关系数定义为:
(1)
其中,n 为样本量;x i 和y i 分别为两分析变量的变量数值。
内容包括:(1)数学概述:数学史,数学美,数学名著,数学家,世界数学大奖和数学家大会;(2)数学问题:海岸线的长度问题到数学上的分形几何,哥尼斯堡七桥问题到数学上一笔画问题,斐波那契数列和黄金分割,阿基里斯永远也追不上乌龟的有限与无限问题等;(3)数学典故:历史上的3次数学危机,希尔伯特的23个数学问题,韩信点兵与中国剩余定理,田忌赛马与运筹学,悖论等;(4)数学应用:数学与文学的关系,数学与绘画的关系,数学与体育的关系,数学与生物学的关系,数学与经济学的关系等。
检验统计量采用t 统计量,定义为:
(2)
可以计算简单相关系数、t 检验统计量的观测值和对应的概率值。
2.2模型流程图 为了直观显示情感预测模型的构建流程,做模型流程图。如图1所示,流程包括了用户画像数据获取、预处理数据、评论文本情感倾向分析、相关分析、GBRT算法训练、情感预测与舆情引导6个阶段。
a.爬取数据。GBRT机器学习通过训练用户画像数据得到预测模型。需要获取两类数据,一是微博评论文本数据,二是评论者个人画像数据,包括性别、年龄、粉丝数、地域、教育水平等。
住院医师规范化培训是国际通行医学教育体系中承上启下的必经阶段,是毕业后医学教育的重要组成部分。“国际通用的住院医师培训方式,会有效提升全社会医生的品质,对于医生个人发展,也打下了扎实的基础,还会缓解基层人才匮乏的状态。”山东大学齐鲁医院(以下简称“齐鲁医院”)院长李新钢认为,对医疗行业来说,住院医师规范化培训为各级医疗机构培养和输送经过规范化培训的合格医师,有效提升医疗行业水平,特别是基层整体的质量和水平,从根本上解决了医疗资源配置不均衡的问题。
b.预处理数据。爬虫爬取的数据存在缺失、重复,部分数据无效。因此,需进行数据预处理。删除缺失数据、无关数据和异常数据,对重复数据进行去重处理。为了方便日期数据的处理,新设属性变量“ID”,代表评论日期距突发事件发生的天数。清洗后的数据用csv格式存储。
c.情感分析。采用python自然语言处理类库可以进行中文文本数据处理。首先将评论文本分词处理,依据停用词表去除停用词,避免无关词汇干扰。抽取部分数据进行人工情感倾向标注,之后将这些样本作为训练集,编写朴素贝叶斯分类器进行训练,依据贝叶斯公式得出所有评论文本的情感倾向度,情感倾向度越高,则越接近于正向情感,否则越接近于负向情感。
图 1模型流程图
d.相关分析。为直观显示用户画像变量对情感倾向影响程度大小,进行相关分析。首先预处理数据。对定类型数据如性别,可以采用one-hot方法转化为词向量。对文本数据,如个人信息数据,用python的gensim包,利用内置的word2vec模型转化为词向量。最后用pearson相关系数判定各因素对情感倾向影响。
e.GBRT模型训练。经过数据预处理和词向量化处理,将用户画像变量(包括性别、年龄、所在地、学校/公司、粉丝数、点赞数、关注数、用户前一阶段情感状态、群体平均舆情情感倾向、昵称)等信息作为输入数据,将朴素贝叶斯分类器得到的情感倾向度作为输出,输入到GBRT模型中,训练梯度提升树模型。
f.舆情预测与引导。将部分样本数据,输入到模型中进行情感倾向预测,对步骤(5)得到的模型进行验证。对预测得出的不同情感倾向的用户进行针对性的舆情引导。
3天津“ 8· 12”事故情感态势演化分析
分析天津“8·12”危化品事故,检验和验证模型。
2015年8月12日,天津市滨海新区发生危化品爆炸事故,在微博上产生巨大影响,连续数天登顶微博热搜榜。相关舆情信息真假不一,网民情绪复杂多变,负面网文四起,引发了严重的舆情危机。由于回应不及时、官方信息发布不当引发次生危机,网络谣言大批涌现,对政府公信力造成一定冲击[18-19]。
在公众情感倾向出现变动之前,若能利用用户画像数据,对用户提前进行情感倾向预测,就能提早对具有不同用户画像特点的用户进行针对性引导,让负面情绪的用户正确认识舆情,有助于政务微博媒体提前掌控情况,把握主动权,避免舆情失控。
3.1数据爬取和预处理 首先在微博搜索中,爬取热度最高的10条微博评论数据,包含了人民日报官方微博、中国消防官方微博等多家政务微博评论和部分大V的微博发帖信息。在爬取评论信息的同时,进入评论者的微博主页,对其个人画像属性进行二次爬取。删除缺失、重复、无关数据。例如某明星发布的微博中,有许多粉丝崇拜等无关内容,予以删除。处理后的数据剩余15 164条。数据包含了性别、年龄、所在地、学校/公司构成的画像静态属性和粉丝数、点赞数、关注数等构成的用户画像动态属性。
3.2情感分析 为了训练梯度提升树,首先需要获得用户的情感标注数据。依据已有文献,可以通过朴素贝叶斯分类器对微博评论的情感正负进行分类。依据情感热度可以将舆情发展阶段分为4个阶段,如图2所示,1~2天作为高热期,舆情发生第3~85天为持续期,86~661天为舆情反复出现期,661天至今为舆情消退期,前一阶段的情感倾向会影响到用户下一阶段情绪[20]。
图 2情感热度随时间变化面积图
以评论“祈福天津,我们坚定支持你们”为例,将正向情感记为S,负向记为N,计算:
P(S|"祈福","天津","坚定","支持")∝
(3)
P(N|"祈福","天津","坚定","支持")∝
综上所述,本文针对于肇庆广宁配电线路的实际情况,基于暂态录波技术所建立的暂态录波式配电线路监测系统,在肇庆广宁建立配电线路状态监测分析及故障定位系统中,线路状态在线采集装置获取信息、数据,建立健全的网络架构、海量信息的智能管理和多级数据的高效处理能力,实现对配电线路运行参数的智能在线监测,通过对这些信息进行实时或周期性的分析诊断,把握故障位置,分析故障发生的特征,形成有效的故障定位、故障诊断消息推送给相关运维人员,对于肇庆广宁地区配单线路的运作状态建设具有十分显著的提升效果值得推广使用。
(4)
在舆情发生的第1阶段,对编号10 185的用户4个阶段的情感进行预测。通过爬虫获取用户画像属性信息,包括(发布来源,粉丝数,性别,昵称,年龄,所在地,所在学校),其画像数据如图13所示。计算该时段全部用户平均情感倾向为0.45,中性情绪。10185用户只在舆情第二阶段和第四阶段进行了评论,对前一阶段(即第一阶段)未进行评论,因此取前一阶段平均值作为该用户平均情感倾向度。将这些属性输入GBRT模型中进行预测,得到该用户在各个阶段的平均情感倾向,如图15所示。对用户第四阶段的情感预测数值为0.51,接近真实情感数值0.44,第二阶段预测数值为0.20,与实际情感数值0.19相接近。从图14可以看出,预测曲线与实际曲线变化趋势基本接近,模型可以有效预测用户情感变化。
膝关节骨性关节炎是关节的退行性病变及关节软骨破坏引起的慢性关节炎症性疾病[8]。对于保守治疗无效的患者,关节镜下清理术是安全有效的手术方式[9-10]。主要通过清理关节内的滑膜增生、软骨剥脱,冲洗掉关节腔内的炎性因子,从而缓解患者疼痛。膝关节骨性关节炎患者采用关节镜手术治疗,手术主要通过绕髌骨内缘的膝关节内侧切口、将滑膜绒毛样凸起部分和纤维变性的条索尽量切除干净、摘除关节内游离体、咬除及骨凿凿除骨赘,从而达到缓解患者临床症状的目的。但患者术后膝关节活动受限,且手术后不进行有效的康复训练不能达到患者治疗的最佳效果,所以临床上安全、有效的康复训练对患者预后尤为重要。
P("祈福","天津","坚定","支持"|S)∝P("祈福"|S)*P("天津"|S)*P("坚定"|S)*P("支持"|S)
(5)
将式(3)与式(4)的比值作为情感倾向度,部分结果如图3所示
在燕麦出苗后,选取长势一致的10个植株,每7 d调查记录叶长、叶宽及物候期。成熟后对各个小区标记的10个植株进行考种,调查每株穗数、穗长、穗粒数、穗粒重、千粒重等穗部性状以及株高、叶片数、和分蘖数等农艺性状。
图 3朴素贝叶斯预测模型结果
c.相关系数分析。采用相关系数分析,表2是通过显著性检验的变量,为直观显示相关性大小,如图10所示。
3.3建立用户画像 通过贝叶斯分类器得到全部评论信息的情感倾向数值,建立滑动窗口计算群体平均情感倾向数值,滑动窗口宽度定为6天,即每隔6天计算得到该段时期内网民平均情感倾向。由于用户情感变化具有连续性,因此预测用户情感需要考虑用户在舆情发展前一阶段的情感倾向。将用户在预测时间点前一阶段的情感倾向数值取平均值,作为其中一个用户画像属性,若缺失,则采用整个阶段群体情感平均数值代替,建立完整的用户画像,包含性别、年龄、所在地、学校/公司构成画像的静态属性和粉丝数、点赞数、关注数、群体平均情感倾向和用户前阶段情感倾向数等构成的用户动态属性,静态属性和动态属性共同构成用户画像内容,如图4-a和图4-b所示。
图 4-a用户画像静态属性
图 4-b用户画像动态属性
对不同性别绘制琴形图,如图9所示,其中f表示女性,m表示男性。男性和女性评论情感倾向密度均出现三个峰,即极端负面情绪(接近于0)、极端正向情绪(接近于1)和中性情绪(接近0.5)。女性的平均情感倾向(0.58)要较男性(0.51)略高,且女性中性情绪和积极情绪比例略高。但从总体来看,突发事件舆情分析中,性别不是显著的特征指标。
图 5用户画像举例
3.4.1 模型训练 将情感倾向度作为预测目标,利用GBRT进行回归分析建模,每次利用损失函数负梯度代替残差拟合下一棵决策树,在多棵回归树决策集成基础上,得到舆情情感倾向度预测模型。学习率定为0.1,决策树数目定为100棵,采样的子集占总体比例0.8,进行训练。
a.数据编码预处理。将用户画像中的性别变量进行one-hot编码。将百度百科、搜狐新闻和小说数据输入word2vec的训练模型,将用户个人信息、学习/工作所在地、昵称、发布来源用训练好的word2vec模型转化为64维的词向量,用于后续的分析处理。
b.定性分析。首先对数据进行画像属性可视化。可视化图表可以得出天津8·12事故中评论者的画像属性分布特点。评论用户中女性比例(66.22%)较男性比例(33.78%)明显要高,表明女性对突发事件关注度更高;年龄分布中,17~28岁年龄群体比例(72.58%)和29~37年龄群体比例(18.24%)最多,是舆情来源主体,即舆情年龄分布呈现90后和80后集中趋势。对省份的分布作图,如图6所示,地域分布中,京津一带及江浙沪一带、四川、广东中关注群体最多,原因是地区经济发达,微博使用频率高。一些区域经历过类似的大型突发事件(如四川2008年地震,广东危化品爆炸事故多发),人们更关注突发灾害事故。
图 6分省评论数目
影响情感倾向的因素包括了舆情发展阶段、用户所在地、用户性别、年龄等,甚至用户昵称取名也反映了用户性格爱好信息。对部分影响因素采用统计学方法做定性分析。
没有完善的程序,检察机关就可能既要面对对“检察优势”的忧虑又要面对对监督效果不彰的质疑。前文的论述主要是对民事诉讼法律监督程序的方向性预测。整合现有制度、以最小社会成本发挥法律监督作用的程序细节尚待思考。可以预见的是,制度的整合与过程的透明,将是程序设计的重心。
模型仍然有较大的提升空间。可以在后续的工作中收集更多的用户画像属性,以提升预测准确度。在此基础上,在重大灾难发生前后,利用GBRT模型针对全网微博用户做出情感倾向度预测,可以向不同人群类型发布针对性引导信息,引导舆情正确演变。
图 7平均情感倾向随时间变化曲线
绘制男性和女性评论词云,如图8所示。两者关注内容存在不同,男性更关注突发事件事实,在评论词云中,除了英雄、消防员、牺牲等词云,还有爆炸、天津、核生化、应急等事故信息内容;女性更倾向于表达情感,包括祈福、加油、逝者安息、帮忙等关键词。
以某昵称为“Mr_石头”的用户为例,该用户先后在8.14~8.16期间针对天津“8·12”事故评论4次,对其8.15当天的情感倾向进行预测。则可以构建用户画像如图5所示。
图 8男性用户和女性用户词云
图 9用户情感分布琴形图
对不同情绪的用户粉丝数进行统计分析。如表1所示,不同情绪的用户,粉丝数中位数相近,但均值差别大。主要差别在于微博大V的参与,部分微博大V的情感倾向呈现积极情绪,拉高了积极情绪用户的粉丝数平均值。即粉丝数目一定程度上反映情感倾向。
表 1不同情绪的用户粉丝数分布
由图3所示,偏激评论的情感倾向值较小,接近于0,而评论信息如“祈福”,“英雄”等情感倾向度则更接近于1。可以认为,在可接受的误差范围内,情感倾向计算符合认知。
表2 不同特征变量与情感倾向度之间的相关系数
图 10各个画像属性变量同情感倾向相关性
具有明显相关关系的是用户前一阶段情感倾向emtion_before、评论时距离事件发生的天数ri、当前群体平均情感倾向emotion_average等变量,存在较强的正相关,除此之外,用户关注的人数、性别、个人信息也存在弱相关。此结果表明,情感倾向会在事件发生之后,随时间有正向变化的趋势。即在灾难性事故发生前期负面情绪较多,之后,随时间变化,情绪逐渐趋于中性。因此情感受时间影响最大。此外,由于存在网络共情、从众心理,公众平均情感倾向度也对个人情感倾向有正向影响。
3.4情感倾向度相关分析建模
3.4.2 模型效果评价 衡量回归模型误差可采用MSE和MAE表征。MSE是均方误差,计算表达式为:
(6)
MAE是指平均绝对误差,即绝对误差的平均值,计算公式为:
(7)
最终得到MAE数值为0.2672,MSE为0.1006,在误差允许范围内,认为模型结果可靠。
为研究用户前期情感对后期情感的影响,对每日公众平均情感倾向作图分析,如图7所示。平均情感倾向度数值大于0.5时判定为正向情绪,小于0.5判定为负向情绪。由图7可以看出,负面情绪出现具有时间聚集性,集中在图中阶段Ⅰ、阶段Ⅱ阶段Ⅲ的时间段,可见用户前期情感会对其后期情感产生影响。
3.5模型结果分析 对用户画像信息进行预处理和编码之后,用GBRT模型对舆情发展中每个用户的情感倾向进行预测。本文抽取数据库其中7人的画像属性进行情感倾向预测。为了避免泄漏用户信息,此处对用户昵称信息予以处理,抽样对象的个人信息如图11所示。
图 11抽样用户信息表
如图11所示,qinggan属性为用户在事故发生后在各阶段采用贝叶斯分类器得到的真实情感倾向,predict属性变量是在用户评论信息未知的基础上,采用用户画像属性,运用GBRT模型预测得到的结果。将预测结果与实际结果作散点图进行对比,如图12所示。
图 12实际情感数值和预测数值散点图
总体上看,7个预测值与实际评论的情感倾向计算值虽有偏离,但在可接受范围内。因此可以在舆情发生初期,针对这几个用户进行针对性的舆情精准引导。
假设词语之间独立,得到:
图 13编号 10185用户画像
在舆情发生初期,可以采用模型,利用用户画像属性进行情感倾向预测,从而可以预测各个用户在舆情各阶段的情感走向,进行精准到人的分类舆情引导。如对该编号10185的用户,在舆情发展初期,预测到用户在图14舆情发展第二阶段情绪可能出现大幅度下滑,产生负面情绪,对事故处理产生质疑。同时从第二阶段网络关键词云进行分析,该阶段词云除了“英雄”“牺牲”等词外,还出现了较多真相、领导、负责等词汇,表明了人们对于事故追责的关注[20]。因此要及时对该用户进行舆情引导,向其推送国家事故处理政策和事故处理最新进展的新闻,引导用户规避网络不实负面评论的影响。同时该用户画像中,身份属性是大学生,如果网络中大量学生类型的用户出现负面情绪,还应该加强高校新闻舆情引导力度,从线下入手,通过线上群体识别,线下群体舆情引导,规避网络舆情风险。该用户粉丝数达到7874人,粉丝数较多,因此及时进行用户情绪引导,可以防止舆情情绪通过其粉丝群体进一步在网络中传播扩大。最后,可以通过向该用户关注的微博用户推送引导信息,进一步引导舆情正向发展。
此外,果树栽培过程中为了确保果树生产出有机水果,除了种植地达到上述要求之外,还有更为严苛的选择标准。一般情况下,果树种植基地近三年内不能够使用农药化肥,所选择的果苗为非转基因植物,生产单位需要建立长期的土地培肥植物保护计划,生产基地内部不存在水土流失和其他环境问题。从种植其他作物转变为有机果树栽培时,需要两年以上的轮换期。
图 14模型预测情感倾向与实际数值对比
3.6对策建议 根据舆情分析结果,发现用户情感倾向同舆情发展演变时间以及用户画像信息有关,用户画像的各项指标一定程度上反映出用户的个性特点和知识层次,因此用户对待某一事件的态度会有不同反应。采用本文提出的情感倾向预测模型,可以提前预知用户对突发事件的情感倾向性,有针对性地对用户进行舆情引导。
a.预先舆情情感预警。例如3.5节所示,对编号10185的用户进行建模预测,可以在舆情发展第一阶段预测该用户在后期情绪变化。通过用户画像建立的情感倾向预测模型能在舆情情绪初期,预测下一阶段舆情空间中每个用户的情感倾向,掌控整个网络中每个用户的情感走向,建立舆情情感预警机制,结合热词词云,在舆情危机出现之前,官方媒体可以提早针对性的应对舆情风险。
b.分类舆情引导。由3.4节相关分析得到的结论可以看出,个人情感与公众平均情感相关性很高,即网络中他人情绪会影响到某一用户的情感。通过前文3.2节所示的贝叶斯分类器进行文本情感预测,针对评论文本积极情感的用户,将其微博放置于其粉丝的关注微博置顶之中,利用社交的网络化传播特性,通过其粉丝扩大正向情感阵地。对消极情感的用户,则需更多推送相关法律法规和专家解读、媒体看法,引导其正确进行舆情评价,同时对于大量负面情绪的用户予以限制和封号。中性情感用户是舆情中的主体,容易情绪波动,这部分人群要及时向其推送好友中的正向情感微博,政务媒体微博应加强引导。
c.关注舆情空间年龄结构。从图6-b可以看出,天津“8·12”事故中舆情空间中18~37岁的用户占绝大比例,可见80后、90后是该事件网络舆情主体,因此建立用户画像,识别年龄特征之后,舆论宣传应针对群体特点,采取合适手段引导。如采取更适合年轻人的抖音、微视频、快手等平台、运用灵活多样化的方式,如90后喜闻乐见的漫画、动画展开宣传。
d.关注身份信息和大V角色。图4-a构建的用户画像中包含年龄、性别,学历和粉丝数、关注数等信息。关注数和粉丝数能有效反映一个人在微博中活跃程度。其中粉丝数目能有效识别出粉丝数大于某个阈值的用户为大V,该类用户的情绪往往通过庞大的粉丝数目传播,对网络空间舆情产生显著影响。因此识别大V,并有针对性对其进行不同阶段情感进行分析和针对性的引导,有助于规范网络空间。另外身份信息中包含的学校信息、工作地点信息也确定了用户主体的身份,可以据此针对性地向学生和求职者推送与其身份密切相关的信息。针对具体的单位和学校信息,还可采取线上识别群体聚集趋势,线下实地引导宣传方式。
e.关注地域集中特性和性别趋势。从图6-a和图9可以看出男性和女性关注程度、关注焦点存在差异。女性关注焦点更多集中在情感表达,需要采用更多情绪化的推送引导。男性更关注事实,需要摆事实、讲道理。在北上广等微博普及率高的地区和曾发生类似突发灾难事故的地区,人们更关注该类事故。可以通过类比之前灾难事故处置案例,详细说明国家政策和法律法规,澄清网络谣言,保持舆情空间稳定。
4讨论与结论
4.1讨论 由于微博舆情复杂多变,影响因素众多,在研究中不可能面面俱到,有必要对现实情况做一定的假设抽象,才能建立理想化的模型。因此本文所做的工作基于一定的假设,在以下假设基础上,本文结论成立:
a.分析时段内微博删帖不多,未明显影响到本文的主体分析工作;
用二甲基二硫代氨基甲酸钠或二乙基二硫代氨基甲酸钠与重金属离子反应生成沉淀物时,在有配位剂存在的情况下,沉淀反应受pH的影响较大[7-8]。化学镀镍溶液中含有的柠檬酸的配位能力随pH升高而增大;二甲基二硫代氨基甲酸钠或二乙基二硫代氨基甲酸钠在酸性条件下能转化成对应的酸,其对镍离子的沉淀能力随 pH降低而减小。因此,用这两种螯合剂沉淀化学镀镍废水中的镍离子时需要找出合适的pH范围。
b.微博用户的个人信息均真实有效;
(1)(2)中的这些恒等式就是3阶幻方中常见的一次恒等式了.接下来,我们就要以这些一次恒等式为基础建立二次、三次恒等式.
c.抽取的评论样本可以充分反映微博全部评论信息的特点。
4.2结论 综上,通过爬虫获取突发事件微博评论数据,在对数据清洗和预处理之后,经过编码和中文分词,通过贝叶斯分类器进行情感倾向判定,利用统计分析和相关性分析发掘舆情规律。在此基础上,将得到的情感倾向度作为预测目标,以用户画像数据和舆情进展时间作为变量,训练梯度提升树进行用户情感预测。最后采用天津“8·12”爆炸事故为例进行分析,对相关事件中的用户进行情感预测以检验模型。经验证,模型可以有效地针对微博用户进行情感预测,为突发事件中针对不同情感倾向的用户进行分类舆情引导提供有力支撑。
参考文献
[1] 张 鹏,李昊青,兰月新,等.基于BP神经网络的突发事件网络谣言危机预警[J].电子政务,2016(11):40-47.
[2] 兰月新,刘冰月,张 鹏,等.面向大数据的网络舆情热度动态预测模型研究[J].情报杂志,2017,36(6):105-110,147.
[3] 杜智涛,谢新洲.利用灰色预测与模式识别方法构建网络舆情预测与预警模型[J].图书情报工作,2013,57(15):27-33.
[4] 钱爱玲,瞿彬彬,卢炎生,等.多时间序列关联规则分析的论坛舆情趋势预测[J].南京航空航天大学学报,2012,44(6):904-910.
[5] 王努努,张伟佳,钮 亮.基于ARIMA和BP神经网络模型的舆情情感预测[J].电子科技,2016,29(5):83-87.
[6] 张和平,陈齐海.基于灰色马尔可夫模型的网络舆情预测研究[J].情报科学,2018,36(1):75-79.
[7] 黄亚驹,陈福集,游丹丹.基于混合算法和BP神经网络的网络舆情预测研究[J].情报科学,2018,36(2):24-29.
[8] 刘海鸥,孙晶晶,苏妍嫄,等.国内外用户画像研究综述[J].情报理论与实践,2018,41(11):155-160.
[9] Amato G,Straccia U.User profile modeling and applications to digital Libraries[C]// European Conference on Research and Advanced Technology for Digital Libraries.Springer-Verlag,1999:184-197.
[10] Quintana R M,Haley S R,Levick A,et al.The persona party: Using personas to design for learning at scale[C]// CHI Conference Extended.2017:933-941.
[11] 周朴雄,张兵荣,赵龙文.基于BP神经网络的情境化信息推荐服务研究[J].情报科学,2016(3):71-75.
[12] Brian Pinkerton,Edward Lazowska,John Zahorjan.Webcrawler: Finding what people want[J].2000.
[13] Ahmadi-Abkenari F.An architecture for a focused trend parallel web crawler with the application of clickstream analysis[J].Information Sciences,2012,184(1):266-281.
[14] Sproat R,Emerson T.The first international Chinese word segmentation bakeoff[C]// Sighan Workshop on Chinese Language Processing.Association for Computational Linguistics,2003:133-143.
[15] 周 练.Word2vec的工作原理及应用探究[J].图书情报导刊,2015(2):145-148.
[16] 李静梅,孙丽华,张巧荣,等.一种文本处理中的朴素贝叶斯分类器[J].哈尔滨工程大学学报,2003,24(1):71-74.
[17] 李 航.统计学习方法[M].北京:清华大学出版社,2012.
[18] 刘怡君,陈思佳,黄 远,等.重大生产安全事故的网络舆情传播分析及其政策建议——以“8·12天津港爆炸事故”为例[J].管理评论,2016,28(3):221-229.
[19] 肖 峰,郭傲寒.政府舆情危机应对的短板及解决路径——以天津港爆炸事故后政府新闻发布会为例[J].武陵学刊,2015(6):119-123.
[20] 任中杰,张 鹏,李思成,等.基于微博数据挖掘的突发事件情感态势演化分析——以天津“8·12”事故为例[J].情报杂志,2019,38(2):140-148.
Emotional Tendency Prediction of Emergencies Based on the Portraits of Weibo Users ——Taking "8 ·12 " Accident in Tianjin as an Example
Ren Zhongjie Zhang Peng Lan Yuexin Zhang Qi Xia Yixue Cui Yanchen
(China People's Police University,Langfang 065000)
Abstract :[Purpose /Significance ]As an important approach to the evolution of public opinions in emergencies,weibo,by which people can gather together quickly on the internet,can propagate information quickly. These features of weibo add to the difficulties of the decision-making progress in the government guidance of the public opinions. Thus it is helpful to timely predict each user's emotional tendency as emergencies occur.[Method /Process ]In this paper,an emotion prediction model based on weibo emotion analysis and user portrait is proposed. Gathering user data through crawler technology from weibo,then using simple Bayesian classifier to obtain emotional tendency,we carried out correlation analysis on the factors influencing the emotional trend of public opinions. Finally,after the preprocessing of the data with the model of word2vec and one-hot,using GBRT model,we carried our model. In the model,we used several variables,including the number of a person's followers and people he is following,date of the discussion,gender,age,address and other personal information as independent variables,to predict the public emotional tendency. At the end of the paper,taking 8·12 accident in Tianjin as an example,we carried out model validation.[Results /Conclusion ]The results show that the prediction are consistent with the actual situation. The model can assist us to make strategy on how to guide each one's internet behaviors and perception when emergencies happen.
Key words :weibo;public opinion;user portraits;emotional analysis;affective forecasting
收稿日期: 2019-04-11
修回日期: 2019-06-23
基金项目: 教育部人文社会科学基金“面向突发事件的网络流言风险预警及对策研究”(编号: 17YJC630214);全国统计科学研究重点项目“舆情大数据环境下突发事件民意监测与评估研究”(编号: 2017LZ37);河北省重点研发计划项目“基于舆情大数据的网民情感态势感知与预测技术研究”(编号: 18215601);河北省科技计划项目“重大自然灾害网络舆情发展态势与对策研究”(编号: 17456214);河北省统计科研计划项目“基于大数据的网民情感建模与决策支持研究”(编号: 2018HY04) 。
作者简介: 任中杰 (ORCID: 0000-0001-8326-6426),男,1995年生,硕士研究生,研究方向:网络舆情研究;张 鹏 (ORCID:0000-0002-8664-5058),男,1981 年生,博士,副教授,研究方向: 网络舆情;兰月新 (ORCID: 0000-0002-4791-5094) ,男, 1981年生,副教授,硕士生导师,研究方向: 网络舆情;张 琦 (ORCID: 0000-0002-0661-3727),女,1982年生,硕士,副教授,研究方向: 网络舆情;夏一雪 (ORCID:0000-0002-8044-0553),女,1983年生,博士,副教授,研究方向: 网络舆情;崔彦琛 (ORCID: 0000-0001-9541-8255),男,1994年生,硕士研究生,研究方向:消防救援与风险管理研究。
通信作者: 张 鹏
中图分类号: TP391.1
文献标识码: A
文章编号: 1002-1965( 2019) 11-0126-08
引用格式: 任中杰,张 鹏,兰月新,等.面向突发事件的网络用户画像情感分析[J].情报杂志,2019,38(11):126-133.
DOI :10.3969/j.issn.1002-1965.2019.11.019
(责编:贺小利;校对:刘武英)