大数据环境下网络舆情演化规律及预警模型问题探讨
侯学慧
(新疆警察学院 新疆乌鲁木齐 830001)
内容摘要: 大数据环境下的网络舆情事件可以分为突发型、持续型、混合型等几类。通过对网络舆情真实案例的数据提取、挖掘、分析,可得到结构化数据,在此基础上,再对新闻报道量与时间序列的离散点进行函数拟合——基于多项式函数拟合,可建立预警数学模型。利用其图像特征分析所得出的突发型舆情事件符合指数函数分布,持续型舆情事件符合多峰值的高斯分布函数,混合型舆情事件符合分段函数的概率分布特征。据此有助于做好网络舆情监控、对策制定、预警机制建立等工作。
关键词: 函数拟合;多项式函数;最小二乘法;相关系数
一、问题提出
在大数据环境下网络信息和舆论信息的监管及正确引导是非常重要的,保护好我们祖国、人民群众的安全是我们警察的使命和义务。网络舆情是指由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合[1]。我们生活在一个突发事件频发的大数据网络时代下,突发事件是指突然发生,造成或可能造成严重的社会危害,需要采取应急处置措施予以应对的公共事件[2]。突发事件的网络舆情演化是指“没有对事件源和次发生事件进行人工应急干扰的原扩散路径”[3]。突发事件爆发后,一定会引起网络舆情发生,在各种网络平台上信息快速传播和蔓延下,政府部门要发挥常规的传播模式的效力,还要积极有效的给予矫正型的传播影响作用,才能更好有效地控制网络舆情发酵。为此,必须要做到日常网络舆情的预警、完善舆情监管监督机制、加强舆情的导控。
目前对网络舆情的预警机制的定量研究,更多是注重网络舆情的构成因素和因素之间的关系方面,没有对时间序列模式与网络舆情的变化规律上研究更深入。在大数据的网络环境下,只有定量、深层次地分析网络舆情的动态演化过程,分析其函数特征和演化规律,才能针对将要发生的网络舆情做出预警应对。针对现有的网络上热门案例,通过信息提取工作包GooSeeker等信息提取软件,对案例建立事件发生的时间与每天新闻发布数量做函数拟合,得到网络舆情随时间周期的发生、发展、扩散、消亡的动态演化过程,从而建立网络舆情导控和预警机制。
研究者们运用不同的模型和方法对网络舆情演化阶段和构成因素进行分析,建立预警机制,主要包括三方面的研究。一是建立预警指标因素体系,注重于影响舆情变化的关键指标讨论。二是基于情感倾向性分析,这里包括群众的态度是“赞同”“中立”“反对”,从海量信息中,发现潜在的危机隐患。三是基于数据挖掘的预警,这种方法是从网络中提取和目标相关的数据,构成数据集。本文就是基于真实数据,从数据挖掘中找到规律,从而做到更加精确的预警。
大数据环境下网络舆情具有突发性、群体性、不确定性等特征,本文从其特征分析,建立数学模型符合基于多项式函数的数据特征。可以通过已有的国内热门网络舆情案例与实际数据挖掘,建立网络舆情演化模型,分析、量化舆情动态,做好预警模型。分析事件的真实性、敏感度、主题吸引力、发布者影响度、主题聚焦度、舆情观点倾向度、参与度、容忍度、变化频度、突变度等。在大数据环境下建立基于多项式函数的网络舆情预警机制,并用MATLAB软件对预测数据作仿真实验。从而建立网络舆情随时间发展,每个时间段的预警信号及相关参数、关键词、事件的动态演化预警模型。
职业认同高的个体所具有的与职业相关的积极情感能够帮助其克服对恶劣工作条件的不满,会阻碍其离职意向,还有助于同事间合作[3]。因此,保持并提高医护工作者职业认同水平,对我国医疗事业的和谐发展具有重要意义。
二、研究方法与模型
持有、接受、表达某种相同、相似的观点的人在社会人群中所占的比例超过一定的阀值,这时候这种观点就上升为舆论[1]。我们从定量的、模型化的分析大数据环境下网络舆情的演化规律:
ANN指的是通过大量的神经元之间的互相联结和汇通而形成的复杂网络结构,将人脑组织结构和运行机制进行某种抽象、简化和模拟的一种模型。人工神经网络(Artificial Neural Network,简称ANN ),通过搭建数学模型来将神经元的活动进行模拟,是一种通过建立在对大脑神经网络结构和功能进行模仿和模拟而搭建成的一种信息处理系统。
(一)分析网络平台(微博)得到相应的数据背景
多项式函数:形如:的函数,叫做多项式函数,它是由常数与自变量x经过有限次乘法与加法运算得到的。
(二)数据挖掘、分析方法
对于大数据背景下,已有的网络突发案件的客观数据,利用网络爬虫、信息提取工具包Goo-Seeker中的抓取规则和网页信息抓取工DataScraper等,抓取网站的新闻报道数量和相应的时间分布,以及频繁出现的关键词等指标因素[4]。通过DataStudio定义搜索信息属性为url(网页链接地址)、title(新闻标题)、time(新闻发布时间)、num(新闻机构名称以及新闻关注条数)
“平民包子”生意越来越好,排队买包子抢座位已成常态,增加一个人还是忙不过来,老板让收款员也来帮忙,把盛钱的抽屉放到吧台上,让顾客自己把钱放进去。
(三)函数拟合方法-基于多项式函数的网络舆情演化规律
对通过信息抓取的获得的数据进行挖掘、分析,我们知道突发事件的网络舆情新闻报道数量(普通民众关注、评论程度)是分布在事件发生时间轴上的一些离散的点,制止整个事件最终消亡。在网络热门事件影响力较大、关注度较高的突发事件,往往这些离散点成规律性的变化,假定任何事件的真实发展都可以被看成是时间的连续函数。在网络的大数据背景下,从已经发生的突发事件案例挖掘的数据入手,量化的去分析网络舆情的演化和发展。根据散点图的规律,拟合相应的多项式函数,找到其函数分布规律,从而做好更好、更早、更加正确的预警机制和应对手段。
笔者采用根据大数据背景下具体真实案例的数据进行挖掘和分析,做出相应的散点图,通过MATLAB软件进行函数拟合,得到与网络舆情的动态演化最贴近的连续曲线-多项式函数拟合,建立数学模型,分析其演化特征。在考虑是否符合相应的函数拟合时,采用最小二乘法[5]来分析误差,找到离散点的最佳的函数逼近,在有限数据的基础上建立合适的、合理化的数学模型。利用变量之间的相关系数R,分析拟合的多项式函数的预测值与真实值之间的具体的相关性。
分析突发事件的舆论数据是一些在时间轴上离散的数据点。根据其图像,规律的发现散点图符合基于最小二乘法的多项式函数拟合。下面给出一些定义:
最小二乘法:通过最小化误差的平方和找到数据的最佳拟合函数,对挖掘出的真实数据再取定相应的多项式函数Px (x ),使得误差的平方和E 2达到最小值,定义:
我们主要针对互联网上的网络舆情进行研究、分析。关注的新媒体网络平台主要是新闻网站-微博等。也通过相应的舆情观测平台和软件得到相应的数据和图表。利用数据挖掘和分析突发事件随时间的演化规律和普通民众对突发事件的关注度等指标因素,从而做到下一阶段的舆情预警机制,并且对下一次发生的相同突发案件有应对的预警模型。
在很多人看来,电子烟是一种比传统卷烟更安全的替代品,甚至一度被烟民奉为“戒烟神器”。然而,一项来自于英国医学杂志《胸腔》上的最新研究称,电子烟中的蒸气会损伤肺部免疫细胞,加剧炎症,并没有很多烟民想象的那样安全。
E 2=,其中Yi 为数据的真实值、p (xi )为数据预测值,我们称pn (x )为拟合函数或最小二乘解。
“面向传动装置的ABB AbilityTM 状态监测解决方案也是本次ACW的亮点之一。”ABB中国机器人及运动控制事业部负责人李刚表示,“它是业内首个集成化服务,能够将每台设备的关键运行参数集中显示,借助ABB的技术优势,它还能使客户提前了解维护需求,确保设备实现理想运行状态。总而言之,借助ABB AbilityTM 状态监测服务,用户可以更好地掌握如何优化设备运行,减少宕机风险,延长设备寿命,降低成本并且增加收益。”
指数分布(突发性):在概率论和统计学中,指数分布是一种连续概率分布,可以用来表示独立随机事件发生的时间间隔。一个指数分布的概率密度函数是:
(四)突发事件网络舆情演化的函数特征分析——基于概率的指数型分布、多峰值高斯分布函数演化规律
新闻报告量与时间序列的函数关系满足:
由最小二乘法原理,可以知道拟合函数应该满足:
多峰值高斯分布模型(持续型):高斯分布又称为正态分布,根据具体的案例分析,我们不难发现持续型舆情案例,呈现峰多值的高斯分布,其函数如下:
p (x ,a )=a *e -a *x (x >0)X是时间变量;其中a >0是分布的一个参数,常被称为率参数,即每单位时间发生该事件的次数。其中我们定义a 是影响因子,a 决定着突发事件网络舆情的开始影响程度,a 的值越大,整个事件的影响力就越大,所以在预警时一定要关注影响因子的值。
1.我国老年教育发展过程中的差异性。我国老年教育发展过程中的差异性主要表现为城乡差异和东西差异两个方面。有学者表示,根据国家统计局的数据显示,2016年底,全国有2.22亿老年人,全国平均老龄化水平是16.15%。其中,农村是18.47%,城市是14.34%,也就是说中国乡村的老龄化水平比城市已高出4个百分点。而与之相对的是,超过90%以上的老年大学和社区学习中心都集中在城市。此外,中国东部发达地区和西部欠发达地区也存在巨大差异。
p (x )=;其中n是指峰的个数决定。当n=1时,是一次单峰的持续型舆情案例,当n=2时,是双峰的持续型案例;ai 是第i个峰值的影响因子,ai 决定着突发事件网络舆情该峰值的影响程度,ai 的值越大,整个事件的影响力就越大。βi 是事件的关注因子,当βi 的值说明在该峰值内的关注时间长短,越大时,说明事件关注时间较长。
分段概率分布函数(混合型):根据分析具体的舆情案例,有些较为复杂的突发事件舆情演化,呈现出前段图像走势呈指数函数分布,后段呈多峰值高斯分布函数模型,其函数如下:
三、模型的分析与建立、求解
(一)模型的分析、建立概述-网络舆情随时间序列函数的特征分析
按照关于社会治理、公共安全服务类、法制信息化、刑事案件等四类典型舆情案例进行分析,具体分析其动态变化情况。
1.“天津毒瘤造假”事件——突发型。2017年1月16日,在天津市静海区独流镇的一些普通民宅里,每天生产着大量假冒名牌调料,雀巢、太太乐、王守义、家乐、海天、李锦记等市场知名品牌几乎无一幸免。这些假冒劣质调料,通过物流配送或送货上门的方式,流向北京、上海、安徽、江西、福建、山东、四川、黑龙江、新疆等地区。监测关键词[(天津+独流)*(造假+假冒+劣质+制假)*(调料+窝点)]
我们在大数据环境下,通过数据爬虫得到1周之内新闻网站、大型媒体传播情况。如图1、图2:
图1 天津毒瘤造假舆情监测传播数据
图2 多项式拟合——天津毒瘤造假舆情传播
建立基于最小二乘法的多项式函数拟合,新闻报道量与时间序列的函数关系满足:
2.“怕冷哥”事件——持续型(单峰值)。2016年1月央视记者大闹冬运会的安检口的视频,全长1分44秒。根据视频显示,该名携带央视“媒体记者”证的黑衣男子在某安检口和安检人员发生冲突,安检人员让其脱掉外套配合安检,男子态度嚣张,回复八个“我冷”,并质问“省领导需要安检吗?”因男子拒不配合工作,安检人员要求其从安检仪上下来,对此,男子回应“我冷,怎么了,小心我投诉你”,这类社会公共服务类舆情事件。监测关键词[(新疆+安检)*(央视+记者)*冬运会]
通过对微博信息数据爬虫抓取,得到一周之内微博网友的传播情况。
课堂监视主要是对学生上课期间的状态进行监督,在日常的课堂学习时,由于各种原因包括但不限于玩手机、睡觉、思想开小差等等行为。虽然学生在教室里,但是他们的状态并不是在学习,他们的注意力并没有放在学习内容上。因此虽然人在教室,并没有起到学习效果,浪费了时间。利用Deep Learning的人脸识别系统,对学生的学习状态进行时时监督,学生的眼睛是否盯着黑板,是否有低头、伏案、左顾右盼等行为。发现这些不当行为,及时予以提醒纠正,有效的提高学生课堂学习效果。
图3 多项式拟合——怕冷哥事件舆情传播
微博发表转帖数与时间序列的函数关系满足:
对于很多人来说,可能这是一句废话,难道你会开一个没有用的处方给养殖户吗,注意了,我这里所说的多开处方并不是“销售处方”,这个处方是对于池塘养殖过程中所出现的问题而开出的用药处方,是关乎养殖户最终效益的处方。简言之,开出来的处方要行之有效,在能够处理好鱼病、水质、营养、代谢等问题的同时,提供的是最简洁、最实惠,行之有效的技术服务指导方案,与此同时加强用药结果跟踪和个人技术总结,不断提升自身的技术水平,优化处方科学性和可操作性。
3.“法制信息化建设”舆情——持续型(双峰值)。2017年2月23日,由中国社科院法学研究所和社科文献出版社共同发布的《法治蓝皮书·中国法院信息化发展报告》指出,借助法院信息化的应用和发展,中国法院的司法透明度得到全方位提升,信息化为司法公开提供了平台,拓展了司法公开的广度与深度。监测关键词[法院信息化发展,法院*信息化,法院*智慧,法治*蓝皮书,社科院*法治]。
通过舆情观测软件,得到15天新闻媒体的传播情况。
图4 法制信息化建设舆情监测传播数据
图5 多项式拟合——法制信息化建设舆情传播
我们通过分析案例的散点图,得到拟合多项式函数图像,发现突发事件网络舆情的演化规律,从概率和统计学上分析,服从指数分布(突发型)和多峰值高斯函数分布特征(持续型),函数分布成分段函数型(混合型)。
4.“杭州保姆纵火案”事件——持续型(双峰值)。2017年6月22日,杭州小区保姆纵火案是于北京时间6月22日凌晨5点左右在杭州某小区发生的纵火案。该事件造成4人死亡(1位母亲和3个未成年孩子)。23至24日,受害人家属林生斌的家庭生活细节、作案保姆的嗜赌欠债背景曝光,由此,夹杂着群众对消防部门和物业部门的救援行动的质疑,以及对保姆、家政行业深入反思的舆情呈井喷之势。
通过舆情观测软件,得到30天新闻媒体的传播情况。监测关键词[保姆*家政,小区*物业,消防设施*消防]。
图6 多项式拟合——杭州保姆纵火案舆情传播
新闻报告量与时间序列的函数关系满足:
(二)模型的分析、建立概述——网络舆情演化的概率分布特征分析
我们把大数据背景下的突发事件网络舆情事件分成三种类型:突发型、持续型、混合型。突发型:“天津独流造假”事件属于突发型舆情事件,函数满足:p (x ,a )=a *e -a *x 。
根据研究基于多项式函数拟合的图像分析,符合指数型分布的特征。该类事件的突发性强、破坏性大、社会影响大。事件发生频率低,具有很大的轰动性,事发后引起数量大的报道,但随着网民对该事件的了解和解决,网络舆情呈现出递减趋势,直至消亡。
文献增长规律的研究,一般以文献累积数据为依据[1],根据美国科学史学家普赖斯所涉及的理论[2],我们将创业研究近60年发表的文献各年分布和累积情况绘制如图1所示。由图可见,近60年创业研究发文呈一条平滑的上扬曲线,与指数增长规律高度吻合,拟合方程为y = 6.749e0.116x,说明创业研究还处于知识积累阶段。普赖斯按文献量增长变化情况将科学文献增长划分为四个阶段判断,创业研究发文目前正处于发展时期。
持续型:“怕冷哥”事件、“法制信息化建设”“杭州保姆纵火案”事件都属于持续型网络舆情。均满足多峰值的高斯分布函数特征;其函数表达式:
p (x )=;具有持续型特征的网络舆情事件,从事件发生到高涨,一般经历一段时间的发展过程,从而达到第一次峰值,通过社会、政策、公安等采取一定措施后,在舆情生命周期内达到平缓,但由于信息传播的波动性或者应对舆情处理措施等,可能会再一次达到峰值,最终消亡。
焊接参数编辑与工艺选择:编辑焊机工作参数,包括预压时间、加压时间、焊接时间、焊接电流等。同时可根据需要焊接的钣金件种类,快速调用对应参数组。
混合型:既包含“突发型”特征,也包含“持续型”网络舆情特征,我们用分段函数表示这一类舆情演化:
四、模型的推广与评价
综上,本项目研究的主要脉络是,在大数据条件下选取网络上的热点事件进行分析,利用了网络爬虫、信息提取工具包等手段,抓取了网站的新闻报道量和相应的时间分布以及在热门事件中出现的关键词,以网络舆情演化特征为标准,将舆情事件分为突发型、持续型、混合型,对网络舆情每一种类型进行了数据挖掘,分析相应的新闻报道量和时间分布的离散点,构造出合理的多项式函数。由此探索网络舆情演化规律,有助于对网络舆情事件的监控和预警,为引导网络舆情提供参考。由于案例样本量有限,成果的推广价值尚有待进一步验证。对数据的抓取,也可能存在一定程度的误差,这可能影响舆情演化规律探索的精确性。而且影响网络舆情的因素很多,本文中考虑的因素未及全面,研究还需要继续深入。
[参考文献] :
[1]曾润喜.网络舆情管理工作机制研究[J].图书情报工作,2009,53(18):79-82.
[2]李岳德,张 禹.《突发事件应对法》立法的若干问题[J].行政法学研究,2007(4):769-75.
[3]曹学艳,韦永智,赵鹏飞.非常规突发事件演化机理研究[C].第四届国际应急管理论坛,2009:68-71.
[4]李玉海,李友巍.网络舆论风险评估体系探讨[J].情报杂志,29(6):128-131.
[5]贾小勇,徐传胜,白欣.最小二乘法的创立及其思想方法[J].西北大学学报(自然科学版),2006(3):507-511.
Exploration on Evolution Law and Early Warning Model of Network Public Opinion
HOU Xue-hui
Abstract: Online public opinion events can be classified into emergent,persistent and mixed types in the big data environment.Structured data are obtained through extraction,excavation and analysis of the data from the real cases.An early warning mathematical model is established based on polynomial function fitting of discrete points of news reporting volume and time series with these structured data.Analysis from the image features shows that the emergencies public opinion event conforms to the exponential function distribution,the persistent public opinion event conforms to the Gaussian distribution function with multiple peaks,and the mixed public opinion event conforms to the probability distribution of the segmented function.It is helpful to monitoring network public opinion,making corresponding countermeasures,and establishing an early warning mechanism.
Keyword: function fitting;polynomial function;least squares method;correlation coefficient
中图分类号: C916
文献标识码: A
文章编号: 1674-5612(2019)05-0104-07
基金项目: 2017年度新疆维吾尔自治区高校科研计划项目(XJEDU2017S061)
收稿日期: 2019-09-03
作者简介: 侯学慧(1986—),女,河南人,新疆警察学院信息安全工程系讲师、网络安全教研室主任科员,研究方向:数学与应用数学、数学建模。
(责任编辑:吴良培)