网络舆情监测系统研究综述
□唐锦源 吴 越 任 亮
【内容摘要】 随着“互联网+”时代的到来,大多数舆情都是通过网络爆发并扩散,网络舆情监测系统目前己经受到了不同领域各界人士的广泛关注。本文通过对网络舆情监测系统的研究文献进行分析,认为网络舆情监测系统的研究时间不长,特别是智能识别技术与大数据、云计算等技术结合应用,使得个性化的网络舆情监测和对策成为可能。
【关键词】 热点话题;舆论情感倾向;舆论意见领袖;智能识别
一、引言
网络舆情监测系统的构建能够帮助政府部门实时监测舆论话题发展动向,为可能发生的热点话题、敏感话题提供预警机制,能够为调控网络舆论朝良性方向发展提供充足的时间。企业化的网络舆情监测,能够有效地了解用户当前感兴趣的产品和内容,预测未来一段时间内可能感兴趣的产品和内容,为企业推广策略的制定以及发展方向的决策提供参考。可见,网络舆情监测系统可以帮助政府和企事业单位及时发现舆情,并在舆情发展初期应对和处理好舆情事件。
网络舆情监测系统的研究对于社会稳定,经济领域和企业具有重要意义。截至2017年12月对中国学术期刊网CNKI,以“网络舆情”为关键词搜索到相关文献8,494条,以“网络舆情监测”为关键词搜索到相关文献377条,其中涉及到“网络舆情监测系统”的相关文献57条。数据显示从2011~2017年,网络舆情监测系统研究的相关文献逐年增多,特别是2015年后数量激增。网络舆情监测系统的研究主要涉及到系统架构、系统的设计与实现、系统应用的关键技术。
二、网络舆论监测系统理论研究
目前,国内外网络舆论监测系统理论研究主要集中在热点话题发现、舆论情感倾向判别和舆论意见领袖识别三个方面。
(一)智能识别热点话题。热点话题的智能识别和建模作为网络舆情监测的基础,实现了从人工到自动化,从文字表达到数字信息的抽象,使得人们可以利用数学工具对文档进行话题提取和话题聚类。根据话题构建方法,可分为向量空间模型和概率话题模型两类。
1.向量空间模型。向量空间模型是TDT中最常使用的话题模型,一般以文档中的词语为向量特征,并由TF*IDF方法计算特征权重。考虑到话题与事件的关系,利用事件的时间、地点和人物所构建的基于向量空间的话题模型得到了广泛关注。
1.变量平稳性检验。实际生活中平稳序列数据极少存在,而经济模型中样本数据必须平稳。为防止伪回归影响模型结果,需对样本数据进行平稳性检验,故本文运用ADF单位根检验法验证样本数据是否平稳。检验结果如表1:
3.网络用户具有许多特征信息,一些研究者综合各种特征建立模型来识别网络关键节点人物。Li通过分析文本内容、用户行为和时间设计了网络关键节点人物识别的混合框架,框架融合了经验值、新颖度、影响力和活跃度特征。Ellero从关键节点人物能够打破多数规则,加速信息传播速率的角度进行关键节点人物识别和网络舆论演化仿真,实验结果表明,少量的关键节点人物不仅能加快网络舆论的形成,而且可能使整个网络舆论发生逆转。
2.概率话题模型。概率话题模型的思想源于Hofmann在LSI(Latent Semantic Indexing)基础上提出的pLSI模型(probabilistic Latent Semantic Indexing)。pLSI假设每个文档由话题的多项式分布随机而成,文档中每个词由话题生成,不同话题产生不同的词。为解决pLSI对参数求解计算复杂、模型过度拟合等问题,Blei提出了LDA(Latent Dirichlet Allocation)模型。LDA模型的参数不会随着文集增长而线性增长,有很好的泛化能力,是目前机器学习、信息检索等领域很常用的模型。
1.针对网络新词、符号层出不穷,普通情感词典难以识别的问题。Pandarachalil提出一种无度的情感分析方法,该方法利用Senticnet,SentiWordNet和SentilangNet三种情感词典分析网络舆论文本的情感极性,其中SentilangNet情感词典搜集了微博俚语和缩略词,该方法对大规模网络文本情感分析具有良好效果。Yamamoto考虑了符号对于文本情感的影响,提出了基于表情符号的微博多维度情感计算方法。
2.针对网络文本短小,特征稀疏的问题。Zhou利用社会关系信息判断用户观点,从而达到提升准确率的目的。杨等面对微博短文本特征稀疏和上下文缺失的情况,借由时间、空间、联系等要素挖掘文本间隐含的关联关系,重构文本上下文范畴,以提升情感极性分类的有效性。
(三)智能识别舆论意见领袖。网络舆论意见领袖是指在网络中对其他人产生影响的个体。根据分析数据对象的不同,网络舆论意见领袖识别方法大致可以分为基于网络结构的方法、基于交互信息的方法和基于综合特征的方法。
1.社交网络结构能在很大程度上反映某个节点在网络中所处位置的重要程度。如果用户在社交网络中的位置能够如实体现他在社交活动中的领袖地位,利用基于PageRank算法的排名方法就能对其进行度量。Tang把PageRank算法打分最高的1%的用户看作关键节点人物。
位于大漠戈壁的西北油田采油三厂S86卸油站,是一座连续15年被共青团中央授予“全国青年文明号”的基层井站。
巴菲特投资法则中就有非常重要一条:如果股票因“非经营性”因素大幅下跌,那是绝佳的投资机会。因此,需要认真分析大股东股票质押爆仓是否牵涉到上市公司的经营状况。如果股价只是被大势拖累,那投资者可以观察,可以等待,但更要看到这也许是个千载难逢的机会。
3.为实现话题与情感的同步提取,Tan在潜在狄利克雷分布模型的基础上,提出了前景和背景LDA模型,用于提取显著的话题并过滤长期存在的背景话题。Ren提出一种结合社交网络文本和话题文本的矩阵因子分解框架,利用可观测的微博知识,预测用户对某一具体话题的观点。马提出一个话题情感混合最大熵LDA模型对网络文本进行细粒度观点挖掘。
式中:分别为两级最小差及两级最大差;ρ∈[0,1]为分辨系数,一般ρ取0.5,ρ越大,分辨率越大;ρ越小,分辨率越小。
2.分析用户所发信息的影响力和传播特性,能够更客观准确地发现网络关键节点人物。Goyal认为社团关键节点人物发起的行为能在特定时间段内对一定数量的用户产生影响,并据此使用频繁模式挖掘方法识别社交网络中的关键节点人物。
(二)智能识别舆论情感倾向。由于网络短文本具有网络新词、表情符号多、噪声大、情感特征稀疏等特点,其情感倾向识别的难度更大。特别是,情感倾向识别不仅要提取喜怒哀乐等情绪情感,还要识别情感所涉及的话题。近年来相继出现了一些有针对性的研究方法以解决这些问题。
三、网络舆情监测系统应用研究
国内外研发了许多网络舆情监测相关的系统。国内包括方正智思——网络舆情互联网信息监控分析系统及舆情预警辅助决策支持系统、复旦大学C_Analysis舆情分析系统等,这些系统基本上都对网络舆情的数据进行了采集和分类,并提供了一些统计学分析的辅助功能。国外相关系统有:Autonomy公司发布的三大系列专门针对中国市场的应用产品,分别是面向企业的“企业竞争情报智能分析系统”、面向政府部门的“互联网舆情监控分析系统”等。
四、研究结论及展望
随着网络舆情监测系统的相关研究不断深入,学术成果不断呈现。方法的创新和智能识别技术的发展为网络舆情监测系统研究注入了新的活力,但相关研究还存在问题:一是研究成果的内容主要集中在理论研究,实践应用研究较薄弱。二是基于不同目标对象和不同行业的特定社会领域,构建的网络舆情监测指标体系和系统同质化现象较明显,指标的选取和设计上区分度较低。三是热点话题发现技术的研究较多,舆论情感倾向识别技术和舆论意见领袖识别技术的研究太少。
在综合国内外主流理论、方法、模型以及实际舆论数据的基础上,本文认为接下来可以重点研究智能识别技术在网络舆情监测系统中的应用:一是舆情监测系统自动发现网络舆论热点话题,进行及时的舆情等级预警;二是智能分析和展示网民对于网络舆论话题的情感倾向分布,帮助有关部门把握舆论脉搏;三是构建意见领袖综合评价指标,有效识别在网络舆论发生、发展过程中起到重要作用的意见领袖,为舆论引导策略的有效制定提供重要依据。
【参考文献】
[1]赵旭剑.中文新闻话题动态演化及其关键技术研究[D].中国科学技术大学,2012
[2]仲兆满,刘宗田,周文,付剑锋.事件关系模型[J].中文信息学报,2009,23:56~60
[3]R.Pandarachalil,S. Sendhilkumar,G. S. Mahalakshmi,Twitter sentiment analysis for large-scale data:an unsupervised approach[J].Cognitive Computation,2015,7(2):254~262
[4]Y. Yamamoto,T. Kumamoto,A. Nadamoto,Multidimensional sentiment calculation method for Twitter based on emoticons[J].International Journal of Pervasive Computing and Communications,2015,11(2):212~232
[5]X. Zhou,E. Coiera,G. Tsafnat,et al.Using social connection information to improve opinion mining:identifying negative sentiment about HPV vaccines on Twitter[J].Studies in Health Technology and Informatics,2015,216:761~765
[6]杨震,赖英旭,段立娟等.基于上下文重构的短文本情感极性判别研究[J].自动化学报,2012,38(1):55~67
[7]S. Tan,Y. Li, H. Sun,et al.Interpreting the public sentiment variations on twitter[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(5):1158~1170
[8]F. Ren,Y. Wu,Predicting user-topic opinions in twitter with social and topical context[J].IEEE Transactions on Affective Computing,2013,4(4):412~424
[9]马长林,谢罗迪,王梦等.基于主题情感混合模型的细粒度观点挖掘[J].华中科技大学学报(自然科学版),2015,43:66~70
[10]吴信东,李毅,李磊.在线社交网络影响力分析[J].计算机学报,2014,37(4):735~752
[11]J. Tang,T. Lou, J. Kleinberg,Inferring social ties across heterogenous networks[A].Proceedings of the Fifth ACM International Conference on Web Search and Data Mining[C].ACM,2012
[12]Y. Li,S. Ma, Y. Zhang,et al.An improved mix framework for opinion leader identification in online learning communities[J].Knowledge-Based Systems,2013,43:43~51
[13]A. Ellero,G. Fasano,A. Sorato,Stochastic model of agent interaction with opinion leaders[J].Physical Review E,2013,87(4-1):04280601-04280617
[14]游丹丹,陈福集.我国网络舆情热点话题发现研究综述[J].现代情报,2017,37(3):165~171
[15]项珑.基于特征提取和主题模型的文本分类研究[D].安徽大学,2013,4
[16]司夏萌,刘云,程辉等.基于态势评估的网络舆论监控与引导系统的研究[J].网络安全技术与应用,2009,12
[17]翁承豪.基于LBSN的时空敏感的景点推荐[D].东南大学,2016,6
[18]程辉.网络用户偏好分析及话题趋势预测方法研究[D].北京交通大学,2013,6
[19]颜月明.基于话题模型的微博热点话题演化分析[D].西安电子科技大学,2017,6
[20]张姗姗.基于微博热点话题演变分析方法的研究[D].河北科技大学,2017,12
【基金项目】 本文为四川省教育厅科研项目“智能识别技术在网络舆情监测系统中的应用研究”(编号:18ZB0028)阶段性成果。
【作者简介】 唐锦源(1970.7~),女,湖南衡阳人;成都工贸职业技术学院高级工程师;研究方向:信息安全、网络舆情监测系统
吴越,任亮;成都工贸职业技术学院
“听完盛老师的高效示范课,感受很多,学生们展示出的精神面貌及学习的积极性、主动性让我大为惊讶,很值得我学习。”七师高级中学教师何友林说。
标签:热点话题论文; 舆论情感倾向论文; 舆论意见领袖论文; 智能识别论文; 成都工贸职业技术学院论文;