基于情感分析与LDA 模型的网络舆情案例研究
董悦DONG Yue;王梦WANG Meng
(深圳大学经济学院,深圳518052)
摘要: 在社会计算视角的指导下,借助自然语言处理中的情感分析和主题建模技术建构食品安全网络舆情的计算模型,并选取网络舆情案例对该计算模型进行了验证性应用。本文首先对该事件的评论文本进行情感极性分析确定用户情绪极性,通过语义网分析提取评论数据中不同网友观念的相互联系,并利用词频分析以及LDA 主题模型,最后得出在海量数据面前,传统的舆情研究方法显然已经无能为力,需要在大数据路径技术上介入,并在不断发展中探求情感和主题分类要素在此类研究中的新作用。
关键词: 文本分析;网络舆情;情感分析;主题建模
0 引言
最近几年电子信息通信、云计算、数据存储与共享技术快速发展,“大数据”成为人们关注的焦点,也成为现阶段生活、工作的重点话题。大数据也成为新的流行词汇被广泛关注。
基于食品安全危机问题,采用大数据方法应用下的网络舆情分析,挖掘在具体情境下所透露的社会现象和问题是本次研究的主要意义。与数据相应而生的数据分析方法已经很容易被公众接受,数据分析方法成为研究舆情的核心关键技术。在海量数据面前,准确有效的对网络舆情进行分析,促进相关机构的科学决策和有效沟通,为公众解决实际问题和提供满意的答复是至关重要的,如果缺乏一个统一规范并可操作方案将对网络平台和政府部门的工作带来极大的不便利。因此,在文本处理技术的基础条件下,选取“2018”年非洲猪瘟蔓延至中国”为案例,融合情感分析和主题建模,创建一个合适正确的社会计算模型,分析食品安全网络舆情,为实现标准化、操作化的食品安全网络舆情分析提供借鉴。
根据商保公司经办城乡居民基本医保模式主要要素,总结分析商保机构经办城乡居民基本医保的试点情况。依据理论研究和实践结果,目前安徽省商保公司经办城乡居民基本医保试点初步形成的模式主要是委托经办模式,即:政府将业务委托商保公司,按照协议由后者获取适当的经办费用,提供经办服务。在委托经办模式中,按照经办费用来源已初步形成委托经办支付费用模式、委托经办不支付费用模式两种。每一大类中,按照经办服务内容、经办费用获取方式、基金风险承担实际运行情况又可分不同的模式。见表2
提高员工素质,二是要加强班组技能建设。企业的竞争实际是人的素质的较量。要结合班组岗位实际和工作薄弱环节,开展技术比武、岗位练兵、劳动竞赛、读书自学等活动,激发员工的学习热情;认真落实“导师带徒”制度,探索固定课堂、流动课堂、网络课堂等有效形式,加强安全知识、岗位“应知应会”知识以及新技术、新工艺的学习;充分利用“实验室”“创新工作室”和“青年科技示范园”等平台,探索设置科技创新项目、模拟实战演练等活动,不断提高员工的实际技能操作水平和分析、解决问题的能力,在整体上提高班组的创新能力,努力把班组建设成为勤学苦练、钻研技术、岗位成才、业绩突出的阵地,为企业经营目标的实现多做贡献。
一般情况下,大多数企业在生产环节上都需投入较多的人力、财力和物力,因此产品的生产过程是企业成本控制的重要环节。企业的生产成本主要包括材料成本、人力成本与制造费用,材料成本的控制需要避免不必要的浪费,人力成本的控制就需要加大流水线上的机械化程度,而制造费用的控制就需要减少公司在日常生产过程中因人为因素产生的成本,比如,水电费,设备维修费等。
从正向评论与负向评论的对比词云图以及各自的语义网络图可以发现,在负面评论中,主要以病毒、感染、猪肉为高频词,并且成为语义网络的核心,大部分评论围绕着病毒的感染,体现出网民对于病毒传播的担忧和恐慌情绪以及对食品安全问题的不满情绪。在正面评论中,主要以政府、企业、部门、食品为高频词,并且成为语义网络的核心,大部分评论围绕着企业责任、政府部门的措施和食品安全问题,一方面体现了网民对于食品安全的重视,对于政府和企业的监督,另一方面也体现出网民对于政府部门各企业处理措施的认可。
1 主要方法
1.1 网络舆情情感分析
例如2016年广东省中考题第14题,已知了电阻甲和乙的IU,可以得出电阻乙的阻值为6Ω,若把电阻甲和乙并联后接在电压为6V电源两端时,则干路的总电阻为多少?总功率为多少?
网络平台上的文本包含了大量观点和情感,传统的针对主题等分析方法可能会浪费其中包含的情绪性、倾向性信息。可以通过情感分析对网络舆情中出现的意见和观点文本进行识别,深入的挖掘并分析带有主观意见和情绪的内容,完成情感计算的过程。
1.2 网络舆情语义网络
非洲猪瘟事件中呈现正面情感的评论达到26.1%,呈现负面情感的评论占总数的14.5%,呈现中立情感的评论占总数的59.4%。从整体上看非洲猪瘟事件在各大门户网站上的评论信息还是倾向于正面的。猪瘟事件每日网络情感的平均得分也佐证了这次食品安全事件中网络舆情情感是倾向于正面的,每日网络情感平均值大部分为正数,虽然情感得分也出现了负数,但没有连续的趋势。
每个贫困户的自身条件不一,并不都能直接参与到产业建设中来,需要我们创新贫困户参与到产业扶贫的方式,引导他们积极参与到产业结构中来,提升“自我造血”能力,早日解决脱贫困境。比如:无劳动能力的贫困人口采用资金或土地入股的方式参与,贫困地区的农民专业合作社与当地龙头企业合作等。
1.3 网络舆情LDA 模型
其一是介绍了这次猪瘟事件基本情况,还包括这一事件会造成的后果以及处理方法等。这一类主题种主要关注的是非洲猪瘟传入中国的基本情况以及网民对如何处理提出的疑问,主要包括处理方式和边防检疫两个方面。公安部在这次灾害发生后,也加强了疫区的勤务部署,维护治安和秩序并呼吁广大人民群众提供打击猪瘟相关犯罪的信息。
的是为了发现文本中隐含的主题和各个主题之间的关联变化,主要通过对文本或语料库中的词相似分布规律词集的聚类来实现。
在研究社会网络舆情这一问题时,不能单独的观察情感分析或主题建模的结果,不能将两种方法割裂开来,本文在实际建构网络舆情分析的社会计算模型时,综合使用情感分析、语义网络和主题建模的方法阐述如何科学有效地对食品安全舆情进行分析。
2 建构食品安全网络舆情分析的社会计算模型
大数据背景下网络舆情分析都是从数据收集开始对食品安全网络舆情进行分析的步骤又可以分为对所有网络舆情数据的情感分析、语义网络、主题建模。
图1 网络舆情分析框架
3 网络舆情分析案例研究
3.1 数据来源及预处理
2018 年8 月以来,非洲猪瘟蔓延至中国打乱了国内生猪市场原本正常的流通秩序。本文根据实际情况爬取了2018 年12 月15 日至2019 年3 月31 日搜狐、腾讯和新浪等网站上用户对事件的评论,最终整理了9937 条评论文本。对在线用户的评论文本进行情感极性分析确定用户情绪极性。
通过数据预处理,将原始数据中存在的噪声去除,得到高质量、规范化以及可以进行后续分析的有效数据,提高分析的可靠度和精准度。数据去除“哈哈哈”、“啊啊”、“。。。”这样存在连续重复的语料。在分词过程中删除空的评论以及数字和英文符号等影响分词的标点。
3.2 情感分析
将数据样本通过分词得到词向矩阵,对评论中出现的高频词进行统计,通过“清华大学李军中文褒贬义词典”对数据中带有主观情感成分的文本进行语义分析,识别该文本的情感倾向。
采用SPSS 19.0统计学软件对数据进行处理,计数资料例数(n)、百分数(%)表示,采用x2检验,计量资料以“x± s”表示,采用t检验,以P<0.05为差异有统计学意义。
根据情感分析的结果可以将文本标注为积极情感和消极情感两个类别,利用这两个类别的文本可以进行语义网络的构建。语义网络是由大量常识概念构成的,是分析社会网络时常用的联系网络。构建一个完整的语义网络主要包括网络节点和有向线段,各个语义之间的从属关系和内在联系通过箭头的方向来表示。观察不同词之间的关系不仅仅只是观察最初的几个单词关系。每个节点之间相互连接的一种组合。对于网络舆情的语义网分析可以分为正面评论的语义网络和负面评论的语义网络两个部分。
图2 平均情感得分图
图3 每周评论数量统计
在以周为时间跨度计算的各情感评论的数量上来看,在疫情发生后的两周(2018_50 和2018_51),评论数量达到了高峰,评论的情感倾向以中立为主,其次是正面评论,负面评论最少。之后七周,评论数量迅速减少,在2019 年第七周,评论数量出现了反弹,但是以正面评价占比最大,负面评价占比最少。之后各个情感倾向的评论数量呈现下降趋势,网民对非洲猪瘟事件的关注度逐渐归零。
从以上图可以看出政府对于非洲猪瘟事件反应及时,采取的措施较为合理,治理的方法比较得当,效果良好。使网络上正面和中立情感始终占了主流,在疫情持续的时期内,网络舆情稳定可控。
3.3 正负向评论对比及关系研究
经过前文的情感分析,可以标注出哪些是属于积极情感,哪些归属于负面情感,利用这些文本进行语义网络的构建。
情感分析也可以叫做情感挖掘、倾向性分析、意见挖掘、观点抽取,可以分析人们对服务、产品、组织、问题、事件、主题等实体以及属性的评价、观点、态度、情感。
图4 负向评论语义网络
图5 正向评论语义网络
对于突发的具有较大影响的食品安全问题通常能快速的引起社会关注而导致网络平台上出现大量带有丰富情感的观点,从而形成丰富的舆请分析语料,运用数据驱动的内容分析技术对这一类的文本进行分析,从而挖掘语料中的情感、关系及主题是许多人研究的重点。在以往的相关研究中,网络舆情分析主要体现在倾向性分析和聚类分析。在倾向性分析中,O’Connor 等人,遵循语义方法,用情感分析技术,了解网民对重大事件的看法。在聚类分析方法中,谢思发等借助具有优势的Hadoop 平台,挖掘微博中的热点词。马彬等采用基于线索树的双层聚类的话题检测方法,对垃圾微博进行过滤,解决了稀疏数据的问题。吴坚、沙晶随机森林树的算法对网络舆情的文本信息进行分类,并比较了基于KNN,SVM,SMO 等方法对信息分类的量化性能。
3.4 主题模型分析结果
其二主要表达了公众对食品安全和政府部门相关工作的关注。各地区政府部门对此事有了积极的响应,高度重视非洲猪瘟防治工作,加强各部门协作联制联防。
以这6 大主题为线索,可以具体分为以下几个观点:
主题建模本质是一种快速的非监督机器学习算法,目
对于网络舆情数据,借助R 语言中的主题模型函数包构建猪瘟事件的主题,将主题数确定为23 个,进一步探索将23 个主题大致组合为6 类,将语料库中最为核心的6 个主题呈现出来即主要概括了网络上猪瘟事件舆情数据的主要关切。
其三是主要是公众对猪瘟病毒提出了一些预防措施,具体提出了猪瘟和猪流感的防治问题。2018 年年末也有团队研制了今珠多糖注射液并拥有专利权的猪瘟疫苗,用作紧急预防。
其四是各地区猪瘟的情况,希望公众可以理性的应对猪瘟事件。对于2018 年8 月14 日日本在防止“猪瘟”过程呼吁乘客“不要携带猪肉制品”,台湾为防止猪瘟禁止大陆游客参观养猪场等一系列新闻在网络上也引起热议。相关负责人也再次强调:非洲猪瘟病毒虽对猪有致命危险但对人没有危害。
公路桥梁养护工作作为一项长期性工作,需要耗费大量的人力、物力。因此,为了提高公路桥梁养护工作的开展效率与开展质量,就必须要加大公路桥梁养护工作的经费投入。首先,有关部门要设立专门的公路养护经费管理中心并让专业人员对公路养护的资金进行集中管理,根据公路桥梁养护的实际建设情况与加固维修状况进行资金的划拨,以此保证公路桥梁养护后续工作资金的充裕性;其次,公路桥梁养护工作需要不断引进高科技维修设备,以此保证公路桥梁养护工作的高效开展;与此同时,公路桥梁养护工作还需要引进具备较强技术性的专业人才,以此保证公路桥梁养护工作的正常运行[8]。
在超高速打击岩石的地冲击效应实验中,通过靶体分层浇筑设计和内置于靶体中的PVDF薄膜传感器,将靶体中的PVDF薄膜传感器的布设间距d分别设置为10,15,20,25,30,70 cm, 获得了花岗岩靶体内各层的地冲击应力时程曲线。图3为打击速度为3 558 m·s-1时,靶体各层实测应力波时程曲线;图4为打击速度为3 558 m·s-1时,靶体各层理论计算应力波时程曲线。从图中可以看出:理论计算结果和实验结果较为吻合,证明了本文的超高速撞击地冲击效应等效计算方法的合理性。
其五是“猪肉制品”的安全问题成为广大网友关心的中心。三全、科迪、康利思等11 个国内速冻产品均被检出非洲猪瘟病毒核酸阳性。非洲猪瘟病毒的灌汤水饺是否会对人体造成危害也成为人们关注的焦点。
其六是国内猪肉价格的波动情况和猪肉进口的问题。一牛财经网在8月25 号报道随着中国对美国增收关税,目前美国基本停止向中国出口猪肉。国内猪肉总产量较高,基本不依赖进口。俄罗斯的西伯利亚集团也向中国运输猪肉来补足美国的缺口。
4 结论与启示
研究结果表明,通过以上方法可以有效的分析网络舆情中网民对突发事件的基本态度和观点,对政府治理和网站门户的工作具有积极的意义。
对于玉米产量来讲,一个重要的影响因素就是病害,其主要涉及到生物胁迫和非生物胁迫。利用遗传改良的手段来有效地改善玉米的抗逆性是一种较为经济有效的方法,特别是在如今,增强玉米抗逆性已经成为了玉米育种领域之中一个相当重要的课题。近年来,国内主要玉米产区出现了较为严重的天气灾害,给玉米生产带来了较为严重的影响。抗逆性育种非常重要,但目前还严重的不足,如抗旱品种、抗虫害品种的选育等都还未取得明显成果,直接影响到了玉米生产[1]。
根据研究结果总结出食品安全网络舆情的社会计算模型具有的三个特点:
第一,模型在大数据分析应用中具有很强的操作性。基于猪瘟事件的分析使用三种方法可以实现基本目标,在实际应用时应根据不同的研究问题筛选各类语料库进行分别处理。
第二,从各大网站的数据出发,能够得到食品安全网络舆情的个性化结果。使用传统内容分析法对网络舆情进行研究需要先根据研究问题已有的文献得出舆情研究的类目建构,再回归到内容进行具体分析。而本文提出的方法不需要预先对舆情内容做出假设,主要根据算法直接计算出研究内容的情感、网络和主题,这样将更加贴近事件本身。
其三,基于社会计算的舆情分析是今后发展的趋势。现阶段的网络舆情已经不仅包含文本数据,还呈现出很多表情、图片、视频等多媒体表现方式,使得网络舆情日趋复杂,发展社会计算的舆情分析方法,提升算法技术变得日趋重要。
网络舆情的社会计算模型也存在一些不足之处。网络中评论文本的非正式化、口语化使得现有的情感词典不能准确的概括出评论中所有的词的意义,有些词语不能完全匹配出,导致在分析的准确性上有一定的局限性,目前也有很多语言学专家在研究情感词典,未来能更好的促进网络舆情的发展。
参考文献:
[1]刘臣,谢法举,周晓鸣.基于追加评论的情感分析研究[J/OL].软件导刊:1-5 [2019-06-24].http://kns.cnki.net/kcms/detail/42.1671.TP.20190624.1358.010.html.
[2]耿晓利,陈淋.基于情感分析与LDA 模型的在线用户满意度影响因素研究[J].微型电脑应用,2019,35(06):38-41.
[3]李世豪,纪亚男,董昕.新浪微博视域下网络舆情实证探析——以中美贸易摩擦为例[J].视听,2019(06):135-136.
[4]邹汶君,张琦.重大自然灾害网络舆情应对策略研究[J/OL].新媒体研究,2019(08):1-4[2019-06-24].https://doi.org/10.16604/j.cnki.issn2096-0360.2019.08.001.
[5]安绍正.突发热点事件的网络舆情演化分析[J/OL].新媒体研究,2019(08):10-11[2019-06-24].https://doi.org/10.16604/j.cnki.issn2096-0360.2019.08.004.
[6]杨程,谭昆,俞春阳.基于评论大数据的手机产品改进[J/OL].计算机集成制造系统:1-19[2019-06-24].
[7]曾祥坤,张俊辉,石拓,邵可佳.基于主题提取模型的交通违法行为文本数据的挖掘[J].电子技术应用,2019,45(06):41-45.
Case Study of Internet Public Opinion Based on Sentiment Analysis and LDA Model
(College of Economics,Shenzhen University,Shenzhen 518052,China)
Abstract: Under the guidance of social computing perspective, the calculation model of food safety network public opinion is constructed by means of sentiment analysis and topic modeling technology in natural language processing, and the network model public opinion case is selected to verify the application model. This paper first analyzes the emotional polarity of the comment text of the event to determine the user's emotional polarity, and extracts the interconnection of different netizens' ideas in the comment data through Semantic Web analysis, and uses word frequency analysis and LDA theme model to finally concludes that in front of massive data, traditional lyric research methods are obviously powerless, and need to intervene in the big data path technology, and explore the new role of emotion and subject classification elements in such research in the continuous development.
Key words: text analysis;network public opinion;sentiment analysis;topic modeling
中图分类号: G2
文献标识码: A
文章编号: 1006-4311(2019)34-0169-04
作者简介: 董悦(1996-),女,安徽淮南人,深圳大学经济学院硕士研究生,研究方向为国民经济统计;王梦(1996-),女,四川广安人,深圳大学经济学院硕士研究生,研究方向为大数据。
标签:文本分析论文; 网络舆情论文; 情感分析论文; 主题建模论文; 深圳大学经济学院论文;