网络舆情监控算法研究与分析
谢卫红1,2,杨超波1,2,朱郁筱1,2,李忠顺1,2,蒋瞰阳3
(1.广东工业大学管理学院;2.广东工业大学大数据战略研究院,广东广州 510520;3.罗切斯特理工大学计算机科学与工程学院,美国纽约 10041NY212)
摘要: 梳理现有的网络舆情监控算法,归纳为经典算法和拓展算法,分析算法的优缺点并对比常见算法的性能,整理部分专家学者对这些监控算法的优化改进研究情况并分析其研究成果。从技术、管理和应用等3个角度评价现有网络舆情监控算法的优化改进环节和取得的成效,并指出其存在的问题主要集中在只基于文本、针对单一数据类型、没有考虑事件和用户的差异化特点和动态变化情况、缺乏综合监控体系思维和管理机制等方面。进而从网络舆情的特点、发展规律、驱动因素、现有监控算法不足和监控效果期望等角度探讨未来网络舆情监控算法的发展趋势。
关键词: 网络舆情;监控算法;文本分类;文本聚类;情感倾向
舆情是一定时期内公众对现实社会中的各种现象、问题所表达的思想、心理、意见和情绪所表现的集中反映[1]。截至2018年6月,我国网民数已达到8.02亿人,互联网普及率为57.7%[2]。网络舆情涉及海量且类别繁多的互联网信息数据,其传播速度快、范围广、互动性强和影响力大。如果仅仅依靠人工进行分析和分类是无法实现实时发现并及时处理的需求的。发生群体性事件时,网络上往往会充斥着大量虚假信息,部分不知情的网民转发后,煽动人们的负面情绪,有可能导致事态恶化[3]。如“红黄蓝幼儿园虐童事件”“百日破疫苗事件”等公共舆情事件, 往往借力网络媒体,特别是自媒体的传播速度和广度导致重大负面影响。
网络舆情监控的基本任务是从海量网络语料中快速识别新话题、热点话题和突发事件等[4]。网络舆情监控需要解决的首要问题是高效地从海量数据中发现网络舆情。本文对有关网络舆情监控算法的文献进行梳理,明晰网络舆情监控算法的进展状况和存在问题,并探讨其发展方向和展望。
(1)在治疗前、治疗2疗程后,测定T细胞亚群水平变化情况,包括CD3+、CD4+、CD8+、CD4+/CD8+。(2)以欧洲癌症研究与治疗组织(EORTC)[6]制定的癌症患者生活质量评定量表(QLQ-C30)评定患者治疗前后生活质量,总分100分,得分越高说明生活质量越好。(3)观察两组患者毒副反应发生情况。
1网络舆情监控经典算法研究现状
1.1 网络舆情定义
目前学术界对于网络舆情的认识还没有达成一致,没有形成共识的定义。游丹丹等[5]认为网络舆情是网民因各类事件推动刺激而借助互联网平台传播关于该社会现象持有的不同意见、态度、情绪和行为倾向的总和。谭雪晗等[6]认为网络舆情是在某些网络空间内网民的观点、建议及对各种社会现象与问题的感受构成的集合。邓福成等[7]认为网络舆情是网民在网络公共空间上通过网络语言或其他方式,对自己所关注的话题如公共事务、公共任务、价值观念、政策环境和历史评价等,公开表达自己具有强烈冲击力和影响力的公共性意见。柳虹[8]认为网络舆情热点指网民思想情绪和群众利益诉求在网上的集中反映,是网民热切关注的聚焦点,是民众议论的集中点,反映出一个时期网民的所思所想。因此,在某一个时间段内,达到一定数量的网民使用互联网媒介来表达和传播其对于某一共同社会事件的认知、意见和情感,就形成了网络舆情。
1.2 文本分类算法研究现状
舆情发现是网络舆情监控的一项重点工作,关键是精准的舆情分类。舆情分类是把网络上关于网民的认知、意见和情感的文本信息进行分类,主要用到文本分类和聚类算法。
文本分类算法是一种有指导的机器学习方法,算法过程是针对数据集的特点来构造分类的模型或函数,把待检测数据样本划分到设定类别集合中的某一个类别。单一分类算法有决策树、贝叶斯、人工神经网络、K-近邻、基于关联规则分类和支持向量机等[9-14];集成学习算法有Bagging和Boosting等[15-16]。文本分类算法的优缺点如表1所示。
大数据时代的到来,对于高校的影响在于思想的变革。管理学家、统计学家爱德华·戴明说:“除了上帝,其他任何人都必须用数据说话。”大数据理念在高校的应用,能够提高教育管理、决策与评价的智慧性[2]。基于大数据时代背景,为提高教育教学改革研究项目管理效率,充分发挥项目管理的指导功能和服务功能,广西医科大学进行了教改项目管理信息化平台建设研究。本文主要对教改项目信息化管理必要性及建设方案进行探讨,以期对构建和完善同类系统平台内涵建设,起到抛砖引玉的作用。
表 1文本分类算法的优缺点
现有的监控算法几乎都是从技术角度考虑如何提高监控效果、提升监控效率,甚少从管理角度考虑应该建立怎样的管理机制来提升监控效能。目前系统化、成体系的网络舆情监控应用较少,应用经验还需较长时间的积累。
据了解在不少医院的药房,中药注射液从西药取药窗口发药,如果你不知道如何区分中药注射液和西药注射液,建议在药盒或者药品说明书里找一下药品批准文号,批准文号以拼音字母“Z”开头的代表中药,以拼音字母“H”开头的代表西药(化学药品)。
1.3 文本聚类算法研究现状
文本聚类属于无监督的机器学习方法,不需要预设文本类别和训练数据集,算法核心是将文本划分为若干个类别,使得在同一个类别中的文本内容相似度较高,而不同类别的文本内容相似度较低。有如下6种常见的文本聚类算法(文本聚类算法的优缺点如表2所示)。
(1)层次法,有自下向上和自上向下两种方案,算法核心是层次式分解待检测的数据集合,不断迭代运算,当数据集合满足预设条件时即为所求的聚类结果。代表算法有Chameleon、Rock、Birch和Cure等[25-28]。
(2)增量法,是先从待检测的数据集合中选取部分数据作为初始话题类别,然后将剩余数据分别与初始话题进行对比,如果两者的相似度大于预设的阀值则把该数据划分到该话题中,否则作为一个新话题类别。代表算法是Single-pass[29]。
对照组采用常规护理方式,对患者的血糖等主要生命指标进行记录和观察,同时对患者进行日常基础护理工作,对糖尿病合并神经痛有关的症状进行宣传和讲解,提升患者对于糖尿病有关知识的认识和了解,提升患者的认知程度。
(3)划分法,是一种不断迭代寻找更优方案的方法。先设置一个初始分组,然后通过反复迭代来改变分组情况,目的是使每一次改进的分组效果都比前一次好。代表算法有K-prototypes、K-means、K-medoids和Clarans等[30-33]。
(4)基于模型的方法,预先假设聚类的类别有特定的模型,然后寻找符合该模型相关条件的数据集合。相关模型可以为数据的密度分布函数或其他函数,目标数据集预设为由一系列概率分布所决定的。代表算法有CobWeb、Fish search、AutoClass和Som[34-37]。
(5)基于网格的方法,将数据集合映射到空间并划分为若干个单元网格,然后以单元为对象进行运算,特点是只与网格数有关,而与数据集合中的记录数无关,具有处理速度快的优点。代表算法有Sting、Clique、OptiGrid和WaveCluster等[38-41]。
②使用四次复合数据进行验证,验证误差结果如下:Fx方向最大误差为69.74%,Fy方向最大误差为230.40%,Fz方向最大误差为240.81%,Mx方向最大误差为64.49%,My方向最大误差为133.58%,Mz方向最大误差为124.65%,显然使用单维数据训练得到的网络无法对多维复合数据进行解算。
网络舆情监控算法的时间复杂度一般较高,至少为O(n2),个别算法甚至为O(nn),所以时效性往往较差。随着云计算技术的发展,一些专家学者提出搭建云平台的综合智能监控算法,建立代理联盟,通过分布式计算提高监控效率。不少研究成果表明,该类算法的监控效果和效率得到明显提升。少数专家学者研究跨平台的监控算法,有利于提高监控的准确度,但目前能同时监测的平台数较少,还做不到全网络范围内的监控。
表 2文本聚类算法的优缺点
表2(续)
(1)进一步优化和完善基于文本的经典监控算法,同时探索基于音频、视频和图片等多媒体的经典监控算法。未来将会是应用推动研究的发展,基于多媒体的经典监控算法将引起更多专家学者的关注和研究。
2网络舆情监控拓展算法研究现状
2.1 情感倾向监控算法研究现状
舆情导向是网络舆情监控的一个重要目的,负面情绪的消息往往会导致严重的负面社会影响。要引导良性的网络舆论氛围,需要及时获知网民对于当前舆情的情绪状况、对某个事件的观点和态度等,因此非常有必要对话题的情感倾向进行研究。情感倾向分析,指检测、分析和挖掘能表达作者的情感、观点和偏好的带有主观色彩的文本数据。常见的基于情感词典和基于机器学习两种分析方法。基于情感词典的算法,先通过人工选择建立专用情感词库,将给定的词语找到词库中对应的词语进行情感倾向判断。
从研究的文本粒度来看,情感倾向分析主要包括基于词语、语句和篇章的三类研究方法。
多样性的语言表达形式,使得相同的词语在不同的语境中表达的情感倾向不一样。整个语句比单个词组更能表达作者的情感倾向。基于语句的情感分析,首先从文本中找出体现作者主观性的语句,然后判别其褒贬性,并分析情感倾向的程度。
目前的监控算法只关注用户是平台上的一员,而忽视他更是社会上的一员。用户在生活中的生理、心理、人际关系变化,很可能会导致其言行举止出现相应变化。但网络舆情监控系统并没有获得这方面讯息的实时更新,可能造成误判,从而影响监控效果。
部分研究者在情感倾向监控算法的优化改进方面做了大量研究工作[54-58],并取得较好的成果。
2.2 情感倾向偏差监控算法研究现状
近年来,研究发现网民的情感倾向偏差给网络舆情监控带来了一定的判断和监控困难。人群倾向性偏差问题越来越受到关注。研究不同领域的人群情感倾向偏差问题,是解决舆情人群主观色彩差异的重点[59]。针对主观色彩偏差问题,主要有细粒度分析法-、挖掘新模式二次调用和情感词典逻辑结合等方法[60-62]。部分研究者对情感倾向偏差监控算法做了很多优化改进研究工作[63-67],并取得不错的效果。
综上所述,电教多媒体在初中语文教学中的应用可以有效提高课堂教学的效率,但在应用过程中必须遵循合理、适度的原则,将多媒体教学与传统教学相结合,最大限度激发学生的潜能。
情感极性分类方法存在的问题包括:(1)情感词库往往只适用于某一个特定领域,而不能在多种不同领域中通用;(2)情感词的词性一般只分积极和消极两种,没考虑到情感词在不同语境中的影响程度;(3)网络文本具有即兴性、结构多变、语法不规则等特点,以及网络用语更新快,大大降低传统机器学习方法的效率和监控效果。
2.3 综合智能监控算法研究现状
网络舆情监测的任务,一般具有动态性、不确定性和实时性等特点。可使用多代理分布式计算方式构建服务云平台,将各种新技术和方法融合在一起,通过多代理将各个代理组成联盟,提高监测监控能力。
智能聚合系统,涵盖微博、BBS和其他社交网站,使用元搜索引擎辅助监测重点对象,聚合全网的舆情信息副本和衍生版本,实现全网信息匹配,大大提高宏观把握舆情走势的效果。
部分研究者对综合智能监控算法做了很多优化研究工作[68-73],并取得优异的成果。
2.4 网络舆情预测算法研究现状
网络舆情预测算法主要分为基于传统统计学和基于智能机器的预测算法。基于自回归算法、指数平滑算法、ARIMA算法以及移动平均算法,都属于基于传统统计学的预测算法[5]。
为了安全和方便实现,构建的实验平台包括三相低压微电网和能量回馈装置。这里用38 V/50 Hz的三相低压微电网模拟实际三相电网,能量回馈装置完成能量回馈功能。
基于智能机器算法的预测算法,结合人工智能技术和时间序列进行预测。相关的理论基础主要涉及贝叶斯网络、支持向量机、BP神经网络、径向基函数神经网络、马尔科夫链理论、灰色理论、混沌理论、EM聚类以及群体智能算法等。
预测算法从网络舆情发展的统计规律和用户的网络关系、行为特征等客观因素出发,对网络舆情进行预测,虽然取得一定成果,但由于没有考虑到不同舆情的发展趋势可能有较大差别以及用户情感、态度等主观因素,导致预测达不到预期效果。
微博是近年新兴起的、广受欢迎的网络信息交流平台。仅仅新浪微博一个平台,2018年中国用户数就已超过3.4亿人。网民可使用“转发”和“评论”功能对微博用户发布的消息进行传播。微博的转发预测对网络舆情监控具有重大应用价值。部分研究者对微博转发机制和基于微博的网络舆情预测算法做了大量的优化改进[79-85],并取得可喜的研究成果。
3分析评价
主要从技术、管理和应用等3个角度分析评价网络舆情监控算法的发展情况和存在问题。
采用Excel2010制表;Shannon-Weiner多样性指数计算参考柯春亮的方法[32]。用SPSS 19.0进行统计分析,用平均值和标准误表示测定结果,分别对不同菌株D/d值进行单因素方差分析,并用Duncan法对数据进行多重比较。
3.1 技术方面的分析评价
从1996年美国提出TDT项目开始,专家学者开始投入到网络舆情监控的研究中,并从文本分类算法、文本聚类算法这两个角度聚焦舆情发现,提出多种经典算法。这些经典算法各有优缺点,但并没有一种经典算法能较全面的适应各种不同的网络舆情特点而令其在监控准确率和效率方面具有较好的监控效果。有部分学者针对这些经典算法的缺点提出一些优化和改进,也有部分学者将若干种经典算法进行组合,既利用这些算法的优点也互补各自的缺点。虽然取得不错的效果,但依然解决不了经典算法的重要缺点,那就是没有考虑到文本包含的情感倾向问题,导致网络舆情监控的效果和效率较低。
随着研究的深入,学者发现通过文本的情感倾向分析更容易发现网络舆情,监控效果更好。一些专家学者投入到文本情感倾向分析的研究中,并从词语、语句和篇章的角度全方位探索情感倾向与网络舆情的关系,使监控的效果和效率有所提高。但在研究过程中发现,不同人群之间存在情感倾向性偏差问题,导致监控过程中出现误判,进而影响监控效果。这个问题迅速引起专家学者的关注并开始分析研究,专家学者们提出一些解决方法并展示了相关研究成果。情感倾向分析,对于负面网络舆情监控更有效,可以提前发现潜在的网络舆情,大幅提高监控效率。情感倾向监控算法和情感倾向偏差监控算法,需要对先对用户的情感学习分析,进行经验积累才能分析判断,对于新用户就无能为力了。
(6)基于密度的方法,先预设一个阈值,然后将密度大过该阀值的数据点,划分到与其最近的类别,其克服了基于距离算法只能发现“类图形”聚类的缺点。代表算法有Denclue、Dbscan和Optics等[42-44]。
网络舆情预测,是舆情监控的重要价值体现。专家学者从基于传统统计学和基于智能机器的角度提出一些预测算法,并通过实验验证了各种算法的预测精度和准确率,均取得不错的效果。鉴于微博比其他在线社交平台的用户数更多、活跃度更高,一些专家学者特别关注微博的转发预测,根据微博的特点开展研究,也取得一些研究成果。
网络用语呈现较大随意性、碎片化和语言非结构化等特点,现实中的数据多是混合数据类型的数据,而现有的舆情监控算法基本都是只针对较单一类型的数据,影响舆情发现的准确率和舆情监控效果。目前还很少涵盖了从文本爬取、舆情发现和监控到预测的整套解决方案。
无论是经典算法、拓展算法、情感倾向分析算法、综合智能监控算法还是舆情预测算法,几乎都是以文本为研究对象,甚少有关于音频、视频和图片的监控算法。由于现实中往往是文本、图片,甚至音频和视频同时存在,仅仅是针对文本进行监控,很可能达不到预期的监控效果。
3.2 管理方面的分析评价
经典监控算法仅仅是以文本中的词组出现频度等客观因素为研究对象,没有考虑用户的主观因素(例如情感倾向),导致监控效果较差。
情感倾向监控算法考虑了用户的态度、观点、行为特征和情感倾向等主观因素,监控效果得到较大提高。但没有考虑到用户的主观因素可能会随着时间变迁而发生变化,缺乏动态监测机制,可能造成效果不理想。
综合智能监控算法,考虑到跨平台的舆情传播情况,又借助云计算能力,提升了监控效率和监控效果。
部分研究者在网络舆情预测的优化改进方面做了大量研究工作[74-78],并取得不错的效果。
由于用户在平台上的言行只是其生活的一小部分,并不能真实全面的反映其思想状态和行为特点。现有的监控算法仅从用户在平台上的过往行为和情感、态度来分析判断用户的行为特征和情感倾向,进而对网络舆情进行监控和预测,明显是不够准确的,导致监控和预测效果得不到根本上的提升。
对于新用户,基于统计学的监控算法束手无策,基于机器学习的监控算法效果甚微。所以对于新用户比例较高的平台,情感倾向监控算法和预测算法的效果都不太理想。
目前的监控算法,认为舆情的形成主要是因为事件本身,是由事件推动的,而不是因为用户个体。经典算法以舆情客体作为研究对象,拓展算法虽然考虑了用户的主观因素,但并没有深入研究用户的内心世界和变化情况,仍然是把舆情作为主因,把用户作为次因。这种观点只适用于一般网络舆情的情况,但并不适用于负面网络舆情,因为负面网络舆情往往是由用户个体推动形成的。
江阴水利信息化一期工程建设1个市防汛防旱会商中心、3个局属单位防汛防旱会商分中心,分别是白屈港水利枢纽工程管理处会商分中心、江港堤闸管理处会商分中心和月城水利管理服务站会商分中心。
不同用户的世界观和价值观往往是不同的,对于同一事件的观点和看法也很可能不一样,因此对于某一网络事件的态度和行为差别也很大。因此需要深入研究用户的思想状态才能对其即将发生的行为作出科学判断,从而提高舆情监控效果。
现有的监控算法,几乎都是一致地面向所有的事件和用户,而没有考虑到不同事件形成舆情的可能性不同、不同用户对同一个事件的关注度和情感倾向不同,导致监控效率较低、预测效果欠理想。
外语隐喻能力自主发展与学习型词典介入:路径与方法 ………………………………………… 杨 娜(5.23)
经典算法以事件在某一时刻的状态作为监控对象,没有考虑到事件是动态变化的,向好或向坏的状态发展很可能导致舆情发生的状况不同。同时,拓展算法仅以用户的过去行为和情感作为判断依据,忽略用户的动态变化情况,没有及时更新变化信息,可能导致误判,进而影响监控效果。
3.3 应用方面的分析评价
现有的网络舆情监控几乎都是针对基于文本的社交平台,甚少针对图片、音频、视频社交平台。
虽然有专家学者专门针对BBS论坛、微博进行舆情监控研究,但鲜有针对微信、Twitter等新兴社交平台的舆情监控研究。
在虾稻鳜综合种养模式中,为了保证各物种足够的生存空间,对水产动物的产量进行了控制,虾单产1 950 kg/hm2,水稻单产6 250 kg/hm2,鳜鱼单产825 kg/hm2,饵料鱼单产375 kg/hm2,单产水平虽不高,但利润仍达77 125元/hm2左右,利润是水稻单作的10倍以上。在该模式中,由于饵料鱼转化为鳜鱼的饵料,其单项效益为负值。从虾稻鳜综合种养的生产经营情况来看,克氏原螯虾和鳜鱼的经济效益明显高于水稻的种植效益。
基于篇章的情感倾向分析,类似于文本分类问题,对于所有文章分为褒、贬两大类,一般应用于主题单一、倾向明确的文章[55]。
部分研究者在文本分类算法的优化改进方面开展大量研究工作[17-24],并取得一些不错的成果。
4发展展望
本文基于网络舆情的特点,综合各种网络舆情监控算法的优缺点和发展现状,提出未来网络舆情监控算法的发展趋势和展望。
部分研究者在文本聚类算法的优化改进方面开展大量研究工作[45-53],并取得较好的成果。
(2)经典算法的组合研究,将得到更广泛的发展。各种经典算法各有优缺点,组合使用可取长补短,提升监控效果和监控效率。同时,目前大多数经典算法都是只适用于某一种数据类型,组合使用可扩大经典算法的适用范围,使其应用到更多场景。
(3)更倾向于充分利用闲置网络资源,搭建云计算平台进行分布式监控,进一步提升监控效果和监控效率。网络舆情监控既要求准确性,更要求时效性。对于海量用户和巨量数据,单台计算设备几乎无法按时完成,因此基于云计算的监控算法必然是网络舆情监控算法的发展趋势。
(4)将更注重用户主观因素的影响。在应用实践中发现,对于同一个事件,不同网络平台的用户反应情况不一样,有些网络平台迅速出现网络舆情,但有些网络平台并没有出现网络舆情,甚至连关注该事件的用户都没有。用户的主观因素在网络舆情的形成中起到重要作用,这将引起更多专家学者的深入研究,并在监控算法中考虑更多用户主观因素的影响。
(5)很可能发生逻辑观念转变,主流观念将从由事件推动转变为由用户推动,进而兴起基于用户的经典监控算法和拓展算法。“思想指导行动”,用户是否转发、如何评论、发表乐观观点还是悲观观点,主要由其思想观念决定,而其思想观念往往受到其所处的时代背景、文化环境、个人经历和人际关系等因素的影响,因此,基于用户的监控算法需融入历史学、社会学、心理学和行为学等多门学科的知识。
(6)舆情事件和用户情感的动态变化将获得更多关注。网络舆情的产生、发展和消失,有其内在发展规律,每个阶段的发生和变化,与事件和用户情感的变化有密切关系,因此,监控算法将更关注事件和用户情感的动态变化,令监控效果进一步提升。
(7)跨平台的舆情监控算法将成为主要的研究方向。目前的主要在线社交平台包括微信、微博、Twitter、BBS和SNS等,虽然已有少数专家学者研究跨平台的监控算法,但效果还不够理想。只有全网络范围内的跨平台监控,才能真实反应舆情发展和变化情况,最终实现监控和预测效果的提高。从应用推动研究发展的角度看,跨平台的监控算法必将成为未来的发展主流。
(8)深度理解网络舆情的差异化特点,让监控算法的效率和效果得到进一步提升。深入研究不同网络舆情的特点,分析各种网络舆情的产生原因、形成机理、影响因素和发展趋势等,让监控算法更智能化,不断提高监控效果和监控效率、提升预测精度和准确率。
(9)细分网络舆情监控的种类和用户群,细分领域的监控算法将百花齐放。不同领域的网络舆情特点不完全相同,如工业舆情、文化舆情、饮食舆情和公共事务舆情等的细分领域,将让监控算法更短小精干、监控效果效率更高。不同用户对同一个事件的关注度和情感倾向不同,研究乐观、中庸和悲观等不同细分用户群的特点,将让监控算法更精准。负面网络舆情监控的研究将引起更多专家学者的关注和研究。
目前所做的酒店项目基本都要求接入RCU客控系统,通过将客控系统的联网接入前台PMS系统中,以实现根据客房入住情况对客房内空调的远程控制。当客房为空置状态,风机盘管就会切换到低速运转状态,客房温度会保持在低于酒店正常舒适一定范围内,实现节电节能;当有客人入住时,风机盘管将切换到高速运转状态,以尽快将客房温度调节到正常舒适的范围;客人入住后,为满足不同客人的个性化需求,风机盘管面板权限为开放状态,方便客人手动调节使用。
(10)综合的监控体系将得到更多关注和发展。事件的产生、变化和消失,除了事件本身的发展规律外,还在很大程度上受到政府、利益集团、媒体和网民等相关因素的主观行为影响。除了监控事件本身的变化情况外,还需要监控以上相关因素的变化情况。仅从平台上的行为和情感倾向分析,无法准确、全面地把握用户的思想状态和行为特征,需要从更广泛的范围进行分析,例如从生活中的工作职务、人际关系和财产收入等方面的变化情况动态捕捉用户的最新思想状态,进而判断用户在平台上的情感倾向和言行变化,从而对网络舆情作出更精确的判断和预测。综合监控体系,将让监控算法对新用户更加得心应手。
糖尿病是一种慢性终身性疾病,其中Ⅰ型糖尿病(T1DM)好发于儿童和青少年,在治疗过程中除了使用胰岛素和药物控制,需要借助运动、控制饮食等措施协助控制血糖水平。有研究明确指出提高糖尿病患者自我管理水平,可有效提高患者遵医行为,从而提高患者的生存质量[1],呼吁应采取有效措施提高糖尿病患者的自我管理行为。但是患儿因知识缺乏或技能欠缺等原因自我管理水平较低,需要主要照顾者通过一定途径进行培养。该次研究2015年8月—2017年8月间对35例Ⅰ型糖尿病患儿主要照顾者采取授权理论为指导的健康教育方式,效果满意,现报道如下。
5结论
梳理了现有的网络舆情监控算法,将其归纳为经典算法和拓展算法,其中经典算法包括文本分类算法和文本聚类算法,拓展算法包括情感倾向监控算法、情感倾向偏差监控算法、综合智能监控算法和预测算法。分析这些算法的优缺点和常见算法的性能对比,整理了部分专家学者对这些算法的优化改进研究情况并对其研究成果进行分析。
从技术、管理和应用等3个角度分析现有网络舆情监控算法,客观评价其优化改进环节和取得的成效,并指出不足之处。现有网络舆情监控算法存在的问题主要集中在只基于文本、针对单一数据类型、没有考虑事件和用户的差异化特点和动态变化情况、缺乏综合监控体系思维和管理机制等方面。进而从网络舆情的特点、发展规律、驱动因素、现有监控算法不足和监控效果期望等角度探讨网络舆情监控算法的发展趋势,指出其发展方向应该是基于云平台、针对多媒体和面向全网络范围内的细分群体的动态综合监控体系。
参考文献:
[1]DOHERTY O, KIERAN C. Deliberative public opinion: development of a social construct[J]. History of the Human Sciences, 2017, 30(4): 124-145.
[2]中国互联网络信息中心.第42次《中国互联网络发展状况统计报告》[R/OL].(2018-08-20)[2018-12-01].http://www.cac.gov.cn/2018-08/20/c_1123296882.htm.
[3]曾子明, 万品玉. 融合演化特征的公共安全事件微博情感分析[J]. 情报科学, 2018, 5(1): 73-82.
[4]黄克敏, 先科, 李帅, 等. 网络舆情热点新闻发现技术研究[J]. 网络安全技术与应用, 2017(6): 151-152.
[5]游丹丹, 陈福集.我国网络舆情预测研究综述[J]. 情报科学, 2016, 34(12): 156-160.
[6]谭雪晗, 涂艳, 马哲坤. 网络舆情治理研究综述[J]. 电子政务, 2016(8): 64-74.
[7]邓福成, 尹武松, 陆和建. 近10年我国基于网络舆情分析的政府决策机制研究综述[J]. 图书馆学研究, 2014(16): 7-12.
[8]柳虹. 网络热点发现研究[J]. 科技通报, 2011, 27(3): 421-425.
[9]BOUKHRIS I, ELOUEDI Z, AJABI M. Toward intrusion detection using belief decision trees for big data[J]. Knowledge and Information Systems, 2017, 53(3): 671-698.
[10]NETTI K, RADHIKA Y. A hybrid prediction algorithm using naive Bayes classifier for improving accuracy in classifying LISS III data[J]. Journal of Indian Geophysical Union, 2017, 21(4): 271-276.
[11]SATU S, AKTER T, UDDIN J. Performance analysis of classifying localization sites of protein using data mining techniques and artificial neural networks[C]//IEEE.2017 IEEE International Conference on Electrical, Computer and Communication Technologies.Coimbatore: IEEE,2017: 860-865.
[12]RUAN Y, XUE X L, LIU H,et al. Quantum algorithm for K-nearest neighbors classification based on the metric of hamming distance[J]. International Journal of Theoretical Physics, 2017, 56(11): 3496-3507.
[13]刘军煜, 贾修一. 一种利用关联规则挖掘的多标记分类算法[J]. 软件学报, 2017, 8(12): 63-66.
[14]ALADEEMY M, TUTUN S, KHASAWNEH T. A new hybrid approach for feature selection and support vector machine model selection based on self-adaptive cohort intelligence [J]. Expert Systems with Applications, 2017, 88: 118-131.
[15]VISCHIA P, DORIGO T. The inverse bagging algorithm: anomaly detection by inverse bootstrap aggregating[C]//IEEE.12th Conference on Quark Confinement and the Hadron Spectrum. Thessaloniki:IEEE,2017, 137: 381-387.
[16]MENEZES S, LISKA R, CIRILLO A. Data classification with binary response through the Boosting algorithm and logistic regression[J]. Expert Systems With Applications, 2017, 69: 62-73.
[17]毕佳佳, 张晶. 基于关系选择的多关系朴素贝叶斯分类[J]. 计算机工程, 2016, 42(5): 218-223.
[18]张杰, 陈怀新. 基于归一化词频贝叶斯模型的文本分类方法[J]. 计算机工程与设计, 2016, 37(3): 799-802.
[19]邸鹏, 段利国. 一种新型朴素贝叶斯文本分类算法[J]. 数据采集与处理, 2014, 29(1): 71-75.
[20]蒋芸, 陈娜, 明利特, 等. 基于Bagging的概率神经网络集成分类算法[J]. 计算机科学, 2013, 40(5): 242-246.
[21]李文进, 熊小峰, 毛伊敏. 不确定性数据的超球支持向量机分类方法[J]. 计算机工程与设计, 2015, 36(7): 1778-1783.
[22]陶树平, 屠颖. 关联规则和分类规则挖掘算法的改进与实现[J]. 计算机工程, 2003, 29(15): 100-101, 187.
[23]姚明海, 赵连朋, 刘维学. 基于特征选择的Bagging分类算法研究[J]. 计算机技术与发展, 2014, 24(4): 103-106.
[24]王世勋, 潘鹏, 陈灯, 等. 一种自适应的多类Boosting分类算法[J]. 计算机科学, 2017, 44(7): 185-190.
[25]GUPTA U, PATIL N. Recommender system based on hierarchical clustering algorithm Chameleon[C]//IEEE.IEEE International Advance Computing Conference (IACC 2015).Santiago:IEEE,2015:1006-1010.
[26]LIU J, ZHAO X D, XU Z H. Identification of rock discontinuity sets based on a modified affinity propagation algorithm[J]. International Journal of Rock Mechanics and Mining Sciences, 2017, 94: 32-42.
[27]AARUM I, DEVLE H, EKEBERG D. The effect of flash pyrolysis temperature on compositional variability of pyrolyzates from birch lignin[J]. Journal of Analytical and Applied Pyrolysis, 2017, 127: 211-222.
[28]LAKSONO T, PURWANTO Y, NOVIANTY A. DDoS detection using CURE clustering algorithm with outlier removal clustering for handling outliers[C]//IEEE.International Conference on Control, Electronics, Renewable Energy and Communications (ICCEREC). Bandung:IEEE,2015:12-18.
[29]LI F, DAI L L, JIANG Z Y. Single-Pass clustering algorithm based on storm[C]//IEEE. International Conference on Control Engineering and Artificial Intelligence (CCEAI).Kuala Lumpur: IEEE, 2017, 806: 623-629.
[30]KIM B. A fast K-prototypes algorithm using partial distance computation[J].Symmetry-Basel, 2017, 9(4): 316-324.
[31]WANGCHAMHAN T, CHIEWCHANWATTANA S, SUNAT K. Efficient algorithms based on the K-means and chaotic league championship algorithm for numeric, categorical, and mixed-type data clustering[J]. Expert Systems with Applications, 2017, 90: 146-167.
[32]LACKO D, HUYSMANS T, VLEUGELS J. Product sizing with 3D anthropometry and K-medoids clustering [J]. Computer-Aided Design, 2017, 91: 60-74.
[33]ICHWANUL K, HUDA F. Spatial clustering for determining rescue shelter of flood disaster in south Bandung using Clarans algorithm with polygon dissimilarity function[C]//IEEE. 12th International Conference on Mathematics, Statistics, and Their Applications (ICMSA).Singapore: IEEE, 2016: 70-75.
[34]KHROUF O, KHROUF K, FEKI J. CobWeb multidimensional model: visualizing OLAP query results using tag-cloud operators[C]//ANA MARIA MADUREIRA. Intelligent Systems Design and Applications (ISDA 2016). Porto: Springer, 2017, 557: 995-1004.
[35]MONTEIRO B, CARNEIRO M, LIMA B. Improved search mechanisms for the fish school search algorithm[C]// ANA MARIA MADUREIRA.Intelligent Systems Design and Applications (ISDA 2016).Porto: Springer, 2017, 557: 362-371.
[36]YAN T S, ZHANG Y X, ZHAO Y H, et al. Exploration of SDSS stellar database by AutoClass[J]. Science China(Physics, Mechanics & Astronomy), 2011, 54(9): 1717-1726.
[37]TAKEMURA Y,YOKOYAMA M,OMORI S,et al. Development of SOM algorithm for relationship between roles and individual's role in rugby 2nd reports: university rugby teams analysis using physical and psychological data[C]//IEEE. International Conference on Artificial Life and Robotics (ICAROB).Miyazaki: IEEE, 2017:412-415.
[38]NGUYEN D D, VO N P, VO T N T, et al. STING algorithm used English sentiment classification in a parallel environment[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2017, 31(7): 568-576.
[39]MALLADI T, MITROVIC-MINIC S, PUNNEN P. Clustered maximum weight Clique problem: algorithms and empirical analysis[J]. Computers & Operations Research, 2017, 85: 113-128.
[40]ENAM N, ISMAT N, FAROOQ F. Connectivity and coverage based grid-cluster size calculation in wireless sensor networks[J]. Wireless Personal Communications, 2017, 9(2): 429-443.
[41]刘晓波, 邵伟芹, 张明明, 等. 基于双网格校正小波聚类的转子故障诊断[J]. 计算机集成制造系统, 2017, 23(9): 1883-1890.
[42]ZHANG K, XIONG Y Z, HUANG L. A novel algorithm based on avoid determining noise threshold in DENCLUE [C]//JIA Y M,DU J P,ZHANG W C,et al. Proceedings of 2016 Chinese Intelligent Systems Conference.Singapore: Springer, 2016, 405: 301-311.
[43]KAZEMI M, ABBASPOUR A, MOJARAB M. Spatio-temporal modeling of seismic provinces of Iran using DBSCAN algorithm [J]. Pure and Applied Geophysics, 2017, 174(5): 1937-1952.
[44]SHUKLA M, KOSTA P, JAYSWAL M. A modified approach of OPTICS algorithm for data streams[J]. Engineering Technology & Applied Science Research, 2017, 7(2): 1478-1481.
[45]马存, 郭锐锋, 高岑, 等. 改进特征权重的短文本聚类算法[J]. 计算机系统应用, 2018, 9(3): 149-153.
[46]PHUVIPADAWAT S, MURATA T. Breaking news detection and tracking in twitter [C]//IEEE. Web Intelligence and Intelligent Agent Technology (WI-IAT), 2011 IEEE/WIC/ACM.Lyon: IEEE,2010: 120-123.
[47]赖向阳, 宫秀军, 韩来明. 一种MapReduce架构下基于遗传算法的K-medoids聚类[J]. 计算机科学, 2017, 44(3): 23-26, 58.
[48]赵晓楠, 马晨辰. 基于Single-Pass的军事网络舆情监控系统设计[J]. 电子设计工程, 2017(6): 233-236.
[49]杨长春, 周猛, 叶施仁, 等. 基于改进CURE算法的微博热点话题发现[J]. 计算机仿真, 2013, 30(11): 383-387.
[50]高长元, 王海晶, 王京. 基于改进CURE算法的不确定性移动用户数据聚类[J]. 计算机工程与科学, 2016, 38(4): 768-774.
[51]朱烨行, 李艳玲, 杨献文. 一种改进CHAMELEON算法的聚类算法COCK[J]. 微电子学与计算机, 2015, 32(12): 173-176.
[52]李阳, 马骊, 樊锁海. 基于动态近邻的DBSCAN算法[J]. 计算机工程与应用, 2016, 52(20): 80-85.
[53]毛天铭, 关鹏, 皮德常. 一种改进拓扑势的意见领袖挖掘算法[J]. 计算机科学, 2016, 43(6): 194-198.
[54]张艳丰, 李贺, 彭丽徽. 基于直觉模糊推理的网络舆情监测预警评估方法研究[J]. 情报杂志, 2017, 13(10): 122-126.
[55]邓楠, 余本功. 基于情感词向量和BLSTM的评论文本情感倾向分析[J]. 计算机应用研究, 2017, 8(10): 194-196.
[56]兰天, 郭躬德. 基于词共现和情感元素的突发话题检测算法[J]. 计算机系统应用, 2016(8): 101-108.
[57]曹玖新, 陈高君, 吴江林,等. 基于多维特征分析的社交网络意见领袖挖掘[J]. 电子学报, 2016(4): 898-905.
[58]张朝龙, 许源平, 郑皎凌. 基于协同过滤和文本相似性的Web文本情感极性分类算法[J]. 成都信息工程学院学报, 2015, 30(4): 355-360.
[59]陆振东, 张楠. 基于句法与主题扩展的中文微博情感倾向性分析模型[J]. 计算机应用, 2014, 78(2): 561-570.
[60]刘龙飞, 杨亮, 张绍武, 等. 基于卷积神经网络的微博情感倾向性分析[J]. 中文信息学报, 2015, 29(6): 159-165.
[61]黄高峰, 周学广. 一种语句级细粒度情感倾向性分析算法研究[J]. 计算机应用与软件, 2015, 32(4): 239-242.
[62]YARDI S, BOYD D. Dynamic debates: an analysis of group polarization over time on twitter[J]. Bulletin of Science, Technology & Society, 2016, 69(6): 66-133.
[63]YZERBYT V, DUMONT M, WIGBOLDUS D. The impact British of categorization emotions and action tendencies[J]. Journal of Social on-Wiley Online Library, 2017, 23(8): 62-66.
[64]赵蓉英, 张扬. 基于时空维度的国内外情感分析研究演化分析[J]. 情报科学, 2018, 6(11): 204-209.
[65]何跃, 赵书朋, 何黎. 基于情感知识和机器学习算法的组合微文情感倾向分类研究[J]. 情报杂志,2018, 11(7): 102-106.
[66]刘勘, 袁蕴英. 基于词向量的微博情感倾向分类研究[J]. 图书情报工作, 2018, 6(8): 138-144.
[67]王林, 李昀泽. 情感倾向分析在舆情监控方面的研究[J]. 微型机与应用, 2017, 36(5): 11-13, 17.
[68]JIANG J, SU Z, ZHANG G, et al. Agent-behavior strategy in serial multi-task coalition formation[J]. Control Theory & Applications, 2016, 25(5): 853-856.
[69]YE D Y, ZHANG M J, DANNY S. Self-adaptation-based dynamic coalition formation in a distributed agent network: a mechanism and a brief survey[J]. IEEE Trans on Parallel and Distributed Systems, 2017, 24(5): 1042-1051.
[70]柳赛男, 陈明亮. 基于文化算法的多agent 联盟在网络舆情监测中的应用[J]. 控制与决策, 2014, 29(9): 1724-1728.
[71]冯如晓, 刘志明, 雷龙艳. 基于搜索引擎的关键词舆情过滤算法研究[J]. 计算机工程应用技术, 2014, 10(6): 1328-1332.
[72]周东浩, 韩文报. DiffRank: 一种新型社会网络信息传播检测算法[J]. 计算机学报, 2014, 37(4): 884-893.
[73]郭韧, 李娜. 网络舆情监控中的知识匹配研究[J]. 情报理论与实践, 2015(9): 110-113.
[74]赵丽娟. Logistic 曲线在网络舆情预测中的应用研究:以“广西镉污染”网络舆情事件为例[J]. 网络安全技术与应用, 2014(6):11-12.
[75]田世海, 吕德丽. 改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警[J]. 数据分析与知识发现, 2017, 5(7): 160-164.
[76]孙靖超, 高见, 胡啸峰. 基于改进注意力模型的网络舆情趋势预测研究[J]. 情报杂志, 2018, 6(3): 76-80.
[77]陈福集,史蕊. 基于残差修正的多因素灰色模型的网络舆情预测研究[J]. 情报科学, 2018, 5(8): 201-205.
[78]魏德志, 陈福集, 郑小雪. 基于混沌理论和改进径向基函数神经网络的网络舆情预测方法[J]. 物理学报, 2015, 64(11) :44-51.
[79]ZHANG Y, LU R, YANG Q. Predicting retweeting in micro-blogs[J]. Journal of Chinese Information Processing, 2017, 26(4): 109-121.
[80]CAO J X, WU J L, SHI W. Sina micro-blog information diffusion analysis and prediction[J]. Chinese Journal of Computers, 2016, 37(4): 779-790.
[81]QI C, CHEN H C, YU Y. Micro-blog information diffusion effect based on behavior analysis[J]. Journal of Computer Applications, 2017, 34(8): 2404-2408.
[82]DING X, LIU Q C, ZHANG W. An improved model for information dissemination and prediction on micro-blog networks[J]. Journal of University of Science and Technology of China, 2017, 42(7): 582-598.
[83]XIE J, LIU G S, SU B. Prediction of users retweet behavior in social network[J]. Journal of Shanghai Jiaotong University, 2016, 47(4): 584-588.
[84]KUANG C, LIU Z Y, SUN M S. Personalized ranking of micro-blogging forwarders[J]. Journal of Shandong University(Natural Science), 2017, 49(11): 31-36.
[85]王振飞, 刘凯莉, 郑志蕴, 等. 基于逻辑回归模型的微博转发预测[J]. 小型微型计算机系统, 2016, 37(8): 1651-1655.
Research and Analysis of Network Public Opinion Monitoring Algorithms
Xie Weihong1,2, Yang Chaobo1,2, Zhu Yuxiao1,2, Li Zhongshun1,2, Jiang Kanyang3
(1.School of Management, Guangdong University of Technology;2.Institute of Big Data Strategic Research, Guangdong University of Technology, Guangzhou 510520, China;3. College of Computer Science and Engineering, Rochester Institute of Technology, New York 10041NY212, USA)
Abstract :This paper combs the current network public opinion monitoring algorithms, summarizes them into classical algorithms and extended algorithms, analyzes the advantages and disadvantages of these algorithms, also compares the capabilities of famous algorithms, arranges the research situation of some experts and scholars on the optimization and improvement of these monitoring algorithms and analyzes their research results. It evaluates the optimization and improvements of these monitoring algorithms from the perspectives of technology, management and application. It is pointed out that the problems are mainly based on text, aiming at a single data type, without considering the differential characteristics and dynamic changes of events and users, and lacking comprehensive monitoring system thinking and management mechanism. Next, the development trend of network public opinion monitoring algorithm in the future is discussed from the point of view of the characteristics, development law and driving factors of network public opinion, the deficiencies of existing monitoring algorithms, and the expectation of monitoring effect.
Key words :network public opinion; monitoring algorithm; text classification; text clustering; emotional inclination
中图分类号: C93
文献标志码: A
文章编号: 1000-7695( 2019) 22-0197-09
收稿日期: 2018-12-16,修回日期: 2019-04-10
基金项目: 国家自然科学基金项目“大数据背景下的网络隐私顾虑影响因素及行为效应研究:基于多维发展理论视角”(71672043)
doi: 10.3969/j.issn.1000-7695.2019.22.026
作者简介: 谢卫红(1969—),女,湖北荆州人,博士,教授,博士研究生导师,主要研究方向为大数据战略管理、数据隐私与交易、战略信息管理与创新、企业战略与组织理论、盈利模式、技术创新管理等;杨超波(1982—),男,广东茂名人,博士研究生,主要研究方向为大数据、网络舆情算法优化等;朱郁筱(1987—),女,浙江温州人,博士,讲师,主要研究方向为数据结构与信息管理等;李忠顺(1990—),男,广东汕头人,博士研究生,主要研究方向为商业模式创新等;蒋瞰阳(1991—),男,广东广州人,硕士研究生,主要研究方向为计算机与网络安全等。
标签:网络舆情论文; 监控算法论文; 文本分类论文; 文本聚类论文; 情感倾向论文; 广东工业大学管理学院论文; 广东工业大学大数据战略研究院论文; 罗切斯特理工大学计算机科学与工程学院论文;