互联网舆情挖掘研究述略,本文主要内容关键词为:舆情论文,互联网论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着互联网的迅猛发展,网络已成为庞大的公共信息集散地和民众参政议政最常用的平台。在网络上,任何人都可以在博客、BBS跟帖或论坛发布言论和观点,并且发布者往往不必考虑发布内容的真实性以及带来的社会影响。社会民众通过网络所表达的群体性情绪、意见与要求等形成的网络舆情,是社情民意中最活跃、最尖锐的一部分,最直接、快速地反映了社会各个层面的舆情状况与发展态势,并且随着网民数量持续增长,网络舆情对社会产生的影响力越来越大,受到相关部门的高度关注和重视,截至2009年6月30日,中国网民规模达到3.38亿人,普及率达到25.5%。网民规模较2008年底年增长4000万人,半年增长率为13.4%,中国网民规模依然保持快速增长之势[1]。
舆情是指在一定社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。如果把中间的一些定语省略掉,舆情就是民众的社会政治态度[2]。目前,对网络舆情的研究,在理论方面有学者注意到网络舆情的影响力,提出需要建立网络舆情信息汇集、分析、预警机制,但尚未进一步涉及深入到细节的具体实施方式[3]。研究网络舆情对塑造政府形象,及时解决民众的利益问题,以及推动民众参政议政和丰富人民当家做主的民主形式,正确引导网络舆论,维护社会稳定和人心安定,都具有重要的现实意义[4]。
1 互联网舆情挖掘框架层次结构
网络舆情挖掘研究可分为5个层次:舆情信息来源、舆情信息采集、舆情信息预处理、网络舆情信息分析、舆情信息处理。这5个层次的研究从整体上反映了网络舆情挖掘的研究现状和成果,具体的研究框架如图1所示。
图1 网络舆情挖掘框架图
(1)舆情信息来源的选择对于以后的舆情挖掘研究至关重要,只有准确地把握舆情信息的最初来源,才可能获得更为全面的舆情。目前,舆情主要的信息来源有政府网站,如新华网、人民网等;新闻及网络媒体站点,如光明日报、新浪等;论坛、博客、BBS跟帖,如强国论坛、中国博客网、高校BBS等。
(2)舆情信息采集主要是Web信息采集,通过Web页面之间的链接关系,从Web上自动获取舆情页面信息,并且随着链接不断向整个Web扩展的过程。目前,根据国际流行的看法认为Web信息采集可以分为:基于主题的Web信息采集、基于元搜索的信息采集等[5]。
(3)舆情信息预处理主要是对采集到的相关舆情信息网页进行初步的加工和处理,为后继的舆情信息分析奠定基础。主要涉及信息过滤、关键信息抽取、自动摘要等核心技术。
(4)网络舆情信息分析是指对从网络中所采集到的反映社会舆情的新闻、评论等信息素材进行分类、聚类、倾向性分析等,根据舆情信息分析评价指标的结果,确认其可信度和有效性,然后对舆情主题重新组织信息,生成经过分类和处理的有针对性的舆情信息。
(5)舆情信息处理包括舆情信息预警、舆情报告和舆情引导[6],首先根据分析统计得到的相关舆情信息,根据相关网络舆情预警指标,实施报警和预测,然后向相关部门汇报经过总结的有规律的舆情,从而为舆情工作者的决策提供服务。
2 互联网舆情挖掘关键技术
2.1 网络舆情信息采集
本节主要介绍基于主题的Web信息采集技术。基于主题的Web信息采集能够根据用户定制的某类主题内容,搜索有限的网络空间,自动识别、下载与主题相关的信息,通过网页去重策略消除重复页面,为用户提供个性化的信息服务,该方法具有较高的准确性和较广的信息查全率,其主要模块流程如图2所示。
(1)种子页面的自动生成是用户指定部分关键词,并将这些关键词提交给通用搜索引擎(如Baidu),从检索结果中抽取前N个页面作为种子页面添加到种子库中。
(2)主题相关度计算中最重要的是如何确定有实际意义的主题,目前常用主题表示方法有:基于关键词的主题表示[7]。主题相关度计算常用且效果最好的是基于向量空间模型的主题匹配算法,即将主题和待比较的URL转化成向量后通过余弦夹角公式计算其相似度。
图2 基于主题的Web信息采集
(3)网页去重是因为网络中大量存在复制网页,虽URL不同,但内容完全一样,导致在抓取网页时会产生页面重复的现象。目前常用的去重策略是对网页的内容采用MD5算法,然后再与其他网页进行比较[8],从而达到去重目的。
2.2 网络舆情信息预处理
(1)自动摘要是指利用计算机对网页内容进行处理,从中选出最能代表文章主旨的词句,经过重组修饰后以简洁的形式表达出来,通过该自动摘要可以快速了解文章大意与核心内容[9]。首先对网页内容进行结构化分析,获得段落信息和各级小标题层次信息;然后根据这些信息使用统计方法和启发式规则来提取网页中的舆情关键词、关键句。最后计算这些关键词、关键句的权重,并以此为基础进行文摘的抽取。
(2)关键信息抽取主要是抽取舆情的关键信息,首先要进行网页净化,去除与舆情主题信息无关的噪音[10],目前主要的方法是基于实际网页特点的算法和基于机器学习的去噪音算法。同时还可以把中文文本中人名实体化的自动化抽取方法应用到网络舆情信息抽取中,对那些新闻人物、焦点人物进行自动抽取[11]。
2.3 网络舆情信息分析关键技术
网络舆情信息大量在论坛、电子邮件等互联网上广泛传播,这给舆情信息及时、准确的分析带来了很大程度上的困难。针对网络舆情信息规模大,凌乱无序等特点,国内外开展了舆情信息分析的一些相关技术研究,主要包括:话题检测与跟踪技术[12]、Web信息挖掘技术和文本倾向性分析[13]。
2.3.1 话题检测与跟踪技术
话题检测与跟踪(Topic Detection and Tracking,TDT)技术的研究始于1996年,是一种面向信息安全的技术,即如何检测新发生的事件并追踪事件后续发展动态的信息智能获取技术。美国国家标准与技术研究院为TDT设立了五项基础性研究任务:新闻报道的切分、已知话题的跟踪、未知话题的检测、新事件的检测和报道间相关性检测任务[14]。
(1)报道切分的主要任务是从一个信息源获得的原始数据流切分成具有完整结构和统一主题的不同新闻报道。报道切分系统的性能依赖于源数据的形式以及做出决策准许的最大延迟时间,通常采用最大熵和决策树混合的模型来处理。
(2)话题追踪的主要任务是要识别并跟踪关于某个已知话题的新闻报道,已知话题通常是事先给出一个或几个已知的、关于该话题的新闻报道,话题追踪系统根据这些新闻报道可以学习到一些关于该话题的先验知识。主流话题跟踪算法是在改进分类算法的基础上实现的,如James和Michael[15]采用Rocchio算法实施话题跟踪。文献[16]提出的利用链接分析的话题跟踪方法,是在内容计算的基础上引入链接分析技术。
(3)话题检测的主要任务是从输入的新闻报道中自动检测出未知话题,并把结果归入到不同的话题簇中,在需要的时候建立新的话题簇,话题检测对新闻话题没有先验知识。话题检测可以看作是一种按事件的聚类,Dragon[17]提出了一种基于K-means聚类的话题检测算法。文献[18]提出的核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题。
(4)新事件检测的主要任务是检测出以前没有讨论过的话题所出现的第一篇相关报道。新事件检测的主流方法是通过建立一个在线识别系统来检验报道流中新出现事件,并根据先验阈值判断报道是否为新事件的第一次报道。文献[19]中提出将话题和报道划分为不同的子话题,根据相关子话题的比例关系和分布关系建立新话题识别模型。
(5)关联检测的主要任务是判断两篇报道是否在讨论同一个话题。目前,国内外对此项技术的研究很多,Schultz[18]采用向量空间模型来描述报道的特征空间,利用计算特征之间的余弦夹角来衡量两篇报道之间的相似性。文献[20]提出了基于语义域语言模型的关联检测方法,并融合依存关系辅助其语义描述,在此基础上建立话题模型参与新闻报道相关性的计算。
2.3.2 Web信息挖掘技术
利用Web信息挖掘技术,可以及时有效地从互联网上发现并获取相关的舆情热点问题,及时发现网上某些敏感词汇,如“暴乱、疫情”等,并对于某些重点人物、重点帖子的表现及时评估舆情的影响效果。目前常用的Web信息挖掘技术主要有:统计分析、关联规则、序列模式、聚类分析和分类分析[21]。
(1)统计分析是利用统计、概率的原理对关系中各属性进行统计分析,从而找出它们之间的关系和规律。利用统计分析可以对感兴趣的内容进行蕴含信息的挖掘,通过分析服务器日志文件,可以得到各种统计分析描述,发现并追踪社会热点和焦点内容。
(2)关联规则就是挖掘出隐藏在数据中的相互关系,即给定一组属性和一个记录集合,通过分析记录集合,推导出属性间的相关性。通过获取关联规则,可以将其作为启发式规则,分析远程客户可能请求的页面,从而对用户的行为作出预测。
(3)序列模式和关联规则类似,也是为了挖掘出数据间的联系,但是它侧重于挖掘出反映数据间的前后关系的规则。通过序列模式分析可以发现同一类网络舆情问题在不同时期的演变情况,从而能够预测舆情将来的发展趋势。
(4)聚类分析是按照某种相近程度的度量将一组未标定或未做出任何分类的信息分成互不相同的类别。通过聚类分析可以判别当前网络舆情的热点和重点问题,对于聚类分析划分出来的主题,经过简单统计可以发现目前网络上的舆情及其构成[22]。
(5)分类分析是将一个对象分到事先定义好的类中,分类的准则是预先设定好的。通过分类分析可以把相关网页都划分到同一个类别,有利于发现最初始的舆情发布网页,追溯到舆情源头,及时制止舆情的进一步突变。
2.3.3 文本倾向性分析
由于网络的虚拟性和匿名性,使得网络上的内容在大多数情况下真实地表达出了民众的态度和情绪,通过倾向性分析可以明确网络传播者的真正意图和倾向。文本舆情所描述的是文本传递的情感,因为语言的感情色彩是客观存在的,网页内容也不是单一的事件或人物的描述,它还传递了网页作者和信息发布者所代表的立场、情感态度等信息。对文本舆情的分析,实际上就是试图根据文本的内容提炼出作者的情感方向,挖掘文本内容蕴含的各种观点、喜好等非内容或非事实信息。为了实现对文本信息的准确提取,不仅需要掌握该文本的影响强度,同时还要对文本的感情取向有一个正确把握,如果对每一个文本赋一个值,那么影响强度可以看成是其绝对值的大小,而舆情就是其正负号[23]。
国外研究主要有:Pang提出了对语义倾向分类结果再进一步按照语义倾向强度进行细分的方法等。文献[24]提出利用框架技术对报道的描述进行不同侧面的敏感要素抽取,构成敏感要素集,作为一种分类体系,在报道中找出包含这些要素的关键句,并根据分句提供的信息结构、立场概念库等进行倾向性计算。
3 网络舆情信息处理
网络舆情信息处理包括舆情预警、舆情报告和舆情引导三个方面。舆情预警是指以按需定制的方式提供给决策者或舆情监督部门,他们可以对已有的舆情报告进行评估,采取相应的行动,产生新的舆情信息需求,进而划分新的舆情分析重点,开始新的舆情分析[25]。预警指标根据实际情况设定阈值,阈值是根据舆情主题下的信息条目随时间变化的百分比而设定的,它所反映的是该主题事件是否是突发舆情事件,然后利用关注聚焦度、主题权威度等指标,进行归一化加权测算,如果计算所得的值超出这个阈值,则发出舆情预警信号。
预警信息的应用可以帮助舆情分析人员及时发现一些热点或负面信息的征兆,注意群众的心理情绪、愿望心声以及突发性的动态,同时还可以避免群体非理性行为的发生,防止和消除不良信息的传播。舆情报告是在得出舆情预警之后,根据相应的工作机制,向领导汇报舆情动向,为领导实施方案提供参考[26],同时,判断舆情的影响力和发展趋势,决定是否需要采取措施,并根据舆情的重要程度分别采取跟踪、疏导、控制等处置手段。
4 网络舆情系统述略
国外对于网络舆情的研究起步较早,在1996年,新加坡SBA设立监控网络有害信息中心,内容提供商被要求用代理服务器对某些网络舆论信息来源进行过滤。英国“科波拉软件公司”在2005年推出的舆情感情色彩分析软件,它主要是通过网络舆情过滤和分级技术实现的,该技术可自动分辨语法成分,从而判断文章的感情色彩。虽然中外在互联网监管体制和管理模式方面存在着差异,但是国外网络舆情的理论和实践研究对于我国的网络舆情研究有一定的参考价值。
我国对于网络舆情的研究始于2005年,随后国内建立了许多针对网络舆情的研究机构,如2005年10月,西北大学成立的陕西省社会舆情研究中心,2009年1月北京交通大学成立网络舆情安全研究中心等。目前,已有许多投入使用的网络舆情监测系统,但是由于业务和关注点的不同,各系统功能存在着很大的差异,几种常用的舆情心疼具体比较如表1所示。
表1 网络舆情应用系统
除了上述系统外,实际应用的网络舆情监测系统还有乐思网络舆情监测系统等。这些系统大多是通过对网站、论坛等信息源进行实时监控来帮助政府及时掌握舆情动向,准确捕捉预警信息,对产生较大影响力的重要事件快速发现和快速处理,从正面引导舆论和宣传,构建积极向上的主流舆论,并为政府决策提供客观的舆情信息依据。
5 结语
本文针对网络舆情信息的特点,提出了互联网舆情挖掘研究的框架层次结构,首先分析了网络舆情信息的来源,BBS、论坛等,这些都是舆情监测的重点对象。简单介绍了互联网舆情信息采集技术,为后继舆情信息的预处理和舆情内容分析奠定基础,重点讨论近期国内外在舆情信息分析领域的相关研究,并详细介绍舆情信息分析中所涉及的相关技术,通过舆情分析的结果,为舆情预警和舆情报告提供可靠、准确的科学依据,对构建网络舆情的监测和预警系统有一定的参考价值。
网络舆情研究是一个新的涉及多种学科交叉的研究领域,有新闻传播学、社会学等。我国对于互联网舆情的研究还处于起步阶段,文献资料也不够丰富,缺少深入研究其机制以及相关的技术支撑,但是已经引起各个学科领域和国家相关部门的广泛关注和重视,虽然现在已有很多公司推出的应用系统,但是缺少相关理论的基础,实际舆情监测的结果和性能遭到质疑。网络舆情的实际应用和理论研究也面临着一系列的挑战,值得研究的地方还有很多,有待进一步的解决方案,期待网络舆情研究理论和实践都能有更进一步的突破,为我国的舆情研究事业作出贡献。
(1)网络舆情监控体系有待进一步的完善。随着3G手机业务的推广,手机作为传播信息的载体开始崛起,手机上网用户越来越多,利用手机传播敏感信息、热点话题,给社会造成的影响不容忽视,因此,对手机的监测应该纳入舆情监测与预警的范围。
(2)互联网舆情信息采集技术有待改进,面对海量的舆情信息,现有的采集技术基本上都是被动的数据采集,只有在某个话题成为热点话题后才去采集,无法保证舆情的时效性,可以通过Agent、主题制导等技术的研究,并结合互联网信息交流的特性,为舆情信息的主动采集提供技术支持。
(3)重点关注谣言、虚假信息的舆情分析技术。由于论坛、评论等各种信息发布中语言的自由性、隐蔽性,这些特点给词语和句法分析带来了多种可能的误差,有些网络信息人为的操纵,恶意炒作,从而给舆情分析人员的工作带来误导,严重的话会引起社会的动乱。可以利用智能信息处理技术、机器学习等研究成果相互融合对网页格式和用词模式做进一步的深入分析,为准确区分谣言、虚假信息提供可靠的语言模型,或者提出一种新的舆情分析指标,可以尝试研究模糊理论中的模糊推理和模糊综合评判方法来辨别舆情信息的真伪,这将是下一步舆情研究中的难点。
(4)关注在网络环境下情感倾向特征词的特点和深层分析,并进行语气词类型判别和标注,构建适合于互联网舆情分析的立场倾向概念库。因为文本倾向性的研究中语气词的标注主要依靠专家标注,有很强的主观性,而且语义倾向值的计算方式比较直观,不适应互联网语言的特点,可以重点研究倾向性主客观相结合的分析技术,提出更加科学的计算方法,提高针对互联网环境下舆情分析的准确率。
(5)如何将这些关键技术和评估指标整合成一套自动化的网络舆情信息采集、分析、监测与预警系统,帮助舆情工作人员对网络舆情信息实时监测和动态跟踪,整理出比较系统的舆情信息,并为国家相关管理者提供一个基础性平台,能够及时应对突发事件,制定相应的应急处理政策,是互联网舆情挖掘研究工作中的重点。
收稿日期:2009-12-13
标签:舆情信息论文; 舆情论文; 网络舆情监测论文; 新浪舆情论文; 舆情分析论文; 文本分类论文; 社会网络论文; 文本分析论文;