基于情报学方法的网络舆情监测研究_搜索引擎论文

基于情报学方法的网络舆情监测研究,本文主要内容关键词为:情报学论文,舆情论文,方法论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G250.2 文献标识码:A 文章编号:1007-7634(2014)01-124-04

1 引言

随着互联网普及率的不断提高,越来越多的网民通过互联网表达对各种公共事务的不同情绪、态度和意见,这些信息在互联网上传播、互动、变化,整体上形成了网络舆情。当前,网络舆情对公共事务的走向和公共决策的影响越来越大,对社会整体思想意识发展变化的作用越来越明显,这要求社会管理者及时全面监测网络舆情,以采取有效的应对措施。

网络舆情监测最初的方法是将基于社会学、统计学方法的社会调查法移植到网络上,即在网上进行问卷调查、网络会议、专家访谈等。当下社会处于深度转型期,各种始料未及的突发事件迸发,网络舆情产生发展变化更加迅猛,采取网上调查的方法往往难以满足网络舆情监测的及时性、全面性要求。本文在分析网络舆情信息两种产生模式的基础上,提出将情报学方法中的数据挖掘技术运用于网络舆情监测中,分析了理论依据,并构建了两种可行的网络舆情监测方法,旨在使网络舆情监测更加及时全面有效。

2 基于情报学方法的网络舆情监测的理论依据

网络舆情信息是民众在互联网上发布的能够反映网络舆情的文字、图像、符号、音频、视频等,虽然网络舆情作为一种情绪、态度和意见不能直接被测度,但网络舆情信息是可以被测度的。通过收集和分析网络舆情信息,可以挖掘分析出其中所包含的舆情内容、指向和强度[1]。网络舆情信息伴随着网民在网上的各种行为活动而产生,图1显示了网民可能的行为和网络舆情信息产生的模式。

图1 网民行为和网络舆情信息产生模式

可以看出,当公共事务发生后,网民在浏览、搜索、互动的过程中会随时发表言论信息,这些信息以文本为主,直接呈现了网民的情绪、态度、意见,可以被称为“显性舆情信息”。网民在浏览相关信息时会在网站服务器端产生浏览日志,在搜索相关信息时,会在搜索引擎服务器端产生搜索日志,这些信息记录了网民的浏览页面或搜索关键词,显示了网民关注的热点,其中也隐含着网络舆情,可以被称为“隐性舆情信息”。

从情报学的角度看网络舆情的概念,网民在互联网上的言论、行为特征等是承载网络舆情的数据和信息,而网络舆情则是社会情报的一种重要表现形式。情报研究是以有关的信息为对象,综合社会环境等因素,根据特定用户需求而进行的系统、全面的调研和分析工作。其基本功能是:①整序功能,将搜集到的信息进行归纳、融合和加工提炼;②鉴别功能,将经过整序的信息进行去伪存真和择优工作;③预测功能,将经过鉴别的信息进行演绎、推理、判断和预测;④综合功能,将经过归纳、选测的情报在推理判断的基础上,进行高度概括与综合;⑤反馈功能,对研究结论的实践结果进行审议、评估、修改和补充[2]。因此,对网络上纷繁芜杂的海量言论信息进行分析处理以获取网络舆情的过程,恰恰是一种情报分析的过程。

随着情报学方法论的发展,数据挖掘技术逐渐成为处理网上海量数据信息的重要方法。网络文本挖掘方法和网络日志挖掘方法可以分别对网络文本和网络日志这样的舆情信息进行处理,因此可以形成了两种不同的网络舆情监测方法。

3 基于网络文本挖掘的网络舆情监测

网络文本挖掘是对网上大量文本进行表示、特征提取、内容总结、分类、聚类、关联分析、语义分析以及利用网络文本进行趋势预测等,这种方法可以从网民对公共事务的海量文本言论信息中分析网络舆情[3]。

在监测之前,要进行选题规划工作。选题的来源一般有两种,一种是由决策者明确提出的,另一种是舆情信息工作人员根据当前形势或是在发现某些苗头性、倾向性问题之后提出的选题。具体来讲,选题范围包括党和国家重大决策部署、经济发展、社会热点、突发事件、社会思潮、境外涉华话题、互联网发展等领域[4]。

3.1 网络舆情监测模型

模型包括文本信息采集、信息预处理、舆情分析、舆情报告四个模块,如图2所示。

图2 基于文本挖掘的网络舆情监测模型

各部分任务和功能如下。

(1)文本信息采集。首先要根据选题进行监测关键词和网站的设置。关键词设置要注意把握范围,范围过大,采集到的信息过多;反之,一些有价值的信息采集不到。在采集的过程中,还要根据社会热点的变化及时对监测关键词进行调整。监测网站包括境内外综合性信息门户网站、行业性和政府门户网站、论坛贴吧等网络社区、博客微博等社交网站。要根据实际情况确定监测网站的范围,既要保证网站的权威性,又要保证覆盖面,还要及时评估采集内容的质量以调整完善监测网站。采集时间间隔设置要保证能及时发现目标信息源的更新。目前自动采集技术大多是依靠网络爬虫程序定时自动从被监测网站上采集包含关键词的信息,有学者对这方面的技术进行了综述[5]。

(2)信息预处理。由于网上信息的海量、冗余、半结构化等性质,必须进行预处理。首先是信息过滤,保存信息的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等,其余的广告、图片、链接等无关信息要过滤掉。然后通过内容相关识别技术自动去掉重复信息。去重后的信息进行摘要和关键词抽取,格式化存储于数据库中。

(3)舆情分析。这是舆情监测的核心部分,包括以下功能:根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出一定时间段内的热门话题。利用关键词布控和语义分析,识别敏感话题。对每个话题的发言人观点、倾向性进行统计分析,这方面的分析方法可分为简单统计方法、机器学习方法和细粒度情感相关性分析方法三种[6]。分析新发表的文章、帖子是否与已有主题相同,相同的主题归为一类,分析某个主题在不同的时间段内,人们所关注的程度,形成趋势分析。

(4)舆情报告。报告包括近期热点专题、近期热点关键词、近期热门文章等,可以分析一段时间以来的舆情趋势,包括关键词热度时序图、文章转载量时序图等。根据用户的定制,舆情系统能生成个性化报告并自动推送给用户。

3.2 网络舆情监测软件

我国的网络舆情服务产业正经历着从无到有、从小到大、从粗放到规范的过程。大量舆情软件公司和市场调查公司高速发展,如拓尔思、方正、邦富、军犬等,开发了多种舆情监测软件。截至2012年1月,全国共有约68款舆情软件经过工信部软件司认定登记颁证[7],部分企业产品功能简介见表1。

国外也有不少网络舆情监测软件,知名的软件功能介绍见表2。与国内舆情监测软件主要监测经济社会舆情为政府机构服务不同,国外舆情软件功能侧重于企业口碑监测。

4 基于搜索日志挖掘的网络舆情监测

当网民关注某公共事件去浏览或搜索相关信息时,会在网站服务器端产生浏览日志或搜索日志。浏览日志中记录了网民IP地址、浏览时间、网页URL地址等信息,网站可以通过分析日志,统计某地区、某时间段内的浏览热点,这是网络舆情的客观反映,许多网站推出的“热点排行榜”即是这方面的应用。这种基于浏览日志分析的舆情监测方法简单易行,本文不再赘述。

需要重点研究的是基于搜索日志挖掘的网络舆情监测方法。搜索引擎后台的搜索日志记录了网民IP地址、搜索时间、搜索词、被点击的搜索结果网页URL地址等信息。通过统计分析用户的搜索词,可以发现网民关注的热点;对一段时间内与某个社会事件相关的搜索词的词频进行统计,可以描述网民关注点的产生和变化过程;对网民所点击的搜索结果进行分析,可以发现影响网络舆情产生和变化的源头[8]。

4.1 网络舆情监测模型

本文构造了如图3所示的网络舆情监测模型。

图3 基于搜索日志挖掘的网络舆情监测模型

该模型包括4个模块,其任务功能分别如下:

(1)日志数据采集。搜索引擎日志数据来自于公共搜索引擎(百度、谷歌等)、重点网站搜索引擎(新闻门户网站、网上论坛、微博、博客等网站的搜索引擎)、垂直搜索引擎(机票查询网站、旅游查询网站等)。需要特别说明的是,搜索引擎日志是用户的隐私数据,因此,实施本方法进行舆情分析,要么是公共搜索引擎或拥有搜索引擎的网站,要么能与提供搜索日志的网站合作,实施过程中要遵守保密和隐私条款。

(2)日志预处理。首先进行数据清洗,去掉那些有缺失或有错误的日志数据。搜索日志中记录了用户的搜索时间、IP地址、ID号、搜索词、客户端浏览器信息、被点击的搜索结果网页URL地址及其在搜索结果中的位置排序等,而与网络舆情监测相关的数据是用户的搜索时间、IP地址、搜索词、搜索结果网页URL地址,因此要将这些数据从原始数据中抽取出来。由于不同的搜索引擎服务器所产生的日志格式不一样,因此要统一日志的各个数据项的格式,主要是统一搜索时间和URL地址的格式,并将数据集成到结构化的数据库中。

(3)舆情分析。以“时间”为维度统计不同搜索词的词频,如统计某一天的词频,能发现用户当天对哪些内容最为关注。以“搜索词”为维度统计同一个词在不同的时间段内的词频,可以描绘出该搜索词热度的发展变化。通过网民IP地址对应出上网地区后,可以以“地区”为维度来统计词频,发现不同地区用户的关注点。还可以以“时间”、“搜索词”、“地区”中的某两个或三个为维度来进行词频统计,得出特定时间段、特定地区、特定搜索词的词频,并与随时间变化的该地区使用该搜索引擎的网民总人数相比,得出相对搜索量指数的变化情况。

理论上,在社会环境稳定的情况下,网民对某一搜索词的关注度,即该搜索词的相对搜索量指数,应该是基本稳定的。一旦发生与该搜索词相关的重大社会事件,则网民搜索该词的比例将显著上升,因此对搜索词相对搜索量指数的异常进行监测可以发现并预警社会舆情的变化。当某个搜索词成为舆情热点时,即表现为相对搜索量指数时序图上的一个异常点。时序图的异常监测的方法很多,如IPS(Important Points based Segment,时序数据分段的显著点)方法[9]等。

(4)舆情报告。按照用户的要求,生成相应的舆情报告。其核心内容可以是某时间段内某地区的热点排行,也可是某固定监测话题的热度变化。

4.2 案例分析

目前,各大搜索引擎公司均加强了通过搜索日志挖掘发现网络舆情的研发。谷歌公司的“谷歌趋势”[10]能分析某个关键词在一定时间段内某个地区被搜索的次数,并将其与谷歌上随时间推移的搜索总量及当地的搜索总量相比较,得出该关键词的“相对搜索指数”,并用图形的方式展示出来。图4是“谷歌趋势”显示的2011年9月至2012年8月间,中国地区网民搜索“毒胶囊”的相对指数。可以看出,从2012年4月15日中央电视台曝光毒胶囊事件,到4月22日公安机关立案逮捕嫌疑人,网民对“毒胶囊”的相对搜索量指数都一直保持在高位,随着事件的处理和结束,搜索量指数逐渐回落到事件发生前的水平。

图4 中国网民对“毒胶囊”的搜索量指数变化情况

谷歌根据美国不同时期用户搜索“流感”的情况,制作发布了全球20多个国家的“流感趋势”[11]。设计人员编入一系列与“流感”相关的关键词,包括“流感”、“温度计”、“发烧”、“咳嗽”、“胸闷”等。当用户输入这些关键词,系统就认为与“流感”发病相关,然后跟踪分析并作出相对搜索量指数图。通过对以往指数的变化情况预测未来趋势,进而预报流感发病率。谷歌“流感趋势”在测试时期就表现出良好的预测效果,在对美国流感的预测中,比美国疾病控制中心提前1周到10天公布流感预报,且与疾病控制中心的后来公布的数据高度重合,显示了基于搜索日志挖掘进行预测的前瞻性和准确性。

5 结语

本文通过对网络舆情信息产生模式的分析,提出从情报学角度看待网络舆情监测,并将网络文本挖掘和搜索日志挖掘技术应用于网络舆情监测中,改进了网络舆情监测的效率和效果。情报学方法在网络舆情监测中具有切实的可行性,我们需要将基于网络文本挖掘与基于日志挖掘的舆情监测方法结合起来,并将通过技术手段得到结果与专家分析研判综合起来,提高网络舆情监测的效果。

此外,我国企业也应该加强监测网络舆情,这对于企业及时了解产品、服务、行业、市场的情况,改善经营效果和提升危机公关能力都具有重要意义。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于情报学方法的网络舆情监测研究_搜索引擎论文
下载Doc文档

猜你喜欢