基于网络舆情安全的信息挖掘及评估指标体系研究,本文主要内容关键词为:舆情论文,指标体系论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近几年互联网在我国的迅猛发展,使其成为庞大的公共信息集散地、民众参政议政最常用的平台和反映社情民意最重要的窗口,也是国家管理者获取民众舆情信息、了解民众思想动态的重要途径。根据最新的相关统计报告显示:截至2008年2月份,我国网民总人数已达2.21亿,超过美国位居全球第一;网站数量已有150万,网页总数已达84.7亿个[1]。
新闻与评论、搜索引擎、BBS以及网络社区、时事论坛、博客、维客、即时通信软件、Email和短信等成为民众对社会当前各种现象和现实问题发表观点和表明立场的多元化传播渠道。网络舆情最快速、最真实地反映社会各个层面的舆情态势,成为社会舆情动态的实时晴雨表,对社会产生的影响力越来越大,受到国家管理者的高度重视。但同时,网络所具有的特性又使得网络舆论的自由化带来了一系列的消极影响:一些网民通过网络散布谣言、披露隐私、进行偏激和非理性的谩骂与人身攻击;而且,西方敌对势力也借助网络对我国日益发起“和平演变”攻势。
胡锦涛总书记在党的“十六大”六中全会报告中对如何加强网络舆情能力方面提出了3个明确的要求,即“如何引导网络舆论、如何对网上的热点话题即时作出反应、如何提高处置网络突发事件的能力”。2008年发生的“3.14西藏拉萨打砸抢杀”事件,CNN等西方媒体网站对其进行了大量失实的扭曲性报道,引来了如潮般的转载量,造成了极其恶劣的舆论影响。这一事件一方面说明网络媒体在报道敏感性、突发性社会事件时,必须强调客观、公正的态度;更重要的是,它提醒我们:如若不迅速对曲解的网络舆情信息进行澄清和疏导,将会煽动不明真相的社会民众的非理性情绪,最终导致社会不和谐因素的增加。
那么,如何因势利导,利用互联网的海量信息资源对可能蕴含着某种社会安全危机的敏感性、苗头性的网络舆情信息进行挖掘、分析、监测和预警,为国家管理者把握社情民意、辅助正确决策提供科学的参考,是网络这一新兴媒体所面临的严肃课题与严峻挑战。网络舆情综合信息的挖掘和获取是网络舆情研究的难点和创新点所在,而且是网络舆情安全的整体态势分析和预警的基础。
本文就如何对网络舆情信息进行更有效的挖掘提出了新的想法。另外,针对国家管理者亟需的对网络舆情安全的态势分析、监测和预警的全方位平台,笔者尝试构建了网络舆情安全评估指标体系,力图用科学的方法将舆情这一定性指标量化,计算出“舆情综合指数”,以此来把握互联网舆情态势,并为国家决策者提供社会运行安全态势的预警。
1 网络舆情信息挖掘研究
网络舆情信息是指社会民众通过互联网这一媒介所表达的情绪、态度、信念、意识、思想、意见、要求和行为方式等方面的综合表现,是对现代社会物质、政治、精神和社会4个文明建设活动的各种反映[2-3]。由于舆情自身所体现的社会层面和区域不尽相同,使得网络舆情信息挖掘尤为重要:通过对网络舆情信息进行采集、整理、分析和归纳,发现有价值的舆情点,捕捉和发现社会民众思想的动态性和政治的敏感性,使得该舆情点爆发前后对国家安全和社会稳定可能带来的安全隐患降低到最低程度,并为党政领导进行科学决策提供客观依据,提升社会预测力和科学决策力。
1.1 网络舆情信息挖掘的重要渠道和环节
网络舆情信息借助互联网交流便捷、传播迅速的特征,使其覆盖面极为广泛。我国互联网基础资源数量庞大,各类网站数量剧增。为了降低对网络舆情信息挖掘中采集和解读的成本,必须准确找到其传播渠道和环节。
对网络舆情信息挖掘的关键就是要发现“社会民众关心的是什么,议论的是什么,满意的是什么,不满意的是什么”。基于这样的目的,应着重从以下6个渠道对网络舆情信息进行挖掘[4]:
1)中央重大政策和改革措施的出台所引发的舆情,以主流媒体——政府重点新闻网站为主要挖掘渠道,如新华网、人民网、中国网、国家在线、中国日报网站、央视国际网络、中青在线、中国经济网等。
2)与社会民众切身利益相关性较强的政策、做法,容易引发群众思想波动和不满情绪从而引发出的舆情,以权力部门的相应网站为主要挖掘渠道,如:工商、公检法、税务、教育、城建等。
3)国内外要闻、重大事件的跟踪报道、热点评论等,以新闻网站为主要挖掘渠道,如:新浪、搜狐、网易等。
4)社会热点问题以及突发事件,以虚拟社区的热门版块和BBS跟帖为主要挖掘渠道,如KDS宽带山、强国论坛、天涯杂谈、猫扑、高校BBS等。
5)小道消息、谣传、各种议论的集散地,蕴含着倾向性、苗头性的舆情信息,并通过转载扩大影响,以个人网页为主要挖掘渠道,如新浪博客、中国博客网等。
6)社会思潮以及理论动态舆情,以学术类理论网站和社科类言论网站为主要挖掘渠道,如中国学术论坛、国学网站等。
1.2 网络舆情信息挖掘内容的“6个点”
如何从以上6个渠道挖掘出有价值的网络舆情点,便涉及信息挖掘内容的关键,即究竟哪些信息是有价值的舆情点。笔者认为,对网络舆情信息挖掘内容应把握舆情的6个点,即:热点、焦点、兴奋点、波动点、重点和诱发点,具体阐述如下:
1)舆情热点。国家重大政策的调整会对社会的方方面面产生影响,便成为互联网上的热点话题。如:国务院机构改革、计划生育政策调整、税收政策调整等。对这些舆情热点进行深入挖掘,能看出社会民众对国家治国方针的态度导向。
2)舆情焦点。与群众切身利益密切相关的大多成为舆情焦点。舆情的本质是民众自身利益的诉求和表达。互联网以其交流门槛低、受众主动性强的特点,使得民众借助网络的渠道宣泄,从而引起共鸣。根据“2007申论社会热点十大问题”的统计与分析的结果显示:教育、医疗、就业、资源与能源使用、“三农”、社会保障、安全、社会发展观、和谐社会和反腐倡廉为民众最关注的十大主题,在网络上出现大量采访、报道、分析和评论,应着重挖掘这些舆情焦点内容。
3)舆情兴奋点。舆情变化的走势是舆情分析的关键所在。由于舆情的变化具有层次性和区域性,且经历从量变到质变的过程,因此必须高度关注舆情信息发生的初期:处于潜伏期且异常活跃的负面舆情信息一旦迅速爆发出来,便会给社会带来不好的影响。舆情兴奋点侧重于对小道消息和流言(闲话性、侵权性和恐慌性流言)的信息挖掘,以防止其层层扩大,造成社会影响。
4)舆情波动点。国家重要改革措施的出台与社会民众预期的落差是舆情的波动点。由于民众所处的社会地位和环境不同,会产生各种各样、褒贬不一、观点不同的评论,形成了呈现出胶着态的舆情波动。
5)舆情重点。为了准确把握社情民意,国家管理者有其对舆情关注的重点。重点工作、经济工作等是国家管理者关注的重点所在,其政治相关度很高;诸如娱乐新闻、体育新闻等政治相关度相对较低,不是舆情重点。
6)舆情诱发点。主要指通过媒体炒作和民众关注与转载两方面形成的舆情信息,例如“芙蓉姐姐”、“超级女声”等,是由网络舆情的“蝴蝶效应”造成的。
1.3 网络舆情信息挖掘方式
网络舆情信息挖掘是一项非常艰巨的工作,这不仅因为网页的页面结构、数据格式有所不同,而且蕴含的信息多种多样;还因为舆情的形成与发展有其自身的演化过程和规律。因此对于网络舆情信息的挖掘,必须着重分析网络舆情所处的传播和扩散阶段。
网络舆情的形成过程分为产生、阅览和转载3个阶段[4]。根据网络舆情信息所处的不同阶段的特点有所不同,因此采取的挖掘方式也不尽相同。
1)舆情产生阶段。处于萌芽期的舆情信息相对隐蔽,无法判断它是否会带来舆情泛滥,还是会被海量的舆情信息迅速湮没。因此,对此类网络舆情信息的挖掘不妨采取“预先设定”的方式:将该内容与预先设定的敏感类型和敏感事件进行匹配,使其及时得以发现。比如“禽流感”为预先设定的模块,因此当“SARS”信息出现时,可将其与“禽流感”的相关信息进行匹配,能及时将其捕获到舆情信息资料库。
2)舆情阅览阶段。当舆情从产生阶段发展到阅览阶段时,可通过网民对该舆情信息的频繁访问次数、回帖数、参与讨论的人数来挖掘其舆情关注度。
3)舆情转载阶段。在这个阶段,该舆情信息会被感兴趣的民众广泛转载并加以评论和深入报道。因此,对此舆情信息的挖掘可通过关键词的出现次数作为标识特定舆情信息扩散程度的指标,对关键词的检索可大大提高网络舆情信息挖掘的有效性。因此,如何通过建立不同类型事件的特征词数据库就显得尤为关键。比如,对于群众事件类报道,可通过“静坐、游行、示威、冤案”等关键词进行检索;又如安全类事件报道,可通过“矿难、海啸、爆炸、车祸、疫情”等关键词进行检索;再如社会弊端报道,可通过“腐败、受贿、舞弊、形象工程”等关键词进行检索。
基于网络舆情安全的信息挖掘,必须高效、全面地从海量的互联网信息资源中找到有效的渠道和环节,并根据舆情所处的变化走势阶段采取不同的挖掘方式,并从中挖掘内容敏感度和民众关注度高、传播扩散度快的舆情内容。这是网络舆情信息挖掘的新视角,它为网络舆情安全评估指标体系的指标选取提供了重要的基础。
2 我国网络舆情安全评估指标体系的构建初探
2.1 构建我国网络舆情安全评估指标体系的必要性
目前,我国对网络舆情的研究主要集中在从网络科学与技术的角度,开发先进的技术方法和简化数理统计模型来采集和挖掘舆情信息,从而代替网络舆情分析判据的科学性。但笔者认为,在做好舆情信息挖掘的同时,也应深入分析互联网内容和舆情本身的性质、特点和演化规律,把握其深层结构和关系。对于国家管理者亟需的了解社情民意的基础性平台——网络舆情监测和预警综合系统的实现,关键不是强调技术方法多先进,而应该有一套符合我国国情的网络舆情安全评估指标体系作为“软的”可计量工具:既深入剖析“舆情”这一主观性的社会类指标,又剖析“网络”这一客观性的技术类指标,通过定性分析与定量研究相结合的方法,将社会类指标与技术类指标有机地契合起来,最终得出“舆情综合指数”,以此作为采取预警、响应措施以及决策应对的判断依据。
2.2 网络舆情安全评估构架体系
对网络舆情的安全度进行评估是一项复杂的工作,这是因为网络舆情信息所具有的多源头、多通道、跨领域、不同事件交错的特性。为确保评估工作的可行性,不妨将其在逻辑上可划分为4个维度:舆情数据源、舆情要素、舆情指标集和舆情综合指数。这4个维度的划分清晰地诠释了网络舆情安全的整体框架,并为安全评估指标的选取提供了新的思路(见图1)。
图1 网络舆情安全的整体框架
1)舆情数据源是网络舆情安全评估的重要维度之一:互联网的传播渠道和途径多元化,如:新闻、门户网页、BBS、聊天室、即时通信软件、Email、Blog、短信等。舆情数据源也是舆情安全的评估对象。
2)舆情要素是网络舆情安全评估的重要维度之二:舆情要素包括舆情信息发布时间、发布人、发布话题、回帖信息、网络分布特征(如IP范围)等。
3)舆情指标集是网络舆情安全评估的重要维度之三:各级指标的选取应以舆情数据源和舆情要素为基础。
4)舆情综合指数是网络舆情安全评估的重要维度之四:“舆情综合指数”是经过系统科学的方法,将舆情指标集定量化,计算出“舆情综合指数”,并对照它属于五级舆情警戒线的哪一级,以便为国家管理者提供管理手段和决策的科学依据。
2.3 网络舆情安全评估各级指标选取的基本初步构想
2.3.1 指标建立的原则 构建能客观反映我国网络舆情安全评估指标体系应遵循以下原则[5]:
1)具有全面性和准确性:考虑的指标必须反映网络舆情安全的各个方面。评估指标特别是量化指标离不开网络舆情安全的相关数据资料,片面和错误的数据会导致评估结果出现偏差和误导。
2)具有可计量性和可操作性:尽可能选取容易量化的指标,减少主观指标的数量;各指标的含义明确,具备收集网络舆情信息的渠道和方法:如问卷调查、文档资料等。
3)具有导向性:指标能反映网络舆情安全的客观态势,能落实到国家决策者和相关舆情部门的参考和使用。
4)具有可延续性:虽然网络发展态势是动态变化的,但是指标的选取要具有相对稳定性,或者有自动更新机制,以保证指标体系在时间上有连续性。
2.3.2 各级指标的选取 网络舆情安全评估指标体系指标的选取应既能反映网络舆情安全的状况,又要通过评估观察到哪个环节存在着不安全的风险[6]。网络舆情安全评估指标体系如图2所示。
图2 网络舆情安全评估指标体系
2.3.3 指标的具体说明
1)舆情流通量指标反映了舆情信息在时空分布上的特性。其中:网络分布度指在某一时间段内,舆情信息在网络上的分布范围和程度。此指标的定量计算方法是:将主要网站罗列出来,按照每个网站的影响力确定其权值大小,将每个网站的权值乘以该网站流通度所占的总流通度百分比所得的和,即为该信息点的网络分布度。
时间分布度指舆情信息在不同时间段的总流通度。此指标的定量计算方法是,根据舆情信息的变化走势:产生阶段、阅览阶段和转载阶段而赋予不同的权值,将不同阶段的权值乘以该信息在相应阶段的流通度所占的总时间段内流通度百分比所得的和,即为该信息点的时间分布度。
地理分布度指舆情信息在各地理区域上的分布。此指标的定量计算方法是:将各地区按照其影响力的大小赋予不同的权值,将权值乘以该信息在此区域上的流通度百分比所得的和,即为该信息点的地理分布度。
2)舆情要素指标反映了舆情的主体以及其对社会中介性社会事项的评价特性。其中:舆情主体指标是根据不同通道的来源来抽取不同的舆情主体要素指标。针对发布新闻的语料,主要抽取其编辑人、新闻事件发布时间等;针对论坛/BBS语料,主要抽取发帖人、发帖时间等;针对博文的语料,主要抽取博客名、发布时间等;针对电子邮件、即时通信、短信语料,主要抽取消息发送者、消息接受者、消息发送时间等。
舆情内容指标包括不变的舆情内容指标和可变的舆情内容指标。不变的舆情内容指标指社会民众在很长时期中普遍关注的中介性社会事项,是静态的,如:社会和谐主题、医疗卫生主题、社会安全主题、政府职能主题、教育主题、科学发展观主题、三农主题、劳动就业主题等。可变的舆情内容指标体现了舆情的时效性和突发性,是在某一时间段内社会民众较高关注的中介性社会事项。如2008年北京奥运会、2008年“两会”、物价上涨等。对可变的舆情内容指标可通过自动更新机制来自动挖掘和获取。
3)舆情状态趋势指标反映了舆情受关注的程度、影响力以及其趋势变化状态的特性。其中:聚焦热度指标指该舆情信息在众多舆情内容中受关注的情况。该指标的定量计算方法是:设从某一时间段t1到t2内,某舆情信息A流通量从fA(t1)变为fA(t2),则该信息点的聚焦热度为RA(t12)=fA(t2)-fA(t1)[7]。
关注度指标由舆情信息点的敏感度、重要度和危害度这3个子指标按一定的权值计算而得:敏感度指由预设的敏感关键词和信息点的热度的变化两个因素决定;重要度指国家管理者对其关注的舆情内容的重要程度判断,对其赋予不同的数值表示其引起注意的程度;危害度指通过舆情挖掘技术的智能分析,对舆情内容的褒贬义词进行分析,按照一定的标准,得出一个数值表示其危害程度的大小。
发展度指标由频度、拐度和活力度这3个子指标综合计算而得:频度指舆情信息点聚焦热度变化的快慢程度,可用dR(t)/dt的值度量:dR(t)代表热度变化值,dt代表该段时间的长短;拐度指在过去一段时间内,热度变化率的发展变化过程;活力度指在过去某一段时间内,针对某一信息点所产生的支持、反对和中立各派的讨论激烈程度,其定量计算方法是:活力度=支持者人数×反对者人数×中立者人数。特别注意,活力度很高的信息点称为疑点,必须高度关注。如何从最底层的指标推算出“网络舆情综合指数”,笔者认为可采用系统动力学模型和投票模型,这也是下一步研究的重点和难点。
基于网络舆情安全的评估指标体系从网络媒体的角度出发,实现了对非物化社会舆情现象的定量分析,并为网络舆情监测和预警综合系统平台的运行提供了极为重要的评估指标集。经过科学的方法计算出的舆情指数如同北京市和谐社会指数,能量化评估互联网舆情态势,反映出我国舆论态势所处的警戒级别,为国家管理者提供预控手段,如:被动侦听、隐身截获、分级与分布式上报等。
收稿日期:2008-05-19