网络舆论分析与应用研究_网络舆情论文

互联网舆情分析及应用研究,本文主要内容关键词为:舆情论文,互联网论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G202 文献标识码:A 文章编号:1007-7634(2008)08-1194-07

舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。

1 研究现状分析

2007年7月中国互联网络信息中心CNNIC公布了第20次中国互联网发展统计调查报告,报告中显示,截至2007年6月中国网民人数已经达到1.62亿,仅次于美国2.11亿的网民规模,位居世界第二;而且网民人数比2006年年末新增了2500万,与2006年同期相比网民数一年内增加了3900万,中国网民年增长率达到31.7%,步入新一轮的快速增长阶段。中国互联网用户数的大幅跃升,使得网民在网络上有意识或者无意识表达出来的民情民意越来越值得研究。

我们进行文献调研发现,利用“网络舆情”或者“互联网舆情”对CNKI、维普等学术期刊电子资源进行检索,只发现符合检索查询式的记录10余条,其中1/3强的论文作者来自于天津社会科学院。天津社会科学院舆情研究所承担了2005年天津市哲学社会科学研究课题“网络舆情研究概论”,从整体上系统的引入和探讨了网络舆情。其中张丽红同志在《从网络舆情传播的角度谈文化安全》一文从文化角度谈了其对网络舆情的理解,关注舆情、社会心态与网络,论述了网络舆情传播给中国文化安全带来的主要挑战[1];毕宏音同志在《舆情视野中的网民上网行为分析》一文从社会行为学的角度对网民的网络行为进行了分析[2];而刘毅同志则分别在《略论网络舆情的概念、特点、表达与传播》[3]、《内容分析法在网络舆情信息分析中的应用》[4]、《网络舆情与政府治理范式的转变》[5]、《突发性群体事件中舆情信息的汇集与分析》[6]等几篇论文中运用社会学和传播学中的一些研究方法对网络舆情的某些领域进行了探讨。此外,南开大学徐晓日同志在《网络舆情事件的应急处理研究》一文中从公共管理,特别是与政治生活的秩序和社会稳定的影响密切相关的事件的网络应对策略角度进行了研究[7];姜胜洪同志《网络舆论引导和管理的舆情视角》一文则是从网络管理角度本身关注舆情的引导和管理[8];周如俊和王天琪在《网络舆情:现代思想政治教育的新领域》[9]、中山大学教育学院王丽荣等人的《网络道德舆论与大学生价值观的塑造》[10]从教育学,特别是德育教育领域关注了网络舆情。再有深圳报业集团丘盘连等人从传播角度探讨了《从网络舆情中“淘宝”服务和谐社会建设》[11],总政治部宣传部白牧川同志针对军网细分领域发表了《军网的舆情监测和舆论引导》[12]。

互联网舆情分析除了上述的宏观研究角度研究外,在具体的分析与实现方法上信息技术领域也有相关学者进行初步探索。上海交通大学谢海光和陈中润发表的《互联网内容及舆情深度分析模式》[13]、秦州的《新闻搜索中的舆情“峰值”——中国近年来重大矿难报道WEB页面数分析》[14]等文章,特别是前者主要从统计学的角度,构建了互联网内容与舆情的热点(热度)、重点(重度)、焦点(焦度)、敏点(敏度)、频点(频度)、拐点(拐度)、难点(难度)、疑点(疑度)、粘点(粘度)和散点(散度)等10个分析模式。中科院计算所、哈工大等信息检索和自然语言处理领域的研究者从话题检测与跟踪、事件跟踪、新闻局类等方面进行了与互联网舆情分析相关的一些技术研究。

从总体来看,国内现阶段的互联网舆情研究还是很薄弱的,文献资料也不够丰富,虽已吸引了各个学科领域的一些专家学者的关注,但是深入研究其机制以及相关技术支撑的并不多见。国外的情况总体比国内要好,这其中有对舆情关注历史和文化的沿袭因素,也有大量机构和大量专业分析人员的关注因素。在美国,对于互联网舆情研究,特别是与政治生活密切相关的总统选举和国会中期选举的选情分析和研究已达到了很高的水平。

2 思路与方法

此研究本身体现着跨学科的交叉特性,所以我们在研究中借鉴和融合了社会学、新闻传播学、统计学、管理学等方面的研究视角和研究方法,但同时我们更多的是从情报学特有的研究方法和范式出发,关注信息本身,并且以技术手段作为支撑,充分利用计算机和互联网技术。具体而言,互联网舆情研究是情报学研究领域中信息采集、信息组织、信息分析方法的具体应用。在网络时代,互联网舆情作为一种具有传播速度快、影响面广的信息对其传播机制、处理技术以及分析方法都不同于传统的信息组织与分析,我们对互联网舆情分析的研究将对情报学领域中的信息组织理论与方法的进一步深化与应用起到促进作用。在此基础上加深我们对互联网这一新兴媒介的认识,把握互联网舆情传播规律,从而更好的把握民情、体贴民意、倾听民声。我们研究思路还体现在结合应用,环环相扣。互联网舆情分析流程与关键技术解决方案如表1所示。

除了上述的一些关键技术以外,互联网舆情分析中还涉及大量的相关技术,比如事情检测与跟踪系统、自然语言处理特别是中文信息处理、数据挖掘等。我们的研究希望通过开发相关的接近实用化程度的系统,把部分成果用于各类实际项目中,研究中使用具有情报学特点的研究方法主要有:

(1)内容分析法。内容分析法是一种对文献内容作客观系统的定量分析的专门方法,其目的是弄清或测验文献中本质性的事实和趋势,揭示文献所含有的隐性情报内容,对事物发展作情报预测。它实际上是一种半定量研究方法,其基本做法是把媒介上的文字、非量化的有交流价值的信息转化为定量的数据,建立有意义的类目分解交流内容,并以此来分析信息的某些特征。内容分析法可以揭示文献(包括保存的网页)的隐性内容,和舆情研究结合起来可以揭示网络宣传的技巧、策略,衡量互联网内容的可读性,发现作者或者评论者的个人风格,分辨不同时期不同环境的舆情特征,反映个人与团体的态度、兴趣,揭示大众关注的焦点等。需要指出的是内容分析法具有的特点正是我们从情报学视角研究互联网舆情分析的关键所在。

(2)实证分析法。实证分析法是通过分析大量案例和相关数据后试图得出某些结论的一种常见研究方法,本课题采用的社会调查法和网络计量法都属于实证分析范畴。

社会调查法是有目的、有计划、有系统地搜集有关研究对象社会现实状况或历史状况材料的方法,它可以用谈话、问卷、个案研究、测验或实验等科学方式,对有关社会现象进行有计划的、周密的、系统的了解,并对调查搜集到的大量资料进行分析、综合、比较、归纳,借以发现存在的社会问题,探索有关规律。在我们课题研究中可以充分发挥互联网的优势,拟通过网络进行一系列的问卷调查或通过即时通信工具在线聊天的方式了解网民针对某类问题的看法。社会调查法可以为我们研究舆情提供第一手材料和数据,揭露现实社会存在的问题,暴露矛盾;也可整理调研数据形成报告为有关部门制定政策、规划、改革提供事实依据,为实现不同层次和不同要求的管理和预测服务;再者通过对舆情的研判深入了解社会现状,发现新的研究专题、先进的经验或存在的问题,并提出解决问题的新见解、新理论,从而推进该领域工作的科学化。

网络计量法是将传统信息计量方法应用在Web分析上,就诸如语言、单词、词汇、频次、作者特征、用户行为等进行计量研究。网络计量法可用于研究互联网的知识结构、领域性质、信息组织特征,研究网络环境下的信息交流规律,研究网络用户的信息需求和网络查寻行为,指导网络管理和网站建设。此外,互联网上站点和网页之间的链接关系和文献计量学中的引用关系非常相似,可以通过研究超链接来研究网络上的信息组织规律和传播方式。在互联网舆情研究中,网络计量学的研究方法、内容及其应用方面的价值将被充分体现。

3 若干技术问题研究

3.1 互联网信息采集

互联网信息采集我们主要采用基于垂直搜索引擎的主题爬虫技术,对互联网上的某类主题信息页面全自动识别、分类、抓取,并能够实现网页指纹消重和信息消重,同时对主题信息页面进行去除无关信息和信息自动抽取,垂直引擎系统对某一领域的采集和提取具有较高的准确性和较广的信息查全率,其主要模块如图1所示。

图1 基于垂直搜索引擎的互联网舆情信息采集

(1)主题蜘蛛实现。主题蜘蛛实现主要包括两方面内容,一是主题搜索智能下载,二是互联网上的反屏蔽策略。前者主要包括:蜘蛛爬行模块、种子网站设定、URL处理模块、主题确立模块等,其中需要研究的核心技术包括以下几个方面。

①Deep web下载技术。当前有80%以上的信息类网站都是以Deep web的形式存放的,即通过用户提交查询向后台数据库查询数据,动态生成查询结果页面。Deep web下载技术能够动态查找、判断、定位网站内的数据查询接口,并且根据自动向目标网站的数据库服务器提交查询请求,截获结果页面并且自动获取及下载信息页面。

②智能更新搜索功能。网络蜘蛛将根据网站中的数据量、访问速度、更新频率等因素自动设定该目标网站下一次更新的时间,避免盲目全部遍历,提高了蜘蛛爬行和主题信息发现的效率。一次遍历完之后,下次遍历根据页面生成日期只需对新的页面进行下载,避免盲目的全盘抓取,有效地提高了对主题网站的遍历效率。

③爬行深度控制。当爬行到三级以后,再深入一层则数据量扩大了3-4倍,且重要度下降许多,所以需要根据实际情况设置爬行深度。

④智能下载。网络蜘蛛根据种子网站的分值确定网站的下载优先级,根据目标网站的下载速度决定下载的线程数及请求的频率,有效避免了抓取过程中因抓取速度过快、频度过高造成的“锤击”问题,从而能够避免蜘蛛IP地址被封的问题。

⑤模拟浏览器技术。以模拟主流浏览器的浏览行为抓取目标页面,浏览器可以浏览的页面网络蜘蛛基本能够进行信息抓取。

(2)主题相关判别。一般意义下的相关度通常是根据检索词在命中记录中出现的次数(词频)和位置,以及不同检索词的相邻程度来计算的。我们的互联网舆情研判平台主要关注的是网络新闻、论坛帖子、各类评论等互联网素材的相关度问题,其中借鉴了大量传统文献中关于相关度计算的标准和算式。

①自动主题网站识别。因为人工所能确定的目标网站,虽然比较准确,但却不能适应信息采集广度和动态性的变化,因此互联网信息采集时要能够根据人工预先设定主题知识库,识别目标网站中的信息页面并下载,并能够识别出新的主题网站,添加到种子库中。

②种子库的动态维护和自动扩展更新功能。根据前一周目标网站的信息量和本周目标网站的信息量设定一个更新域值,更新域值=(本周信息量/上周信息量)*(周信息量平均值/标准周信息量),我们的更新预知设为0.5,每周对种子库进行检测,判断种子库中主题网站的有效性及更新频度。

③智能分词技术。建立主题知识词库,采用最大逆向匹配和最大正向匹配相结合的方式,其识别率近93%,采用多元歧义自动识别技术,有效的避免了分词歧义的产生,使分词的准确率大大提高。添加了领域未登录词识别模块,能够自动准确地识别领域未登录词,自动添加到词库中,提高了分词的准确性。

(3)网页消重。网页消重是信息采集中必须提前及时解决的问题,否则在后期信息预处理和信息处理中会占用大量资源做无用功。网页重复的主要在于:①网络中一个网页往往存在很多的链接,若抓取程序没有记录已经抓取过的URL,那么不可避免的会发生同一网页被重复抓取的问题。②网络中存在着大量的复制网页,URL不同,但内容完全一样,从而导致了页面的重复。③一条信息重复发布,多站点发布,从而导致了信息的重复。对此我们采取的解决策略包括以下几点。

①根据URL列表进行消重。蜘蛛从制定好的URL列表(即“未访问的URL列表”)出发,一个URL抓取完之后将其放入到“已访问的URL列表”中。在抓取时不断提取新的URL,在“已访问的URL列表”中判断其是否访问过,若尚未访问过则将之加入到“未访问的URL列表”,反之则放弃。

②网页的指纹去重技术。对已访问的页面采用加密算法获得该网页具有唯一性的指纹信息。对于新解析出的页面,根据已访问页面的集合判断是否已经抓取过,若没有则进行保存,反之则放弃。

③基于领域知识库的去重规则。根据实际的应用领域,可以制定更加具体的消重规则,进行信息消重。比如可以采用MD5算法对具有标识性的属性信息组合,如舆情中的敏感词、热点问题等具有唯一性的属性值生成其指纹信息,若指纹信息重复,则根据“互补”策略和投票规则对现有信息进行补充或更改,从而能够在保证信息完整性和准确性的同时,达到信息消重的目的。

试验证明根据以上3个消重规则,基本能实现主题信息无重复。根据第一条策略能够避免网页的重复抓取;第二条策略能够避免URL不同但内容完全相同的情况;第三条策略能够解决同一信息多站多次发布的情况,消重率达到85%。

3.2 互联网信息预处理

互联网信息预处理是对采集到的互联网网页进行初步的加工和处理,为后继舆情关键信息抽取和舆情内容分析奠定基础,本环节我们主要研究的是基于统计与规则相结合的信息过滤技术。

从某种意义上而言,信息过滤也是一种分类方式,但在此环节涉及的领域或行业分类、情感分类或语义倾向性分类,主要是基于统计和规则相结合的过滤和初步分类,和后面舆情内容分析环节涉及的基于机器学习的自动聚类有所不同。首先是对于不同领域行业的分类,有些部门关注的是党政舆情,有些组织则关心的是企业舆情,还有些第三方检测或分析机构关注的则是某一个具体领域的舆情;另外,对于某一话题网友的评论和态度可能是褒义的、是贬义的,也可能是中性的,有赞成有反对,为了更好的舆情分析客观上需要根据情感或者语义倾向进行分类。

基于统计的信息预处理一般忽略文本的语言学上的特征,将文本作为特征项集合来看,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权。向量空间模型是基于统计的分类系统中广泛采用的文本计算模型,向量空间模型可以将给定的文本转换成一个维数很高的向量,向量空间模型最突出的特点是可以方便的计算出两个向量的相似度,即向量所对应的文本的相似性。基于规则的信息预处理是在定义元符号及演算规则的基础上,根据字符串匹配,给出了一个互联网信息文本的过滤模型,其核心语料库包括词库和规则库。虽然基于统计的信息预处理可以解决我们Web信息采集后的一般过滤和初步分类需求,但是由于舆情本身是一类具有很强领域性和倾向性的信息,所以作为补充我们又引入了基于规则的信息过滤技术。

除了上述统计与规则相结合的信息过滤技术的互联网信息预处理外,本环节还包括对采集下来的互联网网页进行索引、储存与统计。

3.3 舆情关键信息抽取

智能节点识别技术是一种基于语义网络和本体库的信息提取技术,可以达到快速、准确、广泛地网页核心内容提取功能。其在进行信息抽取时根据预先设定好的主题知识库,能够自动识别出属性关键词并将该关键词后一个词作为该属性的值,对于不存在属性关键词的页面,也能够将满足属性值格式的内容提取出来,若一个属性出现多个可能的值,则根据这些候选值周围的词来给它们产生分值,分值最大则作为该属性的值。

(1)网页去噪功能。抓取下来的主题信息页面往往存在着一定的噪音信息,如导航、广告、版权信息、logo信息、javascript等。这些噪音信息对信息抽取的速度和质量都有较大的影响,因此对抓取下来的页面首先进行网页净化。针对网页中噪音信息的特点,将噪音信息分为隐式的噪音和显式的噪音,根据不同噪音信息的特点采用不同的方式进行净化,网页净化能够有效地提高信息抽取的速度和质量。

(2)智能节点识别技术。以往的信息提取大部分采用包装器的方法,前期需要较多的人工干预,自动化程度低,对于不同的网站生成不同的包装器,不具备通用性。当一个网站结构作了改动之后,则会导致该网站的信息不能提取,需要重新生成该网站的包装器。智能节点识别技术根据预先设定的主题信息的知识库,在对去噪后的网页进行提取时,能够自动识别出属性信息标示词或满足特定属性值结构的信息。当对于某个属性存在多个满足条件的值时,则根据值出现的位置和周围信息得到最符合条件的内容作为该属性的值,能够有效避免基于包装器的信息提取的缺陷。其对页面的结构和页面的语形,它是按照页面的逻辑意义来提取信息,因此具有人工干预性少,不依赖网页结构,高通用性特征,能够准确快速地抽取各种结构的页面信息。

(3)逻辑信息抽取。根据主题信息知识库智能识别出主题信息的所有属性信息。从逻辑意义层面上去理解主题页面的信息内容,而不依赖于信息页面的结构和信息页面的语义,对于不同结构的主题信息页面都有较好的抽取效果,通用性高,安全性好,自动化程度高。

3.4 网络舆情内容分析

与传统的主题法、分类法、主题分类一体化以及索引法的信息组织方法和一般的聚类分析方法不同,主题聚类主要通过对文本、查询式等聚类对象进行基于机器学习的主题分析,将聚类对象转换为基于主题的表示形式,以达到降低特征空间维度的目的,然后以主题表示为基础进行对象的聚类分析,最后得到基于主题的聚类结果描述。

主题聚类(或者称为主题聚类一体化)信息组织方法,正是融合信息组织方法中的主题法与数据挖掘、机器学习中的聚类方法,形成的一种新的信息组织方法。

从主题聚类的过程可以看出,主题聚类方法具有如下三个方面的优势。首先,主题聚类以主题分析、主题提取和描述为基础,可以发挥主题法在组织信息方面的优势,对聚类特征进行主题或语义控制,提高信息服务的质量。其次,主题聚类是在聚类对象的主题提取基础上进行的,通过主题提取可以对聚类对象进行维度约简,从而避免高维数据计算问题,大大缩短信息服务的响应时间。最后,主题聚类方法不同于传统的文本聚类方法在于:它还可以对聚类的结果进行基于主题的描述,提高聚类结果的可读性与可理解性。

如上所述,正是因为信息组织方法理论上的探索与创新的需要、信息服务质量亟需提升的迫切需求,因此,主题聚类研究具有非常重要的理论意义和现实价值。本课题综合情报语言学、文本挖掘、机器学习、自然语言处理、信息检索等多方面的理论与技术,提出基于主题聚类基本思想和主要方法,并将主题聚类方法应用于舆情分析中,具有重要的理论创新与实际应用意义。

(1)主题聚类算法研究。将集成聚类、半监督聚类、样本加权聚类等新的聚类算法用于主题聚类,提高聚类质量。

集成聚类是综合考虑各种聚类器的聚类结果,综合投票得到最终聚类结果。通过集成聚类,可以提高聚类的精度。

半监督聚类是在已知聚类对象有一定的约束关系时,进行约束条件下的聚类。常规的聚类算法忽略了这些约束关系,因此聚类的结果有不合理的情况出现。通过半监督聚类,可以提高聚类结果的合理性。

样本加权聚类也是一种最近才引起人们重视的聚类方法,它可以提高聚类的质量。在传统的基于划分的聚类方法中,一般都是对聚类样本或对象同等对待,但实际上,不同的样本或对象对聚类结果有不同的贡献,样本或对象加权聚类的思想由此而产生。以往的聚类研究中,只有仅仅几个算法考虑样本权重,但不幸的是,这些算法,需要靠用户或者启发式规则来对样本进行加权,这样就限制了这些算法的应用。因此,寻找自动计算每个样本的权重的方法是一个引人关注的工作。本文在利用聚类算法进行概念体系的生成时,将充分挖掘样本之前的结构关系,自动生成样本的权重,提高生成的概念体系的质量。

(2)聚类描述方法的研究。利用自动标引、机器学习等理论或技术对主题聚类后的类别进行基于主题的描述,提高类别描述的简洁性、可读性。

现有的文本聚类方法中共存的问题,就是聚类结果的有效描述问题。传统的聚类算法是直接文本信息检索的聚类,存在的突出问题就是算法的有效性问题,因为传统的聚类算法只对对象进行聚类,不负责对聚类后的类簇进行概念描述和解释。因此,必须借助主题概念表达方面的知识,继续完善检索结果的聚类表示。本课题拟利用主题标引方面的优势,结合机器学习方法,对聚类后形成的类簇进行有效描述,增强类别描述的简洁性、可读性以及可理解性。

我们的研究采用支持向量机(SVM)用于聚类描述。SVM由Vapnik在1995年提出,用于解决二值分类模式识别问题。它在向量空间中找到一个决策平面,这个平面能“最好”地分割两个分类中的数据点。SVM就是要在训练集中找到具有最大边界的决策平面,决策平面可以写作:

对于样本线性不可分问题,可以考虑将其映射到一个高维空间中,使得样本在该空间中线性可分,并且线性判定只需在高维空间中进行内积运算。目前使用的内积函数主要有三种:多项式核函数、径向基核函数、Sigmoid核函数。

4 舆情研判平台构建与服务

互联网舆情研判平台主要模块包括舆情计划、舆情采集、舆情加工、舆情发布等,如图2所示。涉及关键问题主要包括采集环节的垂直搜索引擎研究(主题蜘蛛实现、主题相关判别、网页消重等);互联网信息预处理环节的文本自动分类和网页索引、储存与统计;信息处理环节的信息抽取、主题聚类等;最后还包括对互联网舆情的分析。

我们完成的互联网舆情研判平台现在已经应用于江苏省省委舆情网(如图3所示),江苏省高级人民法院网络舆情跟踪等项目中,其主要功能包括:

图2 互联网舆情研判平台功能模块图

(1)热点话题、敏感话题识别。可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用关键字布控和语义分析,识别敏感话题。

(2)倾向性分析。对于每个话题了解发表人的文章观点,对倾向性进行分析与统计。

(3)主题跟踪。分析网络上新发表的新闻文章和论坛帖子,关注话题是否与已有主题相同或类似。

(4)趋势分析。分析某个主题在不同的时间段内,人们所关注的程度。

(5)突发事件分析。对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。

(6)报警系统。对突发事件、涉及内容安全的敏感话题及时发现并报警。

(7)统计报告。根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。

图3 舆情网首页

5 结语

现阶段我国采取了一定的互联网信息控制手段,在过去对一些社会热点问题的处理中,常常采用回避、封堵的办法,淡化处理突发事件报道,避免信息扩散后增添工作的难度,引发社会的震荡,影响政府的形象,而我们对互联网舆情的分析是期望变堵为疏,变被动控制为主动引导,真正通过舆情分析倾听民声,了解民意。同时网络舆情突发事件考验着政府信息管理能力,在网络舆论爆发时,公众迫切需要得到权威的信息,传统的管理方式不能形成一致行动的协调机制,在处理跨地区、跨部门的舆情事件时显得反应迟钝,行动缓慢,对互联网舆情机制的深入研究可以更好帮助相关部门应对网络突发事件,改善政务服务。

我们将持续的通过对互联网海量信息的浏览和查找,对互联网舆情进行监测与分析,分析各类事件舆情信息的时间与空间分布,并从中提取相关的舆情信息,再通过多种手段和渠道做舆论方向引导,真正为构建和谐的网络环境尽一份力。

收稿日期:2007-11-06

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

网络舆论分析与应用研究_网络舆情论文
下载Doc文档

猜你喜欢