基于链接网络图的网络舆情主题跟踪方法_舆情论文

基于链接网络图的互联网舆情话题跟踪方法,本文主要内容关键词为:舆情论文,互联网论文,话题论文,链接论文,网络图论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

互联网舆情就是民众通过互联网对政府管理以及现实社会中各种现象、问题所表达的政治信念、态度、意见和情绪的总和[1]。它是社情民意中最活跃、最尖锐的一部分,最直接、最快速地反映了社会各个层面的舆情状况与发展态势,对社会产生的影响面和影响力越来越大,受到国家有关部门的高度重视。

互联网舆情随着时间的推进、网民的持续关注和热烈讨论在不断地演化着。与传统媒体的“就事论事”不同,网络传播者泛化以及网络本身具有的虚拟性、匿名性、发散性、渗透性和随意性等特点,使得互联网舆情在发展过程中可能朝任何一个方向发展,路径不确定并经常进行转换,这导致原有的舆情可以衍生出多个与之相关的话题。因此,衍生性是互联网舆情演化的主要特点。由于衍生出的新话题与原有舆情话题在内容上产生了较大的偏移,衍生话题的有效探测是舆情话题跟踪的关键问题,具有极大的挑战性。

动态性是互联网舆情演化的又一特点。在网络的动态信息流中,随着时间的推进,短时间内将产生大量的舆情话题报道,舆情话题关注的焦点在不断地变化。互联网舆情发展的动态性要求舆情话题的跟踪必须是及时和动态地。

网页是一种特殊的文本,页面中嵌入了多个超链接,多个页面之间的链接指向关系在一定程度上反映出页面主题之间的相关性。本文在分析网页间的链接关系与网页内容关联性的基础上,构建舆情演化的链接网络图,提出基于链接网络图的舆情话题跟踪方法,以实现舆情衍生话题的有效探测和舆情话题的及时、准确地跟踪。

2 文献综述

“网络舆论”的概念于2003年年初首次提出。舆论研究是一个新的社会科学与自然科学交叉的研究领域,国内目前在这个领域取得的研究成果相对较少,研究深度也尚待加强。1996年美国国防高级研究计划署(DARPA)提出的话题检测与跟踪技术(Topic Detection and Tracking,TDT)所取得的研究成果极大地推动了网络舆情挖掘和分析技术的发展。与舆情话题跟踪相关的研究工作主要有:Makkonen首次明确讨论了事件演化的概念,指出一个事件可能演化发展成几个相关但独立的话题[2]。国外一些学者通过在语言模型中嵌入时间变量来研究话题的演变:概率时间序列模型dDTM是将时间离散成若干个区间段,对每个区间段的文档采用静态LDA模型进行演化分析。这种方法的计算复杂性将随着时间粒度的细化而迅速增大[3]。TOT模型、DMM和cDTM模型是把时间作为一个连续变量进行演化分析,但是它们把话题本身当做一个常量,考虑时间信息只是更好地分析现有的话题,而不能发现出衍生的新话题[4~6]。此外,Nallapati等指出话题是由事件(event)和故事(story)及其间的联系组成的,采用有向图来描述话题内部的各个事件,主要根据时间的先后来确定事件之间的依赖关系[7];赵华等提出了一种双质心话题模型,将话题表示成初始质心和当前质心,随着文档的到来而不断更新,体现出话题动态演化的思想[8];事件框架思想也被用于描述话题的演变,林鸿飞等将话题各个内容侧面定义为“槽”,在进行事件跟踪时,独立计算各个槽的相似度,并通过内容槽扩展的方法解决话题漂移问题[9]。

上述研究工作是通过对语言模型、事件框架等传统的话题模型进行改进,或设计出有向图、双质心等话题模型,以捕捉到舆情话题的动态变化。但是这些模型只是捕捉现有话题的变化,而不能有效地探测舆情衍生出的新话题特征。由于衍生出的新话题与原有舆情话题在内容上产生了较大的偏移,基于内容计算的话题挖掘方法并不能有效地跟踪舆情衍生出的新话题。

链接分析法为话题跟踪中的衍生话题探测提供了新的思路。宋丹等利用网页中的链接信息,通过为种子报道或已确定的相关报道页面中链接所指向的网页加分来更新网页相似度,实现Web话题的跟踪[10]。但是,网页中的链接一般是指向此前已创建的网页,为链接所指向的网页加分是不能及时地评价和跟踪舆情事件的新报道。而且,在舆情事件发生的第一时间产生的种子报道中的链接所指向的页面往往是与舆情事件无关的报道。因此,如何在认清链接动机、链接类型的基础上,充分利用链接信息探测舆情衍生话题,实现舆情话题的动态跟踪,仍需要进一步地研究。

3 互联网舆情演化的链接网络图

超链接是互联网的重要元素,它将分散在各个物理地域的信息有机地结合在一起,使人们能够在网上方便、自在地游历,获取所需的信息。网页间的超链接一方面是引导网页浏览的过程,另一方面也反映了网页创建者的一种判断,即有理由认为,如果网页A存在一条超链接指向网页B,那么网页A的作者是认为网页B包含了有价值的信息。因此,互联网中相互链接的网页之间必然存在着某种关联。本节内容在认清链接动机的基础上,对不同类型、不同结构的链接关系能否揭示出话题之间的关联性进行分析,基于此构建互联网舆情演化的链接网络图。

3.1 网页间链接与话题的关联性分析

不同动机的链接类型分析。根据网站之间建立链接的动机不同,刘雁书等将网页之间的链接分为推荐链接、合作链接、相关链接、资源链接、通信链接和广告链接六种类型,并分析得出,除了通信链接和广告链接以外,其他类型的链接能够反映出网页话题之间存在的关联性[11]。

不同结构的链接关系分析。根据网页间的链接结构不同,可将网页之间的链接关系区分为直接链接、间接链接、互链接、同被链接和同引链接,分别如图1所示。Desikan等通过分析指出上述五种链接关系往往表明或暗示着网页A、B的话题之间是存在关联的[12]。

图1 网页之间多样的链接关系

3.2 舆情演化的链接网络图定义

在互联网舆情事件的产生及其演化过程中,伴随着大量的、持续的报道网页,所有关于舆情话题的报道网页构成了一个文集,文集及其间的链接关系构成了舆情演化的链接网络图。

定义1 舆情演化的链接网络图G(P,E,A):P为网络图中节点的集合,每个节点对应一篇舆情报道网页;E为节点间的有向连接弧的集合,且E={〈〉| 分别为链接网络图中的两个节点,且对应的网页存在一条链接指向对应的网页};A为节点的状态集合,包含节点对应的网页创建时间、网页的输出链接数量,以及与舆情话题的相关度等属性。舆情演化的链接网络图如图2所示。

图2 舆情演化的链接网络图示例

将链接网络图应用于舆情话题的跟踪是基于假设1的。

假设1 在链接网络图G中,如果某一网页A链接指向一个舆情事件报道B(或被B所链接指向),则网页A也可能是该舆情事件的相关报道;如果网页A链接指向舆情事件的多个相关报道(或被舆情事件的多个相关报道所链接指向),则网页A是该舆情事件相关报道的可能性就较大。

从3.1小节的链接动机与链接结构的分析可知,如果在构建链接网络图时不考虑通讯链接和广告链接两种类型,假设1是能够成立的。

3.3 链接网络图中节点的话题相关度计量方法

网页与舆情种子报道的内容相似度是判断网页与舆情话题是否相关的重要依据。由于网民的泛化和网络本身具有的发散性与随意性等特点,舆情在发展过程中易出现多个衍生话题。例如,本文实验搜集到的2010年“7·28南京爆炸案”舆情事件相关报道中,大约37%的网络报道是关于舆情的衍生话题,如安全隐患和环境风险讨论、舆论应对策略讨论、理赔和善后处理、市政府拟建纪念馆等诸多话题。对于这些内容已经发生偏移的舆情衍生话题的有效识别,需要利用链接网络图中的链接关系进行判断。因此,针对互联网舆情报道这类语料,链接网络图中节点与舆情话题的相关度需要综合链接分析和内容相似度来计量,节点的话题相关度可表达成公式(1)。

的计算基于传统的向量空间模型进行,方法已成熟,本文不再赘述。

3.4 链接网络图中节点的话题相关度调整策略

为了有效地跟踪舆情话题,链接网络图要随着动态的网络信息流新增节点和链接关系(即链接网络图结构)作的动态调整。由假设1可知,链接网络图结构的调整将影响着其他相关节点的话题相关度,因此有必要对节点的话题相关度也进行调整。

链接网络图节点的话题相关度调整策略是:为了保证链接网络图的调整具有较高的时间效率,只对链接网络图中新增节点所链接指向节点的话题相关度进行调整。假设新增节点A有一链接指向节点B,则节点B的链接相关度(B)依据公式(3)进行调整。

4 基于链接网络图的舆情话题跟踪方法

舆情事件一经发生将受到广大网民的持续关注和热烈讨论,短时间内将产生大量的网络相关报道。因此,迫切需要对网络舆情话题的新报道能够及时地跟踪,以捕捉舆情发展的动态变化。

本文基于链接网络图相关理论提出了舆情话题的跟踪方法。该方法是一种增量式话题挖掘方法,链接网络图保存了已读取舆情报道的话题挖掘结果,基于已构建的链接网络图能够计算出新到来舆情报道的话题相关度,而不需要对所有已读取的舆情报道重新开启所有计算。因此该方法是对网络信息流中逐个到来的网页依次话题识别,实现舆情话题的在线跟踪。相对于在整个文集范围内进行聚类的批学习(batch learning)算法[13,14],该方法更能及时、准确地捕捉舆情发展的动态变化。方法的主要步骤如算法1所示。

算法1 TopicTracking_LND( )

Input:网络动态信息流D,舆情话题T,种子报道S;

Output:与舆情话题T相关的网页集合;

(1)以种子报道S创建节点,初始化舆情话题T的链接网络图G;

步骤(13)是完成图G的精简。步骤(15)是返回G中相关度大于指定域值的所有节点对应的网页集合。

时间效率是舆情话题跟踪方法考虑的重要指标。算法1中对网络图待添加节点和链接的筛选[见步骤(3)和步骤(5)],以及节点状态的动态调整策略[见步骤(12)]和对链接网络图结构的精简[见步骤(13)],都有助于提高算法1的时间效率。对算法1进行时间复杂性分析。令n表示网络动态信息流D中的网页数,a表示每篇文档中抽取出的有效链接的最大数量,则算法1的运行时间为O(cn),c为与a相关的正常数。因此,算法1的时间复杂性是可行的。

5 实验分析

实验选用2010年“7·28南京爆炸案”舆情事件作为分析对象,实验文集选用2010年7月28日至8月15日期间网易新闻(http://news.163.com)中关于南京塑料厂爆炸案、长沙税务大楼爆炸案、河南商城爆炸杀人案、化工炸弹、环境讨论和建设纪念馆等话题的619篇网页。其中关于南京爆炸案的报道中覆盖了爆炸现场、人员伤亡抢救、政府应对、爆炸原因分析、肇事者调查、理赔和善后处理、爆炸后环境风险讨论、安全隐患排查、市政府拟建纪念馆等主题。实验文集的获取是先通过设置关键词、时间段和来源网站等检索条件,调用通用搜索引擎完成相关话题的检索,然后采用网络爬虫将通用搜索引擎返回的检索结果采集下来。

为了评价基于链接网络图的互联网舆情话题跟踪方法的有效性,实验将该方法同仅仅基于内容计算的方法进行了对比。两种方法及网络爬虫均在Visual C++6.0开发环境下程序实现,采用张华平博士提供的中文分词工具ICTCLAS2011(http://hi.baidu.com/drkevinzhang/home)对网页文本内容进行分词处理。实验首先将采集下来的实验文集按网页创建时间的先后顺序进行排序,模拟出网络信息流;分别采用上述两种方法对“7.28南京爆炸案”舆情事件进行追踪实验;结合人工判断对实验结果进行评价分析。

从表1可知,尽管公式(4)的准确率比不上公式(5)和公式(6),但是其召回率明显高于它们,而且它的综合指标F的平均值是最大的,因此实验将采用公式(4)计算链接网络图中节点的话题相关度。

在实验文集上,基于链接网络图的舆情话题跟踪方法同仅仅基于内容计算方法的对比实验结果见表2。考虑到如果相关度阈值选取的较高,两者的召回率都太小;如果阈值选取的太低,则两者的准确率又比较低,因此文中只列出了相关度阈值在[0.1,0.4]区间的实验数据结果。

实验结果反映出,基于链接网络图的舆情话题跟踪方法在召回率上具有明显的优势,这归功于前者具有高效的衍生话题探测能力。例如,当阈值设为0.1时,只有基于链接网络图方法才能跟踪到内容相似度较低的舆情衍生出的两篇报道:“南京‘7·28’纪念馆应该怎样建才合民意?”和“南京拟在爆燃遗址建纪念馆,网友建议责任人出钱”。

表2的实验结果还反映出,基于链接网络图的话题跟踪方法的准确率不及仅仅基于内容计算的方法,这是因为前者话题相关度中的链接相关度分量对话题识别的准确率不及内容相似度,尽管网页间的链接关系与页面内容具有关联性,但是内容相似度仍然是话题识别的最准确依据。

综上所述,基于链接网络图的话题跟踪方法在召回率上具有明显的优势,但对话题识别的准确率不及仅仅基于内容计算的方法。这导致在不同相关度阈值下,两种方法在综合指标F上的表现优势是不同的:在相关度阈值大的情况下,两种方法的准确率都比较高,此时召回率是评价方法表现的敏感指标,因此基于链接网络图的方法在F上表现占优;在相关度阈值小的情况下,大量低相关度的网页通过了筛选,两种方法的召回率都比较高,此时准确率是评价方法表现的敏感指标,因此仅仅基于内容计算的方法在F上表现占优。

评价两种方法的话题跟踪效果需要综合考虑具体应用领域需要和实验表现。从方法的应用领域需要来看,舆情衍生话题的有效探测是舆情话题跟踪的关键难题,具有极大的挑战性。基于链接网络图的舆情话题跟踪方法具有高效的衍生话题探测能力,因此该方法更适合舆情话题的跟踪。从实验结果来看,在不同相关度阈值水平下,两种方法在综合指标F上的表现优势不同,但是从F的平均值来看,基于链接网络图的话题跟踪方法相对较优。

分别表示基于该方法在链接中跟踪舆情话题的准确率、召回率和综合指标。表3列出了不同相关度阈值下基于链接网络图方法从链接中跟踪话题的实验结果。

表3中具有较大的值表明,实验文集的链接中包含了不少文集以外的舆情相关网页。由于受到软硬件资源的限制,不可能针对整个网络空间中的网页进行话题跟踪,本文提出的基于链接网络图的舆情话题跟踪方法能够从链接中发掘出舆情相关网页,提高了舆情话题跟踪的召回率。与在实验文集中进行话题跟踪相比,基于链接网络图在链接中跟踪话题的准确率有所降低,这是由于后者只是根据链接的锚文本来计算该链接对应节点的内容相似度。一般来说,链接的锚文本往往是网页的标题,虽能点出报道主题,但不能够全面地描述页面内容,因此影响了话题跟踪的准确率。

6 结束语

本文提出的基于链接网络图的互联网舆情话题跟踪方法,充分利用网页间的链接关系与内容之间的关联性,有效解决了内容发生偏移的舆情衍生话题的探测难题,显著提高了舆情话题跟踪的召回率。而且,链接网络图结构和节点状态随着互联网舆情的新报道而动态调整,实现了对互联网舆情的在线跟踪。由于在构建链接网络图时考虑到了网页的有效链接,该方法还能够从网页的链接中发掘出与舆情话题相关的网页。虽然该方法通过考虑网页问的链接关系显著提高了舆情话题跟踪的召回率,但是实验结果反映出该方法在召回率提高的同时准确率略有降低。因此,如何充分利用链接关系的特征提高该方法中链接相关度对话题识别的准确率将是作者下一阶段的主要任务。

收稿日期:2010年12月8日

标签:;  ;  ;  ;  

基于链接网络图的网络舆情主题跟踪方法_舆情论文
下载Doc文档

猜你喜欢