中英文突发事件话题演化对比研究,本文主要内容关键词为:突发事件论文,中英文论文,话题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 微博是近年来新兴的一种网络信息传播方式。自2006年Twitter问世以来,类似的服务如雨后春笋般在各个国家出现,由于其便捷性、即时性、互动性、裂变式传播等特点,微博迅速成为公众信息交流的新型平台,世界各地越来越多的用户在微博上表达自己的观点。截至2015年6月,我国微博用户规模为2.04亿,其中使用新浪微博的用户占69.4%[1];Twitter的活跃用户为3.16亿[2]。根据万瑞数据调研报告显示,在微博用户中,通过微博进行自我表达和讨论社会事件的人数超过了60%,通过微博了解和发布对大事件和突发事件的观点用户占96%[3],在突发公共事件发生发展过程中,微博起着独特的传播作用。研究微博上重大新闻事件以及突发公共事件的话题演化,可以辅助人们了解、管理与控制突发事件,国内外学者纷纷以新浪微博和Twitter为平台,研究突发事件的主题、人物等相关特征。 纵观现有研究与应用,我们发现鲜有针对某一特定突发事件的中英文微博差异研究。由于中英文存在文化和语言等方面的差异,这导致中文微博与Twitter上网络群体对待突发事件的讨论和交流也会出现一定的差异。因此,本文以新浪微博和Twitter这两种不同语种的微博平台为研究对象,从这两个平台上抓取H7N9禽流感事件中英文语料,使用主题模型的方法抽取候选话题,对候选话题聚类确定更为合适的话题数,然后再次使用主题模型的方法进行话题建模以确定最终话题,在此基础上计算主题相似度和热度,完成中英文H7N9话题演化的比较分析。结果发现,新浪微博和Twitter在话题数目、话题内容等方面存在一定的差异;除此之外,对新浪微博和Twitter上H7N9禽流感事件话题演化的可视化可以呈现出话题的新生、延续、消亡和孤立以及话题内容随时间的变化。 2 相关研究工作概述 作为社会化媒体的重要代表和突发事件舆情传播的平台,微博广受学界关注[4-10]。 话题的演化反映了一个新闻话题从提出、发展、衰亡到结束的过程。2010年,单斌等人[11]根据引入时间方式的不同,总结了三种不同的演化方法:(1)将时间作为可观测变量结合到LDA模型中;(2)在整个文本集合上用LDA模型生成话题,然后按文本的时间信息,根据话题后验离散地分析话题随时间的演化;(3)将文本集合先按一定时间粒度离散到相应的时间窗口,在每个窗口上运用LDA模型来获取演化。 国内外很多学者提出了不同的方法来研究话题检测及追踪,并进行了实证研究,比如: 2009年,Sayyadi等人[12]提出了基于关键词共现的事件检测算法,用以分析事件和追踪事件的发展,并对该算法进行了实证分析。 2010年,Ramage等人[13]用半监督的Labeled LDA对Twitter上一周的数据进行实验,将话题分为物质类、状态类、风格类和社交类四种类型,分析了四种话题的强度差异。Sakaki等人[14]把Twitter用户当做社会传感器,对微博根据关键词、词频和上下文等特征进行分类,借助Twitter的实时性,检测实时目标事件。 2011年,高田[15]以从国内各门户网站收集的“香港游客在菲律宾被劫持”旅游突发事件相关的Web文档为实验数据,对此事件进行了主题追踪的研究。同年,Zhao等人[16]比较了Twitter和New York Times上话题的类型,将话题分为事件型、实体型和持续型三种类型,从分布、内容、覆盖程度、转发程度等方面对比分析了话题在两种媒体上的差异。 2012年,Li等人[17]提出了一个基于Twitter事件检测分析系统(TEDAS),检测新事件、分析事件的时空模式以及识别事件的重要性。同年,Hu等人[18]提出了联合贝叶斯模型,在同一个框架内执行主题模型和事件分割,以2011年5月19日奥巴马中东演讲和2011年9月7日共和党初选辩论两个事件的微博数据集为实验数据,对该模该模型进行了定量和定性评估。 2013年,Abdelhaq等人[19]开研发了Even-Tweet系统,根据用户所发微博及其时空信息,检测当地实时事件以及跟踪事件随时间的演化,并以欧洲2012年欧洲足球锦标赛的微博为实验数据,进行了实证研究。同年,赵克[20]以腾讯微博平台上“北京暴雨”和“八宝矿难”两个突发事件为例,通过基于主题词共现网络的突发事件子话题挖掘方法,挖掘突发事件中隐含的舆论焦点子话题。 2014年,周振宇和李芳[21]选取新浪新闻和新浪微博两个平台上“小悦悦”、“金正日”、“华尔街”、“天宫一号”四个不同种类的事件的语料集,从话题关注度、词汇差异度、话题演化度三个方面对两种媒体的差异性进行了对比分析。同年,张玥等人[22]以新浪微博和新浪新闻为比较平台,以打砸日系车事件为例,对突发事件在两个平台上舆情传播的特征和规律进行了比较分析。 综上所述,大量研究针对微博平台上突发事件展开,但目前对不同语种微博平台上舆情传播特征和规律尚缺乏研究。此外,大多数基于LDA话题演化方法都假设话题数目是固定的,无法探测新话题的产生,旧话题的消亡和分裂,这与现实中的话题演化情况不相符。因此,本文用主题模型进行话题建模,以Twitter和新浪微博为研究对象,研究不同语言微博平台上突发事件中的话题分布和话题演化的差异性,多角度地了解突发事件中的网络舆情,为突发事件的应急决策提供更为有效地支持。 3 研究框架与关键技术描述 3.1 研究框架 本文以新浪微博和Twitter为研究平台,以H7N9微博为实证对象,对比微博平台上中英文的主题及其演化。首先分别从新浪微博与Twitter上获取H7N9中的中英文语料,对不同平台上的突发事件语料进行主题建模,挖掘候选话题;接着对主题模型得到的词—主题矩阵进行聚类,从而得到每个月份较为准确的主题数;然后根据得到的主题数对突发事件语料进行二次主题建模,计算每个月份的主题热度和相邻月份之间的主题相似度;最后我们对该突发事件的话题演化进行可视化展示,通过可视化来比较分析中英文的话题及其演化。具体研究框架,如图1所示。 本文使用的关键技术主要包括:LDA建模、话题数确定方法及话题热度计算方法,下一小节我们将分别描述这些关键技术。 3.2 关键技术描述 (1)LDA话题建模 LDA模型是一个生成概率模型,是三层的变参数层次贝叶斯模型[23]。首先假设词由话题的概率分布混合产生,而每个话题是在词汇表上的一个多项式分布;其次假设文档是潜在话题的概率分布的混合;最后针对每个文档从Dirichlet分布中抽样产生该文档包含的话题比例,结合话题和词的概率分布生成该文档中的每一个词汇。本文对H7N9事件在两种社交媒体上的语料集按时间片分别建模,得到事件在两种社交媒体平台上各时间段的多个话题结果。LDA模型中主要存在以下参数:α、β、K、d、z,其中α为LDA模型的Dirichlet先验参数,表示文档-话题分布的先验;β为LDA模型的Dirichlet先验参数,表示话题-词分布的先验;K为话题个数,d为文档,z为话题。 (2)话题数确定方法 不同时间片讨论的主题存在着一些差异,为了较为准确地确定每个时间片的主题个数,本文首先利用LDA模型确定候选主题,然后根据LDA模型所得的“词—主题矩阵文档”计算各个时间片内主题间的KL距离(见公式(1)),接着使用AP聚类算法对候选主题进行聚类,将聚类的类簇数作为最终的主题数目。 其中,AP算法是根据N个数据点之间的相似度进行聚类的方法,AP算法不需要事先指定聚类数目,相反它将所有的数据点都作为潜在的聚类中心,称之为exemplar。AP算法[24,25]程如下:将N个数据点之间的相似度组成N×N的相似度矩阵S,并以S矩阵对角线上的数值s(k,k)作为k点能否成为聚类中心的评判标准,该值越大,表明这个点成为聚类中心的可能性也就越大,这个值又称作参考度。聚类的数量受到参考度的影响,如果认为每个数据点都有可能作为聚类中心,那么参考度就应取相同的值。如果取输入相似度的均值作为参考度的值,得到聚类数量是中等的;如果取最小值,得到类数最少的聚类。AP算法引入了两个概念,吸引度(responsiility)和归属度(availability)。r(i,k)表示从点i发送到候选聚类中心k的数值消息,反映k点是否适合作为i点的聚类中心;a(i,k)则表示从候选聚类中心k发送到i的数值消息,反映i点是否选择k作为其聚类中心,r(i,k)与a(i,k)越强,则k点作为聚类中心的可能性就越大,并且i点隶属于以k点为聚类中心的聚类可能性也越大。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值,直到产生m个高质量的exemplar,同时将其余的数据点分配到相应的聚类中[24,25]。由于本文使用的数据都是来自于H7N9这个大话题,因此主要主题相对比较集中,因此我们选取参考度最小值,获取最少的聚类。 P(i)表示同一时间片内主题P中词i的概率,Q(i)表示同一时间片内主题Q中词i的概率。 (3)话题相似度及热度计算方法 本文通过计算相邻时间片主题间的相似度来确定主题的演化情况,计算方法如公式(2)。 为了发现采集微博信息中用户关注的热点话题,本文参考文献[26]中基于LDA模型的主题热度分析方法。该方法利用LDA主题建模生成的“主题—文档概率分布矩阵”,矩阵中的每个元素表示微博信息隶属于某个主题的概率,将所有微博信息隶属于某一主题的概率进行累加,其结果可反映出采集到的微博信息隶属于某个主题的比重,即用户在每个时间片内对各个主题的关注热度。 (4)话题演化关系确定的方法 (a)新生主题:若该主题不是前一个时间片某个主题的延续,只是下一个时间片某个主题的开始,该主题的状态为新生。 (b)延续主题:若该主题既是前一个时间片某个主题的延续,又是下一个时间片某个主题的开始,该主题的状态为延续。 (c)消亡主题:若该主题只是前一个时间片某个主题的延续,不是下一个时间片某个主题的开始,该主题的状态为消亡。 (d)孤立主题:若该主题既不是前一个时间片某个主题的延续,也不是下一个时间片某个主题的开始,则该主题的状态为孤立。 4 实验结果与分析 4.1 实验数据 在2013年,“H7N9”的爆发引发了网民的热烈讨论,本文以H7N9相关词语为查询式,用网络爬虫工具采集新浪微博与Twitter两个社交平台上“H7N9”突发事件语料作为实验数据。我们得到的新浪微博的微博数为455 212,Twitter的tweet数为80 648。然后对中英文初始数据进行分词及词性标注、过滤停用词等语料预处理后,选取以名词、动词、形容词的词语作为实验数据后得到新浪微博450 393条、Twitter79 536条。 以月为时间片窗口数据进行分割,得到的各个时间窗口上微博数如表1所示。 从表1中可以发现,国外社交平台Twitter和国内社交平台新浪微博上关于H7N9的语料中,新浪微博和Twitter平台上的数据量变化趋势一致,都在2013年4月达到最高峰,新浪微博的数据量变化更为明显;Twitter的微博数据量在各月的分布比较均匀,新浪微博的数据量在各月的分布差异很大,这说明了人们对H7N9爆发初期的反应很大,然后都趋于平静,但是国内反应更大。 4.2 实验结果分析 本文对中英文H7N9微博所得实验结果从主题内容分布总体和话题演化两个方面进行了比较分析。 4.2.1 中英文主题总体的比较分析 (1)中英文主题内容分布总体的比较分析 通过本文3.2部分的方法确定主题数,然后利用3.2部分LDA话题建模技术,抽取话题。根据话题抽取的结果,我们对新浪微博和Twitter上H7N9微博(2013年3月~2014年4月)的主题差异进行对比分析,结果分别如表2与表3所示。 从表2可以看出,主要是有关H7N9病毒相关情况,H7N9禽流感感染情况,H7N9禽流感发病症状,预防措施,防控工作,病毒疫苗,活禽市场(比如“家禽”、“交易”、“市场”、“鸡蛋”、“使用”、“禽类”等)。在关注地点上,浙江省、江苏省、上海、北京、广东省这几个地点是大家关注的热门省市。 从表3可以看出,Twitter平台上大家比较关心H7N9禽流感感染情况,病毒疫苗,H7N9禽流感传播,禽类(比如“birds”、“poultry”、“avian”等)。在关注地点上,上海、北京和香港是大家关注的热门城市,中国、大陆这种笼统的地点出现的比较多。 (2)中英文不同时间片段的话题数比较分析 在话题数的初步确定上,我们首先在每个时间片内运用LDA模型获取候选话题,使用的是开源Gibbs Sampling工具,其参数设置如下:K设置为100,模型参数α,β分别设置为50/K和0.1。随后,根据LDA建模结果计算同一时间片内不同话题间的KL距离,然后根据所得KL距离对候选话题进行AP聚类,得到各个时间片较为准确的话题数(i=1,2,…,12,代表不同时间窗口),得到的每个时间片内的主题数,如图2所示。 从图2可以看出,新浪微博不同时间片内的主题数为1到15,每个时间片内的主题数平均为5个。Twitter不同时间片内的主题数为2到7,每个时间片的主题数平均为4个。总体上来看,新浪微博的主题数多于Twitter主题数。2013年4月,在H7N9刚爆发的时候,新浪微博和Twitter话题数都陡然增多,达到了最高值。这表明虽然国内外话题数有很大差异,但是国内外对H7N9事件爆发的反应是一致的;国内讨论H7N9相关话题时比较多,关注面更为宽广,这应该跟H7N9疫情在国内爆发有关,国内更为关注。 4.2.2 话题演化比较分析 本文选取主题之间相似度的阈值为0.5,来确定相邻时间片主题之间的演化关系,然后,从主题热度、主题的四种状态、主题演化的可视化以及主题演化的内容分布四个方面对中英文H7N9微博主题演化进行了比较分析。 (1)中英文主题热度比较分析 由于本文选取语料时间跨度比较长,本文只给出2013年10月新浪微博和Twitter上话题及其热度作为样例,如表4和表5所示。 从表4和表5可以看出,2013年10月,同一平台上各个话题之间的热度差别很小,Twitter上各个话题的热度都要高于新浪微博上话题的热度,这跟当前月份Twitter上话题数目少于新浪微博话题数目有一定的关系,当前月份Twitter上话题数较少,每个话题自然受到的关注会比较多一些,热度高一些。 (2)中英文主题四种状态的比较分析 随着事件的发展,新生的话题会延续或者消亡,也有些话题是孤立的,只是昙花一现。从下页图3可以看出,新浪微博和Twitter新生话题数目的走势是相似的,但是消亡和孤立话题数目的走势则存在很大差异。 (3)主题演化可视化对比分析 本文参照文献[27],对新浪微博和Twitter平台上主题热度及内容随时间的变化进行了可视化的展示,其中,=0.5时,新浪微博和Twitter平台上的主题演化如下页图4所示。 图中的每个长条代表着某个主题,有新生、延续、消亡和孤立四种状态的主题,长条的长短表示主题热度的强弱;线条表示不同时间片主题之间的相似度,线条的粗细反映了主题之间相关性的大小。同时,可以在左侧勾选要在右侧显示的主题类型,可以通过调节topic size来过滤强度小的主题,通过调整similarity weight来过滤掉相关性较小的主题。鼠标放在主题上会显示出该主题的top10特征词,鼠标放在线条上,可以显示出线条的两端两个主题的top10特征词,同时标记出共现的特征词。 由图4可以看出,与Twitter平台相比,新浪微博平台上新生、孤立、消亡状态的主题较多,而延续状态的主题数则较少;与新浪微博相比,Twitter平台上相邻时间片主题之间的相似度较高。说明了Twitter平台上主题之间的差异小,话题比较集中、单一。 (4)主题演化内容的对比分析 本文选取阈值为0.5来展示新浪微博和Twitter平台上主题的演化情况,包括主题的新生、合并、分裂、消亡和孤立,得到的结果分别见图5和下页图6。在图5与下页图6中,每个方框代表一个主题,有连线关系的两个主题间具有演化关系,箭头末端的主题是箭头始端的主题在下个月的演变主题。 由图5可知,2013年3月,热门话题为上海、安徽两地的H7N9禽流感的感染情况(如“患者”、“人感染”、“诊断”、“发现”)。2013年4月,上海、安徽省、江苏省、浙江省、北京成为H7N9禽流感爆发的热议地点。2013年5月,H7N9流感病毒感染情况(如“发现”、“确诊”、“患者”、“新增”、“病例”)成为热议话题。2013年6月,上海的H7N9禽流感疫情和“万能神药”板蓝根深受关注。2013年7月,河北、北京两地H7N9禽流感感染情况备受关注。2013年8月,热议话题为广东省出现H7N9禽流感病例和H7N9病毒人传人。2013年9月,疫情和板蓝根是热议话题。2013年10月,浙江嘉兴秀洲区病例成为焦点,疫苗也开始更多地被关注。2013年11月,浙江省和广东省疫情成为热议的焦点,同时预防也更多地被关注。2013年12月,广东省疫情继续成为热议的话题。2014年1月和2月,浙江省和广东省疫情依旧是热议的话题。2014年3月和4月,H7N9禽流感疫情仍然备受关注。 由下页图6可知,2013年3月,中国发现首个H7N9禽流感病例成为热议话题。2013年4月,上海、台湾、北京成为热议地点,同时疫苗和H7N9病毒“人传人”的特点较多地受到大家的关注。2013年5月,疫苗依旧是大家关心的话题,同时科学家对病毒的研究备受关注。2013年6月,上海H7N9禽流感感染情况及其他病毒(比如“H5N1”、“H1N1”、“mers”)深受关注。2013年7月,病毒疫苗和对H7N9禽流感的抗争成为热议话题。2013年8月,广东省H7N9疑似病例、病毒疫苗和家禽业备受关注。2013年9月,日本成为热议地点,H7N9禽流感感染情况和疫苗是热议话题。2013年10月,大家比较关心研究人员的研究成果和家禽业。2013年11月,广东成为热议地点,大家依旧比较关心病毒疫苗。2013年12月,H7N9禽流感的传播情况备受关注。2014年1月、2月、3月和4月,H7N9禽流感的感染情况很受关注,其中2014年3月,活禽市场引起了大家的关注,2014年4月,疫苗依旧是大家关心的方面。 综上,我们发现两个平台上存在一定的差异。比如,在数据分布上,Twitter上各个月份数据量分布较为均匀,说明国内对H7N9禽流感事件的爆发反应更为强烈,这可能跟身处其中有关;在话题数目上,新浪微博上话题数目较多,话题面更为广泛;在话题内容上,除了共同话题之外,微博话题还有H7N9禽流感发病症状、预防措施和防控工作,与H7N9禽流感事件相似的2003年“非典”事件也再次成为微博上热议的话题,Twitter上的话题分布则稍为单一。在关注地点上,Twitter上出现的地点比较国际化,更为大家所熟知。同时,两个平台也存在一些相同点,例如,新浪微博和Twitter平台上各月的数据量变化趋势一致,都在2013年4月达到了最大值,说明在H7N9爆发初期,国内外反应都很强烈H7N9禽流感感染情况、病毒疫苗、活禽市场是两个平台共同关注的话题。 5 结语 传统的话题模型在进行话题演化分析时,存在话题数无法确定的问题,并且大多数的话题演化的研究局限于单一语种,无法了解不同语种环境下舆情演化的差异性。本文使用按时间先离散的方法,先将文本按照时间信息离散到时间序列上对应的时间片内,通过聚类确定各个时间片的话题个数,然后依次地处理每个时间片的文本集合,最后形成话题随时间的演化,并以新浪微博和Twitter两个平台上H7N9禽流感事件为例进行了对比分析。结果表明,该方法能够描述新话题的产生,旧话题的消亡以及话题内容随时间的变化,也能发现两个平台上存在一定的差异,如文中4.2部分所述。但是,本文缺少对话题演化的评判。 本文只对新浪微博和Twitter两个微博平台单一的“H7N9”事件进行了粗略的对比分析,未能在多个事件上进行更详细的对比分析,因此未来我们将可能扩展到多个突发事件,去得到不同文化差异下突发事件发生下不同民众的态度,得出更加普适性的结果。标签:聚类论文; h7n9论文; lda论文; 时间片论文; 主题模型论文; 数据建模论文; h7n9禽流感论文; twitter论文;