突发公共卫生事件的微博主题演化模式和时序趋势,本文主要内容关键词为:时序论文,突发公共卫生论文,趋势论文,模式论文,事件论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言 突发公共卫生事件由于其影响范围广、危害人们的身体健康甚至生命等因素一直受到政府部门和公众的高度关注。随着社交媒体的快速发展,各种社交平台例如美国的Twitter和中国的新浪微博已经成为公众获取和发布包括突发公共卫生事件在内的各种重大事件相关信息与观点的重要渠道。自2014年2月起,埃博拉病毒在西非肆虐,据世界卫生组织统计,截至2015年7月12日埃博拉病毒已造成超过11 000人死亡[1]。各微博平台上也产生了数十万条有关埃博拉爆发的微博。据统计,每条有关埃博拉病毒的新闻视频都会衍生出几万条微博和互联网搜索[2]。自2015年5月起,寨卡病毒在美洲蔓延,截至目前已有34个国家报告发现寨卡病毒原地传播病例[3],新浪微博上亦生成8100余条相关微博,后续还可能继续增长。 为了探索微博平台上与突发公共卫生事件相关的微博主题类别的时序特征,本文以2014年2月以来有关西非埃博拉爆发的微博作为调查对象,其研究目的包括:(1)探测与突发公共卫生事件相关的微博在不同时期的热点主题;(2)勾勒与突发公共卫生事件相关的微博主题演化模式和时序发展趋势;(3)揭示比较突发公共卫生事件背景下中英文微博平台的使用模式。其研究发现有助于突发公共卫生事件应急响应部门更好地理解突发公共卫生事件的发展轨迹以及公众在不同阶段的关注点,以便在类似的情形下有效地采取措施对抗传染病疫情。 2 相关研究 2.1 微博主题分析 微博的主题分析分为各类主题的微博分析与特定主题的微博分析,其研究已取得了丰硕的成果,常见的研究方法包括统计分析和手工分类。当研究的微博涉及各类主题时,例如研究不同国家与地区的用户所发布微博的主题相关性[4],通常采用较为粗略的主题分类。当研究的微博限定在某一特定主题时,则识别更加细粒度的主题类别,例如识别公众对埃博拉病毒的主要关注方面的主题[5]、将韩国与心血管护理相关的Facebook发帖分为若干类别[6],然而,对主题的手工分类限制了被调查的微博数量。 由于突发事件常常会引发大量的微博消息,研究人员通常抽取其中的一小部分作为样本开展研究[7]。为了自动分析大规模微博的主题,主题建模是一个不可缺少的步骤。潜在狄利克雷(Latent Dirichlet Allocation,简称LDA)和词频向量是普遍采用的主题建模方法[8]。Anantharam等人[9]还开发了其他的技巧,从主题一致的微博中分离出主题异常的微博。然而,许多研究仍然对突发事件的微博主题以静态的方式展开研究,或是分析其在数量上的动态变化,而主题内容的演化则探索不足。 2.2 微博时序分析 为了揭示微博的时序特性,研究人员提出了一些新颖的主题模型、框架和方法,例如趋势敏感的潜在狄利克雷(TS-LDA)[10]、随时间变化的主题模型[11]、多分面主题建模的统一框架[12]及其他基于LDA的方法[13],此外还有学者提出基于tf-idf的方法,在不同的控制集中确定主题的稳定性[14]。 在实验研究中,学者们利用主题模型识别阿拉伯语和英语博客的主题,勾勒战争主题的时间线[15]探测与苹果设备相关的微博中新兴与演化主题[13]。还有学者通过调查来自电视、广播、互联网和报纸上关于SARS、RVF和VEE等突发公共卫生事件的新闻与报道,来验证指示与预警分级模型[16]。一项最近的研究还调查了与飓风桑迪相关的微博每日数量以及这些微博的榜首词汇[17]。 由此可见,当前的实验研究并未充分地探索当突发公共卫生事件发生时微博主题的演化,其调查通常局限于一个国家或一种语言的单一微博平台,很少涉及不同语言或者多个国家的多个微博平台上与突发公共卫生事件相关的微博主题及其演化的比较分析。本文调查了中美两大知名微博平台上关于埃博拉病毒的微博主题时序特征,并总结其各自的主题演化模式与趋势。 2.3 微博可视化分析 由于微博的数量庞大,研究者们开发了若干可视化分析工具、系统或者框架,从而高效直观地分析微博主题或事件及其演化规律,例如WeiboEvents[18]、有交互界面的可缩放计算框架[19]、epSpread[20]和SocialHelix[21]。 自组织映射(Self-Organizing Map,简称SOM)和树图(Treemap)等典型的信息可视化技术也应用于微博探索中。SOM是一种无监督的人工神经网络方法,能够将高维输入数据显示在低维度空间中,具有保持输入数据拓扑结构的优点[22]。SOM输出由若干网状的方格构成,通过竞争学习,属性相似的输入数据被映射到相邻的SOM结点,而属性差异较大的输入数据则被映射到距离较远的结点。U-matrix[23]是一种常见的SOM显示方式,U-matrix中的每一个元素的值等于对应的SOM结点的权向量与直接相邻结点的权向量之间的欧几里德距离之和除以所出现的最大值。将U-matrix的值转换成不同的颜色,应用于SOM输出的背景颜色,用户就可以直观地观察到SOM输出中输入数据映射的位置及其背景颜色,来理解输入数据的分布特点。由于SOM的诸多优点,该方法被广泛应用于众多领域[24-26]。SOM在微博分析中的应用很少,主要集中于电影评论的调查[27-28],很少有研究者运用SOM方法分析微博的主题演化,尤其是涉及突发公共卫生事件的微博主题分析则更少。使用树图来分析微博的例子包括盒子里的群组元布局[29],然而,该可视化主要是用于分析社区成员和社区之间的关系,而不涉及微博主题的分析。 可见大部分微博的可视化研究旨在开发可视化工具来分析微博中的主题或事件,这些工具的分析功能包括转推路径、时空特征以及主题或事件的探测与追踪等,很少有学者研究关于突发公共卫生事件的微博主题的演化模式。而这类研究,例如关于埃博拉爆发的微博主题演化模式的研究将会揭示许多有用的规律,协助突发公共卫生管理部门在类似情况下采取合适的决策与措施。 3 突发公共卫生事件的微博主题演化模式和时序趋势的方法设计 本文的数据收集来自于weibo.com和twitter.com,两者分别为中美知名的微博平台。运用Metaseeker[30]爬取2014年2月1日至10月31日两大平台上包含“Ebola”或者“埃博拉”词条的所有微博条目的内容、发布日期、发布者等字段。使用汉语词频统计工具[31]、Word Frequency Counter[32]和Phrase Frequency Counter[33]分别从中英文微博条目的内容中抽取词和短语,剔除停用词。 按照如下步骤,分别针对Twitter和新浪微博的数据构造SOM输入矩阵,合并同一天发布的微博内容,生成日期-术语矩阵M1,如公式(1)所示。 每个数据集所生成的M1矩阵均采用SOM算法进行训练,计算U-matrix值并应用于SOM输出的背景颜色,按照微博条目的发布日期给SOM结点加上标签。SOM输出中,映射到相同或者邻近SOM结点中且U-matnx值较小的日期被认为是具有相似的主题。此外,我们尝试给SOM结点添加主题内容的标签,然而,本文所收集的微博涉及的术语数量十分庞大,且许多术语是彼此相关的,为了提高效率,本文采用一种新的聚合竞争式SOM结点主题标注策略,即为每个SOM结点添加相应日期中最突出的主题,其步骤如下。 首先,采用LDA模型分别探测两个微博平台上的埃博拉微博的主题。LDA模型是一种生成式主题模型[34],认为文档包含若干主题,而每个单词以某种概率属于某个主题。对于文档d,选择主题分布θd,它遵循α的狄利克雷分布,这里α为每篇文档的主题分布的狄利克雷先验参数。从β的狄利克雷分布中选择φk,这里β是每个主题中单词分布的狄利克雷先验参数。对于文档d中每个单词位置i,从θd的多项式分布中选择主题zi,从φzi的多项式分布中选择单词wi,其中φzi是主题zi的单词分布。针对每篇文档中的每个单词,重复将单词分配到主题的过程,并循环整个文档集许多次,例如1000次。为了推断文档所包含的主题以及每个主题涉及某个单词的概率,通常采用吉布斯采样[35]和期望扩散[36]方法,最终生成若干主题,而每个主题涉及一定数量的单词。假设探测到k个主题,每个主题由若干术语构成,记为termr1,termr2,…,termrs。已知每个SOM结点都与一个权向量相关联,第i个SOM结点的权向量元素用wi1,wi2,…,win表示,n为属性(术语)的数量。为了发现相应日期中最突出的主题,将每个SOM结点的权向量元素根据由LDA发现的主题进行聚合。假设主题j(j=1,2,…k)由termr1,termr2,…,termrs构成,对于第i个SOM结点,聚合其权向量元素的计算方法如公式(2)所示。 寻找中的最大,例如,如果是最大值,那么主题将用于给第i个SOM结点添加标签。 4 实验过程与结果分析 4.1 数据描述和预处理 本文有两个数据集,第一个数据集包括Twitter平台上共计271天的228 992条微博;第二个数据集包括新浪微博平台上共计246天的230 274条微博。为了提高数据处理的效率,分别从两个数据集中抽取前4000个高频单词和短语来构造日期-术语矩阵M1。 4.2 英文埃博拉微博的主题分析 利用Twitter数据构造输入矩阵M1,共有271行和4000列。为了避免取值范围较大的属性在SOM输出中占据主导地位,首先用“var”方法[34]将输入矩阵M1中各属性的方差标准化为1。为了避免“边缘效应”,采用超环面的SOM输出[21]。 鉴于相关研究显示,线性初始化和批学习算法的组合所产生的最终量化误差比其他初始化与学习算法组合所产生的最终量化误差要小[24],本文采用线性初始化和批学习算法对输入矩阵M1进行训练,将U-matrix的值作为SOM输出的背景颜色,如图1所示。右边的颜色条表示每种颜色的U-matrix值。SOM输出上的日期标签表示该日期发布的Twitter内容所映射到的SOM结点,例如2-1表示2014年2月1日。 根据SOM的原理,映射到相同或邻近结点且U-matrix值较小的SOM结点中的日期发布的微博内容具有相似的术语。由于图1采用超环面输出,因此“上边缘”和“下边缘”、“左边缘”和“右边缘”实际上是相连的。图1显示,邻近的日期大多映射到邻近的SOM结点中,这意味着在一段时间内,例如一个月或者连续几天的Twitter内容倾向于具有集中的主题,随着时间的推移,这些焦点主题也会随之改变。 为了探索埃博拉微博的主题特征,采用LDA模型来识别这些微博的主题。前期研究表明,50个主题的困惑度低于10个到40个主题的困惑度。由于太多的主题会降低分析效率,因此选择50个主题运行LDA算法,每个主题选取前20个概率值较高的术语。狄利克雷先验参数α设置为0.5,β设置为0.1,学习过程迭代1000次。 如前所述,每个SOM结点的权向量分量按照LDA识别的主题进行聚合,而每个SOM结点用最突出的主题进行标注,即第i个SOM结点由公式(2)中的uij最大值所代表的主题来添加标签,如48页图2所示。 图1和图2的对比结果揭示了每个主题及其主导的时间段。例如,3月20日和21日最突出的主题为第19个主题。总共有21个主题主导Twitter内容的时间超过一天,详见附录I(http://u.163.com/dRwhyBIY提取码:RccEDoKq)。其中,第19个主题主导的时间最短,仅有两天;而第1个主题主导的时间最长,长达50天。我们结合查看对应的微博内容,对所有主题进行了详细分析,将其概要归纳至附录Ⅰ,发现这些主题可以归纳为11个类别,将每个月每个类别主导的天数归纳至表1。 表1中每个单元格中的数字表示该主题类别在当月主导Twitter内容的天数。如果某单元格为空,并不意味着该月没有出现与该主题类别相关的微博,实际上相关微博内容可能仍然存在,只是并没有占据主导地位。 表1揭示了埃博拉Twitter微博主题的时序发展过程。在西非埃博拉爆发之初,人们对于埃博拉爆发的可能原因感到好奇,许多人将矛头指向移民问题,并预测人口可能下降的后果。几天之后,注意力转向一些非理性的公众行为,同时这也属于事件。关于各种事件的微博持续了大部分时间,并随时间推移逐渐加剧。至第二个月,世界卫生组织(WHO)、美国国立卫生研究院(NIH)及西非国家政府部门意识到采取适当措施,抗击埃博拉病毒的必要性和重要性,例如埃博拉病毒研究等长期措施以及关闭边境和学校等短期措施。随着埃博拉的蔓延与肆虐,统计与状态描述的微博日益增多,例如死亡人数和新感染地区等。同时,ISIS的涌现和乌克兰停火等其他同时出现的新闻也和埃博拉病毒一同被提及,当然该热点仅持续了很短时间。在调查时间段的中期,人们着重于将西非埃博拉爆发评价为前所未有的最大挑战。在调查的最后阶段,人们对于埃博拉的愤怒和憎恨到达顶峰,第41个主题(甚至包含脏话)占据了整个十月份的微博热点,这表示许多人情绪失控,且感到沮丧。 表1所识别的微博主题类别与吴媛[37]提出的甲型H1N1流感的报纸新闻主题框架类目与报导对象类目有相似之处,如后者所构建的定义事件、人情趣味、评价分析、疫情及影响、国家防疫政策与权威发、具体防控工作、国际情况等主题类目分别对应于表1中的事件、公众情感、预测、状态描述、组织行为、措施和响应、外部环境等主题类别。 表1显示,在所有主题中,状态描述和事件是最热门的主题类别,而评价和外部环境则热度最低,这与吴媛[37]发现的《人民日报》中关于甲型H1N1流感的疫情及影响、定义事件的篇数最多,评价分析、国际情况的篇数较少相吻合。周婕[38]同样发现《人民日报》中关于甲流与非典的疫情动态的报导最多,国际援助的报导较少,将所调查的时间段分为三个区间,分别为2014年2月到4月、5月到7月以及8月到10月,第一阶段最热门的主题类别是预测和埃博拉爆发的可能原因;第二阶段最热门的主题类别是统计描述和事件;第三阶段最热门的主题类别是状态描述和公众情感。该研究发现与左莹莹[39]的研究结果有相似之处,后者发现《人民日报》和《文汇报》对H7N9的报导在事件上升阶段主要包括疫情通报、疫情分析等主题,这与图3中的第一、二阶段的埃博拉爆发的可能原因与统计描述这两个主题类别较为吻合。实际上,第二阶段对应的2014年5~7月仍然是埃博拉的上升阶段,而8~10月属于埃博拉的维持阶段。在维持阶段,《文汇报》的主题主要涉及患者情况、疫情的治疗情况、民众反应以及社会影响等,这与图3中第三阶段的状态描述与公众情感这两个主题类别较为吻合。图3显示了埃博拉微博的主题演化过程。 关于各主题类别的发展趋势,措施和响应、统计描述以及公众情感这三个主题类别的热度都呈上升趋势;埃博拉爆发的可能原因、公众行为、预测和评价这四个主题的热度则呈下降趋势;事件、状态描述、外部环境和组织行为这四个主题的热度此起彼伏,分别于2014年8月、9月、7月和8月达到顶峰。图4演示了英文埃博拉微博的主题时序发展。这样的研究发现能够为突发公共卫生事件应急响应部门提供有用的决策依据。在突发公共卫生事件的早期,管理部门应当提供充分的有关传染病起因和合理后果的准确信息。随着疾病的蔓延,管理部门需要及时通报关于措施与响应、统计描述等信息。在后续阶段,管理部门需要平复公众可能高涨的情绪。 4.3 中文埃博拉微博的主题分析 以相同步骤处理中文埃博拉微博。分别用日期和主题标注SOM输出,其结果与图1和图2类似,在此省略。附录Ⅱ(http://u.163.com/dRwhyBIY提取码:RccEDoKq)提供了每个主题及其主导日期。通过对主题及其概要的详细审查发现,中文微博的主题可以归纳为12个类别,如表2所示。 表2揭示了中文埃博拉微博的主题时序发展过程。自2014年西非埃博拉爆发开始到调查中期阶段,国内用户一直在传播埃博拉背景知识。值得注意的是,从第二个月开始,一些代购商利用埃博拉热点优势发布了众多与埃博拉无关的广告。中文微博中措施和响应、组织行为成为最热门主题类别的时间比英文微博晚了近两个月。例如,早在2014年3月底,许多Twitter用户就注意到NIH五年内投入了2800万美元用以抗击致命埃博拉病毒这一举措上。然而直到2014年5月中旬,国内用户才将注意力集中于世界卫生组织及其他部门派遣专家组前往扎伊尔这一措施与响应之上。 通过表l和表2的比较,发现中英文微博有九个共同的主题类别,例如措施和响应、组织行为和预测等。埃博拉背景知识、广告和谣言这三个主题类别仅存在于中文微博中;而埃博拉爆发的可能原因和评价这两个主题则仅存在于英文微博中。 在中文埃博拉微博中,埃博拉背景知识和组织行为是最热门的两个主题类别;外部环境、预测和谣言则是热度最低的三个主题类别。图5显示了中文埃博拉微博的主题演化模式,埃博拉背景知识这一主题类别在第一和第二阶段均为最热门的主题。广告、措施和响应、组织行为的突出性次之,因此在图5中用虚线框显示。组织行为、措施和响应在第三阶段为最热门的主题类别,该研究发现与左莹莹[39]和左馨[40]的研究结果之间存在相似之处。左莹莹发现《人民日报》和《文汇报》在事件的上升与维持阶段的报导都涉及政府措施,这与图5中的第二、三阶段的措施和响应、组织行为这两个主题类别较为吻合。《文汇报》在上升阶段主要是介绍疫情与专家的权威观点,这与图5中第一、二阶段的埃博拉背景知识较为吻合。左馨发现《S商报》、《晶报》等六家报纸在登革热的早期与中期都较多刊登了关于风险提示、知识普及与政府举措的文章,分别对应于图5中的埃博拉背景知识、措施和响应以及组织行为。 图5表明国内用户倾向于将微博平台作为一个普及传染病医学知识,向公众通告组织行为的渠道,许多内容都与抗击致命疾病的措施相关。他们倾向于接受现状并采取务实的态度,例如了解埃博拉病毒及其抗击方式,而Twitter用户则热衷于探究埃博拉的起因与结果。 值得注意的是,与中文微博相比,英文微博中埃博拉背景知识这一主题类别的热度并不明显,措施和响应这一主题类别也不够受重视。正如相关研究[4]所发现的,公众实际上高度关注埃博拉的症状(与埃博拉背景知识相关)、安全旅行以及埃博拉的防护(与措施和响应相关),研究者建议告知公众关于埃博拉的知识、旅行中被感染的风险以及预防埃博拉的措施。 在各主题类别的发展趋势方面,组织行为、事件和广告这三个主题类别的热度始终呈上升趋势;埃博拉背景知识和公众行为的热度则呈下降趋势;措施和响应、现状描述、统计与描述的热度则起伏波动;预测、公众情绪、谣言和外部环境的热度转瞬即逝,如昙花一现。下页图6显示中文埃博拉微博主题的时序发展趋势。 在预测、现状描述、统计与描述、事件、公众行为和公众情感这几个主题类别上,英文微博明显强于中文微博。其中,公众情感在中文微博中大多表现为对医务工作者的感激和尊敬之情,但是在英文微博中该主题类别则大部分表现为对埃博拉的愤怒和憎恨之情。 令人遗憾的是,谣言唯独在中文微博中作为热点持续时间长达两天,主要内容为鲑鱼是否被埃博拉感染以及能否传播该疾病,许多国内用户都相信此内容,直到两天后谣言被驳斥。在相同时间段内全面检索英文微博仅发现了一条微博,实际是关于中国的这一现象:“You can get Ebola from atlantic salmon? That what many in China believe.Market op for NZ king salmon?http://www.stuff.co.nz/business/10490846/Ebola-a-boost-for-NZ-salmon…”(你会从大西洋鲑鱼中感染埃博拉?这是许多中国人所相信的。新西兰帝王鲑鱼的营销操作?)为什么这类谣言仅出现在中文微博中?这种反常现象值得深思,我们也有必要提醒国内用户在对待可疑且未经验证的信息时要保持冷静,不要转发或评论。 在外部环境方面,Twitter用户主要是谈论ISIS的涌现和乌克兰停火,它们时常同时出现在新闻微博中。新浪微博用户则谈论生物医学股票的价格,似乎相信这些公司与埃博拉相关,虽然并没有相关线索表明这一点。 总之,国内用户在埃博拉某些方面的焦点,如状态描述、统计与描述、事件和公众行为等相较于Twitter用户滞后了大约4到7个月,且强度更弱。国内用户更倾向于接受现状,而不是试图探究传染病的原因及其后果。相反,他们非常务实,将微博平台作为普及传染病背景知识的渠道,并且密切关注抗击致命疾病的有效措施,公众情感大多是对奋战在疫区的医疗工作者表达感激和尊敬之情。一些国内用户利用埃博拉病毒这一社会热点发布一些与之不相关的广告,许多人容易受到谣言的影响,因此,国内公共卫生管理部门应当在突发公共卫生事件爆发时及时识别并驳斥谣言和误导性消息,微博平台还需要严控某些广告,将其联系到不相关的热点。 与之相对比,Twitter用户比国内用户更关注埃博拉爆发的动态,并长期密切关注埃博拉病毒的多个方面,如事件和状态描述;他们热衷于讨论埃博拉的起因和后果,并定期评价疫情爆发的严重程度;在英文微博中没有发现广告或谣言成为热点;埃博拉背景知识的热度也明显弱于国内;公众情感主要是对埃博拉病毒的愤怒和憎恨之情,并在调查接近尾声时达到顶峰。鉴于此,美国公共卫生管理部门应当充分向公众普及有关传染病的背景知识,从而更好地满足公众希望了解疫情起因和后果的需求,并在必要的时候安抚公众情绪。 5 结论与展望 微博的主题可视化时序分析能够揭示突发公共卫生事件时微博的主题演化模式,其研究发现有助于突发事件响应部门更好地了解重大公共卫生事件的发展轨迹以及公众在各阶段的关注点,从而在类似事件中采取有效的措施来抗击传染性疾病。本文演示了如何利用一种有效的可视化方法——自组织映射(SOM)与潜在狄利克雷分配(LDA)模型相结合,分析传染性疾病的微博主题时序分布,并概述当疾病爆发时相关微博的主题演化模式。我们调查了两大知名微博平台上2014年2月至10月共计45万多条关于西非埃博拉爆发的中英文微博,提出一种新的聚集竞争式SOM结点标注方法,即每个SOM结点由权向量元素之和最大值所对应的最突出的主题来标注。我们探索了各阶段的中英文微博的主题,并将其归纳为14个类别,即埃博拉爆发的可能原因、预测、公众行为、事件、组织行为、措施和响应、统计描述、状态描述、外部环境、评价、公众情感、埃博拉背景知识、广告与谣言。其中公众行为、事件等9个主题类别为两个平台所共有的主题类别,而埃博拉爆发的可能原因与评价为Twitter平台所独有的热点主题类别,广告与谣言则是新浪微博所独有的热点主题类别。 研究发现新浪微博与Twitter平台具有不同的主题演化模式和时序变化趋势。新浪微博用户主要将微博平台作为普及传染病背景知识的渠道,并且密切关注抗击致命疾病的有效措施,而Twitter用户则更关注埃博拉爆发的动态,并长期密切关注埃博拉病毒的多个方面,如事件和状态描述。Twitter平台的主题类别可划分为三种不同的时序变化趋势,即上升、下降与波动的主题类别,而新浪微博则增加了转瞬即逝的主题类别。两者的共同之处在于,公众行为在两个平台上均为热度下降的主题类别,而状态描述均为波动的主题类别。其研究发现有助于理解重大公共卫生事件的发展轨迹、公众和相关利益者对传染性疾病的关注点以及中英文微博平台的主题差异。该研究发现为突发公共卫生事件应急响应部门在处理类似事件,如目前寨卡病毒蔓延提供了一定的借鉴,例如利用微博来传播传染病的背景知识,消除谣言与无关广告,安抚公众的不安情绪,及时通报响应措施等。本文所构建的研究方法也可应用于与突发事件相关的其他社交媒体分析。后续我们将以其他突发事件为例,探究这14个主题类别是否适用于相关微博,以及是否能发现类似的时序发展模式用于微博的主题预测。标签:埃博拉病毒论文; 公共卫生论文; 公共卫生事件论文; 相关性分析论文; 统计调查论文; 文汇报论文; 疫情论文; som论文;