网络舆情信息的衍变话题细分及组配规律研究,本文主要内容关键词为:舆情论文,规律论文,话题论文,网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 研究背景与相关工作 近年来互联网络作为最重要的信息交互媒体,网民主体对社会空间内的社会事件所持有的倾向性态度能在网络空间中集中表达的同时,又由于网民对热点事件认知、辨识能力的多元化、从众性等复杂心理,致使舆论走向变得难以预测,少数敏感问题极易发酵、变异进而引发群体对抗性事件,形成网络舆情。面对持续恶化的网络环境以及信息素养良莠不齐的广大网民如何不断加大管理力度,引导正确舆论走向,确保国家网络空间的安全已成为网络监管部门、公共安全专家、情报分析学者不可回避的挑战。 近年来,国内外学术界陆续就网络热点事件的话题分析、话题跟踪、舆情传播等问题展开了多个相关视域的探寻,并取得了一系列成果。 文献[1]将NLP技术应用到舆情话题检测中,将事件分解为命名型实体向量、非命名实体向量和完全特征词向量,进而将三种特征向量对事件属性的区分能力加以对比,并通过实验印证了该算法的话题匹配有效性。文献[2]提出了一种适用于敏感度监测的舆情主题词标引算法,通过词频统计、词性分析等手段对特征词综合加权,并诉诸4组实验去评估该算法的有效性,该研究同时也为网络舆情预警、舆情分类等后续研究工作提供支撑。文献[3]利用Twitter网站的真实数据,设计出一个面向远距离数据监督的微博话题情感极性分类算法,并将微博中由自由分类产生的标签创建训练数据集,最终实现相关话题的多集群情感分类。文献[4]在分析突发事件衍生舆情话题传播特点的基础上总结出突发事件网络舆情传播规律,以此为基础通过定义舆情衍生率(描述舆情衍化程度)等手段最终构建衍生舆情监测预警模型,并就该模型进行了理论可行性的验证。文献[5]基于微博用户的相互关注关系所形成的舆情传播网络描述网络舆情的传播及话题演变机理,在此基础上提出舆情传播的SIRS模型,该模型兼具了有向无标度网络的拓扑载体以及话题裂变性等因素,并最终通过模拟数据进行了仿真实验研究。 通过文献综述不难发现上述研究有两个明显特点:(1)研究范式较为集中于定量分析;(2)研究目标倾向于揭示网络舆情运动的表象性特征。就如何从网络舆情的定量分析出发,以数据为依据定性地总结出其自身演化变动的一般规律方面的研究热度不高。本文认为热点事件在形成舆情的过程中具有更细粒度的话题衍生、裂变性质,而衍变话题在异化的网络情景中能够相互组配、交换舆情情感极性,协同地影响着事件舆情的质心偏移、形成速率以及极性倾向等。因此十分必要从更微观的层面进行分析,进而从宏观层面总结出热点事件所衍变出的子话题细分特征与话题组配规律。 鉴于热门事件的衍变话题并非以孤立的形态存在,而是随着事件的不断延展演变动态关联地形成一种网络拓扑,本研究将引入复杂网络分析技术,以热门事件衍变话题之间互信息度为标准构建衍变话题网络,进而依据衍变话题网络的拓扑结构开展话题中介中心性分析与话题次第组配可视化分析,最后得出的衍变子话题特征将为事件应对流程中的前期舆情定性、中期技术干预、后期舆情跟踪反馈等工作提供实践依据。 2 数据采集预处理 2.1 热点事件的演变话题清洗 出于对实验环境局限性的考虑,需要控制实验数据的样本量,因此笔者选择“新浪”门户网站作为实验数据采集源(新浪网站数据结构完整,便于获取)。采用“我爸是李刚”这一已发舆情话题作为分析对象,以期得到更丰富的衍变话题特征,获取包括视频、相片、文字等多种载体形式的相关主题共223个,经过手动筛选去重后得到50个测试数据,部分数据如表1所示。 从表l中不难发现“我爸是李刚”话题经过近几年的发酵已经从事件本身的跟踪、炒作、剖析与反思逐渐向更多维度变异。而由于网络事件本身并无科技信息的严谨呈现模式,大量口语化表达、标题词汇语义分离度低等客观情况使得被采集数据呈现碎片化、无序化形态,为了便于揭示网络突发事件的组配特征,对多载体的数据进行降维处理(即统一采取标题语义维度加以分析)。另外,本文的研究需要以热门事件的最小变异话题的互信息度为分析依据展开,对数据的处理以数据标题的最小单元语义切割为主,暂不从事件序列的角度分析热门事件的运动特点。鉴于上述原因,本文制定“先分类,后提取”的思想,先概括性地将初始数据集按报道内容分为“事件跟踪”“相似事件披露”“广告炒作”“事件社会性内省”四类,而后诉诸自然语言分析工具ICTCLAS(NLPIR),对类目所包含的标题进行分词处理。 标题被初步分割的粒度稍显粗糙不均,需要进一步调整归置,包括去除停用词、合并同义词等步骤的清洗,出于对网络舆情相较于科研信息的松散语义表述特征以及探寻完整话题变异路径两方面因素的考虑,在此笔者并未采取以往的研究手段去刻意选取语义负载量均匀的高频率特征词汇,但凡语义明确、辨识度高的切分词汇均被采纳。提取的话题单元如表2所示。 2.2 网络舆情信息最小话题单元矩阵测算 有值矩阵是明确舆情子话题网络拓扑性质的基础环节,上一阶段所识别出的子话题集可以看做是“我爸是李刚”事件变异出的最小话题单元,而这些最小单元通过互相吸引、自由组配成新的事件,因此只有量化的描述出话题单元之间的组分异质关系,才能有根据地揭示网络舆情的演变规律。 本研究引入香农博士提出的“互信息”理论描述变异话题的关联强度进而构建话题单元矩阵。互信息(Mutual Information,MI)用于反映随机变量对互相依存的程度通常用统计一对变量间携带信息的覆盖率的办法来度量[6]。数学模型表示为: 在此处变量x,y可被理解为一组最小话题单元,p(x,y)是该组最小话题单元在原始数据中组配共现的概率,而p(x),p(y)为舆情话题单元分别出现的概率,话题单元的互信息度与其共现概率正相关。通过测算话题单元在数据集中的共现自现频率得到一个舆情变异话题的“一模”互信息矩阵,如下页图l所示。 图l中的互信息矩阵真实地反映出热点事件衍变话题之间的内涵互关联特征,是本文展开研究的重要依据。另外舆情传播语境及其互依赖程度也通过数值量化的体现在矩阵中,例如变异话题D~I之间的交叉处数值1.08即代表二者互信息度为1.08。根据图1矩阵诱导出的热点事件衍变话题网络图谱,如图2所示。 图2是网络舆情信息演变话题的拓扑结构,其中的节点代表事项的衍变子话题,而线段的值表明子话题之间的互信息强度,通过下一环节的图谱分析,即可以完成网络舆情信息的衍变话题细分与组配规律剥离。 3 网络舆情信息衍变话题细分研究 网络中不直接相邻的话题单元,在具体的语境中,话题的某方面语义被突显,而另外一些方面则被忽略;普通情况下不构成某种关系的两个话题可能在某个特定的话题牵引下构成某种间接连通。因此,如果说实验中的话题语义强度是可以测度的,那么除了衡量最小话题单元的自现频率之外,观察某一变异话题在互信息网络中对其他不直接相邻话题之间的关联控制力度更加符合舆情话题演进常态。 为了进一步细分衍变话题的外显特征,笔者引入复杂网络技术的“介数中心性”指标,通过对变异话题在网络中介数中心性的测度,判断出网络中核心节点、次核心节点、边缘节点,进而从话题节点在网络结构中的位置优劣视角去刻画衍变话题的层级属性。 在复杂网络分析技术中,这种刻画节点重要性的指标被描述为两个不相邻节点之间经过某个节点的最短路径数目,即介数中心性[7]。数学公式为: 其中,分母部分表示节点s、t之间最短路径数目,分子部分表示经过节点i的s、t之间最短路径数目。经过计算得出变异话题在网络中的重要程度排序如表3所示。 由表3可知,变异话题的介数中心性的测度结果存在着分布不均匀特征。首先子话题“J(社会反思)”、“G(特权思维)”、“B(司法正义)”具有异常高的介数值,反之话题“A(艺术创作)”、“K(媒体曝光)”“E(网游广告)”、“H(考试)”、“O(家庭教育)”、“P(王朝抢劫案)”的介数值却低至0。 通过辨识子话题的语义特征,发现度量结果异常高的变异话题并非由“我爸是李刚”的事件构成要素直接分裂而来,但却充分体现了事件的敏感属性,尤其包含着对事件施加的深层倾向性反映(例如实验数据中的“从我爸是李刚到药家更嚣张”等报道),从多个尖锐角度挑动着网民的神经,是舆情迸发的高危区域,笔者将此类子话题定义为互信息网络内的“中枢话题”。 另外“L、C、F、D、N、M、I”等具有中等介数值的子话题附带着原始事件的碎片式内涵以及相似性外延(醉驾、事件翻版等)。此类话题是对初始事件的直接分解与模拟,是事件舆情化的事实条件,因此与原始话题的情感极性也趋于一致,成为原始事件所裂变衍生出的“元话题”。 而从图2中观察介数测度值为0的几个子话题,显然这几个话题在话题互信息网络中处于边缘的位置。追溯该类话题所依托的报道也是诸如“我爸是李刚入画”、“我爸是李刚进考题”等与原始事件主题要素相关性极低的讽刺、恶搞性内容。事实上该类边缘话题发生了“转向性变异”,属于原始事件的“迁移话题”,其语义逻辑内涵相较于初始事件发生了不可逆转的变迁,往往伴随着事件构成要素的扩展以及网民对热门事件的“民粹”式反馈,导致其话题的良恶走向难以预测,从而推动着舆情传播环境的形成。 4 网络舆情信息衍变话题的组配规律分析 分析图2的拓扑结构,笔者发现“我爸是李刚”这一热门事件随着时间的迁移,出现了平行维度的话题变异路径。所识别出的最小话题单元之间也“互为渗透”地存在于图谱中。为了达到探寻热点事件演变话题网络中“中枢话题”、“元话题”、“迁移话题”内部与话题之间统驱、关联关系的目的,笔者借助复杂网络分析工具Ucinet[8]分别可视化三类话题组间、内部的链接关系,以便更直观地观察其中的组配嬗变规律。 首先,笔者次第从“热点事件演变话题网络”中删除“迁移话题”“中枢话题”“元话题”所代表的节点与边,分别得出“中枢—元话题”子图、“迁移—元话题”子图、“中枢—迁移”话题子图,如图3所示。 从三类话题的组配图谱中能够看出,中枢话题无论是面对元话题(图3-1)或是迁移话题(图3-3)均能保持良好的组配表现,维系着话题网络的连通性。反之,从网络中移除代表中枢话题的节点,衍变话题的子图则变成若干连通片与孤立节点,失去了拓扑连通力(图3-2所示)。 笔者又进一步分别可视化了三类话题内部的链接关系,发现热点事件的衍生话题网络拓扑结构围绕着代表中枢话题的节点所展开,中枢性话题同元话题、变迁话题形成互塑共生的局面。其中中枢性话题与元话题内部均体现出紧凑的话题关联性,而迁移类子话题却以散点的形式附着在中枢性话题、元话题两个子网络中,其组配统驱结构如图4所示。 结合图3揭示的现象,笔者认为衍变话题网络中,网络外环境通过中枢话题给元话题及迁移话题提供话题蔓延条件的同时,又通过中枢话题对其他两类话题的良恶倾向施加约束与压制,中枢类话题所代表的主题性数据包含着有序客观的因素,而其他两类衍变话题的原始报道中却存在着大量无序混淆的因素,当与元话题、迁移话题自由碰撞组配时,中枢性话题势必会压缩元话题与迁移话题在舆情生成演化中进行极性选择的空间,进而在不同程度上决定着热点事件的舆情演绎性质。可以说中枢话题不但决定着热门事件衍变话题网络结构的稳定性、健壮性、连通性,更影响着热门事件的舆情极性趋向。 真实网络的幂律分布式生长机制能够解释上述现象的成因。网络的幂律分布式生长机制是指真实网络往往从少数几个节点开始,不断加入新节点,发生时间序列靠前的节点倾向于获得更多的链接,使得网络得到增量式生长的同时少数具备时序优势的节点成为网络枢纽(表现形式为更易于获得较多的链接),从而决定着网络结构特征[9]。而从时间序列的角度纵观本文所选取的真实数据集,“社会反思”、“特权思维”、“司法正义”类话题在网络中几乎紧随着“我爸是李刚”事件的发生而同步出现,并伴随着事件态势的不断恶化而获得话题的持续性延展。虽然本文构建的衍变话题网络原始数据是按静态时间段采集,但不可否认“马太效应”仍然得以在少数中枢话题(节点)上体现。 相反,作为事件陈述性条件的元话题虽然能够占据一定的时序优势(即与热门事件同步),但由于其附带的情感极性过于鲜明,话题本身亦无思辨性拓展空间,导致话题引力不足,能够对舆情发展态势起到推波助澜的作用,但却无法影响话题演变方向。而迁移类话题只能是事件舆情形成之后的被动反映,无时序优势,又兼具一定的虚拟性,因此只能被逐渐边缘化,只有依附中枢话题及元话题才能得以存在。 5 结语 通过对热门话题的衍变话题特征分析,拓宽了网络热门事件舆情的定性研判、技术干预、跟踪反馈的思路。 (1)热点事件惯常伴随着突发性,事件初始阶段对其性质的分析与判断直接决定危机应对方案的制定效率与表现效率。根据前文对三类衍生话题的细分结果,携带着以往案例直接属性的“元话题”具有极强的可识别性,前期研判阶段必须有针对性地利用其鲜明的可识别特征迅速定性突发事件与已发同类异源舆情的异同,借鉴以往经验,为后续危机应对工作提供基础和条件。 (2)根据衍变话题在网络中的组配规律,中枢话题在整个衍变话题网络中的节点同时兼具稳健性与脆弱性,删除少量中枢性节点就会导致整个网络分裂成若干孤立的碎片。因此通过技术手段(如敏感内容屏蔽、删除)攻击中枢性节点,人为干预舆情极性的级联演变速率,引导事件议题多元化发展,均衡性分布,从而减少事件话题的态度倾向性对抗。 (3)迁移性话题表示事件的持续性震荡,通过对迁移性话题的跟踪有利于了解事件伴随而来的长期消极影响,另外,迁移话题从多个侧面反映出社会公众、广大网民对该事件的意见反馈,有助于及时形成案例知识,并保障后续监管工作贯彻落实到位。网络舆情演变的主题细分与构成规律研究_舆情论文
网络舆情演变的主题细分与构成规律研究_舆情论文
下载Doc文档