微博客基本社会情感的测量与效度检验_文本分类论文

微博客基本社会情绪的测量及效度检验,本文主要内容关键词为:测量论文,情绪论文,社会论文,博客论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       Web2.0的发展为社交媒体带来了一次全新变革,微博客以其简短有力的表述方式和低门槛无限制的信息发布渠道迅速发展成为目前最为流行的社交媒体系统。最早也最著名的微博客当属美国的推特(Twitter.com),2009年8月新浪网站率先推出“新浪微博”内测版,成为中国第一家也是目前最为流行的微博客服务网站。微博客积累下的海量信息为社会情绪的直接测量提供了可能。与此同时,在线文本情绪分析技术为挖掘和分析互联网上的海量信息提供了技术支持和保证。传统在线文本分析简单将情绪正负二分,忽略了情绪的复杂多样性,近年来越来越多的研究者将心理学关于情绪的研究加入在线文本的情绪分析,获得了更为丰富和精准的人类情绪信息。情绪分类取向(categorical approach)认为情绪是由几种独立的基本情绪及在此基础上形成的复合情绪构成的,基本情绪是人和动物所共有的、先天的、不学而能的,目前比较认可的基本情绪包括快乐、悲伤、愤怒、恐惧、厌恶和惊奇6种(Ekman & Friesen,1971)。

       信息科学的情绪分析是指利用自然语言处理、统计或机器学习等技术对文本的主观态度、情绪进行语义定向或极性分析(Das & Chen,2001)。传统的情绪分析技术主要基于自然语言处理和机器学习,通过分析情绪表达与主题之间的关系或利用数据对机器进行测试和训练,进而确定文本的情绪定向(Pang & Lee,2008),这些方法需要大量的数据,而字数有限,文本信息较短的微博客无法满足这种需要。目前对微文本的情绪分析多数研究者建议采用比较直接的方法——词汇匹配技术,即通过判断微本文是否含有隋绪词库中的词汇来定义其情绪倾向,而构建合适的情绪词库无疑是这种方法的基础(Kim,Gilbert,Edwards,& Graeff,2009)。

       1 微博客基本情绪词库的构建

       传统对互联网信息的分析简单将情绪分为正负两种,现在越来越多的研究者将心理学的情绪理论应用于在线文本的情绪分析。在心境量表POMS的基础上,研究者构建了适合于推特研究的POMS-1(Pepe & Bollen,2008)。该词库以POMS量表的65个词作为种子词,从Wordnet(3版)和《罗热新千年同义词词典(1版)》中搜索65个词的近义词,最后扩展的情绪词库包括793个词,可以测量社会大众在紧张、愤怒、困倦、迷惑、活力和压抑6个方面的心境状态。相比之下国内的相关研究较为滞后,虽然研究者以表情符号为依据开发了国内第一个微博客情绪监测系统(Zhao,Dong,Wu,& Xu,2012),但是表情符号的分类较为模糊,许多有情绪意义的博文也不会加注表情符号。因此,构建一个基于情绪结构理论,适合于微博客研究的标准化情绪词库十分必要。本研究在分析过程中,发现惊奇情绪含有的词汇数量较少,只有35个,难以满足海量信息的情绪分析要求,因而将微博客情绪分为快乐、悲伤、愤怒、恐惧和厌恶五种,构建了标准化的微博客基本情绪词库(Weibo Basic Mood Lexicon,Weibo-5BML)。

       首先,确定微博客初始情绪词汇。参照POMS-1的编制方法,将《汉语情绪词表》(左衍涛,王登峰,1997)、《中文情绪形容词检测表》(钟杰,钱铭怡,2005)以及国外情绪词表中文版中的113个情绪词作为种子词;请5位心理学专业研究生在《现代汉语词典》、《实用汉语形容词词典》和《现代汉语实词搭配词典》上搜索种子词的近义词,对原有种子词进行扩充,取这些同学的并集得到448个情绪词。结合王一牛、周立明和罗跃嘉(2008)研究情绪维度时所用的1500个名词、动词和形容词对词库进一步扩充。考虑到微博客语言的独特性,本研究还邀请10名心理学研究生历时多日搜索微博客上带有情绪色彩的网络用语,如“杯具、mad、你妹”等。将上述所有词汇总后作为微博客情绪词库的最初词源。

       其次,对这些情绪词汇进行初步整理,将含有重叠表达的词汇去掉,如“悲苦交加”的搜索次数包含在“悲苦”中,因此将“悲苦交加”删除;再将具有歧义的词汇去掉;接着根据新浪微博自身的搜索功能,筛除使用频率较低的生僻词,如“痛入肺腑、忧忧不乐”等词汇在微博上的出现频率非常低。最后得到了微博客情绪词库的最初词表,共计2242个词。

       最后,确定微博客基本情绪词库。请三名心理学专业研究生独自判断这些词所表达的情绪分别属于下列五种基本情绪(快乐、悲伤、愤怒、恐惧、厌恶)中的哪一种,综合三人一致的分类标准,一共有942个词汇;分别统计每种情绪类型中各个词的出现频次,将其中出现频次最少的10%予以删除;得到微博客基本情绪词库共有818个词,其中快乐306个;悲伤205个;厌恶142个;恐惧72个;愤怒93个。

       2 微博客基本社会情绪的测量

       对于微博客如推特和新浪微博等的情绪分析,较好的方法是词汇匹配技术,即通过匹配文本中含有的词汇与情绪词库中的情绪词来判断文本的情绪定向,如果博文中含有一个正性词,就在正性情绪上加1;如果博文中含有一个快乐情绪词,就在快乐情绪上累加。如在分析大众情绪的变化趋势时,研究者首先计算情绪词库Word-Net Affect(Strapparava & Valitutti,2004)中每个词每日的博文数与当天总微博数的比值,然后将同一情绪类型的词汇出现频次平均得到该类情绪每天的分数,他们认为每个词汇的频次可以表示其重要性,出现频次高的词汇对情绪类型的作用更大(Lansdall-Welfare,Lampos,& Cristianini,2012)。

       本研究采用类似的方法,以新浪微博为研究平台,基于Weibo-5BML,结合词汇匹配技术分析大众的五种基本社会情绪。华东师范大学软件学院海量计算研究所帮忙挖掘了160多万用户从2011年7月1日到2012年11月30日每日所发的微博,并统计了其中含有Weibo-5BML中818个词的微博数量及每日的微博总量。五种基本社会情绪的具体计算过程为:将词库中每个词每天的微博数量除以当日的微博总数,得到该词汇每日的出现频次;最后将属于同一种情绪类型的词汇出现频次平均,得到五种基本情绪类型每日的频次。

       3 微博客基本社会情绪的效度分析

       为了验证这种基于情绪词库,结合词汇匹配技术测量的社会情绪是否能够真实反映大众的情绪体验,本研究采用了多种方法对其效度进行检验。

       3.1 统计分析

       对五种基本社会情绪的日平均出现频次进行分析,发现快乐的日出现频次最高,约为.00113,悲伤的日出现频次次之,约是.00042,而愤怒的日出现频次最低,只有.00021。

       采用Pearson相关对五种微博客基本社会情绪的相关进行分析(df=517),结果见表1。从表中可以看出,快乐与悲伤、厌恶、愤怒和恐惧情绪均为显著负相关;悲伤、厌恶、愤怒和恐惧情绪之间显著正相关。

       3.2 微博客基本社会情绪的周变化趋势分析

       本研究对五种微博客基本社会情绪的周波动趋势进行了分析,结果见图1。图中横坐标表示从周一到周日(7表示周日),左侧纵坐标表示快乐情绪的日平均频次,右侧纵坐标对应其他四种情绪的日平均出现频次。从图中可以看出,周末的快乐情绪高于工作日,快乐情绪周三时处于最低点,其他四种情绪的变化并不明显。

      

      

       图1 微博客五种基本社会情绪的周波动趋势图

       3.3 对应分析

       对于微博客社会情绪的实证效度检验,常用的方法是分析微博客社会情绪变化与现实事件的对应关系,如通过分析2008年美国总统大选与感恩节引起的推特社会情绪波动来判断微博客社会情绪的效度(Bollen,Mao,& Zeng,2011)。本研究借鉴上述方法,将微博客五种社会情绪的波动趋势与现实生活中发生的重大节日或事件进行对应分析,首先列出上述时间段内出现的重要节假日和社会事件。接着,对重大节假日和社会事件发生时微博客五种基本社会情绪的时间趋势进行分析,探察现实社会中的重要节日和事件与微博客基本社会情绪的对应关系。一些重要节日和事件引起的微博客社会情绪结果为:

       3.3.1 7.23甬温线旅客列车特别重大事故

      

       图2 7.23甬温线旅客列车特别重大事故微博客基本社会情绪波动趋势图

       2011年7月23日,北京至福州的D301次列车与杭州开往福州的D3115次列车追尾,造成了严重的交通事故。本研究绘制了事故发生当天到8月1日共计9天的微博客基本社会情绪波动趋势图。从图2中可以看出,事故发生后,公众的快乐情绪一直较低,悲伤在事故发生第二天达到最高,愤怒在第四、五天上升到最高点。

       3.3.2 钓鱼岛之争

       2012年中日钓鱼岛冲突不断,从图3中可以看出,从9月10日起愤怒情绪开始上升,9月16日西安打砸日系车嫌犯投案(左数第一条虚线)和“9.18事变”纪念日(左数第二条虚线),愤怒情绪更为高涨,而快乐情绪一直较低,直到9月30日中秋节快乐情绪才有所上升(左数第三条虚线);而在十一长假期间(图中虚线框),人们并没有想象中的快乐,反而是拥堵、交通事故和旅游乱象等引发了人们更多的悲伤、恐惧和厌恶等负性情绪。

      

       图3 中日钓鱼岛冲突微博客基本社会情绪波动趋势图

       另外,对中国传统节日元旦、春节和中秋节,以及西方节日如感恩节、圣诞节期间微博客五种基本社会情绪的波动趋势进行分析,发现公众在这些节日期间快乐情绪高涨,而悲伤、愤怒、恐惧和厌恶四种负性情绪处于阶段性低点。

       4 讨论

       本研究通过对五种基本社会情绪的统计分析以及与相应时间段内发生的重要节日和重大事件的关联分析,表明这种基于情绪词库,结合微文本的词汇匹配技术在分析微博客的情绪信息方面是有效的。

       首先,对微博客五种基本社会情绪的日频次进行分析发现,快乐情绪的日频次最高,而悲伤、厌恶、恐惧和愤怒的日频次相对较低。我国文化鼓励人们隐藏或掩饰自己内心的真实感受而不是公开表达,对于负性情绪更是如此,尽管这种抑制在网络的匿名环境中部分得到了释放,但人们在网络上的表达习惯依然深受文化的影响。传统心理学研究也发现,快乐是人们最愿意表达和分享的情绪(周婷,王登峰,2012;Matsumoto,2005);另外与现实生活相比,人们在网上表露的积极情绪更多,消极情绪更少(Lin Han,Leung,& Tov,2012),验证了超人际情绪模型,该理论认为由于社交网络缺乏视觉线索,为了创造更为良好的社会印象人们会选择性地进行自我展示,表达更多的积极情绪,更少的消极情绪(Walther,2007)。

       其次,对微博客五种基本社会情绪的相关分析发现,快乐和悲伤、厌恶、恐惧、愤怒之间显著负相关,而悲伤、厌恶、愤怒和恐惧之间显著正相关,这与情绪的效价——唤醒理论一致(Russell,1980),该理论用一个圆环表示情绪的结构,效价和唤醒两个维度是圆环的主轴,各种情绪较为均匀地分布在圆环内,五种基本情绪中快乐属于正效价情绪,悲伤、愤怒、恐惧和厌恶属于负效价情绪。正负效价情绪位置相反,必然是显著负相关;而四种负性情绪效价相同,因此是正相关。

       再者,对微博客五种基本社会情绪的周变化趋势进行分析发现,工作日的快乐情绪低于周末,一周中最不开心的是周三,这与其他研究的结论相似。Golder和Macy(2011)指出睡眠与生物节律是影响人们情绪的主要因素,而睡眠又会受到工作、学习等的影响,因此人们在周末的正性情绪会升高,而负性情绪没有明显的变化;用愉悦度对大众情绪进行量化,也发现周六的愉悦度最高,接下来是周五和周日,一周中最不开心的是周二(Dodds,Harris,Kloumann,Bliss,& Danforth,2011)。

       最后,本研究分析了现实生活中的重要节假日和事件发生时微博客五种基本社会情绪的变化,得到的结果进一步表明微博客社会情绪是有效的。比如,7.23动车事故发生之初,生命至上、紧急救援是主要问题,人们的悲伤情绪上升到高点;随着时间的推移,事故的处理方式和对原因的调查使得公众对政府的不满和愤怒情绪开始增加。这与Shi,Wang和He(2013)的研究结果相似,他们也基于新浪微博,对7.23动车事故发生后大众的期望、快乐、爱、惊奇、焦虑、痛苦、愤怒和痛恨8种情绪体验的变化进行了研究,发现动车事故发生之初,公众主要是焦虑、期望和悲伤情绪,政府对事故的处理方式引起了人们的惊奇、痛苦、愤怒和痛恨情绪,对事故原因的调查和责任追究引起了公众的愤怒和痛恨情绪。2012年9月10日日本政府不顾中国政府的强烈反对,于次日完成了所谓的钓鱼岛国有化。该消息一经传出,就在国内掀起了新一轮的反日浪潮。截止到9月18日,至少有85个城市举行了反日游行,其中在西安、青岛、广州、长沙等地的游行中,还出现了打砸日系车、日资店的事件,在线调查也发现83.4%的网民支持抵制日货。另外据日本财务省的最新数据,9月份日本对华出口额锐减14.1%,贸易逆差达3295亿日元,创30年最高。日本的汽车产业,如尼桑、丰田、本田、铃木等在中国的销售量下滑均超过35%。中国赴日游客下降了70%,日本旅游收入减少了约670亿日元。以上这些数据足可以说明钓鱼岛之争激发了国民对日本的强烈愤慨,这与本研究得到的结果一致。此外,重要节日如西方的圣诞节和中国的元旦、春节都会引起大众的快乐情绪,这符合常理,与相关研究结果也相似,如调查发现大学生非常喜欢并乐于接受传统节日,82.08%的学生偏爱过春节(陶柳青,陈淦添,2009)。所有这些研究结果表明基于微博客基本情绪词库,结合词汇匹配技术获得的微博客基本社会情绪在分析大众情绪信息时是有效的,能够充分把握公众的社会情绪变化。

       当然,这种基于情绪词库的词汇匹配技术在实际应用时仍存在诸多问题:第一,这种分析技术要求所构建的情绪词库含有的词汇较多、较全面,分类准确度较高;为了保证词库涵盖的范围较广、较全面,本研究在初选词汇时进行了大量的准备工作,词汇来源广泛并尽量使其贴近微博客的语言使用习惯,词汇既包括传统的情绪表达,也包括许多微博客特有的情绪表达词汇或短语。尽管这样,仍然不能完全罗列出人类所有的情绪表达词汇,而且微博客语言具有很强的动态变化特征,如2011年的流行词汇有“伤不起、你妹”等,到了2012年又出现了“屌丝、吐槽”等,随着时间的推移,某些早些时候流行的词汇会逐渐被人们淡忘。因此在构建微博客情绪词库时应该注意微博客语言的动态化特征,适时对微博客情绪词库进行调整。另外,为了保证情绪词汇的分类准确度较高,本研究在判定词汇所表达的情绪意义时要求三名心理学研究生按照严格的标准独立将词汇分为五种类型,并取他们一致的分类结果对词汇进行归类,最大程度地提高情绪词库的分类准确度。

       第二,影响博文情绪倾向的因素还有很多:一是否定词,在情绪词之前出现的否定词是情绪意义的反向表达,如“不开心”,但是本研究在获取词汇在微博客上的表达时并没有将此类型的表述去掉;这是因为在成百上千万的博文中,这种否定表述所占的比例非常小,Golder和Macy(2011)发现在推特上情绪词“good”和“not good”的表述分别为4.93%和0.049%,“happy”和“nothappy”的表述分别为2.37%和0.027%,这种小比例的博文不至于对整个微博客情绪产生严重的影响。二是句子结构,如一条信息中可能含有两种相反的情绪词,如“本来今天很开心,遇到他真让人郁闷”,简单按照词汇的出现频次进行分析会造成错误;还有一些博文虽具有情绪意义但是却没有相应的情绪词,如“谁都不愿和他说话”,句子含有强烈的情绪倾向却没有出现任何情绪词;另外,反向表达也是博文中经常出现的一种表述方式,如“食品怎样才能安全?”虽含有“安全”这个正性词汇表达的却是负性意义;再者脱离语境简单考虑词汇的极性,即假设词汇的极性具有语境独立性,这往往是不充分的,因为词汇的极性在词、短语、句子和文档水平是会发生改变的(Polanyi & Zaenen,2004)。尽管存在上述诸多可能对博文的情绪意义造成影响的因素,但是微博客分析往往基于大样本,通过增大样本量,如增加用户和博文数量,或者延长分析的时间等,这种影响会有所降低。

标签:;  ;  ;  ;  

微博客基本社会情感的测量与效度检验_文本分类论文
下载Doc文档

猜你喜欢