在线文本情感分析技术及应用,本文主要内容关键词为:在线论文,文本论文,情感论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
分类号 B849:C91
随着Web 2.0应用的出现,互联网进入了开放性、交互性更强,由用户产生内容(user generated content,UGC)、决定内容的时代。人们借助聊天室、个人日志、博客、社交网络、微博客等网络应用工具,在网上自由公开表达自己的思想、情感,与他人交流观点、看法,形成正式或非正式的社交网络。同时,互联网也积累下关于人类心理和行为的海量在线文本信息,成为社会科学研究的新对象,扩大了其广度与深度,为社会科学的发展带来了前所未有的机遇,推动了计算社会科学(computational social science)等交叉学科的诞生(Lazer et al.,2009)。
与此同时,在线文本分析技术为挖掘和分析互联网上的海量信息,提供了技术支持与保证。传统的在线文本分析大多基于客观要素,如根据研究的主题对信息进行分类,而忽视了其中所蕴含的主观要素,比如情感信息。近年来,对在线文本的情感分析成为信息科学的研究热点;而情绪、情感一直是心理学的研究重点,心理学关于情绪、情感的研究成果,对于挖掘和分析网络信息具有重要的参考价值。越来越多的信息科学学者意识到这一点,不仅在传统的情感分析工具中加入一些心理学元素,而且还根据心理学的情绪结构理论构建了多个全新的研究工具,为在线文本的情感分析注入了心理学思想。利用这些研究工具对在线文本进行情感分析,已取得诸多有价值的研究成果,无形中拓宽了社会科学研究的疆界。
1 情绪结构理论的两大取向
情绪(emotion)是一个异常复杂的心理学概念,到目前为止,关于情绪的概念内涵,心理学家们仍未达成共识。他们用同一个概念表达着不同的含义、心理过程和功能,导致长久以来对于情绪的结构有着不同的看法和理论观点。概括起来,主要有情绪结构的分类取向(categorical approach)与维度取向(dimensional approach)。
情绪分类取向认为情绪是个体在进化过程中发展出来的对刺激的适应性反应。该理论关注情绪的各个方面,如生理机制、外部表现等,认为情绪是由基本情绪(basic emotion)及在此基础上形成的复合情绪(complex emotion)构成的。基本情绪是人和动物所共有的,是先天的,不学而能的,在发生学上有共同的原型或模式。它们在个体发展早期就已出现,每一种基本情绪都有独特的生理机制和外部表现。非基本情绪或复合情绪,则是多种基本情绪综合的产物,或基本情绪与认知评价等相互作用的结果(Ekman & Friesen,1971)。研究者们对基本情绪的数量和概念有不同的观点。目前,普遍较为认可的基本情绪包括快乐、悲伤、愤怒、恐惧、厌恶和惊奇6种。
情绪维度取向则认为情绪是高度相关的连续体,是一种较为模糊的心理体验状态,很难区分出各种具体的情绪,各种情绪在几个基本维度上高度相关,所以应抓住情绪的不同维度或核心对其进行解析。Mehrabian和Russell(1974)提出了情绪的“愉悦度唤醒度支配度”三维度模型(pleasure arousal dominance,PAD)。愉悦度也称为情绪的效价,从不愉悦到愉悦有不同的程度;唤醒度是对生理和心理激活程度的体验,有高低之别;支配度是对影响、支配周围环境和他人或反过来受其影响、支配的一种体验。但也有学者认为愉悦情绪和不愉悦情绪是两个相互独立的维度而非一个维度的两极,如Watson和Tellegen(1985)提出的积极 —消极情感模型(positive and negative affect,PANA),认为积极情感(positive affect,PA)和消极情感(negative affect,NA)是两个相对独立、基本的维度。
情绪的分类和维度取向从不同的角度对情绪的结构进行阐释,其实并不存在本质矛盾,维度是分类的基础,如悲伤、愤怒和焦虑都属于负性情绪,但在唤醒和支配度上存在着差异(乐国安,董颖红,2013)。二者对于在线文本情感分析技术工具的改进和全新开发均具有重要理论意义。根据不同的情绪结构理论,学者们已优化、构建了多个不同的情感词库,为以在线文本情感分析为重要方法的计算社会科学研究奠定了技术基础。
2 情感分析技术
在信息科学领域中,情感分析(sentiment analysis)是指利用自然语言处理(natural language processing)、统计或机器学习(machine learning)等技术对文本的主观态度、情绪或观点进行语义定向(semantic orientation)或极性分析(polarity analysis),也可称作观点挖掘(opinion mining)(Das & Chen,2001)。
根据文本的层次,从宏观到微观可将情感分析分为文档、句子和词汇三个水平。文档水平的分析关注将整个文档区分为主观或客观、正性或负性(Pang,Lee,& Vaithyanathan,2002)。相对于文档,句子水平的分析更加有效,因为一个文档既包括主观句,也包括客观句。比如,新闻一般被认为是客观的,但是有研究发现其中44%的句子是主观句(Wiebe,Wilson,Bruce,Bell,& Martin,2004)。而词汇是语言的基本单位,词的极性与句子或文档的主观性之间有着密不可分的关系,含有一个形容词的句子有56%的可能性是一个主观句(Bruce & Wiebe,1999);除了形容词之外,动词、副词和名词等也具有一定作用(Voll & Taboada,2007;Russo,2010)。此外,个体在进行语言表达时所选择的词汇不仅能够反映其性别、年龄等人口学特征,还能折射其动机、人格、社会地位等心理或社会特质(Pennebaker,Mehl,& Niederhoffer,2003)。因此,词汇是文本情感分析的基础。
Pang和Lee(2008)对文本情感分析的方法和技术有过详细论述。目前,常用的方法主要有:(1)基于自然语言处理技术,通过确定情感表达与主题之间的关系,分析文本中某一主题的情感倾向而不是简单地将文本分为正负性(Nasukawa & Yi,2003);(2)基于机器学习,根据训练数据并利用支持向量机(supported vector machines,SVM)等技术,将文本区分为正负性(Pang & Lee,2005);还有一些学者将自然语言处理加工和机器学习技术结合起来(Prabowo & Thelwall,2009)。虽然采用这些方法分析文本的情感倾向,获得了许多有意义的研究成果,但是基于机器学习的方法要求利用大量数据进行测试和训练,对于小文本,如Twitter.com或新浪微博(www.weibo.com)等微博客上的文本并不适用。针对微博客文本的情感分析,多数研究者建议根据早期的语言学知识,采取更加透明化的方法——词汇匹配技术(termbased matching technique),即通过匹配文本中含有的词汇与情感词库中的情绪词来判断文本的情感倾向,如含有正性词的微博客文本的情感倾向为正性,而构建合适的情感词库无疑是这种方法的基础(O'Connor,Balasubramanyan,Routledge,& Smith,2010)。
3 情感词库的构建与发展
情感词库(sentiment lexicon)是将文本的情感定向与单个词汇联系起来的纽带,每个词都可看做是某种观点信息的集合,是研究文本的情感和主观性的线索。关于词汇的情感定向分类已经有多项研究,一些人利用语料库(corpus),根据词汇之间的搭配关系,如并列、递进、转折等将形容词分为正负性。这种方法的缺点是其运算法则局限于形容词或副词,而且必须根据连接词才能判断新词的极性(Turney & Littman,2002);另一些利用词典等资源,从字典或词典中找到种子词的同义或反义词,或从词汇的定义或注释中寻找相关信息。
常用的建立情感词库的方法概括起来主要有两种:一是人工产生,即从现有的字典中搜索词汇,人为对其分类建立情感词库,如General Inquirer。General Inquirer被认为是最早的一款情感词库兼计算机情感分析程序,其情绪词来源于《哈佛词典(第4版)》(Harvard IV-4 Dictionary)和《拉斯韦尔词典》(Lasswell's Dictionary),按照情感正负性对词汇进行分类(Stone,Dunphy,Smith,& Ogilvie,1966)。随着信息技术的发展,结合情绪心理学研究成果,该词库目前具有情绪效价、PAD三维度分类、有关自我的词等180个分类。
人工建立情绪词库费时费力,所含的词汇较少,而且存在评分者偏差。随着计算机技术的发展,利用某种资源自动或半自动化地建立词库已成为主流方法。首先找到一些典型的正性和负性词作为种子词,然后利用某种词汇资源,如WordNet,从中找到种子词的同义或反义词,并计算新词与这些种子词的联系,自动或半自动化地建立词库。WordNet是一个在线的词汇数据库,它不同于一般按照字母顺序排列词汇的词典,而是仿照心理语言学对人的词汇记忆的研究,根据词汇之间的语义关系构成词网,以同义词集合作为基本的构建单位(Miller,Beckwith,Fellbaum,Gross,& Miller,1993)。Hu和Liu(2004)就利用WordNet分析了形容词的极性,首先将那些具有明确情感定向的词作为种子词,然后分析其他词与种子词的同义或反义关系,如果一个词与正性词是同义词,那么它也是一个正性词;如果一个词与负性词是反义词,那么它是一个正性词。Esuli和Sebastiani(2006)采用类似方法建立了情感词库SentiWordNet。他们从WordNet数据库中寻找种子词的同义和反义词,经过几次迭代,这些词也具有了一定的极性,然后用这些词的注释训练机器学习分类器,并用这个分类器判断WordNet中其他词汇的极性。由于每个词具有多种不同的含义,因而有不同的主客观性、正性和负性特征。他们采用向量的形式表示每一个词在上述三个特性上的分数,每一个特性的分数区间均为[0,1],总分为1。Ohana和Tierney(2009)采用SentiWordNet对网络影评进行情感分析,表明SentiWordNet是有效的情感分类工具。
OpinionFinder是目前使用较为广泛的一种情感词库与文本主观性分析程序,它能够自动识别文本中的情绪、观点、猜想和其他主观性内容,其目的是识别主观语句并标识出这些句子中的各种主观成分,包括表达者、正负性情绪词汇等(Wilson,Wiebe,& Hoffman,2005)。OpinionFinder中的词汇主要来源于文献、字典、词典和General Inquirer,共有2718个正性词和4912个负性词。
由台湾大学自然语言处理实验室建立的《台湾大学情感词典》(National Taiwan University Sentiment Dictionary,NTUSD,Ku,Liang,& Chen,2006),其词汇来源于General Inquirer的中文翻译和《中文网络情绪词典》(Chinese Network Sentiment Dictionary,CNSD),经过人为修订共包含2812个正性词和8276个负性词。孙瑛泽、陈建良、刘俊杰、刘昭麟和孙豐文(2010)利用NTUSD,结合朴素贝叶斯模型对中文短句进行情绪分类研究,发现人们在网站Plurk.com上表达的负面情绪较多。
上述情感词库根据正负性情绪的简单二分法观点对词汇进行分类,忽略了人类情绪的丰富性和多样性,而基于情绪结构理论构建的新近情感词库则细分出更多种情绪类型或维度。譬如,WordNet-Affect基于WordNet扩展核心词范围,经筛选最后得到的情感词库共有4787个词,分为快乐、悲伤、愤怒和恐惧4种基本情绪(Strapparava & Valitutti,2004)。又比如Bradley和Lang(1999)建构的《标准英语情感词汇库》(Affective Norms for English Words,ANEW),依据情绪结构的PAD模型,要求被试对各情绪词的愉悦度、唤醒度和支配度进行9级评分,而非简单地划分正负性。初期的情绪词主要来自心理学的情绪量表,词汇数量较少。近年来,ANEW的词汇数量已超过3000,在网络文本情感分析中发挥出越来越重要的作用。
POMS-1是在《心境状态量表》(Profile of Mood States,POMS)的基础上发展出的情感分析词库(McNair,Lorr,& Droppleman,1971),它从WordNet(3版)和《罗热新千年同义词词典(第一版)》(Roget's New Millennium Thesaurus)中搜寻POMS中6类心境词汇的同义词,将原始的65个词汇扩展为793个(Pepe & Bollen,2008)。而GPOMS则是基于POMS bi量表(McNair,Heuchert,& Shilony,2003),采用点互信息方法原则(point of mutual information),认为经常同时出现的词汇所表达的意义相似,具有相同极性的可能性较大,因此从网络资源中找到出现在原始量表的72个词周围4到5个词汇范围之内的所有词,经过筛选最终得到了964个词,构成GPOMS词库(Bollen,Mao,& Zeng,2011)。
“语言询问和词汇计数系统”(Linguistic Inquiry and Word Count,LIWC)是一款基于心理学的文本情感分析软件,情感词库是其程序的核心(Pennebaker,Francis,& Booth,2007)。LIWC所采用的词汇来源于各种字典、词典、问卷等,分类涉及各种词性、情绪、社会及环境等多个方面。在这些分类中,有的是确定的,如冠词仅包括a、an、the三个;而一些却有极强的主观性,如情绪。目前LIWC共有406个正性词和499个负性词,其中正性情绪又分为乐观、积极体验和其他正性情绪,负性情绪包括焦虑、愤怒、悲伤和其他负性情绪。研究发现LIWC具有良好的结构效度,能够较好地测量情绪表达(Kahn,Tobin,Massey,& Anderson,2007)。Bantum和Owen(2009)通过研究乳腺癌患者经过网上干预后的情绪表达,发现LIWC能够快速识别出患者文本中所表达的情绪。在其他诸如注意力集中、社会关系、思维风格和个体差异等方面的研究中,LIWC也具有重要作用(Tausczik & Pennebaker,2010)。
一些研究者认为,以上这些可称为“领域一般性”的情感词库在分析文本时容易产生歧义。某一领域的正性词汇在其他领域可能表达负性意义,而且在研究特殊问题时,领域特殊性词汇比一般性词汇具有更大的测量敏感性,所以应该开发领域特殊性的情感词库。譬如,Loughran和McDonald(2011)在《哈佛词典(第4版)》的基础上开发了一个专门用于会计和金融领域的《金融情感词典》(Financial Sentiment Dictionary,FSD)。在General Inquirer的基础上,Young和Soroka(2011)结合《罗热同义词词典》和《回归意象词典》(Regressive Imagery Dictionary,RID),构建了用于政治领域的《词汇编码情感词典》(Lexicoder Sentiment Dictionary,LSD)。另外,DICTION是一款用于分析政治声明(如总统讲话)的计算机程序,程序包含有1000个词汇,分析文本在活力、乐观、确定性、现实性和公民性5个方面的特征(Hart,2001)。TAS/C是一种用于心理治疗的计算机程序,共有2000多个情绪词,分为愉悦、赞同、依恋3个维度(Mergenthaler,1993)。
基于词典资源分析词汇极性的方法简单易行,不需要训练数据。但值得注意的是,此类方法没有考虑词汇出现的语境,难以对同一个词的不同意思进行区分(Chung & Pennebaker,2007)。如“骄傲”在“这是国人的骄傲”中是一个正性词,而在“他是一个容易骄傲的孩子”中则是一个负性词,因此那些没有强烈极性的词在分类时容易出错。
目前,国内信息科学学者开展文本情感分析研究时,大多基于《Hownet情感词典》(Hownet Sentiment Dictionary)构建新的情感词库。Hownet是由董振东和董强(1999)联合设计的一个常识知识库,其中包括中英文的正负情绪词、正负评价词、主观表达词和程度级别词。其以中英文所表示的概念为描述对象,根据概念与概念及概念的属性之间的关系形成一个网状的知识系统,这是它与WordNet的本质不同(张笛,2011)。研究者们根据Hownet的结构特点计算两个词汇或概念之间的语义相似度,然后对词汇的情感倾向性做出判断(陈岳峰,苗夺谦,李文,张志飞,2011;罗亚平,2010;朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德,2006)。譬如《中文基础情感词词典》,其以Hownet发布的情感词作为基础,根据词语的语义相似度计算词语的情感权值,共含有2807个正性词和2474个负性词(柳位平,朱艳辉,栗春亮,向华政,文志强,2009)。除此之外,国内研究者们还针对网络在线文本进行了多项情感分析研究,如对网络评论的语义倾向性分析(丁建立,慈祥,黄剑雄,2010;周德友,2008);对宾馆评论的情感分析(杨鼎,阳爱民,2010);对新闻媒体褒贬值的计算并据此预测股市的波动(王超,李楠,李欣丽,梁循,2009)。Feng,Wang,Yu,G.Yang和N.Yang(2009)从NTUSD和Hownet中选取词汇构建新的情感词库,并对网上的产品评价信息进行分析,帮助消费者和企业领导者做出决策(杨超,冯时,王大玲,杨楠,于戈,2010)。
国内信息科学研究者越来越重视对文档、句子和词汇的情感倾向性分析,并取得了多项研究成果,但是缺乏像国外的General Inquirer这样较为公认的情感词库或文本情感分析程序,导致各项研究成果之间难以直接进行比较;而且所构建的情感词库也多是正负性的简单二分,缺乏对复杂多样的人类情绪现象的深入洞察。随着以新浪微博为代表的中国新一批微博客工具产品的诞生,网络应用无论在用户范围上,还是在影响力上,都达到了前所未有的高度。北京航空航天大学开发了国内第一个微博情感分析系统Moodlens,他们基于表情符号将微博情绪分为快乐、悲伤、愤怒和厌恶4种类型,研究情绪波动模式并建立了实时监测系统(Zhao,Dong,Wu,& Xu,2012)。但是表情符号的分类较为模糊,许多符号很难明确地分为不同的情绪类型,而且许多有情绪意义的微博内容并不会加注表情符号。构建一个基于微博客文本的标准化情感词库很有必要,该情感词库应结合情绪结构理论或情绪心理学的研究成果,从情绪类型和情绪维度两个角度展开分析。
4 在线文本情感分析中的心理学研究
基于情感词库,利用词汇匹配技术分析在线文本情感倾向的方法目前还不成熟,仍存在许多缺陷。但是,现阶段所取得的实证研究成果,表明它确实是有效测量大众情绪的方法,所得的情绪指标能在一定程度上显著地预测现实世界中的社会经济现象,如利用在线文本情感分析对产品市场份额、影视票房、疾病和信息的传播状况、政治选举结果的预测,对宏观经济形势分析,对突发事件预警等(Yu & Kak,2012)。这种面向海量在线文本信息的情感分析技术,能在一定程度上做到实时测量社会大众的情绪波动,为社会心理等研究注入活力,增强相关社会科学研究成果的实用价值。
在线文本情感分析为解决心理学理论之争提供了一条可能途径。譬如,社会心理学研究发现聚集在一起的人往往具有相同或类似的心理特征,这可能是由于人们更愿意与具有相同特点的人相处(同质性吸引),也可能是人们的心理或情绪状态影响了与之交往的其他人,使之趋同(社会感染)(Parkinson & Simons,2009)。Bollen,,Ruan和Mao(2011)从网上人群的主观幸福感(subjective well-being)入手,分析社交网络中以上两种社会心理机制的作用。他们采用OpinionFinder分析用户所发微博客中的情感信息,通过一段时间内累积的情绪来推断其主观幸福感水平,发现同质性吸引是影响人们社会性联结的更为重要的因素。
日照时间会影响人们的情绪,但究竟是绝对日照时间还是相对日照时间影响了人们,在心理学界一直存有争议。Golder和Macy(2011)利用LIWC研究了各个国家的民众在微博客网站Twitter.com上表达的正负性情绪,在一天、一周和一年中的变化,发现相对日照时间是影响人们情绪的主要因素;而且还验证了心理学中关于正负情绪相互独立的观点,高的正性情绪并不必然伴随出现低的负性情绪。Pepe和Bollen(2008)采用POMS 1研究在线公众对未来的情绪,他们收集了网络用户的10741封发往未来的电子邮件,通过比较邮件中的词汇与POMS 1中的词汇,得到这些邮件在POMS量表6类心境上的分数,发现长远来说人们是乐观的,而对不久的将来则有一些困惑和担忧。
传统社会科学研究在分析民众的社会、经济、政治态度时,主要采取随机取样的方法进行问卷或电话调查,如密歇根消费者信心指数(Michigan Consumer Confidence Index,CCI)、盖洛普经济信心指数(Gallup Economic Confidence Index,Gallup ECI)等。研究者发现,通过在线文本情感分析技术获得的公众情绪指标,如推特投资者情绪指数(Twitter Investor Sentiment,TIS),不仅与一些民意测验指标或传统经济指标具有显著相关,而且还能提前1~2天预测现实经济走势(Mao,Counts,& Bollen,2011a,2011b)。
Bollen,Mao和Pepe(2010)采用POMS 1分析Twitter.com中的情感信息,研究其与股市波动、原油价格、社会事件(如总统选举和感恩节)之间的关系,结果发现社会、政治、文化和经济领域的事件对大众情绪有重要的、即时的、独特的影响;而道琼斯工业指数(Dow-Jones Industrial Average,DJIA)和西德州轻质原油期货(West Texas Intermediate,WTI)价格的长期波动对公众情绪有累积的、延迟的影响效应,如2008年冬天的愤怒、紧张和抑郁情绪的增长与秋季经济持续低迷有关(Bollen,Pepe,& Mao,2010)。他们还利用OpinionFinder和GPOMS分析人们在Twitter.com上的情绪表达,发现平静和快乐情绪能够显著增加对DJIA走势方向的预测效果,准确率达到87.6%(Bollen,Mao,et al.,2011)。同样从Google.com和Twitter.com上搜索与股市相关的信息,并与传统的CCI和Gallup ECI进行比较,发现谷歌洞察(Google Insight for Search,GIS)和TIS能够显著预测股市的波动(Mao et al.,2011a)。这些研究成果表明在线文本情感分析是一种有效的测量社会公众情绪的方法,但是这些研究主要根据某种情感词库或分析方法,探究公众在某特定网络资源上表达的情感与社会经济事件的关系,所得结果难以检验这些研究工具自身的效度,以及区分研究工具、网络资源特异性、影响情感和社会事件关系的其他因素对研究结果的作用。因此,Mao等(2011b)调查了4种数据资源,包括传统调查数据、新闻媒体的标题、搜索引擎Google.com和Twitter.com,并采用多种情绪指标,如TIS、负性新闻情绪(Negative News Sentiment,NNS)及金融词汇,在Twitter.com和Google.com上的出现和被搜索频数,比较其对经济指数,如DJIA、交易量和金价等的预测作用。结果发现,传统的投资者情绪调查,如投资者智能(Investor Intelligence)和每日情绪指数(Daily Sentiment Index,DSI)滞后于市场变化;而在线网络情绪指标TIS及1~2天前Twitter.com上出现的金融词汇频率对市场变化有显著的预测作用。
O'Connor等(2010)利用OpinionFinder,研究与消费者信心和政治选举有关的微博客情感定向,并与消费者情绪指数(Index of Consumer Sentiment,ICS)、Gallup ECI及总统选举期间选民投票情况进行比较,发现基于Twitter.com的情绪信息分析方法能够重复传统方法获得的结果。英国学者Lansdall-Welfare,Lampos和Cristianini(2012)利用WordNet-Affect分析了98万用户历时31个月在Twitter.com上所发的信息,发现周期性的事件,如圣诞节、情人节等,在每年会有相似的情绪波动模式;突发的经济或政治事件对公众的情绪有显著影响,如2010年10月英国政府关于公共财政支出减少的通知,增加了公众的负性情绪;在线文本情感分析获得的公众情绪指标可预示某些社会事件的发生,如在2011年夏季的伦敦骚乱发生之前,公众的愤怒情绪从春季就开始持续增加。
值得注意的是,上述研究将在线文本情感信息按照不同的情绪类型进行分类,同等程度地考虑每一个词对文本情感定向的作用,这与实际情形并不完全相符,比如“邪恶”应该比“坏”具有更大的权重。Dodds和Danforth(2010)采用ANEW对大量的英文歌词、歌名、博客等文本信息的情感倾向进行分析,考虑了每个词汇的愉悦程度,而不是简单地认为每个词都具有相同权重,发现歌词的愉悦度从20世纪60年代至90年代中期持续处于下降状态,而同一体裁内的作品变化并不明显;博客的愉悦度则从2005年到2009年缓慢上升。为了更加全面地了解公众在Twitter.com上的情绪表达,他们增加了词库的容量,从Twitter.com、Google Books、歌词(1960-2007)、《纽约时报》(1987-2007)4种类型的文字材料中,按照出现频次选取了10222个不同的词或词组,包括多种语言、复数、动词联合、俚语、缩写、无情绪意义或中性的词,如“the”、“of”等,采用与开发ANEW相类似的方法,让被试对这些词的愉悦度进行评定,研究这些材料的愉悦程度随时间变化的规律(Dodds,Harris,Kloumann,Bliss,& Danforth,2011)。
通过收集、分析公众海量在线文本信息中的情绪表达开展社会科学研究,得到了诸多令人振奋的成果,说明可以从在线文本材料中获得正常且精确的社会公众情绪指标。在线文本情感分析技术可以对公众情绪进行实时测量,一定程度上摆脱了传统社会科学研究受到的经费、时间、人力等方面的制约,克服了主观报告和事后回忆准确性等研究范式固有缺陷,以及很大程度上避免了样本代表性难以保证等弊端。这些宝贵的数据为包括社会心理学家在内的社会科学家们提供了新的研究机遇(Miller,2011)。虽然在线文本情感分析技术这种方法目前仍未成熟,相关的重量级研究成果还较少,下某些结论仍需慎重,但是已有研究成果仍激励和启示我们,传统社会科学采用的费时、费力的大规模调查等方法,能够用在线文本情感分析技术进行部分替代或补充。
5 总结与展望
Web2.0应用的诞生使得互联网络进一步成为人们自发即时表达情感、分享信息,进行人际交流和社会参与的重要媒介。互联网数据收集的实时性,文本内容范畴的丰富性,海量信息分析的高效性,突破了传统社会科学研究的诸多局限,也扩大了社会科学的研究范畴。预测能力较低一直是社会科学研究的缺陷之一,基于在线文本情感分析获得的情绪指标对现实中的社会经济现象,诸如股市波动、突发性事件等,皆显示出一定的预测效应。
反之,社会科学视角也不断为信息科学研究的拓展注入新鲜血液与动力,情绪心理学的研究成果和理论越来越多地应用于在线文本情感分析之中,如ANEW的建构方法被广泛借鉴、应用于情感词库的开发里。一些重要的传统情感词库也不再是简单的正负情绪二分法,而是更多地结合心理学关于情绪结构的研究成果,承认人类情绪的丰富性与多样性,更多地结合情绪结构理论模型,如General Inquirer。此外,根据情绪结构理论,研究者还构建了多个全新的在线文本挖掘与分析情感词库,如POMS 1、GPOMS等。信息科学技术研究社会现象最终获得的只是结果,对于结果发生的原因和内在机制却需要社会科学家给予理论解释,如多项研究发现在线公众的情绪可预示出突发性社会事件的发生迹象(Gilbert & Karahalios,2009;Lansdall-Welfare et al.,2012),但是对于其背后的社会心理机制则需要社会科学家助力进一步探究。
总之,信息科学技术为社会科学的研究提供了新工具和新的可能性;而社会科学视角则提供给信息科学研究以新的题材和理论意蕴。所有这些使得计算社会科学、计算社会心理学等交叉学科正逐渐成为科学共同体的研究新热点(Asur & Huberman,2010;Quercia,Kosinski,Stillwell,& Crowcroft,2011)。