Web文本情感分类研究综述,本文主要内容关键词为:文本论文,情感论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2010.05.023
随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分析的一个重要问题就是情感倾向性的判断,即判断作者的观点是褒义的、积极的,还是贬义的、消极的。这类问题也被称为情感分类(sentiment classification)。
1 文本情感分类概述
在已有的研究中,情感分类也被称为意见挖掘(opinion mining)[1,2]。为了表述一致,本文统称为情感分类。情感分类涉及多个领域,如自然语言处理、人工智能、自动文本分类、文本挖掘、心理学等。它不同于传统的基于主题自动文本分类,后者分类的依据是文本的主题,如属于军事类还是体育类,而情感分类主要用来判别自然语言文字中表达的观点、喜好以及与感受和态度等相关的信息[3]。由于Web文本是以非结构化形式存在的,因此对文本进行情感分类是一个复杂的过程,包括:主客观文本分类、情感极性判别、情感强度判别。前者是情感分类的预处理工作,后两者才是真正意义上的情感分类。为了避免混淆,我们将后两者统称为情感识别(见图1)。
图1描述了从原素材到得出情感结果的整个情感分类过程。其中,原素材中的文本可以是句子或者是整篇文章,它们所对应的分类任务分别为句子情感分类和文档情感分类。为了减少干扰,提高情感分类的精度,首先要对文本进行主观性识别,即主客观文本分类。只有带有主观色彩的文本才会蕴含着作者的情感,所以情感识别的对象是主观文本。情感识别分为极性判别和强度判别两个任务。极性分类是识别主观文本的情感是正面的赞赏和肯定还是负面的批评与否定。而强度判别则是判定主观文本情感倾向性强度,比如强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别。
在整个情感分类过程中,还涉及分类前的预处理技术,包括分词、词性标注、平滑、停用词和缩词的处理等语言处理技术,这些技术相对成熟,不再赘述。下面从主客观文本分类和情感识别两个方面来总结情感分类的研究现状。
2 主客观文本分类现状
所谓“主观性”是指在自然语言中用来表达意见和评价的语言特性[4]。主观性文本表达的是说话者对某人、某物或某事的态度和看法,包含个人的主观情感色彩。与之相对应的客观性文本则描述客观存在的事实,说话者往往持有中立和客观的情感。在表述上,主客观文本也有明显的差异,客观性文本通常采用比较正式的陈述句,而主观性文本因为强调自我表达,表述上比较自由,偏口语化,比如“这款手机酷毙啦!”。
主客观文本分类研究已经展开,并应用在信息检索和信息抽取等领域[5]。主客观文本分类与其他文本分类类似,可以从篇章、句子和词语三个层面展开,用到的方法主要是机器学习算法。
Wiebe等很早就对主客观文本分类问题进行了研究[4~11]。Wiebe和Bruce将某些词类(代词、形容词、基数词、情态动词和副词)、标点和句子的位置作为特征值,设计了针对句子级别的NB分类器[6]。在此基础上,Wiebe[5]又将某些词性和基于词典的语义词作为特征项,显著提高了分类器的分类效果。Wiebe和Wilson还针对基于篇章层面的分类方法进行了研究[7]。通过计算每篇文档中出现的主观性词语数量,用KNN分类器来判断篇章的主客观性,取得了较好效果。
图1 情感分类的主要过程
Yu等利用三种统计方法进行主客观句的识别研究,包括相似性方法、NB分类和多重NB分类。其中NB分类器在原有研究的基础上采用词、2-gram、3-gram和词类、具有情感倾向的词序列、主语和其直接修饰成分等作为特征项,对主观句识别的查准率和查全率达到了80%~90%[12]。
Pang和Li将句子间的情感联系作为分类的一个重要因素,用最小图割(Minimum cuts)的方法来寻找上下文语句的关系以提高分类精度。它的划分原理是使成本公式最小:
中文语境下主客观文本分类具有一定的复杂性,而且对中文主观性文本的判别起步较晚,大多数情感分析研究都是人为抽取主观性文本。
林斌将影视内容介绍和影视评论分别视为客观文本和主观文本,采用互信息量(MI,Mutual Information)计算影视评论中每个词语的互信息量,并由大到小排序,取最靠前的275个词语,并将它们两两组合,再计算每对组合在影视评论中的互信息量,最后得到“我想”“我应该”等具有主观倾向的75个词语组合,并将其用于句子主客观性的判断,总体的准确率达到了78.42%[14]。
叶强和张紫琼等提出一种根据连续双词词类组合模式(2-POS)自动判别句子主客观性程度的方法。首先在N-POS语言模型的基础上,利用CHI统计方法提取中文主观文本词类组合模式,利用这些组合模式给每个句子赋以主观性得分,将得分高于设定阈值的句子判定为主观性文本。实验表明,当阈值为0.12时,主观文本的分类查准率和查全率能达到76%[15]。
需要指出,由于中英文语言结构及中西方文化的差异,使得中文的情感流露方式具有特殊性和复杂性,这给中文文本的情感分析带来挑战。与英文文本多都应用机器学习不同,中文文本的主客观分类主要采取语义方法,而且分类效果也不够理想,相比于英文能达到90%左右的精度,中文的研究分类精度还不够高。这主要由于影响中文文本主客观判断的因素远远比英文多而复杂,除了词义、词性之外,词语的用法也会影响到文本的主客观性质。因此在今后中文文本主观性判别研究中,除了引入机器学习算法外,还要注意考虑中文词法和句法的特殊功能。
另外,一些研究将主客观分类和褒贬情感分类同时看作三分类问题,将文本分成为“褒义”、“贬义”、“客观”。前两类归为主观文本,后者视为客观文本。王根和赵军指出这种观点忽略了两个任务所用特征的不同,即将主客观和褒贬极性的特征夹杂在一起,影响了分类效果[16]。本文认为,主客观分类中的“客观”类和情感分析中的“客观”类是两个不同概念。比较下面两句话:“这部电影耗资两亿,将于明天在上海万达影城上演首映”;“这部电影整体上还算四平八稳,跟我的预期有点差距,但也不算失望”。前一句是陈述客观事件,是客观文本。而后一句显然是作者的主观评价,却不带有明显的褒或贬。因此对它的分类过程是:首先将其归为主观性文本,然后通过情感分析再归为情感类别中的“客观”(或“中立”)类。所以,非褒非贬并不是作者没情感,而是情感倾向并不明显,持中立态度。如果将双分类任务看成一个多分类问题的话,会错误地把带有主观性但情感倾向不明显的文本分类为客观性文本,影响情感分类的科学性。为了避免混淆,在后面的表述中,本文将情感分类结果中的非褒非贬统称为“中立”类。
3 情感识别现状
3.1 文本情感极性研究
3.1.1 基于情感词汇语义特性的识别
基于情感词汇语义特性的识别是指利用词语的感情色彩来判断文本的情感极性,主要有两种研究方法:计算词语情感得分[17,18]和构造情感词[19~21]。
(1)计算词语情感得分的方法
(2)构造情感词的方法
还有一些工作尝试建立情感词典来匹配文档的情感。Tong手工建立了一本针对影评分类的情感词典[19]。首先人工抽取出影评相关的情感词汇(比如“great acting”,“wonderful visuals”,“uneven editing”)。同时对每一个情感词汇按其所代表的情感倾向(“positive”或“negative”)进行人工标记,并加到专门的情感词典,最后利用这个词典去判断影评的情感态度。但是该方法建立的情感词典往往是面向特定领域的,每一个分析对象都需要构建一本词典。而Hu和Liu在手工建立的已知positive和negative的种子形容词词汇表的基础上,利用WorldNet中词间的同义和近义关系来判断新情感词的语义倾向,并以此判断观点的情感极性[20]。
建立情感词来判别文本情感的方法存在两个问题:①基于词典的识别方法以分析词汇情感为基础,但忽略了句子中否定词对情感的影响,造成句子级别和文档级别的分类精确度下降。②所选的情感词往往是情感特征比较强烈的词语(主要是形容词和副词),而还有一些词汇往往隐含着说话人正面或负面的情绪。比如“爆炸”、“车祸”隐含了较多负面情感,而“舞会”、“打折”往往表达了正面情感。
为了克服单一靠人工建立的词汇在情感解释力上的缺乏性,Liu等使用Open Mind Common Sense对人类通用情感进行学习和解释[21]。Open MindCommon Sense是一个常识知识库,可以用来对客观世界中的事件、行为、对象进行通用的情感推理。首先从知识库中选出典型的六类情感词汇(高兴、悲伤、愤怒、恐惧、厌恶和惊奇),然后根据知识库中的概念关系对其他概念进行情感赋值。比如,知识库有这么两句话:“发霉的面包很恶心”,“新鲜的面包很美味”。那么,在“恶心”和“美味”分别被归类为厌恶和高兴的基础上,修饰语言模型(Modifier Unigram Model)可以分别将发霉和新鲜这两个修饰语也判断为表示厌恶和高兴的概念。
(3)中文文本研究现状
在中文文本识别方面,用情感词汇来判断文本情感的方法相对较少。金聪等将Turney的PMI-SO方法应用到对中文语料的情感判断上,同时用典型文档的语义倾向值的平均值作为阈值来代替零值作为两级情感的分类界限,改善了分类效果[22]。
李钝从语言学角度出发,分析词典中词对语义的特点,采用“情感倾向定义”权重优先的方法计算短语中各词的语义倾向度,然后分析短语中各词组合方式的特点,提出中心词概念来对各词的倾向性进行计算,以识别短语的倾向性和倾向强度。实验表明,该方法对短语的倾向分类识别效果较好,可为更大粒度的文本倾向识别打好基础[23]。
3.1.2 基于统计自然语言处理的识别方法
基于统计自然语言处理的方法,是指利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本进行识别。
一些研究将基于主题的机器分类算法用于情感极性识别。Pang和Li等采用不同的特征选择方法,应用了NB、ME(Maximum Entropy)、SVM对电影评论进行分类[24]。在他们的另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器[13]。Ni等利用CHI和信息增益进行特征选择,并采用NB、SVM和Rocchio's算法对情感分类[25]。Mullen等和Whitelaw等都用到SVM算法,只是他们在特征的选择和处理上不同[26,27]。Cui等利用PA(Passive-Aggressive)、LM(Language Modeling)和Winnow分类器,并比较了它们的性能[28]。下面从特征选择和算法性能两个方面对基于机器学习算法的情感识别进行小结:
(1)特征选择
Pang等在实验中分别使用以词频作为权重的Unigrams、以布尔值作为权重的Unigrams、Bigrams、Unigrams+Bigrams、Unigrams+词性、最前面2633的Unigrams、形容词、Unigrams+词语的位置作为其语言特征[24]。实验结果发现,使用布尔值Unigram作为特征的分类效果最好,使用Bigram、词性、形容词和词语的位置作为特征并不能达到预期的分类精度。而Cui等指出Pang的研究语料较小,无法体现出ngrams(n≥3)的优势[28]。他们对比了n分别等于1、2、3、4、5、6时的实验结果,发现当n=6时,分类效果最好,特别是识别负面(negative)文本的分类器的准确度有明显改善,达到70.03%。Mullen等将按Turney的情感词五种组合模式提取出来的词组称为价值词组(value phrases),然后利用WorldNet计算出所有形容词的EVA、POT和ACT值,并将这三个值和价值词组的SO值一起作为特征,最后再用SVM分类器进行分类,实验结果表明该方法的分类效果也是好于以前的方法[17,26]。另外,Pang等的实验结果还表明使用布尔值作为特征值权重的比使用词频为权重的实验精度要高[24]。
(2)分类性能比较
Cui等的实验对比表明,平均表现最好的是PA分类器,Winnow次之,LM最差[28]。Pang等的研究表明,基于机器学习的分类器要比手工分类效果好很多,而在三类分类器中,SVM分类器的表现比ME和NB都好,但是实验结果同时还表明,对文本的情感分类效果还是远差于对文本主题的分类[24]。
国内方面,徐军等用朴素贝叶斯和最大熵模型分别对新闻及评论语料进行了情感分类研究,发现选择具有语义倾向的词汇(特别是形容词和名词)对情感分类效果具有决定性作用,采用二值作为特征项权重相比采用词频作为权重的方法更能提高分类的准确率。并且最大熵模型比NB的分类效果明显好[29]。
唐慧丰等对部分基于监督学习的中文情感分类技术做了比较研究,在文本特征方面,采用N-Gram以及名词、动词、形容词、副词作为不同的文本表示特征;以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法;以中心向量法、KNN、Winnow、NB和SVM作为不同的文本分类方法;并在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验[30]。实验结果表明:采用Bigram特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。
3.2 文本情感强度研究
对于某些应用,单纯的褒贬分类是不够的,还需要区别褒贬情感的强弱。这种任务称为情感强度分类,它是一种特殊的分类问题,因为强弱分类的类别是离散且有等级的。文本情感强度分析主要有三类方法:多分类方法,回归方法,序列标注方法。
(1)多分类方法
多分类方法即将文本的每个强度等级当作一个类别,构造分类器对其分类。最常见的处理是将文本强度分成强烈贬抑、一般贬抑、客观、一般褒扬、强烈褒扬五个类别。Lin等在研究语料的观点问题时,采用LSPM(Latent Sentence Perspective Model)对未经标注的语句的观点及其五类强度进行判断[31]。但是此类方法得到的结果往往忽略了情感渐变过程,造成训练模型不够准确,影响了分类精度[16]。
(2)回归方法
回归方法即用回归算法来对文本的强度进行拟合。Pang和L1就用了SVM回归方法对文本情感强度进行了回归评分[32]。此外,他们还根据相似度越高标记越相近的原理,提出一种基于度量标记(metric labeling)的元算法(meta-algorithm)对文本进行评分,实验表明此方法的效果比多分类方法和SVM回归方法都好。
(3)序列标注方法
近年来,条件随机场(Condition Random Fields,CRFs)模型大量地应用于序列标注任务,比如Chunking,NER,Parsing等。同时,CRFs模型也逐步应用于文本倾向性分析任务,并以此产生出针对特定问题的基于CRFs模型的其他图模型方法[33]。Mao和McDonald等把句子的褒贬标记看作一个情感流问题,并利用序列CRFs回归模型来给篇章中的每个句子进行打分[34,35]。为了减轻褒贬度分析中信息冗余对强度分类的影响,刘康等在CRFs的框架下,考虑句子褒贬度与褒贬强度之间的层级关系,充分利用上下文的信息以及特征的层级特性,提出了基于层叠CRFs模型的句子褒贬度分析模型[33]。
总体而言,对文本进行情感强度的研究还不多,但是在电子商务网站中,情感强度的识别对于个性化客户服务来说可能更有意义。
4 其他相关问题
4.1 语料库的选择
不管是基于语义的方法还是机器算法都需要大规模的情感语料支撑,目前常用的语料库有以下几类:
(1)评论类语料
评论类语料库是目前最常用的语料数据,包括影评[17,24]、产品评论[13,28]、音乐评论[26]等。众多研究选择评论类语料是因为:一是评论类语料数量众多,方便获得。随着电子商务、网络社区的发展,到处都是关于电影、产品的评论,这些数据为文本分类研究提供了充足的素材;二是可近似地将评论类语料视作主观性文本,无需主客观文本分类即可直接用来情感识别。
(2)词汇知识库
WorldNet是一个按语义关系网络组织的英文词库,多种词汇关系和语义关系被用来表示词汇知识的组织方式。有许多研究就直接利用WorldNet中词汇间的距离来揭示情感倾向的关系[36,37]。Liu等使用的Open Mind Common Sense是常识知识库,它描述了世界上最基本的概念和相关的关系,以此来扩展描述情感的“概念”[21]。作为最大的中文词汇知识库,HowNet为国内研究者提供了进行中文情感研究的渠道[38,39],主要有基于语义相似度的方法和基于语义相关场的方法。
(3)其他语料库
徐琳宏等综合现有的各种情感词汇资源构造情感词汇本体,他们采用手工分类和自动的方法来获取本体的知识,包括词汇的情感类别、强度和极性[40]。在此基础上,对基于本体的情感分类方法进行了研究。路斌等利用中文同义词词林来计算词汇褒贬,该方法利用同义词词林中的同义词词群,将种子词汇扩展得到更大的褒贬义词集合[41]。
4.2 研究难点
由于Web文本的表述形式多样,没有统一的规范,给文本挖掘和情感分类带来了许多困难。另外,随着研究的细化,Web文本挖掘和情感分析的任务也不仅仅限于判定情感的倾向和强度。本文将情感分析中的其中几个难点罗列如下:
(1)网络用词
主观性文本往往口语化,甚至会频繁出现时髦的网络用语,比如“做人不能太CNN!”,在这里,“CNN”无疑是识别这句话情感倾向的关键。不断涌现的网络用语给情感分类提出了更高的时效性要求。又如“太BS这部手机的性价比了。”BS是贬义词“鄙视”的缩写,这句话表达的是负面情感。可以看出,缩词的使用也给情感分析的准确度带来了很大影响。
(2)表达方式
除了情感词汇之外,句子的表达方式也会对句子的褒贬情感产生巨大影响。比较下面两句话:“这瓶洗发水,适合头发很干的人用。”“用了这瓶洗发水,头发会变得很干。”这两个句子的用词差不多,“洗发水”,“头发”,“很干”。但是第一句是褒义,第二句则很可能是贬义。还有一类和表达方式有关的问题是“反话”。很多褒义词受论坛文化的影响,有往贬义发展的趋势,比如“您太有才了”等。让机器理解这些表达方式也是情感分析面临的一个挑战。
(3)关系抽取
识别情感和特定主题的关系是情感分析的又一任务。比如这样一条评论:“Sony笔记本的外观蛮好看,就是价格太贵了”。在面向电子商务的情感分析中,就需要识别顾客对Sony外观和价格所持有的不同情感。另外同样的词语由于描述的对象不同,表达的情感也会不同,比如在产品评论中,同样是“少”,在描述“价格少”时是一种褒义、积极的情感,而“种类少”却是是一种贬义、消极的情感。这些问题就涉及识别情感所描述的对象问题,即关系抽取。
5 研究展望
情感分类过程主要有上下承接的两个任务:主客观文本分来和情感识别。总体上,随着自然语言处理技术的发展,国内外的研究已经取得了不小的成果,在评论分析、个性化推荐和舆论监控等方面也得到了应用,如Dave研发的Review Seer是世界上第一个情感分析工具,也是第一个针对产品评论区别其褒贬性的系统[42]。Gamon等开发的Pulse系统可自动挖掘网上用户对汽车评价中的贬褒信息和强弱程度[43]。Liu等开发的Opinion Observer系统可以处理网上顾客对产品的评价,对涉及产品各种特征的优缺点进行统计,并采用可视化方式对产品特征的综合质量进行比较[44]。但这些应用仍不尽如人意,今后还需在以下几方面展开深入研究:
1)相比于面向主题的文本分类,情感分类的精度还比较低,主要由用词习惯、表达方式等问题造成的。如何提高情感分类的准确率和召回率,是今后的研究重点。
2)利用文本的更多特征来提高情感分类效果。如标点符号对文本的情感表达有特殊作用,“!”号和“?”的情感强度明显强于其他标点,但目前的研究中还鲜有考虑。
3)将情感分析分成主客观文本分类和情感分类两个步骤,甚至在此基础上还要进行强度分类,这会造成冗余问题:前一步骤的误差同时会影响到后面步骤的准确度。考虑冗余问题的情感分析建模也是今后的研究方向之一。
4)除单纯地识别情感态度和强度,文本情感分类还需与其他文本挖掘技术结合,实现情感和情感对象的关系抽取,挖掘出比单独的褒或贬的情感倾向更有价值的信息,以提高情感分类的应用价值。
收稿日期:2009年6月29日
标签:自然语言处理论文; 分类器论文; 文本分类论文; 语义分析论文; 文本分析论文; 情感识别论文; 判别分析论文; 情感分析论文;