情感文本自动分类研究综述_自然语言处理论文

自动情感文本分类研究综述,本文主要内容关键词为:文本论文,情感论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

随着互联网技术的发展和用户的增多,网络逐渐成为人们沟通和信息交流的主要载体,人们在网络站点发表意见和观点也变得很便捷。对产品的评论信息以各种不同的形式存在于不同的网站上面,很典型的有:电子商务网站(淘宝,亚马逊)、专业的评论网站、博客和论坛等。现在大部分人在购买商品和服务之前,都会在网上浏览评论信息获取先验知识。企业通过关注网上的评论信息,可以追踪用户的反馈信息,及时调整产品和销售问题。在某种程度上这些评论信息主导了潜在用户的购买意愿。因此,对这些评论进行深入分析,无论是对于企业还是个人都有很大帮助。而近年来,“人肉搜索”现象时有发生,网络热点层出不穷,“某门”(王石捐款门等)事件在网上传得沸沸扬扬,很大程度上影响了人们的行为,引起了人们对网络舆情的极大关注。情感分类和观点挖掘技术能够更加科学地描述这些现象的本质,引起了研究者们对这类课题的极大关注。

论文对这一课题的相关内容进行了研究,研究过程中获取参考文献和相关资料的步骤如下:以“sentiment classification”或“opinion Mining”或“sentiment analysis”为关键词,在SpringerLink,EBSCO,Elsevier,SCI,EI等外文数据库中下载了2007-2009年的最新相关外文文献,剔除重复下载和无关文献,共得到42篇相关文章。同时采用参考文献追溯法,对2007年以前的文章进行了追溯,最早可以追溯到1996年,在Google Scholar里面下载了相关引用频次较高的文献101篇,即共得到143篇外文文献;在中国期刊网和维普数据库里面以“情感分类”或者“情感分析”或者“观点挖掘”为主题作为检索条件,通过筛选,剔除,下载了相关中文文献70篇。通过对这些文章的阅读和分析,得到了后面的分析结论。

论文采用如下的组织结构:在第二部分,对情感分类的国内外研究现状进行了总体概括;第三部分对该领域的相关研究进行了一个分类描述;第四部分对情感文本分类中的几个关键问题进行了探讨,并提出了网络评论情感分类的基本研究框架;最后对目前存在的问题和以后的研究方向给出了建议。

2 情感分类研究的总体概貌

自动文本分类是信息检索领域的一个重要的研究方向。大多数对于自动文本分类的研究都集中在基于主题的文本分类上。除了文本的主题之外,文本还有很多其他重要的特征对信息检索起到很关键的作用。例如,对于文本的风格或者流派(文章是一篇社论还是通知,是促销性还是资讯性的,作者归属等)进行分类,和对文本所表达的情感(文章表达的是正面的还是负面的情感及情感表达强弱)进行分类。基于主题的分类与基于情感的分类有一个相同点就是,为了能够正确地分类,需要找出能够表示文档的特征项,这也是所有文本分类的基本任务。对于基于主题的分类而言,找出主题词是主要目标,而对于情感分类而言,评论者对于某一主题的情感词汇是主要目标。鉴于文章的关键词比较充足,有利于文章的主题分类,而对于情感的分类而言,复杂性在于要识别情感目标,检测混合和交叠的情感,要找出文章的情感特征就比较困难。

在现有的文献中,不同的作者对于情感分类的任务有几种不同的提法,除了情感分类以外,归纳起来还有以下几种:观点挖掘[1],情感分析(检测)[2],倾向性分析[3],意见挖掘[4]等。为了不造成理解上的歧义,在这篇论文中,我们用情感分类来进行描述。自动情感分类被应用到了很多有意义的领域,如评论的分类,产品声誉的分析,舆情跟踪,将自动情感分类整合到问答系统[5]和多文档摘要系统中,博客情绪,政治观点分析[6,7]及关注热点分析[8,9]等。虽然有一些国际会议对情感检测的问题进行了专门的探讨,如ACL、AAAI、WWW、EMNLP、CIKM等,但是这个课题还没有得到系统地对待[10]。

2.1 国外研究概貌

国外对于自动文本情感分类的研究始于20世纪90年代末期,代表人物有Hatzivassiloglou和McKeown[11]、Spertus[12],以及Riloff和Shepherd[13]。Hatzivassiloglou和McKeown提出并在大型语料数据上验证了连接形容词语义倾向的制约因素;Spertus构建了原型系统Smokey,能够自动识别带有敌意(怒火)的信息;Riloff和Shepherd对基于语料库的方法构建语义词典进行了研究。同期的研究中还有:Argamon和Koppel[14],Kessler等[15]对文本的风格分类进行了研究;Wiebe等[16],Bruce和Wiebe[17]对文本的主客观分类进行了研究。

2004年3月,美国人工智能协会举办了一场主题为“探索文本的情感和态度”的研讨会,推动了对情感文本分类的研究。在现有的研究中,监督学习的方法是应用在情感分类中的一种比较普遍的方法,但是这种方法需要大规模标记的训练文档,通过标记文档建立学习模型就可以使用现有的工具进行分类[18,19],而获得这些标记文档是很耗费时间和昂贵的,同时在实际情况中,很难获得足够的标记评论来建立精确的学习参数。Turney[20]则采用了一种相反的方法,依靠未标记的文档来进行分类,他的模型的思想是借助词语的“语义倾向”,将这些词作为正面和负面情感的“锚点”,与某个锚点同时频繁出现的词语能够代表文本的情感。情感分类是一个跟领域很相关的问题,一个领域的分类器不能在其他领域得到很好的效果。Aue和Gamon[21]在缺乏领域标记文档的情况下,采用四种方法改进了分类系统,对四个不同领域的数据进行试验,并对各方法的优劣进行了分析。Beineke等[22]提出了允许用户信息结合标记和未标记的文档来进行分类的框架,以试图减少监督学习中监督的程度。

在最近的研究中,Das和Chen[23]开发了一种从股票留言板中挖掘投资者情绪的方法,对不同分类器的效率进行了比较,并指出他们的方法在去噪方面起到了很显著的作用,同时提出通过改变语料库和语法,有可能将他们的方法平滑应用到不同的语言和领域中;Denecke[24,25]提出了一种能够应用与不同语言上面的情感分类方法,通过标准的翻译软件的翻译和基于SentiWordNet的情感词汇抽取以及机器学习方法的分类器来确定文本的极性,并在六种语言的电影评论上进行了测试。相关的研究还有,Moens[26]采用机器学习的方法对英语,荷兰语,法语三种语言的情感分析问题进行了研究,三种语言文本分类实验的准确率分别达到了83%、70%、68%;Polpinij和Ghose[27]考虑到名词和动词有单复数和时态等的变化,通过采用词典,不规则动词和原始材料构建本体,对在线顾客评论进行了分类,利用SVM进行分类的实验结果表明,可变词典本体的方法能够提高分类效率;Malouf和Mullen[6]将社会网络的分析方法引入到情感分析中;Kato,Kurohashi等[28]认为对信息发布者进行分类对信息可信性分析起到很重要的作用。

2.2 国内研究概貌

通过对收集到的中文文章的分析发现,国内对于自动情感文本分类的研究起步比较晚,最近两年才看到有相关文章出现[29~31]。分词是处理中文文本和英文文本的最大区别之处,因为中文文本不像英文文本有空格分开,但一旦经过处理转化为文档模型后,中英文分类就没有什么差异了。情感分类和基于主题的文本分类有很多相似之处,如在预处理阶段和分类器的选择上,而其作为文本分类独立的子课题也有其固有的特点,如情感词汇的识别和同义词分析,如何提取合适的特征,并在语义上进行降维是目前研究的重点问题。

王素格和魏英杰[30]采用三种特征提取方法(信息增益、互信息χ[2]统计),两种权重计算方法(基于文档和基于词频),利用支持向量机分类器在五种停用词表上进行了分类实验,研究了停用词表对情感分类的影响。除了采用单一的特征提取和选择方法提取特征以外,将特征提取方法进行结合[32]来提取特征也是一种新思路。在词汇和语义资源方面,国外有WordNet[33],国内有HowNet[34,35],徐琳宏,林鸿飞等[36]提出了七大类,二十小类的情感分类框架,采用手工分类和自动获取相结合的办法构造了情感词汇本体库,相关工作还在研究当中。唐惠丰等[29]分别对n-Gram和不同词性的特征表示方法,不同的特征选择方法,不同的分类算法及不同的特征数量进行了实验,认为采用n-Gram表示特征,信息增益进行特征选择和SVM进行分类能够得到比较好的结果。

现有的研究中,对于语料库的选择,各研究者都是根据自己的需要收集语料,有旅游评论[37],也有汽车评论[30]、手机评论[38]和新闻评论[3],没有统一的语料库对于领域而言有很强的针对性,但是对于不同研究者采用不同方法得到的研究结果缺乏一致的比较标准,不利于研究的发展。现有的研究方法大都沿用基于主题的文本分类方法,在特征选择,提取和分类器的选择上是相同的,这提供了很好地理论基础,但是作为一个新的课题,迫切需要新的方法来提高研究的精确性。

3 情感分类研究的分类

从对收集到的国内外刊物和会议上的文章分析来看,目前该领域内的相关研究可以归纳为以下几类。

3.1 文章流派或者风格及作者归属分类

前面谈到,早期对文本分类的研究是基于主题的,后来进行的有别于基于主题分类的研究,是从研究文章的流派风格及作者归属开始的。流派或者风格是对文章的体裁而言的,如文章是叙事性的还是议论性的,是学者专著还是小说或者社论。韦氏词典对风格的定义为:艺术的、音乐的、文学作品的特殊类型,形式或者内容的一个范畴。

Kessler等[15]认为风格必然是一个异质的分类原则,它是基于文本创建的方式,发布的方式,使用的语言风格,和面向的读者构成的。根据Argamon和Koppel[14]对网页内容的描述,文章的风格是指一篇文章是促销性的还是提供信息的,是由母语是英语的人写的,还是其他。Rauber和Muller-Kogler[39]提出了自动分析文章结构的方法,并将这些结构信息与自动创建组织内容整合,然后将主题和风格结合起来应用于电子图书馆,方便用户检索。Dimitrova等[40]对文档从三个维度,文档的专业化程度,文档描述的详细程度,文档的主客观维度,来进行分类。并提供了一个简单的可视化界面来帮助用户快速找到合适的文档,以提高信息检索的效率。Taboada等[41]对1900-1950年六位作者的文学作品声誉进行了分析,试图找出为何同样是后来被尊为伟大的作者,他们的文章和个人知名度及声誉会迥然不同。Gamon[42]认为文章的风格,流派和作者归属是文章的形式问题,并使用支持向量机的方法对作者归属问题进行了分类。Whitelaw等[43]提出了使用功能性词汇(如连词、情态动词、评论性词汇和评估性词汇)的属性特征来辅助对文本的风格进行分类以提高分类准确性的方法,并将该方法应用到作者归属、性别识别、情感分析、科技论文的推理论证结构四个方面进行了验证。

3.2 主客观分类

我们看到的新闻或者文章通常包括事实和观点,这些观点可能是作者通过分析得到的也有可能是直接援引的。网络上的文本也通常都是事实和观点的混合体。自动区分观点和事实,对于应用和组织表达信息而言,将会有利于选择合适的信息类型。例如,对于信息抽取系统而言,系统可能会优先抽取文档的事实部分进行分析,而问答系统和摘要系统可能就会将观点和事实分开,并通过来源和视角来组织信息[44~46]。

Bruce和Wiebe[17]讨论了在句子级别采用手工标注的方法对句子进行了主客观标注的方法;Wiebe等[16]在前文的基础上进行了改进,用特定的特征选择机制结合贝叶斯分类器进行了分类;Hatzivassilouglou和Wiebe[47]研究了形容词的语义倾向和级别对主观分类器的影响,结果表明它们对主观性有很好的预测能力;Wiebe[48]引入了基于词典的方法来选择特征;Wiebe等[49]研究了主观词汇和短语在每篇文档中出现总数的统计,采用K最近邻分类算法进行了分类,在文档级别的主观性分类上;Yu和Hatzivassiloglou[50]在文档级别,采用贝叶斯分类器与词典信息结合的办法对观点文档和事实文档进行分类,F值达到97%;在句子级别采用三种方法(相似性方法、贝叶斯分类器、多贝叶斯分类器)进行分类,F值达到91%。

3.3 极性分类

情感分类的一个主要课题是研究文本所表达情感的极性:即对于给定的文章判断它表达的是正面观点还是负面观点。一般是二分类的(正面、负面),也有多分类的(正面、负面、中性或者按照情感表达强烈程度分为五个等级)[18,20,51,52]。语义倾向在信息系统领域有着广泛的应用,如评论分类、区分同义词和反义词、扩展搜索引擎的能力、对评论进行摘要、跟踪在线讨论、创造反应更敏感的聊天机器人、分析调查反馈等,Li等[38]对基于HowNet的词语的语义倾向分类进行了研究。语义倾向可以有两种不同的表示,一是在方向上,可以是正面或者负面的;二是在程度上,可以从轻微到强烈。

在应用和语料库的选择上,Pang和Lee[53],Kennedy和Inkpen[54]等对电影评论进行了分类;Ye等[55]对旅游景点的评论进行了分类,以方便用户对特定景点的信息进行检索和查询;Gamon[56]对顾客反馈信息进行了分类;Zhang等[57]对公共医疗评论进行了分类。

进行情感分类的关键问题是抽取情感特征词汇,并对词汇进行语义整合,以降低特征项的维度,提高分类器的时间和空间复杂度。

3.4 观点摘要

网络评论的数量过多,信息量过大,极大地妨碍了人们从中获取有用的信息,自动摘要技术能够很好地解决这方面的问题。观点摘要系统是将顾客对产品的评论信息按照产品特征进行组织,然后根据评论信息的极性进行分类,并以可视化的形式给出一个简单摘要的形式,以方便用户浏览和获取主要信息。观点摘要关注的不仅仅是评论的语义倾向,而且要能够给出更直观的结果,结合可视化技术能够很好地将分析结果展示给用户。

Hu和Liu[58]提出了基于特征的观点摘要的分析框架,通过对频繁特征的识别来抽取用户关注的产品特征项,并对评论的极性进行分类,给出摘要汇总结果。Liu等[59]给出了一个观点摘要原型系统(见图1),以图形化的界面展示产品每种特征的正负面评论的统计,让用户一眼就能够看出不同产品各种特征的优劣。将情感分析和自动摘要技术结合的观点摘要技术很少有学者进行研究,但是是一个很有意义的发展方向。

图1 观点摘要的流程

综合上面所谈到的情感分类的几个研究方向,给出图2。

图2 情感分类研究分类

4 情感分类的关键技术

情感文本自动分类与一般的文本分类是一个相交的研究领域,那么必然会有很多相似之处,同时它还有很多自己的特点。

4.1 领域语义词典的构造

尽管有些语义信息可以从现有的多用途知识库,如WORDNET、CYC中获得,但是有很多应用还是需要能够表达某一特殊主题的词汇和类别的特定领域词典。Riloff[60]开发了一个叫AutoSlog的系统,给它一个合适的训练语料库,它能够自动为信息抽取构建领域字典;Riloff和Jones[61]提出了多层次引导算法,能够同时生成语义词典和抽取模式,它使用了互相引导的技术来交替地为每类选择最佳的模式然后将它引导的模式写入语义词典;Riloff和Shepherd[13]提出了一种基于语料库的方法,能够用来构建特定类别的语义词典,该系统能够通过输入某一个类别的小型种子词集合和其代表的文本语料库,得到一组和该类别相关的词表排列,用户则可以通过词表的排列选取那些词可以写入语义词典;Roark和Charniak[62]对Riloff和Shepherd的方法进行了改进,采用半自动的方法构建语义词典能够得到更好的效果;Thelen和Riloff[63]提出了一种称为Basilisk的算法,它采用未标注的语料和对每个语义类别选取种子词汇,然后采用引导的方法通过这些词汇来学习新词语,用以改进现有词典如WORDNET;Allison[64]通过抽取词汇的特征构造分类器的方法来进行情感检测,使用该方法在三种不同任务上使用五种分类器的实验结果表明:使用构造的不同的分类器所得到的结果和使用某一固定分类器,不同的特征集合所得到的结果同样变化很大,基于词汇特征的分类器在情感检测任务方面效果更好;Li和Zong[65]采用来自多个领域的训练数据对某一个特定领域的数据进行分类,实验结果表明多领域适应方法可以改善领域适应的性能,对跨领域的分类研究起到一定指导作用。

在情感词典资源方面,Valitutti等[66]通过WORDNET选择和标注表示情感概念的同义词集合建立了WORDNET-AFFECT词典,来对情感知识进行表示。Esuli和Sebastiani[67]通过定量分析同义词集合的相关注解,和使用表示半监督同义词分类产生的向量项,开发了SENTI-WORDNET来辅助观点挖掘。

4.2 识别主观词汇和句子

文本特征的选取对分类器的准确率起着决定性的作用,情感分类的关键问题之一是识别带观点的词汇和句子,抽取合适的特征项不仅能减少分类噪音,而且能够提高分类的准确度。有些学者[51]采用首先确定一部分种子词汇,然后根据WORDNET中提供的同义词来识别同一类观点和反义词来识别相反观点的方法来选择情感和观点词汇。

Turney[20]采用了如下的步骤来识别情感词汇,首先通过词性标注来抽取包含某种模式的短语(含形容词或副词的短语),然后使用PMI-IR算法来计算所抽取的短语的语义倾向,最后通过计算短语的语义倾向的平均值来进行分类。Yu和Hatzivassiilogou[50]采用三种不同的方法,相似性方法,贝叶斯分类器,多贝叶斯分类器来识别主观句子。Riloff和Wiebe[45]首先通过高精度分类器来自动识别主观和客观句子,然后通过对这些数据的训练来自动学习主观句子的模式,再通过学习模式来补充训练集,采用这种自学习的方式来识别主观句子。Kim和Hovy[68]提出了一个句子级别的观点检测系统,通过对观点的定义来获取带观点的句子和不带观点的词汇,进而用这些词汇识别带观点的句子。后来,Kim和Hovy[69]将观点定义为由:价(正面,负面),持有者和主题三部分组成,观点分析由:识别观点,确定价,识别持有者和确定主题四部分组成。在特征提取和情感词汇的识别上,大部分研究对二者的研究是独立的,盲目使用观点词汇的情感会导致分类的偏失,Chan和King[70]采用基于语料的方法对特征和观点词汇之间的关系进行了研究,提出了FOA算法在句子级别对二者进行匹配的方法来改善情感分析的结果。

4.3 分类算法分析

对文本的标注需要大量的人工工作,我们通常把需要大量标注文本的研究方法称为监督学习,不需要标注的称为非监督学习,同时还存在需要少量标注的研究称为半监督学习。目前在情感文本分类上采用的分类算法大致分为两类,一类是基于概率和信息理论的分类算法,如朴素贝叶斯算法(NB),最大熵算法(ME);另一类是基于机器学习的分类算法[71],如决策树,支持向量机等,除了单纯的分类算法的比较(见表1),对机器学习算法中核函数[72,73]的研究也很关键。对文本的标注是一项系统的知识工程,需要大量的人工和专家的配合才能尽可能提高准确度,有学者对文本的标注进行了研究[74]。Pang等[18]采用三种机器学习算法(贝叶斯分类,最大熵分类,和支持向量机)对电影评论进行了分类,发现这三种算法在情感分类上的效率没有在传统基于主题的分类上的效率高,认为情感分类更具有挑战性。Prabowo和Thelwall[75]对不同的分类方法进行了比较,认为将不同的分类器结合使用能够提高分类效率。现有的研究中,多数学者采用支持向量机算法来作为分类器,在各种不同领域都有应用,分类效果也达到了比较高的水平。基于以上分析,论文提出情感分类一般框架如下:

(1)从网络上抓取评论存入评论数据库,建立自己的语料库;

(2)对评论进行处理,去除噪声数据,预处理步骤进行分词和词性标注及去停用词;

(3)运用特征选择算法进行特征抽取,结合情感词汇本体库,辅助提取特征项的一般模式;

(4)对频繁特征进行识别,运用语义词典进行同义词的合并;对文本表达的观点进行识别;

(5)最后进行结果评估,并以可视化的效果展示给用户。图3为网络评论情感分类的一般框架。

图3 网络评论情感分类的一般框架

5 研究述评

情感分类是自然语言处理,机器学习和心理学等多学科交叉的一个研究课题,从现有的论文来看,情感分类的相关研究还比较落后,还有很多需要关注的子课题,没有形成一个比较完善的体系,导致这方面的研究发展缓慢。论文旨在分析现有的关于情感分类的相关研究,在前人研究的基础上归纳出现有研究的分类和相关焦点问题,提出现有研究中的不足和研究发展的趋势,给以后的研究提供一些参考。论文对情感文本自动分类目前国内外的研究现状进行了分析,描述了现有的文献中的四个研究方向,并对情感文本自动分类问题特有的属性进行了探讨,提出了情感文本分类的一般框架。

从上面的讨论可以看到,情感文本自动分类的相关课题国内外已经有很多学者进行了研究,但是相对于基于主题的文本分类而言,这些研究还缺乏统一的标准和体系,在语料库和词典的建设方面还有很长的路要走。要达到自动化和精确的分类,现有的研究水平显然是不够的,还有很多需要改进的地方:

(1)语料库的建设缺乏统一性。研究人员都是采用自己建设的语料库,虽然在领域问题上可能会提供一些比较精确的意见,但是从系统的观点来看,情感词汇和句子的标注在很大程度上是一项主观的任务,这就需要大量的领域专家共同进行,才能尽可能提高分类的准确性。标注标准的不一致会造成研究结果的偏差和无规律可循。因此对于分类算法和分类系统就缺乏可比较性。

(2)如何正确选取特征项和降低特征空间的维度不管是对于基于主题的分类而言还是情感分类而言都是一项很有挑战性的工作,而且由于情感文本分类的研究还处于初级阶段,还没有形成专门的方法和系统的理论,相较于基于主题的分类而言,还需要建立类似于WORDNET、HOWNET的情感语义词典,以辅助选择正确的情感词汇。

(3)对于分类算法而言,该领域的分类算法大都是沿用单一的、一般的分类算法,在情感文本分类的研究上尚未见分类器融合的方法,现有的研究都忽略了这一点,有必要发展多分类器融合的研究,以找到合适的算法提高分类的精度。

网络评论还有很多固有的缺陷,容易带来额外的噪声,如拼写错误、新兴词语的使用、广告泛滥等,都会影响分类的难度和准确度。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

情感文本自动分类研究综述_自然语言处理论文
下载Doc文档

猜你喜欢