中文文本情感倾向分析研究,本文主要内容关键词为:分析研究论文,中文论文,倾向论文,文本论文,情感论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
随着互联网的发展,尤其是用户产生文本的Web2.0时代,在线评论快速上升,产生了文本海量数据。由于文本创建者的个人立场与偏好,文本也相应表现出对各类事件、政策、产品、人物的情感色彩,如某款电脑的用户体验、对某个事件的态度、某本图书的书评都体现出文本创建者的喜怒哀乐、赞成或反对。
这些评论文本对于消费者、企业和政府都是非常重要的。研究表明,消费者在网上购买商品前都会浏览用户评论,这些评论将影响购买意愿。而且企业也通过评论了解用户反馈,获知消费者对自身及竞争者的产品口碑,从而更好地改进产品和服务。同时,政府的决策行为也必然要了解民意,参考网络舆情体现出的观点和倾向。可以说评论文本中蕴藏着巨大价值,但要依靠人工对海量文本情感进行采集、处理、分析、预测是不切实际的,因此,利用计算机自动处理,快速获取其中有价值的信息成为人们的迫切需求。文本情感分析研究正是在这个大背景下产生的,具有重要的研究意义。
文本情感倾向分析又称意见挖掘,是针对观点持有人对某产品、事件或人物等的评论,进行倾向性的研究。它是一个多学科综合领域,与计算语言学、文本挖掘、信息抽取、信息检索、机器学习等均有相关,随着研究深度和广度的发展,与许多传统社会科学领域的结合也越来越紧密。
国内学者对文本情感分析研究相对较晚,但已取得许多研究成果,其中已有不少综述性论文概括和分析该领域的发展。中文具有自身的特点和复杂性,相较英文更有挑战性,但现在还缺少系统地对国内中文文本情感倾向研究进行计量的分析。本文关注的是国内该领域的研究和具体应用。
2 中文文本情感研究现状
2.1 文本情感研究的文献计量分析
在对期刊论文检索分析前,我们首先考察最近几年国家级课题对于文本情感分析及其相关领域研究课题的资助情况。因为文本情感分析是新兴的研究热点,故国家自然科学基金和国家社会科学基金对此领域的研究均有资助。通过对国家自然科学基金项目进行检索,情况如表1所示。可以发现,获批的文本情感分析的申请课题从2006年开始,每年至少1个,其中2008年和2011年分别达到3个,总共12个,而且不仅限于汉语,其中2个是针对维吾尔语,可见国内学术界对文本情感分析期待有更多的研究成果。
再对国家社会科学基金项目进行检索,发现有2个课题,都分布在语言学下,2008年资助的“面向网络文本的词语情感义自动标注研究”(吴云芳,北京大学信息科学技术学院)和2011年资助的“基于语义方法的汉语文本情感自动分析研究”(杨江,湖南科技大学)。
接着采用传统文献计量学的方法掌握文本情感分析的研究现状,主要考察题名、作者、期刊、期次、被引频次等特征。
以学术论文数据库——CNKI和维普作为数据来源,分别以“情感分析”、“文本情感”、“情感倾向”三个词作为检索主题词,时间限定在2000年至2012年(统计时间截至2012年5月),并对搜索结果进行筛选整理,剔除与文本情感领域分析无关的或是重复的论文后,获得学术论文共166篇,对它们进行计量分析。
(1)对文献发表的时间分析,得到表2。通过论文的年代分布我们可以看出这个学科领域的大致发展历程。国内研究起步于2005年,随后几年论文数量逐步增长,根据研究成果呈现的态势,2012年的研究态势仍将继续上升。国内文本情感分析仍将持续成为国内学者研究的热点问题。
(2)从论文的来源期刊来看,来源较为分散,总数量达到62种,而载文量在2篇以下的期刊数量高达47种。对其进行载文量排序,由高到低且只列出发表6篇文献以上的期刊,依次有《中文信息学报》、《情报学报》、《计算机应用研究》、《图书情报工作》、《计算机应用》、《计算机工程与应用》、《计算机科学》。这也说明文本情感分析涉及面和应用都很广泛,但文献集中在计算机类期刊和图书情报类期刊。
(3)从论文著者和单位来看,自2005年起,共有297位作者发表了关于文本情感分析的论文,发表1篇的作者数高达249位,占到了作者总数的83.84%。本文将发表4篇以上的作者作为这一领域的核心作者,如表3所示。
对核心作者所在的单位调查可知,各研究单位在自然语言处理、信息检索领域都具有一支很有造诣的学术团队。哈尔滨工业大学、大连理工大学、复旦大学、上海交通大学、山西大学这5所大学是这一领域研究的主要中坚力量。存在的问题是大部分的研究不够深入,持续进行高水平研究的仅集中在少数几位学者。
(4)对被引频次分析,得到表4。被引频次排名前五的论文来源期刊都是《中文信息学报》,该期刊重点刊登我国自然语言处理的研究成果。在前十的排名中有3篇是综述性文献,从其余7篇论文也可看出文本情感分析的多个研究方向,有语义分析、机器学习、算法改进、信息抽取、语料库建设、应用系统等。
2.2 文本情感分析的研究框架
通过对上述文献的阅读和分析,并结合四届中文倾向性分析评测(COAE)的任务[1],提出文本情感分析的研究框架。包括由理论与技术模块支持的情感信息抽取、情感分类、情感应用三个层次,前两个层次也体现了文本情感分析的两大问题,即倾向性信息抽取和倾向性分类[2]。这个研究框架从体系上反映出目前的研究现状,如图1所示。
(1)情感信息抽取。情感信息抽取是在句子或篇章级别抽取和情感相关的要素,将无结构化的文本转化为易识别与处理的结构化文本[3]。大多偏重于细颗粒的任务,如对商品评论信息而言,即识别出商品特征、商品评论意见词、商品评论情感的褒贬、情感极性强度。
(2)情感信息分类。按照分类粒度,对情感词、句子和篇章情感信息进行分类,如主客观二分类、褒贬二分类,但也有少部分研究将情感更细地分出喜怒哀乐。该层次偏重于粗颗粒的任务,如对篇章级情感分类,会默认该篇章的主题只有一个。
(3)情感应用研究。在前两个层次的基础之上,再展开有实际应用价值的研究,如产品声誉、信息预测、观点检索等。这类系统需要开发存在面向用户的接口,进行情感检索与分析,如自动分析和整理出某数码相机各产品属性的情感分析结果,供用户参考。
(4)理论与技术。由于是多学科综合研究领域,从图1可知相应的理论与技术也相当丰富。总体而言,文本情感分析基本理论和技术手段有两大阵营,一是基于规则的句法和语义分析,二是以大规模语料库为基础的基于统计的方法。这也是哲学领域中始终存在的理性主义和经验主义的斗争在自然语言处理中的反映[4]。当然实际研究中,两者有许多融合,彼此取长补短。
3 中文文本情感分析理论研究
3.1 词语和文档情感极性的判断
根据研究粒度的不同,中文文本情感分析研究可以分成词语级、句子级、篇章级和海量级情感倾向性。句子级、篇章级和海量级在研究中往往会有重叠,而且海量级要建立在篇章级的基础上,篇章级要建立在句子级基础上,所以在本文中将情感分析的对象分为词语级和文档级。
3.1.1 词语情感倾向性研究
词语情感倾向性研究的对象是单独的词语,需要判断出词语的褒贬性以及极性的强度。一般正值表示褒义,负值表示贬义,绝对值越大,其褒贬的极性强度也越大,它是文本情感分析的基础。主要有两种方法研究中文词语的情感倾向性:一种是基于语义词典HowNet进行判断,另一种是基于大规模语料库进行判断。
(1)前者的代表性工作。刘群早在2002年即提出利用“知网”进行词语相似度计算的算法[5];朱嫣岚等基于HowNet提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法,具有一定的实用价值[6];陈岳峰等在HowNet工具的基础上,提出了一种基于概念的词汇语义倾向度分析方法,该方法将HowNet当中存在的褒贬义概念进行聚类分析,将聚类中心作为基准概念进行词汇的语义倾向计算[7]。
(2)后者的代表性工作。张靖和金浩使用情感特征集合进行倾向性描述,建立基于二元语法依赖关系的情感倾向互信息特征模型,实验验证了使用机器学习方法自动判断词语情感倾向是有效的[8]。宋晓雷等提出了基于概率潜在语义分析[9]的词汇情感倾向判别方法。
(3)两者结合的代表性工作。杜伟夫等将词语语义倾向计算问题归结为优化问题,利用模拟退火算法求解[10]。姚天昉和娄德成提出情感词典、关联词及互信息相结合的混合算法识别情感词的极性和强度[11]。
3.1.2 文档主客观判断研究
实现情感极性判断的前提是首先将文本中主观句与客观句分类,识别出有主观情感的句子,这是文本情感分析的一个基础性问题,之后才能对主观句进行极性判断,褒义或者贬义。可以说文本主客观判断是文本情感褒贬判断的前提,但当前许多研究工作并没有在情感分析前做这个步骤,因为难度较大,特别在中文语境中较英文困难得多,大多以句子中是否出现情感词或短语模式来简单地判断主客观,因此在这方面的研究比较欠缺。
叶强等提出了一种连续双词词类组合模式(2-POS)来自动判断句子主观性程度的办法,在对主观句和客观句的分类实验中,初步表明了算法的可行性[12]。
李艺红和蒋秀凤针对第二届中文倾向性分析评测(COAE)的任务,抽取中文观点性句子,利用支持向量机分类器进行句子倾向性判断,最后提出两种新的置信度计量方法对倾向性句子进行排序,构建出的识别系统在一定程度上能有效识别倾向性句子[13]。
3.1.3 文档情感倾向性研究
对文档情感倾向性研究同样主要有两种思路:一是基于语义情感知识的方法,主要依靠已有的情感词典进行极性加权求和,也有的结合了依存句法分析计算情感倾向;二是基于特征分类,将句子情感倾向性分析看成是基于情感的二元分类来解决,需要使用多种机器学习的方法。
(1)前者的代表性工作。娄德成等利用哈工大开发的汉语句法分析器DeParser,对句子中词语的依存关系进行深层分析,研究关键成分的依存修饰关系,计算极性词的上下文极性,对中文网络评论语句进行语义极性分析[14]。
(2)后者的代表性工作。在这部分工作中,情感特征的提取、特征的降维、特征的权重都是进行文本情感分类的一系列非常重要的步骤,也是影响其结果好坏的主要因素。有许多学者专门针对改变不同的特征选项和机器学习算法进行研究。唐慧丰等以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以不同的特征选择方法、不同的文本分类方法、在不同的特征数量和不同规模的训练集情况下分别进行了中文情感分类实验[15]。
(3)两者结合的代表性工作。昝红英等提出了规则和统计相结合的方法分析文本的情感倾向性。用规则的方法对测试语料进行第1次分类,分出规则可以覆盖的语料;第2次再将剩下的测试语料用统计的方法进行分类来提高分类效果[16]。
3.2 细粒度情感信息抽取
在实际应用中,把句子或篇章作为一个整体进行情感倾向识别是不够的,需要更精细的自然语言处理底层技术分析方法,深入到句子内部,抽取评价者、评价对象、评价词等信息单元。在情感信息抽取中,研究最多和最有价值的是评价对象(如“相片质量”)及与之相匹配的评价词(如“不错”)这一组合的抽取。主要方法有两种:一是基于规则/模板的方法,二是基于统计的方法。研究中发现使用较多的是前者。
(1)基于规则/模板的方法。姚天昉和娄德成结合汽车领域本体来抽取语句主题以及它的属性,然后在句法分析的基础上识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的极性[17];赵妍妍等提出了一种基于句法路径的情感评价单元自动识别方法,该方法自动获取句法路径来描述评价对象及其评价词语之间的修饰关系,并通过计算句法路径编辑距离来改进情感评价单元抽取的系统性能[18]。
(2)基于统计的方法。徐冰等为了提高评价对象抽取的性能,提出在系统模型的训练过程中引入浅层句法特征和启发式位置特征,引入到条件随机域模型CRF后系统的各项指标均有所提高[19]。
3.3 中文情感资源建设
情感分析离不开资源建设,它是准确完成文本情感识别的基础,包括情感词词典、大规模的语料库和情感词汇本体的构造等。
3.3.1情感词词典
学者们在研究中所使用的情感词词典往往考虑多个资源,如王素格等结合General Inquirer(GI)词典(翻译后形成Chinese General Inquirer)、《学生褒贬义词典》、HowNet发布的情感词语集、《褒义词词典》、《贬义词词典》5种资源构建中文情感词表[20]。也有学者使用过台湾大学总结整理的中文情感词典NTUSD(National Taiwan University Sentiment Dictionary)、《汉语褒贬义词语用法词典》、哈尔滨工业大学的同义词词林等。
目前情感词汇的获取大多采用人工获取的方法。为了解决自动地获取情感词汇的问题,陈建美等提出了情感词汇的自动提取机制。首先分析了情感词汇的一般语法规律,然后在情感词汇的这些语法规律的基础上运用CRF模型实现情感词汇的自动获取[21]。曹树金等分析了网络新词的构造规律,进一步扩展极性词的收录范围[22]。
3.3.2 语料库和本体建设
学者们大多根据研究目的,自行在网络上收集各类评论文本作为实验数据,如对汽车、手机、洗衣机、图书、电影等的评论,但这样会缺少研究结论的可比性。也有不少实验数据是来自谭松波博士建立的一个公开的中文情感挖掘语料[23]。该语料库已扩展到酒店、电脑(笔记本)与书籍三个领域。也有论文的实验数据来自中国信息检索专业委员会提供的中文倾向性分析评测(COAE)数据集[1]。
目前,学者们已意识到建立大规模汉语情感语料库和本体的重要性,于是许多研究成果涉及构建语料库和本体方面的一些问题和经验。学者徐琳宏等做了一系列的研究工作涉及情感语料库、中文情感常识知识库、情感词汇本体[24-26]。
4 中文文本情感分析的应用
本节从文本情感分析的研究文献和商业系统两个方面对应用状况进行说明。
目前文本情感分析文献中的应用研究涉及多个领域,尤其在许多传统的社会科学领域。通过对上述文献的研究和分析,总结出相关应用,如信息过滤[27]、产品声誉[28-31]、信息预测[32-33]、舆情分析[34]、观点检索[35-36]以及其他一些系统应用,如企业技术竞争情报采集模型、城市形象网络监测系统等[37-39]。
在文本情感分析的商业系统中,由于关注点和服务对象的不同,在功能上有一定的差异,具体比较如表5所示。
5 结语
通过对中文文本情感倾向研究成果的归纳,在充分调研的基础上利用文献计量法对中文文本情感研究作了综述,其中统计分析了研究成果,给出了研究框架,重点介绍了基础理论研究现状和应用领域现状。发现国内对这一领域的研究从2006年才算真正开始,目前国内在这方面的研究进入稳步发展阶段,当然未来的研究在以下几个方面还可以进一步拓展。
(1)与更多领域相结合。文本情感研究融入社会科学学科,如经济、管理、金融、旅游、教育、情报学等都产生了众多研究成果,所以可以展望更广阔的应用前景。也可进一步提供面向网络和移动通讯用户的个性化信息服务,包括情感检索、自动问答、信息推荐。
(2)特殊的句子现象。否定句是一种特殊的句子现象,否定句分为单重否定、双重否定等。比较句也是观点评论中一种常见的句式现象,其中蕴含着多种观点。对特殊句型的情感分析具有一定的研究价值。
(3)汉语语义理解的理论和方法。由于中文研究有其自身的复杂性,在英文处理中的方法并不一定能直接运用到中文上,从自然语言处理的角度如何建立汉语的语法体系、语义表示方法和计算模型来更好地支持中文文本情感研究具有特别的意义。
(4)中文情感语料库的建设。语料库不仅作为研究的数据来源,也是研究方法的基础,特别是对于机器学习而言。但目前中文情感语料库相较于英文研究提供的语料显得较少,有的标注也欠规范和全面,因此大规模中文情感语料库的建设可以更好地促进本领域的研究。