长安大学经济与管理学院 陕西西安 710000
摘要:在线评价是消费者进行购买决策的重要依据,为了挖掘利用在线评价大数据,本文提出细粒度情感分析模型,总结模型各任务的研究方法,指出其对电子商务平台的推荐系统和评价管理系统的优化,对电商企业产品或服务优化和消费者行为分析。
关键词:情感分析 细粒度 文本挖掘 在线评价 电子商务
前言
2015年年底中国网民规模达 6.88 亿,天猫交易平台仅双十一当天成交量达到912亿元,电子商务活动已成为新经济发展的引擎之一。Jupiter Research公司调查显示有超过 75%的消费者在线购买商品之前,会参考互联网用户所写的产品评价信息[1]。由于在线评价已成为消费者费者决策的重要支撑,在线评价的挖掘对企业的和电子商务平台均有一定的指导作用,目前对在线评价内容特征的研究主要包括评价长度[2]、评价极性[3]、评价质量[4]、评价得分[5],但在评价语义方面研究不够深入。情感分析作为文本挖掘的一个新兴领域,能够从在线评价的语义和情感角度出发,挖掘评价对象的属性特征和情感强度。它涉及数据挖掘、自然语言处理、信息检索、机器学习等多个学科领域的问题,将它引入在线评价分析,提供决策支撑。
1情感分析
情感分析(sentiment analysis),又称观点挖掘或意见挖掘(opinion mining),指通过自动分析某种商品评价的文本内容,发现消费者对该商品的褒贬态度和意见。[6-7]按照处理文本的粒度不同,情感分析可分为词语或短语级、句子级、篇章级[8]。面向句子级、篇章级的粗粒度情感分析较为成熟,但它一般从整体来判断文本的情感极性,不能针对评价对象的具体属性进行分别计算情感强度,导致电子商务中企业不能了解消费者的个性化需求。而词语级、短语级的细粒度情感分析能抽取评价对象及评价对象的情感倾向等要素,反映更具针对性的情感信息。
2基于细粒度情感分析的评价挖掘模型构建
对于在线评价的情感分析已经成自然语言处理、文本挖掘等热点之一,针对微博、大众点评、淘宝等平台均有应用研究。拟构建的基于细粒度情感分析的评价挖掘模型如图1,通过获取对电子商务平台上消费者评价,处理数据。该模型分为五个任务:数据准备、评价对象的抽取和分类、情感倾向性分类、搭配抽取、情感强度计算。
图1 细粒度情感分析评价挖掘模型
2.1数据准备阶段
此任务需要在目标电子商务平台利用文本挖掘技术获取源数据,并进行数据处理,此阶段的技术已经很成熟。主要利用网络爬虫工具进行数据获取,在爬取网页后对目标内容进行解析。国内目前一些文本采集软件如集搜客、火车头采集器等可以方便的获取数据。由于爬取的在线评价中可能包含无意义字符、与主题不相关的广告等,需要对数据进行预处理为便于研究的结构化数据。对在线评价预处理的方法包括:词性标注、词缀修剪、简化替换分词和停用词的过滤[9]。常用软件如ICTCLAS、LJParser、ROST等完成部分预处理任务。
2.2评价对象的抽取与分类
评价对象主要指产品或服务的属性,也叫特征或属性,如手机产品中的“尺寸”、“价格”,酒店服务的“床”、“交通”。评价中特征分为显示特征和隐示特征。如“这手机发热严重”和“这手机我都可以用来煎鸡蛋”,前者对使用性能特征直接进行描述,后者需要句子进行语义理解才能得到抽取。目前自然语言处理技术还很难达到深刻理解句子语义的程度,因此绝大部分特征的抽取都只考虑了产品的显式特征[10]。特征抽取的方法有两种,基于词典的特征抽取和基于语料的特征抽取。在抽取之后,需要进行分类,而且不同类型的产品特征划分有所不同。如“尺寸”和“大小”都属于同一特征,一般是通过词典匹配的方法来归类,另一种方式则是用机器学习的方法。
2.3评价观点的抽取
评价观点也就是句中的情感词,如“漂亮”、“不喜欢”等。评价观点的抽取是将表达消费者的态度的词语或短语抽取,进而分析情感倾向,细粒度情感分析重点在情感词的情感倾向上。在进行评价观点抽取与分析之前需要进行主客观文本分类,细粒度情感分析是对主观文本进行分析。如“我当初试买的这手机”只是在陈述一个客观事实。在对大量的在线评价进行主客观文本识别后,能够有效地缩小分析范围,减少干扰[11]。
情感词的情感倾向性一般是褒贬二元分类,但是根据研究领域和研究对象有不同分法,如崔大志根据市场营销学和心理学将情感分成7类[12],Goldberg将评价的情感分为4类[13]。一般文本情感强度倾向性分析方法有:基于统计的文本情感倾向性分析方法和基于语义的文本情感倾向性分析方法。其中细粒度情感分析主要使用基于语义的文本情感倾向性分析方法,主要分为基于情感倾向词典的方法、基于无监督机器学习方法、基于人工标注语料库的学习方法。[14]
基于语料库的情感字的抽取和判别是通过观察和利用大语料库的统计性来挖掘和判别情感字的极性,需要专家团队投入大量精力,有其局限性。语料库是面向领域的,如部分旅游景点描述[15]、中国汽车网评价[16]、酒店评价[17]等,基于无监督机器学习方法则是通过与已知情感倾向的参考词和分析词的联系紧密程度来判断情感倾向。基于情感词典的方法则是查找词典中的词和分析词是否一样,不一样则查找近义词。目前有How Net词典, Word Net词典、中文同义词近义词词典、哈工大同义词词林等。可以看出基于情感词典的方法在产品属性提取与分类和情感词抽取中都有广泛的应用。
2.4评价对象与评价观点的搭配关联
评价搭配是用户观点中评价对象及其评价修辞的搭配对关系。[18]如“这手机耗电块,“这手机运行速度快”用样的评价词语“快”,在与不同的评价对象形成搭配对的时候,表达的情感倾向并不一致,即上下文的语义影响很大。相比先获取评价对象,把评价观点和评价对象当作一个任务抽取是目前准确率较高[19]。一般采取的方法有基于规则/模板、基于机器学习的方法,主要是使用各种机器学习的方法,比如最大熵模型、条件随机场模型、基于语义的方法。
2.5评价对象的情感强度计算
通过对评价对象的情感量化计算,能够有效的反映出消费者对于产品或服务某种特征的态度。如“比较喜欢它的外观”和“我不是很喜欢这款外观”中可以看出对外观情感强度分析时,除了情感词外,程度副词、否定词也有很大影响。目前情感强度量化研究缺少坚实的语言学与心理学的理论基础,所以当前国内外的研究往往是基于统计学原理或者人工标注的方法来实现情感强度量化 [20]。
3电子商务中情感分析应用方向
3.1对电子商务平台
优化评价管理系统。目前各大B2C购物网站如天猫展示产品部分特征的情感标签,京东和苏宁除此之外,分类为好评、中评、差评。但情感标签并不详细,对情感强度低的特征并未全部展示,没有对消费者以更直观的可视化形式展现。细粒度情感分析模型可对原有的情感标签进行更完全的补充,为消费者提供更详细的指导,增加用户粘性。
优化电商平台推荐系统。目前的推荐系统大多通过用户购买行为,形成消费者画像,而面向在线评价的细粒度情感分析模型可以从语义和情感的角度补充原有推荐算法。如根据用户关注的产品属性表现出强烈的褒贬倾向时,推荐的产品在原属性上有相似或补充时,效果可能会更好。
3.2对电子商务企业
主要是对产品属性和服务环节的优化。根据模型的情感强度结果,情感强度为负,反映出消费者不认可的态度,能有针对性的提升产品和服务质量,提升销量。
消费者行为和竞争对手分析。通过改变在线评价中如消费者属性中年龄、性别、地区、时间等变量时,根据细粒度情感分析的不同结果,可以细分消费者市场,找准市场定位,便于营销推广。也能在不同平台上,获取不同企业同类产品的在线评价,针对大数据进行关联分析,对比发现主要竞争产品以及竞争产品的优劣势。
4总结
在大数据时代,电子商务企业面临如何筛选和利用有效的信息来辅助决策。对其生产经营活动中产生的各种结构和非结构的大数据的挖掘和利用,能辅助企业在复杂多变的环境中进行决策。细粒度情感分析在电子商务中的运用除了上述应用外,在许多方向仍有待发现。它在诸如微博、论坛等社交网络平台也有不同运用方向,如舆情监测,营销推广。目前面向在线评价的细粒度情感分析仍然存在诸如如何保证评价的真实性、提高算法结果的精确度、适合特定领域的情感词典构建等问题。但随着各学科研究的深入,对电子商务在线评价的情感分析将让企业的产品和服务朝着更加个性化、智能化、精准化方向发展。
参考文献
[1]殷国鹏,消费者认为怎样的在线评论更有用?[J].管理世界,2012,12.
[2]Mudambi S M, Schuff D. What makes a helpful online review? a study of customer reviews on amazon.com[J]. Mis Quarterly, 2010, 34(1):185-200.
[3]Connors L, Mudambi S M, Schuff D. Is It the Review or the Reviewer? a Multi-Method Approach to Determine the Antecedents of Online Review Helpfulness[C]// hicss. IEEE Computer Society, 2011:1 - 10.
[4 ]Forman C, Ghose A, Wiesenfeld B. Examining the Relationship Between Reviews and Sales: The Role of Reviewer Identity Disclosure in Electronic Markets[J]. Social Science Electronic Publishing, 2008, 19(3):291-313.
[5] Doh S J, Hwang J S. How consumers evaluate eWOM (electronic word-of-mouth) messages.[J]. Cyberpsychology & Behavior the Impact of the Internet Multimedia & Virtual Reality on Behavior & Society, 2009, 12(2):193-7.
[6]Kobayashi N,Iida R,Inui K,et al.Opinion mining on the web by extracting subject-aspect-evaluation relations. Proceedings of 2006 AAAI Spring Symposium on Computational Approaches to Analyzing Weblogs(AAAI) . 2006.
[7] Wiebe J,Mihalcea R.Word sense and subjectivity. Proceedings of the 21st International Conference on ComputationalLinguisticsand the44thAnnual Meeting of the Association for Computational Linguistics(COLING/ACL) . 2006.
[8]施寒潇. 细粒度情感分析研究[D]. 苏州大学, 2013.
[9]杨卉. Web文本观点挖掘及隐含情感倾向的研究[D].吉林大学,2011.
[10]郗亚辉,张明,袁方,王煜. 产品评论挖掘研究综述[J]. 山东大学学报(理学版),2011,05:16-23+38.
[11] Yu H., Hatzivassiloglou V. Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]. In: Proceedings of EMNLP’2003, 2003: 129-136.
[12] 崔大志, 孙丽伟. 在线评论情感词汇模糊本体库构建[J].辽宁工程技术大学学报(社会科学版), 2010,(4):395-398
[13]Goldberg A B, Zhu X. Seeing stars when there aren't many stars: graph-based semi-supervised learning for sentiment categorization[C]// The Workshop on Graph Based Methods for Natural Language Processing. Association for Computational Linguistics, 2006.
[14]王任远. 网购评语情感挖掘研究[D].大连海事大学,2014.
[15] Yang Hongwu, Meng Helen M., Wu Zhiyong and Cai Lianhong. Modeling the Global Acoustic Correlates of Expressivity for Chinese Text-to-Speech Synthesis[C]. In: Proceedings of IEEE/ACL 2006 Workshop on Spoken Language Technology. 2006. 10-13.
[16]宋鸿彦, 刘军, 姚天昉, 刘全升, 黄高辉. 汉语意见型主观性文本标注语料库的构建[J]. 中文信息学报, 2009, 23(2): 123-128.
[17]姚天昉, 聂青阳, 李建超,等. 一个用于汉语汽车评论的意见挖掘系统[C]// 中国中文信息学会二十五周年学术会议. 2006.
[18]张玥. 面向产品评价的细粒度情感分析技术研究[D].哈尔滨工业大学,2013.
[19]许力波. 产品评价对象与情感词搭配关系的抽取[D].北京邮电大学,2013.
[20]蓝天广. 电子商务产品在线评论的细粒度情感强度分析[D]. 北京邮电大学, 2015.
论文作者:张安安,杨易霖
论文发表刊物:《基层建设》2016年15期
论文发表时间:2016/11/8
标签:情感论文; 评价论文; 在线论文; 特征论文; 文本论文; 消费者论文; 产品论文; 《基层建设》2016年15期论文;