观点挖掘在竞争对手分析中的应用,本文主要内容关键词为:竞争对手论文,观点论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
观点挖掘是一个新颖而又具有较大应用价值的研究领域。虽然目前国内在这方面的研究还处于起步阶段,但已经迅速受到广泛的关注。竞争对手分析是企业竞争情报工作的核心,是企业在激烈的市场竞争中抢占先机,赢得竞争优势的制胜法宝。传统的竞争对手分析方法,如三角分析法、波特竞争对手分析模型、价值链分析法、产品市场矩阵图法等主要是基于对竞争对手及企业自身优势和劣势、目标、市场状况、竞争战略等相关要素的直接分析,很少从用户这一独特的第三方的角度进行展开。随着网上各类产品或服务评论等主观文本信息的激增,观点挖掘为企业从用户评价这一角度的信息源进行竞争情报分析提供了强大的技术支持,将观点挖掘应用于竞争对手分析具有重要意义。
1 观点挖掘的产生背景
随着Web2.0的迅速发展与广泛应用,互联网已经成为人们表达观点、情感的重要工具。各种网上论坛、社区、博客、评测网站等平台的兴起,使得网民的参与热情和积极性大大提高,各种表达观点、情感的信息呈爆炸式增长。这些信息反映了大众舆论具有非常重要的参考价值。一方面,用户可以参考他人对某项产品或服务的性能、质量、用户体验等的评价,做出合理的购买决策;另一方面,企业可以依据用户对本企业产品或服务的评论,了解产品存在的不足从而进一步改进,与此同时也可以掌握用户的需求和喜好,为企业产品研发提供参考依据。然而由于这些信息数量庞大且呈现无结构化特点,单纯依靠人工阅读与分析耗时且效率低下,如何解决这些主观信息的海量化与人工阅读能力有限之间的矛盾,成为摆在研究者面前的一个重要问题,观点挖掘技术就是在这种背景下应运而生的。
观点挖掘是以各种主观性文本为挖掘对象,利用自然语言处理以及数据挖掘技术,从大量文本中获取有价值的评价信息和观点的过程。广义的观点挖掘也被称为情感分类、情感分析或文本意见挖掘等[1]。观点挖掘是一个多学科综合的研究领域,涉及文本挖掘、信息抽取、信息检索、机器学习、自然语言处理、概率论、统计分析、本体、可视化技术等领域,可以应用于民意调查、舆情分析、信息监控、市场预测、电子商务分析、客户关系管理等方面。
2 观点挖掘的任务与模型
2.1 挖掘任务
本文主要探讨观点挖掘在竞争对手分析中的应用,因此重点关注评价性文本数据的挖掘。观点挖掘是在大规模的评价文本中发现倾向性的认识,识别出文本中包含主观性的句子,并对其情感色彩进行判断,主要包括3种挖掘任务[2]:(1)情感分类。情感分类是基于文档层次,属于粗粒度的观点挖掘。将观点挖掘看成文本分类问题,根据文本所体现的感情色彩将评论文本划分为褒义、中性、贬义三个类别。这一层次的观点挖掘主要提供关于一个对象、一个话题或事件的用户看法的宏观分布情况,不能发现用户喜欢与不喜欢的具体细节。(2)基于特征的观点挖掘。基于特征的观点挖掘进入到语句层次,属于细粒度的观点挖掘,以语句的观点倾向为基本研究对象提取观点的具体细节,包括识别并提取评论者借以表达观点的产品特征;决定评论者对该特征的观点是褒义的、贬义的还是中性的。这一层次的观点挖掘可以发现用户对某一对象是否喜欢,以及喜欢该对象的哪些方面等,对象可以是一个产品、一种服务、一个人或一个组织。(3)比较语句和关系挖掘。直接将一个对象与另一个或几个相似对象进行比较,涉及多个主体。比较挖掘包括识别文本中的比较段落或语句,分配到不同的类别中;从语句中提取比较关系。比较挖掘涉及多主体、多个特征,由于自然语言处理技术不够成熟,因此现阶段实现还有一定的困难。
2.2 挖掘模型
观点挖掘主要包括特征抽取、用户观点抽取、观点极性和强度判定以及挖掘结果显示等过程。本文在前人研究的基础上,进行了一些改进和细化,构建了一个基于评价文本的观点挖掘模型,如图1所示。该模型考虑了基于文档和句法两个层次的挖掘,便于从宏观上把握评价的总体分布情况,从微观上详细了解具体特征的评价。(1)评论语料库。从BBS、博客、新闻网站、各种评论网站等语料库上搜集关于某一主题的用户评论。(2)分类器。将用户评论按感情色彩划分为褒义和贬义,分别进行进一步基于特征的观点挖掘。(3)产品特征抽取。从产品评论中发现用户对产品的哪些特征进行了评价,产品特征主要包括产品的部件、功能、部件的性能和功能等。(4)用户观点抽取。提取评论中体现用户感情色彩的词或短语。(5)观点极性判断。提取表达用户观点的词或词组,判断它的极性,即表示褒义、中性还是贬义。(6)情感与特征匹配。将已经标注极性,表示用户观点的词与它所描述的特征对应起来,形成观点摘要。
图1 观点挖掘模型
3 观点挖掘在竞争对手分析中的作用
竞争对手分析是竞争情报研究的核心,也是企业竞争战略制定的基础和有机组成部分。企业要在激烈的竞争中生存和发展,就必须运用作为市场竞争的导航和参谋的竞争情报分析工具,千方百计地了解竞争对手和竞争态势,知己知彼,方能百战不殆[3]。通过竞争对手分析,一方面可以使企业掌握竞争对手的战略、意图、优势、弱点,分析企业与竞争对手的差异,制定出有针对性的竞争策略,扬长避短,使企业抢占先机,在竞争中占据有利地位;另一方面通过对竞争对手竞争实力、目标以及现行策略的分析,可以使企业准确而合理的预测竞争对手面对不同竞争压力的反应以及未来可能采取的策略,为企业选择竞争战场提供依据。与此同时,企业还可以学习竞争对手的优点,定标比超,不断提高本企业的核心竞争力。竞争对手分析主要是对企业的现行战略、未来目标、竞争实力和自我假设等方面进行分析,电子商务的发展使得越来越多的用户参与产品的评价,这些海量的评论文本中蕴含着大量有价值的信息。将观点挖掘应用于竞争对手分析,可以获取大众对竞争对手及其产品的评价,为竞争对手分析提供独特的视角。
(1)从大众角度识别企业主要竞争对手。竞争对手识别是竞争对手分析的基础和首要工作,在激烈的市场竞争中,识别出真正的竞争对手对企业来说是非常重要的。竞争对手是指在与本企业有共同目标的市场上,已有或可能有利害冲突的机构组织。竞争对手分为现实竞争对手和潜在竞争对手两类。企业通常依照行业和市场标准来识别主要竞争对手,行业指提供相同或类似或者密切相关的产品的企业组合,市场指有相同或相似需求的顾客群体组合。在广阔的市场竞争大舞台上,企业所面临的竞争对手的范围越来越广泛,跨行业多元化经营战略的推行,市场划分的进一步细化,以及潜在竞争对手的隐蔽性等,使得企业识别本企业主要竞争对手的难度进一步加大。观点挖掘为竞争对手识别提供了独特的视角,使企业可以从大众的角度识别主要竞争对手。消费者是识别企业目前与潜在竞争对手最有价值的情报源之一,消费者是产品的直接使用者,因此最具有发言权。消费者在评论某一产品时,经常会将该产品与其他与之匹敌的商品进行对比,分析它们各自的特点和优劣。对于企业而言,通过对这些评论文本的挖掘,可以发现频繁地被用来与本企业产品作对比的商品,从而识别出在公众心目中本企业主要的竞争对手。
(2)掌握大众对竞争对手产品及服务的评价。对竞争对手实力的评估,是竞争对手分析的主要内容之一,即掌握竞争对手的强项与弱项,判断竞争对手的战略能力和竞争力,从而做到知己知彼,为参与市场竞争做好准备。除利用传统的方法外,借助观点挖掘,可以获取大众对竞争对手的产品、服务以及总体的评价。网络上各种BBS、评论网站、博客中带有个人主观感情色彩的评论性文本反映了人们对某一对象的意见、态度和立场,具有很大的利用价值。很多企业在企业网站上提供用户讨论专区,便于用户交流各自体验感受。在这些评论信息中,通常包括用户对产品及其各部件的功能、外观、价格等的评价,结合用户自身的体验,因此信息较为真实可信。从用户对产品或服务正面的评价,通过进一步分析,可以发现竞争对手的优势所在,同样地,通过负面的评论也可以掌握竞争对手的不足。通过对这些评论信息的进一步挖掘,可以发掘其背后蕴藏的反映竞争对手经营策略、研发方向、创新能力等信息。与此同时,通过消费者的总体评价情况,可以了解和掌握竞争对手在顾客心目中的心理占有率、情感占有率以及顾客的品牌忠诚度,为有针对性地制定竞争战略和本企业客户关系管理提供依据。除此之外,通过跟踪用户评价的变化,一方面可以反映出竞争对手营销战略的成效,为本企业提供借鉴;另一方面通过分析用户评价的重大变化及其趋势,可以进一步了解竞争对手的快速反应能力、成长能力、适应能力、创新能力和危机处理能力等。
(3)预测竞争对手未来的目标与战略。竞争对手的未来目标与策略是其行动的指南,因此,准确合理的预测竞争对手的未来目标与策略,是企业制定竞争对策的依据。可以根据竞争对手的使命与愿景、目前的市场地位、企业总体状况、领导层的背景、竞争对手假设等信息,利用SWOT分析、五种力模型、产业情景分析、BCG产业矩阵等分析方法进行分析预测。同时利用观点挖掘,可以进一步提高这种预测的准确性和效率。消费者是企业赖以生存的基础和保障,提高消费者的满意度是企业赢得市场的制胜法宝,因此,消费者的需求和意见是企业制定决策的重要参考依据。通过宏观分析用户对竞争对手产品、服务的评价以及这种评价的变化情况,一方面可以掌握竞争对手存在的不足,即为竞争对手未来改进的地方;另一方面可以识别消费者潜在的需求变化,从而预测竞争对手未来发展的方向。因此,观点挖掘为从大众角度预测竞争对手未来的目标与战略提供了技术支持和情报保障。
4 基于观点挖掘的竞争对手分析模型
基于观点挖掘的竞争对手分析模型主要包括观点检索模块、竞争对手识别模块、竞争对手分析模块和结果可视化显示模块4大模块,如图2所示。
4.1 观点检索模块
观点挖掘模块主要利用搜索引擎或网络爬虫从各种电子商务网站、博客、BBS、新闻网站以及各种评论网站上搜集满足条件的评论文本。由于网上评论时时更新,因此,需要不断地监测和捕捉这些信息。此模型用到两次观点检索模块:①搜集关于本企业的相关评论文本,用于主要竞争对手识别和本企业分析;②针对确定的竞争对手,搜集关于该企业的评论信息,以待进一步分析。
4.2 竞争对手识别模块
以本企业名称为关键词,搜集关于本企业的评论信息,经过预处理、主观语句识别与提取,得到关于本企业的主观评论文档集合。大多数情况下,消费者喜欢将不同企业的同类产品进行对比,例如诺基亚和三星的手机,通常这些企业在该细分市场上旗鼓相当,是主要的竞争对手。因此,利用关联规则的Apriori算法从评论文本中挖掘频繁模式,提取经常与本企业同时被提及的企业名称,作为候选竞争对手。与此同时,对于特定的细分市场,以产品为关键词,通过频繁模式挖掘出该产品领域得到用户广泛关注的企业,对于正面评论较多的企业,可列入主要竞争对手范围,待进一步深入分析;对于负面评论较多的企业,分析其失败的原因,作为负面例子不断警醒自己,以不断改善和提升本企业竞争力。最后通过对候选竞争对手集进一步调查分析,结合传统的竞争对手识别方法,筛选并确定本企业的主要竞争对手。
4.3 竞争对手分析模块
竞争对手分析模块主要针对特定的竞争对手,搜集关于该企业的评论信息,利用观点挖掘技术,从文档和句法层次分析用户对该企业的评价信息,为企业竞争对手分析提供依据。
(1)主观语句识别与提取。评论文本一般包含表示主观意见和客观事实的句子,观点挖掘主要研究用户对特定对象的评价和看法,因此,识别和提取主观语句是观点挖掘的首要任务和基础。主观性特征是识别主观语句的标志,主要包括表示主观性的动词、形容词、名词、短语、文本模式等。主观语句的识别与提取方法主要有:①将主观性分析转换为二元分类的文本分类任务;②通过对已经人工标注主观性的语料库的学习,建立主观性判定特征词表,以此为特征进行识别;③依据前人研究所确定的主观特征,建立主观性分类器,自动识别主观语句;④通过对已经人工标注或由分类器确定的主观句的分析,提取出主观性的文本模式,以这些模式作为分类特征,识别更多的主观和客观句子等。另外还可以借助汉语主观性种子词典和统计推断Bootstrap方法识别和提取主观性特征。叶强等探索了中文主观性的自动识别方法,提出了基于连续双词词类组合模式的主观程度自动判别算法,为中文客户评论挖掘提供了一种可能的方法选择[4]。对于提取出来的主观语句,经过去重、断句、指代消解等预处理,形成主观文本集合,以便进一步分析。
(2)情感分类。将主观文本划分为褒义和贬义两类。它与传统的基于主题的文本分类相似但又不同。在基于主题的文本分类中,与主题相关的词非常重要,而在情感分类中,表明积极或消极观点的词最有用。情感分类方法较多,比较常用的是Turney提出的基于情感词组的分类算法[2]。该方法主要分为三步:①首先对句子进行分词和词性标注,判断相邻词的词性标注是否符合规定的模式(形容词+名词、副词+形容词等),如果满足则将它们作为词组提取出来;②基于词组与“好”和“差”的逐点互信息之差计算各词组的语义倾向值;③给定一个评论,计算句子中所有词组的语义倾向值的平均值,从而判断整个句子的极性。还可以使用传统的文本分类方法进行情感分类,或使用人工标注与自动分类相结合的方法。
(3)产品特征提取。产品的特征通常是产品或其部件的属性、功能等,因此一般为名词或名词短语。识别和提取产品特征即确定评论的对象,通常采用的方法主要有:①借助于领域本体,人工构建相关领域的特征词汇库,并明确特征之间的从属关系。②Kim等提出通过寻找句子中包含表达主观性的词汇,然后定义一个大小固定的窗口,以主观性词汇为中心,将窗口中的名词或名词短语作为特征[5]。③利用关联规则或点互信息法计算名词或名词短语与某些具有特殊意义的词汇所共同出现的频度,以此为依据进行识别。④通过机器学习算法来进行抽取,又分为无监督学习和有监督学习两种方法。无监督学习方法包括概率潜在语义分析法、潜在狄利克雷分布法、相关主题模型法、自组织映射方法[6]等,有监督学习常用方法包括最大熵模型、条件随机场等[7]。具体进行分析时,可以借助自然语言处理的词性标注、句法分析等技术,提高识别的准确性和效率。
(4)用户观点抽取。用户观点抽取即识别和抽取表达用户感情的词语,常见的用户观点抽取方法主要有:①以产品特征词为中心,选取属性前后一定长度的字符串,取出其中的形容词作为该属性的情感词。②依据句法分析,提取评论语句中修饰产品特征的形容词或副词作为情感词。③基于文本模式,提取出其中的形容词作为用户态度。④借助极性词典,将句子中出现的极性词均作为用户观点提取出来。J.Yi等人设计了一个情感分析器,抽取评论文本的3种特征:基本名词短语BNP、限定基本名词短语dBNP、句首限定名词短语bBNP,并使用两种特征选择算法提取产品评论中有关产品的观点和意见[8]。
(5)观点极性判断。即判断情感词的极性,它是观点挖掘方法和技术研究的基础。对于词语极性的判定,通常有四种方法:①借助于极性词典,确定极性明显的若干词语作为种子词,根据新词和种子词之间出现的关联词关系,如递进、并列、转折关系等,确定新词的极性。②根据新词和种子词之间出现的统计关系,即根据它们经常一起出现的频率计算新词的极性。③利用同义词、近义词词典对新词与已知极性的词语间的同义、近义、反义关系进行判定,确定新词的极性。④借助语义相似度和语义相关度计算新词与已知极性词汇的相似度,判定新词的倾向性。在具体判定过程中,这些方法可以相互补充、融合。娄德成等利用自然语言处理技术,通过对句子中词语的依存关系进行深层分析,研究关键成分的依存修饰关系,计算极性词的上下文极性[9],使得情感词的极性判定更加准确。
(6)情感与特征匹配。即找到正确的(评价词,评价对象)关联对,简洁、形象而又完整地表达出用户的评论信息。现阶段相关匹配方法主要有:①将检测到的评价词与评价对象做笛卡尔乘积,得到候选匹配对集,应用最大熵模型并结合词、词性、语义以及位置等特征进行筛选,得到真正的评价词和评价对象集合[10];也可以将关系的抽取看成一个分类问题,使用支持向量机、贝叶斯等方法对候选匹配对集进行分类。②依据最近匹配原则,以情感词为基准,抽取其周围一定范围的特征作为评价对象进行匹配。③借助人工定义的文本模板形成抽取规则,进行产品特征和观点的抽取。④黄永文提出利用Bootstrapping半监督学习算法[11],对产品评论中的产品特征和观点词同时进行抽取,保留了产品特征与观点词的对应关系。
图2 基于观点挖掘的竞争对手分析模型
在具体进行竞争对手分析时,可结合具体情况选择不同的算法。目前国外已经研发出若干用于观点挖掘的系统,例如,“ReviewSeer”是世界上第一个情感分析工具和第一个针对给定产品评论区别其褒贬性的系统[12]。该系统通过对评论性文章进行语义倾向分析,为商品的受欢迎程度打分,从而获取商品的用户信息。
4.4 结果可视化显示模块
竞争对手的分析结果以可视化的形式展现出来。可采用列表、观点树和图表的形式,例如比较方格法与颜色标记法等[13]。针对每一个产品特征列出肯定或否定的评论,对特殊和异常情况高亮显示,使企业清晰明了地从宏观和微观层次把握竞争对手在公众心目中的评价情况。同时也可以将本企业与竞争对手的评论信息进行对比,直观清晰的展示出彼此的优劣,在发现对手易受攻击的地方的同时,也明确自身薄弱和需要改进的地方。可以借助各种图表和清晰的文字形成观点摘要,提供给决策者,为竞争策略的制定提供重要的参考依据。
以上初步探讨观点挖掘在竞争对手分析中的应用,其中相当多的工作还需要人工的辅助参与,智能化水平还有待提高。有关模型的实现和完善的应用机制还需进一步的探索。另外,本文只是为竞争对手分析提供了一个独特的视角和分析方法,要全面综合的分析竞争对手,还需要与其他的竞争对手分析方法相结合。今后的研究还可以从下面几个方面进行突破:(1)比较观点的抽取与挖掘。(2)将评论者也考虑进来,对评论者信息进行挖掘与分析。(3)对于观点可能存在的作弊问题提出相应的对策等。随着自然语言处理以及数据挖掘等技术的发展,观点挖掘在竞争情报分析中将会得到更加广泛的应用。
收稿日期:2010-05-09
标签:文本分类论文; 用户研究论文; 特征提取论文; 企业特征论文; 文本分析论文; 用户分析论文; 情感识别论文; 文本情感分析论文;