基于电影面板数据的在线评论情感倾向对销售收入影响的实证研究,本文主要内容关键词为:在线论文,销售收入论文,倾向论文,面板论文,实证研究论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
口碑是个体间关于产品或服务(正面或负面)看法的非正式传播方式[1]。在商品质量信息不对称情况下,口碑传播对消除购买者的不确定性,辅助其有效决策具有重要作用,人们在商品选择过程中更愿意信赖已使用者的推荐。口碑影响着消费者的购买行为进而影响着商家的赢利性。因此,研究口碑如何影响商品销售状况对于商家根据口碑反馈信息制定和调整营销策略、进行销售预测等方面都具有重要意义。互联网的应用进一步扩展了口碑传播的速度、广度和影响力。在线口碑可持久存储的特点使得口碑的准确测量变为可能。在此背景下,如何从互联网上繁杂的口碑数据中更准确地捕捉其中有价值的口碑信息,进而研究这些信息如何影响消费者的购买行为和商家的销售绩效成为热门议题。
商品在线评论是在线口碑的一种形式。近年,不同学者从不同的角度研究了商品在线评论与消费者购买行为或商品销售绩效(销售收入或销售量)的关系,如研究在线评论的数量、扩散度或方差对销售的影响。这些口碑指标之所以被关注是因为其反映了口碑的“知晓”作用,对某商品讨论的越多,就越有可能受到更多的关注,进而引发更多的购买行为。相关研究结论大多证实了口碑知晓效应对消费者购买行为的影响。随着研究的深入,少数国外学者提出口碑不仅具有传播知晓的效应,其带有情感倾向的观点(如好评/差评)对潜在消费者的购买决策更具影响力。研究不同情感倾向的评论的影响,对帮助商家根据各情感倾向评论对销售绩效影响力的强弱有针对性地追踪不同情感倾向的评论,有效地调整口碑营销策略更具有实际价值。
根据作者已掌握的文献,目前有关商品在线评论情感倾向与购买行为影响关系的实证研究还很缺乏,国内相关研究主要集中于综述在线口碑的研究现状[2],和采用调查[3]或实验[4]的方法研究口碑与消费者个体购买动机的关系,直接利用网上实际用户产生的在线评论信息,从消费者总体行为视角研究其与销售绩效之间的关系则基本空白,而后者更有利于揭示商品在线评论的经济价值。尽管国外少数学者对评论情感倾向与商品销售绩效的关系做了初探,但研究结果莫衷一是。最早研究主要以网站上评论数字打分的简单平均为代表研究评论情感倾向与销售之间的关系,相关研究结果往往不显著(如Chen[5];Duan & Gu[6])。Ghose & Ipeirotis[7]和Liu[8]等人指出结果不显著可能是正负评价相互抵消,使简单平均分无法反映评论情感倾向的关键特征造成的。对于这个问题,少数国外学者进一步将评论分为不同情感等级来反映评论的情感倾向,如分为好评/差评或1-5星级评论,探索不同情感倾向的评论对销售的影响,但这类研究的结论仍然不一致。如Chelivier & Mayzlin[9]对于图书类商品的研究发现,1分评论(极端差评)的影响要大于5分评论(极端好评)的影响。而Liu[8]在对电影在线评论的研究中发现,在电影发布的各周,好评和差评对票房收入均没有显著影响。
综合分析以上相关文献发现,评论情感倾向影响的结论不一致的现象是由这些研究在建模过程中存在以下问题导致的:
(1)采用截面数据建模。像Duan & Gu[6]指出,截面数据建模不利于控制不同个体间的差异,也不利于更准确地反映和刻画在时间推移的过程中评论对销售绩效影响的动态变化,因而无法准确揭示变量间的真实关系。尽管Chelivier & Mayzlin[9]尝试通过两个网站比较来消除不可控因素的影响,但这种方法下对一个网站好评(差评)影响结果的解释需要以另一个网站好评(差评)没有影响为前提,这样大大降低了结果的可解释性和可信性。(2)一些研究(如文献[8])采用事后人工标注方式标注评论的情感倾向,人工标注的结果与评论者自己给出的真实数字评价存在偏差,因而可能导致研究结论不正确。(3)将评论的情感倾向分为好评或差评属于定性划分,分类通常比较模糊,因而在不同标准下对评论情感倾向进行分类会产生不同结果,这可能是多数研究结果中情感倾向影响不显著的一个原因。
本文旨在克服相关研究在建模过程中的上述问题,建立更符合现实情况的模型并据此重新检验在线评论情感倾向的影响效应、不同情感倾向的评论影响的差异性及其随时间变化的动态性。不同于Chelivier & Mayzlin[9]和Liu[8]的研究,本文拟以一类典型的体验商品行业——电影行业为背景,借助于面板数据(Panel Data)能够很好控制不可测因素变异和刻画各变量随时间变动趋势的优势,在面板数据环境下;(1)根据电影评论网站上评论者自己做出的数字评级对评论情感倾向进行更为合理的分类,分为不同的情感倾向等级;(2)分析各情感倾向等级的评论对电影票房是否存在影响,以及在电影发布后什么时段有影响,考察影响随电影生命周期阶段推移的动态变化性;(3)比较各情感倾向等级评论在电影发布后各阶段影响的差异性;(4)比较分析电影发布后各阶段评论情感倾向与评论数量的影响效应随时间变动的差异性。
本文的内容组织如下:第二部分,根据相关理论和文献研究提出理论假设和建立在线评论对销售收入的影响关系模型。第三部分,说明收集数据和实证分析的过程,并对分析结果进行阐释。第四部分,结论与意义,并指出研究的局限。
理论假设与模型
本文基于面板数据进行研究,因此需考虑两个问题:(1)以什么时间单位粒度(天/周/月等)来收集数据,(2)收集每天/周的时点数据还是一段时间的累积汇总数据。鉴于Duan & Gu[6]在电影行业口碑对票房影响的研究中指出,每天特别是电影首映周中每天的票房收入和在线评论数量的波动均较大,以天为时间单位分析影响关系较为合理,本文同样以“天”为时间单位研究评论数量及情感倾向的影响。
对于评论的数量与消费者购买行为和市场产出的关系,很多实证分析的结果均支持两者之间的正相关关系[6,8,10-13]。其受到关注的原因是评论数量会影响消费者的知觉,因此反映了该商品可能被其他潜在消费者知晓的程度,如Godes & Mayzlin[10]指出,对某商品讨论越多,就越有可能受到更多的关注,由此可能引发更多的购买行为。具体对于评论数量的测量,本文拟选取滞后一天评论的数量作为评论数量的测量指标,一方面有利于验证评论对票房收入的因果关系,排除两者呈反向因果关系的可能性;另外这样更符合实际情况,因为大多数前一天评论的阅读者往往会在第二天产生前往影院看电影的行为,即口碑影响具有时间上的滞后性。由此,本文提出假设H1。
H1:滞后一天在线评论的数量对当天票房收入有显著正向影响。
另外,评论的情感倾向也同样受到关注,原因是评论情感倾向反映了口碑可能起到的劝说作用,也就是,正负向评论从商品已使用者角度反映了商品质量的优劣,而评论阅读者可能会基于商品已使用者的口碑评价来判断商品质量,决定是否购买。关于在线评论情感倾向与销售之间关系的研究,最初的一些尝试是用各评论对某商品数字评分的平均值作为评论情感倾向的指标(如文献[6]),结论大多不支持评论情感倾向具有显著影响。一些学者进一步将评论情感倾向分为好评、差评等情感等级,用各情感等级的评论数或比例作为代理来研究口碑情感倾向对销售的影响(如文献[8]和[10])。本文同样以好评和差评等情感等级作为代表指标来研究评论情感倾向对票房收入的影响。但与Chevalier & Mayzlin[9]和Liu[8]的研究不同,本文一方面在面板数据环境下考察各种关系,另外,采用逐步尝试的方法对好评和差评等情感等级进行合理划分①。根据Chevalier & Mayzlin的研究结果,我们同样预期好评对潜在消费者产生正向影响,差评对潜在消费者产生负向影响,其中,好评的绝对影响大于差评的绝对影响,而感情倾向不分明的中评对潜在消费者没有显著影响。Pavlou等人[14]的研究表明人们通常仅愿意翻阅2页之内的评论,因此本文拟选取截止至前一天的最近2页评论中各情感等级评论来代表各情感等级评论总体情况;另外,仅统计前两页评论有利于提高数据处理效率。参考了Liu[8]的研究,为分离评论数量和情感倾向的效应,避免正负评论数和总评论数被同时被纳入模型引发的多重共线性问题,选择各等级评论的比例而非数量作为评论情感倾向的测量指标。因此,提出假设H2及H2a-H2d(假设中提到的“最近累积”表示截止至前一天最近2页评论的累积)。
H2:最近累积在线评论的情感倾向对当天票房收入存在显著影响。
H2a:最近累积1星评论(比例)对当天票房收入有显著负向影响。
H2b:最近累积5星评论(比例)对当天票房收入有显著正向影响。
H2c:最近累积1星评论(比例)对当天票房的影响大于最近累积5星评论(比例)的影响。
H2d:最近累积2-4星评论(比例)对当天票房收入均无显著影响。
另外,一些研究还指出了其他一些与票房收入相关的重要变量。如放映影院数,它反映了现实环境下观众对电影的实际可获得性,放映影院数与票房收入之间存在显著正相关关系[15]。另外一些研究揭示了电影票房随时间递减的现象,即发布时长对票房存在负向相关[6,7,10]。一些文献(如文献[6])还提到周末效应,由票房每日变动情况可清楚看到每到周末票房通常会达到一个局部的高峰。因此,为提高对票房收入的解释力,我们把这些变量也加入到模型中进行检验,提出以下假设:
H3:当天放映影院数对当天票房收入有显著正向影响。
H4:电影发布天数对当天票房收入有显著负向影响。
H5:是否为周末对当天票房收入有显著影响(周末票房收入高于非周末票房收入)。
根据以上理论综述及提出的假设,建立初始面板数据线性回归方程,基本模型形式②见公式1,各变量中文解释见表l。其中,参考多数研究文献(如文献[7][8][10])的做法,本文对所有除比例型变量之外的连续型变量均取自然对数形式,这种变换不仅与多阶段消费者决策过程的相关理论模型相符合,还可以平滑模型中变量的分布,使变量间关系趋于线性化。模型中引入固定效应αi来捕捉模型中所有未被包含但对票房有影响的非时变因素在不同电影间的变异(如电影本身质量、电影题材等),通过固定效应来控制截面变异是面板数据模型对于截面数据模型的一大优势所在。
实证研究
1、数据
采用抓取和解析网页的方式,分别以总量和每天为单位,收集美国2006年度出品的排名前500名以内电影的在线用户影评、电影基本信息及票房收入等相关数据。本文从www.boxofficemojo.com网站的票房收入排名榜中选择前500部电影,并收集这些电影的总量信息(包括首映日,总票房收入)及每天时变信息(包括每天票房收入和每天放映影院数)。另外,从Yahoo! movie(movies.yahoo.com)网站收集电影的在线评论数据(包括各电影在线评论的发表时间以及对电影的数字评分等)。以Yahoo! movie网站作为在线评论数据来源主要基于以下考虑:该网站是美国最出名的在线评论网站,与其他类似网站相比,该网站拥有最大的访问客群,因此该网站在线评论具有代表性,且在线评论信息较丰富,历史数据保存完整,利于收集时间历史数据;Duan & Gu[6]和Liu[8]等的研究数据也来源于这个网站,同样的数据来源可以方便本文的分析结果与前人做比较。
剔除票房或评论信息严重缺失的电影,最后确定52个电影作为研究样本。考虑一般的电影生命周期为6-10周[16],而前4周的票房通常占总票房的85%以上,因此本文重点考察电影发布以来4周(28天)的情况。最后得到容量为1456(52个截面成员×28个观测点)的非平衡面板数据。此面板数据的基本统计描述见表2及表3。
Yahoo!Movie网站的影评对电影情感倾向的评价共有13个评分等级,其中包括5个大的等级A-F,在这些大类下,除F外每个大类中又细分为三个小类,即A(A-,A,A+)、B(B-,B,B+)、C(C-,C,C+)、D(D-,D,D+)。考虑评论阅读者一般不会太细的区分每个大类中各小类的差别;另外,评分等级太多不利于规律性结论的揭示。因此,我们初步以每个大类为基本类单元,将评论观点分为1星极端差评(F)至5星极端好评(A)五个星级,52个样本电影平均各星级评论的数量和占比的统计见表4及图1。
由表4可见,就52个样本电影而言,Yahoo!Movie网站关于这些电影的评论中,平均5星级(极端好评)的评论数量(672.654)显著多于其他星级评论,其次为4星级评论的数量(215.673)。而在电影所有评论中,样本电影平均各星级评论占其所有评论的比例也与评论数量的情况一致,平均5星级评论占比超过50%(53.8%),4星级评论占比位居其次(17.9%)。将样本电影最近两页评论中平均各星级评论的占比与所有评论中平均各星级的评论的占比相对照发现,各星级评论对应比例非常接近,验证了用最近两页评论的信息代表所有评论信息的合理性。
观察样本发现,电影各星级评论比例每天变动趋势的差异比较明显,这里以样本中两个电影《16blocks》和《Arthur and The Invisibles》每天各星级评论占比的变动情况为例来说明(见图1)。因此,前面提到的按照不同标准划分评论的各情感倾向等级来研究评论情感倾向对销售的影响可能出现不同结果的假设符合实际情况。本文将采用如下步骤对评论的情感倾向进行合理划分:首先以1星级(F)-5星级(A)为基本等级,分析这些等级的评论对票房的影响,如果基本等级评论的占比在各周均没有显著影响,则继续将相邻的影响不显著的等级进行合并,如果各星级评论均有影响或没有可继续合并的相邻不显著的等级,则终止合并。
2、模型设定及结果分析
鉴于各自变量间可能存在影响不显著或多重共线性,本文在建模过程中先单独输入各自变量,检查单独的影响效应,在单独影响效应显著的基础上,再采用逐步回归方法引入影响显著的变量,以确定最终模型。
基于通过网页抓取收集到的52×28个样本电影面板数据,采用EVIEWS软件(5.1版)对前面构建的初始面板数据线性回归模型进行估计。对于面板数据模型形式的设定,由于本文研究目的是由样本推知总体,从理论上应该选用随机效应模型(根据文献[17]);另外,文献[18]指出还需利用Hausman检验从数据角度验证随机效应模型的设定是否合理。因此,本文首先采用随机效应模型来建模,然后采用Hausman检验来检查随机效应模型的合理性。鉴于各自变量可能存在的异方差问题,本文采用面板数据的广义最小二乘法(pooled GLS)估计模型参数,此方法还能消除多重共线性的部分影响。
本文研究内容之一是考察电影发布后各周评论数量和情感倾向的影响和这些影响在各周的变化情况,需要对电影发布后各周情况分别进行估计,解释变量之间多重共线性情况及对票房影响的显著情况在各周有所不同,因此采用逐步法建立的各周的模型也有所差异。对于电影发布后四周内的各周,包括模型筛选过程中重要中间模型在内的相关模型见表5。其中,对于电影首映周、第2周以及第4周,无论是单独还是同时被引入到模型,各星级评论对票房收入的影响均不显著,限于篇幅,表5中仅列出各星级评论的指标同时引入模型时的估计结果(见表5的模型1、模型2和模型4)。而在第3周,单独引入各星级评论的指标时,1星级评论占比(1starcumuper)的影响和5星级评论占比(5starcumuper)的影响均显著,2-4星级评论比例的影响均不显著。当将1星和5星评论同时纳入到模型中(见表5模型3-1)时,1星级评论比例的影响系数变为不显著,而决定系数变动不大,可粗略判断,模型3-1存在多重共线性问题。通过回归检验法发现,导致多重共线性的主要原因是1星级评论比例与5星级评论比例存在较高的相关性。因此,需要分别将1星评论及5星评论纳入到模型中进行估计(见表5模型3-2和模型3-3)。由于2-4星级评论的单独影响在各周均不显著,我们对这些星级进行如下3种合并:2&3或3&4或2&4或2&3&4。合并之后同样遵循上述模型筛选变量和建立的步骤,结果发现合并后的各情感等级评论的影响亦均不显著,停止尝试。因此,无论在合并前还是合并后,中间星级的评论对电影票房收入均无显著影响。
对于表5中显示的电影发布各周的模型(模型1-模型4),Hausman检验结果为拒绝原假设,表明从数据角度看选用固定效应模型更为合适。但检查固定效应模型和随机效应模型相同参数估计值的差异情况,发现两个模型对应系数的估计值(特别是各星级评论比例影响系数的估计)在0.01水平上没有显著差异。因此,选用随机效应模型得到的结果仍然可靠合理。各模型F检验均拒绝原假设,说明各模型成立;另外,各模型的较高(0.785-0.822),残差平方较小(49.956-61.877),说明各模型整体拟合情况较好。
由表5电影发布各周模型的参数估计结果可知:从电影发布第1周,在线评论的数量就对票房收入有显著正向影响(0.080),尽管最初的影响较小,在随后的第2周这种影响增大到0.199,而在这之后影响逐渐减弱(支持了本文假设H1)。这一结论与目前大多数文献(如文献[6])的研究结果一致。对于这一研究结果的一种解释是:评论数量反映了口碑的知晓作用,在电影发布之后,一些早期消费者(创新者)在体验之后的口碑扩散使更多潜在消费者更有可能知道和了解这个电影,进而选择观看它。但随着时间的推移,电影宣传力度和最初对新电影狂热在逐渐减弱,同时,早期创新者的遗忘使其逐渐停止口碑传播行为,而与早期购买电影的创新者相比,仍未购买该电影的潜在消费者又属于更为理性的潜在消费者,因此,在传播速度逐渐下降,传播影响不断减弱的情况下,必然会产生口碑数量对潜在消费者的影响减弱的趋势。
对于五个星级评论比例代表的在线评论情感倾向,部分星级评论仅在第3周对票房产生显著影响(部分支持了假设H2),且这些有显著影响的星级评论对票房收入的影响超过了评论数量的影响。对于这个结果的一种解释是:电影发布后即购买电影的消费者(创新者),通常对电影很痴迷,并且具有较高的电影质量评判水准,在初期电影评论信息较为缺乏的情况下,可能更多是基于一种冲动和依赖于电影的其他信息(如剧情介绍、预告片、演员目录、制作成本、出品公司等)来判断电影质量,做出购买决策,而更少地依赖评论中对电影的评价。而在电影上映一段时间后,在电影评论信息较为充足和广告等前期宣传效应减退的情况下,更为理性的潜在消费者(跟随者)凭冲动做出购买决策的可能性降低,而会更多地参考创新者们的正负评价来做出购买决策,以降低电影质量不确定性带来的风险。因此,评论情感倾向对消费者购买决策的影响体现在电影生命周期的后期(第三周),且这一阶段评论情感倾向起到的劝说作用超过了评论数量起到的知晓作用。
具体对于各个感情等级的评论,在电影发布后第3周,5星级评论(极端好评)对票房存在显著正向影响(部分支持了假设H2a),而1星级评论(极端差评)对票房存在显著负向影响(部分支持了假设H2b),并且1星级评论对自然对数形式的票房收入的影响(-0.599)要略大于5星级评论的影响(0.482)(部分支持了假设H2c)。1%的1星级差评带来的收入的减少量要大于1%的5星级好评带来的收入的增加量。另外,对于情感倾向不鲜明的中间评论——2-4星级评论,无论是分别考察还是进行合并,这些情感倾向不鲜明的中评均对电影票房没有显著影响(部分支持了假设H2d)。
另外,影响票房的其他变量放映影院数、电影发布天数、周末效应在电影发布后四周内的各周,对票房均有显著的影响,影响的正负向与假设一致(支持了本文假设H3-H5)。综上,实证研究结果对假设的支持情况见表6。
结论与讨论
本文基于现有研究在建模过程中的问题,重新检验了商品在线评论情感倾向与销售绩效的影响关系。以电影行业为研究背景,采用面板数据,采用逐步合并初始情感倾向等级的方法对评论情感倾向进行合理划分,以建立更符合实际情况的动态模型,据此模型重新验证评论的“劝说”效用,并比较了各情感等级评论影响的差异性以及这种这些影响随时间变化的动态性。共有三个主要发现:
(1)评论数量在电影发布之后的影响效应随时间呈钟形变化,在开始放映周即产生较小影响,而在第二周迅速增大,之后逐周减弱。对商家来说,这条结论的意义在于:口碑传播知晓效应的影响不是恒定的,随时间而变化,在电影发布的最初阶段(主要是前2周),评论数量的影响较大,因此,在电影发布的前2周应借助于前期广告宣传之势,采取措施建立各种平台以促进用户之间各种形式的口碑交流,充分发挥口碑的知晓作用,推动初期销售利润的快速增长。
(2)对于电影这类体验型商品,评论情感倾向对票房收入存在显著影响,但不是在商品的整个生命周期,而只是在特定时段存在显著影响。本文研究结果表明,评论情感倾向并不是在电影发布后的前两周即产生影响,而是在第3周,且这种影响在第3周超过了评论数量的影响,而第3周对于电影整个生命周期也是非常关键的时段(样本统计结果表明,第3周的平均票房贡献率为15.7%)。这条结论给商家的启示是:尽管在电影发布后初期要注重为潜在消费者提供良好的口碑传播环境,但在后期(第3周),还应重点关注和跟踪购买者评论的正负情感倾向,以及时了解反馈,调整市场宣传营销策略或电影生命周期策略。
(3)对于不同情感倾向等级的评论,仅在电影发布后的第3周,5星级评论(极端好评)存在显著正向影响,1星级评论(极端差评)存在显著负向影响,且1星级评论对票房收入的影响力要略大于5星级评论的影响力;而2-4星级情感倾向不鲜明的中间评论在电影发布后任何一周均没有显著影响。结果一方面说明,极端的带有鲜明立场的评论对潜在消费者更具有影响力,而情感倾向不明显的评论的影响甚微。另一方面,根据我们前面样本电影各星级评论的比例,可以看到Yahoo!Movie网站上5星级评论占绝对多数(超过50%),而1星级评论所占比例不到10%,而本文研究结果表明,尽管好评数远远多于差评数,但差评的影响大于好评。这些结果带来的启示是:尽管一些电影发行商伪装成评论者试图粘贴更多好评信息以影响潜在消费者的购买决策,但其粘贴的多个好评的影响不及一个差评的影响,这种做法是徒劳的,也说明了网站上用户在线评论能够反映用户评价的真实情况;对于遵规守法的电影发行商而言,也要注意其他商业竞争者恶意差评带来的危害。每个评论不是同等重要的,商家应更为关注和跟踪评论中的极端评论,特别是极端差评,根据这些评论反馈做出市场宣传营销策略或电影生命周期策略的调整。
本文研究局限性主要有:仅对电影这类体验型商品的在线评论进行了研究,本文结论是否可以推广到其它商品(如图书、游戏等),还有待进一步检验;仅研究了在线口碑的一种形式,专门评论网站上的在线评论,而潜在消费者可能受到其他口碑形式,如博客、论坛等观点的影响,其他形式的在线口碑如何影响消费者决策,是否与在线评论具有同样的规律有待证实,这些将是本文未来的研究方向。
注释:
①具体步骤如下:首先,以评论网站各评论者对某电影给出的数字评价代表该评论情感倾向的得分,然后将评论得分转换为1星级评价(极端差评)至5星级评价(极端好评),用这些星级评论数所占总评论数的比例来代表对该电影不同的情感倾向等级,初步分析各星级评论的影响,如果对各周的分析结果不支持各星级评论的影响,则将临近的影响不显著的星级进行合并,如果各星级评论的影响均显著或没有相邻的影响不显著的等级可供合并,则停止合并。
②此模型仅为初始模型,其中五个星级比例相加之和为1,即其中一个星级可由其它星级推知,因此,五个星级不能同时纳入到模型中,在后面模型分析中会根据各星级显著情况最多同时引入四个星级评论比例的变量。另外,各星级最近累计评论比例的变量在经过初始情感倾向情感等级划分的分析和对各情感等级情感倾向进一步合并的过程之后可能会有所调整。