基于JD.com网络的在线评论量--手机数据持久化研究_自相关论文

网上评论量的持续性研究——基于京东网的手机数据,本文主要内容关键词为:持续性论文,京东论文,数据论文,网上论文,手机论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      人类的行为驱动着潮升汐落、风起云涌的社会、经济发展,构建了五色斑斓、趣味丛生的人间百态。追根溯源,对人类行为模式规律的探索古已有之。举例来说,现代心理学和经济学热衷于群体压力和从众行为的研究,早在北宋蔡松年的诗中就有“槽床过竹春泉句,他日人云吾亦云”这样的语句,从中也可觅得些许踪影;而近年传播学关于面对谣言和恐慌情绪时人类非理性行为的报道,亦可视作三人成虎、曾子杀人这些典故的科学注脚。对人类行为进行科学而系统的研究,或始于华生的行为主义流派——如此算来,也不过百年历史。尽管这一百年里,对人类行为的理解和诠释一直是社会学、心理学和经济学共同关注的焦点,但人类自身的复杂性和多样性,对一切科学的尝试来说是巨大的挑战。事实上,到目前为止,绝大多数研究报道是基于临床个体资料或者实验室数据,绝大多数命题和结论是定性描述。因此,至少有两个问题是亟待解决的:这些实验室结论是否能很好地描述我们在真实生活中表现出来的行为特性?能不能建立定量化的人类行为理论?

      Barabasi在2005年发表于《自然》的一篇论文为解决这两个问题提供了一个可能的起点:从记录人类活动历史的数据库中挖掘出人类行为的统计规律。①这一突破首先体现在对于人类行为产生的时间统计特性上。

      事实上,在早期对人类行为的研究中,一个基本的假设是人类的行为发出从总体上看是随机和稳态的。据此,人类行为可以用泊松过程来描述,人类发出相续行为的时间间隔是较为均匀的,短时间内大量事件的爆发和长时间的停止发生都应该是很难被观测到的。Barabasi等人的实证研究和理论分析却暗示大量由人类活动驱动的系统具有明显偏离泊松统计的性质:我们常常在短时间内密集从事某事,而后又在很长的时间里将其弃之脑后,这就使得这些事的执行不是泊松过程,更可能是幂律分布。

      京东网上商城于2004年初正式涉足电子商务领域,以在线销售家电、数码通信、电脑为主。京东商城自运营以来,一直保持着高速成长,如今已拥有遍及全国超过1亿注册用户,近万家供应商,网站交易额连续七年增长率均超过200%,因而我们抓取了京东商城的手机在线评论数据来作为研究对象,我们首先计算了相邻两个评论之间的间隔时间分布以及不同产品之间每日评论量的分布。结果显示评论间隔分布并不服从指数分布,而每天的评论量也不服从泊松分布。

      这样的结果说明了在线商品评论量也许不是独立的,而是一定程度上相关的。Wendy W.Moe、Michael Trusov的相关研究表明,顾客的网上购买行为同时反映了顾客对于产品使用的感受以及其他顾客的评论对他的影响②。当我们在网上购物时,我们首先会阅读其他顾客对于产品的评论和描述。然后我们会综合考虑所有我们能够收集到的信息,之后再决定我们是否应该购买这个产品。如果我们购买了这个产品并且在使用一段时间之后,我们可以得出自己对于产品的心得体会和感受,然后上传至网上,这会对其他顾客的购买决策产生影响。

      2.因变量的设定

      

      我们在这里使用自相关函数有以下两个目的:一是判断该时间序列是否随机或看测量数据自相关的程度;二是如果判定该时间序列不是随机的,则用来确定一个适合该时间序列的模型。

      自相关作图是常用的检验数据随机性的工具,如果一个时间序列是随机的,它会很快地降低到显著性水平之下;如果该时间序列不是随机的,则会缓慢地下降到显著性水平之下。在此,我们简单地介绍一下自相关函数的性质。

      

      图1(a)至图1(c)是三个典型的自相关图形,分别是随机时间序列、中度相关的时间序列以及高度相关的时间序列。

      自相关函数不但在金融和经济领域得到了广泛的应用,在气候预测上也得以实践。David M.Meko③认为自相关也可以被诠释为持续性的一种形式,抑或一个系统保持现有状态的一种趋势性。Ding、Granger和Engle发现S&P 500收益的自相关函数下降的非常缓慢④,这一现象被大多数人认为是波动的持续性。John Taylor使用自相关函数系数的总和来表示美国通胀率的持续性,调查了货币政策对于通胀率持续性的影响⑤。他发现通货膨胀对于其自身的持续性有显著的相关性,这也说明了低通胀本身是引发通胀低增长的原因。

      由于大部分产品的每日评论量是高度自相关的而其他的则有一些是近似于随机的数据,所以我们研究的问题如下:为什么有些产品的每日评论量之间具有高度相关性或持续性而其他的没有?是什么因素决定了相关性的强弱和持续性的程度?

      因此,基于John B.Taylor的研究,我们把显著性水平高于0.1的自相关系数相加,从而得到了一个用以测度产品每日评论量之间的相关度和持续性的变量,我们将这个变量命名为acfcoesum。

      3.模型假设

      因变量设定之后,我们提出如图2所示的概念模型,包含以下三个假设:

      

      从每日评论量的图中我们可以发现,在一开始每天的评论量数值都是相对较小的,根据相关函数的定义,我们可以知道,一个产品的总评论量越高,说明该产品的每日评论量之间的持续性较强的可能性较高。所以我们有假设一:

      H1:评论总量对于每日评论量的持续性有一个正相关作用。

      毫无疑问,打折对于顾客的购买倾向会有很大的影响。当价格下降的时候,需求会保持一段时间的上涨,直至到达另一个均衡点。随着需求的上涨,每日的评论量也会在将来的一段时间保持一个上涨的态势。在一段时间内,某一天一个突然的评论量上升会导致在将来的一段时间内保有一个较高的评论量,这也能使得该产品每日评论量的持续性得以上升。

      然而,哪一种形式的价格下降能够更多地提高产品每日评论量之间的持续性呢?是价格的绝对下降量还是折扣百分比呢?我们可以举一个很简单的例子,有两个产品,一个600元,另一个5000元,如果商家提供一个300元的折扣,对于前者来说,这是一个50%的折扣率,而对于后者来说只是6%的折扣率。对于大多数消费者来说,50%的折扣率能对消费者心理造成更大的冲击。因而,我们又假设:

      H2:价格的降价百分比比价格绝对量的下降更能提高产品每日评论量的持续性。

      我们又推测产品的品牌效应会对价格折扣对产品的每日评论量的持续性产生一个调节作用。我们将苹果和三星作为市场领导者,其他的产品作为市场跟随者。因为品牌领导者具有较高的市场份额以及极佳的全球信誉,不需要通过降价这个方式来刺激销售量的上涨和评论量的持续性。

      H3:产品的品牌效应会对价格折扣对产品的每日评论量的持续性产生一个调节作用。对于品牌领导者来说,价格折扣对产品的每日评论量产生的持续性要弱于品牌跟随者。

      4.数据统计及结果分析

      在抓取京东网上商城手机评论数据之后,我们首先计算了每一种产品的每日评论量。然后,我们画出了每一个产品的自相关的图形。我们发现了上文所述的三个典型图形,随机数据、中度自相关和高度自相关这三种图形都被包含在京东数据中了。这也说明了有一些产品是高度自相关的而其他的产品则有近似于随机的。

      图3(a)至图3(c)是所有579种手机产品的自相关图形,在每一张图片中,上半张图片是按照时间排列的每日评论量,左下图是该产品的自相关函数图,右下图则是产品的累积评论量。

      

      我们的手机数据是在JD.com上面抓取的,这个数据包含产品的ID、产品的名字、用户的名字、产品的购买日期、打分(1~5)、评论的日期和评论的语句。总数大约12万条,包含大致1500个产品,文件总容量600兆左右。

      我们在西贴网(Xitie.net)上抓取了产品的价格历史数据,该数据包含产品的ID、每一个历史上的价格数据变动以及价格变动的日期。基于抓取的最高价和最低价,我们可以计算价格的绝对变化量和相对的百分比变化率。因为我们只在西贴网上抓取了579种产品的数据,所以就以此579种产品作为基础作为研究对象。其中诺基亚(1000 GSM)的评论量最多,有38070条评论,而华为(Y320-T00)只有13条评论。

      我们又做了如下形式的变化,得到了以下3个变量:

      PriceChange(discount %)=(HighestPrice-Lowest-Price)/HighestPrice

      PriceChange(absolute decrease)=HighestPrice-LowestPrice

      ReviewNumMean=TotalReviewNum/Time to market

      各变量的统计数据如表1所示:

      

      图4至图13是上述各变量的分布图形,具体如下:

      

      

      

      

      

      

      

      

      

      

      首先,我们把最高价、价格的折扣百分比、价格的绝对下降量、商品的上架时间、总评论量和每日平均评论量作为自变量,acfcoesum作为因变量,建立如下的方程式:

      

      我们使用R软件来计算该方程,结果如表2所示:

      

      从表2我们可以发现,最高价、价格的绝对下降量、商品的上架时间和每日平均评论量这几个变量不显著,而只有总评论量(P<2e-16)和价格的折扣百分比(P=7.54e-06)是显著的。因而根据这个结果,假设H1和假设H2得以成立。

      然后,我们剔除不显著的那些变量,只保留总评论量和价格的折扣百分比这两个变量,再在模型中加入品牌因素作为调节变量,并将品牌因素和价格的折扣百分比相乘,做出了一个新的交叉项,来检测品牌效应的调节作用。我们建立了模型2,如下所示:

      

      把苹果和三星的产品定为1,而把其他产品定为0,计算结果如表3所示:

      

      从中可以发现,虽然品牌因素(P=0.313411)是不明显的,但是交叉项(P=0.015348)是显著的。因为交叉项是显著的,这也就意味着对于品牌领导者来说,价格的折扣百分比对于每日评论量的持续性要弱于品牌跟随者,所以假设H3也是成立的。总结如表4所示:

      

      这个结果从另一方面告诉我们,品牌领导者不需要通过打价格战来获得销量的增长和人们对于其旗下品牌的关注。因为品牌领导者已经赢得了顾客的偏好并且建立了品牌知名度,获得了全球声誉。

      这也说明了品牌领导者比价格因素更有影响力度,而且根据品牌营销的理论,品牌领导者如果想提高销售量或者获取人们的关注,其不需要通过降价这个方式,因为如果其在短时间内降价太多,反而会损害其品牌价值并且减少其客户群体。品牌领导者可以采用拓宽产品生产线和适当地对推出的新产品提价这两个方法,前者是三星已经使用了的,后者则是苹果正在尝试的。

      ①Albert-La'szlo' Barabasi.The origin of bursts and heavy tails in human dynamics[J].Letters to Nature,2005,5:207-211.

      ②Wendy W.Moe,and Michael Trusov.Measuring the value of social dynamics in online product ratings forums[J].Journal of Marketing Research,2011,48(3):444-456.

      ③David M.Meko.Assessing the risk of persistent drought using climate model simulations and paleoclimate data[J].Journal of Climates,2014,3:292-297.

      ④Ding,Z.,C.W.J.Granger,and Engle,R.F..A long memory property of stock market returns and a new model[J].Journal of Empirical Finance,1993,1:83-106.

      ⑤Taylor,John.Low inflation,pass-through,and the pricing power of firms[J].European Economic Review,2000,44:1389-1408.

标签:;  ;  ;  ;  ;  

基于JD.com网络的在线评论量--手机数据持久化研究_自相关论文
下载Doc文档

猜你喜欢