基于信息采纳视角的在线评论有用性排序研究
王建文
(福州大学经济与管理学院,福州 350108)
摘要: 随着在线旅游的快速发展,旅游景区的在线评论数量急剧增加,过短的、低质量的评论都会影响消费者对在线评论信息的判断。针对当前信息过载的问题,基于信息采纳理论,选取影响在线旅游预订网站在线评论有用性的5项关键指标并量化,最后利用熵值法设定指标权重构建在线评论的有用性排序模型。
关键词: 在线评论;信息采纳;评论有用性;熵值法
0 引言
截至2018年6月,在线旅行预订用户规模达到3.93亿,较2017年末增长1707万人,增长率为4.5%,其中,预订旅游度假产品的用户规模增速最快,半年度增长率为9.7%[1]。目前,旅游度假产品预订已经成为旅游发展的一个重要组成部分且发展潜力巨大。由于旅游度假产品具有综合性、无形性、生产与消费的同一性等特点[2],在线预订网站除了呈现旅游产品的相关信息,通常还提供评论、评分等功能,为潜在的游客提供参考。以往研究表明,相比于在线旅游预订网站呈现的信息,其他游客的在线评论对旅游消费者的购买决策影响更大。因此,旅游消费者在出发之前通常会事先浏览多个在线旅游预订网站用户的在线评论,了解旅游景区位置、路线、服务等相关信息,并决定是否购买相关旅游产品。
然而,随着在线旅游预订网站的快速发展,旅游景区的在线评论数量急剧增加,部分热门景区评论数量达到成千上万条。在当前信息过载的情况下,过短的、低质量的评论都会影响消费者对在线评论信息的判断。为了解决这一问题,在线旅游预订网站通常将在线评论“按时间”或“按有用性”进行排序,但是单一的排序结果往往夹杂着有用性低或时间很早的评论,无法满足用户的信息需求。因此,如何识别低质量评论、获取有价值、感知有用性较高的评论,对提升用户检索体验,改进景区管理者服务质量具有重要意义。
在线评论(Online Reviews)是网络平台中由消费者发布的针对产品或服务体验正面的或负面的评价,其内容主要由两部分组成,一是可量化的星级评分;二是文本陈述。在线评论有用性影响因素方面,已有的研究主要借鉴以往的理论视角,从在线评论的构成要素分析影响因素,并采用具体网站数据进行理论模型的实证分析,探讨各个构成要素对在线评论有用性正面或是负面的影响。例如:吴江等人以信息采纳理论和和负面偏差理论为基础,采集亚马逊中国网站不同品牌手机的评论数据,认为评论者有用性、评论信息量、评论极性会对评论有用性产生正面影响[3]。Yang Liu等人采用非线性回归模型,以IMDB影评数据集进行实证研究,探究评论者的专业程度、评论的可读性对评论有用性的影响[4]。郝媛媛等人从文本特征出发探索影响在线评论有用性的因素,认为在线影评中正向的情感、较长的评论长度对评论有用性具有正向影响[5]。
在线评论有用性排序方面,已有的研究主要从在线评论有用性的影响因素出发,选取相应的量化指标,实现在线评论的效用排序。在线评论有用性指标的选取主要有两种:一是在线旅游预订网站评论系统直接显示的评论文本内容、评分星级、评论时间、评论有用性投票票数、回复数、评论者等级等指标;二是评论文本内容基础上研究的评论可读性、评论情感极性等指标。例如:王倩倩将文本型评论与数值型评论的一致性进行量化,结合评论时间、评论长度、评论者身份披露等影响因素,专家打分求均值作为指标权重设定,实现在线商品评论信息可信度的排序[6]。毕建武等人通过多粒度情感强度分析算法确定每条评论针对商品属性的情感强度值,然后对情感强度值进行统计分析,得到备选商品针对商品属性的多粒度情感强度分布形式的属性值,最后采用随机逼近理想点排序法确定备选商品的排序[7]。
师:请不成功的小组来老师这里换一根你需要的小棒,完成长方体框架的搭建。想一想,怎么换?(换后快速完成搭建)
总体来说,目前国内外相关研究大多关注各个信息要素与在线评论有用性之间的关系。评论有用性排序研究相对较少,选取的关键指标通常涉及产品属性词提取以及属性情感提取,需要构建产品属性特征词词库,经由人工筛选判断,过程相对繁琐。基于此,本文通过文献调研,借鉴信息采纳理论的原理,结合在线预订网站的评论数据结构、内容,首先选取影响在线旅游预订网站在线评论有用性的5项关键指标,然后进行关键指标的量化,最后利用熵值法设定权重构建在线预订网站在线评论的有用性排序模型。
1 信息采纳理论模型及关键指标
1. 1 信息采纳理论模型
Sussman等人在精细化加工可能性模型(EML)的基础上提出了信息采纳模型(见图1),并应用于组织内在线交流的情境[8]。该模型认为信息接收者是否采纳某条信息,一是考虑信息的质量,二是考虑信息源的可信度。其中信息质量对应EML模型的中心路径,信息源可信度对应EML模型的边缘路径。
图1 信息采纳模型
通过对马蜂窝网站在线评论结构(如图2)的分析,可以发现一条完整的评论数据包括用户昵称、用户等级、评论星级、评论文本、评论发表的时间、评论投票数(点赞数),评论来源,评论回复。结合信息采纳模型的基本框架并参考以往文献[6,9-11],本文将评论质量作为信息质量,评论者可信度作为信息源可信度。其中评论质量可分为“评论长度、评论时间、评论星级、评论有用性投票票数”四个指标;评论者可信度可分为“评论者信等级”一个指标。
图2 马蜂窝在线评论
1. 2 影响在线评论有用性的关键指标
(1)评论长度
评论长度是指评论中含有字符的数量。更长的评论通常包括更多的产品细节以及产品在特定环境中的使用方式,能够消除产品的不确定性,增加消费者的决策信心[12]。现有的研究大都认为评论长度对评论有用性有正向影响。故此假设:评论长度越长,评论有用性越高。
(2)评论时间
为了计算各个指标所占的权重,本文采用熵值法。熵值法根据各项指标观测值所提供的信息的大小来确定指标权重,是一种客观赋权法。指标熵值越小,离散程度越大,该指标对综合评价的影响(即权重)也越大。具体步骤如下:
(3)评论星级
评论的星级评分是评论者在提交评论时,以星级形式给予商品或服务的一个总体评价,它是评论极性的一种表现[13]。关于评论的星级评分对评论有用性的影响,Mudambi和Schuff发现对于经验型产品,中间评分比极端评分更有用[12]。吴江的实证结果也显示评论评分与评论有用性呈现的倒U型曲线关系[14]。故此假设:评论星级越接近平均星级,评论有用性越高。
(4)有用性投票数
有用性投票是指在线评论有用与否的投票功能。有用性投票的票数既反映了之前的用户对该评论的认同,还影响了之后的用户对评论有用性的判断。以往研究结果表明评论者有用性投票及评论回复数这些指标对用户感知评论有用性具有正向影响[5]。故此假设:有用性投票票数越多,评论有用性越高。
(5)评论者等级
评论等级是评论者在其网站的累计经验级别。评论者等级越高,表明评论者在旅游产品方面的相关知识和体验越丰富,给出的评价通常更为客观、专业。以往的大部分关于评论者等级与在线评论有用性的研究结果较为一致,即评论者的经验等级对在线评论的可信度具有显著的正向影响。故此假设:评论者等级越高,评论有用性越高。
第二天,这八个猎人又悄悄藏在天池旁边,等姑娘们下了水以后,跑过去,一人拿了一套姑娘的衣服又藏起来。姑娘们洗完澡上来一看,完了,衣服没了,哪去了?就开始找,这时八个猎人就从树棵楞里出来了,对姑娘们说:“这世上,已经没有人了,就剩我们兄弟八个了,你们正好是八个姑娘,咱们结为夫妻吧,繁衍后代,别让人类灭绝。”
2 指标量化及指标权重设定
2. 1 关键指标的量化
(1)评论长度
(4)计算信息熵冗余度:
(2)评论时间
《封锁》中宗桢和翠远的爱情因封锁的展开而悄然开始,也因封锁的结束而突然结束。在上海打盹的期间,封锁的有爱情,更有失落的欲望和生活的束缚,不然最后封锁解除,宗桢回到家里不会只是“还记得电车上那一回事,可是翠远的脸已经有点模糊——那是天生使人忘记的脸。他不记得她说了些什么,可是他自己的话他记得很清楚……”《半生缘》结局的“反高潮”向我们展示了人性的自私与复杂,但人性背后,造成曼桢与世钧爱情悲剧及曼桢人生悲剧的又何尝只有人性的因素。在旧上海那个吃人不吐骨头的现实社会中,谁的命运不是一场悲剧,所以小说最后张爱玲用一句“我们回不去了”道尽这半世的荒凉,提示我们宿命面前一切都如此无力。
本文使用用户浏览网站日期与评论发表日期之间的天数差值进行评论时间的量化。规定距离现在时间差在10天以内记为1分,10-20天为0.9分,依次类推,大于90天均为0.1分。
(3)评论星级
本文评论星级量化以每条评论的星级评分和景区平均星级的距离来衡量,即两者之间的绝对值来度量。假设景区平均星级为4,那么某条评论数据星级为5的量化值为1。并且规定绝对值在0.1之内为1分,0.1-0.2为0.9分,以此类推。
(4)有用性投票数
在经济下行时期,高技术产业的创新驱动已成为我国经济转型的关键力量,是强力拉动国民经济增长、促进就业的重要引擎 (张钟文,叶银丹,2017)[1],这也客观上要求经济发展须从依赖劳动力驱动转变为依托人力资本驱动。作为创新产业链条上重要创新要素之一,管理层不仅是企业创新决策的制定者和执行者,更是将研发资本和专利成果加以商业化的组合变成具有竞争力产品的把关人。生产实践中,管理者自身能力的高低及其所处行业内外部治理机制很可能会对企业创新决策的制定意愿产生差异影响。
(5)计算各项指标的权值:
(5)评论者等级
评论者等级,即用户等级,是马蜂窝根据用户在网站的行为及经验设计的分级制度。用户可通过每日任务、发表游记、回答问题、发表点评等方式来获得经验值,达到一定经验值后,用户等级将会提升。目前,马蜂窝用户等级共分为1-45级,量化处理的数值对应为1-45。并且规定1-5级为0.1分,6-10级为0.2分,以此类推。
魏乐工程量,混凝土渠道防渗9 802 m,土方开挖11 689 m3,土方回填31 934 m3,混凝土2 181 m3,模板21 418 m3。
而这个冠军奖杯并不仅仅属于IG战队,更属于所有曾经倒在冲锋路上的LPL追梦人。这场比赛的胜利,意味着两代电竞人的寻梦之旅,终于划上了一个完美的句号。夺冠的这一天,所有的英雄联盟玩家都沸腾了。IG战队让所有人的梦想变得完整,让所有人的青春,变成了圆满,让电竞游戏成为了青春的代名词。
2. 2 评论指标权重设定
评论时间是指发布该条评论的日期时间。产品通常会随着时间更新迭代,景区作为体验性产品同样也会随着时间产生变化。随着时间的推移,产品评论的可信度会逐渐改变,即评论发布的时间越早,评论的价值越低。故此假设:评论时间越接近当前阅读日期,评论有用性越高。
(1)标准化处理。由于各个指标间存在不同的量纲和数量级,不能直接比较,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。计算公式如下:
其中,、sj为第 j个指标值的样本平均值和样本标准差。标准化后的数据会存在负值,为避免求熵值时对数的无意义,需要对xij平移,平移的幅度尽量接近标准化后数据的最小值。
其中
(3)计算第j项指标的熵值:
(2)计算第 j项指标下第个样本值占该指标的比重。
由于评论者写作风格的影响,某些评论字数虽然多,但是其中含有无关的信息以及多余的标点符号,例如“真的是红色的门额,,。。,,。。。”。因此,仅以字符数(包含字母、标点符号)度量评论长度存在一定的偏差。本文研究主要利用删除停用词并计算词语总数的方式进行量化,具体步骤处理如下:①分词。利用NLPIR分词工具对在线评论文本进行切分。②停用词删除。使用哈工大中文停用词表删除出现频率高但又没有实际意义的词以及标点符号。③计算词语总数。计算新的词串集合的词语总数。量化后并规定20个词语及以下为0.1分,21-30个词语为0.2分,依次类推,大于100个词语为1分。
-Re-1Δu + (u·)u +p - Sc curl B×B=f在Ω中,Sc Rm-1curl (curl B) - Sc curl (u×B)=g在Ω中,· u = 0在Ω中,·B=0 在Ω中。
马蜂窝网站在线评论的有用性投票含有具体的数值。由于有用性投票的实际数值大都为0,且存在极端值,故令有用性投票大于等于9个为1分,8个为0.9分,以此类推,0个为0.1分。
(6)加权求和方式计算各样本的综合得分:
3 应用研究
马蜂窝旅游网是中国领先的自由行服务平台,以“自由行”为核心,提供全球60,000个旅游目的地的交通、酒店、景点、餐饮、购物、用车、当地玩乐等信息和产品预订服务。马蜂窝作为自由行交易与服务平台旅游
3. 1 实验结果
得到原始数据后,按照上述步骤对各个指标进行量化并标准化处理,利用熵值法求出各个指标的权重(见表1),最后根据最终得分对在线评论进行降序显示。本文选取马蜂窝网站原有排序的前3条评论和本文有用性排序模型的前3条评论进行对比分析,分别如表2和表3所示。服务提供商的代表,拥有全球多个国家和地区热门景区的评论数据,具有很强的典型性。
教学反思是概率统计思维型课堂教学模式中不可少的一个环节。教师通过反思教学过程可以总结经验教训,为学生知识建构与思维发展寻找更快更好的途径;学生通过反思课堂学习的过程,可以更好地总结本节课所学到的知识方法,理清知识架构。思考过程中将新学的知识融入到旧的知识体系当中,回顾思维的过程,总结新的思维方法。
表1 关键指标权重
因此,本文以马蜂窝热门景区的评论数据作为研究对象,利用爬虫抓取了泰山风景区共计2151条评论数据。每一条评论数据包括:①评论文本;②评论有用性投票数;③评论时间;④评论星级;⑤评论者的等级。
3. 2 结果分析与讨论
从表2可以发现,马蜂窝的原始排序时效性权重不大,一些评论长度长、有用性投票数多的评论但时效性差的会排在前面。结合表3的排序结果对比分析可以得出,本文研究的评论有用性模型更注重评论的时效性,评论发表时间越接近当前日期,排序也会更靠前。而且对于评论长度、评论等级指标,采用模型排序靠前的在线评论与马蜂窝网站原有排序靠前的在线评论要更好或与之相当。
受地质沉积环境的影响,二2煤层厚度及顶底板岩性变化较为复杂。河南登封区域山西组二2煤沉积前期为滨海浅湖泊环境,陆源碎屑主要来自隆起地带,二2煤底板多为砂岩,部分为砂质泥岩,继而形成泥炭沼泽相,发育了二2煤。
4 结语
本文以马蜂窝泰山风景区评论数据为对象,借鉴以往研究视角,结合马蜂窝网站评论系统的结构和内容,选取评论长度、评论时间、评论星级、评论有用性投票数和评论者等级5个在线评论有用性的关键指标,并利用熵值法设定指标权重,构建了旅游在线评论有用性排序的模型。研究应用结果表明,与马蜂窝原有在线评论排序结果相比,模型排序靠前的在线评论所展现的评论时间、评论长度评论等级都要好于马蜂窝原有在线评论或者与之相当。本文排序模型能够识别出在线评论的有用性程度,使得旅游消费者无需浏览全部页面的评论,就能获取评论质量较高的信息,在减少用户的搜索成本时间的情况下,较好地满足用户的信息需求。但本文未将影响在线评论有用性的因素纳入考虑,例如:图片数量、评论回复数量等,可供未来进一步研究。
玉树不倒,青海长青。抗震救灾行动仍在继续。“以对党和人民高度负责的精神,全力做好水利抗震救灾和抗旱防汛各项工作”,“确保水利抗震救灾依法科学统一有力有序有效”。水利部部长陈雷掷地有声的话语已通过广大水利人的努力化为具体行动。大灾显大爱。让我们以生命的名义,集结在大爱旗帜下,坚决贯彻党中央、国务院领导指示精神,按照水利部的抗震救灾部署,抓紧做好水利设施震损情况的核查和评估,抓紧制定水利灾后重建规划,抓紧水利设施应急抢险修复工作,先期启动重点震损水利设施的重建,为建设玉树更加美好的新家园贡献力量!
㊱“Historia vero testis temporum,lux veritatis,vita memoriae,magistra vitae”(历史的确是时间的见证者,真理之光,记忆的生命,生活的女主人)from Cicero,De Oratore,II,9.
表2 马蜂窝原有在线评论排序
表3 采用熵值法设定权重的在线评论排序
参考文献:
[1]中国互联网络信息中心.第42次《中国互联网络发展状况统计报告》[EB].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201808/P020180820630889299840.pdf.
[2]曾欢.旅游者对在线评论的信息采纳意愿研究[D].暨南大学,2013.
[3]吴江,刘弯弯.什么样的评论更容易获得有用性投票——以亚马逊网站研究为例[J].数据分析与知识发现,2017,1(9):16-27.
[4]Liu Y,Huang X,An A,et al.Modeling and Predicting the Helpfulness of Online Reviews[C].2008 Eighth IEEE International Conference on Data Mining.IEEE,2009.
[5]郝媛媛,叶强,李一军.基于影评数据的在线评论有用性影响因素研究[J].管理科学学报,2010,13(8):78-88.
[6]王倩倩.一种在线商品评论信息可信度的排序方法[J].情报杂志,2015(3):181-185.
[7]毕建武,刘洋,樊治平.依据在线评论的商品排序方法[J].系统工程学报,2018,v.33,No.147(03):136-146.
[8]Sussman S W,Siegal W S.Informational Influence in Organizations:An Integrated Approach to Knowledge Adoption[J].Information Systems Research,2003,14(1):47-65.
[9]郭顺利,张向先,李中梅.面向用户信息需求的移动O2O在线评论有用性排序模型研究——以美团为例[J].图书情报工作,2015(23):85-93.
[10]黄卫来,潘晓波.在线商品评价信息有用性模型研究——纳入应用背景因素的信息采纳扩展模型[J].图书情报工作,2014(s1):141-151.
[11]殷国鹏,刘雯雯,祝珊.网络社区在线评论有用性影响模型研究——基于信息采纳与社会网络视角[J].图书情报工作,2012,56(16).
[12]Mudambi S M,Schuff D.What Makes a Helpful Online Review?a Study of Customer Reviews on Amazon.com[M].What Makes a Helpful Online Review?A Study of Customer Reviews on Amazon.com,2010.
[13]苗蕊,徐健.评分不一致性对在线评论有用性的影响——归因理论的视角[J].中国管理科学,2018,26(5).
[14]吴江,刘弯弯.基于信息采纳理论的在线商品评论有用性影响因素研究[J].信息资源管理学报,2017(1).
Research on Ranking of Usefulness of Online Reviews Based on Information Adoption Perspective
WANG Jian-wen
(School of Economics and Management,Fuzhou University,Fuzhou 350108)
Abstract: With the rapid development of Online Travel Agency,the number of online reviews in scenic area has increased dramatically.Short and low-quality reviews will influence consumers'judgment on online reviews.In view of the current problem of information overload,based on the Information Adoption theory,selects and quantifies five key indicators that affect the usefulness of online travel agency reviews.Finally,the weights are set by the entropy method to construct the useful ranking model of online reviews.
Keywords: Online Reviews;Information Adoption;Usefulness of Reviews;Entropy Method
文章编号: 1007-1423(2019)11-0067-05
DOI: 10.3969/j.issn.1007-1423.2019.11.013
作者简介:
王建文(1993-),男,福建泉州人,硕士,研究方向数据挖掘、文本分析
收稿日期: 2019-02-06 修稿日期:2019-04-01
标签:在线评论论文; 信息采纳论文; 评论有用性论文; 熵值法论文; 福州大学经济与管理学院论文;