百度指数与旅游景区游客量的关系及预测研究——以北京故宫为例,本文主要内容关键词为:为例论文,旅游景区论文,游客论文,指数论文,关系论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着我国的旅游事业的迅速发展,国内一些著名的旅游城市、景区景点的游客量日益攀升,特别是“五一”、“十一”长假,国内多个地区的旅游景点人满为患,客流量爆棚,远超出景区的承载能力。2012年,“十一”长假陕西华山旅游景区甚至因此爆发了轰动全国的伤人事件,引起了广泛关注。如何科学合理地对旅游景区的游客量进行预测,结合景区的承载能力,及时合理安排和采取应对措施,避免对景区的破坏和促进景区的可持续发展显得尤为紧迫和重要。
传统预测方法的数据来源于政府及相关统计部门的统计报告,但这些数据的收集和公布往往存在滞后性,并且数据量也难以达到模型预测要求,极大限制了预测的有效性。据此,无论研究者使用的预测方法与预测工具如何先进,也难以从存在着干扰和误差的数据中得到准确的预测结果。因此,寻找质量更高的数据资源对预测结果的改善具有更为重要的意义。搜索引擎的发展为经济学、管理学等学科的预测研究开辟了新的领域。基于网络搜索数据的流感预测、失业率监测、汽车及房地产等行业销售量预测都拥有较高的准确度,网络数据的即时性能够很好地弥补传统预测方法的滞后性,具有更强的时效性。因此,可以利用网络搜索数据对社会经济活动进行监测及预测,它能从大量搜索数据中获取新的关联信息,能从复杂数据背景中通过数据分析创建合成指数,找出解决问题的有效途径。互联网技术在我国的日益普及,使得旅游信息的传播不再受时空的限制。许多旅游经营者、旅游企业以及各地的旅游政府机构都通过互联网这一重要平台发布旅游信息,随之互联网平台也越来越成为广大旅游者出游的重要信息来源。百度和谷歌公司分别推出了百度指数和谷歌搜索解析功能,通过这些功能,可以获取到在相应时间段内,某关键词分别在百度和谷歌中的关注度趋势和搜索量。这些功能可以直接、客观地反映某特定时间段内的社会热点、用户的兴趣和需求所在。因此,依托网络搜索数据的时效性,挖掘出用户对旅游的网络关注度和实际旅游需求的关系,指导旅游管理部门做出科学、合理的决策和安排,促进旅游的可持续发展具有重要的现实意义。
二、国内外研究现状
随着网络信息技术的飞速发展,搜索引擎成为广大网民的重要网络信息平台,人们按照自己的需求和兴趣,利用其检索服务功能查询和获取信息。这期间,庞大的网络搜索数据被网络搜索工具记录下来。有研究表明,这些庞大的搜索数据与现实的社会行为之间存在一定的相关性。这一研究方法最早应用于流行病监测。金斯伯格等(Ginsberg,et al.)利用谷歌提供的搜索解析功能,发现部分与流感有关的关键词的网络关注度指数与同期的流感病人数存在较高的相关性,由此构建了基于谷歌搜索数据的监测模型,该模型能够比传统监测方法提前2周测算出流感的爆发趋势,证明了搜索数据对流感疫情具有一定的预测能力[1]。之后,这一方法迅速从传染病学向经济社会领域的各层面扩散,在零售产品销售预测[2]、股票市场预测[3,4]、失业率预测[5]、消费者信心指数预测[6]等领域取得了丰富的研究成果。
目前,关于游客量预测的传统研究方法主要有时间序列法、线性回归模型、指数平滑模型、灰色预测模型、人工神经网络模型等,这些方法主要是利用历史数据进行预测,具有较大的延迟性,很难达到较高的预测精度。随着基于网络技术对社会行为研究的深入,针对旅游行为的预测也加入研究的行列。基于网络搜索技术的旅游行为预测研究主要集中在网络关注度与旅游客流关系的研究上。路紫等分析了旅游相关网络搜索量与实际游客人数之间的相关性及网络信息流对旅游流的导引作用[7]。路紫等又以澳大利亚旅游网站为研究对象,证实了虚拟网络信息流对现实旅游流的作用[8]。李山等利用百度指数,对我国第一批5A级旅游景区的日关注度数据进行了统计和分析[9]。马丽君等分析了影响客流量及游客网络关注度时空变化的主要因素及其边际效应,构建了国内游客量与游客网络关注度的时空相关模型[10]。龙茂兴等研究发现,区域旅游百度用户关注度与实际旅游客流具有正相关性,并且前者的变化对后者的变化具有超前性[11]。戴维森等(Davidson,et al.)通过实证对比分析以台湾为旅游目的地的旅游网站的信息流与现实旅游流,发现网站信息流对游客旅游行为具有引导潜力[12]。
综上所述,国外文献利用网络搜索数据主要是对微观、中观和宏观的经济现象进行预测,而利用网络搜索技术对旅游方面进行专门预测的文献较少。国内已有文献主要根据某些旅游网站的信息分析旅游网络行为,或者只是对网络搜索数据进行分析,而把网络搜索数据和实际数据结合起来,分析两者的相关性并建立模型进行预测的文献还很少。因此,本文以北京故宫为例,利用百度搜索指数,运用计量经济学中的协整与格兰杰因果关系理论,找出网络搜索数据与故宫实际旅游人数间的关系,运用故宫实际旅游人数建立自回归移动平均模型(Autoregressive moving average model,ARMA)并进行预测,然后与加入百度搜索指数解释变量的模型进行预测效果的比较,期望能够利用网络搜索数据的时效性来填补传统预测方法的滞后性,以得到更好的预测效果。
三、实证分析
(一)百度关键词和数据的选取
百度(www.baidu.com)是全球最大的中文搜索引擎。百度公司基于其海量数据推出百度指数功能,提供自2006年至今不同关键词的网络日搜索量数据。百度指数是以百度网页搜索和百度新闻搜索为基础的免费海量数据分析服务,用以反映不同关键词在过去一段时间里的“用户关注度”和“媒体关注度”。通过百度指数可以发现、共享和挖掘互联网上最有价值的信息和资讯,直接、客观地反映社会热点、网民的兴趣和需求。百度指数的使用很简单,进入百度指数首页,在百度指数搜索栏中输入某个关键词,选择所搜索的时间范围和地区,点击“百度一下”,便可以得到在相应时间段和相应地区对该关键词的关注度趋势线。鼠标滑过趋势线,在趋势图中还可以显示鼠标所指期该地区对所键入关键词的日搜索数量。
网络搜索关键词的选取,可以说是进行网络搜索与经济行为相关性研究的核心环节。关于关键词的选取方法现有研究尚未取得一致的看法。目前,关键词的选取方法主要有三种:技术取词法、直接取词法和范围取词法。技术取词法利用高性能、大规模的计算设备将一切可能的关键词都纳入研究范围内,然后将相关统计模型编成程序运算选出核心关键词。直接取词法是运用主观经验确定关键词。范围取词法是先确定一个选词的范围,然后在范围内进行精选。技术选词法的精度虽然高,但是受研究条件的制约极大,需要大量的高速计算机,工作量较大。直接取词法与范围取词法大幅降低了工作量,但存在遗漏核心关键词的风险[13]。
旅游活动是大众性的行为活动,随着网络搜索技术的迅速发展,人们越来越多地通过网络来获取更多的关于旅游的信息。本文以北京故宫博物院为例,运用百度指数,通过关键词的选取来分析网络搜索数据与实际数据之间的关系,以及如何运用网络搜索数据进行预测以提高预测的时效性。根据游客出游前对旅游目的地(景区景点)旅游信息所关注内容的分析,选取出旅游目的地(景区景点)的名称、图片、旅游路线、门票价格等与旅游目的地(景区景点)相关的基准关键词。据此,本文选取“故宫”、“故宫博物院”、“北京故宫”、“故宫门票”、“故宫门票价格”、“故宫图片”等作为基准关键词,然后对这些基准关键词进行百度指数搜索,一方面找出其搜索量,另一方面找出与其相关的关键词。最后,根据这些基准关键词的相关关键词中重复较多的关键词以及搜索量的大小,确定的关键词为“故宫”、“北京故宫”、“故宫博物院”和“故宫门票”4个关键词。同时,本文又运用一些关键词挖掘工具如站长工具(http://www.7c.com/keyword/)、爱站网(http://www.aizhan.com/)等进行了检验,进一步验证以上4个关键词的搜索量排在其他相关关键词的前面。因此,本文通过这些关键词搜索量的变化揭示出网络搜索数据与故宫实际游客量之间的关系。
考虑到要进行计量经济学模型的建立、分析以及预测,模型的样本数据不能太少。本文能够得到北京故宫博物院2007年1月1日至2009年12月31日的实际旅游日接待人数,满足样本数据的要求,数据来源于2007年、2008年和2009年的《故宫博物院年鉴》。因此,与实际数据相呼应,本文分别收集了这4个关键词相应时间段的百度指数日搜索量。图1展示了2009年关键词“故宫门票”的日搜索量数据与故宫实际游客量的曲线图,可以看出“故宫门票”日搜索量的变化与实际游客量的走势基本一致。
(二)网络搜索数据与实际数据的关系
1.单位根和协整检验
由于本文的样本数据为时间序列数据,为了保证序列的平稳性和避免伪回归现象,在建立计量经济学模型之前要对序列进行单位根检验和协整检验。单位根检验采用ADF检验法[14],检验结果见表1。
图1 北京故宫2009年实际日游客量和百度关键词“故宫门票”的日搜索量
由表1可知,检验结果表明这几个变量的原序列均是平稳序列,为0阶单整,符合协整分析的前提条件。下面进行协整分析,检验故宫实际游客量与4个关键词之间是否存在长期均衡关系。
协整检验采用恩格尔和格兰杰(Engle & Granger)提出的两步协整关系检验法,第一步是建立回归方程,建立故宫实际旅游接待人数和4个关键词之间的回归方程。第二步对方程的残差进行单位根检验,若自变量和因变量之间存在协整关系,回归残差序列应具有稳定性。本文的协整检验属于多变量的协整检验,检验过程中需通过设置一个变量为因变量,其他变量为自变量,进行最小二乘(Ordinary Least Squre,OLS)估计并检验残差是否平稳。如果不平稳,则需要更换因变量,进行同样的OLS估计及相应的残差项检验。当所有的变量都作为因变量检验之后,仍不能得到平稳的残差项序列,则认为这些变量间不存在协整关系[14]。因此,本文经过尝试和比较,确定最终的协整方程如下(括号中的数值为变量的t值):
方程(1)中TP代表故宫实际游客量,BDGG代表百度关键词“故宫”,BDBJ代表百度关键词“北京故宫”,BDGP代表百度关键词“故宫门票”。方程(1)的残差序列的ADF值为-7.5725,1%临界值为-2.5671,5%临界值为-1.9411,10%临界值为-1.6165,残差ADF值均小于3个临界值,表明残差序列是平稳序列。因此,可以判断故宫实际游客量与“故宫”、“北京故宫”和“故宫门票”3个百度关键词之间存在协整关系即长期均衡关系。方程(1)中3个关键词前的回归系数均为正,表明3个关键词与故宫实际游客量存在正相关,也就是说,随着这几个百度关键词搜索量的增加会引起故宫实际游客量相应增加,只是增加的幅度不同而已,其中关键词“故宫门票”前的回归系数最大,为97.6784,其次关键词“北京故宫”为11.8062,最后关键词“故宫”为0.2058。长期来看,百度关键词的搜索指数每增加一个单位,故宫实际游客量会增加相应的单位。
2.格兰杰因果关系检验
自变量与因变量之间存在协整关系,因此,它们之间一定存在某种形式的格兰杰因果关系。格兰杰因果关系检验能够考察变量之间是否具有预测能力。检验过程中,由于格兰杰因果关系检验对滞后期的选取有较大的敏感性,本文根据赤池信息量准则(Akaike Information Criterion,AIC)和贝叶斯信息准则(Schwarz Criterion,SC)准则以及残差序列是否存在序列相关性来确定最优滞后期。“故宫门票”、“故宫”和“北京故宫”3个关键词与故宫实际旅游人数的格兰杰因果关系检验结果如表2所示。
由表2可知,关键词“故宫”与故宫实际游客量间存在单向的因果关系,即关键词“故宫”是故宫实际游客量的格兰杰原因的概率为90.06%,也就是说,关键词“故宫”搜索指数的变化会引起故宫实际游客量的变化。关键词“北京故宫”和故宫实际游客量间存在双向的因果关系,即关键词“北京故宫”是故宫实际游客量的格兰杰原因的概率为99.75%,故宫实际游客量是关键词“北京故宫”的格兰杰原因的概率为99.94%,故宫实际游客量和关键词“北京故宫”两者间相互影响。关键词“故宫门票”和故宫实际游客量间也存在双向因果关系,即关键词“故宫门票”是故宫实际游客量的格兰杰原因的概率几乎为100%,故宫实际游客量是关键词“故宫门票”的格兰杰原因的概率为99.46%,故宫实际游客量和关键词“故宫门票”两者间也是相互影响的。
(三)预测模型的建立与分析
为了考察网络搜索数据对故宫实际游客量的预测能力,本文首先根据故宫实际游客量时间序列数据建立ARMA模型并进行预测,然后在模型中加入百度关键词作为解释变量再进行预测,对这两种模型的预测结果进行比较分析。
1.ARMA模型的建立及预测分析
根据故宫实际游客量序列的自相关和偏自相关图,初选了几个不同的模型进行比较,根据模型的拟合优度、AIC和SC值以及模型预测的均方根误差,最终模型确定为ARMA(3,0,1)型,此模型具有较小的AIC和SC值,模型调整后的拟合优度较高,拟合效果较好,且具有较小的预测均方根误差[14]。为了比较模型的预测能力,此模型的样本期为2007年1月1日至2009年11月30日,2009年12月份的样本作为预测能力的检验数据。具体模型的估计结果如下(括号中的数值为变量的t值):
方程(2)调整后的拟合优度为0.8652,AIC的值为20.5564,SC的值为20.5798。AR模型根的倒数0.97、0.54+.32i和0.54-.32i均在单位圆内,表明模型是稳定的。利用方程(2)对样本期内预测的均方根误差(root mean squared error)为7006.318。然后利用方程(2)对样本外的2009年12月份的故宫旅游人数进行预测,实际人数和预测人数的对比图见图2,图中TP为实际旅游人数,TPF为预测人数。此时预测的均方根误差为3688.042。
图2 2009年12月份故宫实际旅游人数和预测人数的对比图
2.自回归分布滞后模型的建立及预测分析
由于故宫实际游客量与“故宫”、“北京故宫”和“故宫门票”3个关键词之间具有长期均衡关系且存在格兰杰因果关系,因此,在方程(2)的基础上加入这3个关键词作为解释变量进行回归,考虑到百度搜索指数对实际游客量的滞后影响,模型中考虑了这3个变量不同的滞后期,由于模型中既有自变量的当期及不同滞后期,又有因变量的不同滞后期,此模型被称为自回归分布滞后模型[14]。方程(2)建立的ARMA模型可以说是自回归分布滞后模型的一种特例。本文经过对自变量和因变量不同滞后期的反复筛选和测试,最终的回归结果如下(括号中的数值为变量的t值):
方程(3)调整后的拟合优度为0.8759,AIC的值为20.3126,SC的值为20.3407。残差的序列相关性拉格朗日乘数(Lagrange multiplier,LM)检验值为0.0094,相伴概率为0.9227,明显小于5%显著性水平的临界值3.84,表明模型不存在序列相关性。同方程(2)进行比较可知,加入百度关键词之后模型的拟合优度提高了,AIC和SC的值变小了,增强了对故宫实际游客量的解释能力。
同时,从方程(3)各变量前的回归系数可知,各关键词搜索指数的当期和各滞后期以及故宫实际旅游人数的滞后期对故宫当期实际游客量的影响均为正,只是影响的幅度不同而已。其中,关键词“故宫门票”影响最大,其次是关键词“北京故宫”的滞后2期,然后是故宫实际游客量的滞后1期和2期,最后是关键词“故宫”的滞后1期。根据本模型,如果知道了北京故宫前1~2天的实际游客量、关键词“故宫门票”的当天搜索指数、关键词“北京故宫”的前2天的搜索指数以及关键词“故宫”的前1天的搜索指数,就可以预测出故宫当天的实际游客量。因此,此模型为北京故宫景区管理部门在旅游黄金周期间提前做好相应的应对措施提供了科学的理论依据,不仅有利于景区的科学安排和景区资源的合理利用,而且能够保证游客的安全,避免景区游客的井喷现象和一些不安全事故的发生。
利用方程(3)对样本期内的故宫旅游人数进行预测后的均方根误差为6136.736。同方程(2)的预测均方根误差7006.318相比,预测精度提高了12.4%。为了进一步检测方程(3)的预测能力,利用方程(3)对样本期外的2009年12月份的故宫旅游人数进行预测,实际人数和预测人数的对比图见图3。图3中TP为实际旅游人数,TPF为预测人数。预测后的均方根误差为3152.541,比没有加入关键词模型的均方根误差3688.042要小,提高了14.5%的预测精度。从图3中可以看出,预测值与真实值非常接近,模型具有良好的预测能力。
图3 2009年12月份故宫实际旅游人数和预测人数的对比图
本文以北京故宫为例,基于2007年1月1日至2009年12月31日的故宫实际游客量以及“北京故宫”、“故宫”、“故宫门票”、“故宫博物院”等百度关键词搜索数据,利用计量经济学中的协整理论和格兰杰因果关系理论,分析了故宫实际游客量与百度关键词间的关系,对没有百度关键词的ARMA模型和加入百度关键词后的自回归分布滞后模型的预测精度进行了比较,得出以下主要结论:
第一,故宫实际游客量与百度关键词“北京故宫”、“故宫”、“故宫门票”间存在着长期均衡关系,并且是正相关,也就是说,随着各个百度关键词搜索指数的增加,故宫实际游客量也会相应的增加。
第二,故宫实际游客量与百度关键词“故宫”存在单项的格兰杰因果关系,即关键词“故宫”是故宫实际游客量的格兰杰原因。而关键词“北京故宫”和关键词“故宫门票”与故宫实际游客量间存在双向格兰杰因果关系,即它们之间是相互影响的。
第三,加入百度关键词后的自回归分布滞后模型比没有百度关键词的ARMA模型样本期内的预测精度提高了12.4%,样本期外的预测精度提高了14.5%,表明网络搜索数据大大提高了传统预测模型的预测效果。
第四,根据加入百度关键词后自回归分布滞后模型,可以实现利用当天及滞后1~2天的百度指数数据预测故宫当天的游客量。而利用传统预测方法几乎无法实现这种预测效果,不仅增强了预测的时效性,还可以更加及时、准确地为故宫景区管理部门提供决策的依据。
在当前大数据时代的背景下,基于网络搜索数据的旅游景区游客量的预测是一种新的探索和尝试。网络搜索数据不仅为旅游预测研究提供了新的数据来源,同时可以利用网络搜索数据建立游客量预测模型,对景区游客量进行实时预测预警,丰富了旅游预测的研究方法和内容。
本文通过对北京故宫博物院的实证分析发现,网络搜索数据与景区实际游客量之间具有正相关性,这是利用网络搜索数据对实际游客量进行预测的基础。在理论上,旅游吸引物的根本属性和功能是吸引游客、激发人们的旅游动机;而人们出游前对景区进行的网络搜索,反映了人们的旅游需求、对景区的偏好程度和旅游动机。如果人们对某个景区的搜索量大,一方面说明关注这个景区的潜在游客较多,另一方面说明这些潜在游客到这个景区旅游的可能性较大。所以,网络搜索数据和实际游客量之间应该存在正相关关系。但这仅是理论上的简单推测,并未进行严格的论证。因此,在利用网络搜索数据对实际游客量进行预测时应该首先验证两者之间是否存在相关性,如果两者之间不存在相关性,就不能利用网络搜索数据对实际游客量进行预测。
在实际应用中,网络搜索关键词的选取是一个关键环节,要根据研究对象的不同选择基准关键词,关键词要尽量准确、全面,然后尽可能运用一些技术方法补充、筛选和确定,这些方法要具有科学性和可操作性,尽量剔除主观因素的影响。
对一些著名旅游景区的游客量进行预测时,尤其是对黄金周游客量的预测,样本数据应越多越好,并且最好利用每天的数据,这样的预测结果可以精确到天,才能真正起到预测和预警的作用,为旅游景区管理部门提供可靠的决策依据。当然,为了与日度数据进行比较或特殊需要,也可以利用周度或者月度甚至年度数据建立模型进行预测,但要根据预测时期的长短选择恰当的模型。当前,还很少有景区或权威部门公开发布旅游景区的连续长期的实际游客量数据,制约了运用网络搜索数据对景区实际游客量进行预测的广泛应用,也阻碍了相关理论研究的进展。
以往人们使用的数据主要是抽样数据、调查数据或者统计数据,这些数据通常以表格的形式存储在数据库中,称之为结构数据,人们根据这些数据建立各种模型进行相关分析。随着互联网多媒体应用的出现,使诸如图片、声音、文本和视频等非结构化数据越来越多,这些非结构数据真实的展示了网民的个人想法,直接反映他们的性格、偏好、意愿,更加清晰地展示了结构数据无法揭示的细节信息。因此,不同的主体可以在海量数据中根据自己的需要去收集、分析、跟踪、对比网民们在互联网上留下的各种“足迹”、评论、图片、视频等,以全面分析他们的真实需求和潜在需求,为未来的决策提供依据。对于旅游来说,根据传统的结构数据对游客旅游需求的了解是片面的,据此进行相关分析后所提出的结论或建议参考意义不大。而在大数据时代,从互联网上获得的各种非结构化数据,数据量是巨大、及时、全面的,据此所建立的模型的准确性也会相应提高,还能够获得一些在结构化数据中显示不出来的有价值的信息。本文建立的基于百度指数的故宫网络搜索数据和实际游客量间关系的模型可以说是一种尝试和应用,为以后相关的研究提供了一种思路和借鉴。
如何在大数据时代利用各种数据挖掘方法对旅游相关的海量数据进行有效的收集、分析和使用,深度挖掘数据背后的潜在价值,了解网民真实和潜在的旅游需求,是各级旅游管理部门、旅游企业和旅游研究机构需要认真思考和解决的问题,同时,这些问题的研究对于旅游研究的思路、内容和方法等将会产生重要而深远的影响。