基于网络搜索数据的国内旅游客流量预测研究——以北京市国内旅游客流量为例,本文主要内容关键词为:客流量论文,北京市论文,为例论文,国内旅游论文,国内论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
近年来,我国的旅游产业规模不断扩大,旅游地的客流量也在逐年提升,相对于工业、农业等行业来说,旅游产业具有较为明显的周期性,季节的变化直接影响旅游地的旅游客流量多少。 北京作为我国政治、经济、文化、交通和国际交流中心,是我国的“四大古都”之一。悠久的历史和古老的文化为它留下了许多宝贵的文化遗产以及丰富的旅游资源。纵观从2008年至2012年北京市的国内游客接待量数据(如图1所示),北京市的国内游客数量在逐年递增,如何及时对旅游客流量进行准确的预测,不仅可以作为北京市旅游管理部门对其旅游业实施宏观调控的重要参考依据,而且对北京区域旅游规划和经营决策也具有重要的理论和实践意义。 目前有关旅游客流量预测的研究主要是分为传统的时间序列模型和人工智能预测方法,传统的时间序列对影响旅游客流量的其他外部复杂因素变化的敏感性较差,时间力度较大,因而预测效果差。虽然,人工智能方法在预测精度上有一定的提高,但是方法的复杂性使其难以得到广泛的应用。 图1 2008-2012年北京市国内旅游客流量数据图 随着我国网络信息技术的迅速发展,以及互联网的快速普及,网络已成为网民获得更快捷、更全面信息的最佳途径,一方面是搜索引擎已成为网民获取信息和知识最常用的工具之一。据中国互联网络信息中心(CNNIC)的数据显示,截至2012年12月底,我国网民规模达5.64亿,全年共计新增网民5090万人。互联网普及率为42.1%,高于国际平均水平,且其中截至2012年底,我国搜索引擎用户规模为4.51亿,较2011年底增长了4370万人,年增长率10.7%,在网民中的渗透率为80.0%。搜索引擎作为互联网的基础应用,是网民获取信息的重要工具,其使用率自2010年后保持在80%左右水平,稳居互联网第二应用之位(CNNIC,2012)①;另一方面,搜索引擎会将用户的搜索信息记录下来。如游客搜索与旅游相关的衣、食、行、玩、购等信息,搜索引擎将这些信息记录下来,为研究提供数据来源,使得基于网络搜索数据的北京市旅游客流量预测研究具有一定的可行性和合理性。 基于上述分析结果,本文采用基于网络搜索数据的方法对北京市旅游客流量进行预测研究,文章结构如下:第一部分是文献综述,本节介绍了有关传统旅游客流量预测方法,以及基于网络搜索数据相关性研究的相关文献;第二部分为理论框架,本节从游客的旅游行为角度建立理论框架;第三部分是实证分析,选取相关关键词合成搜索指数,建立回归模型,并对北京市月旅游客流量与搜索指数之间进行协整分析和Granger因果检验;最后对得出的结论进行总结,并对未来的研究方向进行展望。 一、文献综述 (一)有关旅游客流量预测的相关研究 关于国内旅游客流量的预测,从以往的相关研究来看,学者从定性和定量两个方面进行了相关研究。在定性方面,如陶伟,倪明(2010)基于对中西方研究差距与差异的对比分析,讨论了旅游需求预测的难点和全球及中国旅游需求预测的各种问题,明确提出了中国旅游需求影响因素的分类方法及旅游需求预测研究的未来指向;邹家红、袁开国等(2008)分析了世界金融危机带给中国入境旅游业的总体影响。定量方面的研究则可以分为两个层面,一是单方法预测法(包括多元回归分析法、时间序列预测法、神经网络分析法),如王道林(2004)通过建立灰色预测模型GM(1,1)对旅游人数进行了预测,该方法能够反映复杂数据的非线性和旅游人数数据自身的规律性,但对历史数据过于依赖,历史数据越多,预测结果越可靠;那欣兰等(2010)基于最小二乘支持向量机算法,建立了旅游人数预测模型,对甘肃省年国际旅游客流量进行预测;樊国敬(2010)使用自1996-2006年的江西省接待国际旅游人数总数据,采用马尔科夫理论和方法来预测2007年江西省接待国际旅游的总人数(预测误差为7.54%)。二是组合预测方法,如雷可为、陈瑛(2007)基于BP神经网络和ARIMA组合模型预测了入境旅游年度人数,认为组合模型相对于单一的预测模型有较高的预测精度;吴良平、张健、陆媛(2011)采用基于IOWHA算子的组合预测方法,并且单项预测模型选择了TRAMO/SEATS短记忆预测模型、ARFIMA长记忆预测模型以及适合中国入境旅游人数月度数据序列预测的传统线性回归预测模型;周廷慰、周宗福(2012)通过建立马尔科夫模型和灰色模型相结合的组合预测模型对安徽省入境人数进行了预测,该模型克服了灰色模型与马尔可夫模型各自的缺点,不仅反映了数据序列的发展趋势,而且还通过状态转移概率矩阵的变换,提取出数据中的随机响应。 无论是传统的定性预测方法,还是定量预测都只能依赖于历史数据,但历史数据具有很强的延迟性,而且其预测的粒度较大,一般为旅游人数的年度数据。另外,与传统的预测方法相比,人工智能建模方法虽然预测精度较高,但也存在算法复杂性高,应用广泛性和对原始数据的变化趋势依赖性较强等缺陷和不足。 (二)基于网络搜索数据的经济类、社会类行为相关性研究 目前基于网络搜索数据的经济社会类行为预测已成为一个学术热点,并在国内外取得了一定的研究成果,但是此类文献大多数在2008年之后才出现。国外有关网络搜索数据的研究方面已经涉及了经济、社会以及健康领域之中。在经济领域中,搜索数据可用于消费以及失业率的预测。Konstantin A.Kholodilin、Maximilian Podstawski和Boriss Siliverstovs等(2010)使用谷歌搜索数据对美国的私人消费率进行预测,在文章中他们比较了利用情绪指数(包括密歇根大学消费者情绪指数,消费者信心指数等)、金融变量(包括长期利率,短期利率,标普500指数等)、谷歌搜索指数等各个模型的预测准确度,发现使用基于谷歌搜索Query数据的预测模型准确度要远远高于其他模型。在社会和健康领域中,搜索数据可用于公众注意力以及流感等疾病的预测。Joseph T.Ripberger等(2010)使用网络Query搜索数据对公众的注意力进行衡量,取得了良好效果;Ginsberg等(2009)发现Google中与流感相关的部分关键词搜索量与美国疾病控制和防治中心发布的流感看诊量数据有很强的相关性,由此构建了基于Google搜索数据的监测模型,该模型能比传统监测方法提前2周测算出流感的爆发趋势。 在国内,有关网络搜索数据的研究也有了一定的突破,主要在CPI、股票市场以及汽车预测方面有了较大的突破。张崇、吕本富、彭赓(2012)从商品市场的角度建立概念框架为出发点,以均衡价格理论为理论基础,揭示了网络搜索数据与居民消费价格指数(CPI)之间存在一定的相关关系和先行滞后关系,并取得了良好的预测效果;刘颖、吕本富、彭赓(2011)从微观的投资者行为视角建立理论框架,揭示了网络搜索与股票市场之间存在一定的相关关系和先行滞后关系,在时差相关分析的基础上,运用经济含义将搜索数据合成为股民行动指数、市场行情指数和宏观形势指数三类搜索指数,并实证检验搜索指数对股票市场具有显著的预测能力;袁庆玉、彭赓等(2011)从网络关键词搜索数据与汽车销量的角度建立了理论基础框架,采用了综合赋权法对关键词进行提取,并对不同价格区间的汽车销量进行了预测,与传统模型相比则取得了很好的效果。可见,搜索数据可以作为传统数据的良好补充,对某些典型的社会、经济类行为存在一定的预测能力。 虽然较传统领域研究来说,该领域研究取得了一定程度上的突破,但是该领域研究还处在摸索发展的初级阶段,未形成一套完整的理论体系,所以在理论上仍存在有待改进与完善的方面,在基于网络搜索数据与研究对象之间的内在机理尚未进行深入的研究。另外,在合成综合指数方法方面,目前研究的学者就如何选取和合成关键词的标准并未达成统一共识。 二、理论框架 本节从网络搜索数据和旅游客流量关系的角度建立理论框架,并以此分析网络搜索数据与旅游客流量之间的相关关系。 基于游客的旅游行为过程,我们从以下两个方面做理论框架的准备。一方面,搜索引擎成为游客出游前及旅途中获取相关信息的最佳途径,旅游者的目的在于查找相关信息以方便其旅游过程。互联网是游客获取旅游相关必备的衣、食、住、行、游、购等信息的最佳途径,例如,游客在去北京旅游前,一般都需要提前预订往返交通车票、酒店,还会查看天气情况、北京的交通情况、交通路线、最佳的游玩攻略等信息,甚至还会查看北京的特产等。而搜索引擎又是游客从互联网上获取信息的最常用的信息检索工具。因此,游客往往会先搜索旅游相关信息,然后出游。这就形成了搜索数据与游客数量变化之间的一种相关关系,正是这种关系决定了本文后面讨论的预测方法在逻辑上具有较强的预测功能。另一方面,游客结束旅游后,多数游客会在论坛、博客、空间等网络表现方式上展示其旅游信息,这就又成为搜索引擎检索的信息源,为后续游客出游提供信息参考。 从游客的角度来讲,产生旅游需求、旅游前准备(物品准备和信息搜索)、旅游参观、发布信息成为一个完整信息链。 基于上述分析,本文建立了如图2所示的网络搜索数据与游客出行关系理论框架模型。 图2 网络搜索数据与游客旅游理论框架图 虽然每个网民的基本情况不完全相同,但从统计意义上而言,网络搜索数据确实存在某种规律。图3分别展示了从2008年7至2013年4月“故宫门票”、“世界公园”两个关键词的搜索量与北京月旅游客流量曲线图,从图中看出,两个关键词搜索量的变化趋势与北京月旅游客流量的变化趋势表现出了较强的一致性。 图3 关键词搜索量变化与北京旅游客流量变化曲线图 三、实证分析 (一)数据来源 本文所采用的北京市旅游客流量数据来源于北京市统计局官方网站,时间范围为2008年1月至2013年4月。 本文所采用的搜索数据来源于百度指数(http://index.baidu.com),时间范围为2008年1月1日至2013年4月30日。百度指数基于百度网页搜索和百度新闻搜索的海量数据,计算出每个关键词的用户关注度和媒体关注度的数值。百度指数每天更新一次,并且提供用户“1个月”、“3个月”、“6个月”和最长“1年”的时间区间。为了能够更好地与北京市旅游客流量数据进行拟合,我们需要将来自百度的关键词搜索数据按日数据进行加总,得到搜索数据的月数据。 (二)关键词选取 基于上述游客旅游行为过程,本文从以下三个步骤来选取关键词。 首先,根据游客的信息搜索来选定初始关键词,游客在出行之前会从衣、食、住、行、游、购等方面来选取相关关键词,本文人工选择了“北京旅游、北京旅游攻略、火车票、首都航空、北京地图、北京交通图、北京地铁、北京天气、北京天气预报、北京住宿、北京酒店预订、北京小吃、北京特产、北京购物”等关键词作为初始关键词。如表1所示。 其次,利用百度搜索引擎的关键词自动推荐技术,共得到561个关键词,剔除重复和数据量较少的关键词后,保留剩下的533个关键词组成关键词库。 最后,计算每个关键词与北京月旅游客流量的相关系数,检验每个关键词与北京市旅游客流量的相关性,由于网络搜索数据与旅游客流量之间存在先行滞后性,所以这里计算北京月旅游客流量与每个关键词提前0-6个月的相关系数。 最终,本文选取了皮尔逊相关系数②在0.8以上的关键词,共计10个,如表2所示关键词及其皮尔逊相关系数。 (三)网络搜索指数合成 1.网络搜索指数合成过程。网络搜索指数合成过程主要包括为计算相关系数、确定领先阶数和逐步合成等,其合成步骤如下所示: a.首先计算每个关键词和研究数据之间的皮尔逊相关系数,确定相关性和领先阶数; b.将每个关键词乘以自己相应的权重,然后按照领先阶数与研究数据进行错位对齐,并选出皮尔逊相关系数最大的关键词数据作为基准指数; c.将按照领先阶数错位对齐后的关键词序列进行整合,计算上一步选出的基准指数与研究数据的皮尔逊相关系数,记为,并在错位对齐后的原始关键词序列上各自对应加上相应的基准指数,之后再分别计算与研究数据之间的皮尔逊相关系数,再次选出最大的皮尔逊相关系数,记为; d.判断ΔW=-是否等于零,如果大于零,则将作为代替作为新的基准指数,之后重复上一步的工作,如果ΔW等于零,这表明,加入新的关键词数据不再增加关键词与研究数据之间的拟合度,网络搜索指数合成过程结束。 2.拟合度偏F改进检验。偏F检验是用来考察在原有的关键词序列上加入新的关键词数据之后,能否提高搜索指数与研究数据之间的拟合度,具体操作步骤如下所示: 假设N个关键词按领先阶数对齐后与研究对象之间的指数分别为,选取N个指数中最大的指数为, 统计量通过显著性检验,则接受原假设,证明该网络搜索关键词应该加入搜索指数,反之则不能加入。 3.各关键词的最大相关系数滞后阶数如表3所示。从表3可以看出,北京月旅游客流量只与当前期和滞后1期的关键词搜索指数的相关性有关,并且与当前期的相关性最大,这表明游客去北京旅游之前会在当月或提前一个搜索相关的北京旅游信息。 (四)网络搜索指数与北京旅游客流量的协整分析 通过观察北京月旅游客流量的变化曲线图,发现其具有较为明显的周期性,且周期为一年,一般在每年的11月到次年的1月表现为峰值。本文将北京月旅游客流量作为被解释变量,设为;以提前12期的旅游客流量数据为解释变量一,记为,主要是基于旅游客流量数据明显的以年为单位的周期性变化的考虑;以当期的搜索指数为解释变量二,记为;随机误差项记为。 首先对各变量进行平稳性(单位根)检验,采用扩展的Dickey-Fuller检验法(简称ADF检验),原假设为序列至少有一个单位根,即不平稳。检验结果如表4所示,原序列均为非平稳序列,而在一阶差分下,检验结果均在1%的显著性水平上拒绝原假设,表明一阶差分后所有变量均为平稳序列,即均为一阶单整序列。 根据Engle和Granger(1987)提出的协整理论,对原本非平稳但具有相同单整阶数的序列建立模型,模型如下: 两个模型的回归及检验结果如表5所示。 由表5所示,模型(2)的具体表达式如下所示: 对上式的残差序列进行单位根检验后发现,该残差序列在1%的水平上具有平稳性,因此搜索指数等变量与北京月旅游客流量之间具有协整关系。模型中搜索指数前的系数为0.0445,表明搜索指数每上升1个百分点会引起北京月旅游客流量上升0.0445个百分点,其他变量前的系数也是类似的涵义。基于AR模型所建立的回归方程中,各系数表示北京月旅游客流量除受到搜索指数和滞后期影响外,诸多因素短期波动因素影响程度的大小。为证实这种关系的存在,本文进一步对解释变量与被解释变量做了Granger因果关系检验。 (五)Granger因果关系检验及预测 若解释变量与被解释变量之间存在协整关系,则它们之间一定存在某种形式的Granger因果关系,Granger因果关系检验能够考察变量之间是否具有预测能力。对变量和进行Granger因果检验,其结果如表6所示。 由表6可知,解释变量可十分显著地Granger引起被解释变量,加之模型中网络搜索指数前的系数均显著不为零,说明网络搜索指数确实对北京月旅游客流量具有一定的预测能力。 为了进一步考察网络搜索数据对北京月旅游客流量的预测能力,本文将2008年1月至2013年1月的数据作为建模数据,对2013年2月至4月3期北京月旅游客流量进行预测,结果模型(2)预测所得北京月旅游客流量与实际旅游客流量的绝对平均误差仅为5.08%,模型(1)的绝对平均误差为9.17%,同时模型(2)的预测精度也优于之前预测旅游客流量的传统方法,两个模型的预测结果如表7所示。 四、结论和展望 首先,本文综述了旅游客流量预测和基于网络搜索数据的社会经济相关性预测的研究内容;其次,从理论角度分析了网络搜索数据与旅游客流量之间的相关关系,并构建了相应的理论框架。通过实证分析,揭示了搜索指数与北京月旅游客流量之间的协整关系,并结合网络搜索指数与历史数据构建北京月旅游客流量预测模型,预测连续3个月的月旅游客流量与实际月旅游客流量的绝对平均误差仅为5.08%,本文的创新点及结论如下: 首先,本文详细阐述了网络搜索数据与北京月旅游客流量之间的相关理论关系,并建立了相应的理论框架,通过实证分析验证该理论模型的合理性和准确性,分析验证结果得出基于此思想的理论框架对于其他相关的社会、经济类行为研究也具有适用性,如零售营业、房地产业等;其次,本文融合了百度指数关键词推荐技术,并对逐步错位合成法进行了改进,使得关键词的选取更加的全面与合理;再次,网络搜索数据与北京月旅游客流量具有长期稳定的协整关系。基于网络搜索数据的月旅游客流量预测模型拟合度达到97.23%,预测平均绝对误差仅为5.08%;最后,基于网络搜索数据的方法对北京月旅游客流量监测具有更强的时效性,弥补了数据收集整理发布的时滞性缺陷。一般传统统计数据的发布期至少存在着一个月的滞后期,而本文所提出的预测方法可以进行实时预测。 同时,该方法的也存在一定的缺点和不足,由于游客旅游获得的信息并不是全部来自于网络,所以,该方法在获取信息方面不够丰富和全面,另外,在与研究对象内在机理的深入研究和关键词的选取上还有待进一步的完善。如何更加深入地去挖掘搜索数据与研究对象之间的内在理论机理,以及如何更加全面地、科学地选取关键词也是我们下一步研究的重点。 注释: ①来自中国互联网络发展状况统计报告(2013年1月)http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/P020130122600399530412.pdf ②皮尔逊相关系数又称简单相关系数或“皮尔逊积矩相关系数”,它描述了两个定距变量间联系的紧密程度。样本的简单相关系数一般用r表示。基于网络搜索数据的国内旅游流量预测研究&以北京市国内旅游流量为例_客流量论文
基于网络搜索数据的国内旅游流量预测研究&以北京市国内旅游流量为例_客流量论文
下载Doc文档