互联网搜索行为能帮助我们预测宏观经济吗?,本文主要内容关键词为:互联网论文,宏观经济论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
大数据是巨大而多样化的数据集(Armah,2013),这些数据的处理超出了目前主流软件的能力,因此必须改进处理数据的工具。大数据正在深刻影响着整个社会和经济发展。Schlegel(2015)探讨了如何利用大数据信息进行预测;Sebastian(2013)探讨了利用大数据的预测方法,同时还讨论大数据对数据的准备和模型的影响;Liu(2015)讨论了关于大数据的问题,其中包括大数据的四个维度和它们创造的机会和挑战,同时也讨论了大数据分析应用。从经济分析的角度看,国际上大数据研究首先在失业、劳动力市场及房地产市场状况层面展开研究(Choi & Varian,2009,2012;Wu & Brynjolfsson,2009;McLaren & Shanbhogue,2011)。互联网搜索行为是在线大数据中较有代表性的信息。 国际上利用互联网搜索行为对宏观经济进行预测取得了一定进展,具体体现在预测内容和预测方法两方面。在预测内容上,首先体现在利用互联网搜索行为对消费的预测,Vosen & Schmidt(2012)利用网络搜索数据时间序列建立的个人消费月度指标进行预测,发现其预测效果要优于基于样本调查建立的消费指标的预测效果。Konstantin et al.(2009)利用网络搜索数据预测美国个人消费增长率,结果发现与利用传统的消费者信心指数进行预测的结果相比,用搜索指数预测所得的结果精准度更高;Torsten & Simeon(2009)与Nicolás & Haifang(2009)也在研究中得到了同样的结论。其次,利用互联网搜索行为对宏观经济进行预测的研究体现在对就业的预测。Choi & Varian(2009)描述了如何用搜索引擎的数据来预测领取失业保险的有关情况,发现失业和相关福利的搜索可以提高对于首次申请失业救济的预测。Askitas & Zimmermann(2009)、Amuri(2009)以及Suhoy(2009)研究发现,互联网搜索可以预测德国、意大利和以色列有关劳动力市场的状况。再次,利用互联网搜索行为对宏观经济进行预测的研究体现在对房地产市场的预测,Choi & Varian(2011)以及Wu & Brynjolfsson(2009)发现,与住房有关的搜索可以改善传统模式对美国住房销售的预测;Webb(2009)表明,“止赎权”的检索次数和取消抵押品赎权的实际数目是美国住房市场问题的一个早期预警;另外,McLaren & Shanbhogue(2011)检验了在线搜索对英国就业和住房市场预测活动的重要性,表明包含网络搜索的模型提高了预测效果。 宏观经济预测存在多种研究方法。其中,较为普遍的方法是利用线性回归法对宏观经济的总量或分量进行预测。Bánbura et al.(2011)提出,定量的预测方法大多数是基于一组与总产出相关的解释变量,预测GDP增长,即总量预测;预测还可以基于分量预测的加总,Lütkepohl(2006)提供了总量预测与分量组合预测的详细调研;Hendry & Hubrich(2011)阐述了直接总量预测与分量加总预测的区别,并且探讨了总、分量预测的四种方法。Vosen & Schmidt(2011)、Choi & Varian(2009)在研究中均构建自回归模型,利用互联网搜索行为对经济进行预测。Choi & Varian(2009)将搜索词的词频作为变量加入线性回归模型中,对零售、房屋等四个行业的销售量做预测,结果表明加入搜索词词频的模型能够明显地改善预测效果。Wu & Brynjolfsson(2009)将房地产行业相关的搜索词合成指数加入到模型中,预测美国房地产市场销量和价格,结果表明搜索指数与未来房屋销量和价格高度相关。基于以往文献,本文对利用互联网搜索行为预测宏观经济进行更深入研究,主要体现在以下两个方面: 首先,本研究将区分结构化数据与非结构化信息。涉及大数据的宏观经济分析可以应用两类不同的信息,即结构化数据与非结构化信息。前者是能够用数据或统一的结构加以表示的数据,以传统的政府统计数据为代表;而后者其数据来源和形式都十分多样化,无法用数字或统一的结构表示,往往包含大量噪音,数据质量差,如在线文本、图像、声音等信息。大数据时代的典型特征是非结构化信息的大量存在与实时可得,数据挖掘技术的迅猛发展打开了非结构化数据可利用的空间。在现有大数据经济预测的相关研究中,或者侧重对非结构化信息的挖掘应用,或者对两类信息不加区别地利用,没有涉及对这两类信息关系的探讨及区别对待。而这又是一个十分重要的问题,因为人类在过去已经积累了一整套的经济统计体系,在根据统计数据进行预测和决策方面已经积累了丰富的经验。这是否意味相对于成熟的统计数据而言,非结构化信息的用处不大?还是有了数据挖掘技术的发展,传统统计数据将消亡?还是两类信息各有特色,互为补充? 其次,本文通过探讨利用互联网搜索行为预测宏观经济的可能,比较搜索行为信息的不同利用方式,发现如果区别对待统计数据和搜索行为两类不同信息,使用“两步法”来进行宏观经济预测可以显著地改进预测效果。所谓“两步法”是指在首先充分使用结构化数据挑选模型的基础上,再加入非结构化信息进行变量挑选。研究同时表明,单独使用互联网搜索行为并不能达到理想的预测效果,但在充分利用政府已有数据的基础上,加入互联网搜索行为可以明显改善预测效果;在线信息和传统统计数据不应是替代的关系,而应该是互补关系。 本文接下来的安排如下:第二部分介绍本研究所涉及的预测模型;第三部分描述本研究的数据类型、数据来源及数据特征;第四部分分别阐述各方法对宏观经济预测的结果,对比分析不同模型预测结果的差异,寻找最佳预测模型;第五部分是对比分析与“两步法”的科学机理探讨,进而说明“两步法”的有效性;最后提炼出全文的最终结论,并指出本研究关于结构化数据与非结构化信息区别对待的思想可以推广到经济研究的其他方面。 二、模型构建 在宏观经济分析中,可以应用两种不同种类的信息,即结构化数据与非结构化信息。结构化数据的优点是噪音小、数据规范,但是缺点是数据会有一定时间的滞后;非结构化信息其优点是信息更新快、数据实时可得,但缺点是信息噪音大、数据来源和形式多样化。本研究将使用政府统计数据与互联网搜索行为两类信息,前者为结构化数据,而后者则属于非结构化信息。宏观经济预测存在多种研究方法。其中,较为普遍的方法是利用线性回归法进行预测,例如Hendry & Hubrich(2011)利用线形模型对宏观经济的总量和分量进行预测。为了突出研究重点——对传统结构化统计数据和新兴非结构化信息两类数据之间的区分,本文亦基于最简单的单方程线性预测方法,比较下述不同模型对宏观经济的预测结果,挑选最优模型。 (一)基本模型 进行预测时,一个直观的做法是将全部解释变量平等的放入模型,通过一定的降维方法挑选出预测能力强的解释变量,从而确定预测模型。目前的已有研究也普遍采用这种思路,下文的模型6即通过这种思路来实现预测模型的构建,并在本文第五部分进一步比较分析这种方法和本研究“两步法”的优劣。为了突出对两类不同信息的利用,体现“两步法”的合理性,需要对不同的利用信息的方法所产生的预测效果对比,因此下面采用了分步模型构建的思路。首先,利用自回归模型,单独使用被解释变量自身信息进行预测;其次,单独使用互联网搜索行为信息进行预测;然后,在被解释变量自身信息基础上,分别加入政府统计指标与互联网搜索行为信息预测;最后,在充分使用被解释变量自身与政府统计指标的基础上,加入互联网搜索行为信息进行预测。本研究使用13个结构化数据与85个非结构化信息,共98个自变量进行宏观经济预测。基于各类预测模型,对比分析预测结果,确定最佳的构建宏观经济预测模型思路。这样做的主要目的是为了体现在充分利用结构化数据之后加入非结构化信息进行预测的方法的合理性,具体模型如下: (1)模型1 模型6是将被解释变量自身信息、政府统计指标和互联网搜索行为信息共同、平等的放入模型中挑选变量,进行宏观经济预测,此模型亦是预测的常用做法。在OxMetrics软件的自动模型选择模块可以实现该预测,下面的第五部分便有使用该模型进行预测的结果。 (二)降维与模型挑选 对于利用大数据的宏观经济预测,在方法上解决的核心是模型挑选问题,其中的关键则是模型的降维。原因在于伴随信息累积量呈爆炸式增长,通过大数据挖掘可得解释变量会大大增加,解释变量数量过多会产生所谓的“维数灾难”(curse of dimensionality)。具体如一个简单多元线性回归问题Y=Xβ+ε,其中Y为1维向量(如GDP),为可得的解释变量,为p维横向量,β为p维列向量。样本为时间序列,其数量受限于可得的时间间隔数,设为n。当X中的解释变量数大于样本数时,即n<p时,无法用最小二乘法得到系数β的估计。因此必须采用一些方法从p个解释变量中挑选出最重要的少量变量,这被称之为“降维”(也是模型挑选的一种情况)。在目前研究中,较为常见的降维方法是Lasso、AIC准则和BIC准则等(见Friedman et al.,2008)。① 随着解释变量数目的增加,所有可能的变量组合呈指数增加。在变量挑选时,理论上需要对每种变量组合进行尝试,并对比分析不同组合的预测效果,挑选效果最好的模型作为最终的预测模型。但是全部组合的计算量往往庞大到难以接受,这就是“维数灾难”。如在上述GDP预测问题中,对于模型6,将全部变量放入模型中,共会产生1.009*个变量组合,②在计算机上耗时将为3.2*年。③不管哪种降维方法,如Lasso、AIC准则和BIC准则等,都需要基于一定的方法简化计算量。计量经济学传统的通行方法是先把尽可能多的变量放入模型中,然后利用一些检验标准(如t—检验、F—检验,AIC与BIC准则等),通过树形路径来逐步剔除变量。④后面用到的OxMetrics软件的自动模型选择就利用此做法。这样做的好处是能减少计算量,但因为并没有比较所有的变量组合,有可能把某些好的变量组合漏掉;且有路径依赖,如对变量不同的剔除次序可能导致不同的结果。 由于本研究的样本数量有限,所以挑选的变量不宜过多,因为如果挑选变量太多就会产生训练集拟合效果好,而预测效果并不理想的现象。⑤这里假设最好的预测模型在滞后不超过4期中产生,即限定滞后期最多为4期,⑥并且,在回归时除GDP滞后外,政府统计指标限制解释变量为单变量和双变量两种;在模型3—5中,将GDP4作为固定变量放入模型中。⑦对于模型1—4,回归模型中的解释变量总数限制为不超过5个;对于模型5,在模型3挑选的最优变量组合基础上增加搜索行为变量时,限定只新增加1个搜索行为变量,滞后不超过3期。⑧在此限定增加的搜索行为变量为1个是可以理解的,因为本文关注的是在结构化数据基础上,增加非结构化信息能否帮助预测。如果增加1个非结构化信息就能帮助预测,那么增加更多的非结构化信息则是对预测更有帮助的。 这样前5个模型全部计算量共为25245个线性回归模型。其中,对于模型1,即GDP自回归预测模型中,包含15个线性模型。⑨仅互联网搜索行为,即模型2,包含1275个线性模型;⑩对于模型3,GDP滞后4期加政府统计指标(单、双变量),共包含15030个线性模型;(11)GDP滞后4期加互联网搜索行为模型,即模型4,共包含1275个线性模型;(12)对于模型5,政府统计指标最优模型加互联网搜索行为,共包含7650个线性模型。(13)对于前5个模型,我们计算单个模型的回归与预测集4季度的逐季预测的计算用时约0.01秒,进行全部25245个模型的计算共用时253.9秒(平台:Intel Core 2 i5-3337U 1.80GHz处理器,4GB内存,Windows 8.1 64-bit操作系统,R 3.1.1)。 三、数据说明 本研究的预测变量为GDP,解释变量分为两类。一类为政府统计指标,属于结构化数据。数据来源于中华人民共和国统计局网站,以2005-2014年的政府统计月度数据为基础,挑选出与宏观经济紧密相关的12个指标,包括消费价格指数、社会消费品零售总额等,经过整理、计算生成季度数据(样本的统计特征见表1)。为消除异方差的影响,对GDP、出口总值、进口总值、外商直接投资、社会消费品零售总额、国家财政收入、流通中现金、货币和准货币变量取自然对数。 另一类解释变量来源于互联网搜索行为,为2006-2014年的百度指数网站的相关百度搜索指数。百度搜索指数的计算是以网民在百度的搜索量为数据基础,以关键词为统计对象,分析并计算出各个关键词在百度网页搜索中搜索频次的加权和。(14)百度搜索指数是以每日为频率的时间序列,在其网站基于提供的日数据,可以换算出周、月、季度等数据的时间序列。虽然百度搜索指数是经过标准化处理的,但因为其来源为网民的搜索行为,而搜索行为是非常复杂和不规范的,所以在本质上是非结构化的,所以百度搜索指数属于非结构化信息。 这里共选取85个百度搜索指数用来衡量互联网搜索行为。将此85个百度搜索指数分成五类,根据和宏观经济的联系,这五类分别为:消费、投资、净出口、政府购买和就业。根据网民搜索与宏观经济的关联,分别挑选和确定代表性的搜索词,搜集相应的百度搜索指数,确定每类信息搜索的词语与变量的数量。搜索词的挑选是经过多轮的小组讨论和专家讨论所确定的。研究最终选取书、美容等22个搜索词作为消费类代表;贵金属、房地产等20个搜索词作为投资类代表;出口、进口等27个搜索词作为净出口类代表;政府采购、基础设施建设等9个搜索词作为政府购买类代表;选取兼职、招聘等7个搜索词作为就业类代表。百度搜索指数概况见表2所示。(15) 本研究全部数据为2006年4季度至2014年3季度共32期,把2006年4季度至2013年3季度共28期作为训练集;预测集为2013年4季度至2014年3季度共4期,预测时采用逐步预测法。(16)按照模型1—5,对变量做回归和预测,最后选择最佳模型作为我们的预测模型。在对模型进行筛选时,利用训练集数据,针对每一类模型,使用贝叶斯(BIC)信息准则对变量组合进行排序,选出较低BIC值的滞后项组合作为该变量组合的代表模型;其次将各变量组合的代表模型再按照BIC值排序,根据训练集BIC值挑选最优预测模型。(17) 四、计量结果及分析 根据第二部分的建模思路,在此限定除在GDP自回归模型使用GDP滞后1—4期外,其余模型计量均使用GDP滞后4期(以GDP4表示)作为解释变量;由于政府统计指标在获取时存在的一定时滞,在此取政府统计指标X的滞后1—4期作为解释变量;由于百度搜索指数的实时可得性,在此取百度搜索指数Z的当期与滞后1—3期作为解释变量。在对模型进行筛选时,按照BIC值从小到大顺序进行排序,由于篇幅所限,在文中除模型1的计量结果仅列出排序第一位外,其余模型计量结果只列出排序的前三位(见表3)。回归和预测效果体现在表3的最后两列,即训练集均方差(mean squared error,下文表示为MSE)值与预测集MSE值。(18) 表3的第一列为本文第二部分所述的对应模型。模型1是GDP的自回归,模型2是仅使用百度搜索指数的回归模型,模型4的解释变量为GDP自身滞后和百度搜索指数。由于模型2和模型4列出了BIC值较小的前三位,所以将这前三位分别表示为2A—2C和4A—4C。模型3的解释变量为GDP自身滞后和政府统计指标,鉴于上文所述将政府统计指标限定为单变量和双变量两种,对应的模型分别为3.1和3.2;由此3.1和3.2模型中BIC值较小的前三位分别表示为3.1A—3.1C和3.2A—3.2C。模型5是对模型3的改进,是为了检验在政府统计变量基础上增加百度搜索指数能否改善预测效果而设置。模型5.1—5.3是分别对模型3.1A—3.1C的改进,是在模型3.1A—3.1C的基础上对应的增加百度搜索指数后得到的回归结果,模型5.4—5.6是分别对模型3.2A—3.2C的改进,是在模型3.2A—3.2C的基础上对应的增加百度搜索指数后得到的回归结果。具体来说,模型5.1是对模型3.1A的改进,是在3.1A回归变量的基础上增加单变量百度搜索指数,通过BIC值进行挑选后得到的模型;模型5.1中BIC值较小的前三位分别表示为5.1A—5.1C,模型5.2—5.6中所包含的模型同理。 (一)五种模型的计量结果 对上述模型1—5分别进行回归与预测,得到的计量结果如表3所示。 为了减少随机因素对模型挑选的影响,提高预测的稳健性,将各模型(此部分除模型1外)中BIC值较小的前三位的某一期预测GDP取平均作为该期的预测GDP值,由此计算预测集中4期预测的均方差,同理产生训练集的均方差,计算结果如表4。 (1)按照模型1,对GDP进行自回归分析,结果显示只有GDP4(GDP滞后4期)被保留。以此进行预测,预测集均方差为0.000204,说明仅用GDP4可以对GDP进行较好的预测。 (2)按照模型2,单独使用百度搜索指数对GDP进行回归与预测。按照BIC准则进行挑选,排名前三位的解释变量组合分别为:为百度搜索指数“税收”)。可以看出,单独使用百度搜索指数进行回归,BIC值要高于单独使用GDP4作为解释变量预测的模型(后文简称“单独使用GDP4”);并且预测集MSE也高于单独使用GDP4。说明单独使用百度搜索指数进行回归和预测,效果较模型1要差。 (3)在大多数挑选出的模型中,都有百度搜索指数预测当期信息的存在,这说明百度搜索指数当期信息会帮助宏观经济进行预测。由此可知,在线信息的优势是当期数据的实时可得,可以推测就历史信息而言,百度搜索指数并没有优势,但它的优势在于当期数据的可获取。所以应该在发挥传统数据噪音小的优点的同时,注意应用在线的实时信息。 (4)根据模型3的回归结果可以看出,模型3.1A—3.1C与3.2A—3.2C的BIC值均低于模型1和模型2;模型3.1A—3.1C与3.2A—3.2C的预测集MSE也均低于模型1和模型2。说明模型3的预测效果要高于模型1和模型2,是对前2个模型的改进。这说明就GDP自身预测而言,在基于自身历史信息基础上,增加其他政府统计变量的滞后项能够帮助改进预测效果。 (5)由模型4的回归和预测结果可以看出,按照BIC准则进行挑选,排名前三位的解释变量分别为:GDP4与为百度搜索指数“房地产”,为“收藏品”)。模型4的预测集MSE低于模型1、2和3,说明模型4的预测效果要高于模型1、2和3。 (6)在模型5的回归预测结果中,模型5.1—5.3是分别对模型3.1A—3.1C的调整,调整后BIC值均有所降低;根据预测集的MSE值可得,模型5.1的预测效果较3.1A改善53%;模型5.2的预测效果较3.1B改善61%;模型5.3的预测效果较3.1C改善55%。模型5.4—5.6是分别对模型3.2A—3.2C的调整,调整后BIC值有所降低;根据预测集的MSE值可得,模型5.4的预测效果较3.2A改善50%;模型5.5的预测效果较3.2B改善13%;模型5.6的预测效果较3.2C改善3%。说明在政府统计变量基础上增加百度搜索指数,可以增强预测效果,非结构化信息是结构化数据的良好补充。 (二)初步结论 (1)仅使用互联网搜索行为,预测效果并不理想。仅使用互联网搜索行为(模型2),其预测误差是单独使用GDP4(模型1)的18倍。对比模型2和模型3,可以看出,模型2的BIC值和预测集MSE均高于模型3。说明在利用政府统计变量和互联网行为进行回归和预测时,即使我们可以得到实时的搜索数据,而政府统计变量我们只能利用历史时期的数据,但互联网搜索行为数据的解释与预测能力依然大大差于统计数据;说明传统的政府统计数据是十分有意义的,互联网搜索行为数据并不能取代政府统计数据。模型4的BIC值也高于模型3,说明即使两个模型都包含GDP,搜索行为也不能取代政府统计数据。究其原因在于搜索数据源自大量杂乱无序的搜索行为的整理,而影响人们搜索行为的因素太过庞杂,使得搜索数据包含的噪音过大;而政府统计数据因为其统计制度和执行的一贯性和严谨性,在时间序列上相对噪音较小。 (2)在政府统计变量的基础上,增加互联网搜索行为变量可以帮助改进预测。从结果可以看出,不管基于单独使用GDP自身信息进行预测,还是利用其它统计指标进行预测,互联网搜索行为的加入都可以明显地改进预测效果。例如,对于只利用GDP自身信息的模型1而言,加入互联网搜索行为后的最优模型(即模型4.1,GDP4与)较单独使用GDP4的预测效果改善95%。对于即使已经包含了GDP和政府统计指标而挑选出的最佳模型(模型3.2A)而言,加入搜索行为后也能改进50%的预测效果(见表4)。为了验证这一点,我们可以注意考察包含GDP自身信息和政府统计指标单变量的BIC最小前三位的模型(即模型3.1A、3.1B、3.1C),每一个分别和在其基础上允许增加搜索行为信息后筛选出的模型进行比较。对于模型3.1A而言,加入搜索信息的排名前三的模型按照BIC标准都能打败原模型,且预测MSE分别改进了51%、19%、49%,平均改进53%。模型3.1B和3.1C同样也平均改进了61%和55%,模型3.2A—3.2C的情况也类似。对于模型3.1A—3.1C和3.2A—3.2C总体而言,加入搜索行为后产生的18个模型,预测MSE平均改进了39%(见表5)。 (3)尽管单独使用GDP4有很强的预测作用,但仅考虑GDP滞后的自回归模型不是一个最好的预测模型。如果将仅包含GDP滞后信息的第1类模型和增加政府统计指标的第3类模型及GDP加搜索行为的第4类模型进行比较,仅仅考虑单独使用GDP4的模型在全部模型中BIC排名最次。排到前33位的均为GDP加政府统计指标的第3类模型。(19)如果限制只增加一个统计指标(即模型3.1),较单独使用GDP4的预测MSE改进54%。如果限制只增加两个以下其它统计指标,较单独使用GDP4的预测MSE改进46%(见表4)。 从以上对比可以看出,在充分利用了GDP自身信息和其它结构化的统计指标的基础上,再增加互联网搜索行为几乎总能有效地改进预测。由此说明,当可用信息包括传统的结构化统计指标和在线非结构化的数据时,构建一个好的预测模型的可行方法是分两步进行,第一步先基于结构化指标挑选出一个暂时最佳模型,第二步在第一步挑选出的模型基础上,再加入非结构化信息,挑选出最优模型。这种方法可称之为“两步法”。随之而来的疑问是,我们能不能把两步并作一步,即直接全部考虑所有结构化和非结构化的指标,一步挑选出一个最优模型呢?改变变量的时间区间会影响互联网搜索行为的预测能力吗?“两步法”是否也适用于其他宏观经济变量的预测呢?下面我们依次进行探讨。 五、比较分析 (一)“一步法”与“两步法”的比较 上述分析中,本研究用到了一个极为重要的预测方法——“两步法”,即在充分利用结构化数据的基础上加入非结构化信息再进行预测。下面我们对两种构建预测模型的技术路线,即“一步法”和“两步法”进行对比分析。 (1)“一步法” “一步法”的基本思路是,对结构化和非结构化变量平等对待,直接基于所有可选的变量,采用某种标准(如BIC标准)进行模型挑选。因可选模型个数随候选变量呈指数增长,计算量十分巨大,所以在实际计算中都不可能采用穷举的方法来对比所有模型。一般的做法是通过树形路径,利用一些检验标准(如t—检验、F—检验,及AIC或BIC标准)来逐步剔除变量。(20)树形路径的优点是大大减少了计算量,但缺陷是有路径依赖,可能把某些能产生更好预测效果的变量组合排除在考虑之外。 目前进行模型挑选和宏观经济预测较为流行的软件为OxMetrics软件。利用OxMetrics软件,将GDP滞后4期、政府统计数据X滞后(1—4)期、互联网搜索行为信息Z的当期与滞后(1—3)期全部放入候选解释变量,用自动模型选择功能进行回归与预测,结果如表6。 (2)“两步法” 先利用GDP滞后信息和其它统计指标挑选出一个最优模型,然后增加互联网搜索行为变量,进一步筛选模型。这样做的一个基本思想是先充分挖掘结构化数据中所包含的有用信息,在此基础上把互联网搜索行为作为一个补充增加进来。这样做也能够显著的减少计算量,比如上述的第5个模型。对于本研究的数据,即结构化数据变量13个,非结构化信息变量85个,如果我们采用“一步法”,会有1.009*个变量组合,(21)但是如果用“两步法”,则所有可能组合数有2.240*个,(22)可见,“两步法”需要考虑的变量组合数仅为“一步法”变量组合数的1/(5*)。 我们这里的具体做法是在第一步挑选中,如前所述考虑到样本数量,我们限制其它统计指标最多为两个及其相应滞后。根据表3,按照BIC准则,模型3.2A会被选中。在第二步挑选中,我们也限制增加的互联网搜索行为指标最多为一个及其滞后,根据BIC指标挑选出前三名进行预测。根据表3即为模型5.4(包含5.4A—5.4C)。将挑选出的模型5.4A—5.4C分别对GDP做预测,取3个预测值的平均作为本研究最终的GDP预测结果(见表7)。 对比可见,利用OxMetrics进行的“一步法”挑选出的最佳模型的训练集MSE为0.000114,远远高于“两步法”预测的训练集MSE值0.000020。并且前者的预测均方差0.000768高于后者预测均方差0.000060,“两步法”的预测集均方差较前者改善了92%。 将“一步法”和“两步法”的预测结果与GDP样本值的差值绘入图1。图中刻画的时期是从2006年4季度到2014年3季度,其中后四个季度为预测集。OxMetrics软件按照表6挑选的模型变量进行拟合和预测;本研究“两步法”按照挑选出的模型5.4A—5.4C分别对GDP做预测,取3个预测值的平均作为最终的GDP值。从图1可以明显看出,“两步法”的预测能力要远远高于“一步法”。 图1 “一步法”与“两步法”的计量结果与GDP样本值之差 (二)不同时间区间的互联网搜索行为预测能力比较 为了验证“两步法”的有效性不会受到变量时间区间变化的影响,在此做一个对比分析,即尝试将互联网搜索行为信息的时间区间也截止于(T-1)期,看此时结论会发生怎样的变化。本部分将互联网搜索行为当期数据从原数据集中剔除,即政府统计数据和百度搜索指数均取值至(T-1)期。将上述的模型3与模型5用新的数据进行预测,利用预测集MSE检验预测效果,结果显示在表8的第三列。为了减少随机因素对模型挑选的影响,提高预测的稳健性,将模型中BIC值较小的前三位的某一期预测GDP取平均作为该期的预测GDP值,由此计算预测集中4期预测的均方差。根据表8第三列的数值可知,模型5.1的预测效果较3.1A改善40.69%;模型5.2的预测效果较3.1B改善53.11%;模型5.3的预测效果较3.1C改善40.01%;模型5.4的预测效果较3.2A改善25.45%;模型5.5的预测效果较3.2B改善15.96%;模型5.6的预测效果较3.2C改善37.63%;模型5较模型3平均改进35.47%。由此同样说明在政府统计变量基础上增加百度搜索指数,可以增强预测效果。虽然使用百度搜索指数的最大优势是其当期信息的可获得,但从预测结果来看,是否有百度搜索指数的当期数据并不影响“两步法”的预测效果。所以,即使改变变量的时间区间,“两步法”依然有效,这也进一步证明了“两步法”的普适性。 另外,表8的“对比改进”列是剔除互联网搜索行为当期信息后的预测结果与包含互联网搜索行为当期信息预测结果的对比,从表中结果可知,在模型5的对比分析中,剔除互联网搜索行为当期信息后,模型5.1—5.4的预测能力均有所下降;将所有预测结果对比,剔除互联网搜索行为当期信息后,预测效果较之前平均下降14.93%。可见,互联网搜索行为当期信息对宏观经济预测产生极为重要的作用,“两步法”的一个优势也在于在滞后的传统统计数据的基础上,加入实时可得的互联网搜索行为信息,充分利用互联网搜索行为当期信息来弥补统计数据滞后的不足,从而使预测结果更为准确。 (三)其他宏观经济指标的预测 为了检验“两步法”预测的有效性与广泛性,此部分尝试对其他宏观经济指标进行预测,在此选择“社会消费品零售总额”(RSCG)指标进行预测与验证。预测采用的结构化数据与非结构化信息的内容与期数与本文第三部分相同,为了验证“两步法”的有效性,此部分仅对模型3和模型5进行回归和预测,预测时采用逐步预测法。(23)在模型5的回归预测结果中,模型5.1—5.3是分别对模型3.1A—3.1C的调整,调整后BIC值均有所降低;根据预测集MSE值可得,模型5.1的预测效果较3.1A改善30%;模型5.2的预测效果较3.1B改善42%;模型5.3的预测效果较3.1C改善32%。模型5.4—5.6是分别对模型3.2A—3.2C的调整,调整后BIC值有所降低;根据预测集MSE值可得,模型5.4的预测效果较3.2A改善20%;模型5.5的预测效果较3.2B改善41%;模型5.6的预测效果较3.2C改善32%。对于模型3.1A—3.1C和3.2A—3.2C总体而言,加入搜索行为后产生的18个模型,预测集MSE平均改进了33%(见表9)。此计量结果同样说明在政府统计变量基础上增加百度搜索指数,可以增强预测效果,进一步证明了“两步法”预测的有效性。 (四)“两步法”的科学机理探讨 首先,“两步法”的优势重点体现在降维的思想上。为了提高计算效率,普遍的作法是在降维时都没有进行穷举。因为模型挑选时所使用的变量都为随机变量,所以在进行变量组合时,就会产生保留噪音较大、而误删噪音较小的信息的可能。在进行宏观经济预测时,会使用结构化数据和非结构化信息,由上文可知,这两类信息的噪音程度是不一样的。为了避免噪音大的信息对噪音小的信息产生影响,应该将两类信息分开使用。所以,“两步法”提出先穷尽使用结构化数据,再加入非结构化信息进行模型挑选,这样可以减少犯错误的几率,使挑选的模型更具有准确性和普遍性。 其次,“两步法”的优势在于其能更好地使用时间区间不同的各类数据。如前所述,结构化数据和非结构化信息所包含的信息特点是不同的。非结构化特征的互联网搜索行为具有实时可得的优势,所以其信息的时间区间包含当期,但结构化特征的统计局指标,其信息存在一定时间的滞后,所以它的时间区间不包含当期信息。由于两类信息的时效性差别,在同一时间区间内,结构化数据的预测效果要好于非结构化信息;但在不同时间区间内,由于非结构化信息包含更多的新信息,其预测效果往往要好于非结构化信息。若不区分时间区间而将两类信息一同使用,其结果的准确性将会受到影响。所以“两步法”利用不同步骤处理信息的方法可以很好的区分两类变量不同的时间区间,更有效、更充分地使用两类信息。 可见,当可选解释变量明显地包含了传统统计变量和非结构化信息两类统计变量时,“两步法”是一个更好的选择。而在大数据时代,以在线信息为代表的非结构化信息每天都在以惊人的速度产生,这些新的数据来源既是我们进行经济分析和预测的宝库,也对我们如何利用提出了挑战。以上研究表明,这些非结构化信息的最好角色并不是对传统计指标的替代,而是补充。我们在经济分析和预测中既不能舍本逐末,抛弃现有统计数据,盲目追求利用大数据,也不能固步自封,局限于现有统计数据,以大数据杂乱无序为由排斥对大数据的利用。 六、结论与启示 大数据时代,传统的结构化数据与随时更新的非结构化信息并存,在为研究提供丰富信息的同时,也对我们提出了严峻的挑战。结构化数据与非结构化信息具有不同的特点,前者噪音小、数据规范,但是数据往往有一定的滞后;而后者更新快、数据实时可得,但是信息噪音大、数据来源和形式多样化。本研究以利用互联网搜索行为预测宏观经济变量为例,关注的核心问题是在预测模型中如何处理传统的结构化数据和新兴非结构信息的关系。研究表明,两类信息各有其优缺点,我们应该针对性地合理利用,充分发挥两类信息的不同优势。主要结论如下: (1)本研究的重要意义不言而喻。在现有大数据经济预测的相关研究中,或者侧重对非结构化信息的挖掘应用,或者对两类信息不加区别的利用,没有涉及对这两类信息关系的探讨及区别对待。而这又是一个十分重要的问题,因为人类在过去已经积累了一整套的经济统计体系,在根据统计数据进行预测和决策方面已经积累了丰富的经验。 (2)本文通过比较多个线性预测模型发现,对于GDP预测而言,如果仅使用互联网搜索行为,预测效果并不理想;但如果在政府统计变量的基础上,增加互联网搜索行为变量则可以帮助改进预测。其背后的机理是,一方面,新兴非结构化大数据信息往往包含了大量的噪音,从信息质量而言,相对于传统的统计数据具有明显劣势,所以并不构成对传统统计数据的替代。另一方面,新兴非结构化大数据往往包括了传统统计调查数据所没有的其它信息,如最新的实时信息,因而是对统计数据的有益补充。 (3)本文进一步提出合理处理两类信息的“两步法”。即指在首先充分使用结构化数据挑选模型的基础上,再加入非结构化信息进行变量挑选。本文通过比较多种线性预测模型,发现利用“两步法”进行模型选择时,可以得到更好的效果。这背后的机理在于,“两步法”保证了先对质量更好的统计数据的充分应用,同时发挥噪音较大的在线信息的有益补充作用。如果不加区分的将两类数据放在一起降维,则更可能将有用的统计指标剔除,从而降低了预测效果。 (4)本文的研究同时表明,如果方法得当,就宏观经济预测而言,充分利用非结构化信息,特别是在线信息,可以提高预测的效果。因此,今后宏观经济预测应该更充分的利用在线数据等新的信息来源,提高经济预测和政策反应的时效性与准确性。两类信息综合利用与“两步法”的模型变量挑选方法不仅在宏观经济预测中有重要的应用价值,也可将其推广到诸如公共卫生、公共安全等利用大数据预测的其它方面。 最后需要指出的是,本研究还有很多不足,如限于数据来源,本文只是对在线搜索指数进行了利用,没有利用大量的其他在线信息;“两步法”的科学性及其更明确的适用范围有待于从严格的统计数学上建模加以证明。这些都是今后进一步研究可能的方向。 作者感谢匿名审稿人的宝贵意见,感谢德州大学圣安东尼奥分校连大祥教授的建议,感谢2015美国经济学年会(波士顿)分会场(Topic in Macroeconomics)上各位的建议。文责自负。 ②本研究变量总数为98个,如果限制每个变量滞后4期,则共有392个变量,构建模型时每个变量都涉及放入与不放入模型两种选择,所以最后的变量组合数为个,即1.009*个变量组合。 ③每个模型的回归与预测集4季度的逐季预测的计算用时约0.01秒(平台:Intel Core 2 i5-3337U 1.80GHz处理器,4GB内存,Windows 8.1 64-bit操作系统,R 3.1.1),则1.009*个变量组合的用时共计3.2*年。 ④参见Castle et al.(2013)。 ⑤模型维数过高会产生过度拟合问题的出现,参见Chem(1995)。 ⑥在GDP预测中,对于季度时间序列限定滞后期最多为4期是一个通行作法,可参见Davidson(1993),第684页。 ⑦GDP4是对GDP样本值拟合最好的变量。 ⑧“滞后不超过3期”的含义是,包含百度搜索指数当期外,其滞后期数最多为3期,则百度搜索指数共有4期数据。 ⑨GDP的滞后期为1—4期,则共有4个变量。每个变量都涉及放入与不放入模型两种选择,除去没有任何变量的这一个模型(下同),GDP自回归模型总数为-1=15个。 ⑩互联网搜索行为的滞后期为0—3期,0期即为预测当期,本研究包含85个互联网搜索行为变量,则模型2的模型总数为85*(-1)=1275个。 (11)本研究包括12个政府统计指标变量,模型3的单、双变量的滞后期均为1—4期。则单变量模型组合数为12*(-1)=180个;双变量模型组合数为12*11/2*(-1)*(-1)=14850个,所以模型3的模型组合数为180+14850=15030个。 (12)模型4的模型总数为85*(-1)=1275个。 (13)在模型3选择最优模型时,限定选择单变量模型组合3个,双变量模型组合3个,则共有6个最优模型。模型5的模型组合数为6*85*(-1)=7650个。 (14)词条进行搜索时,可以在百度指数主页面搜索栏中直接键入搜索词进行搜索,百度网站已经对搜索词的搜索频次进行了日统计,本文采用的是PC搜索指数。百度搜索指数以全球最权威的中文检索数据为基础,通过科学、标准运算,并且以直观的图形界面展现,帮助用户最大化获取有价值信息,百度搜索指数每天更新一次。对百度指数的更多了解请参见http://index.baidu.com/。 (15)百度搜索指数的具体搜索词语,感兴趣者可向作者索取。 (16)逐步预测法(step by step)是在进行下一期预测时,将前一期的预测值当作训练值放入模型中。 (17)这里并没有进行单位根和协整检验等时间序列模型中的常用程序。因为单位根和协整检验都依赖于相应模型的大样本性质(渐进分布)。而这对本文所针对的高维问题(即当解释变量数相对于样本数太多时),显然是不适用的。本文候选变量数共为97个,用于训练模型的样本数仅为28期,实际上也无法进行合理的协整检验。因为大数据模型往往是面对高维问题的,所以标准的大数据分析方法中一般都不包括单位根和协整检验这些程序(参见Hastie et al.,2008)。且这些模型的目的是为了寻找最佳线性预测模型,不是因果关系的验证,因此虽然不能很好的利用大样本性质,但可以把数据集分为训练集和预测集,通过在预测集上的表现来挑选尽可能更好的预测模型。 (18)对于计量结果,感兴趣者可以向作者索取。 (19)感兴趣者可向作者索取相关计量结果。 (20)参阅Castle et al.(2013)。 (21)本研究变量总数为98个,如果限制每个变量滞后4期,则共有392个变量,构建模型时每个变量都涉及放入与不放入模型两种选择,所以最后的变量组合数为个,即1.009*个变量组合。 (22)每个统计指标或搜索行为变量的总期数均为4期,先从13个统计指标中挑选,变量组合数为个,再从85个搜索行为变量中挑选,变量组合数为个,所以共为个。 (23)感兴趣者可以向作者索要计量结果。互联网搜索行为能帮助我们预测宏观经济吗?_宏观经济论文
互联网搜索行为能帮助我们预测宏观经济吗?_宏观经济论文
下载Doc文档