基于随机森林方法的中国经济增长动力研究_线性回归论文

基于随机森林方法的中国经济增长动力研究，本文主要内容关键词为：中国经济增长论文,森林论文,动力论文,方法论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：F061.1

文献标识码：A

文章编号：1000-7636(2015)03-0003-05

1978年以来，中国经济高速增长，国民经济综合实力迅速增加，中国一跃成为世界第二大经济体，但是次贷危机对世界及中国经济造成了巨大影响，经过强有力的刺激政策，中国经济出现了短暂的恢复性增长，之后呈现逐渐下降态势。对于中国这样一个发展中国家，保持较高的经济增长速度仍然是中国实现一切发展目标的根本条件，因此，研究中国经济增长所处的阶段及其影响因素，对于中国下一时期的政策选择具有重大的意义[1]。

在宏观经济分析中一般将资本形成、消费和净出口称为经济增长的“三驾马车”，这是三大因素对一个经济体增长提供拉动力的形象化比喻。国内外许多学者对经济增长做出了卓有成效的研究，分析了各构成要素对经济增长的贡献。本文将使用中国1978-2012年的数据研究“三驾马车”对中国经济增长贡献的大小。

一、基于多元线性回归模型的增长动力测度

研究多变量问题最普遍、最经典的模型是多元线性回归模型。多元线性回归模型是利用线性回归方程研究解释变量与被解释变量关系的一种方法，其基本思想是通过解释变量的已知或设定值去估计和预测被解释变量(总体)的均值[2]。

(一)多元线性回归模型的拟合

本文使用的1978-2012年的国内生产总值、消费、投资、净出口的数据来自于《中国统计年鉴2013》，分别用

代表国内生产总值、消费、投资、净出口的增长率，建立如下多元线性回归模型：

从该模型的基本情况来看，消费、投资、净出口的参数估计假设检验分比在0.01、0.01和0.1的显著性水平下显著，F检验在0.01的显著性水平下显著。决定系数为0.9369，说明白变量可以解释绝大部分因变量。从该模型可以得出这样的结论，消费对中国经济增长的贡献最大，其次是投资，最后是净出口。假如一个变量变动时，在其他变量保持不变的情况下，消费的影响力是投资的2.714倍，是净出口的4530.445倍。这与中国最近30年经济增长一直将投资作为主要着力点的经济运行趋势是背离的，说明本模型对经济运行的解释能力不足，模型设计的准确性还需要进一步检验。

经典的多元线性回归模型要求数据符合6条经典假设，目前的很多研究并没有对这些假设进行充分的检验，仅仅依靠t检验和F检验，便判断模型是合理的，因此得出的结论缺乏足够的科学性。这6条经典假设分别为：(1)回归模型是正确设定的；(2)解释变量

是非随机的或固定的，且各解释变量之间不相关(无完全多重共线性)；(3)各解释变量在所抽取的样本中具有变异性，而且随着样本容量的无限增加，各解释变量的样本方差趋于一个非零的有限常数；(4)随机误差项具有条件零均值、同方差及序列不相关性；(5)解释变量与随机项不相关；(6)随机项满足正态分布[2]。

(二)多元线性回归模型的讨论

本文分别使用杜宾—瓦森检验(D.W.Test)[2]和夏皮罗—威尔克正态分布检验(Shapiro-Wilk Normality Test)[3]来检验第4条和第6条假设。

1.杜宾—瓦森检验(D.W.Test)

杜宾—瓦森检验(D.W.Test)的零假设为解释变量

不存在一阶自相关性，构造的统计量为：

当D.W.值在2附近时，模型不存在一阶自相关。本文构造的多元线性回归模型的D.W.值为1.3939，P值为0.02127，在0.05的显著性水平下检验显著，可以拒绝零假设，解释变量

存在一阶自相关性，即存在序列相关性。

序列相关性对模型的解释能力会产生一系列的不良后果：一是参数估计量不再有效，其普通最小二乘估计虽然具有线性无偏性，但不具有有效性；二是变量的显著性检验失去意义，变量的显著性检验使用的t检验，要求随机干扰项具有同方差并且相互独立；三是模型的预测精度下降，在方差估计不准的情况下，模型的预测精度也随之下降。[2]

2.夏皮罗—威尔克正态分布检验(Shapiro-Wilk Normality Test)

夏皮罗—威尔克正态分布检验(Shapiro-Wilk Normality Test)的零假设是残差满足正态分布，构造的统计量为：

当W的值低于设置的临界值时拒绝零假设。本文构造的多元线性回归模型的W值为0.946，P值为0.09311，在0.1的显著性水平下检验显著，可以拒绝零假设，残差的正态分布特征不明显。残差不满足正态分布假设，将极大地影响模型的参数估计和假设检验。

根据杜宾—瓦森检验(D.W.Test)和夏皮罗—威尔克正态分布检验(Shapiro-Wilk Normality Test)的结论，使用多元线性回归模型来拟合经济增长数据是不准确的，必须尝试别的方法来建模。

二、基于随机森林方法的经济增长动力测度

对经济增长数据建立多元线性回归模型时，经典线性回归模型的假设是如此之多，以至于满足所有的假定往往是一种非常困难的事情，或者说是一种“小概率事件”。而且，对真实世界的数据分布状况进行假定主观性太强，很难想象可以使用简单的几个公式就可以对现实世界的经济现象做描述[4]。

随着计算机的产生与迅猛发展，从数据本身的特性出发，使用计算机算法建立模型来进行模拟的机器学习随之产生。机器学习是计算机科学，尤其是人工智能领域里的一个极其重要的研究方向。现代计算机的开山鼻祖图灵(1912-1954)几乎在创立计算机科学这个学科的同时，就创立了人工智能这个研究方向。正因为机器学习如此之重要，才使得它几十年经久不衰，其研究热浪一浪高过一浪，其研究内容越来越深入，并且应用领域也越来越广泛[5]。机器学习算法对数据没有做任何假定，其拟合结果使用交叉检验的方法来判断，从而脱离了假定分布——用明确的数学模型来拟合——假设检验的经典统计过程[4]。随机森林方法是机器学习算法中比较成熟一种算法。

(一)随机森林模型简介

随机森林算法是2001年出现的一种组合多个树分类器进行分类的方法。随机森林树的基本思想是生成独立同分布的随机向量

，使用训练集生成树

，其中X为输入的特征向量。重复这个过程，保证每次建立树时变量选取的可能性一致，如此建立许多彼此独立的树，最终的输入特征向量的分类结果由这些树共同投票决定，算法如下[6-7]：

式中，I(·)是示性函数，第一项avg表示X判对的平均分类器数，第二项avg表示将X判错时判为最多类的平均分类器数。

随机森林树的余量函数为：

其中，θ表示选用所有变量所建立的分类模型。分类器

强度为随机森林余量函数的期望，即：

(二)随机森林模型拟合的准确性

评价一个模型好坏的最主要标准是预测效果的准确性。检验预测结果准确性的最直接方法是用模型预测出结果，然后使用数据的本身进行检验。算法建模普遍使用的是交叉检验(Cross Validation)的方法。将数据集分为训练集和测试集两部分，使用训练集建模，然后使用测试集进行评价。本文使用4折交叉检验来对模型进行评价，通过随机建立的4个训练集建立4个模型，对测试集分别得到4个标准化均方误差，再得出平均均方误差，其中标准化均方误差如下式所示[4]：

如果直接使用均值来预测，那么NMSE为1，NMSE越小说明模型预测的越准确，当NMSE大于1时说明建立的模型预测结果非常差，还不如直接使用均值进行预测。

经过检验，随机森林模型的测试集的平均NMSE为0.253，预测效果比较优良。而前文建立的多元线性回归模型尽管t检验、F检验及决定系数的性质都比较优良，但是测试集的平均NMSE为4.378，其预测结果是灾难性的，直接使用均值预测其结果都比使用多元线性回归模型要准确得多。

(三)随机森林模型测定的经济增长动力的重要性

随机森林模型还可以输出变量的重要性，从均方误差的平均递减来衡量，影响中国经济增长的最主要动力是投资，其次是消费，最后是净出口。结合图1，可以看出，随机森林对消费、投资、净出口重要性的测度与30年来中国宏观经济的运行趋势是一致的，其对中国经济运行的解释能力要远远好于多元线性回归模型。

图1 1978-2012年三大需求占比

三、以消费为核心调整“三驾马车”着力点

改革开放以来，中国经济飞速增长，按照当年价格计算，1978-2012年均增长率达到15.8％，在这一过程中，一方面，“三驾马车”贡献巨大，另一方面，正如随机森林模型所显示的，“三驾马车”的动力存在差别。如图1所示，30年来，三大需求对中国经济的拉动力量不断发生改变，消费占比不断下降，资本形成和净出口占比不断上升。消费占国内生产总值的比重呈现逐渐下降趋势，由1978年的62.1％下降到2012年的49.5％，下降了12.6个百分点。资本形成占国内生产总值的比重不断提升，由1978年的38.2％逐渐提高到2012年的47.8％，上升了9.6个百分点。货物和服务净出口由1978年的-0.3％逐渐上升到2012年的2.8％，上升了3.1个百分点，其中值得关注的是2007年之后占比呈现下降趋势[8-9]。

从三大需求占比变化情况与模型拟合情况来看，中国的经济增长仍未摆脱重投资、轻消费的传统模式。目前中国经济总量已经跃居世界第二位，原有的低成本竞争优势已经不如以前那么明显。1元固定资产投资所能创造的GDP在1995-1999年可以创造3.2元，2007-2012年仅可以创造1.6元。另外，出口的拉动能力也在下降，2007年之后占GDP的比重明显下滑。在这种情况之下，笔者认为，我们既不能寄希望于外需拉动，也不能沿用以前的投资短期拉动，必须大力开拓国内市场的潜力，增强中国居民的消费能力，为中国经济的平稳较快增长提供足够长远的动力支持。

提升居民消费能力的关键在于提升居民收入水平。一方面，提升劳动报酬占经济初次分配的比重。在劳动、资本、技术、管理等要素共同参与成果分配的大格局下，为进一步提高劳动报酬占成果分配的比重构建更好的体制机制环境。另一方面，增强再分配对收入平衡的重要作用。充分发挥税收、转移支付的收入调节作用，提高低收入者收入，充实中等收入者收入，调节过高收入，构建橄榄型收入格局。

另外，以消费作为“三驾马车”的核心并不意味着完全放弃投资和净出口的拉动作用。在中国30多年的经济腾飞过程中，投资和净出口贡献卓著，未来应该进一步发挥投资和净出口的巨大作用。一是进一步优化投资。一方面，要充分发挥市场作用。在构建社会主义市场经济的大框架下，充分发挥市场在资源配置中的决定性作用，在政府的宏观调控下，由市场决定投资的基本方向。另一方面，投资要更多流向实体经济。为实体经济创造更好的发展环境，引导资源更多地流向实体经济。二是进一步调整出口。一方面，中国的出口应改变过去多而广的格局，逐步向强而精过渡，不断提高出口产品的技术附加值，增强自身产品竞争力。另一方面，进一步深化相关领域改革，减轻企业的税收和财务成本压力。

标签：线性回归论文; 净出口论文; 随机森林论文; 多元线性回归模型论文; 经济增长论文; 预测模型论文; 经济论文; 线性回归方程论文; 解释变量论文; 消费投资论文;

基于随机森林方法的中国经济增长动力研究_线性回归论文

猜你喜欢