大数据时代的高维统计：稀疏建模的发展与应用_统计模型论文

大数据时代的高维统计：稀疏建模的发展及其应用，本文主要内容关键词为：稀疏论文,建模论文,及其应用论文,时代论文,数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

在大数据时代，一个显著的变化就是随着数据易获得性的提高，数据特征的维度呈现爆炸式增长。比如，对经济个体的调查数据不再局限于收入、年龄、教育这些传统的数值型数据，先进的计算机技术、搜索引擎与手机终端使得对经济个体的实时监测成为可能，能够获取个人电子商务消费记录、网页浏览历史记录、社交网络交流信息等，加速了各个层面信息的搜集与记录。这些信息包括数值、图像、音频、文本、地理位置信息等多种数据格式，涉及了自然科学与人文科学的各个领域。因此，伯南克认为，当前的经济与金融研究进入了“数据丰裕的环境（Data Rich Environment）”（Bernanke和Boivin，2003[1]）。当前，快速发展的高维统计，由于与统计机器学习、压缩感知、大数据分析等数据科学分支有着深刻联系和高度交叉，因而成为大数据时代统计科学的前沿研究领域。其中，高维稀疏建模是重要的研究方向，它研究的是当决策或模型的维度远大于可得数据量时，如何挖掘出一个精简模型去刻画现有数据，从而提炼数据的核心信息。

在充满不确定性的现实世界，众多未知因素相互关联，共同作用并衍生出复杂多变的经济与金融现象。为了理解和探寻这些现象背后的作用机理，现代经济与金融研究不可避免地会存在各种表现形式的高维问题。比如，劳动经济学中的工资方程，通过引入特定解释变量（如教育和工作经验）的高阶项或者交叉项，能够平滑工资方程的期望函数并找到一个更好的近似（Belloni和Chernozhukov，2011[2]），但高阶多项式的引入会大量增加工资方程中未知参数的个数，由此产生的高维问题大大增加了模型推断的困难①。另一个典型的例子是对高维方差协方差矩阵的估计，这在金融风险评估与资产组合最优问题中尤为重要（Fan和Lv，2010[4]；Fan等，2011[5]）。假设我们想要估计1000只股票的方差协方差矩阵，此时的未知参数将会超过50万个，如此庞大的数目处理起来无疑是非常困难的。此外，在计量经济学的理论研究当中，许多理论难题的症结也在于模型的高维问题，例如，当结构模型存在过多工具变量时，一个很重要的问题就是如何有效实现最优工具变量的选取（Belloni和Chernozhukov，2011[2]）。

高维问题在现代经济与金融研究中具有普遍性，它们都有着一个共同的本质特征：模型包含大量的未知参数，甚至是未知参数（或解释变量）的个数p要远大于样本量的个数n。这种高维特征的引入，对传统低维分析框架下的统计方法形成了巨大的挑战，此时，判断模型优劣的三个重要准则——统计准确性、模型解释力和计算复杂度，都难以得到保证（Fan和Lv，2010[4]），传统方法因而面临许多问题。当未知参数的个数急剧增加，研究者就很难保证统计方法在估计与检验方面的准确性；而解释变量大量增加，容易模糊研究者对特定变量分析的焦点，从而降低计量模型对经济现象的解释力度；并且，模型维度的增加，会极大地提高模型优化求解的复杂度，导致分析的困难。一个直观的例子是，在工具变量估计的框架下，如果工具变量个数过多，容易造成对内生变量的过度拟合甚至完全拟合，使得内生性无法有效消除，此时，工具变量估计的一致性无法得到保证，模型的真实参数也无法正确识别。

除了导致传统方法难以满足三个重要评价准则，高维模型的设定还会引起两个重要问题——伪相关性与噪音累积（Fan和Lv，2010[4]；Fan等，2011[5]）。当模型引入过多变量时，变量之间的自由组合容易产生虚假的相关性，并带来共线性问题，从而掩盖了数据本身内在的因果联系或相关关系。此外，对于以预测为目的而发展起来的统计模型，引入过多变量还会造成对被解释变量的过度拟合，导致研究者误认为找到了数据生成的真实模型。Fan和Lv（2008[6]，2010[4]）分别提出使用最大绝对样本相关与最大绝对多重相关两个指标来刻画变量的共线性问题。即便是相互独立的高斯随机变量，随着变量维数的增加，两个相关性的指标也会不断增加。当变量维数

时，两个指标的期望值分别约为0.33与0.53（n=100）、0.47与0.72（n=50）；当变量维数

时，两个指标的期望值分别约为0.37与0.60（n=100）、0.53与0.78（n=50），后者存在明显的高度相关性②。这意味着，在高维情形下，重要变量容易被一系列的伪变量近似代替，变量之间的共线性问题容易导致模型的过度拟合与错误识别。

在模型拟合与预测方面，本文使用一个简单的古典线性回归模型来刻画高维特征对于模型拟合与预测能力的影响。本文设定的真实模型只包含1个解释变量，如以加入不同个数的p维独立高斯噪音作为解释变量模拟的结果显示，随着维度的增加，模型样本内的拟合能力也不断增强，当解释变量个数等于样本量总数时，模型出现完全拟合；另一方面，解释变量维度的增加，却造成了模型样本外的预测能力不断减弱，样本外预测值的方差也会不断增大。

对于高维数据的噪音累积问题，主要是由于随机变量的数据生成机制中带有随机误差，而观测到的变量数据实际上是由信号与噪音组成。当模型过多引入变量的同时，也引入了过多的噪音，这些噪音的累积可能会掩盖真实的信号作用，导致研究者对真实的数据关系产生误判。Fan和Fan（2008）[7]利用分类器的例子指出，噪音累积会使得统计方法的表现变差，包含所有变量特征的分类器所得到的结果就像是对各个离散选择进行随机猜测。因此，对高维数据进行统计建模时，需要避免出现伪相关性与噪音累积，如果统计建模无法有效处理这两类问题，将容易掉进维数陷阱，大大降低模型识别与统计推断的可信度。

对高维数据的处理，传统的统计方法往往显得力不从心，因此，需要对高维问题进行有效的降维处理，通过一个更加精简的模型，来剖析数据表象蕴含的内在信息。虽然数据分布在高维空间中，但在具体的实际应用中，研究者所感兴趣的信息存在于低维子空间，即样本数据的变异主要由一小部分因素决定，“高维数据”与“低维信息”并存，而高维稀疏建模的核心目的，就是从高维数据中挖掘出研究者所感兴趣的低维信息。高维稀疏建模关注的主要理论问题在于，如何通过设定不同的惩罚函数并求解目标函数，利用选择机制去识别数据本身的稀疏特征，并进一步讨论相应估计量的有限样本表现及渐近性质。本文余下部分将详细阐述处理高维问题的一类统计分析方法，涉及其发展沿革与统计方法的理论性质，着重分析这些性质对惩罚函数设定的依赖，并用高维稀疏VAR模型实证研究了一个大中城市住宅的销售价格。

二、高维稀疏模型的发展

（一）稀疏建模动因及选择机制

稀疏建模本质上属于模型选择的范畴。对一个过度复杂的模型，虽然数据拟合效果很好，但模型预测的方差偏大。通常情况下，研究者认为模型的过度复杂是由于纳入了不相干的变量或信息，模型选择的核心目标就是通过剔除这些不重要的部分，获得一个能同时兼顾估计与预测的精简模型。

在处理高维数据时，如果将所有变量或信息引入模型中，将会极大地增加模型的复杂度。此时，为了能够还原真实的数据生成过程，稀疏设定显得尤为重要。准确地说，高维情形下的稀疏建模指的是，模型存在大量的未知参数（或解释变量），记其个数为p，p可以比样本个数n大很多，即p＞＞n，但仅有相对小的s＜n个未知参数（或解释变量）是重要的，并且这s个未知参数（或解释变量）准确地把握了回归函数的主要特征。高维模型的这种稀疏特征，能够极大地减少待估参数的个数，为模型的正确选择提供了可靠的保证（Belloni和Chernozhukov，2011[2]）。

早期的模型选择方法和准则主要针对低维问题，如子集选取法（如AIC、BIC）与逐步选取法。这些方法的一个明显特点是，对所有潜在模型的可能集合进行地毯式搜索，借助某些准则来判断子模型的优劣。在高维情形下，这类方法不可避免地会存在以下问题：

（1）计算成本非常大。在一个包含p个解释变量的线性回归模型中，其嵌套的子模型就高达

个。为了获得最优子模型，需要对可能的模型逐个估计，当变量维数较大时，计算成本无疑是巨大的。

（2）离散选择不稳健。子集选取法与逐步选取法，本质上都是一种离散型的模型选取方法，这些方法的离散性容易导致结果的不稳定，数据的微小变化会使得变量选择结果有很大差异。

（3）无序选择过度拟合。在筛选嵌套子模型时，由于变量之间存在相关性，新增加的后续变量会降低子模型中已有变量的重要性，使得最终得出的模型包含不重要的变量，选取方法的无序性容易导致模型的过度拟合。

（4）选择与估计分割。这些选取方法首先依据某个准则进行模型选择，然后再利用选出的最优模型进行参数估计。这种两阶段分割的步骤，会把模型选择的不确定性带入到参数估计阶段，增加了参数估计的风险，导致实际方差的低估。

Breiman（1996）[8]指出，子集选取法通常只会选到错误的模型，并且当模型维数很大时，错误的选择结果会更加严重。这些离散的选取方法将模型选择与参数估计分割成两步进行，这样做不可避免地会导致预检验偏差与后模型选择推断两类问题（Leeb和

，2005[9]）。第一步中模型选择的偏差会带入到第二步的参数估计中，容易导致模型的错误识别。因此，为了能够有效实现高维情形下的模型选择与参数估计，一方面需要寻找连续、有序型的选取方法来提高模型选择的稳定性，降低计算成本与复杂度；另一方面，需要同步实现模型选择与参数估计，减少参数估计的识别风险。

通常而言，我们所面临的大多数高维问题都无法使用传统的计量方法来解决。以经典的线性回归模型为例，当解释变量个数大于样本个数时，OLS估计通过最小化残差平方和，并不能够识别待估参数。Tibshirani（1996）[10]指出，当模型中解释变量个数很多时，有两个原因使得OLS估计量为研究者所诟病。一是预测精度，引入过多的解释变量虽然减小了偏差，但也带来了很大的方差；二是解释力度，研究者通常更希望能够找到少数的解释变量，去捕捉最关键的信息。高维稀疏模型虽然包含了许多不重要的变量，但进行模型选择的目的就是要尽量剔除这些不重要的信息，通过设定适当的选择机制与估计方法，使得这些信息所对应的未知参数为0，而不为0的参数所对应的变量则为重要变量，由此可以获得一个简洁而又不乏解释力度与预测能力的统计模型，以期尽可能地接近潜在的真实模型。受NNG（non-negative garrotte）估计量的启发，Tibshirani（1996）[10]提出了LASSO（least absolute shrinkage and selection operator）方法，将模型求解的最优化问题设定为：

相比传统的子集选取法与岭回归，LASSO估计量可以同时实现变量选择和参数收缩。选择机制的作用体现于，最优化过程会自动使得某些参数估计值为0，而这些参数对应的变量在模型中往往并不重要，因此实现了变量选择。由于对参数的绝对值大小进行了约束，所以LASSO的参数估计的绝对值往往小于OLS估计值，从而实现了参数收缩。相比离散型的子集选取法，LASSO估计方法的变量选择过程是连续的，在高维情形下能极大地提高模型求解速度，保证选择结果的稳健性。相比岭回归，LASSO估计结果具有稀疏特征，可以实现变量选择，并且具备与岭回归相似的稳健特征。因此，LASSO同时拥有子集选取法与岭回归两种方法的优点（Tibshirani，1996[10]）。

在准则函数的设定中，惩罚函数的引入是高维模型实现选择机制的保证。可以发现，求解最优化问题（1）实际上等价于求解如下最优化问题：

其中，λ为调弦参数，B是β的参数空间。最优化问题（2）的准则函数实际上是在最小二乘估计的准则函数上增加一个惩罚项

，q=1，式（2）被表示为一个凸型的损失函数与一个凸型惩罚函数之和，即Loss（β）+λPenalty（β），因此模型存在最优解，相应的估计量也称为惩罚估计量。这种准则函数设定形式的好处在于，可以同时进行变量选择与参数估计，并且模型的求解和计算方面也更为简便。随后的许多研究也仿照这种模式，如Fan和Li（2001）[11]利用似然函数与非凹型惩罚函数的组合研究了模型选择方法的渐近性质，Zou（2006）[12]则通过修正Tibshirani（1996）[10]的LASSO惩罚函数，研究了自适应惩罚函数在变量选择方面的作用。一些研究者也同样借鉴了这一类连续型模型选择的思路，将其运用到矩估计方法中，如Belloni和Chernozhukov（2011）[2]考察了过多工具变量情形下的工具变量选择问题，Liao（2013）[13]则利用惩罚函数的思想对正确设定和错误设定的矩条件集合进行一致选择。

（二）惩罚函数与惩罚估计量的理论性质

1.惩罚函数优劣的三个标准。

在不同的惩罚函数设定下，惩罚估计量的理论性质有所不同。Fan和Li（2001）[11]指出，一个好的惩罚函数必须使得所推导的估计量满足如下性质：①无偏性。估计量几乎是无偏的，尤其当参数真值较大时这一特性更强，从而减小模型的偏差。②稀疏性。估计量使非重要变量的参数为0，从而实现变量选择，降低模型的复杂程度。③连续性。估计量对数据而言是连续的，从而提高模型预测的稳定性。

其中，a＞2，θ＞0，函数I（·）表示示性函数，

表示正值函数

。

Fan和Li（2001）[11]通过最小化贝叶斯风险值求解出参数a的最优值约为3.7，并且利用Monte Carlo模拟实验发现，该取值与广义交叉检验得到的结果有相似的表现，因此他们建议对SCAD惩罚函数的参数选择通常取a=3.7。对于SCAD惩罚函数的进一步讨论，可参见Fan和Lv（2010）[4]。

上述的无偏性、稀疏性与连续性三个性质，实际上是研究者在特殊模型设定下所推导出的有限样本性质。只有在相对严格的模型设定下，惩罚估计量才具备简化表达式，才能直观地分析不同惩罚估计量之间的性质差异。但在更为一般的模型设定下，准则函数的复杂性使得估计量的通式求解非常困难，难以获得简化式，此时研究者需要转而投向估计量渐近性质的分析，主要回答以下两个问题：其一，在何种惩罚函数设定下，估计量均具备良好的渐近性质？其二，在何种惩罚函数设定下，依据变量选择提炼出的模型能够渐近地逼近真实模型？

2.估计量一致性及惩罚函数依赖。

3.Oracle性质及惩罚函数依赖。

除了一致性以外，惩罚估计量的另一个重要性质是其Oracle的渐近性质。Oracle性质是高维统计建模的一个非常重要的概念，它包括两层含义：一是稀疏性，二是渐近正态性。直观来说，可以从三方面来理解惩罚估计量的Oracle性质：①如果参数的真值为0，那么其估计值为0的概率将趋于1；②如果参数的真值不为0，那么该参数的估计值将一致收敛到其真值；③对于真值不为0的参数，其估计量的渐近协方差矩阵，不依赖于真值为0的参数，惩罚估计量具有渐近正态性。Oracle性质意味着，在高维数据模型中，即使真实模型是未知的，我们仍然可以得到这样一种估计量，它具备与利用真实模型得到的估计量几乎一样的渐近性质。可以看出，Oracle性质是一种非常理想的渐近性质，它不仅确保了筛选出的模型能够渐近逼近真实模型，而且还保证了惩罚估计量服从渐近正态分布，排除了噪音对参数估计的影响。具备Oracle性质的估计量，就像是我们预先获知真实模型所得到的估计量，正如Fan和Li（2001）[11]指出的，这种渐近性质非常类似于Hodges例子中提出的超有效现象。

三、高维稀疏VAR建模对房产价格的预测研究

Bickel（2008）[15]认为，高维建模有两个主要目标：①尽可能地构建一个有效的模型去更好地预测未来数量表现；②深入探索变量之间的相关关系并将此用于科学分析目的，进一步构建一种可改进的预测方法。在预测变量与刻画变量相关关系方面，高维稀疏模型都有很好的表现，并且处理起来也比较便利。

高维稀疏模型的一个应用是时间序列分析中的向量自回归模型，该模型能够在不需预设强约束的条件下，刻画一系列内生变量之间的动态关系，因此在实证研究中备受广泛应用。众所周知，在传统的VAR模型中，存在参数个数随时序变量个数平方倍激增的现象。对一个包含m个时序变量的VAR模型，如果方程右边纳入了时序变量的d阶滞后作为解释变量，那么模型将存在

个未知参数。当m较大时，未知参数的个数将非常巨大，每个参数的估计结果将会有很大偏差，除非样本量n相对于未知参数个数p足够大，否则基于VAR模型构建起来的统计量，他们的有限样本分布将会严重偏离其渐近分布。

在针对城市房价的实证研究中，一个备受关注的问题是各个城市房价之间的动态相关性。基于全国35个大中城市的住宅销售价格数据③，本文试图从数据驱动的角度研究所有城市的房价历史数据能否用于预测某个城市房价的未来价格变化，并分析究竟是哪些城市的房价之间存在相关关系，或者更准确地说，哪些城市的房价之间存在Granger因果关系，因此，构建如下的向量自回归模型：

容易发现，线性回归模型（5）中被解释变量

，依赖于VAR系统中m个时序变量的1到d阶滞后，以及变量

的影响。当变量

是一个不依赖个体i的变量时，如宏观政策调控变量或者是刻画各期共同冲击的因子，这个VAR系统可转化为一个似无关系统。对于每一个个体i，由于方程右边的解释变量都相同，因此对线性回归模型（5）单独进行OLS估计，等价于对VAR系统（4）的GLS估计。

为了能够有效减少高维参数所带来的模型估计偏差，引入惩罚函数的方法来进行参数降维，进而构建一个高维稀疏VAR模型（以下简称为HDS-VAR模型），参数的求解可通过下述最优化问题获得：

在实证分析中，本文选取35个大中城市住宅销售价格的月度数据作为样本，时间跨度是2005年7月至2013年12月，数据来源于《中经网产业数据库》。在VAR模型中，本文引入了各个城市1阶滞后的销售价格作为解释变量，为了比较HDS-VAR模型与传统VAR模型的预测效果，这里以最后一年的销售价格数据作为预测区间，结果如图1所示。

对于城市房价动态演变的研究，除了使用高维的VAR模型，还可以使用低维的动态面板数据模型（以下简称为DPD模型）进行实证分析。DPD模型的特点在于，通过引入个体效应来反映房价的城市异质性。为了刻画各个城市房价之间的动态相关性，这里将其他城市的滞后1阶历史房价信息作为解释变量纳入到DPD模型中。图1同时报告了DPD模型对房价的预测误差，与HDS-VAR模型预测效果进行比较。

图1中的每一个圆圈（三角形）代表35个大中城市中的一个，圆圈（三角形）的横坐标表示使用传统VAR模型（DPD模型）得到的预测误差，纵坐标表示使用高维稀疏VAR模型得到的预测误差④。由图1可知，代表城市的各点都分布在45度斜率的直线下方，表明HDS-VAR模型的预测效果更优，而传统的VAR模型与DPD模型由于纳入了过多其他不相关城市的历史房价信息，使得模型过度拟合，因而降低了对房价的预测效果。需要注意的是，DPD模型对福州市与海口市的预测效果要优于HDSVAR模型，意味着这两个城市的个体特征比较显著。但对多数城市而言，未来房价的主要信息都能通过关联城市房价的历史数据来反映，HDS-VAR模型有着更好的房价预测表现。

HDS-VAR模型除了能够预测住宅销售价格外，它还能够通过模型选择来挖掘城市房价之间的动态相关，刻画其中的Granger因果关系。利用HDSVAR模型的选择结果可知，一方面，约94.3%的城市房价数据的滞后1阶对其未来价格有显著影响，表明各城市的房价存在动态演变效应，城市自身的房价历史数据包含了预测未来数据的有用信息；另一方面，各个城市之间的房价相关性存在同类集聚效应，即同一类型城市的房价相互影响，不同类型的房价相互作用程度较小。以北上广深厦杭这6个城市为例，这6个城市每平方米住宅销售价格位居2013年前6位。平均意义上，6个城市历史房价信息仅占所有35个大中城市的17%，利用HDS-VAR模型得到的结果显示，这17%的历史房价信息能够解释6个城市当前房价变动的51.3%，而其余29个城市的83%的信息仅能解释房价变动的48.7%。这意味着，对于高房价城市的当前房价解释，6个城市平均每个城市的贡献约为8.6%，而29个城市的平均贡献约为1.7%，前者超出后者约4倍以上。由此可知，这6个城市之间的房价存在显著相关，而其余29个大中城市房价对这6个城市的影响则较微弱。

这里以城市规模以及生产总值两项指标来划分城市的类型，其中，城市规模人口数在某个临界值⑤之上称为高规模城市，小于临界值人口则对应称为低规模城市；将城市生产总值超过某个临界值的城市称为高产值城市，小于临界值则对应称为低产值城市。对于某个城市，如果HDS-VAR模型的选择结果中，重要城市变量超出半数是同类城市，则认为该城市的房价存在同类集聚效应，模型选择结果如表1所示。

由表1可知，无论是从城市规模大小指标，还是从城市生成总值指标，两类城市房价均存在明显的同类集聚效应，各个临界值分类下的集聚比重约分布在55%～95%不等，均超过50%，均值约为80%，意味着同类城市房价之间的相关关系更为明显，对城市房价的预测，同类城市房价数据能起到更为重要的解释作用。从中位数作为临界值的城市分类结果来看，高规模、高产值的城市房价有更为明显的集聚效应，城市房价的同类集聚比重均超过80%。这意味着，对于高规模、高产值这类城市，对于超过80%的城市房价预测，同类城市房价的历史信息起到了主要的作用。

随着高维数据的广泛流行，高维稀疏建模成为统计与计量理论研究的国际前沿问题。在此背景下，本文探讨了高维数据与高维模型给传统方法带来的挑战，并梳理了稀疏建模的近期发展、选择机制以及惩罚函数方法的渐近性质，着重讨论了一致性与Oracle性质对于调弦参数和惩罚函数设定的依赖问题。在此基础上，本文利用高维稀疏VAR模型研究了35个大中城市住宅销售价格的预测问题。研究结果表明，HDS-VAR模型能够有效提高房价的预测效果，相比起传统VAR模型，HDS-VAR模型更为精简，大大减少了VAR模型中未知参数个数，并且，HDS-VAR模型的样本外预测效果更优；即使是对于低维的DPD模型，HDS-VAR模型也呈现出更强的预测精度，这一结果意味着，相比城市房价的个体异质，关联城市房价的历史信息更能用于预测城市的未来房价。另外，从HDS-VAR模型的选择结果可知，城市房价数据存在显著的动态演变效应，城市自身的房价历史数据包含了预测未来数据的有用信息；并且，各个城市之间的房价相关性存在同类集聚效应，即同一类型城市的房价相互影响、不同类型城市房价的相互作用程度较小，这种同类集聚效应在高规模、高产值的城市的房价中表现得尤为明显。

数据时代的演进推动了高维模型的快速发展，在理论研究方面，除了上文提及的模型估计与选择机制问题，关于高维模型的推断问题也是一个重要的发展方向，并且，随着对模型维度的进一步扩展，超高维模型成为新的攻关难题；在实证应用方面，未来高维数据的处理方法需要更加贴近具体实例的分析，现有的高维稀疏模型多是基于线性回归模型发展起来的，如何修正已有非线性模型以适合高维数据的实证分析，也是未来需要解决的问题之一。

①Belloni等（2014）[3]将类似的高维问题在经典实证研究中进行了新的应用，例如土地征用对房产价格的影响、堕胎法案对犯罪情况的影响、制度因素对经济产出的影响。

②这里两个指标的计算步骤是：首先生成p个相互独立的高斯随机变量，然后以第一个变量为基准，计算其余变量与第一个变量的相关系数绝对值中的最大值，即为最大绝对样本相关；另一方面，从其余变量中任意抽取3个变量，这3个变量的线性组合与第一个变量的相关系数绝对值中的最大值，即为最大绝对多重相关。在变量维数p较大时，最大绝对多重相关的计算成本很高，这里采用了逐步法进行求解，因此，实际的最大绝对多重相关会比这里得到的结果还要大。

③常见的统计数据是36个大中城市，其中一个是全国的指标，这里不予考虑。35个大中城市分别是：北京、天津、石家庄、太原、呼和浩特、沈阳、大连、长春、哈尔滨、上海、南京、杭州、宁波、合肥、福州、厦门、南昌、济南、青岛、郑州、武汉、长沙、广州、深圳、南宁、海口、重庆、成都、贵阳、昆明、西安、兰州、西宁、银川、乌鲁木齐。

④这里的预测误差使用的是绝对偏差加总。为了使图形美观，这里对偏差值进行了正则化调整，分别将传统VAR模型与DPD模型预测误差的最大值标准化为1，其余结果均按比例调整。

⑤常见的城市规模分类的临界指标主要有50万人口（中、小城市）、100万人口（大、中城市）和200万人口（特大、大城市）。由于这里选取的35个城市均是国内规模较大的城市，如果以200万人口为划分指标，将有29个城市属于特大城市分类，两类城市的比重差异较大，因此将划分指标的临界值选定为300万人口、400万人口，以及中位数。近期国务院印发《关于调整城市规模划分标准的通知》，对于大中城市规模的划分主要有100万人口、300万人口、500万人口、1000万人口这几个标准，由于这些标准主要针对当前人口和城市的分类管理，而本文使用的样本覆盖了2005年至2013年，因此在城市规模划分时，并不采用新近规定的标准。对于城市生产总值这一指标，则将临界值选定为2000亿元、3000亿元以及中位数三种。

标签：统计模型论文; 参数估计论文; 解释变量论文; 惩罚函数论文; 预测模型论文; var模型论文; 数据建模论文; 高维空间论文; 数据拟合论文; 线性拟合论文; 城市选择论文; 变量论文;

大数据时代的高维统计：稀疏建模的发展与应用_统计模型论文

猜你喜欢