高维L1稳健因子分析及其在宏观经济预测中的应用论文

高维L1稳健因子分析及其在宏观经济预测中的应用

孔新兵,蒯 强,汪红霞

(南京审计大学统计与数学学院,江苏南京211815)

[摘要] 本文提出了一种稳健的构建高维宏观经济数据公共因子的方法。通过采用基于L1矩阵范数的优化方法,在存在大量缺失值和离群值的宏观数据集中得到更好的因子载荷和因子估计。在我国117维宏观月度数据集的基础上,利用静态近似因子模型对一些经济指标进行了预测。实证结果表明,由L1方法得到的因子相比主成分方法有更好的预测精度,从而给宏观经济研究者和决策者提供更为准确和稳健的参考。

[关键词] L1范数;高维近因子模型;稳健因子分析

一、引言

宏观经济预测一直是一个非常热门的领域,尤其是短期经济预测是管理部门和市场主体十分关心的重要问题,也是计量经济学的研究热点。由于宏观经济中指标众多,相依结构十分复杂,依照严格的经济理论建立模型并不容易,并且这类模型的预测能力往往并不强。例如有研究指出自回归模型(AR)和向量自回归模型(VAR)的短期预测精度超过了经济假设严格的动态随机一般均衡模型(DSGE)。因此在实际应用中,更多时候学者选择采用AR、VAR等非结构宏观经济预测模型来进行预测。然而随着信息量的爆炸,可获得的宏观经济数据维数急剧增加,甚至有时远远大于观测样本数量。此时采用AR、VAR等小型预测模型往往难以获得好的参数估计。通过筛选特定经济指标来建立参数可估的小型模型也是一种手段,但是它没有利用到经济中众多其他指标的信息。

因子模型是一类经典的统计模型,因子分析的基本目的是用少数几个随机变量去描述多个随机变量之间的协同关系。随着“大数据”集的不断增加,因子模型由于其数据降维、提取信息的能力愈发受到关注。在经济、金融研究中,经常会遇到维数庞大的数据集,如何有效准确地从中提取相关信息十分重要。Geweke首先提出了动态因子模型,将经典因子模型扩展到时间序列方向[1]。动态因子模型通过从大量的时间序列信息中提取少量的公共因子得分,能够以很少的因子个数把握丰富的经济信息。

随着产量和质量水平的提升,中国塑料管道加工企业“走出去”的愿望强烈,也出现了一些出口主导型的企业,使近年产品出口呈增长势头,出口量和出口额不断增加,并且出口单价和占总产量的比重均呈上升趋势,产品主要销往东南亚、中东、非洲、美洲以及欧洲等国家和地区。而国内市场的扩大和行业的发展也吸引国外一些同行以各种方式加入了国内塑料管道行业的竞争中,加大了国内行业的创新力度,促进了行业技术进步。国内塑料管道行业在积极参与国际交流、学习国外先进技术与管理理念的同时,也向国外展示了中国塑料行业的发展情况。

动态因子模型由于不能直接在时域上估计动态因子使得它的应用受到了许多限制。在应用中,学者们普遍采用动态因子模型的静态形式,并且常常改变模型的假设将其简化为近似因子模型,并且许多研究指出,这些因子模型在宏观经济变量短期预测中能够起到较好的效果[2-3]。因此静态近似因子模型在宏观经济预测领域发挥着重要作用,尤其是在宏观经济实时预测中。

主成分分析是估计因子载荷矩阵和因子得分的重要手段,研究指出,在一定的假设条件下,近似因子模型中使用主成分分析估计得出的因子在正交变换下是潜在因子的相合估计[4-5]。虽然主成分估计量有着较好的理论性质,然而由于主成分分析与最小二乘的等价性,在处理含有大量离群值的数据时往往不够稳健。并且主成分分析需要求取样本协方差矩阵,因而不能够直接处理含有缺失值的数据。

在线性模型的参数估计中,使用L1范数损失代替平方损失往往会给参数估计带来更好的稳健性[6]。在图片处理应用中,使用L1范数损失来求解矩阵分解问题往往比用PCA或者SVD效果更好[7]。而相较于稳健线性回归模型,本文提出稳健因子分析具有更大的挑战性,主要原因在于L1稳健因子分析的目标函数是非凸函数,致使因子载荷和因子得分估计的统计随机性难于获得,同时简单利用L1 稳健回归分析的优化迭代计算不适用。类似于Qifa Ke和Kanade(2005)在图片处理技术中的方法[7],本文交替使用L1稳健回归分析的优化迭代进行因子分析并最终获得因子载荷和因子得分的L1稳健估计(以下简称L1方法)。我们将此L1方法应用于宏观经济预测中,即采用L1方法来代替传统的PCA方法去估计因子载荷矩阵和因子得分。经比较发现,基于L1范数优化得到的因子时间序列相比主成分分析得到的因子时间序列有更加良好的预测作用。

本文共分为四个部分,其中第一部分介绍L1方法;第二部分通过模拟实验来论证L1方法的稳健性;第三部分对国内117维宏观月度经济数据进行实证研究,比较了L1方法得到的因子得分和PCA估计的因子得分的预测效果。

二、L1矩阵范数优化方法介绍

(一)经典因子模型

因子载荷矩阵和因子得分的L1范数优化方法可用如下数学公式表示:

其中为因子,A 为因子载荷矩阵,为特殊因子。在式(1)中,随机向量X 围绕均值的波动由公共因子的线性组合加上一个特殊因子解释。经典因子模型假设f1,f2,…,fm相互独立,e1,e2,…,ep 相互独立并且f 和e 的样本之间相互独立。

(二)近似因子模型

以人为本是当今时代和社会发展提出的最根本要求,习近平总书记曾反复强调人身是红线、是底线,经济发展、社会发展不能以牺牲人的生命作为基础。近年来,国家陆续修改了《安全生产法》、《刑法》,将安全事故过失纳入刑责;行业内,集团公司也将外包工程纳入主体单位事故考核统计,2015年修订了安全生产奖惩规定,进一步扎紧了人身等不安全事件追责的笼子,安全生产责任和压力越来越大。维护企业安全稳定,确保人身安全;因地制宜采取新举措,推动安全生产基础管理从粗放型向精益化转变,实现差异化特色管理是每个企业管理者无法回避的严峻课题。宿州公司“百条禁令”给我们提供了有益的鉴戒。

在“互联网+”平台上,家长可以得到作业指导、孩子最近的表现和班级动态、学校通知、活动信息等。家长了解孩子在学校的情况,以便有效地配合学校指导他们的孩子。同时,班主任可以更有效地开展学生管理,与家长密切沟通,从而提高班级的整体水平,提高教育教学的有效性。

近些年来,随着我国医疗事业的不断发展和临床治疗水平的不断提升,越来越多的孕产妇选择剖宫产手术方式分娩,但是,临床研究认为,该种分娩方式会对产妇的情绪和婴儿的发育产生影响[1]。医护人员在于孕产妇分娩过程中讲解自然分娩的好处,实施科学、有效、合理的护理措施对产妇自然分娩具有重要意义。本文通过探析在孕产妇围产期实施综合护理干预取得了显著的效果,现报告如下。

其中ft 是q 维的动态相依因子向量,λ( L )为由s阶滞后多项式算子组成的p×q 的矩阵。近似因子模型的模型假设允许的各个ft的各分量f1,f2,…,fm相依,et的各分量e1,e2,…,ep可以不独立,并且允许ft,et有时间序列相依性。称(2)为动态近似因子模型。

由于动态近似因子模型估计困难,因此在预测中,往往采用模型的静态形式:

2017年9月,海口市人民检察院经审查决定,依法对程立生以涉嫌受贿罪立案侦查并采取强制措施。2018年1月2日,程立生被检方提起公诉。

式(3)中,Ft 为m 维向量,称为静态因子,即Ft仅在当期影响Xt(因为Ft包括了动态因子ft 的当期和滞后项),它本身可以不具有经济学含义。 A 为因子载荷矩阵。本文就采用式(3)所示静态近似因子模型进行宏观经济指标的预测。

令某一经济指标y 在t+h 时刻的水平为yt+h,则其预测值可由式(4)给出:

为一组宏观经济变量在时刻t的水平,且Xt可表达为如下形式:

其中AFt包括了近似因子的t时刻当期和滞后项,β'yyt 代表了指标y 受自身滞后项的影响,εt+h为预测误差。

(三)因子模型的估计

上述因子模型中,因子载荷矩阵A 一般采用主成分分析法(以下简称PCA)来估计。因子载荷的主成分估计量̂即为Xt 的样本协方差矩阵的前m个最大特征值所对应的特征向量组成的p×r 维矩阵,因子得分的主成分估计量由给出。

至于保健品维生素C,一片都不一定有80mg呢,而且保健品这么贵,都舍不得一次性多吃几片的……总之,维生素C是个好东西,就算不生病,平时多补充一些也是大有裨益的。但是如果买很贵的而且添加了一堆色素、香精的保健品维生素C,补充了一丁点维生素C,却吃进去不少添加剂的话,就得不偿失了。那么98块钱的维生素C和两块钱一瓶的维生素C有什么区别?同样的东西,它们的差距在哪里?简要概括:

1.初始化:给出A,Σ 的初始值A(0),Σ(0)=I(Σ 为一对角阵,I 为单位阵);

其中F(t),A(t)为因子载荷和因子得分的第t 步迭代的值。式(8)(9)均可用线性规划方法或下降方法求解。下面给出L1方法的具体算法步骤:

‖ ‖·L2表示矩阵的L2范数,aiT 为A 的第i行,fj为FT的第j列。这本质是一个最小二乘优化问题,我们也可以通过交替迭代优化求解(6)。

相比于使用最小二乘法优化求解(5),PCA或SVD具有计算方便的优点,但是当数据中含有缺失值时,由于无法给出协方差矩阵,故不能直接使用PCA或SVD,此时需要插补数据或者删除缺失的行和列,因此会产生效率损失。若直接采用最小二乘优化求解,那么只需要舍弃对应xij缺失处的即可。

但是最小二乘法对异常值十分敏感,因此当数据中含有较多异常点时,不论是最小二乘优化求解还是使用PCA,得到的因子载荷矩阵和因子得分的估计都会受到很大影响。此时,可以对异常点进行删除,不过这样会造成信息损失并增加异常点去除的人为性;另一种应对方法就是寻找比最小二乘法更稳健的估计,本文将采取这种做法。

(四)基于L1范数的矩阵优化方法

设p维随机向量的数学期望为,协方差矩阵为Σ,假定X 线性依赖于少数几个不可观测的随机变量f1,f2,…,fm(m <p),和p 个随机误差项e1,e2,…,ep,一般称f1,f2,…,fm为公共因子,称e1,e2,…,ep为特殊因子或误差,因子模型有以下数学表达式:

其中‖ ‖·L1表示矩阵的L1范数。于是问题就由最小二乘问题转化为了基于L1范数的最小一乘问题,大量的研究表明最小一乘对异常值有更好的稳健性。

由于最小一乘问题不具有显示解,需通过交替迭代算法得出数值解。式(6)中的目标函数关于因子载荷参数和因子得分是整体非凸的,因此传统的中位数回归分析不适用于L1 因子分析。但给定载荷条件下,目标函数关于因子是凸的;给定因子条件下,目标函数关于载荷是凸的。故本文采用一种交替凸优化的算法给出该问题的解。Qifa Ke 和Kanade(2005)利用交替凸优化提出了数据矩阵分解算法并用于数据重构[7]。在本文中我们将采用交替稳健优化算法进行高维因子分析。故通过交替以下优化式(8)(9),即可求解:

其中:

许多统计软件往往不用通过对样本协方差矩阵进行特征分解来求解PCA,而使用一种叫作奇异值分解(以下简称SVD)的算法,由于SVD和PCA得到结果一致,并且具备计算方便的优点,许多统计软件的PCA结果都由SVD给出。不难论证SVD得到的结果就是以下矩阵分解问题的解[8]

2.交替凸优化:在每一次迭代时,由式(7)和(8)得到F(t),A(t)

归一化: NA=dag(A(t)TA(t)),NF=dag(F(t)TF(t)),A(t)←A(t)NA-1

F(t)←F(t)Nu-1,Σ(t)←NFΣ(t-1)NA,其中dag(·)表示取对角线元素得到的对角阵;

3.输出:F ←FΣ(1/2),A ←AΣ(1/2)

中国科协邓楠书记在“总序”中强调:“我国自主创新能力薄弱的问题已经日益成为发展的瓶颈制约.”并解释说:“加快科学技术创新和跨越,必须了解科学技术发展历史,了解人类文化长河中各个历史阶段科技创新人物的杰出贡献及他们的创新思维.”(本书)“介绍了各个历史阶段科技创新和发现的代表人物及这些著名科学家创新思维和发现过程.”我赞同邓楠书记的看法:“科普”具有提高创新能力的作用.

由于PCA不能处理含有缺失值的数据,为与PCA方法进行公平比较,本文使用EM算法插补填充之后的数据进行PCA。而使用L1方法时仅需舍弃掉中对应缺失值xij的项即可。另外,L1方法的初始值A(0)由先对插补数据进行PCA得到的结果给出。

三、模拟实验

图1 矩阵M

注:模拟矩阵的情况(点的颜色越深代表数值绝对值越大)。

为验证L1 方法能更好地应对含有大量离群值和缺失值的数据,我们进行模拟实验。我们生成一个40×40 的含有部分缺失值和离群值的秩为5 的矩阵M ,分别采用PCA 和L1方法对矩阵进行降维,并使用降维后得到的Âp×k×F̂k×n 作为公共项的结果,通过比较其与M 的差异大小来评价方法的优劣。本文模拟实验及实证分析都基于Python3.6编程实现。

首先我们生成一个40×40 的随机矩阵M0,其中每个随机元素都服从[-100,100]上的均匀分布,然后对M0进行奇异值分解,即M0=UΣVT(其中U 和VT 分别为左右奇异阵,Σ 为奇异值对角阵),得到M=U(:,1:5)Σ(1:5,1:5)VT(1:5,:),再把左下角三角区域内数据删去来模拟数据缺失,然后随机选取10%的值使其替换成[-2000,2000]上的均匀分布产生的随机数来模拟异常值。

为了得出较稳健的比较结果,我们重复该实验20次,每一次均记录因子残差:E=M-Âp×k×F̂k×n,最后得到两种方法得到的因子残差的绝对值的分布,见图2。从图2中可以看出使用L1方法得到的因子残差明显更集中在零附近,而采用PCA明显不如L1稳健和有效。

图2 因子残差分布直方图

注:可以看出PCA残差有一定的拖尾现象,而L1方法的残差几乎全部靠近零,显然L1方法更能保留原始矩阵的信息。

四、实证分析

(一)数据说明

我们搜集了来自中国国家统计局、中国人民银行、海关总署、中国人力资源市场监测中心等部门以及国泰安经济研究数据库从1999年9月至2019年6月主要公开月度(部分季度)宏观经济指标。其中我们人为筛选出涵盖了宏观经济中实际产出(工业增加值增长率、能源产量增长率等)、价格指数(如CPI、PPI、房地产价格指数等)、进出口(进、出口同比增速等)、财政(公共财政收入、支出等)、金融(包括货币、信贷增速以及股票市场成交额和证券发行量等)、各种景气指数(包括消费者信心指数、消费者预期指数、制造业采购经理指数等)、消费和零售(各类消费品零售总额增速、居民收入变化率等)、投资(包括固定资产投资增长、房地产投资增长、外商投资等)共计117个指标的月度时间序列。

动态因子模型是经典因子模型在时间序列数据上的延伸,它提供了从维数众多的经济时间序列数据中提取共同因子来研究和解释经济波动的手段。通过放宽模型假设和形式变换,可以将动态因子模型转变为经济预测中更加实用的静态近似因子模型。

对不平稳的增长率数据,我们对其进行一阶差分(存在季节效应的进行季节差分),对于非增长率数据,我们对其进行对数一阶差分(存在季节效应的数据进行对数季节差分),仍然不能平稳的数据再次进行二阶差分[2]。之后所有数据均进行标准化处理。我们没有剔除任何离群值。

由于某些指标曾多次改变统计口径、统计频率等原因,这些数据中包含许多的缺失数据。另外,在1999~2019年这20年间,中国经济经历了许多次重大外部冲击,许多经济指标中含有大量离群值(见图3),从各指标的经验分布的峰度值来看,经济指标的分布存在尖峰厚尾现象。

语篇《二月》中完整呈现的第一封信的送信人,是写信人的哥哥陶慕侃。“这位中庸的校长先生,笑迷迷的从衣袋内取出一封信,递给他(“他”指收信人萧涧秋——引者注)。”相应地,收信人接到书信后的反应:

图3 部分指标箱线图

注:观察部分指标的箱线图,可以发现许多指标含有大量离群值。

(二)实证结果

参考由Bai与Ng提出的用于选择静态因子个数的信息准则[9],我们将由117维月度数据集的共同因子个数定为8个。模型中线性预测模型部分滞后阶数由最小BIC 准则给出。我们分别使用L1方法和PCA估计因子载荷和因子得分,从表1可以看出,L1方法和PCA得到的因子载荷是有明显区别的。

1.5 统计学方法 应用SPSS 16.0软件包进行统计分析,符合正态分布的计量资料用均数±标准差表示,两组间比较采用独立样本t检验;不符合正态分布的计量资料用中位数(四分位间距)[M(P25,P75)]表示,采用秩和检验,计数资料用χ2 检验,等级资料采用秩和检验,P<0.05为差异有统计学意义。

接下来比较PCA 估计得出的因子和L1 方法得到的因子在指标预测中的表现。我们在处理后的数据集中选取了10个经济指标,将固定时间长度(180个月)的数据集设为训练数据,使用滑动窗口预测,并设置预测步长h 为1 个月、3 个月和6 个月。并分别比较了两组因子的预测效果,为比较预测效果选取了三个主要度量标准,即均方误差(MSE)、平均绝对误差(MAE)和平均绝对百分比误差(MPAE)。每一度量标准均将PCA得到的因子相对值设置为1,见表2~4。

图4 各指标峰度分布直方图

注:观察各指标的峰度分布,峰度值大于8(自由度为5的t分布的峰度值)的宏观经济指标非常多,因而数据中的尖峰厚尾现象明显。

表1 L1及PCA因子载荷比较

表2 向前1个月预测结果

表3 向前3个月预测结果

表4 向前6个月预测结果

观察结果发现,在对下一期值的短期预测中,L1方法得到的因子表现显著强于PCA得到的因子。而在较为长期的预测中,两组因子的表现相差减小。结果表明,L1方法得到的因子相比PCA得到的因子尤其是在短期预测中有着更加优良的表现。在面临维数众多的含有大量离群值和缺失值的数据集中,使用L1方法能够使估计更加稳健,更能还原出公共因子中包含着的关于经济波动的信息。

五、结论

本文针对高维经济数据的因子分析提出了以基于L1 范数的矩阵优化来代替PCA 估计因子得分的方法,实证表明,针对具有大量缺失数据和离群值的高维宏观经济数据集,L1方法得到的因子得分在短期宏观经济预测中明显好于传统的PCA方法的估计结果。

综上所述,耻感思想无论是修身还是治国,均须臾不可离也。正如印光大师所言:“耻之一字,其利无穷。有与圣近,无与兽同。惭耻之服,无得暂卸。”意思是:“耻”这个字,会带来无穷的利益。心中总是怀有耻感,就接近于圣人的境界;如果心中没有耻感,就与禽兽相同。惭愧羞耻这件衣服,不可一刻脱卸下来。

当今经济活动中的数据比以往更加容易获取,数据集越来越庞大,其中各类指标的序列长度各异,分布各异,如何在庞大的数据集中准确提取稳健的、能够用于有效预测的公共因子的估计也更加重要。本文仅提出了一种可以代替主成分估计的选择。虽然L1方法在短期预测效果更好,其数理统计性质仍不明朗。公共因子的主成分估计量在较宽松的假设下具有相合性,探究L1方法的数理统计性质将是我们未来的工作之一。

医院经营管理办公室副主任杜圣普也感同身受地表示,岗位评价完成后,医院职能部门绩效考评有了更加科学的依据与基础,医院整体的绩效管理也加快实现与岗位管理对接,整体框架更加清晰、合理。他还介绍,岗位评价对岗不对人,人员绩效考核则是基于岗位要求衡量绩效高低,以能否满足所从事岗位绩效要求为判断参照。

[参考文献]

[1]Geweke J.The Dynamic Factor Analysis of Economic Time Series[J].in Latent Variables in Socio-Economic Models,ed.By D.J.Aigner and A.S.Goldberger,Amsterdam:North-Holland.1977.

[2] Stock,James H;Watson,Mark W. Macroeconomic Forecasting Using Diffusion Indexes[J]. Journal of Business and Economic Statistics.2002,20(2),147-162.

[3]高华川,张晓峒.动态因子模型及其应用研究综述[J].统计研究,2015,32(12):101-109.

[4]Bai J.Inference for Factor Models of Large Dimensions[J].Econometrica,2003,71(1):135-172.

[5]Kong,Xinbing;Wang,Jiangyan;Xing,Jinbao;Xu,Chao;Ying,Chao.Factor and idiosyncratic empirical processes[J].Journal of the American Statistical Association.2018,1-45.

[6]Pollard,David.Asymptotics for Least Absolute Deviation Regression Estimators[J].Econometric Theory,1991,7(2):186.

[7] Qifa Ke,Kanade,T.. Robust L1-norm factorization in the presence of outliers and missing data by alternative convex programming[P].Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on,2005.

[8]G.Golub and C.V.Loan.Matrix Computation[M].Johns Hopkins University Press,2nd edition,1989.

[9]Jushan Bai;Serena Ng.Determining the Number of Factors in Approximate Factor Models[J].Econometrica,2002,70(1):191-221.

[中图分类号] F201

[文献标识码] A

[文章编号] 1674-3288(2019)06-0005-08

[收稿日期] 2019-11-20

[基金项目] 国家自然科学基金重点项目“多源异构数据的融合、特征提取与分析方法”(11831008);国家自然科学基金面上项目“高频数据波动率统计推断、预测与应用”(71971118);国家社会科学基金青年项目“相依时空数据分析方法及其在环境污染数据中的应用研究”(17CTJ016)

[作者简介] 孔新兵(1982-),男,湖南长沙人,博士,南京审计大学教授,博士生导师,研究方向为应用统计、计量经济学;蒯强(1995-),男,江苏盐城人,南京审计大学硕士研究生,研究方向为统计学;汪红霞(1983-),女,安徽安庆人,博士,南京审计大学副教授,硕士生导师,研究方向为空间统计、非参数统计。

[责任编辑:辛晓莉]

标签:;  ;  ;  ;  

高维L1稳健因子分析及其在宏观经济预测中的应用论文
下载Doc文档

猜你喜欢