基于回归分析的失业预警建模实证研究,本文主要内容关键词为:建模论文,实证研究论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:C924.21文献标识码:A文章编号:1002-9753(2012)05-0138-10
修回日期:2012-04-16
一、引言
失业问题既是综合性的经济问题,又是复杂的社会问题。西方发达国家和许多发展中国家,都把实现“充分就业”作为社会经济发展的重要目标之一。
当前,我国经济面临十分复杂的国际经济环境,人民币升值、原材料价格上涨、通胀输入压力增加等等,导致出口和经济增速下降、部分小企业倒闭,其可能带来的失业问题值得关注,政府对此问题也高度重视。如何对失业状况进行科学预测,根据预测结果适时发出警报,并制定有针对性的预案,对之进行及时有效的调控,是我国在经济转轨时期必须认真对待解决的客观现实问题。
在我国,党的十六届三中全会第一次提出,要建立和健全各种预警和应急制度,提高政府应对突发事件和风险的能力。2008年1月1日开始施行的《中华人民共和国就业促进法》第四十二条明确规定:“县级以上人民政府建立失业预警制度,对可能出现的较大规模的失业,实施预防、调节和控制”。第四十三条规定:“国家建立劳动力调查统计制度和就业登记、失业登记制度,开展劳动力资源和就业、失业状况调查统计,并公布调查统计结果”。
建立一整套失业监测、预警和预案的体系,对于促进社会稳定与和谐发展,具有重大现实意义。建立失业监测预警系统,完善失业统计和预警制度,掌握劳动力资源和劳动力市场供求状况,对各级政府制定就业政策,兼顾效益与安定,控制失业规模,保持社会稳定具有重要意义。
二、失业预警研究现状及存在问题分析
(一)研究现状
国外失业预警模型主要建立在宏观经济预警系统的基础之上。在20世纪60年代前,西方国家对经济预警系统的研究停留在经济循环和经济晴雨表(Economic Barometer)等预测研究的层面上[1]。1950年Moore的扩散指数和1960年Shiskin的综合指数成为美国构造预警系统的两大基本方法[1-3]。采用时间序列分析建模是该领域中的一类重要方法,已经取得了丰富的成果,如Jeffrey等人采用的移动平均模型[4]、Enriquede采用的自回归模型[5]、Hansen采用的门限自回归模型[6]、Van Dijk等人采用的基于分数协整与平滑转换自回归相结合的模型[7]以及Harvey的时间序列自回归移动平均模型结合Kalman滤波及季节性调整的技术[8]。Engle于1982年提出了ARCH(AuTo Regressive Conditional Heteroskedasticity)类模型[9],大大改进了预警风险的评估方法。进一步,Bollerslev于1986提出了GARCH模型(Generalized ARCH)[10]。Kaminsky,Lizondo与Reinhart于1997年创建了KLR信号分析法[11],其基本思想是选择一系列指标并根据其历史数据确定其临界值,当某个指标的临界值在某个时期被突破,就意味着该指标发出了一个危机信号。
1988年,本文作者所在的劳动科学研究所失业预警课题组首次倡导“劳动部门应建立包括失业预警系统在内的六大劳动预警系统”[12]。经过多年的潜心研究,该课题组于2001年完成“我国失业预警与就业对策研究报告”,该工作以失业率或失业人数作为自变量,使用了数学建模方法和数据库技术[13]。刘伟等人对深圳市失业预警监测系统进行了研究[14]。首都经贸大学的纪韶教授经过多年的研究,出版了专著《中国失业预警—理论视角、研究模型》[1]。秦开运对构建失业预警系统需要的指标进行了分析[15],而丁立宏等人对完善我国失业统计指标体系给出了若干建议[16]。刘红霞从劳动力市场、劳动力构成、经济发展三维度出发,设计了失业预警指标体系[17]。陈仲常等人采用BP(Back Propagation)神经网络对我国失业预警系统进行了建模[18]。李永捷通过建立径向基函数神经网络模型,对成都市的失业状况进行了分析与建模[19]。张兴会等人则分别采用递阶对角神经网络[20]与对角Elman神经网络模型[21]对失业预测系统进行了建模。向小东等人采用机器学习与模式识别领域中的核技巧,对失业预警系统进行了非线性建模分析,使用支持向量机建立了回归预测模型[22]。赵建国等人基于扩散指数法与逐步回归技术改进了失业预警模型,进行了实证分析[2-3];并对我国现行失业警戒线确定方法进行了探讨,构建了基于综合指数的失业预警模型[23]。黄波等人基于排序logit模型对城镇就业进行了风险分析及预测[24]。
由上可见,当前国内外学术界已经采用了多种定量分析方法对失业预警系统进行建模,可归纳为两大类方法:一大类方法是采用基于时间序列分析的计量经济模型,如自回归滑动平均模型、ARCH模型等等;另一大类则是采用回归分析的技术,如线性回归、各种神经网络模型等等。同时,这些技术在我国不同的城市或地区得到了初步的尝试。
(二)存在的问题
尽管我国在失业预警系统研究方面已取得了初步的成就,但仍然存在很大的不足。具体表现为:当前可获得的与失业预警相关的样本数据非常有限,是典型的小样本建模问题;涉及到的社会经济指标众多,需要面临高维数据建模的难题;该系统也包含了复杂的非线性数学模型,通常的线性建模技术并不适用;由于社会经济调查数据中会存在多种噪音,还可能存在部分调查数据的缺失,进一步加大了失业预警建模的难度。
众多的社会经济指标使得失业率的概率分布复杂,很难成为平稳分布,再加上调查中存在的误差及各种噪音数据的存在,使得传统的各种时间序列分析模型(如ARCH模型、GARCH模型等)的使用受到了极大的限制。
另外,不同的研究人员分别采用了不同的失业预警建模方法,目前仍然没有对各种方法进行过系统的比较,很难判断出各种方法的性能优劣,这给失业预警用户对不同模型的选择带来了困惑。
(三)本文主要工作
在失业预警系统建模中,数据的预处理非常重要。本文首先讨论了常用的缺失数据处理机制、数据归一化方法以及高维数据降维与数据去噪声技术。
鉴于回归技术是失业预警建模的重要途径,本文采用五种回归技术对失业预警系统进行建模,包括:最小二乘回归、Logistic回归、岭回归、BP神经网络以及支持向量回归。
基于广东省与失业相关的社会经济调查数据(2000-2010年),对上述5种回归方法进行了实证分析,并根据实验结果对各种方法的性能进行了比较与评价,旨在为相关部门对失业预警模型的选择提供参考。
三、失业预警建模的数据预处理技术
(一)失业预警指标选择
本文作者中的莫荣、李宏于2001年完成了国家科委软科学研究项目“我国失业预警系统与对策研究”(K97-10-50),对失业预警所需指标体系进行了系统的分析。本文直接采用其中的指标体系,具体选择如下的25个宏观经济指标作为调查变量:
失业指标1个:城镇登记失业率;
国民经济发展指标5个:国内生产总值(GDP)、第一产业生产总值、第二产业生产总值、第三产业生产总值、工业增加值;
劳动力资源指标2个:劳动年龄人口、普通高等学校学生数;
投资指标1个:基本建设投资总额;
能源和材料指标4个:能源生产总量、发电量、钢产量、水泥产量;
贸易指标4个:商品销售现金收入、海关统计进出口总额、进口总额、出口总额;
财政货币指标4个:金融机构企业存款、市场货币流通量、货币供给M[,1]、货币供给M[,2];
生活和价格指标4个:银行工资性现金支出、居民人均收入、居民消费价格总指数、商品销售价格指数。
(二)常用缺失数据的处理方法
数据缺失是一种在失业预警系统数据采集过程中常见的问题,缺失数据是指由于各种原因本应该得到而实际上没有得到的数据。
处理缺失数据的方法[25-26]可分为3类:加权方法、填补方法和参数似然方法。
加权方法的本质是将赋予缺失数据的权数分担到非缺失数据身上。
填补方法的核心问题是为缺失数据寻找一个最佳的“替代值”。填补方法包括传统的数据填补方法和多重填补方法。传统数据填补方法包括删除法、回归填补法、均值填补法等;常用的多重填补方法包括回归填补法、预测均值匹配法、Logistic回归填补法等。
参数似然方法与加权方法和填补方法相比,其处理缺失数据往往能产生更好的估计量,但需要知道数据分布的具体参数模型。
(三)数据的归一化方法
在失业预警系统建模过程中,所涉及到的各个社会经济指标数据的量纲往往会存在很大的差异。例如,失业率的统计数值介于0与1之间,而建设投资总额的量度可以达到千万,城镇人均收入则以千为单位。如果直接采用各个社会经济指标的原始数值去建模,各个指标量纲之间的巨大差异会直接影响所建模型的性能。因此,在建模之前,必须对数据进行归一化处理。
数据的归一化是通过函数变换将数值映射到某个数值区间,通常把数据归一化到区间[-1,1]或[0,1]中。常用的归一化方法[27-28]包括:min-max归一化方法、零均值归一化方法、Decimal Scaling归一化方法、对数函数转换、反正切函数转换。
(四)高维数据降维与去噪声
在失业预警系统建模中,当前可以获得的数据非常有限。从我国各省统计信息网上公开的社会经济指标数据来看,很多数据是直接从2000年开始公布的。就以本文对广东省进行失业预警系统建模为例,该省是我国一个经济与人口大省,该省统计信息网上也仅仅公开发布了从2000年到目前的大部分社会经济指标数据,如果我们以季度为时间周期进行建模,所获得的社会经济指标数据也只有40多组。另外,与失业预警系统建模相关的社会经济指标众多,选出20多个与失业相关性强的社会经济指标。根据回归的理论分析,为保证所建预测模型的有效性,建模数据的指标越多,所需要的建模数据也就应该越多。
此外,社会经济调查数据受客观环境的限制,存在一定的不精确性或误差,我们把此称为数据噪声。数据中存在的噪声一定程度上会影响所建失业预警模型的性能。
为此,可以采用主成分分析[29]或独立成分分析[30]来对所获得的调查统计数据进行处理。这样做的原因有两点:第一、失业预警系统建模中所涉及的各项社会经济指标之间存在一定的相关性,通过主成分分析或独立成分分析可以提取这些相关数据中的主要成分或独立成分,从而达到降维的目的;第二、社会经济调查统计数据中往往存在数据缺失与各种调查误差,通过提取主成分或独立成分,去掉的部分可以认为是调查数据中存在的各种噪声。
四、回归分析模型
回归分析是数理统计学与机器学习研究中的重要内容,近些年来,相关研究成果层出不穷。本文着重探讨最小二乘回归、Logistic回归、岭回归、BP神经网络以及支持向量回归等模型。
(一)最小二乘回归
最小二乘回归[31]是一种线性回归模型,线性回归是使用线性函数从现有的数据中估计出模型中所包含的未知参数的过程,基于所建立的回归模型可以对未来的数据进行预测。
对w求偏导并令其为零,最终可得线性回归方程为:
其中,λ为正则项参数,控制着正则化程度,起到平衡两项的作用。相对应的Lagrange函数为:
(四)BP神经网络模型
1986年,David E.Rumelhart等学者提出多层感知器的反向传播(Backpropogation,简称BP)算法,这种学习算法使得多层感知器可以逼近任意复杂的非线性函数。BP学习算法要求激活函数是可微的。BP神经网络是一种采用BP学习算法的前馈神经网络,拓扑结构如图1所示。
BP算法采用梯度下降方法试图最小化网络输出值和期望输出值之间的误差平方,详细计算过程参见文献[28]。
(五)支持向量回归
支持向量回归(Support Vector Regression,简称SVR)[33]方法是由Vapnik等人在1996年提出。
利用上式对应的对偶最优化问题以及KKT条件最终可求得回归方程为:
五、失业预警建模实证研究
广东省作为外来劳动力输入的大省,吸纳了几千万外来劳动力就业。但该省经济以外向经济为主,不仅受国际经济发展的影响很大,而且受到部分国家贸易保护和贸易壁垒的影响也很大,因此,在局部行业、产业和地区将存在造成大规模失业的可能性。因此,在该省建立一整套失业监测与预警体系,具有重大的现实意义。
(一)数据预处理
1.失业基准指标
预测失业的变化,失业基准指标的选择是非常重要的环节,在这里直接采用城镇登记失业率作为基准指标。
2.数据来源和预处理
城镇登记失业率数据来自于广东省人力资源和社会保障厅失业保障处。我们从该省统计信息网得到2000年第1季度到2010年第3季度的17个经济指标的季度或月度数据(前面部分提到了除失业率外的24个社会经济指标数据,但剩余的7个指标数据难以获得),分别为:生产总值(GDP)、第一产业生产总值、第二产业生产总值、第三产业生产总值、工业增加值、单位从业人员、建设投资总额、能源生产总量、发电量、钢产量、水泥产量、进出口总额、进口总额、出口总额、城镇单位职工平均工资、居民消费价格总指数和商品零售价格指数。其中居民消费价格总指数和商品零售价格指数指标体系要求提供季度资料,但只查阅到月度资料,对于这两个指标,我们对其每个季度三个月的数据求均值得到季度数据。此外居民消费价格总指数2006年至2008年的数据以及商品零售价格指数2003年至2008年的数据来源于国家统计数据库。其余的月度数据,我们直接求该季度所包含的月度数据的和得到季度数据。用每个季度的经济指标加上城镇登记失业率作为行向量,这样可以构成43×18的矩阵。
由于统计数据存在缺失,在此统一采用均值填补法进行填补。
处理完缺失数据后,由于各个经济指标的单位不统一,需要对数据进行归一化处理。在此采用零均值归一化方法,即采用下面公式:
由于采集到的数据较少,而每组数据的指标众多,同时考虑到社会经济数据调查中存在一定的噪声以及缺失数据,因此接下来对数据进行主成分分析,对数据进行降维与去噪声。首先我们去掉城镇登记失业率数据,将数据变成43×17的矩阵。我们取2000年第1季度的数据到2008年第3季度的数据作为训练样本集,取2008年第4季度的数据到2010年第3季度的数据作为测试样本。然后对训练样本进行主成分分析,设置贡献率阈值为95%,即至少保持原始数据的95%的信息。经过处理后,将原来的17维数据降到4维,原始数据的协方差矩阵最大的4个特征值为
最后对训练样本和测试样本进行降维,将它们投影到由这4个特征向量张成的子空间中,这样就得到了降维后的数据。
(二)实验结果
1.构造训练样本集和测试样本集
数据经过预处理之后,用本季度的经济指标加上当前季度之前三个季度的失业率和本季度失业率来对下一个季度的失业率进行预测,故样本集可表示为
取2000年第1季度到2008年第4季度的数据作为训练样本集,取2009年第1季度到2010年第3季度的数据作为测试样本集,根据所计算的预测结果与实际调查数据来统计预测精度。
2.最小二乘回归实验结果
失业率的最小二乘回归模型如下
根据最小二乘回归算法,得到失业率模型的参数,列在表1中。
图2展示了2009年第1季度到2010年第3季度失业率的预测值与真实值的比较,其中横坐标轴给出的是从2009年第1季度到2010年第3季度的时间跨度,分别对应了数值1~7,以下各图坐标轴的含义相同,不再重复说明。
3.Logistic回归模型实验结果
失业率的Logistic回归模型如下:
经过计算,得到失业率模型的待估参数值,见表2。
失业率的预测值与真实值的比较。
图2 基于最小二乘回归的失业率模型真实值与预测值比较
图4 基于岭回归的失业率模型的真实值与预测值比较
4.岭回归模型实验结果
失业率的岭回归模型如下:
根据岭回归算法,得到待估系数值,见表3。
图4为2009年第1季度到2010年第3季度失业率的预测值与真实值的比较。
5.BP神经网络回归模型实验结果
根据BP神经网络,得到2009年第1季度到2010年第3季度失业率的预测值与真实值的比较,见图5。
6.支持向量回归模型实验结果
支持向量回归模型采用2阶多项式核函数。
根据支持向量回归算法,我们得到2009年第1季度到2010年第3季度失业率的预测值与真实值的比较,见图6。
图5 基于BP神经网络模型的失业率真实值与预测值比较
图6 基于支持向量回归的失业率真实值与预测值比较
(三)实验结果对比分析
我们对上述失业率回归模型的均方误差和相对误差进行比较,列在表4中。
根据均方误差、相对误差以及前面各个图形可知:Logistic回归模型对失业率的预测效果最差,支持向量回归模型对失业率的预测效果最好,最小二乘回归、岭回归和BP神经网络模型的预测效果介于Logistic回归与支持向量回归之间。
由于BP神经网络的性能受随机初始值的影响较大,导致结果不稳定且可能陷入局部极小点。由于支持向量回归只采用了二阶多项式核函数,就能够得到相比于其他回归方法较好的效果,如果采用精细设计的核函数(如多核设计),支持向量回归有望得到更好的失业率预测效果。
另外,我们也基于独立成分分析对原始数据提取独立成分,并对多种回归分析模型进行了相应的建模,得到了与采用主成分分析方法相当的计算结果,由于文章篇幅有限,在此不再对该部分实验结果详述。
六、结论
本文对基于回归分析的失业预警建模过程进行了系统分析,包括缺失数据的处理、数据的归一化、高维数据的降维与去噪声、回归分析模型等环节,最终基于广东省的社会经济调查数据对五种回归模型的失业率预测效果进行了综合比较。实验结果发现:(1)主成分分析能够有效地对高维的调查数据进行维数;(2)采用回归技术可以对失业率发展趋势进行一定程度的预测;(3)在五种回归分析模型中,支持向量回归模型预测效果最好,Logistic回归模型预测性能最差,最小二乘回归、岭回归和BP神经网络的预测精度介于Logistic回归与支持向量回归的预测精度之间。
下一步的工作将基于集成学习技术对多个回归模型进行集成,把每个单独的回归函数看作为一个专家,把多个专家的预测结果综合到一起有望获得更好的预测效果。
标签:失业率论文; 回归模型论文; 神经网络模型论文; 预测模型论文; 统计模型论文; 数据建模论文; 风险预警系统论文; 统计调查论文; 经济论文; bp神经网络论文;