基于ARIMA模型的中国人口预测
赵子铭
(华南师范大学 数学科学学院,广东 广州 511000)
摘要: 以我国1949—2017年人口总数为研究对象,利用时间序列方法及不同检验、最优化方法建立ARIMA模型,并用于预测2019年我国人口总数.通过AIC系数比较、白噪声检验,可以认为ARIMA(1,2,1)模型能够较好拟合我国成立至今的人口趋势.结果显示:我国人口数在1949年起不断攀升,并仍将在未来保持稳定的增速扩张;预测我国2019年及2020年的人口总数分别为140453.6048、141162.1572万人.
关键词: 人口预测;ARIMA模型;纯随机序列检验
1 引言
人口总量指一国在某一时间点上的人口总数.利用数据探究一国人口总数的变化趋势、预测人口总量的变化对于民生政策、经济政策具有重要意义.本文选择使用中国自成立至2017年的年人口总数作为研究对象,旨在建立特定模型对我国人口增长趋势进行模型解释,并对我国未来人口数量进行合理的预测.由于人口数是存量的时间序列指标,因此尝试使用ARIMA模型对人口序列进行拟合.
ARIMA模型全称为求和自回归移动平均模型,是拟合、预测时间序列数据的重要模型之一.由于差分能够较好地提取确定性趋势,因此ARIMA模型经常被用于拟合非平稳时间序列.ARIMA(p,d,q)模型共有3个参数,其中p代表模型的AR(自回归)阶数,q代表模型的MA(移动平均)阶数,而d代表序列的差分阶数.其数学表达式如下:
其中代表ARIMA模型中自回归项系数代表ARIMA模型中移动平均项系数,(1-L)d代表差分阶数,其中L代表延迟算子.根据上述理论,使用中国1949—2017年人口总数序列进行ARIMA(p,d,q)模型的构建.
2 基于ARIMA模型的中国人口序列预测
由于人口数量是典型的存量指标,所以一般是二阶单整的,即在经过二次差分之后,该序列会由非平稳序列转换为平稳序列.因此引入ARIMA模型,初定差分的阶数为二阶.[1]
老船曾经也装载过无数的梦想远航,如今,它却静卧在波涛汹涌的海岸边,默然无语,周遭的喧嚣与热闹均与它无关么?
其中:γk=cov(Xt,Xt+k),γ0=cov(Xt,Xt).分子代表滞后k期的时间序列协方差,分母代表时间序列的方差.如果ρk=0对任意k>0都成立,那么可以认为时间序列不存在自相关性.(此为原假设).通过构造QLB统计量对时间序列自相关性进行检验,具体统计量的建立如下:
(2)如果该序列不是纯随机序列,则我们可以继续ARIMA模型的构建;
通过ADF检验判断该序列的单整阶数d;
确定序列的准确差分阶数d后,通过Q统计量检验判断差分序列是否是纯随机序列.
(1)如果该序列通过Q统计量检验,则意味着该序列是纯随机序列,每一期的值是完全独立不相关的,则不存在继续建模和预测的意义;
构建ARIMA模型是一个比较繁琐的过程,建模步骤可以分为以下几步:
在同一生境中,植物必然会竞争空间、养分等,甚至会产生一些次生物质,对其他植物产生不利的影响,即化感作用[20-22]。紫茎泽兰具有较强的化感作用,其提取物能抑制多种植物的种子萌发和幼苗生长[23]。而地桃花是在紫茎泽兰下可正常生长并表现出一定竞争优势的一种植物。通过试验发现,地桃花提取物在浓度为10 mg/mL时对刺苋和稗的抑制效果分别达75.70%、62.01%,但其效果比已成功研发的植物源除草剂癸酸低15%左右。可以通过活性成分分离、鉴定来提高产品效果[24],具体原因还需要进一步深入研究。
若差分后序列不是纯随机序列,则判断差分后的序列自相关系数是否拖尾或在q阶截尾.
顺德逢简水乡的商户几乎销售同质的农家菜,如鲮鱼肉饼、均安蒸猪、双皮奶等,存在恶性竞争。由于缺乏相关的餐饮行业规范和认证,仅依靠食品的外观和宣传,游客难以判断食品的质量,只能通过网络点评或随大流在最受欢迎的店铺进行消费,对游客满意度造成严重影响。
(1)如果该序列在q阶截尾,则可以确定其ARIMA模型中MA(也即移动平均项)的阶数为q;
以色列教授斯塔维(Stavy)和蒂罗什(Tirosh)等人经过测试和研究,发现学生在解题时会遵循一种直觉上的规律,即学生会依据与题目不相关的某些明显的外在特征和生活经验来解题,却没有看到题目的本质,斯塔维(Stavy)等人称这些规律为“直觉规律”,“越A-越B(MoreA-MoreB)”就是其中的一种。
rk为样本自相关函数.统计量近似服从自由度为m的χ2分布(其中m为滞后期数).若Q值大于显著性水平的临界值,则拒绝所有rk同时为零的假设,即时间序列具有自相关性.
从ADF检验的伴随概率可以看出,在二阶差分情况下,人口序列可以被认为是平稳序列,即ARIMA模型中的差分项d=2.
(1)如果该序列在p阶截尾,则可以确定ARI-MA模型中AR(也即自回归项)的阶数为p;
通过上述分析得出ARIMA模型的三个系数:p,d,q,并以此为依据建立ARIMA(p,d,q)模型;
式中:Y为可溶性膳食纤维得率;X 1,X2,X3,X4 分别为料液比、碱液浓度、提取温度、提取时间4个自变量的编码值。
(2)若其拖尾,则阶数为 0;
对模型进行AIC系数比较、纯随机序列检验及显著性检验,判断模型对原序列的拟合是否良好;
利用模型对我国人口进行预测.[2]
《霸王别姬》主要讲述主人公一生悲欢离合的经历,情节非常紧凑,逻辑非常严谨。主人公程蝶衣对于戏和生活都是不疯魔不成活。对待“忠贞与背叛”,程蝶衣的态度是非常倔强的,甚至是痴迷的,说好了一辈子就是一辈子,少一个时辰都不行。当陈凯歌在戛纳得到金棕榈时激动地说,那个虞姬就是我。
2.1 确定单整阶数
本文使用Eviews软件对人口时间序列进行ADF检验及后续建模、检验.这里使用ADF检验判断人口序列的单整阶数.ADF检验的3个模型如下:
其中代表高阶项,α 代表常数项随机性趋势,时间项t代表确定性趋势.在实际检验中,只要时间序列在上述3种模型中的任意一种中检验被认为不存在单位根,则可证明序列是平稳过程.由于时间序列平稳的性质各不相同,故ADF检验和DF检验的原假设均为:H0:时间序列存在单位根.
先前讨论指出,人口序列为典型的存量序列,故应为2阶单证序列.实验证明:在0阶、1阶差分下,人口序列均不能通过ADF检验,即至少含有1个单位根.因此对其进行2阶差分,并再次进行ADF检验.结果如下表所示:
表1 2阶ADF检验结果
观察其偏自相关系数是否拖尾或存在p阶截尾.
2.2 纯随机序列检验
利用Q统计量检验对人口二阶差分序列进行纯随机序列的检验.Q统计量检验也即序列自相关检验,自相关检验的原理是通过检验时间序列及其k阶滞后序列的相关程度,判断时间序列的历史数据是否存在某种相关联系.随机时间序列的自相关函数为:[4]
“暖气病”主要是指冬季供暖后,因环境和人体干燥缺水而引起的免疫功能和抵抗力下降,导致出现不同程度的内热外寒症状。
(2)若其拖尾,则阶数为 0;
对二阶差分后的人口序列进行上述检验,结果如下图所示:
表2 纯随机序列检验结果
由于任意滞后阶数下,人口二阶差分序列Q统计量检验的伴随概率均显著为0,因此拒绝其是纯随机序列的假设,可以认为该序列不是纯随机序列,后续ARIMA模型建模具有了理论支撑及现实意义.
2.3 判断序列p、q阶数
通过观察二阶差分序列的自相关系数、偏相关系数的截尾性选择合适的ARMA模型p、q阶数.利用Python生成二阶差分后的人口序列进行自相关系数、偏自相关系数的可视化图,如下所示:[5]
图1 2阶序列自相关、偏自相关系数图
从图中可以看出,该序列的自相关系数和偏自相关系数均在1阶滞后后迅速降至0附近,因此可以认为该模型的p、q值均为1,也即:该序列的AR项滞后系数为1,MA项滞后系数也为1.
乌兰浩特地区日光温室性能优化及黄瓜促早栽培效益分析……………………… 张 鹏,崔世茂,宋 阳,张国华,叶丽红(124)
2.4 构建人口序列ARIMA(1,2,1)模型
通过上述4节分析,可以确定人口序列模型的自回归项、差分项、移动平均项的项数分别为:1,2,1.据此,通过Eviews建立人口序列的ARIMA(1,2,1)模型.
材料的物相表征采用X射线衍射仪(XRD,型号为XD系列)、傅里叶红外光谱仪(FTIR,型号为nicolet 5700);形貌表征采用扫描电子显微镜(SEM,型号为FEI Quanta 200F)和透射电子显微镜(TEM,型号为FEI Tecnai G2 20)进行测试。
注意到人口序列的ARIMA(1,2,1)模型等价于二阶差分后的人口序列的ARMA(1,1)模型,所以可以直接对二阶差分后的人口序列进行ARMA模型的构建.构建出的模型结果如下:
表3 ARIMA(1,2,1)拟合相关参数表
结果显示,使用极大似然估计拟合ARMA模型的参数结果中:
C、AR(1)、MA(1)的 t值均小于 0.05,通过了显著性检验;残差序列在经过短暂的震荡后进入二倍标准差范围中,显示出良好的拟合效果;
模型的AIC函数为14.9475;
张华军:当我们把关注点放到“关系”上时,我们可能就要打破新手教师和成熟教师的界限,因为我们可以看到,新手教师对课堂非常艺术的处理,他能自觉地在一个不断生成的课堂允许很高质量的创造发生,而这种情况可能不会在一个经验丰富的成熟教师身上发生。我们不能完全把它归结为天赋,它一定是与一个人的思维品质和他对教育的深层次理解有关,也与教师是否愿意探究课堂教学技术层面之外的更深层次的东西有关。
模型的最终形式为:
2.5 基于ARIMA(1,2,1)模型的人口预测
根据上节构建的模型对我国2018年—2020年人口总数进行预测,预测结果如下:
图2 模型预测结果
3 结论
本文通过建立ARIMA(1,2,1)模型对我国1949—2017年人口总数进行了拟合、预测.ARIMA(1,2,1)模型通过了系数、模型显著性检验,且残差项均处于2倍标准差内,对我国人口总数序列的拟合程度较好.预测认为我国2019年及2020年的人口总数分别为140453.6048、141162.1572万人.
参考文献:
〔1〕陈艳玫,刘子锋,李贤德,黄奕祥.2015—2050 年中国人口老龄化趋势与老年人口预测[J].中国社会医学杂志,2018,35(05):480-483.
〔2〕赵华,薛红艳.基于ARIMA模型的河北省人口预测[J].时代金融,2013(24):125-126.
〔3〕唐宇,余娇娇.重庆市人口预测与发展趋势分析[J].现代商贸工业,2019,40(23):4-8.
〔4〕陈艳玫,刘子锋,李贤德,黄奕祥.2015—2050 年中国人口老龄化趋势与老年人口预测[J].中国社会医学杂志,2018,35(05):480-483.
〔5〕韩绍庭,周雨欣.多元线性回归与ARIMA在中国人口预测中的比较研究[J].中国管理信息化,2014,17(22):100-103.
中图分类号: O212
文献标识码: A
文章编号: 1673-260X(2019)09-0010-03
收稿日期: 2019-07-08
基金项目: 2017年度广东省哲学社会科学规划项目(FBJG20170270)
标签:人口预测论文; ARIMA模型论文; 纯随机序列检验论文; 华南师范大学数学科学学院论文;