基于ARIMA模型对我国农村人口的预测分析
官 银1,李新月1,朱家明2
(1.安徽财经大学会计学院,安徽 蚌埠 233000;2.安徽财经大学统计与应用数学学院,安徽 蚌埠 233000)
摘 要: 一个国家发展的好坏很大一部分取决于农村的发展,而农村的发展离不开人口数量的支撑。针对世界银行公开数据库中公布的1970~2015年中国农村人口数,建立了ARIMA 模型对其进行预测。从数据的平稳性检验、模型的识别与定阶、参数估计、模型适应性检验、模型误差分析和模型预测六个方面对模型进行了检验,最终得出ARIMA(1,2,1)模型对我国农村人口的预测最为准确。最 后,对我国未来十年的农村人口进行预测,发现呈逐年下降趋势,并提出相应的政策建议。
关键词: ARIMA 模型;人口预测;农村人口;经济发展
引言
随着我国经济的高速发展,人口的流动速度越来越快,越来越多的年轻人选择在大城市发展,从而导致我国农村人口的数量急剧下降[1]。农村人口变迁和其生产、组织、社会保障等问题密切相关,而农村的发展好坏直接关系着我国总体的发展水平,农村好的发展离不开足够的劳动力[2]。因此,对我国农村人口未来变化的预测与分析是十分有必要的,通过观察其未来的人口变化趋势,可以为政府等相关部门提供制定相关政策的依据。
蛋白质电泳仪(北京六一生物科技有限公司)、恒温恒湿培养箱(宁波赛福实验仪器有限公司)、Sky-1102C 型全温度恒温摇床培养箱(上海苏坤实业有限公司)、FC型酶标仪(赛默飞世尔仪器有限公司)、超纯水机(成都优普生物科技有限公司)、PCR扩增仪(德国耶拿分析仪器股份公司) 。
目前,预测的方法有很多种,如:灰色预测、指数平滑法、线性回归预测等,这些方法都有其各自的优势。但是,对于时间序列数据目前最常用的并且也最准确的就是ARIMA 模型预测和ARMA 模型预测。其中,ARMA 模型预测主要用于平稳性时间序列预测,ARIMA 模型预测主要用于非平稳时间序列预测。因此,在使用前都需要对时间序列进行平稳性分析,然后再选择用哪一种方法进行预测分析。但是,即使是ARIMA 模型最终还是回归于ARMA 模型,在对非平稳时间序列数据进行若干次差分之后,数据将会变为平稳性数据,此时仍然是做出自相关图和偏自相关图从而确定模型的参数p 和 q,ARIMA 模型的建模基本步骤[1]见图1,主要有:数据的平稳性检验、模型的识别与定阶、参数估计、模型适应性检验、模型误差分析和模型预测六个方面。
根据水稻缺素发生僵苗的典型症状,相应地补施所缺元素。缺磷田块可施用过磷酸钙225~375kg/hm2;缺钾田块可施用氯化钾或硫酸钾112.5~225.0kg/hm2;缺锌田块可撒施硫酸锌15~30kg/hm2,或用0.2%的硫酸锌溶液叶面均匀喷雾。
图1 ARIMA 模型建模步骤
1.文献综述
赵华、薛红艳[3]指出预测人口数量对引导适当人口规模的重要性,在文章中对河北省1952-2010年总人口数据进行分析,得出河北省在此期间人口数量呈持续上升状,且其原始序列数据是非平稳的。为消除原始序列数据趋势并降低其波动性,文章针对原序列数据进行一阶逐期差分处理,经过检验大致消除了原序列趋势。运用此模型预测该省2013-2017年人口数量,得出河北省人口数量将持续增长的结论。
根据Strauss和Corbin的观点,扎根理论利用三个阶段的编码方式用以裂解原始资料、概念化,并重新产生新的形式,此三个阶段编码包括开放编码、主轴编码与选择编码。[21]三个阶段编码通常也被称为三级编码。为了更有效率地进行编码分析,本研究借助了质性分析软件NVivo11.0。
2011年以来,随着中央1号文件的发布和中央水利工作会议的召开,我国水利建设阔步“走进新时代”,好形势让人欢欣鼓舞,尤其是10年4万亿元这个数字,让水利企业信心倍增。一边是水利投资带来的巨大市场空间,一边是企业四处寻找商机的迫切愿望,在这种背景下,实现产品和市场的有效“对接”,让好技术切实应用到水利建设实践中,成为一项重要而具有现实意义的工作。
郑小凤,沈姮等[5]在文章中简要介绍了时间序列分析对动态数据预测的重要性,通过分析我国2013年底总人口数情况,利用Stata 软件进行单位根检验,确定所用序列具有平滑性。在此基础上建立ARIMA 模型,对2014年和2015年中国人口数进行预测,得出我国人口增长总体态势较平稳的结论。
郭敏,田荟等[6]对ARIMA 方法进行了简要介绍,并结合历年来人口政策对我国1950-2016年人口出生率进行分析。借助EVIEWS 软件与ARIMA建模方法,将ARIMA 模型运用到我国人口出生率预测中,根据不同模型SC 和AIC 的值,识别确定选取ARIMA(0,1,2)模型,依此预测我国2018年人口出生率约为13.06%,可为我国政府政策制定提供参考。
根据以上研究,可发现时间序列模型在人口数量分析中备受青睐。本文以全国农村人口为总体建立ARIMA 模型,对未来农村人口数量进行预测研究,以期为政府制定相关政策提供一定判断依据。
2.数据来源与描述性统计分析
本文所用到的1970~2015年中国农村人口数量数据均来自于世界银行公开数据库。为了对数据的总体情况有一个大概的了解,本文将数据进行了描述性统计分析,具体结果见表1。
通过表3可以看出一阶差分后的数据仍然为非平稳数据。接下来,对其进行二阶差分,二阶差分后继续进行ADF 检验,得到的检验结果见表4。
表1 1970~2015年中国农村人口数据描述性统计分析单位:万人
通过观察表5的计算值,可以看出参数(1,1)使 BIC 的值最小,参数(2,1)使 AIC 的值最小。因此进一步比较他们的拟合效果,对参数 (1,2,1)和(2,2,1)对应的模型分别作出模型的拟合图(见图6和图7)。
通过图2可以明显看出我国农村人口的变化数据是不平稳的,对于非平稳的时间序列,可以采用差分的方法将其变成平稳的时间序列数据。首先可以利用公式(1)对其进行一阶差分,如果一阶差分之后,数据仍然为非平稳数据,则利用公式(2)对其进行二阶差分,以此类推直到数据变为平稳的时间序列数据。
图2 1970~2015年中国农村人口时序图
3.ARIMA模型的建立与求解
3.1 数据平稳性检验与预处理
同时,做出1970~2015年我国农村人口的时序图,见图2。通过时序图可以看出我国农村人口先迅速增长,到了20 世界90年代开始逐年下降。
通过对材料、目标配合比的设计以及生产配合比的设计三个方面来对SUP-13沥青混合料的设计进行分析之后,设计人员可以更好的了解到进行混合料设计过程中需要注意的问题。并且通过施工地区的气候条件以及施工需求,设计人员可以不断对SUP-13沥青混合料的设计进行调整和完善,从而更好的完成SUP-13沥青混合料的设计工作。
为了更具有说服力,首先对原始数据进行ADF检验[8-9],计算结果见表2。
表2 原始数据ADF 检验表
通过ADF 检验可以看出t-统计量在0.1 置信区间之外并且P 值为0.9273 远大于0.05,因此可以看出原始数据的确为非平稳数据。接下来,对原始数据进行一阶差分,并对差分后的数据进行ADF检验,具体结果见表3。
首先输入包含c个类别的人脸和人耳训练样本矩阵分别记为,其中Ai=[ai,1,ai,2,…,ai,m](i=1,2,…c)表示第i个类别的m个测试样本。然后人脸人耳的训练样本特征向量可由Df=(Pf)TAf,De=(Pe)TAe计算得到,其中Pf,Pe分别为人脸人耳的由主成分构成的投影观测矩阵。最后,对人脸人耳测试样本分别进行PCA特征提取,zf=(Pf)Tyf,ze=(Pe)Tye,其中yf和ye分别记为人脸测试样本和人耳测试样本,zf,zε分别表示人脸、人耳测试样本的特征向量。
表3 一阶差分后数据ADF 检验表
通过分析,我们还发现:几乎所有的控制单元,都有一个12V常电供电,且只有打开点火开关,才有12V的电源供电。因为此线上连接有很多个用电设备和控制单元,具体是哪一个设备或是控制单元损坏(控制单元内部12V常电与开点火开关12V之间形成轻微短路)引起的虚压,暂时还不能确定。
表4 二阶差分后数据ADF 检验表
通过检验结果可以看出二阶差分之后的数据为平稳性数据,P 值为0.0179 小于0.05。与此同时,绘制出二阶差分后的中国农村人口时序图 (见图3),可以直观地看出二阶差分后数据为平稳的。因此,可以确定参数d 的值为2。
图3 二阶差分后时序图
3.2 ARIMA模型识别与定阶
MAE、RMSE、MAPE 的表达式分别为:
图4 序列自相关图
图5 序列偏自相关图
3.3 时间序列模型参数估计
重复拟合ARIMA(p,d,q)模型中的参数p 和q的各种可能取值,并计算相应参数对应的AIC 值和BIC 值来初步判定模型的最佳阶数,计算结果见表5。
观察组实习生出科时实践能力评分为(92.84±3.16)分,病案分析能力评分为(93.77±4.22)分;对照组实习生出科时实践能力评分为(79.23±5.66)分,病案分析能力评分为(81.76±6.85)分。观察组实践能力评分高于对照组,差异具有统计学意义(t=4.31,P<0.05),病案分析能力评分高于对照组,差异具有统计学意义(t=3.76,P<0.05)。
表5 农村人数的AIC 值和BIC 值
通过统计分析可以看出我国农村人口的均值为76612.8 万人,最多的时候达83647.9 万人,最少的时候达60862.9 万人,可以看出我国农村人口的数量变化较大。
图6 ARIMA(1,2,1)拟合曲线
通过比较 ARIMA(1,2,1)和 ARIMA(2,2,1)模型拟合的结果,看出两者相差不大,拟合结果几乎一样。因此,在这里无法判断ARIMA(1,2,1)和ARIMA(2,2,1)模型哪一个更好,再继续对其做相关的检验。
图7 ARIMA(2,2,1)拟合曲线
3.4 ARIMA模型的适应性检验
为了得到模型的适应性,模型残差序列进行白噪声检验,得到它们的残差序列图见图8和图9。与此同时进行了Box 检验,得到ARIMA(1,2,1)在6阶延迟和12 阶延迟下 p 值为 0.8285 和 0.7192,得到 ARIMA(2,2,1)在 6 阶延迟和 12 阶延迟下 p 值为0.9119 和0.8425,说明残差为白噪声序列,建立的ARIMA 模型是适用的。
图8 ARIMA(1,2,1)模型残差序列图
图9 ARIMA(2,2,1)模型残差序列图
4.ARIMA模型预测与误差分析
4.1 ARIMA模型误差分析
分别对 ARIMA(1,2,1)和 ARIMA(2,2,1)模型进行误差分析,选用平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分误差(MAPE)作为评估模型效果的标准。
绘制二阶差分后的时间序列的自相关图(ACF)和偏自相关图(PACF)初步识别 p,q 的值。通过图4可以看出,ACF 第一阶后呈截尾状。通过图5看出,PACF 第一阶后呈拖尾状,因此可初步判定差分后的序列适合ARIMA(1,2,1)模型。
通过计算结果 (见表6)可以看出,ARIMA(1,2,1)比 ARIMA(2,2,1)模型稍好,误差相对较小,因此最终选定ARIMA(1,2,1)模型对我国的农村人数进行预测。
郑红云[4]根据深圳市1979-2010年常住人口数据进行了 ARIMA(1,1,0)模型拟合,得出未来十年深圳市常住人口的预测数据,并运用ARIMA(1,0,0)拟合了深圳市 1979-2010年常住人口中每千人床位数,拟合效果较好。预测结果表明,预期该市今后十年的常住人口量超过1300 万人,且该市每千人床位数将持续位于较低状态,而市民将需要继续面临较大的就医压力。
表6 不同参数对应模型误差
4.2 ARIMA模型预测
利用得到的ARIMA(1,2,1)模型对我国未来十年的农村人口进行了预测(见图10),为了更加精确的看出预测结果,将得到的预测结果做成表格见表7。通过预测结果,可以看出我国农村的人口数量逐年减少,农村人口严重流失。这也与我国真实的情况相符,越来越多的人离开了农村,导致我国农村人口大量流失。
图10 ARIMA(1,2,1)模型预测结果
表7 未来十年我国农村人口预测数量
5.结论与政策建议
本文建立了ARIMA 模型对我国的农村人口进行预测,通过数据的平稳性检验、模型的识别与定阶、参数估计、模型适应性检验和模型误差分析五个步骤确定了ARIMA 模型的三个参数,最终选择了ARIMA(1,2,1)模型对数据进行拟合以及预测。根据预测结果可以看出我国未来的农村人数呈现逐年下降的趋势,这可能会让我国的农村劳动力严重下滑,对未来的发展产生深远影响[10]。
基于上述结论,对于我国农村人口数量发展给出以下政策建议:
第一,对农村劳动力涌向城市的过程进行规范与引导。在农村劳动力的转移过程中,提高其转移有序性,避免发生农村耕地无人照料而城市农民工过剩的现象。
第二,对农村人口发展现状进行实地调研,适时适度对我国人口政策进行调整,为城市和农村劳动力的平稳有效供给提高保障。
第三,提高政府支持力度。一方面,完善三农政策。鼓励和号召更多的农民留在农村,吸引那些常年在外工作具备经验和胆识的农民回村,为农村建设添砖加瓦。另一方面,政府可出台相关政策鼓励高技术人才加入农村建设中,保证其工作条件,为其提供一片广阔天地大展身手[11]。
第四,大力发展农村生产力,加速农业现代化发展进程。国家应制定相关政策提升农业科技水平,让机器代替手工劳动,修缮农村相关水利设施,为农村发展和农民生活谋福。此外,应注重引导适量的规模化企业往农村农业投资,给农业可持续发展铺好道路。
因此,政府等相关部门应该尽快制定相关的政策,减少农村人口的流失,让我国的农村保持竞争力和活力。
参考文献:
[1]颜姜慧,朱舜.农村人口转移趋势及空间指向研究[J].中国人口·资源与环境,2017,27(05):146-152.
[2]严丽丽,我国农村人口问题及其全面发展初探[J].湖北农业科学,2011,50(17):3647-3650.
[3]郭敏,田荟,张施伟.我国人口出生率预测——基于ARIMA 模型分析[J].现代经济信息,2018(19):4-6.
[4]郑小凤,沈姮,夏之垚.关于我国人口总数的ARIMA 模型[J].中国市场,2014(51):60+66
[5]赵华,薛红艳.基于ARIMA 模型的河北省人口预测[J].时代金融,2013(24):125-126.
[6]郑红云.ARIMA 模型在深圳人口与医疗需求预测的应用[J].山东轻工业学院学报(自然科学版),2012,26(04):44-49.
[7]葛娜,孙连英,赵平,万莹.基于 ARIMA 时间序列模型的销售量预测分析[J].北京联合大学学报,2018,32(04):27-33.
[8]叶宗裕.ADF 单位根检验法的替代方法[J].数量经济技术经济研究,2017,34(06):148-161.
[9]司登奎,李小林,张仓耀.分位数单位根检验的拓展及其应用研究[J].统计研究,2017,34(05):102-117.
[10]穆光宗,茆长宝,吴金晶,常青松,刘桂华.乡土中国的人口弱化和优化研究[J].中国农业大学学报(社会科学版),2013,30(03):61-71.
[11]韩立民,宋仁登.山东省农村人口状况及其对经济社会影响[J].山东大学学报(哲学社会科学版),2012(03):43-47.
Prediction and Analysis of Rural Population in China based on ARIMA Model
GUAN Yin1,LI Xinyue1,ZHU Jiaming2
(1.College of Accounting,Anhui University of Finance and Economics,Bengbu Anhui 2333000;2.College of Statistics and Applied Mathematics,Anhui University of Finance and Economics,Bengbu,Anhui 233000 )
Abstract: A large part of a country's development depends on the development of the countryside,and the development of the countryside can not be separated from the support of the population.The ARIMA model was established to predict the rural population of China from 1970 to 2015,which was published in the World Bank Open Database.The model is tested from six aspects: data stationarity test,model identification and order determination,parameter estimation,model adaptability test,model error analysis and model prediction.Finally,it is concluded that ARIMA (1,2,1)model is the most accurate prediction model for rural population in China.Finally,we forecast the rural population in China in the next ten years,find that the trend is decreasing year by year,and put forward corresponding policy recommendations.
Key words: ARIMA model; population forecast; rural population; economic development
中图分类号: F207 O21
文献标识码: A
文章编号: 2095-7327(2019)-07-0015-06
作者简介: 官银(1981-),女,安徽蚌埠人,安徽财经大学会计学院讲师,硕士,研究方向:审计学。
通讯作者: 朱家明(1973-),男,安徽宿州人,安徽财经大学统计与应用数学学院副教授,硕士,研究方向:概率统计。
基金项目: 国家自然科学基金 (11601001);安徽财经大学教研项目(acxkjsjy201803zd;acjyyb2018006)。
编辑:崔月华
标签:ARIMA模型论文; 人口预测论文; 农村人口论文; 经济发展论文; 安徽财经大学会计学院论文; 安徽财经大学统计与应用数学学院论文;