基于R语言的迪基-福勒检验的蒙特卡罗模拟*
安 军
(重庆工商大学 数学与统计学院,重庆 400067)
摘 要: 迪基-福勒(Dickey-Fuller)检验是时间序列的平稳性检验中常用的一种方法;由于检验统计量的极限分布是由标准维纳过程关于轨道的积分来表达的,很难得到其密度函数的显式表达式,因而确定检验临界值非常困难,蒙特卡罗方法是解决这类问题的金钥匙;基于R语言对t 统计量的平稳性检验的临界值的随机模拟程序进行了研究,填补了文献空白,其计算程序和方法对于金融工程或经济计量统计分析与研究具有广泛的指导意义。
关键词: 时间序列分析;平稳性检验;DF检验;蒙特卡罗方法;R语言
0 引 言
迪基-福勒(Dickey-Fuller)检验(DF检验)[1-8]是时间序列的平稳性检验中常用的一种方法。由于检验统计量的极限分布(DF分布)是由标准维纳过程关于轨道的积分来表达的,很难得到其密度函数的显式表达式,因而确定检验临界值非常困难。
起源于20世纪中期的蒙特卡罗(Monte Carlo)方法[9-12]是以概率统计理论为背景的一类重要的数值计算方法。其基本思想是:在某个设定的概率模型中随机抽样,依据所得的样本计算参数的统计特征,从而得到参数的近似值。迄今为止,蒙特卡罗方法在金融工程学、宏观经济学、计算物理学等诸多领域都有广泛的应用。
R语言是近几年流行的专业从事数据分析和统计绘图的应用软件[11-12]。笔者希望应用蒙特卡罗方法,借助R语言研究DF分布的形态,并对DF检验的分位数进行随机模拟,计算其近似值。尽管不少文献给出了由蒙特卡罗模拟方法计算所得的DF分布的部分样本分位数[3-8],但都没有给出计算过程或模拟程序。本文所给的模拟计算方法及R程序填补了文献空白,其结果对金融或经济计量分析与统计研究具有广泛的指导意义。
1 单位根过程的DF 检验
假设ρ =1,{ε t }是平稳过程,即Eε t =0,Cov(ε t ,ε s )=γ t-s <∞,称满足
要想让学生喜欢识字,首先得让学生没有心理负担,敢于在课堂上畅所欲言,因此创设一种民主平等和谐的师生关系是至关重要的。以往的教学中,教师总处于一种凌驾于学生之上的特殊位置,动辄发号施令,指挥学生,这无疑会压制学生的学习主动性,在课堂上造成“这里的黎明静悄悄”的局面。在识字课上,教师要尊重学生的个体差异和独特体验,选择自己喜欢的方式识字。记字形是识字的一个难点,如:“你有什么好办法记住这位生字朋友的样子?”把生字当成朋友,一下子消除了学生对记字的抵触情绪;让学生自己想办法,激发了他们参与的欲望。
y t =ρy t-1 +ε t
(1)
的一阶自回归过程{y t }是一个单位根过程。如果ρ =1,{ε t }独立同分布,且Eε t =0,Var (ε t )=σ 2<∞,称满足式(1)的{y t }是一个随机游动过程。如果ρ <1,称满足式(1)的{y t }是一个平稳AR(1)过程。
对平稳AR(1)过程{y t },假设T 是样本容量,令
(2)
分别是ρ 的最小二乘估计的标准差的估计以及σ 2的最小二乘估计。检验统计假设
H 0:ρ =ρ 0↔H 1:ρ ≠ρ 0
的统计量t T 如下:
(3)
其中,ρ 0<1。统计量t T 服从自由度为T -1的t 分布,其检验临界值容易获得。
对于原假设H 0:ρ =1的检验问题,当H 0成立时,满足式(1)的一阶自回归过程{y t }不是平稳的,t T 不再服从t 分布。当T →∞时,其极限分布为
(4)
其中,{W (r )}是标准维纳过程。此检验问题的另一个统计量亦有类似极限分布:
(5)
它们都是非标准和非对称的分布,统称为DF分布,其密度函数无显式表达式,只能做近似计算。
2 维纳过程及DF 分布的统计特征
随机过程{W (t ),t ∈[0,T ]},T >0,如果满足:
(i)W (0)=0;
(ii){W (t ),t ∈[0,T ]}具有独立增量,即对于区间[0,T ]的任一分割0=t 1<t 2<…<t N =1,随机变量W (t 2)-W (t 1),W (t 3)-W (t 2),…,W (t N )-W (t N-1 )相互独立;
(iii)对任意0≤s <t ≤T ,都有
支架置入术对锁骨下动脉及椎动脉起始部狭窄患者狭窄两端血管内压力差的影响…………………………………………………………… 高宇海,石进,陈大伟,等 37
W (t )-W (s )~N (0,σ 2(t -s ))
(6)
则称{W (t )}是[0,T ]上的维纳过程(或布朗运动)。若σ =1,则称{W (t )}是[0,T ]上的标准维纳过程(或标准布朗运动)。当W (t )看成时间t 的函数时,称它是维纳过程{W (t )}的轨道,维纳过程的轨道是t 的连续函数。
令Δt =t i -t i-1 >0,由式(6)可知:
W (Δt )~N (0,Δt )
W (t +Δt )-W (t )~N (0,Δt )
(7)
注意,由式(7)得到[0,T ]上的标准维纳过程的轨道的模拟算法可以按以下步骤进行:
(1) 产生一个标准正态分布的随机变量z ;
(2)i =i +1;
(3) 令
(4) 如果i ≤N ,则重复第(1)步。
至于每一个区间(t i ,t i+1 )内的值,通常用线段连接。而区间(t i ,t i+1 )内的值对于模拟计算积分并不重要。
下面用R语言模拟式(4)右端的随机变量(DF分布)的概率密度函数,并绘制直方图和密度函数曲线,考察其分布形态,如图1所示。
>n <-10 000;N <-5 000 # n 是样本容量,对[0,1]区间等分成N 个小区间
>delta <-1/N # 计算每个小区间长度
>W <-matrix (rep (0,times =n *N ),ncol =N ,nrow =n ) # 产生一个n ×N 的零矩阵
> for(j in 2:N )
7月15日,毕节飞雄机场,贵阳至毕节航班到达后,聂艳走下飞机,步行10多分钟,回到了自己位于金海湖新区响水乡腾飞社区的家中。
>W 1<-rnorm (n ) # 注意W 1是标准正态分布
> intW 2<-apply (W^ 2*delta ,1,sum ) # 对矩阵每一行求和,计算标准维纳过程的平方的积分
>stat <-1/2*(W 1^ 2-1)/sqrt (intW 2) # 得到DF分布的n 个值
线条表面平滑而呈黑色,这种腹中线没有腹壁断裂,只是体质原因导致黑色素沉积而已,并非孕妇特有,未孕育人群也可发生。
>hist (stat [stat <5],freq =F ,ylim =c (0,0.7),breaks =seq (-5,5,length =20)) # 绘制直方图
>lines (density (stat ),col ="red ",ylim =c (0,1)) # 添加密度函数曲线
>abline (v =0,col ="blue ",lwd =2)
图1 DF分布的密度函数曲线模拟图
Fig. 1 Simulated curve of density function for DF distribution
[1]-2.22 641
rhoT <-rho 3/rho 2 # 计算ρ T 的最小二乘估计值
+W [,j ]=W [,j -1]+rnorm (n )*sqrt (delta ) # 模拟标准维纳过程的n 条轨道
[1] 0.01 237 375
时间函数f(t)、启发函数ηij与转移概率(t)的关系为f(t)↓⇒ηij(t′)↑⇒(t)↑,体现了动态交通变化特征,适用于实际出行交通信息服务。同时Lk代表蚂蚁k搜寻路径上行程花费总时间。
>sd <-sd (stat ) # 标准差
>sd
[1]1.669 781
>ks .test (stat ,"pnorm ",mu ,sd ) # 用K-S检验法进行正态性检验表明不是正态分布
One-sample Kolmogorov-Smirnov test
data: stat
D =0.18 755, p -value <2.2e -16
采用STM32F103ZET6单片机芯片作为主控,它负责控制整个硬件电路和程序的运行。如图3所示,STMF103ZET6需要2个晶振,其中一个晶振常用于外部高频使用,如上图中的Y2,主要起到倍频用;另一个晶振用作外部低频晶振,如上图中的Y1,其主要作用是系统待机使用。
alternative hypothesis: two-sided
用以上蒙特卡罗模拟方法可类似研究式(5)右边的极限分布的统计特征。
3 蒙特卡罗模拟计算DF检验的临界值
对一般的单位根过程可以用菲利普-佩荣(Phillips-Perron)检验法或增广迪基-福勒(ADF)检验法[1-3]。现在考虑随机游动过程{y t },并假定{ε t }独立同N (0,σ 2)分布,其参数的最小二乘估计由式(2)给出。对单边检验问题:
H 0:ρ =1↔H 1:ρ <1
(8)
其检验统计量t T 如式(3)定义。因此,对给定的显著性水平α ,检验临界值u α 确定如下:
P (t T <u α )=α
当检验统计量t T <u α 时应拒绝原假设。下面借助R语言用两种方法近似计算临界值u α 。
第一种方法是从模型中抽取样本用蒙特卡罗模拟计算,R程序如下:
>quant 1<-function (p ,m =1 000,T =200){
y <-t (apply (eps ,1,cumsum )) # 对矩阵eps 的每一行求累积和得到矩阵y
eps <-mapply (rnorm ,rep (m ,T )) # 从标准正态分布中抽样,产生m ×T 的矩阵
⑱Helena Machado,“Biologising Paternity,Moralising Maternity:The Constitution of Parenthood in the Determination of Paternity Through the Courts in Portugal”,Feminist Legal Study,215(16),2008,p.221.
rho 2<-apply (y [,-T ]^ 2,1,sum ) # 对y 的每一行去掉最后一个元素后求平方和
n <-1 000
for(t in 2:T )
b [,t ]=y [,t ]*y [,t -1]
rho 3<-apply (b ,1,sum ) # 计算式(2)中第一个分式的分子
>mu
克旱攻坚,云南近几年水利建设成绩斐然,但水利基础设施薄弱对云南经济社会发展的瓶颈制约依然没有根本改变。必须毫不松懈地加快实施兴水强滇战略,以破局、谋变、突围的大手笔继续提速云南治水兴水步伐,从根本上全面提高云南水利基础保障水平。
sigma 1<-matrix (rep (0,m *T ),nr =m ,nc =T )
for(t in2:T )
Waters Acquity UPLC-TQ-D型液质联用仪(美国,Waters公司),H1650R台式高速冷冻离心机(中国,上海卢湘仪离心机仪器有限公司),BT125D电子天平(德国,赛多利斯股份公司),G560E涡旋混合器(美国,Scientific Industries公司)。
sigma 1[,t ]=(y [,t ]-rhoT *y [,t -1])^ 2
sigma 2<-apply (sigma 1,1,sum )
sigma <-sqrt (sigma 2/(T -1)) # 求σ T 的估计值
t_T <-(rhoT -1)*sqrt (rho 2)/sigma # 求统计量t T 的值
其中P(Wk|Cj),为模式Wk在电子邮件中的占比,|D|为该类邮件的训练数N(Wk,di)为模式Wk在dt中所出现的次数,|V|为该类特征下对应的所有模式总和。
quantile (t_T ,probs =p ) # 输出1个样本p 分位数值
传承红色基因的无上荣誉与使命感,激励着二二〇七人健步走过风雨兼程的八十余载岁月。而今,新篇章开启,二二〇七人又将踏上新的征程,朝着百年基业的目标奋进。
+}
此次研究中,为患者进行护理,共有30例患者,采取积极的救治和护理后,有24例显效,5例有效,1例无效,临床护理的有效率是96.67%。在住院的过程中没有出现肺部感染的病例,患者接受有效的翻身和按摩护理,没有出现压疮并发症病例,全部患者没有死亡病例,均顺利出院。
>quant <-function (p ,n =1 000){
b <-matrix (rep (0,m *T ),nr =m ,nc =T )
s <-replicate (n ,quant 1(p )) # 调用函数quant1重复计算n 次产生n 个p 分位数
mean (s )
}
本课题采用棋盘作为标定物体,棋盘是由不同黑白方块构成的平面格子。棋盘的标示点与其他标定物相比比较明显,处理起来也比较容易。将棋盘以不同的位置和角度放置,并采集相应图像,检测每组标定模板图像的角点,通过前面的几个步骤,得到多幅图像的角点数据后,可以调用OpenCV中的函数cvCalibrateCamera2()来进行摄像头的标定。由这个函数可以得到摄像头的内参数矩阵、畸变系数、旋转向量和平移向量。前两个构成摄像头的内参数,后两个构成了物体位置和方向的摄像头外参数。
>quant (0.025)
>mu <-mean (stat ) # 数学期望
>quant (0.95)
[1]1.287 814
在文献[4]的第593页“附表G”(Table G Empirical Cumulative Distribution of T forΦ =1)可以看到,当n =1 000时,对应的0.025分位数是-2.23,对应的0.95分位数是1.28,与前面得到的分位数-2.226 41及1.287 814非常接近。
第二种方法是从极限分布中抽取样本用蒙特卡罗模拟计算,R程序如下:
>intofW <-function (n ,delta =1/1 000){ # 此函数的目的是从DF分布中抽取n 个样本
N =1/delta # 将区间[0,1]分割成N 等分
W <-matrix (rep (0,times =n *N ),ncol =N ,nrow =n ) # 产生一个n ×N 的零矩阵
for(j in 2:N )
W [,j ]=W [,j -1]+rnorm (n )*sqrt (delta ) # 模拟标准维纳过程的n 个轨道
intW 1<-apply (W *delta ,1,sum ) # 计算标准维纳过程在[0,1]上的积分
intW 2<-apply (W^ 2*delta ,1,sum ) # 计算标准维纳过程的平方在[0,1]上的积分。
1/2*(intW 1^ 2-1)/sqrt (intW 2) # 输出DF分布的n 个样本值
}
>quant <-function (p ,n =1 000,m =1 000){ # 此函数产生DF分布的p 分位数的近似值
t <-mapply (intofW ,rep (n ,m )) # 调用intofW 函数重复计算产生n ×m 的样本矩阵
q <-apply (t ,2,quantile ,probs =p ) # 对矩阵t 的每一行求得一个样本的p 分位数
mean (q ) # 将所得的n 个样本分位数取平均,输出DF分布的p 分位数的近似值
}
>quant (0.025)
[1]-2.351 553
>quant (0.95)
[1]0.1 069 714
4 结束语
第一种方法是从模型中抽取样本,得到统计量的值与样本容量n 有关。文献[4]P593附表G与文献[5]P642附表10.A.2所给出的临界值是用第一种方法计算的,即Empirical Cumulative Distribution(经验累积分布)。第二种方法是从极限分布中抽取样本求得的分位数,两种方法不同,所得结果有一点偏差是可以理解的。
将以上程序进行微小修改便得到统计量的相应计算程序。至于DF检验还有其他类型或ADF检验的各种类型的蒙特卡罗模拟,将所给的方法及程序作相应修改即可得到。
致谢: 衷心感谢西藏民族大学财经学院汪朋博士在作者写作过程中所给予的热情帮助!
参考文献:
[1] 史代敏,谢小燕. 应用时间序列分析 [M]. 北京:高等教育出版社,2011
SHI D M, XIE X Y. Applied Time Series Analysis [M]. Beijing: Higher Education Press, 2011(in Chinese)
[2] 王黎明,王琏,杨楠. 应用时间序列分析 [M]. 上海:复旦大学出版社,2009
WANG L M, WANG L, YANG N. Applied Time Series Analysis [M]. Shanghai: Fudan University Press, 2009 (in Chinese)
[3] 陆懋祖. 高级时间序列经济计量学 [M]. 北京:北京大学出版社,2015
LU M Z. Advanced Time Series Econometrics [M]. Beijing:Peking University Press, 2015(in Chinese)
[4] WILLIAM W S. Time Series Analysis: Univariate and Multivariate Methods[M]. New York: Pearson Addison Wesley, 2006
[5] FULLER W A. Introduction to Statistical Time Series[M]. New York: John Wiley & Sons, Inc, 1996
[6] DICKEY D A. Estimation and Hypothesis Testing in Non Stationary Time Series [D].Iowa: Iowa State University, 1976
[7] DICKEY D A, FULLER W A. Distribution of the Estimators of Autoregressive Time Series with a Unit Root [J]. Journal of the American Statistical Association, 1979, 74: 427—431
[8] 詹姆斯·汉密尔顿,时间序列分析 [M].夏晓华,译.北京:中国人民大学出版社,2015
HAMILTON J D.Time Series Analysis [M]. XIA X H,Translated.Beijing: China Renmin University Press, 2015(in Chinese)
[9] 徐钟济. 蒙特卡罗方法 [M]. 上海:上海科学技术出版社,1985
XU Z J. Monte Carlo Methods [M]. Shanghai: Shanghai Sciences and Technology Press, 1985(in Chinese)
[10]李东风. 统计计算 [M]. 北京:高等教育出版社,2016
LI D F. Statistical Computing [M]. Beijing: Higher Education Press, 2016(in Chinese)
[11]薛毅,陈立萍. 统计建模与R软件 [M]. 北京:清华大学出版社,2007
XUE Y, CHEN L P. Statistical Modeling and R Software [M]. Beijing: Tsinghua University Press, 2007(in Chinese)
[12]STEFANO M I. Simulation and Inference for Stochastic Differential Equations with R Examples[M]. New York: Springer, 2008
Monte Carlo Simulation of Dickey-Fuller Test Based on R Language
AN Jun
(School of Mathematics and Statistics, Chongqing Technology and Business University, Chongqing 400067, China)
Abstract :Dickey-Fuller test is a commonly used method in the stationary test of time series.Because the limit distribution of its statistics is expressed by the integral of the standard Wiener process about its trajectory. It is very difficult to obtain the explicit expression of its density function, so it is very difficult to determine the critical value of test. Monte Carlo method is the golden key to solve this kind of problem. Based on R language, we study the critical value of stochastic simulation program for statistic stationarity test, which fills in the blank of literature. Its calculation program and method have a wide range of guiding significance for financial engineering or econometric statistical analysis and research.
Key words :time series analysis;test for stationary; Dickey-Fuller test; Monte Carlo method; R Language
doi: 10.16055/j.issn.1672-058X.2019.0003.003
中图分类号: C32, O242. 1
文献标志码: A
文章编号: 1672-058X( 2019) 03-0014-04
收稿日期: 2019-01-7
修回日期: 2019-03-01.
* 基金项目: 重庆市教委自然科学基金项目(KJ130705);重庆工商大学经济社会应用统计重庆市重点实验室开放基金项目;重庆工商大学校级教改课题(2018214).
作者简介: 安军(1964-),男,四川安岳人,副教授,从事概率论及数理统计研究.
责任编辑:罗姗姗
引用本文 / Cite this paper:
安军.基于R语言的迪基-福勒检验的蒙特卡罗模拟[J].重庆工商大学学报(自然科学版),2019,36(3):14—17
AN J.Monte Carlo Simulation of Dickey-Fuller Test Based on R Language[J].Journal of Chongqing Technology and Business University (Natural Science Edition),2019,36(3):14—17
标签:时间序列分析论文; 平稳性检验论文; DF检验论文; 蒙特卡罗方法论文; r语言论文; 重庆工商大学数学与统计学院论文;