GARCH类模型波动率预测评价,本文主要内容关键词为:模型论文,评价论文,GARCH论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:F830 文献标识码:A
引 言
金融市场中,无论是在金融衍生产品的定价、金融风险的测定还是在资产组合分析中,波动率扮演了一个重要的角色。到目前为止,测定波动率的方法有四种:一是历史波动率;第二种方法是隐含波动率;第三种方法是通过GARCH类模型进行估计,这种方法目前成了主流;第四种方法是通过随机波动率(SV)模型进行估计得到。在衡量以上四种方法的优劣时,通常有两个标准:一方面是模型是否能刻画历史数据的特征,即样本内预测的表现;另一方面,也是更重要的,是模型能否预测未来的波动率,即样本外预测的表现。对于第一个标准来说,对模型的检验基本上可以做到,经验表明,由Engel(1982)发展起来的GARCH类模型表现较好[1]。
就样本外预测能力的评价来说,主要有两种方法,一是运用Mincer和Zarnowitz(1969)发展的M-Z回归方法(Mincer-Zarnowitz regression)[2]。二是利用损失函数。但这两种方法首先都必须对样本外事后波动率进行估计。最初,在评估样本外的预测时,用扰动项的平方充当事后波动率,但模型的表现很差,这引发了一场讨论,并令人对GARCH类模型的实用性产生了怀疑[3]。
从而,严格的说,这种评价波动率预测表现的方法是不合适的[4]。Andersen和Bollerslev(1998)基于Nelson(1990)、Drost和Werker(1996)发展的连续时间随机波动框架,利用高频数据构建了日内收益率的波动率(intra-dayvolatility)作为事后波动率,这就是已实现波动率(realized volatility)[5]。在把扰动项的平方替换成已实现波动率后,作者从理论和实证两方面证明随机波动率模型的表现很好。Andersen,Bollerslev,Diebold和Labys(2003)给出了已实现波动率的理论解释[6]。
国内有关波动率的研究侧重于运用GARCH类模型或者SV模型对我国股票市场的特征进行刻画,但对波动率预测效果的研究较少。魏巍贤等(1999)比较了标准GARCH,QGARCH以及GJR模型对日波动率(inter-day volatility)的预测效果,发现QGARCH的预测力要胜出一筹,但用日收益率的平方作为事后波动率,显然不可信[7]。徐正国和张世英(2004)运用调整的已实现波动率,发现ARFIMAX模型的预测能力最好,但文中没有全面比较GARCH类模型[8]。周林(2006)运用已实现波动率,并借助损失函数来衡量预测能力,发现GARCH类模型的预测能力并不好,但作者没有用高频数据来估计已实现波动率[9]。因此,国内在波动率预测效果的研究方面还欠缺全面的比较和正确的衡量,还不足以得出GARCH类模型的波动率预测能力是否优劣的结论。基于这些认识,本文运用已实现波动率来度量事后波动率,分别运用M-Z回归及损失函数,全面评价GARCH类模型在我国股票市场收益波动率的预测表现。
一、模型与数据
(一)GARCH类模型介绍
(1)ARCH模型
条件异方差模型可以分为两类,第一类是用确定的函数来刻画,如ARCH模型;第二类是用随机方程来描述,如随机波动率模型。ARCH模型称为自回归条件异方差(Autoregression Conditional Heterskedasticity)模型,是由Engel(1982)发展起来的[10]。ARCH(q)模型可表示如下:
模型表明,正的残差与负的残差对条件方差的影响是不一样的。
(5)APARCH模型
Ding,Granger和Engle(1993)发展了更为灵活的APARCH模型,来捕捉金融时间序列的非对称性[14]。
(4)预测效果检验:损失函数
损失函数是一种更为传统的评价指标。尽管Bollerslev et al.(1994),Diebold,Lopez(1996)和Lopez(2001)等指出,与M-Z回归相比,损失函数并不见得更适合来评价波动率的预测效果,但仍不失为一种好的衡量方法[15]。我们采用以下MSE(Mean Squared Error),MAE(Mean Absolute Error),RMSE(Root Mean Squared Error)以及MAPE(Mean Absolute Percentage Error)等4个损失函数来检验预测效果。各个损失函数的方差越小,表明预测误差越小,预测就越准确。
(三)数据
我们采用的样本是上证指数的收盘价。不同的交易制度下市场的波动会产生显著的不同,不宜跨不同的交易制度选择数据。从1996年12月16日至今,中国股市实行有10%涨跌停板限制的T+1交易制度,故本文的样本其间从1997年1月2日起,到2006年9月29日止。其中,1997年到2004年12月31日为日度数据,共1928笔数据,根据式(9)计算出口收益率,用于模型估计。从2005年1月2日到2006年6月五日为5分钟的高额数据,共337个交易日,上海证券交易所每天的交易时间为上午9:30至11:30、下午13:00至15:00。所以共有337×48=16176笔数据,首先根据式(9)计算出5分钟的收益率,其中,每天的第一个日内收益率为9:35的股价对数减去上一个交易日的15:00的股价对数。最后根据式(12)计算每日的已实现波动率。
二、实证分析结果
(一)估计与检验结果
(1)ARCH效应检验
Engel(1982)提出了用拉格朗日乘子(LM test)来检验序列是否存在ARCH效应,其零假设是不存在ARCH效应。检验结果是,(1)=63.920[0.0000],(2)=93.135[0.0000],(3)=118.893[0.0000],小括号为滞后阶数,对应于自由度,方括号中为p值。结果表明,p值很小,即显著拒绝零假设,说明上证指数的收益率具有显著的ARCH效应。检验结果对滞后阶数不敏感,事实上,滞后阶数的选择是不重要的(范剑青,姚椅伟,2005)[16]。
(2)拟合具有高斯误差的GARCH模型
我们用条件极大似然法来估计GARCH模型。极大似然法必须对残差的分布做出假设,我们首先假定残差服从高斯分布,即~i.i.d.N(0,1)。分别对GARCH,EGACH,GJR,APARCH等4个模型进行估计,运用AIC确定模型的阶数,估计结果见表1(略,参见原文)。
结果表明,除了EGARCH外,其余模型的系数都在1%的显著性水平上显著。如果根据AIC来选择具体的模型,应该选择GJR(2,1)。但还必须做出一列的检验。
首先用Ljung-Box Q统计量检验标准化残差的相关性。四个模型的Q统计量所对应的p值都很大,说明四个模型的标准化残差都没有前后相关性。
其次用Engle和Ng(1993)提出了指示偏误检验(Sign Bias Test,SBT)来检验模型的设定是否有误。指示偏误检验考察模型之外的其他的可观测变量是否能够预测波动率,如果能够预测到,则模型设定是有误的。此外,还有两个类似的检验,负面偏误检验(Negative Size Bias Test)以及正面偏误检验(Positive Size Bias Test)强调负的(或者正的)冲击对波动率的影响,同时对以上三个检验共同组成联合检验(Joint Test)。从表1可以看出,四个模型的所有检验都不显著,说明模型以外的可观测变量不能预测波动率,意味着模型设定是正确的,因此,指示偏误检验不能帮助我们选择适当的模型。
最后用调整的泊松拟合优度(adjusted Pearson goodness-of-fit test)来检验残差的经验分布与理论分布(我们所假定的分布)是否一致。详细讨论见Palm和Vlaar(1997)[17]。我们清楚地看到,四个模型的泊松拟合优度检验都在1%的显著性水平上拒绝零假设,即残差服从高斯分布的假设与经验分布是不一致的。因此,我们考察残差服从其他分布的情况。
(3)拟合具有t-分布误差的GARCH模型
基于以上分析,我们假定残差服从t-分布,即~i.i.d.t[,d],其中d为自由度,运用条件极大似然方法拟合GARCH类模型,同样运用AIC确定模型的阶数,估计结果见表2(略,参见原文)。
4个模型中,AIC最小的是EGARCH(1,1),但EGARCH(1,1)的系数出了常数项和Betal之外都不显著,其余三个模型中,APARCH(1,1)的AIC最小。Ljung-Box Q统计量检验的结果是所有模型的标准化残差都没有前后相关性。四个模型的指示偏误检验都不显著。四个模型的t分布为4.6到5之间,且在1%的显著性水平上显著,说明确实存在厚尾现象,同时泊松拟合优度检验都不能拒绝零假设,说明残差的t分布假设是正确的。综合来看,在t分布残差假设下,应该选择APARCH(1,1)模型。
(4)拟合具有偏斜t-分布误差的GARCH模型
虽然泊松拟合优度检验都不能拒绝t分布残差假设,但为了全面比较预测能力,我们拟合具有偏斜t-分布(Skewed t-distribution)误差的GARCH模型。因为t-分布仅反映了序列的厚尾(fat tails)特征,不能反映序列的非对称性(asymmetry),而偏斜t-分布是既能反映厚尾特征,又能反映非对称性。估计的方法以及模型阶数的确定与前面一样,拟合结果见表3(略,参见原文)。
从表3看,根据AIC,考虑系数的显著性,我们应该选择APARCH(1,1)模型。Ljung-Box Q统计量检验、指示偏误检验无助于我们识别各种模型。尽管四个模型的泊松拟合优度检验都不能拒绝零假设,但只有GARCH(1,1)和GJR(1,1)的偏态系数(Asymmetry)在10%的显著性水平上显著,EGARCH(1,1)与APARCH(1,1)的偏态系数不显著,原因是APARCH模型已经捕捉了收益的非对称性。因此,偏斜t-分布假设不太合适。
综合以上各种估计及检验结果,t分布假定下的APARCH(1,1)模型最合适。但t分布以及偏斜t-分布假设下的GARCH(1,1),GJR(1,1)也是可以接受的。
(二)预测效果的评价
为了比较预测效果,我们依据以上3个模型的5种不同的估计结果预测波动率,进而比较各种不同模型的预测表现。根据式(7),我们进行1步预测,得到各种估计的预测波动率。根据式(1)的M-Z回归以及式(14)的损失函数,检验结果见表4(略,参见原文)。
在M-Z回归中,R[2]普遍较低,大部分实证研究中,R[2]不到10%。所以一般认为,在M-Z回归中,R[2]能达到30%~40%,即认为预测效果较好。详细讨论见Andersen and Bollerslev(1998)。从M-Z回归结果来看,所有模型的R[2]大约为0.3,说明模型的预测效果较好。t-分布假设下的GJR(1,1)APARCH(1,1)以及偏斜t-分布假设下的GJR(1,1)的Beta系数接近于1,且在1%的显著性水平上显著,尽管Alpha在5%的显著性水平上显著不为零。从拟合优度来看,t分布以及偏斜t-分布假设下的GARCH(1,1)好于其他三个模型,但其Beta系数显著不为1。综合来看,t分布以及偏斜t-分布假设下的GJR(1,1)模型的预测能力较好。
从损失函数看,表中所示的是MSE,MAE,RMSE以及MAPE等4个损失函数的方差,t分布以及偏斜t-分布假设下的GJR(1,1)模型的各个损失函数的方差较小,说明其预测能力较好。
最后,我们同样运用调整的泊松拟合优度检验标准化预测残差的经验分布与理论分布的一致性。从这个指标看,t-分布假设下的APARCH(1,1)以及偏斜t-分布假设下的GJR(1,1)不能显著拒绝零假设,即分布假设是合适的。
图1 已实现波动率vs.预测波动率
M-Z回归结果与损失函数的检验结果是一致的,即t分布以及偏斜t-分布假设下的GJR(1,1)模型的预测能力最好。但与泊松拟合优度检验不一致。综合来看,偏斜t-分布假设下的GJR(1,1)模型的预测效果最好(见图1),其次是t-分布假设下的GJR(1,1)APARCH(1,1)模型。
三、结语
本文在高斯分布、t分布、偏斜t分布等三种不同的残差分布假定下分别对GARCH,EGACH,GJR,APARCH等4个模型进行了估计和检验,然后对各种合适的估计结果进行了预测。本文采用5分钟的高频数据计算出已实现波动率,并以此作为衡量标准,通过M-Z回归和损失函数等方法对预测的效果进行了检验,从而得到如下结论:①M-Z回归的结果表明,拟合优度接近30%,而且Beta系数接近于1,说明GARCH类模型的样本外预测效果较好;②不同的GARCH模型的预测效果有所差别。本文的实证分析表明,偏斜t-分布假设下的GJR(1,1)模型的预测效果最好,其次是t-分布假设下的GJR(1,1)APARCH(1,1)模型。但无论残差假定是t分布还是偏斜t-分布,GARCH(1,1)预测效果都较差。
需要指出的是,以已实现波动率为衡量标准来评价模型的预测能力,其前提条件是要运用高频数据计算出已实现波动率,因此对数据的频度要求比较高。此外,从图1可看出,即便是预测能力最强的GJR(1,1)模型,也难以预测特别大的损失,这是所有时间序列建模者们面临的巨大挑战。
标签:garch论文; 波动率论文; t分布论文; 回归模型论文; 损失函数论文; 预测模型论文; 假设检验论文; 能力模型论文; 残差分析论文;