不同频率数据在金融市场VaR测度中的对比研究——基于低频、高频与超高频数据模型,本文主要内容关键词为:低频论文,金融市场论文,频率论文,数据模型论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
随着全球政治经济形势日益复杂,金融企业面临的风险逐渐增大,对风险测度准确性的要求也越来越高。为此,众多学者提出了很多方法来提高测度。的准确性,高频数据的引入就是其中之一。高频数据包含了比低频数据更多的信息,能够提供更丰富的数据资源。但是,高频数据的使用也意味着更高的成本与更长的运算时间,并且高频数据的噪音还会对结果造成干扰,因此,使用高频数据能否有效提高测度的精度?值不值得花费很多资源去使用?是否使用的数据频率越高,预测精度就越高?这些问题值得我们进行深入研究,也是本文着力要解决的问题。
基于高频数据计算VaR的研究并不多。在国外,Andersen和Bollerslev(2004)[1]对已实现波动率进行了预测研究,并将其应用于风险价值(VaR)的计算中。Pierre Giot S L[2]研究了已实现波动率在VaR中的应用,并将其与基于ARCH模型得到的VaR进行了比较,结果发现,使用已实现波动率计算VaR并不能显著提高预测精度。Martens和Dijk(2007)[3]使用高频数据构造了实现极差。在国内,黄后川、陈浪南(2002)[4]研究了中国股市已实现波动率的不对称性和长期记忆特性。尹优平、马丹(2005)研究了高频数据下VaR的计算方法,提出了在GARCH模型失效时基于GPD分布的新方法,结果表明,使用高频数据能够很好地模拟金融风险。郭名媛、张世英(2006)将基于高频金融数据的已实现波动率引入到了VaR的计算中,并利用高频金融数据对上海股票市场VaR的持续性进行了实证分析。
基于超高频数据计算VaR的研究更是少之又少,目前主要有以下三种方法:一是邵锡栋、连玉君、黄性芳(2009)[5]提出的方法,他们仿照已实现波动率对日内的超高频波动率进行加总,将超高频波动率转化为日波动率,由于转换后对数波动率近似服从正态分布,并且具有显著的长记忆性,因此文中用ARFIMA模型去拟合超高频波动率并得到了日VaR;二是Dionne C、Duchesne P、Maria Pacurar(2005)[6]提出的Intraday Value at Risk,他们对UHF-GARCH模型进行了扩展,并使用蒙特卡洛模拟方法得到了日内风险价值(IVaR);三是Gilbert Colletaz、Christophe Hurlin和Sessi Tokpavi(2007)提出的方法,文中将价格运动的ACD模型与非参数的分位数回归模型合并起来构成了一个估计VaR的半参数方法,并将这种方法估计出的VaR称为Irregularly Spaced Intraday Value at risk(ISIVaR),该模型估计比较复杂,实证研究中使用不多。
综上所述,大多数文献都只对高频数据拟合方法进行了应用研究,还没有发现将低频、高频和超高频数据方法进行对比的研究,对不同频率数据适用情况的研究也很少。本文拟在前人研究的基础上,使用规范、标准的方法,结合我国金融市场的实际情况,通过使用金融资产的低频数据、高频数据和超高频数据分别建立模型进行对比研究,以期得到一些有用的结论,并对不同频率数据的适用情况进行分析。
二、理论模型
VaR方法是目前应用于金融市场风险管理和金融监管的主流方法,被用来度量金融资产或投资组合在一定持有期内和给定置信水平下可能的最大损失。该指标简单清晰,理论严谨,得到了国际金融界的广泛支持和认可。本文拟使用VaR作为风险测度的指标。如果假设金融资产的收益率服从某种分布(以正态分布为例),那么VaR的计算公式为:。其中,S为初始投资额或者是购买资产的价格,μ为持有期收益率的条件均值,σ为持有期收益率的条件标准差,(α)为与概率α对应的标准正态分布的分位数。在计算金融资产的VaR时,最主要的是要选用适当的模型拟合金融资产收益率,继而预测出条件均值和条件方差,代入公式即可。
低频数据、高频数据及超高频数据具有各自独特的数据特征,基于此,本文建立了基于低频数据的APARCH模型、基于高频数据的RV模型、基于超高频数据的UHFV模型,分别计算出金融资产1天的风险价值VaR,并对计算精度进行对比研究。
(一)基于低频数据的SKST APARCH-VaR模型
ARCH类模型的引入很好地解决了金融资产收益率尖峰厚尾性导致的风险低估问题,由于ARCH类模型模拟了条件方差与过去收益之间的函数关系,因此,我们很容易通过分位数将ARCH类模型转化为条件VaR模型。本文构建了ARMA(1,1)-ARARCH模型,其一般表达式可写成:
(二)基于高频数据的RV-ARFIMA-VaR模型
在较低频率的数据中,GARCH模型可以很好地刻画一些峰度较大的数据特征,但如果峰度达到了100以上,那GARCH模型就不能准确刻画了。高频数据指的就是频率在日以下、除分笔数据以外的等间隔交易数据,它具有复杂的数据特征,如波动率日内U型走势、日历效应、超高峰度、价格序列一阶负相关性等,也具有一般的ARCH特征,如宽尾、非正态、波动率聚集等,这些独特的数据特征决定了高频数据建模的困难性。基于此,本文使用Andersen(1998)提出的已实现波动率进行分析,已实现波动率可以近似认为是实际波动的一致估计,可用于检验波动率的各种特性,并对未来的波动率进行预测,而无需像ARCH类模型一样要模拟收益率序列进行预测和评价。下面简要介绍一下已实现波动理论。
1.已实现波动率的计算。已实现波动率可以用日内收益率的平方和来构建:
由于股市早上开盘时采取集合竞价机制,隔夜信息的存在会导致股市收益率在开盘时产生大幅波动,因此,基于(4)式计算的已实现波动率就会偏小。为了排除隔夜收益率的显著干扰,Martin(2001)提出了修正的已实现波动率:
已实现波动率ARFIMA(p,d,q)模型的形式如下[8]:
(三)基于超高频数据的UHF-GARCH-ARFIMA-VaR模型
超高频数据是对金融交易的实时记录数据,由于交易发生是随机的,因此超高频数据的记录时间间隔也是随机的。超高频数据的这种特点决定了其不能使用传统的等间隔波动模型(如ARCH类模型、SV模型)和已实现波动模型进行建模。为了解决这一问题,Engle和Russel(1998)提出了ACD模型,取得了很好的效果。
1.ACD模型。ACD模型认为每次交易行为均以一定的概率发生,交易的到达时间服从一个随机过程。两笔交易之间的时间间隔被称为交易持续期,用表示。研究发现,交易持续期存在显著的集聚效应,即一段时间交易比较密集,而一段时间交易比较平淡,较小的持续期接着较小的后续持续期,较长的持续期伴随着较长的后续持续期。假定在给定过去交易间隔的条件下,第i个交易间隔的条件期望为,考虑最简单的ACD(1,1)模型:
针对残差分布和条件期望的不同设定形式,可以得到不同的扩展ACD模型。
2.UHF-GARCH模型。ACD模型针对的是交易持续期建模,而计算金融风险需要描述的是资产收益率,因此还需要对收益率的条件波动建模,并且条件波动的计算还要考虑到交易持续期的影响。为此,Engle依据ARCH模型的建模思想,计算了超高频数据单位时间间隔上的波动,并提出了UHF-GARCH理论。Engle认为,只要用持续期调整超高频收益率,就可以在传统的GARCH模型框架下对超高频数据建模。下面简要介绍一下建模步骤:首先对超高频收益率进行调整,计算,其中是两次相邻交易的间隔;然后把单位时间间隔上的收益率纳入传统的GARCH模型框架下建模。假设单位时间间隔上的收益率满足ARMA(1,1)过程,则有:
我们在此方程中加入交易间隔的倒数,目的是观察交易频率对波动的影响。Engle通过用交易间隔对收益率进行调整,很简洁地给出了一种不等间隔建模的方法,被称为UHF-GARCH模型。该模型很好地刻画了持续期对条件波动的影响,通过该模型可以很方便地得到收益率的条件波动。
3.超高频波动率UHFV的计算。由UHF-GARCH模型得到的是日内单位时间的波动,要得到1天的风险价值,还需要计算1天层次的波动率。Racicot(2008)[10]将UHF-GARCH模型估计出的波动率取算术平均值,以此来反映1天的波动大小。本文认为,日内波动的平均值并不能代表1天的波动大小,而只能代表每一单位时间波动的大小。我们要计算的是1天层次的VaR,因此仿照已实现波动率,本文定义了1天层次的超高频波动率的计算公式:
其中,为UHF-GARCH模型第t日的估计值,N为第t日的交易笔数。
4.超高频波动率建模。由于计算VaR使用的是条件波动,因此我们需要对超高频波动率建模,计算条件波动。超高频波动率与前文的已实现波动率具有相似的数据特征,二者都可以用ARFIMA模型进行刻画。由于前文已经表述了ARFIMA模型,因此,此处仅给出了的计算公式。
三、数据选取与处理
根据研究目的,本文选取了上证A股招商银行(600036)2009年8月3日到2010年7月30日共235个交易日的日数据、5分钟数据和分笔数据,分别对应低频、高频、超高频数据。其中,对于分笔数据,剔除了连续竞价时间段外的所有交易数据,还剔除了跨天交易持续期和下午开盘第一个交易持续期,并对交易间隔为0的数据项进行合并,交易量相加,价格按照交易量加权平均。表1为招商银行收益率和持续期的描述统计。
表1 招商银行收益率和持续期的描述统计
注:收益率的均值和标准差均已扩大了1000倍。
从表1可以看出,一笔交易的持续期平均为5秒左右。5分钟收益率和超高频收益率均拒绝了JB的正态假设。Lijung-Box的20阶检验显示,5分钟收益率、超高频收益率和交易间隔都具有高度和长期的自相关性。
超高频数据在日内表现出稳定的周期性运动模式,称为日历效应。图1为招商银行持续期的日内波动特征图,从图中可以看出,招商银行1天内收益率的波动呈现倒U型模式,开盘和收盘的交易间隔较小,中间时段的交易间隔较大。为了剔除超高频数据的日历效应,根据Engle和Russell(1998)的研究,本文采用样条函数插值法对时间间隔和日内周期变化特征进行分析,将线性样条函数按9:30、10:00、11:00、13:00、14:00、14:30、15:00划分为六个交易时间段进行拟合。后面使用的持续期序列都是剔除了日内周期特征的数据。
图1 招商银行交易持续期日内波动特征
四、实证分析及结论
(一)APARCH模型的估计结果
对于低频日收益率数据,本文基于偏学生分布分别估计了GARCH和APARCH两种模型。通过估计两模型参数进而计算出每天的条件波动,结合收益率的分位数,最终计算出了金融资产1天的VaR。
限于篇幅,我们仅给出APARCH模型的方差方程的估计结果(见表2)。从表2可以看出:(1)偏度系数Ln(ξ)<0,且通过了5%的显著性水平检验,说明随机变量序列分布左偏,这与基本统计检验相吻合;(2)γ>0且显著,表明存在较为明显的杠杆作用(条件方差的不对称性),即负的收益率比正的收益率产生了更大的波动;(3)自由度v显著大于2,说明分布呈现厚尾形态。另外,从残差序列统计检验所表现出的显著性水平可以发现,这里采用的ARMA(1,1)-APARCH(1,1)-SKST模型较好地刻画了日收益率序列的尖峰厚尾及不对称特征。
表2 APARCH-SKST模型的估计结果
因此,通过模型ARMA(1,1)-APARCH(1,1)-SKST的参数估计,可以得到日收益率的条件波动,进而得到未来1天的APARCH条件波动率预测值和金融资产的VaR。
(二)UHF-GARCH模型的估计结果
本文经过反复试验,确定使用残差服从正态分布的UHF-EGARCH(1,1)模型对剔除日内效应的分笔收益率进行刻画,均值方程采用ARMA(1,1)形式,其中EGARCH(1,1)模型部分为:
模型的参数估计结果见表3。由表3可以看出,模型各参数均在1%的水平下显著。φ+ψ>1说明剔除日历效应的超高频收益率的GARCH效应与低频数据一样强,也说明使用UHF-GARCH模型能够很好地刻画超高频收益率。ρ>0说明利好消息比利空消息导致了更大的波动。此外,的系数λ为负,说明交易间隔时间越长,波动率越大,这与Diamond和Verrechia(1987)的结论相似。
表3 UHF-EGARCH模型的估计结果
(三)RV和UHFV模型的估计结果
前文由UHF-EGARCH模型计算得到的条件波动是日内单位时间的波动率,而目前金融风险管理一般计算的是1天层次的波动率,因此,需要按照公式(13)把UHF-EGARCH模型计算得到的条件波动按天进行加总,即可得到1天层次的超高频波动率UHFV。
此外,使用招商银行5分钟数据,根据公式(5),可以计算出1天层次的已实现波动率RV。由于RV和UHFV都使用了日内交易信息,因此比低频数据包含了更多的信息,但这些信息是否有助于提高金融风险价值的计算精度,还有待于进行深入的对比分析。
从表4可以看出,招商银行RV序列和UHFV序列均呈现右偏分布,且具有明显的尖峰厚尾特征,两序列的JB检验都拒绝了序列正态性的假设。Ljung-Box的20阶检验结果显示,RV和UHFV序列在1%的显著性水平下拒绝了不存在自相关的零假设,说明已实现波动和超高频波动均具有显著的长记忆性。取对数后的RV和UHFV近似服从正态分布。
表4 已实现波动率与超高频波动率的描述统计
金融风险管理要求在t-1期预测t期的VaR,因此,我们首先必须在t-1时期预测t时期的波动率,即条件波动和。由表4可知,已实现波动率和超高频波动率的对数均服从正态分布并且都具有显著的长记忆性,因此本文使用ARFIMA模型对RV和UHFV对数序列的长记忆性进行刻画,根据SC信息准则,对两序列都拟合ARFIMA(0,d,0)模型,参数估计结果见表5。这样,我们就可以使用公式(7)、(14)得到已实现波动率和高频波动率的一步预测值、。
为了计算一步预测的VaR值,本文用和对日收益率进行调整,对都设定ARMA(1,1)过程,并假设残差服从偏学生分布,估计结果如表5所示。
表5 条件波动调整后的收益率拟合
从参数估计结果可以发现,长记忆参数d的显著性水平很高,说明UHFV和RV的对数序列均存在明显的分整现象。两模型估计的残差偏度系数Ln(ξ)<0,说明随机变量序列分布左偏。自由度v显著大于2,表明分布呈现厚尾形态,也说明选择偏学生分布比正态分布能更好地刻画收益率。另外,从残差序列统计检验所表现出的显著性水平可以发现,这里采用的ARMA(1,1)-SKST模型较好地刻画了日收益率序列的尖峰厚尾特性。估计出偏学生分布参数以后,接着就能够利用公式(9)、(16)计算出一步预测的VaR值。
(四)VaR回测检验
模型的准确性是金融风险测度的内在要求,如何对VaR的准确性进行检验,也是众多专家学者近年来深入研究的问题。
1.kupiec似然比检验。kupiec似然比(LR)检验是由kupiec(1995)[11]提出的,是目前主流的检验方法。本文在5%显著性水平下计算得到了240个VaR值,如果实际收益率超过VaR的次数远大于或者远小于235*5%=12次,则说明用于计算VaR的模型不准确。Kupiec就是根据这个道理,定义了一个碰撞序列:。如果t时刻的实际收益率超出了t时刻的VaR,那么该序列t时刻的取值为1,否则取值为0。设N为检验样本中损失高于VaR的次数,T为检验样本总数,p=1-C,C是既定的置信水平,则检验的假设为:
研究证明,零假设成立的条件下,以下似然比满足:
在显著性水平p下,如果所计算的LR值显著大于该显著性水平下分布的临界值,则拒绝原假设,认为收益分布模型不准确。一般来说,在考虑拒绝和接受原假设时采用的是Kupiec检验的p值,p值越大,越不能拒绝原假设,表明收益分布的模型越准确。
2.Dynamic quantile regression检验。在检验VaR的精度时,除了kupiec检验外,Engle等(2004)[12]还提出了动态分位数回归检验方法。如果VaR失败的观察值之间具有明显的相关性,则有可能发生连续超过VaR的损失。这种情况一旦发生,给金融市场带来的风险将成倍加大。事实证明,这种事件的发生往往会伴随着金融资产价格波动的加剧以及金融风险的暴露,甚至金融危机的发生。为了能够在进行失败率检验的同时进行VaR相关性检验,Engle等提出了Dynamic quantile regression检验方法,即首先构造一个新的碰撞序列
表7给出了各模型动态分位数检验的P值,这里选择q=5作为动态分位数回归检验变量选择的标准。
表6 Kupiec似然比检验结果
注:表中数据为kupiec LR检验的P值,P值越大,表明收益分布模型计算的VaR精确度越高;表中上半部分为正态分布模型,下半部分为偏学生分布模型。
表7 动态分位数检验结果
3.结果分析。(1)基于GARCH模型计算的金融风险虽然在实际中使用较多,但该方法很难精确计算VaR值。在40组检验中,有5组数据的p值检验拒绝了GARCH模型的VaR估计结果,并且出现了低于5%、甚至1%的p值。这也说明,在国外经常使用的方法或模型,并不一定适合我国的金融市场。
(2)对比GARCH模型和APARCH模型的检验结果可以发现,使用APARCH模型计算得到的VaR精度有了很大提高,在显著性水平较高时,也能够很好地刻画金融风险。
(3)基于RV模型的VaR回测检验结果显示,已实现波动率能够准确衡量金融风险,在显著性水平较高时表现较好,优于APARCH模型,但在显著性水平较低时衡量的准确性不如APARCH模型。在40组检验中,有20组结果显示RV模型优于APARCH模型,有16组结果显示APARCH模型优于RV模型。总的来说,两模型计算VaR精度的差距很小。
(4)基于UHFV模型计算VaR的结果显示,超高频波动率计算VaR的精度稍微优于RV和APARCH模型,但差距很小。在40组检验中,UHFV模型有22组优于RV模型,RV模型有10组优于UHFV模型;UHFV模型有24组优于APARCH模型,APARCH模型有14组优于UHFV模型。但是,这并不能说明UHFV模型比另外两个模型在测量金融风险精确度方面更好,原因在于,在大多数分位数上,UHFV模型的p值并不是显著大于另外两个模型的p值,它们之间的差距大多只有0.01~0.05,UHFV模型也存在很多p值较小的情况。综合看来,虽然高频数据和超高频数据包含了更多的日内信息,能够反映更多的实际交易情况,但从预测精度上看,基于高频和超高频数据的模型并没有显著提高金融风险的预测准确度,而使用低频数据,只要模型设定适当,仍然能够较为准确地描述金融市场的风险。
(5)对比基于正态分布模型和偏学生分布模型可以发现,无论是在高显著水平还是在低显著水平上,偏学生分布模型都比正态分布模型能够更加准确地描述金融风险。在全部80组对比数据中,SKST模型有52组数据优于Normal模型,Normal模型有21组数据优于SKST模型。这说明,消除了条件波动的收益率不服从正态分布,使用SKST模型能够更加精准地描述金融风险。
五、结论及高频数据的适用性分析
目前对金融高频数据的分析方法只是低频数据方法的扩展和移植,还不完善,使用高频数据甚至超高频数据测量金融风险的准确性并不比低频数据高很多。也就是说,如果我们选用恰当的模型,完全能够使用低频数据得到高频数据的精度,还可以省去很多高频数据获取、处理等的成本和不便。既然高频数据的使用并不能显著提高金融风险计量的精度,那么,是否不需要使用高频数据?这就要对高频数据的优缺点及适用性进行分析。
高频数据在衡量金融风险时有诸多优势。风险分析只有在相当大的样本下才能显示出有效性,高频数据包含了更多的信息,能够提供更丰富的数据资源。所谓“大样本”往往是成千上万,日数据、周数据、月度数据等低频数据都难以满足大样本的要求[13]。我国股市建立至今也只积累了大概5000个日数据样本,周数据需要100年才能达到5000个左右,而400年的月度数据才能累计约5000个样本。很显然,即使是成熟市场(如纽约证券市场能提供100年的数据),也很难提供如此多的数据资料。即便能提供,但在如此长的时间内,这些数据在各个历史阶段会具有不同的特征,是否有可比性值得怀疑。如果分阶段分析,那么“大样本”性质又得不到满足。伴随着存储技术的进步,金融市场的高频数据被完整地记录下来,这为金融实证分析提供了充足的数据资源。以5分钟数据为例,只要5个月时间即可得到5000个样本,而对于1分钟数据,只需要21天就能得到5000个样本。高频数据倍受瞩目的原因还在于,金融高频数据和超高频数据对理解金融市场的微观结构是相当重要的。高频数据在计算金融风险时有很多优势,但是也存在一些问题。例如,高频数据的获取成本很高;高频数据处理方法复杂,数据文件超大(招商银行一年的分笔数据excel文件有80M),程序运行耗费时间较多;高频数据模型仍然处于探索阶段,目前只是低频数据模型的移植和扩展,未有突破性进展,使用目前的高频数据模型计算金融风险并不能显著提高测度的准确性。
鉴于高频数据存在的这些问题,目前计算金融风险时并不一定非要使用高频数据,但有三类金融风险管理者可以使用高频数据来对风险进行计量。一是对预测精度要求高的用户。高频数据模型虽然不是很完善,但确实有助于提高金融风险的预测精度。虽然个别低频数据模型也能达到高频数据的预测精度,但毕竟还有差距,而且并不是每个低频数据模型都能达到高频数据模型的计算精度。二是短期测度时可以使用高频数据。短期内预测时往往使用的是近期数据,低频数据很难达到大样本要求,这时使用高频数据有很大的优势,预测精度会提高很多。由于时期比较短,因此也不存在数据处理的难度问题。三是对成本、时间需求弹性小的用户可以使用高频数据。高频数据不但获取成本高,而且处理成本也很高。高频数据量往往很大,单个数据文件即可达百兆,必须要高端机器才能运行。另外,处理数据需要一定的时间,如果风险管理者对数据成本和处理时间需求弹性不大,则可以考虑使用高频数据。
标签:var论文; 显著性水平论文; 金融论文; 波动率论文; 预测模型论文; 高频交易论文; 条件分布论文; 序列模式论文; 金融风险论文; 时间计算论文; 显著性论文; garch论文; var方法论文; v模型论文;