基于C_TMPV的中国股市高频波动率的跳跃行为研究,本文主要内容关键词为:中国论文,股市论文,C_TMPV论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
作为资产价格、组合选择和衍生产品设计的核心,金融资产收益波动率的估计和预测至关重要。由于金融资产(尤其是股票)的交易价格一般具有时间连续性,因此金融资产的收益率应该是平稳的。然而,随着日内高频交易数据的可用性,许多研究表明,金融资产的收益率在日内近似连续的时间内有可能会出现大幅波动,这种现象称为跳跃,跳跃在金融资产收益波动率的估计和预测中具有非常重要的意义。虽然跳跃行为发生的概率一般较小,然而一旦发生,却会对股票、债券以及衍生品等市场带来巨大的冲击,这种冲击比连续性波动率的影响要大得多,历史上股票市场发生的多次崩盘事件均是以股票价格向下的大幅度波动开始的。鉴于此,如何有效地分析中国股市波动率的跳跃性特征,对于完善中国证券市场监管机制、合理构建投资组合和实行风险管理都具有重大的理论和现实意义。
股票市场波动率跳跃是国外金融研究的热点问题,而中国对波动率跳跃的研究文献很少,对高频波动率跳跃的研究就更少。本研究试图采用修正的已实现门阀多次幂变差和C_TZ统计量估计中国股市高频波动率跳跃序列,进而检验和分析高频波动率跳跃的各种特征,并运用ACD模型、ACH模型以及扩展的ACH模型进一步分析中国股市高频波动率跳跃的持续期的特征。
2 相关研究评述
国外对波动率跳跃分析主要有两类研究方法,一是基于高度离散化的低频数据的参数化方法,二是近些年提出的基于高频数据的非参数化方法。在低频数据的参数化方法方面,Chan等[1]通过设定跳跃幅度服从自回归过程建立自回归跳跃幅度模型(GARJI模型),并采用极大似然估计方法对IBM等11只股票以及道琼斯指数等3种指数进行实证,发现跳跃幅度存在自相关关系,跳跃呈现出聚集的特征;Eraker等[2]用马尔可夫链蒙特卡尔(Markov chain Monte Carlo,MCMC)方法估计了同时考虑收益率序列跳跃和波动率序列跳跃的含有同时性跳跃的随机波动率(stochastic volatility with contemporaneous jumps,SVCJ)模型和含有独立性跳跃的随机波动率(stochastic volatility with independent jumps,SVIJ)模型,证实随机波动率过程中跳跃的存在以及在波动率方程中引入跳跃的重要性;Maheu等[3]在GARJI模型的基础上,通过在GARCH波动率方程中考虑过去跳跃的影响,进一步扩展GARJI模型,发现过去跳跃对波动率的不对称性影响不明显,而当前的跳跃会产生非对称性。然而,这种参数化方法利用的低频数据过于离散,难以反映资产价格变化过程中包含的全部有用信息,并且参数较难估计。随着高频数据的获取越来越便利以及计算机处理数据能力的飞速发展,国外学者又提出解决跳跃问题的新方法,即基于高频数据的非参数化方法。这种非参数化方法的理论基础是利用高频数据将已实现波动率分解为连续性部分和跳跃部分,可以得到波动率跳跃序列,进而可以检验和分析波动率跳跃的特征。Barndor-Nielsen等[4-6]在此领域取得一系列的成果,他们以随机过程理论为基础,基于二次幂变差方法寻找到股市波动率中连续变动和跳跃的渐进统计量,证明当不存在跳跃时,二次幂变差是积分波动率的一致估计量,从而可以将跳跃从已实现波动率中分离出来;Bollerslev等[7]的研究表明,这种非参数化的方法在测度波动率跳跃成分时利用高频数据所包含的信息,这样即便是很简单的模型也能比那些复杂的参数波动率模型取得更好的效果;Thomakos等[8]运用Barndor-Nielsen等[5-6]的方法从各种不同的已实现波动率估计值中分离出波动率的跳跃成分,考察雅典股票市场波动率跳跃的特征,发现雅典股票市场波动率跳跃具有较强的相关性,其跳跃的持续期也具有相关性。
中国国内对中国股市波动率跳跃成分的研究非常少。在低频数据的参数化方法方面,潘祺[9]以Merton[10]的跳跃破产模型对上证综指进行拟合,得到的结论是该模型与传统扩散模型相比更好地描述上证综指收益率的突变行为;童汉飞等[11]利用GARCH-跳跃模型对沪深两市A股和B股的跳跃性特征进行建模和分析,发现该模型能有效估计沪深两市收益率和波动率的跳跃性变化,B股市场发生跳跃的概率高于A股市场,而A股跳跃幅度的均值比B股高,并且沪深A股间跳跃的一致性比B股强;杜军等[12]利用GARCH-跳跃模型对上证综指和道琼斯指数进行比较研究,发现跳跃幅度具有时变的特征。而基于高频数据的非参数化方法方面,中国国内文献则更少。王春峰等[13]基于Barndor-Nielsen等[5-6]的方法对上证综指已实现波动率跳跃和连续部分进行研究,采用2000年1月4日 2005年5月31日5分钟间隔高频数据,发现上证综指日间波动率发生显著跳跃的比例很高,并且跳跃幅度具有明显的相关性。然而,王春峰等[13]运用的是基于Huang等[14]研究中的Z统计量来检验波动率跳跃。Corsi等[15]的研究指出,当波动率跳跃连续出现的频率很高时,基于Z统计量的方法有可能检测不出一些跳跃,并且王春峰等[13]没有通过建模具体地分析波动率跳跃持续期的特征。基于此,本研究以Corsi等[15]修正的已实现门阀多次幂变差(C_TMPV)为理论基础实证研究中国股市高频波动率跳跃的特征。
3 实证模型和方法
3.1 高频波动率的估计
由于市场微观结构动态通过噪声影响价格过程,因此在基于金融高频时间序列对波动率进行研究时不得不考虑微观结构噪声的影响。以(1)式所述的已实现波动率估计量在不考虑微观结构效应的影响时是积分波动率的无偏估计量,但在考虑微观结构效应时就是有偏的。目前国内外的学者对已实现波动率估计量进行偏差校正方面已经做了大量的研究工作,相关文献综述可以参见李胜歌[16]的研究。
本研究采用Hansen等[17]的核估计量对RV进行偏差校正,即
其中,q为一个很小的非负整数,h为不大于q的非负整数。设q=1,因此h也仅取1。
3.2 高频波动率跳跃的检验和估计
其中,为瞬时波动率,也即(3)式中的随机波动率为跳跃幅度;等号右边第一部分称为积分波动率,它是由(3)式中的连续部分得到;第二部分代表非连续的跳跃部分。在现实中观察到的股票价格是离散的,具有一定的时间间隔,即使超高频的分笔数据也是如此,因此只能用离散状态下已实现波动率的估计值代替二次变差。Andersen等[18]和BarndorNielsen等[4]指出,已实现波动率满足。
定义二次幂变差为
其中,j为正整数
Bamdor-Nielsen等[4]证明,当每个交易日内的价格观测值个数趋于无穷大时,二次幂变差是波动率连续部分的一个有效估计量,即有。因此,当不存在跳跃时,已实现波动率与二次幂变差的差为0。Huang等[14]建议用下面的Z统计量检验波动率跳跃的存在性,即
在不存在跳跃的条件下,该统计量在时渐进服从标准正态分布,其中是三次幂变差,Barndor-Nielsen等[5]指出
然而,Corsi等[15]的研究指出,当高频数据中跳跃连续出现的频率很高时,Huang等[14]的Z统计量有可能检测不出一些跳跃。因此,他们基于C_TMPV构建一个修正的Z统计量,记为C_TZ统计量。通过Monte Carlo模拟,他们发现当不存在跳跃时,C_TZ统计量的检验能力和Z统计量的检验能力相当;当存在跳跃时,尤其是跳跃连续出现时,C_TZ统计量的检验能力显著高于传统的Z统计量。
Corsi等[15]构建的修正的已实现C_TMPV估计量的表达式为
其中,N(·)为标准正态分布累积密度函数。由(10)式的定义可知,修正的已实现门阀二次幂变差,修正的门阀三次幂变差。基于修正的已实现门阀多次幂变差,C_TZ统计量为
Corsi等[15]已经证明在不存在跳跃的条件下,C_TZ统计量在时渐进服从标准正态分布。当C_TZ统计量大于标准正态分布在显著水平α的临界值时(记为),波动率跳跃被认为是显著的,基于C_TZ统计量,可以定义第t交易日的显著波动率跳跃为
虽然ACD模型能够较好地描述波动率跳跃持续期的动态相关性,但该模型仅当跳跃发生时才会更新持续期的条件期望,而在现实世界中,人们总是偏好于利用新的信息不断更新自己的期望。Hamilton等[21]的自回归条件风险模型(ACH模型)很好地解决了这个问题。本研究分别估计两个不同的ACH模型,其中第一个模型是存在跳跃的交易日之间没有信息更新的ACH(1,1)模型,即
第二个模型是扩展的ACH模型,即在ACH模型中加入星期一、星期二、星期三和星期四的虚拟变量,用来捕获波动率跳跃持续期的周日历效应,该模型可以表述为
4 数据和描述性分析
本研究选取沪市5分钟间隔上证综指作为高频采样数据进行研究。数据采样时间为2000年1月4日至2008年12月31日,剔除数据不完整的交易日,得到2085个交易日,每个交易日有48个数据,共计100080个上证综指数据。数据来源于中国经济研究中心股票市场高频数据库。
表1给出上证综指日对数收益率和日已实现波动率序列(由(2)式估计得到)的描述性统计量,图1给出上证综指日对数收益率和日已实现波动率序列图。从表1和图1可以看出,日已实现波动率的均值在时间区间2006年1月4日至2008年12月31日这个近似于一个牛市和熊市的完整周期上达到最大值,并且标准方差也达到最大值,说明已实现波动率在这个时间区间上的变动幅度最大;在熊市区间2007年11月1日至2008年12月31日的日已实现波动率的均值和标准方差都比牛市的大,意味着已实现波动率在熊市的变化幅度要比牛市的大,并且从已实现波动率的时序图可以看出,已实现波动率最大的时点几乎都密集在熊市。在区间2003年3月3日至2005年12月30日已实现波动率的取值相对较小,在一个很小窄幅区间内变动。
表1 日对数收益率和日已实明波动串序列的描述性统计量
图1 上证综指日对数收益串和日已实现波动率序列
5 实证结果和分析
5.1 高频波动率跳跃的特征分析
图2(a)~(d)是高频波动率跳跃(分别由(8)式和(12)式估计得到)和跳跃对高频波动率的贡献(分别由(9)式和(13)式得到)的时间序列图,表2给出各个时间区间的统计特征。本研究统一选取显著水平为0.100%,用Z统计量对上证综指高频波动率跳跃进行甄别,共甄别出310个交易日高频波动率发生显著跳跃,而C_TZ统计量共甄别出616个交易日高频波动率发生显著跳跃,说明C_TZ统计量比Z统计量能更多的甄别出显著跳跃。从图2(a)~(d)可以看出,使用上证综指的高频数据甄别日间波动率发生显著跳跃的比例(为0.149和0.295)是相当高的,远远高于对日或者更低频的数据应用参数跳跃扩散模型估计的跳跃频率。出现这一现象一个可能的原因是,使用日或者更低频数据时可能会损失一些重要的信息,导致甄别波动率发生跳跃的方法出现严重的误差,而使用高频数据甄别日间波动率是否发生跳跃就可以避免这一问题。中国股市波动率发生跳跃的概率之所以较大,其中的一个重要原因是中国股票市场投机气氛比较严重,投资者较少关注当前收益,而较多的注重资本利得,在市场上容易追涨杀跌,带来股价和股市波动率的频繁大幅度变动。因此,应加强对投资者的理性投资教育,改善市场投资主体的构成,发挥投资基金的理性投资主导作用。
图2 高频波动率跳跃、贡献及显著跳跃的自相关函数图
表2 高频波动率跳跃及冀对波动率的贡献的统计特征
由图2(a)~(d)和表2可知,在不同的时间区间内,无论是基于Z统计量还是C_TZ统计量,高频波动率跳跃的幅度是变化不定的,即高频波动率跳跃幅度具有时变性。特别地,在熊市区间内跳跃的幅度均值是牛市区间的2倍多;无论是基于Z统计量还是C_TZ统计量,当跳跃发生时,跳跃对高频波动率的贡献在不同的时间区间内都占相当大的比例,并且跳跃对高频波动率的贡献具有相对稳定性。基于Z统计量估计的跳跃对高频波动率的贡献的均值大致为50%左右,而本研究基于C_TZ统计量估计的跳跃对高频波动率的贡献的均值却为60%左右,进一步说明C_TZ统计量比Z统计量能更多地甄别出显著跳跃。从图2(a)~(b)还可以发现,已实现波动率跳跃表现出较明显的聚集特征,意味着高频波动率跳跃存在自相关性。图2(e)~(f)确认了这一点,它清晰地显示,无论是基于Z统计量还是C_TZ统计量,显著的高频波动率跳跃都存在较强正相关性,并且自相关函数值递减得很慢,说明显著的高频波动率跳跃具有较强的可预测性。由于股市中跳跃性波动产生的根源在于包括货币政策、财政政策在内的宏观经济政策的变动[18],因此中国股票市场高频波动率跳跃的长期滞后相关性是由于宏观政策对股票市场的波动会产生较长时间的影响,或者说政策对股票市场造成的影响具有长期有效性。
图3 高频波动事端跃强度、跳跃幅度的均值以及跳跃幅度的标准差的动态图
注:左边三图是基于Z统计量,右边三图是基于C_TZ统计量。
由高频波动率跳跃的聚集性和跳跃幅度的时变性可以推测,高频波动率跳跃强度和跳跃幅度的分布也同样是时变的。本研究以两年的滚动时间窗口估计高频波动率跳跃强度以及跳跃幅度分布的均值和标准方差[22],图3给出这些估计值的动态图。
由图3可知,上证综指高频波动率跳跃的频率在2002年是相当高的,而在2002年之后高频波动率跳跃的频率有一个下降趋势,这个下降趋势一值延续到2004年,之后跳跃频率有一个上升趋势,在2006年初这个上升趋势达到最大值,在此之后的牛市区间上证综指高频波动率跳跃的频率又处于下降趋势,而在熊市区间跳跃的频率又开始不断的增加。但上证综指高频波动率跳跃幅度的分布的均值和标准方差与跳跃频率的动态特征不同,两者在2004年时有一个突然的下降,在2004年至2006年底高频波动率跳跃幅度的分布的均值和标准方差动态变化都不是很大,两者都比较接近于0,在2007年10月左右至2008年初,即在牛市与熊市转换的时期,跳跃的幅度明显放大,之后跳跃的幅度还有一个上升趋势,意味着在牛市和熊市这个完整周期内,绝大部分巨幅跳跃均集中在熊市。
5.2 高频波动率跳跃的持续期分析
图4 不同时间区间高频波动率跳跃持续期的自相关特征(基于C_TZ统计量)
图4为4个不同时间区间以及总体区间高频波动率跳跃持续期的自相关函数图,由图4可以很明显的看出各个区间上的自相关特征都不同,在区间2000年1月4日至2003年2月26日,高频波动率跳跃持续期的自相关系数滞后20期仍然显著并都表现出正的自相关性,而在牛市和熊市区间自相关系数仅滞后4期就不再显著,并且之后自相关性还表现出不太显著的周期性。在总体区间,上证综指高频
表3 模型估计结果
注:表中圆括号内数据为标准误,方括号内数据为p值,*为在5%的显著水平下显著,logL为对数似然函数值。
表3为3种持续期模型在总体区间以及ACH模型在各个时间区间的估计结果。由表3可知,对于3种持续期模型而言,所有的估计参数都高度显著不为0,且估计的之和都大于0.900,意味着上证综指高频波动率跳跃持续期在总体时间区间存在较强的长记忆性。对于ACH(1,1)模型而言,的估计值在各个时间区间都显著不为0,并且的估计值之和在各个时间区间都大于0.500,说明上证综指高频波动率跳跃持续期在各个时间区间都存在长记忆性特征,但在牛熊市区间其长记忆性要比其他区间弱,且牛市比熊市稍微强。由表3还可以推断,如果波动率跳跃持续期的条件期望为其均值1.926时,则在交易日为星期五时,上证综指高频波动率发生跳跃的概率约为,即大概有的概率高频波动率会发生跳跃。然而当交易日为星期一时,高频波动率发生跳跃的概率增加至0.526。当交易日为星期二、星期三和星期四时,这个典型的风险概率分别为0.456、0.332和0.364。因此,在一周内,中国股市高频波动率在星期一发生跳跃的概率最大,而星期三发生跳跃的概率最小,大部分的较大跳跃都集中在星期一,意味着中国股市高频波动率跳跃的持续期在总体时间区间具有周日历效应。
图5 ACH模型和扩展的ACH模型估计的高频波动率发生跳跃的概率的时序图
图5分别给出由ACH(1,1)模型和扩展的ACH模型估计的条件风险概率(见(15)式和(16)式中的)的时序图,即高频波动率发生跳跃的概率的时序图。比较两图可以发现,加入每天更新信息的扩展的ACH模型估计的高频波动率发生跳跃的概率比ACH(1,1)模型估计有更加不稳定的波动。同时两图都展示了一个比较清晰的时序模式,在2003年至2004年和2007年至2008年两个区间,高频波动率发生跳跃的概率比较小,因此在这两个时间区间高频波动率发生显著跳跃的数量比较少,而在熊市行情中高频波动率发生跳跃的概率要比牛市的高,这与图3(a)和(b)得出的结论一致。中国股票市场在熊市行情中波动率发生跳跃的概率要比牛市高的一个可能的原因是,在熊市行情中,中国政府政策多变,干预市场过多。因此要使中国股票市场长期平稳运行,应该有一个规范化、法律化的市场运行环境。
6 结论
本研究采用修正的已实现门阀多次幂变差和C_TZ统计量,利用上证综指2000年1月4日至2008年12月31日的每5分钟的高频数据,估计高频波动率跳跃的时间序列,检验和分析中国股市高频波动率跳跃的各种特征,并运用ACD模型、ACH模型以及扩展的ACH模型进一步分析中国股市高频波动率跳跃的持续期的特征。实证结果表明,①基于上证综指的高频数据,用C_TZ统计量甄别日间波动率发生显著跳跃的比例比Z统计量的高,远高于对日或者更低频的数据应用参数跳跃扩散模型估计的跳跃强度;②在不同的时间区间内,无论是基于Z统计量还是C_TZ统计量,高频波动率跳跃的幅度都具有时变性,当跳跃发生时,跳跃对高频波动率的贡献占相当大的比例,并且在不同的时间区间内这个比例的均值具有相对稳定性,在整个考察期间,高频波动率跳跃强度和跳跃幅度的分布也同样具有时变性;③在整个考察期间,中国股市高频波动率跳跃表现出较强的正相关性(即聚集的特征),在牛市行情中高频波动率跳跃的自相关性要比熊市的强;④中国股市高频波动率跳跃的持续期在整个考察期间存在较强的长记忆性,牛市高频波动率跳跃持续期的长记忆性稍微比熊市强,并且在整个考察期间,高频波动率跳跃的持续期具有周日历效应,高频波动率发生跳跃的概率表现出一个较清晰的时序模式。
中国股票市场投机气氛比较严重,投资者较少关注当前收益,而注重资本利得,在市场上容易追涨杀跌,带来股价和股市波动率的频繁大幅度变动,因此应加强对投资者的理性投资教育,改善市场投资主体的构成,发挥投资基金的理性投资主导作用。