中国股市波动的高频估计与特征分析_时间序列论文

中国股票市场波动率的高频估计与特性分析,本文主要内容关键词为:股票市场论文,中国论文,特性论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言与先前该领域研究述评

近二十年来,对波动率模型的研究已成为金融经济学领域研究的重要内容之一。自Engle于1982年提出ARCH模型以来,经济学界已经发表了数千篇关于条件异方差或波动率的论文。特别是最近十年,一些学者提出用高频分时数据估计波动率的方法,这种方法可以得到比较准确的波动率估计值,称为“已实现波动率”(Realized Volatility),以此为基础,众多学者在波动率的特性和预测两方面进行了更深入的研究,大大拓展了这个研究领域。

Andersen、Bollerslev、Diebold、Ebens(1998,2001)等金融经济学家对这种高频估计方法以及“已实现波动率”的特性与预测进行了一系列研究,他们得出了如下几个主要结论(计算的波动率都是日波动率):

(1)如果价格遵循普通的扩散过程,用此方法计算的已实现波动率,是无偏的。而且,当高频数据的时间间隔趋近于0时,已实现波动率的测量误差也趋于0。因此可以把已实现波动率当作一个观测值,它没有经典算法所带来的时间滞后。

(2)通过对外汇市场和道·琼斯工业股票的实证研究,发现:①股票市场中,正收益对后续波动率的影响不如负收益明显,即波动率具有杠杆效应。②已实现波动率的对数具有明显的长期记忆特性。③虽然已实现波动率明显向右倾斜,但已实现波动率的对数呈现正态分布。④虽然原始的收益率数据有明显的高峰和大尾巴,但收益率除已实现波动率呈现正态分布。⑤股票市场的波动率与相关度呈相同方向运动,降低了资产组合分散化在高波动率时的作用。

(3)依据(2)中的结论,用体现长期记忆的分数综合—移动平均自回归(Auto Regression Fractional Integrated Moving Average,ARFIMA)方法可以得到更好的波动率预测。使用正态—对数正态混合分布可以得到很好的概率密度和分位数估计(例如VaR)。

已实现波动率的一个重要用途是作为对以前各类模型进行评价的基准。它的另一个更重要的用途是用于检验波动率的各种特性,并对未来波动率进行预测,因为已实现波动率可以直接当作波动率的一种观测值,因此可以采用一般的时间序列方法,无须像ARCH模型一样通过模拟收益率序列得到内含的波动序列。

许多经济学家,如Engle、Ng(1993)等,都通过实证研究指出了信息(一般用前期收益度量)与波动率之间的不对称性,即好信息与坏信息对未来波动率的影响程度不同,通常,负收益率相对正收益率而言对未来波动率的影响更大些。对该现象有两种解释,其一称为“杠杆效应”,即一个大的负收益增加了财务和操作杠杆,反过来提升了股票收益的波动率。第二种解释认为,市场风险贴水是波动率的增函数,大的负收益由于存在一个波动率反馈效应,因而对波动率的影响比正收益更大些。

波动率的一个重要特性是它的持续性,即市场波动一般会持续一段时间,随着时间的推移而慢慢消失。通常,经济学家们把时间序列分为确定性的趋势和移动平均自回归随机过程两个部分,判别确定性趋势的一种常用方法是测试时间序列是否存在一个单位根。Granger(1966)发现大多宏观或金融变量都存在着自相关系数慢速衰减现象,随机游走或ARIMA只是具备这种现象的特例之一。

本文旨在应用高频数据估计中国股票市场的已实现波动率。在计算各种频率的已实现波动率的基础上,本文构造了一种较为精确的估计波动率的方法,可以更好地平衡测量误差与微观结构误差,并进一步考察中国股市波动率的不对称和长期记忆特性。

二、研究方法

(一)波动率的高频估计

使用高频交易数据(如5分钟、1天)来计算低频波动率(如1天、1月)的理论模型如下:

假定n维对数价格向量p[,t]遵从多维连续的正态发散过程:

它是无偏的,而且,当Δ→0时,测量误差也趋于0。

(二)时间频率与波动率估计

假定某一日的资产收益率为r,如果把此日内的交易期间分成N份,可以得到包含N个期间段的收益率序列{r[,1],r[,2],…,r[,N]},那么对应数据频率N的波动率估计值如下:

即:低频波动率估计值=高频波动率估计值+2×高频收益率在低频期间内的目协方差之和。

其中K[,i]是序列r[,i]的峰度,ρ[,i]是序列r[2,i]的第i个自相关系数(Karatzas,Shreve,1988)。根据(3)式,容易看出,估计误差随着数据频率的增高而降低,如果要得到准确的波动率估计值,最好选取最高的数据频率和最小的时间间隔。

然而,在个股价格的高频时间序列中,价格上下跳跃意味着高频收益率序列的自相关系数是个负数,根据(2)式,因为E(r[,i]r[,i+j])<0,所以高频估计值会比低频估计值来得大。由(3)式,估计误差不仅与频率n有关,也与序列r[2,i]的自相关系数ρ[,i]有关,选取极高频数据来估计波动率,往往会由于ρ[,i]的显著增大而产生较大误差(微观结构摩擦误差),因此,最佳的估计频率应当在测量误差与微观结构误差间进行权衡。

(三)已实现波动率的不对称特性

我们研究上证A、B指数“已实现方差的对数”和收益率之间的不对称特性,所采用的模型是以下的折线方程:

y=ω-k[,1](x-x[,0])I[-,x-x[,0]]+k[,2](x-x[,0])I[+,x-x[,0]] (4)

其中y为波动率,x为上期收益率,I[-,x-x[,0]]在x-x[,0]<0时取1,其它情况时取0;I[+,x-x[,0]]在x-x[,0]≥0时取1,其它情况时取0。ω、x[,0]、k[,1]、k[,2]为待估参数,采用非线性最小平方估计进行模拟。当折线的两个斜率不等,负收益对应的斜率k[,1]显著大于正收益对应的斜率k[,2]时,即表明已实现波动率存在明显的不对称性。

(四)已实现波动率的长期记忆特性

波动率的一个重要特性是它的持续性,即市场波动一般会持续一段时间,随着时间的推移而慢慢消失。我们可以通过分数综合自回归移动平均模型(Fractional Integrated Autoregressing Moving Average,ARFIMA)更好地模拟具备这种现象的时间序列。

长期记忆或是短期记忆过程可以用统一的ARFIMA模型刻划,ARFIM(p,d,q)模型的形式如下:

φ(L)(1-L)[d]y[,t]+θ(L)ε[,t](5)

其中y[,t]是可观察的序列(如通货膨胀率),ε[,t]为一平稳的噪声序列,φ(L)、θ(L)分别为L的p阶、q阶多项式,d是一个分数,表示对序列进行某种形式的差分。d=0时,ARFIM(p,d,q)模型退化为ARMA(p,q),当d=1时,就是ARIMA模型。

有许多方法可以检测和估计长期记忆过程的存在与否以及代表自相似程度的参数d,我们使用修正的周期图方法估计分数综合参数。周期图方法又称为GPH估计方法,是Geweke、Porter-Hudak(1983)提出的一种非参数周期图回归方法。

首先,需要计算时间序列在各频率下的周期图:,其中i为虚数单位,λ=2πk/N为傅立叶频率。因为I(λ)是频谱密度的一个估计量,所以长期记忆过程的I(λ)的对数应当与│λ│[-2d]的对数成正比,构造以下线性方程:

1n(I(λ[,k]))=β[,0]+β[,1]1n(sin[2](λ[,k]/2))+η

估计出后,根据d=-β[,1]可以计算出分数综合的参数。若分数综合参数的估计值在统计上显著,则说明波动率序列具有长期记忆性。

三、实证研究与分析

(一)样本数据

本文使用的原始数据为上证A、B股指数在2001年1月4日至2002年3月25期间内的每笔交易数据。其中上证A股指数数据共计252510条,包含519个交易日,平均每日485条,上证B股指数数据共计199106条,包含513个交易,平均每日388条。期间内有异常的原始数据如表1所示。

表1 有异常的高频(每笔交易)数据列表

日期 数据 异常原因

2000-03-27至2000-03-31 上证A指,上证B指  缺失数据

2001-02-20至2001-02-23

  上证B指

  暂停交易

2001-02-26至2001-02-27

  上证B指

  暂停交易

2001-05-08上证A指,上证B指  缺失数据

2001-11-15上证A指,上证B指  缺数据

由于数据缺失,少了7个交易日的每笔交易数据,另外,因为上证B指在2000年2月20日至2000年2月27日之间暂停交易,所以上证B指比上证A指要少6个交易日的数据。

鉴于数据缺失的交易口较少,对于这些交易日,我们把它们直接从时间序列中扣除。另外,为了研究上证A指、上证B指之间的协方差和相关度,我们从上证A指中除去对应的6个交易日,再计算协方差和相关度序列,因此协方差和相关度序列的长度为513。

(二)最优时间间隔与波动率估计

由于现实当中的价格并不是严格服从正态发散过程的,因此在估计已实现波动率时,高频数据的时间间隔并不是越小越好,用极高频数据估计波动率往往会因为微观摩擦而产生较大误差。Torben G.Andersen等人在对道·琼斯30只工业股票做实证分析时,直接选取了5分钟数据,而后在其它文献中他们又使用“标记图”方法得出较佳时间间隔。然而,用于估计“已实现波动率”的最佳频率是与市场微观特性相关的,在不同市场、不同时期可能会有所不同。因此,对所有时期的数据样本全部选取一个数据频率,可能存在问题。

图1和图2分别是典型的个股和指数的分时走势图,在个股走势图中,高频价格序列存在着明显的锯齿,表明价格经常在短期内上下跳跃,其主要原因就是市场微观结构导致的交易磨擦;图2中所示的指数高频序列图与个股走势图的情形相反,股指序列相当于多只股票价格序列的加权累计,经过加权累计,单只股票的价格跳跃对股指影响很小,因此股指序列中看不到单只股价序列中的跳跃现象,指数序列相对比较平滑。然而,两种时间序列都与严格的正态发散过程有一定差距,因而在用于估计波动率时,会产生估计误差。

同样,平滑的指数的高频时间序列也不适于使用极高频的数据来估计波动率,如果价格曲线在较长时间段内保持向上或向下,就相当于时间段内高频收益率序列的自协方差是个正数,根据公式(2),采用极高频的数据会显著降低波动率的估计值,根据(3),使用极高频的数据也会由于ρ[,i]的显著增大而产生了较大的误差。因此,也需要寻找恰当的数据频率,以平衡常规的测量误差与微观结构误差。

图1 深发展个股分时走势图(2002年1月4日)

图2 上证A股指数走势图(2000年4月3日)

如图3所示,采用时间间隔为1分钟的高频数据时,波动率估计值最低,随着时间间隔的增大(数据频率降低),波动率估计值逐渐上升,但同时常观测量误差也增加(估计值上下明显波动),就图中曲线而言,比较适宜的时间间隔是10至17分钟。

图3 上证A股指数的波动率高频估计(2001年1月2日)

为尽可能减少微观结构误差和常规测量误差,我们首先对直接高频估计曲线计算两次移动平均值:,得到移动平均估计曲线,显然,经过移动平均处理后,估计值的上下波动明显减小,常规测量误差显著减小。因为时间间隔较小时(数据频率较高),波动率估计值存在明显的负偏差,我们截去移动平均估计曲线的上升部分,取曲线向下走的第一个结点作为最终估计值,例如图3中,最佳时间间隔为16分钟,估计值为0.00003373。类似的方法也可应用到单只股票的高额数报上。

如图4所示,采用时间间隔为1分钟的高频数据时,波动率估计值最高,随着时间间隔的增大(数据频率降低),波动率估计值逐渐下降,但同时常规测量误差也增加(估计值上下明显波动),就图中曲线而言,比较适宜的时间间隔是10至15分钟。同样,首先对直接高频估计曲线计算移动平均值,得到移动平均估计曲线,显然,经过移动平均处理后,常规测量误差得以大大降低。因为时间间隔较小时(数据频率较高),波动率估计值存在明显的正偏差,我们截去移动平均估计曲线的持续下降部分,取曲线向上走的第一个结点作为最终估计值,例如图4中,最佳时间间隔为15分钟,估计值为0.00002686。

图4 单只股票的波动率高频估计(深发展,000001,2002年1月4日)

根据前面的波动率高额估计方法,我们计算得到的上证A指方差、上证B指方差序列。

图5 上证A股指数的高频估计方差序列

图6 上证B股指数的高频估计方差序列

如图中所示,上证A指方差(波动率)在2000年1至3月经历了一次高峰,而后在2000年5月至2001年7月相对较低,2001年7月后又进入一个波动较大的时期。上证B指方差(波动率)在2001年2月之前较低,此后一段时期波动幅度相对较大。从图中可看出,两个方差(波动率)都有明显的前后相关性或持续性,高波动率和低波动率都集中分布在某些特定的时期,而且,上证B指波动率要比上证A指大一些。

如图7所示,上证A、B指数相关度在2000年1月至2001年2月之间较低,一般都在0.6以下,均值为0.3477,2001年3月之后相关度显著增高,一般都在0.6之上,均值为0.7809。

图7 上证A、B股指数的高频估计相关应序列

(三)已实现波动率的不对称特性

我们研究上证A、B指数“已实现方差的对数”和收益率之间的不对称特性,所采用的模型是(4)式的折线方程:

y=ω-k[,1](x-x[,0])I[-,x-x[,0]]+k[,2](x-x[,0])I[+,x-x[,0]]

其中y为波动率,x为上期收益率,I[-,x-x[,0]]在x-x[,0]<0时取1,其它情况时取0;I[+,x-x[,0]]在x-x[,0]≥0时取1,其它情况时取0。采用非线性最小平方估计进行拟合。应用上证A股、B股的对数方差、收益率及相关度数据,对该模型拟合的结果列于下表:

表2 上证A指、B指对数方差与收益率,相关度与上期收益率之和的折线模拟

如表2所示,折线方程(4)式能够较好地模拟上证A、B指数对数方差与收益率的相关关系,对上证A指模拟的R[2]达到0.3以上,对上证B指模拟的R[2]为0.167,均较显著。其次,折线的两个斜率不等,负收益对应的斜率k[,1]显著大于正收益对应的斜率k[,2],表明上证A指、B指均有显著的不对称性。再次,上证A指、B指的折线端点x[,0]接近于0,不对称性只在于正负收益的斜率不同。最后,相关度确实有一定的不对称性,然而,拟合的R[2]仅有0.0192,说明不对称性不显著。

(四)已实现波动率的长期记忆特性

波动率的一个重要特性是它的持续性,即市场波动一般会持续一段时间,随着时间的推移而慢慢消失。我们可以通过ARFIMA模型拟合具备这种现象的时间序列。

我们应用修正的周期图方法估计ARFIMA模型的分数综合参数。首先,需要计算时间序列在各频率下的周期图:,其中i为虚数单位,λ=2πk/N为傅立叶频率。所以长期记忆过程的I(λ)的对数应当与│λ│[-2d]的对数成正比,即有:

1n(I(λ[,k]))=β[,0]+β[,1]1n(sin[2](λ[,k]/2))+η

估计出后,根据d=-β[,1]可以计算出分数综合的参数。若分数综合参数的估计值在统计上显著,则说明波动率序列具有长期记忆性。

通常,用周期法计算得到的1n(I(λ[,k]))序列波动很大,我们对此序列进行移动平均(MA5)后,再用线性回归得到分数综合参数。如表3所示,线性估计的R[2]都比较大,三个分数综合参数估计值都在0至0.5之间,表明3个时间序列均有显著的长期记忆特征。上证B指波动率序列的分数综合参数为0.28,低于上证A指波动率以及A、B指相关度的参数估计,说明上证B指波动率序列的持续性相对较低。

表3 上证A、B指波动率、相关度的长期记忆检验表

样本数

Beta

 R[2]

d

上证A指波动率

22 -0.36544  0.9128  0.36544

上证B指波动率

22 -0.28042  0.9487  0.28042

A、B指相关数

 22 -0.4453

0.94422 0.4453

四、结论

针对中国股票市场波动率,本文进行了有关高频估计、特性(分布、不对称、长期记忆)以及模拟与预测等等各方面的研究。

首先,我们发现股票指数与个股的高频交易数据中的微观摩擦影响正好相反,使用极高频的数据会大大增加个股的波动率估计值,相反却会大大降低指数的波动率估计值。因为测量误差与微观摩擦误差在各个时期有较大变化,所以直接选用5分钟或15分钟交易数据并不可取,凭主观进行判断的“标记图”方法也有一定偏差,本文中构造了一种较为精确的估计波动率的方法,得到了较为准确的上证A、B指数的波动率序列。

其次,基于已实现波动率,本文研究了中国股市波动率的不对称性和长期记忆特性。在波动率的不对称特性方面,上证A、B指均有明显对上期收益和本期收益的不对称性,折线回归可以很好地模拟这种不对称性;在波动率的长期记忆特性方面,上证A、B指波动率及其相关度都有明显的持续性和长期记忆特征,上证B指波动率持续性较弱,上证A指波动率和两个指数的相关度持续性较强些。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

中国股市波动的高频估计与特征分析_时间序列论文
下载Doc文档

猜你喜欢