金融高频数据的最优抽样频率研究,本文主要内容关键词为:最优论文,频率论文,金融论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在金融低频数据的研究中,通常采用GARCH类和SV类模型对金融波动进行建模和预测。而在高频领域,则是用“已实现”波动的方法对积分波动进行估计,该方法无模型,不需要进行复杂的参数估计,计算简便。
最优抽样频率的选择是构建准确的“已实现”波动率估计量的关键,它与“已实现”波动估计量密切相关,是金融高频数据研究中的重要课题。“已实现”波动估计量的基本思想就是将一定时间段内的若干个收益平方和作为积分波动的估计量,而将这一时间段等分成多少份所得到的估计量最准确就是最优抽样频率问题。产生这一问题的根源就是在金融高频数据中存在市场微观结构误差。
微观结构误差是指由于交易的竞-要价跃动、不同步交易、闭市效应等引起的高频收益率的序列相关,从而导致相关指标偏离信息的真实反映。随着抽样频率的升高,微观结构误差的影响越来越显著。“已实现”波动估计量同时还受到测量误差的影响。测量误差是随着抽样频率的升高而降低的。要获得准确的估计量就需要在2种误差之间进行权衡。由于抽样频率是构建“已实现”波动的一个变量,因此在金融高频数据的研究中,只要用到“已实现”波动就必然涉及最优抽样频率问题。
一、国内外研究综述
目前,国内外关于最优抽样频率的研究一般都是基于一定的“已实现”波动估计量的具体形式来进行的。例如,关于调整“已实现”波动的最优抽样频率的研究[1],关于赋权“已实现”波动的最优抽样频率的研究[2],关于极差“已实现”波动的最优抽样频率的研究[3]。在国外,近年来一些学者对这个问题也十分关注,如BANDI等[4]以及ZHANG等[5]均是基于“已实现”波动进行最优抽样频率的研究。
(一)国内的研究
在文献[1]中考虑到金融高频数据中微观结构误差的存在,使得高频收益率的序列存在序列自相关,因此,定义微观结构误差(microstructure error,ME)
使得ME与赋权“已实现”波动(WRV)估计量的测量误差之和最小的抽样频率M,即为最优抽样频率M*,其中测量误差为“已实现”波动时间序列的方差,通过样本方差的计算可以方便地进行估计。
在文献[3]中,考虑极差“已实现”波动(RRV)。极差“已实现”波动
为讨论方便给出如下假设
假设1 真实的对数价格过程p*(t)是连续的局部鞅;
从国内外的研究情况可以看出,虽然在最优抽样频率中所使用的“已实现”波动估计量不同,但研究思路却有共同之处。总体来说,对最优抽样频率的研究方法有2种:①将误差进行细分,分别求得偏差和方差,然后对两部分进行权衡以求解最优抽样频率,如文献[2,5]的研究,文献[1]则是主要依据微观结构误差的大小来判断最优抽样频率。②考虑“已实现”波动估计量与被估计的积分波动的总体误差,使总的误差最小,从而求得最优抽样频率M*,如文献[3,4]的研究。
另外,国内和国外学者对最优抽样频率研究的假设条件有所不同。国内学者的文献[1-3]对最优抽样频率的研究都是假设观测价格即为真实价格,并且价格过程是半鞅。文献上早期对“已实现”波动的研究都是建立在该假设条件的基础之上的。但事实上,实际观测到的价格并不是真实的价格,而是已经被噪声“污染”了的数据。因此,近年来国外学者对假设条件进行了更符合实际的扩展,假定观测价格是由真实价格与噪声共同构成的,其中真实价格过程是半鞅。
从最优抽样频率求解的难易程度上来看,国内的研究方法更容易确定最优抽样频率的解,因为无论是将误差分开成两部分考虑或是整体考虑,“已实现”波动估计量的方差都不用进行理论推导,而是用实际数据通过样本方差计算直接获得。但国外学者对最优抽样频率的研究则是从理论推导入手,给出了最优抽样频率的表达式,因此求解表达式却十分困难,往往要涉及最小化非线性函数,而且式中QV由于无法观测而不能直接获得。这样最后得到的最优抽样频率的解也只能是一个近似解。并且QV是使用在无噪声假设条件下得到的估计量来进行计算的,当抽样频率较大时,不是QV的一致估计量,故只能用相对较低的抽样频率来进行近似计算,这就限制了其结果的应用。
最后,文献[1-3]所确定的最优抽样频率方法即使应用于同一样本数据,所求得的最优抽样频率的值也不相同,文献[1]所求得的最优抽样频率一般比文献[2]所求得的数值要高,文献[3]求得的极差“已实现”波动的最优抽样频率要高于“已实现”波动的最优抽样频率。而国外的结果虽然对最优抽样频率的研究思路不同,但容易推得他们所得到的最优抽样频率的近似解却是一致的。
二、基于“已实现”双幂次变差和赋权“已实现”波动的最优抽样频率
(一)最优抽样频率的求解问题
通过前文分析,可看出有关方法各有所长,又各有所短,因此本文取长避短,并结合我国股市金融高频数据的实际情况,提出了一种既合理又简便易行的最优抽样频率确定方法。
首先,由于金融高频数据中存在着微观结构噪声,因此假设观测价格由真实价格与噪声两部分组成。在这一更接近于实际的假设条件下,虽然文献[4,5]中采用的研究方法完全不同,但得到的最优抽样频率却是一致的。其次,将误差分为偏差和方差两部分考虑,因为偏差在假设条件成立时相对较易求解,并且,如果考虑总体误差,则不可避免地要用到的估计量,而在假设条件下,的一致估计量不易求解。再次,“已实现”波动估计量的方差可以用实际数据通过直接计算求解。这是因为,一方面,我国股市的金融高频数据最短抽样间隔为1min,全天交易时长240min,而国外金融高频市场全天390min交易时长,高频金融数据的最短抽样间隔为1s。由此,相对于国外市场,我国金融高频数据的抽样频率的取值范围要小得多,若最优抽样频率计算得出小于1min或几分零几秒的数值,对实际应用的价值也不大,所以对“已实现”波动估计量方差的计算完全可以采用列举法,这样不但可以避免复杂的“已实现”波动估计量方差的理论推导,而且可以避免使用,因为“已实现”波动估计量方差的表达式中一定含有,而又不是的一致估计量,这样在实际计算和分析中尽量避免使用,最后,构建均方误差MSE,使得ME最小的抽样频率即为最优抽样频率M*。
该思路可以应用于各种“已实现”波动估计量,考虑噪声的存在,在前述的假设条件下通过理论推导获得估计量的偏差,而方差则通过样本计算获得。在“已实现”波动估计量中,“已实现”双幂次变差是稳健并且有效的金融波动估计量,赋权“已实现”波动则充分考虑了“日历效应”的影响,它是比“已实现”波动更为有效的金融波动度量方法[2]。
(二)基于“已实现”双幂次变差和赋权“已实现”波动的最优抽样频率
(1)“已实现”双幂次变差
“已实现”双幂次变差(realized bipower variation,RBV)是BARNDORFF-NIELSEN等[7-9]提出的另一类似于“已实现”波动的金融波动率度量方法。“已实现”双幂次变差
“已实现”双幂次变差对金融波动的估计有更好的稳健性[7],而且当r=s=1时的“已实现”双幂次变差RBV比“已实现”波动和r、s取其他值时的RBV更有效[10],因此,r=s=1时的“已实现”双幂次变差RBV是一个比较理想的金融波动估计量。
(2)存在噪声时“已实现”双幂次变差和赋权“已实现”波动的偏差
当r=s=1时,“已实现”双幂次变差
在存在噪声的假设条件下,从定理1和定理2可以看出,对“已实现”波动估计量的偏差的理论推导并不困难,而且得到的偏差表达式也并不复杂。均方误差表达式中的方差部分,本文建议通过样本数据直接计算,这样就避免了复杂的理论推导,并且可以避免使用QV估计量,从而更加简便易行。这一思路可以应用于各种“已实现”波动估计量,只要通过理论推导得出估计量的偏差即可。
三、实证研究
本部分采用2005-04-14~2006-04-14深证成指的1min间隔时间段内的收盘价来具体说明求解最优抽样频率的实际操作过程。这期间共有243个交易日,共有240×243=58320个数据。由于高频数据是等间隔抽样的数据,因此抽样频率M可以取到的数值共有17个。
表4列出了用文献[4,5]的最优抽样频率计算公式计算得出的深证成指的最优抽样频率。由于公式中用到了估计量,而抽样频率取不同值时所得到的估计量的值也不同,从而导致计算得出的最优抽样频率也不相同。表4中列举了抽样频率M在取240、48、24、8、4时得到的最优抽样频率。由于估计量在存在微观结构噪声的条件下不是一致的估计量,因此在计算时应选取较低的抽样频率估计量才能相对准确。从表4中可以看到,除了在M=240时与其他抽样频率下计算得出的最优抽样频率差别较大外,其他的最优抽样频率值都在98到120之间。由于高频数据是等间隔抽样的数据,并且我国股市的金融高频数据最短抽样间隔为1min,因此能取到的数值为120,也就是最优抽样间隔为2min。这与我们用“已实现”波动估计量计算得出的结果也是一致的。
表1 深证成指在不同抽样频率下的偏差、方差和均方误差
表2 深证成指在不同抽样频率下RBV的偏差、方差和均方误差
表3 深证成指在不同抽样频率下WRV的偏差、方差和均方误差
表4 深证成指由不同抽样频率的估计量计算得出的最优抽样频率
四、结语
本文根据目前我国股市金融高频数据量较小,便于列举各个抽样频率下样本数据方差的特点,提出了一种前提假设更合理,不但可以避免复杂的“已实现”波动估计量方差的理论推导,而且可以避免使用估计量,还可以应用于不同“已实现”波动估计量的简便易行的最优抽样频率求解方法,给出了存在微观结构噪声条件下“已实现”双幂次变差和赋权“已实现”波动估计量的偏差。最后,用深证成指的金融高频数据给出了最优抽样频率求解的实际操作过程,并且与国外学者在“已实现”波动基础上得出的结果作了对比,其结果是一致的。