金融高频数据仅仅是一个优质的时间序列吗:概念及统计特征的再考察,本文主要内容关键词为:是一个论文,序列论文,特征论文,概念论文,时间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
在低频时间序列分析中,一个足够大的样本对应的时间跨度可能非常之大,从而使研究对象产生偏倚。特别是中国证券市场历史短暂且发展迅速,跨期的观测数据往往在可比性上亦不能令人满意。伴随着技术的日益革新,对金融数据观测和记录的频率越来越细致,甚至可以实时跟踪交易数据并在精度上达到毫秒微秒,以近似连续的方式记录金融市场上发生的变化。这类金融高频数据可以在较窄的观测区间内产生满足分析所需要的数据量,为构造理想的模型提供了良好的起点。然而或许金融高频数据更重要的意义在于,它能否提供低频数据无法观察到的重要特征和信息,就好似用显微镜、慢镜头可以观察到裸眼无法看到的重要细节。金融高频数据分析很大程度上是为了探索价格短期行为特征(如日内波动)与市场微观结构(如价格发现),同时也为理解金融市场价格形成机理和市场交易机制、减少交易成本和增加交易的灵活性、提高风险管理的能力等方面提供了丰富的素材。 一般而言,金融高频数据分析主要涉及基本经验事实的归纳(如日历效应、价格惰性等)、市场微观结构分析(如非对称信息模型、存货模型等)以及计量经济建模(如波动率建模、随机交易间隔建模、连续时间模型等)等几个方面。根据Herwartz(2006)的观点,金融高频数据建模可以分为价格离散变动建模、固定时间间隔建模和随机交易间隔建模三类。考虑到等间隔的非同时性、微结构动态等因素,最近的建模方法都兼顾到随机间隔的情形。 资产价格的波动蕴含着资产收益与风险的信息,因而考察资产价格波动性的理论与方法一直是金融领域一个活跃的研究主题。从最初的平稳波动,到刻画波动聚集性、非对称性、长记忆等特征的ARCH族模型、GARCH族模型和SV族模型,再到金融高频数据的已实现波动率(realized volatility,RV)及其在微结构噪声、跳跃成分等现实条件下的矫正和分解,王天一和黄卓(2012)系统总结了金融高频数据的波动率计量方法及其在金融工程、风险管理等方面的应用。 随机交易间隔建模方面,主要以Engel和Russell(1994,1998)提出的ACD模型(autoregressive conditional duration,ACD)为基本分析框架,目前ACD模型也已经被广泛地发展成为一族模型,如Bauwens和Giot(2000)提出对数ACD模型;Zhang,Russell和Tsay(2001)提出门限(非线性)ACD模型等等。国内文献张世英和樊智(2009)和徐国祥(2009)对此做了较为完整的综述。 连续时间模型方面,自Black和Scholes(1973)以来,布朗运动(Brown motion)①一直是刻画资产及衍生证券价格波动的基准模型,Merton(1976)引入跳跃成分(jump)推广了该基准模型,随后的研究大都是在同时包含连续和离散成分下进行的。特别在金融高频数据中,跳跃成分与微观结构噪声更是不能忽略的重要因素。如Fan和Wang(2007)提出了一种兼顾处理价格中的跳跃行为和微结构噪声的方法;-Sahalia和Jacod(2009)提出了一类广义跳跃指数(a general jump activity index),但因跃阶较大,使有效样本缩减,为此Jing等(2012)进一步细化了跳跃的幅度。Todorov和Tauchen(2010)定义了一个活动特征函数(activity signature function)来诊断过程中是否包含连续鞅,实证表明,跳扩散过程(jump-diffusion model)比纯跳过程(pure-jump model)更为合适。同时Yacine和Jacod(2010)采用金融高频数据也检验了价格波动包含连续成分的必要性。 然而仅仅因为取样频率提高而将金融高频数据单纯理解为一个优质的时间序列是不完整的:因为(1)若不经过恰当的数据预处理,则取样频率提高后的时间序列其实谈不上优质,因为随着取样频率提高,市场微结构噪声(market microstructure noise)②、跳跃成分(jump)等因素的影响也变得越来越突出;(2)将金融高频数据单纯理解为时间序列至少忽略了日内与日间两个不同维度各自所具有的分布特征。为此本文提出双重视角。作为铺垫和一个基本的起点,首先讨论了金融高频数据的时间标尺,以及数据预处理中的两类加总、分拆与匹配。继而从经验和理论特征两方面研究了金融高频数据的基本统计性质。最后给出全文结论。 二、时间序列:理解金融高频数据的起点 当一个市价指令(卖方)与数个等待的限价指令(买方)相匹配时(价格相等,但数量上未补平(unfilled)),就会产生拆分问题(split-transactions)。在高频金融中,这些子交易是逐个记录的,若记录精度不高,则交易数据会表现为同时交易。注意,这里的同时交易是因为记录时间精度不够而引起的,而非同时交易(non-synchronized)一般指的是不同交易所报价和记录数据存在时间上的不一致,或者不同股票交易时间不同却以等间隔取样所导致的非同时性,相应的价格保持不变(事实上也可以是变化的)。 如果交易本身是拆分完成的,将子交易加总为一个总交易是恰当的。其实,我们所使用的高频数据大都是加总过的。尽管加总会损失一些信息,但是(1)对于我们要分析的变量,这样构造和组织数据是经济且实用的,特别是数据量比较大的时候;(2)可以减少市场微结构噪声的影响。 加总有两个基本的思路:事件加总(event aggregation)和时间加总(time aggregation),前者根据具体的某类交易事件是否发生进行加总,比如交易是否发生、限价指令是否到达、交易价格是否变动等;后者根据钟表时间(clock time;calendar time)是否嘀嗒跳动进行加总。事件加总会相应地产生久期(duration)——刻画交易动态,时间加总在时间上显然是等距的。采用时间加总的好处是(1)在进行多变量分析时,数据采样可以保持一致;(2)在进行预测时,通常是钟表时间刻度的。但采用时间加总需要比较不同间隔宽窄所带来的影响,即,取样的细致程度对分析结果是有影响的(不难想象,随着取样间隔加细,往往会收敛到事件加总的情形)。 数据处理过程中,除了加总与拆分,还有一类值得注意的问题是匹配(matching)。比如,不同的交易所会对交易和报价做各自的记录,那么如何把这些数据集进行匹配就成了问题。再比如,交易与相应的报价之间的匹配,Lee和Ready(1991)建议让报价前置5秒,但这个法则并不适用于最近的数据,因为无论从指令处理的速度还是准确度来讲都有了很大的提升,这在一定程度上减少了延迟。Henker和Wang(2006)的实证分析表明,1秒的延迟是恰当的,这与目前的大多相关研究相符。事实上,采用一刀切的延迟匹配规则可能并不合适,从这个角度来讲,数据导向的延迟规则更合理一些。 三、超越时间序列:双重视角 “t(i)视角”相当于将时间序列“拆叠”,将每一个交易日作为一个虚拟个体来看待,或看作是对交易日的重复观测,其分析单位是秒、毫秒甚至更细的时间尺度,它关心的是日内的行为特征。然而单纯一天的数据并不能说明问题,因为它可能只是偶然的、随机的个案。为从统计上更科学地反映一天的行为特征,往往需要找出“典型的一天”或“有代表性的一天”,最简单的便是平均,这便是(t=1,2,…,m)。其中,超高频数据观测频次t的间距和长度往往不等。因此,如果(超)高频数据挖掘的目标主要是为了理解日内行为特征,那么“t(i)视角”更为可取,比如对日历效应、随机交易间隔所反映出来的行为特征的理解。事实上,在“t(i)视角”下,还可以借鉴波动溢出的多变量方法,研究不同交易日之间的溢出与关联。经验数据表明,价格在日内的波动非常有限,而建模在本质上是为了对波动做出解释。因此,如果考虑对价格波动建模,则更适宜采用“i(t)视角”(时间序列)。 四、金融高频数据的基本统计性质 (一)经验特征 20世纪90年代,技术的发展催生了高频交易(high-frequency trading;computerized trading;systematic trading)③,它通过一系列复杂且高速计算机程序来生成、发送和执行交易指令。高频交易区别于低频交易主要在于:(1)对市场的反应是由高性能电脑所驱动的,也正因为如此,它对市场能做出迅速的反应,且规避了人类的犹豫和感性的干扰、对市场有效性(把信息迅速反应到价格上)与流动性都有助益④、对技术创新(比如更高性能的计算机)也是一种牵引;(2)交易量大而单笔交易的平均收益小。高频交易者(high-frequency trader)的前身其实是传统的做市商(market-maker),只是随着技术的发展,他们不再通过喊价、电话而是采用电子交易,买卖价差也随之缩窄,所以高频交易主要靠“量”(频繁地大量买卖)来获益。值得注意的是,高频交易决策并非单纯依赖于当前数据,而是对大量历史数据的迅速处理(捕捉价格的微小变动),以及对价格微小变动迅速反应构造资产组合头寸,所以高频交易并不能等同于投机交易,而是技术进步使投资不必要再等那么久了,或者说,它更像是对技术分析的革新。 而通常提及的金融(超)高频数据主要是针对一般交易的高频率记录(实时记录)而言的,其中,“低频数据”通常指以天、周、月、年作为计量单位的数据;“高频数据”(high-frequency data,HFD)是主要以小时、分钟或秒为采集频率的数据;“超高频数据”(ultra high-frequency data,UHFD)则指的是逐笔记录(transaction by transaction;tick by tick)的数据。不过,高频交易策略也会依赖于(超)高频数据,比如采用高频数据验证市场有效性可以为高频交易是否存在获利机会提供佐证。二者的共同点是对短期的关注,特别是大量的日内数据。 为了排除系统性的宏观因素干扰,选取研究样本为2005年2月21日到2006年1月6日抽样间隔为5分钟的上证价格指数与深圳价格指数高频数据。二者价格变动趋势相似,收益率相关系数为0.8644,如图1所示。收益率皆围绕零值震荡(标准差分别为0.0017和0.0016),说明存在序列负相关,且从振幅频繁地出现大起大落可以推知对数价格序列含有跳跃成分,这在概率分布中表现为典型的厚尾特征,然而经过已实现波动率调整之后,其核密度估计趋向于近似正态分布。请参见下页图3。 早期的金融高频数据研究主要是对日内模式的考察,如日内交易价格、交易量、交易间隔、收益率、波动率、买卖价差等变量往往都会表现出典型的U型日历效应(diurnal pattern;daily periodic),即,投资者在开闭市比中间交易时段更活跃。这里我们考察了平均日内价格和平均已实现波动率,见图2,发现上证指数的平均日内价格近似呈U型,其平均已实现波动率则更像L型,这种行为上的不一致,暂时我们还没有办法给出一个恰当一致的解释;而深圳价格指数的平均日内价格和平均已实现波动率的特征是一致的,皆自高至低缓慢下降,反映了投资者活跃程度逐渐下降的行为特征。屈文洲和吴世农(2002)的研究发现,中国股票市场的买卖价差也呈现出L形的日内变动模式,并将其解释为报价驱动机制(quote-driven)与指令驱动机制(orderdriven)的差异。 由于价格变动只能是最小单位(tick)的整数倍,而且随着取样频率增加,跳成分越来越明显,因此高频价格往往表现为离散波动。另一方面,高频价格的变动在日内也存在惰性,特别是涨跌停和熔断机制也限制了价格的日内最大波动幅度。图4显示,维持价格不变的比例相对是最大的,60%以上的交易未有价格变动,且正负变动大致对称。此外,高频数据还存在同时交易问题(multiple transaction),即,一个记录时点上有多笔交易。如果多笔交易的价格不变,那么则可以认为是记录时间精度过粗引起的;如果同一时点上的多笔交易价格有变,那么一种直接的处理方法是,在出现同时交易的时刻统一取平均或最大(小)值或随机选取一点。显然离散价格、价格惰性和同时交易等问题增加了日内价格波动建模的难度。 (二)理论特征 1.波动率(剔除趋势项) 设是t时刻的交易价格,其中,t可以是钟表时间也可以是交易时间;可以是真实价格但这里我们采用对数价格,因为对数价格的差分或增量即为收益率,且收益率的方差随时间变化小于价格(若假定对数价格服从布朗运动,则其增量是平稳的),同时作为一个相对量也消除了量纲的影响。 飘移项在高频数据分析中通常可以略去,这是因为: 舍去飘移项的另一个原因是,Merton(1980)的研究发现,样本取样频率越高,有助于估计二阶矩,但无助于估计一阶矩。不妨设第i个交易日的第t个观测值为,其中i=1,2,…,n,t=1,2,…,m,注意:第i-1个交易日与第i个交易日之间的间隔是24小时(钟表时间),这里为了简化分析不妨假定有效交易时间为4小时(忽略中间非交易时间),且间隔Δ相等,则, 从更一般的连续时间金融来看,从观测价格中排除微结构噪声得到有效价格,如果=P(t)是连续的,且服从几何布朗运动: 那么在无套利假定下根据伊藤引理有: 2.微观结构噪声的凸显 随着频率增加,微结构噪声带来的干扰变得越来越突出,有些二阶矩不再收敛,而是发散的,比如前文提到的已实现波动率。为此,Zhang等(2005提出了双尺度已实现波动率(two scale realized volatility,TSRV),Zhang(2006)进一步提出了多尺度已实现波动率(multi-scale realized volatility,MSRV),大大改进了TSRV估计的无偏性和一致性,同时较好地处理了边界点问题。同时,微结构噪声还导致日内收益率一阶负相关⑤和方差高估。事实上,如果不存在微结构噪声,取样频率越高则精确度越高,然而在微结构噪声存在的条件下,则不得不讨论最优取样间隔的权衡(等间隔数据)。 这意味着含有微结构噪声时,日内收益率一阶自相关系数为负,日内收益率的方差是高估的;并且高频数据(微结构噪声突出)比低频数据更为显著。对于超高频数据,其交易间隔随机且不等,记为,于是的方差协方差矩阵为: 易得一阶自相关系数仍然是负的。综上,微结构噪声导致高频数据日内收益率一阶负相关、方差高估;并且随着取样频率增加(微结构噪声突出)尤为显著。 多数研究针对特定的样本数据计算得到最优频率一般是五分钟,本文也采用这一通用做法,取五分钟间隔。 3.跳跃成分的凸显 从更细的尺度上来看,真实的价格序列并不是完全连续的——扩散模型很难去刻画到那些未预期到的变动(风险),特别是高频数据所表现出来的离散特征,所以更一般的情形是附加跳跃成分(离散)的连续模型。其中,连续部分(边际变动)可以由Wiener过程(标准几何布朗运动)驱动;跳部分(边际变动以外的部分)由Poisson过程驱动。Merton(1976)也曾指出,Black-Scholes方程的一个关键假定是,交易在时间上是连续的,且价格动态以概率1存在一个连续的样本路径。所以本质上来讲,B-S方程的有效性要看股票价格的变动是否满足局域Markov性(在很小的时间区间,股价只有很小的变动)。与之截然相反的是,可以容许在任意小的时间区间有极大的价格变动,即所谓的“跳过程”(jump process),它可能反映了一些重要信息(离散到达)。 从分布来看,真实数据的尾部更厚,这在某种程度上确认了跳跃成分的存在。特别是随着取样频率增加,“尖峰厚尾”特征愈加明显。诚然,有些连续扩散模型(diffusion model)确也可以刻画到厚尾特征,但很难捕捉背后的跳跃成分。只有粗粒化(coarse graining)的真实数据才近似布朗运动,随着取样频率增加,用布朗运动来建模显然是不合适的。甚至有研究极端地假设,金融高频数据是由纯跳过程(pure-jump model)生成的,但是一些实证分析并不支持这一假设,认为模型包含连续成分还是必要的。通过建模的方法可以有效地控制跳跃成分的影响,而对于已实现波动率,Barndorff-Nielsen和Shephard(2004)提出的已实现双幂波动估计量(the realized bipower variation estimator)可以有效地处理跳跃成分的影响。 首先,在金融领域,实务部门提到的“高频”多指高频交易,如股指期货和商品期货的量化投资,而学界提到“高频”则更倾向于泛指对交易的高频记录数据,二者有本质上的不同,尽管都是对短期的关注。另一方面,近年来学界采用高频数据验证市场有效性成为对高频交易盛行的一个重要辅证。 其次,金融高频数据有助于理解投资行为和交易过程的细节,同时也对经典的分析工具提出了挑战。特别是数据取样频率的增加并非简单地加细了取样间隔,频率从日到分钟,与频率从月到日,存在本质区别。譬如,在物理和生物科学中,当分析的尺度降为分子或原子时,有些被略去的成分逐渐变得重要起来。金融市场亦如此,市场微结构噪声在低频情况下只是作为次要的噪声来处理,而在高频数据中却有显著的表现;低频数据可以用几何布朗运动来近似,而高频数据则需要进一步对显著的跳跃成分加以建模。 最后,金融高频数据不仅仅是作为一个优质的时间序列用来验证在以往粗糙信息下建立的经典理论与模型,因为如果将金融高频数据单纯理解为时间序列,那么至少忽略了日内与日间两个不同维度各自所具有的分布特征。为此提出双重视角,其中,“i(t)视角”本质上是样本的细化,它分析的对象仍然以天为单位,只是每天的数据更加细致;“t(i)视角”相当于将时间序列“拆叠”,将每一个交易日作为一个虚拟个体来看待,或看作是对交易日的重复观测,其分析单位是秒、毫秒甚至更细的时间尺度,它关心的是日内的行为特征,因此更接近金融高频数据分析的实质。一系列经验特征表明,对日内价格波动建模是困难的;理论特征方面主要研究了为什么金融高频数据分析集中于波动率的分析而忽略趋势项,微结构噪声和跳跃成分的影响以及相应的矫正方法。 致谢:感谢匿名审稿人建设性的修改意见,文责自负。 ①服从正态分布,且有独立平稳增量。Brownian运动的重要特征是:(1)样本路径是连续的(continuity);(2)尺度不变(scale invariance)。而真实的对数价格行为是离散的,而且尺度越细,跳跃成分越明显。所以只有粗粒化(coarse graining)的真实数据才近似Brownian运动。这与有效性检验倾向于在低频条件下成立相似。 ②市场微结构噪声(market microstructure noise)指的是,诸如离散价格、做市商制度下存在的买卖价差、闭市效应、异步交易、非频繁交易等交易的微观因素对短期数据分析的扰动。而市场微结构理论(market microstructure theory)主要研究的是现实中(有摩擦的交易)价格形成的动态过程(潜在的投资需求如何转化成价格和交易量),比如通过考察信息不对称、市场结构、交易者行为、流动性等因素来解释为什么现实中的价格没有按照理论上有效的方式变动;这些因素如何作用于价格形成的动态过程;如何通过比较不同的交易机制对价格的影响来选择最优的交易机制;如何估计流动性、交易成本的大小等类似问题。 ③与高频交易相联系的概念有量化投资或算法交易(quant models)、统计套利(statistical arbitrage)等,其中,算法交易是给定市场环境下做出买卖决策之后对买卖指令的优化,比如,是主动执行(以接近市价下市价订单)还是被动执行(以远离市价下限价订单),是一次性交易还是分割成多次交易。统计套利是做空机制下的一种交易方式,起源于20世纪80年代摩根斯坦利研究团队开发的匹配交易(pairs trading)。而电子交易(electronic trading)仅仅指的是通过电子方式传送交易指令,算法交易要比电子交易复杂得多。 ④高频交易可以及时发现并消除市场暂时的无效率或错误定价,促进市场价格更敏锐地反映市场信息。Oanda公司的总裁Richard Olsen(2009做了一个形象的比喻,如果将金融市场比作人体,那么高频交易就像血液一样,一天数遍地流过,排除毒素、治愈创伤、调节温度,从而有利于金融市场的稳定。 ⑤这里是考虑符号的,即,带符号的价格变动倾向于一阶负相关;而价格绝对变动则倾向于拖尾正相关。标签:时间序列论文; 大数据论文; 金融论文; 波动率论文; 高频交易论文; 统计模型论文; 特征频率论文; 数据建模论文;