基于藤Copula法的持续时间相关结构估计与预测_copula论文

基于藤Copula方法的持续期自相依结构估计及预测，本文主要内容关键词为：结构论文,方法论文,Copula论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

持续期（Duration）是指金融市场中相邻两个事件之间的时间间隔。交易量持续期、报价持续期和价格持续期反映了市场最基本的交易信息和流动性特征，可以作为金融市场信息流动的重要指标，对持续期的研究能够揭示和解释金融市场的某些规律和现象[1]。随着获得（超）高频交易数据能力的提高，也有许多针对（超）高频交易数据的研究。然而分笔交易的时间间隔是随机的，传统的时间序列分析模型不适合描述持续期数据，需要探索新的分析方法。

Engle和Russel[2]提出自回归条件久期（Autoregressive Conditional Duration，ACD）模型可以用于描述这些点过程产生的数据。ACD的原始模型设定持续期服从线性自回归过程，而残差项分别服从标准指数（Exponent）分布或者标准化的韦布尔（Weibull）分布。为了更加准确的描述持续期数据，许多学者对ACD模型进行了扩展和改进，代表性的有一般伽玛（Generalized Gamma）分布ACD模型[3]。将Burr分布引入到ACD模型中，克服了已有ACD模型的不足，可以描述非单调的危险率函数[4]。LOG-ACD模型克服了传统ACD模型中条件期望方程的变量系数必须非负的限制，可以加入解释变量来检验市场微观结构理论[5]。

然而这些模型都是在标准ACD的框架下提出的，本质上描述的都是线性关系，除了可能导致过度参数化外，还受到严格自回归过程的影响。本文提出一种基于Copula方法的半参数模型来描述持续期数据，分析持续期之间的非线性相依结构。实际上可以将相邻的持续期数据看作是某一个多元分布的实现，我们把这个多元分布分成两部分来看，即变量的无条件边际分布和变量间的相依结构。Copula能很好地描述变量间的相依结构，利用Copula描述连续两个持续期数据间的相依结构（Temporal Dependence），通过并对德国XETRA系统的交易数据进行了实证分析，发现基于Copula方法的模型在预测方面表现要优于ACD模型，但是没有给出具体的持续期预测结果[6]。运用Copula可以对股票市场和外汇市场的相依结构进行模拟，验证了两者收益率之间对称尾部相依的显著性[7]。本文将利用藤Copula对连续多个（大于2）持续期数据间自相依结构进行建模，得到持续期

在给定前n个相邻持续期数据条件下的条件密度函数估计，并给出持续期预测效果和密度预测的检验。

相比较而言，二元Copula的（条件）分布函数和密度函数都比较容易得到明确的函数表达式。多元Copula的（条件）分布函数和密度函数表达式不方便表示，常见的包括多元Student t Copula和多元Gaussian Copula等，但这两类Copula在描述尾部相依性时有一定的局限，其中Gaussian Copula不适合描述尾部具有相关性的数据，Student t Copula则适合描述同时具有上尾相关和下尾相关的数据。本文引入藤Copula对多元Copula进行分解，以纳入更多的二元Copula对数据进行描述。藤Copula在简单构造模块pair-Copula的基础上，提出的一种构造复杂多元相依结构新方法，它将多元联合密度函数分解成一系列pair-Copula模块和边缘密度函数的乘积，这就为二元Copula方法推广到高维情况提供了理论基础[8]。在藤Copula中应用最广泛的是C藤Copula和D藤Copula，其中C藤Copula适合描述有主导变量的数据集间的相依结构，D藤适合描述变量间地位相同的数据集。C藤Copula方法引入到金融领域中来，获得了很好的应用[9～12]。本文假定已经实现的持续期对后续实现的持续期都有影响，每棵树上都有一个主导的节点，因此我们利用C藤Copula估计多维自相依结构。藤Copula的引入，使得本文提出的半参数模型对持续期相依结构的描述更具灵活性和准确性。本文中我们将对交易量持续期进行实证分析，结果表明，本文模型在持续期的预测和密度函数检验方面都明显优于ACD模型，原因在于前者能够对多元分布进行刻画，而后者只能描述持续期均值之间的线性关系。

2 模型介绍

2.1 标准ACD模型

因为期望持续期为正，且为了保证持续期序列的平稳性，必须对参数作以下的假定：

满足以上条件的就是标准ACD（r，s）模型。简单ACD模型和复杂的ACD模型在数据描述上有相近的表现[13]，本文采用

服从标准指数分布的ACD（1，1），即EACD（1，1）模型作为基准比较模型。

2.2 Canonical藤（Vines）Copula方法介绍

多元联合密度函数则可以表示为：

在上述表达式中，每个pair Copula密度函数包含一对条件分布函数F（x｜v），它可以通过下述公式得到：

2.3 基于Canonical藤Copula方法半参数持续期模型

根据公式（3）和公式（4）可知：

其中

即为基于本文模型得到的条件期望持续期的估计。

3 基于藤Copula的持续期密度估计以及检验

3.1 持续期数据预处理

3.2 模型估计

关于ACD模型的估计已经有很多文献给出，不再重述[15]。下面给出本文模型的估计方法，以n=3为例，估计交易量持续期

的条件密度函数

（（6）式）。

3.2.1 pair-Copula参数估计

得到边缘分布后，将其代入C藤Copula的对数似然函数，便可以对参数进行极大似然估计。我们首先需要选择用何种类型的pair Copula来描述收益率序列间的相依结构，常见的二元pair Copula有Gaussian，Student t，Gumbel和Clayton Copula。在实证分析中，有多种途径来选择使用何种Copula来描述特定的数据集，比如，可以观察原始数据的散点图，也可以用AIC、BIC准则比较拟合结果，进而选择合适的Copula函数类型。本文中将采用极大似然方法估计C藤中每个pair Copula的参数，其对数似然函数如下：

其中n是多元Copula的维数，T表示观察值个数，θ代表pair Copula的参数集合。以上的每一个pair Copula中至少有一个参数需要被估计，这取决于选择的Copula函数类型，例如Student t Copula有自由度和相关系数两个参数需要估计，Archimedean Copula通常只有一个参数需要被估计。其中条件分布函数

可以通过（5）式给出的关系通过循环计算得出。最大化（9）式，便可以得到所有参数的估计值。在对pair Copula做极大似然估计时，初值的选取非常重要，可以参见文献[9]，这里不再详述。本文模型中的对数似然函数为：

3.2.2 估计

的边缘密度函数

本文采用非参数核密度估计方法对

的密度函数

进行估计：

其中，h为选择的窗宽，K（u）为核函数。众多理论研究证明，Epanechnikov核是最优的核函数，在实证研究中本文也采用该核函数。我们也对其他核函数，例如高斯核做过分析，得到的结果几乎没有差别。Epanechnikov核函数表达式如下所示：

3.2.3 预测条件密度函数和交易量持续期

3.3 密度预测检验

密度预测作为针对每个样本点的概率密度分布的一种预测，在数量金融学等领域中的应用比之常见的点预测和区间预测更能满足实际需要[10]。

令

为产生持续期

的真实密度函数序列，可以通过判断预测密度f和真实密度p是否相等来评估预测的优劣[16]。由于p是不可观测的，直接判断f和p是否相等是困难的，可以基于以下命题解决[16]。

可以基于直方图和自相关函数图来直观判断序列

是否为独立均匀分布[16]。除此之外，本文还应用Kolmogorov-Smirnov检验（后文简称k—s检验）来评判序列

是否为均匀分布。

4 实证分析

4.1 数据预处理和数据描述

本文选用中国石化的分笔交易数据进行实证分析，数据从2011年8月8日到2011年9月1日。为了对模型进行参数估计和效果检验，将数据分为两段，一段从8月8日到8月22日，作为样本估计模型参数。另一段从8月23日到9月1日，用来检验模型的预测效果。考虑到集合竞价和连续竞价两种机制的相互影响，剔除了集合竞价数据。利用分笔交易数据中的单笔成交量和成交时间信息，通过对数据的线性拆分，得到完成给定交易量所需交易时间的数据，即本文中要分析的交易量持续期序列。本文分别设定交易量指标为5万股、10股和20股进行分析。数据的统计特征如表1所示。

4.2 模型估计

在该部分，以交易量取10万股为例进行实证分析的表述，5万以及20万股的实证过程完全一样，三种交易量的实证结果将同时给出。持续期的EACD（1，1）的估计结果如表2所示。

若该模型能很好地描述原序列，则标准化残差序列

满足独立同分布的假定。

下页表3中拟合值是指EACD模型残差的描述性统计量结果，理论值则是指用于模型估计的修正后原始持续期序列的描述性统计量结果。从表3可以看出，除了滞后1阶外，Q统计量均拒绝了标准化序列独立同分布的假设。由下页图4也可以清晰地看到

的自相关系数变化。

利用t Copula的相关系数ρ和Kendall-τ相关系数之间的关系：

，基于样本Kendall-τ相关系数估计t Copula的相关系数，估计结果如表4所示。

在考虑初值问题后，将数据

和公式（11）带入公式（10），令对数似然函数L最大化，即可得出Student t-Copula参数的估计值。表5给出了参数的估计结果。

从表5我们可以看出，参数估计的T统计量都大于2，说明参数估计结果显著，说明本文模型很好地描述相邻持续期之间的自相依结构关系。至此，我们完成了模型参数的估计。

4.3 模型预测效果比较

将参数带入模型，结合对

的核密度估计，我们便可以通过向前滚动的方法，预测出下一交易量持续期服从的条件密度函数，进而可以得到下一交易量持续期的预测。图5展示了我们通过带入去除日内效应的检验样本数据得到预测效果图。

从图5可以清晰地看出，两种模型都能对交易量持续期的聚集效应做出很好的预测。但从标出的红圈中可以看出，相比于EACD（1，1）模型，本文模型能更好地预测下一交易量持续期，特别是在交易量持续期突然变大或变小时，本文模型在大多数情况下能做出更敏感的反应。这表明，本文模型能更好地利用现有交易活跃度的信息做出准确反应。

同样我们利用本文模型对交易量取5万股和20万股时产生的检验样本持续期进行预测，并给出预测图。同样可以看出，本文提出的模型能更好地预测下一交易量持续期，特别是对较大或者较小的交易量持续期能够作出更敏感的反应。为了更明确地显示本文所提模型在持续期突然变化时的优势，我们又对图中所标出的几个关键地方给出了如下的定量结果（w=10万股时）。

由下页表6可以看出，对于突然变化的持续期，本文所提出的模型预测结果的相对误差要远远小于EACD模型，说明本文模型在预测突变的持续期时具有一定的优势。

通过向前滚动得到每一个交易量持续期的条件密度函数序列后，便可以通过公式（7）得到检验样本的累积分布函数值序列

。我们首先采用Diebold等提出的累积频率直方图来直观的观测

是否是均匀分布[16]。从图6我们可以看出当交易量取10万股时，直观上相比于EACD模型，本文模型产生的直方图更接近于均匀分布。当交易量为20万股时，由于数据太少，本文模型的对应的直方图也表现出剧烈的抖动。当交易量取5万股时，明显可以看出，本文模型产生的直方图表现较好。

下面基于自相关系数（ACF）分析累积分布函数值序列的独立性假设。图7给出了自相关系数随滞后阶数（Lag）变化的变化图。从图7中可以看出，本文模型和EACD模型产生的预测累积分布函数值序列均显示出一定程度上的自相关型，拒绝了独立性原假设。

下页表7中给出了对原假设累积分布函数值序列服从均匀分布的K-S检验结果，当交易量取不同值时，检验结果均接受本文模型预测的累积分布函数序列服从均匀分布的原假设。

5 结语

本文提出了一个用于描述持续期序列自相依结构的基于藤Copula方法的半参数模型。为了检测本文模型的效果，我们用EACD（1，1）模型作为基准模型进行比较。ACD是参数化的且有严格自回归结构的持续期模型，这样设定会限制对持续期过程的描述。在本文中我们将相邻的n个持续期数据看作是某一个多元分布实现，我们把这个多元分布分成两部分来看，即变量的无条件边际分布和变量间的相依结构。众所周知，Copula能够很好地描述变量间的相依结构，这样基于Copula函数就可以将变量间的相依结构和变量的边际分布分离开来。在本文中，我们采用藤Copula将多元Copula分解成一系列pair Copula的乘积，以引入更多的Copula来描述相依结构。

在实证部分对中国石化的交易量持续期进行了分析，实证结果表明，EACD模型和本文模型都能很好地拟合并预测出持续期的聚集效应，但本文模型能更好地预测下一交易量持续期。尤其是在交易量持续期突然变大或变小时，本文模型在大多数情况下能做出更敏感的反应。然后我们采用Diebold等提出的密度预测检验方法对两种模型进行检验，检验结果接受了本文模型预测产生的累积分布函数序列服从均匀分布的原假设，同时拒接了EACD模型产生的累积分布函数序列服从均匀分布的原假设。但是，本文模型和EACD模型预测产生的累积分布函数序列在独立性上表现不好，表现出来一定的自相关性，这一点有待继续改进。

标签：copula论文; 参数估计论文; 预测模型论文; 多元函数论文; 参数检验论文;

基于藤Copula法的持续时间相关结构估计与预测_copula论文

猜你喜欢