基于最小一乘准则的上证指数突变点研究,本文主要内容关键词为:突变论文,上证指数论文,最小论文,准则论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修订日期:2015-02-01 1 引言 中国股票市场作为一个新兴市场,由于制度建设和市场机制不完善,以及投资者心理不成熟等原因,使得其容易受到外界各种因素的影响而出现较大的波动,从而导致相应数据(如股指的对数收益率)产生突变[7]。例如,从2006年年初到2008年年底我国A股市场经历了历史上最大的牛市和熊市。很多研究表明,如果在模型中没有考虑数据中的结构变化特征,将给分析结果带来严重影响,甚至得出完全错误的结论[1,23]。在众多的用于解决这一问题的非线性模型中,变点(Change-Point)模型因具有模型上的灵活性(假设模型参数可以在某些时间点前后产生变化以充分考虑数据中的非线性特征)和相对简洁性(假设模型在没有结构变化的数据区间上依然是线性的),及其在经济、金融等领域中的广泛应用,自提出以来便受到了计量经济学家和统计学家的广泛关注,参见蒋彧[1]等综述文献。 对结构变点的研究最早可以追溯到1960年,Chow[17]在结构变点已知的情况下利用最小二乘估计构造了一个F检验统计量来检验该点是否为变点。在此后长达五十多年的时间里,国内外很多计量经济学家和统计学家分别基于传统方法和贝叶斯方法在这一领域进行了广泛深入的研究,取得了丰硕的研究成果。基于传统方法,国际知名计量经济学家白聚山教授等在这一领域做出了很多重要的工作。Bai Jushan[11]和Bai Jushan[12]分别在最小一乘准则下考虑了线性回归模型中一个和多个变点的估计问题。Bai Jushan[13]考虑了面板数据中均值和方差中共同变点的问题。鉴于计量经济学上现有的变点检测方法大多用来检测陡峭变点(Abrupt Breaks),而鲜有文献关注经济数据上更为现实的光滑结构变点(Smooth Structural Changes),Chen Bin和Hong Yongmiao[15]提出了一个相合检验用于检测光滑结构变点。Hall等[19]在含有内生自变量的线性回归模型中考虑了多个未知变点的估计问题,并基于两阶段最小二乘(2SLS)准则提出了一个相合估计。Castle等[14]考虑了多变点情形下的模型选择问题。Killick等[20]考虑了变点个数随着数据量的增加而增加的问题,并提出了一个快速识别变点的方法。利用贝叶斯方法研究变点问题的文献也有很多。Wang Jiahui和Zivot[25]提出了一个在水平、趋势和方差中都可能存在变点的时间序列模型,并在变点个数已知的情形下用Gibbs抽样技术对模型进行了贝叶斯统计分析。最近,出现了一些用贝叶斯方法对含有变点的回归模型进行统计推断和预测的文章,如Pesaran等[23]、Koop和Potter[21],Geweke和Jiang[18],Maheu和Song Yong等[22]。 近年来,国内学者在变点问题的理论研究及其应用方面也做出了大量较好的工作。雷鸣等[2]把统计学中的生存分析理论与变点理论结合在一起对上证指数进行了研究。张成思[10]用具有统计无偏性的“Grid Bootstrap”估计法和未知结构突变点检验法,研究了我国1980-2007年通货膨胀的惯性特征。王维国、王霞[7]用贝叶斯方法对上证指数月平均时间序列数据中水平、趋势和方差中的结构变点进行了统计分析。叶五一、缪柏其[9]基于Copula变点检测方法分析了金融危机的传染性。王成勇、王少平[6]和王宇、蒋彧[8]分别基于传统方法和贝叶斯方法研究了我国经济增长中的结构变化特征。李云霞、周杏杏[4]用极大似然方法对含有协变量的复发事件变点模型进行了估计,并得到了变点估计的相合性。刘晓星等[5]在Spearman相关系数的基础上,运用二元Copula和概率积分变换构建了一个新的结构变点检测方法,有效实现了欧美债务危机国与英、日、中、印等国家间股票市场流动性冲击的结构变点检测。 除了具有结构突变的特征外,很多金融数据(如股指的对数收益率等)也具有厚尾(Heavy-Tailed)的特征[12]。例如,通过对上证指数2006年至2011年这六年间的日收盘价进行分析发现,其对数收益率序列的峰度系数为5.61,远高于正态分布的理论峰度系数3,即上证指数日对数收益率序列具有明显的厚尾特征。众所周知,在误差项服从厚尾分布时,通常的线性回归模型中回归系数的最小一乘估计比最小二乘估计有效。对于含有变点的线性回归模型,Bai Jushan[11-12]的研究表明,当数据具有厚尾特征时基于最小一乘准则的回归系数估计和变点估计都比基于最小二乘准则的有效。但Bai Jushan[11-12]只考虑了均值中含有变点这一情况。对于金融数据来说,方差中的变点也很常见[16]。为了弥补通常的变点模型只考虑均值变点或方差变点的缺陷,廖远甦、朱平芳[3]发展了识别均值和方差中双重变点的贝叶斯方法。但他们采用的是最小二乘准则,没有考虑金融数据的厚尾特征。 本文在Bai Jushan[12],廖远甦、朱平芳[3]等人工作的基础上,基于最小一乘准则提出了一个估计均值和方差中双重变点的方法。本文其余部分的安排如下:在第2节中,我们给出了基于最小一乘准则的变点估计方法;第3节中的模拟研究表明,当数据具有厚尾特征时,基于最小一乘准则的变点估计比基于最小二乘准则的估计有效;第4节中对上证指数的实证结果表明,基于最小一乘准则估计出的变点能更好地描述中国股票市场的结构突变特征;最后,我们在第5节中给出了本文的主要结论。 2 基于最小一乘准则的变点估计 2.1 最小一乘估计与拉普拉斯分布 考虑通常的线性回归模型如下: 对于含有多个未知变点的模型,我们要解决的关键问题主要有两个:一是确定变点的个数,其中0个变点表示变点不存在,多于0个变点表示变点存在。对这一问题的解决同时回答了变点是否存在的问题和变点个数的问题。二是如果变点存在,则在给定变点个数的情况下确定变点的位置。通常情况下,第一个问题的解决依赖于第二个问题的解决。下面,我们先给出结合了二分法和BIC来确定变点个数的方法。该方法把变点个数的确定问题转化为一系列对没有变点和仅有一个变点的模型进行比较的问题,并用BIC进行模型比较。然后给出判断一个数据集中是否存在一个变点,以及当这个变点存在时确定其位置和其它参数的方法。 2.3 变点个数的确定 结合二分法和BIC来确定变点个数的程序可以被简单地描述如下[2、16,26]:在第一阶段,我们用BIC在全部数据集上比较没有变点和仅有一个变点的模型。如果BIC支持没有变点的模型,则终止程序,表明整个数据集中不存在变点。否则,我们可以估计出第一个变点,即有一个变点的模型中未知变点的估计。在第二步,我们基于这个变点把数据分为前后两个子集,对于每个子集,按第一步中的方法用BIC检验是否存在变点。在任何时候,如果不能检验出某个子集中存在变点,则说明这个子集中不存在变点;如果检验出了变点,则如第二步一样,把这个子集进一步一分为二,再在每个子集中检验是否存在一个变点。持续这一过程直到在每个子集中检验不出变点为止。 利用该方法,我们仅需要比较没有变点和仅有一个变点的模型,并且可以同时确定变点的个数和它们的位置,因而特别简单有效。 2.4 变点位置的确定 对于数据中可能存在的方差变点,Chen和Gupta[16]采用BIC来比较没有变点和仅有一个变点的模型,并且在变点存在时用它来确定变点的位置。Yang和Kuo[26]亦基于类似的方法找出了泊松(Poisson)序列数据中的变点。 注:如果假设模型(3)中的随机误差项服从正态分布,那么我们就可以按照2.3和2.4节中介绍的方法得到基于最小二乘准则的变点估计方法。 3 蒙特卡罗模拟研究 对于具有厚尾特征的数据,为了说明基于最小一乘准则比基于最小二乘准则在变点估计问题上的优越性,我们在本节中做了三个模拟研究:(1)当数据中不存在变点时,考察在不同的误差项分布下基于最小一乘准则和最小二乘准则做出正确判断的百分比;(2)当数据中仅有一个变点时,考察在不同的误差项分布下基于最小一乘准则和最小二乘准则判断出这个变点存在的百分比,以及其估计的准确性;(3)当数据中含有多个变点时,考察在不同的误差项分布下基于最小一乘准则和最小二乘准则在估计变点个数和位置上的效果。 3.1 模拟研究1:数据中不存在变点 这个模拟研究的目的是,在数据中不存在变点时对基于最小一乘和最小二乘准则的变点估计方法进行比较。我们考虑3种误差分布,分别为标准正态分布N(0,1)、方差为1自由度为3的t分布和方差为1的Laplace分布;2种样本容量,分别为200和400。对这6种组合,每种组合模拟100次,模拟结果参见表1。特别需要指出的是,在模拟次数为100的情况下,我们已经能较明确地对这两种方法进行比较,因此我们没有必要为了获得模拟结果上的精度而模拟更多的次数,从而浪费大量的计算时间。 由表1可知,在误差项服从正态分布的情况下,基于最小二乘准则的变点估计方法在两个样本容量下的效果都要优于基于最小一乘准则的方法。这与我们的理论预期一致,即当误差项服从正态分布的时候,基于最小二乘的方法比基于最小一乘的方法有效。此外,这两种方法的效果都随着样本容量的增加而变好。值得一提的是,尽管在正态误差下基于最小一乘的方法不如基于最小二乘的方法好,但它们之间的差异并不是很大,其做出正确判断的百分比都高于90%。但在其它两种厚尾误差分布下,基于最小一乘准则的方法要明显优于基于最小二乘准则的方法,并且基于最小一乘准则的方法做出正确判断的百分比都达到了90%。 3.2 模拟研究2:数据中仅有一个变点 这个模拟研究的目的是,在数据中仅有一个变点情况下对基于最小一乘和最小二乘准则的变点估计方法进行比较。在这个模拟研究中,我们仿照廖远甦和朱平芳[3]的方法设计一个仅有1个变点的数据序列。整个序列分为两段,第一段模拟牛市,第二段模拟熊市。我们考虑3种误差分布(正态分布、t分布和Laplace分布)、3种均值偏移水平、2种样本容量,共18种组合。每种组合模拟100次。数据产生过程为:牛市的数据来自均值为β方差为2的分布,熊市的数据来自均值为-β方差为4的分布。收益率的均值偏移β从小到大设定三个水平,分别为0.5、1.0和1.5。样本容量为100时,变点的位置为50;样本容量为200时,变点的位置为100。模拟结果参见表2和表3。 由表2和表3可知,在误差项服从正态分布的情况下,无论是从正确判断出存在变点的次数,还是对其位置的估计来看,基于最小二乘准则的方法基本上都要优于基于最小一乘准则的方法。并且两种方法的准确性都随着样本容量的增加和均值偏移的增加而增加。当误差项服从t分布和Laplace分布这两种厚尾分布时,基于最小一乘准则的方法在正确判断出存在变点的次数上优于基于最小二乘准则的方法,并且两种方法在正确判断出存在变点的次数上都随着样本容量的增加而增加。特别需要指出的是,由最小一乘准则得到的变点位置估计的标准差都明显小于由最小二乘准则得到的标准差,这表明基于最小一乘准则的方法明显比基于最小二乘准则的方法有效。此外,基于这两种方法所得的变点位置估计的标准差都随着均值偏移的增加而减小。这说明随着均值偏移的增加,两种方法的准确性都在提高。 3.3 模拟研究3:数据中存在两个变点 这个模拟研究的目的是,在模拟数据中存在多个变点时对基于最小一乘和最小二乘准则的变点估计方法进行比较。在这个模拟研究中,我们仿照廖远甦、朱平芳[3]设计一个有2个变点的数据序列,整个序列分为3段,第一段模拟牛市,第二段模拟震荡市,第三段模拟熊市。我们考虑3种误差分布(正态分布、t分布和Laplace分布)、3种均值偏移水平、2种样本容量,共18种组合。每种组合模拟100次。数据产生过程为:牛市的数据来自均值为β方差为2的分布,震荡市的数据来自均值为0方差为1的分布,熊市的数据来自均值为-β方差为4的分布。收益率的均值偏移β从小到大设定三个水平,分别为0.5、1.0和1.5。样本容量为200时,变点的位置为(70,130);样本容量为400时,变点的位置为(140,260)。模拟研究的结果参见表4、表5和表6。 由表4和表5可知,在误差项服从正态分布时,基于最小二乘准则的变点个数估计优于基于最小一乘准则的估计。在误差项服从t分布或Laplace分布时,基于最小一乘准则的变点个数估计明显优于基于最小二乘准则的估计。此外,无论误差项服从正态还是厚尾分布,这两种变点个数估计的准确率大都随着样本容量的增加而增加。在大多数情况下,基于最小一乘准则的变点个数估计的准确性都随着收益率均值偏移水平的增加而增加,但基于最小二乘准则的变点个数估计的准确性只在正态分布误差下呈现出这种趋势,而在厚尾分布误差下呈现出相反的趋势。当样本容量较大或者均值偏移水平较大时,两种方法都倾向于高估变点的个数。Bai Jushan[12]在用最小一乘法估计均值中的变点时,其模拟结果表明他提出的方法也高估了真实变点的个数。 为了进一步说明在正确估计出变点个数的情况下关于变点位置估计的准确性,我们在表6中报告了当样本容量为400时基于最小一乘准则得到的变点位置估计。结果表明基于最小一乘准则的方法能较为准确地估计出变点的位置,并且估计的标准差随着均值偏移水平的增加而减小。在样本容量为200时得到的结果类似,为了节约篇幅,我们在本文中没有报告这一结果。综合表4、5、6的结果可知,当误差项服从厚尾分布时,基于最小一乘准则的变点估计方法能较为准确地估计出变点的个数和位置,并且估计的准确性大都随着样本容量和均值偏移水平的增加而提高。 综合模拟研究1、2、3的结果可知,当误差项服从正态分布时,基于最小二乘准则的变点个数估计比基于最小一乘准则的准确,关于变点位置估计前者比后者准确和有效。当误差项服从厚尾分布时,基于最小一乘准则的变点个数估计比基于最小二乘准则的准确,关于变点位置估计前者比后者准确和有效。 4 上证指数的实证分析 本节中,我们将用第2节中提出的方法对上证指数的日对数收益率序列数据进行实证分析。我国很多计量经济学家和金融学家曾用不同的变点模型对上证指数不同时期的序列数据进行过实证分析,分析结果大都表明上证指数序列中的确存在结构变点[3,7]。本文将要分析的上证指数数据来源于WIND数据库。本文选取的数据为2006年1月4日至2011年12月31日这6年间的日收盘价数据,共有1459个数据点(,i=1,2,…1459)。这一时期内我国A股经历了历史上最大的牛市和熊市,必然存在着丰富的结构变化,这为检验本文提出的方法提供了极大的便利。按照公式把收盘价数据转换成对数收益率数据样本。样本均值、方差和峰度系数分别为4.27×、3.74×、5.61。由峰度系数可知上证指数的日收益率序列数据具有明显的厚尾特征。因此可以预期,用基于最小一乘准则的变点估计方法比基于最小二乘准则的方法将能更为准确地估计上证指数日收益率序列中的变点。 用基于最小一乘准则的变点估计方法对上证指数的实证分析结果如表7和表8所示。由表7可知,上证指数2006年1月4日至2010年12月31日这5年间的1458个日收益率序列数据中存在4个结构变点。在图1的原始上证指数时间序列图中我们标出了这4个变点。每个不含变点的数据区间中位置参数、尺度参数的估计值以及样本峰度系数值报告在表8中,其中2σ[2]是拉普拉斯分布的方差。我们也用基于最小二乘准则的变点估计方法对这一序列进行了分析,结果表明数据中存在4个结构变点,分别是第63、146、224和913号数据点,对应的日期分别为2006-04-12、2006-08-14、2006-12-07和2009-10-09。在图2的原始上证指数时间序列图中我们标出了这4个变点。比较图1和图2可知,基于最小一乘准则识别出的变点较好地反映了上证指数的突变特征,而基于最小二乘准则的方法则没能很好地识别出我国A股市场从历史上最大的牛市转入最大的熊市这一变点,以及由熊市转入逐步复苏的变点。因此,实证分析结果表明基于最小一乘准则的变点估计方法能更好地估计出厚尾数据中的变点。 图1 基于最小一乘准则下的变点估计值划分的上证指数序列 图2 基于最小二乘准则下的变点估计值划分的上证指数序列 5 结语 本文基于最小一乘准则提出了一个估计厚尾数据中变点的方法。我们的方法没有像Bai Jushan[12]那样要求方差参数在不同的数据区间上一致,因此,我们的方法不仅能识别均值变点,还能识别方差变点。从这个角度来说,我们发展了Bai Jushan[12]提出的方法。廖远甦,朱平芳[3]的方法虽然能同时识别出均值和方差中的变点,但他们的方法是基于最小二乘准则提出的。从我们的模拟研究结果可知,在数据具有厚尾特征的情况下,基于最小一乘准则的变点估计方法比基于最小二乘准则的有效。从这个角度来说,我们发展了廖远甦,朱平芳[3]提出的方法。对上证指数的实证结果表明,基于最小一乘准则估计出的变点基本上抓住了上证指数序列的几次重大突变特征,较好地描述了中国股票市场的结构突变特征。这为中国股票市场不同阶段的划分提供了与实际较为吻合的计量分析结果。标签:点估计论文; 均值-方差模型论文; 样本容量论文; 沪指论文; 样本均值论文; 样本方差论文; 突变理论论文; 误差分析论文; 方差公式论文;