阈值自回归模型参数估计的小样本性质研究,本文主要内容关键词为:阈值论文,样本论文,模型论文,性质论文,参数论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
引言
近年来时间序列研究表明:许多宏观经济变量存在非对称的(Asymmetric)调整机制,如失业率、国内生产总值(GDP)等许多宏观经济变量会随着经济周期呈现出非对称调整(Enders和Siklos,2001),这无疑为非线性时间序列建模的发展提出了客观要求。当处理这些非线性问题时,比如说对这些非线性动态进行建模时,采用全局线性动态模型来拟合是不合适的,如假定在一国的GDP增长中对扩张期和收缩期采用同一个线性自回归模型来拟合是不恰当的,因为在经济收缩期的GDP下降速度往往要快于扩张期的GDP恢复速度(Enders,2004);对一个动物种群在扩张期和收缩期采用同一个自回归模型也是不合适的,如对加拿大山猫增长模型的许多研究就发现简单的线性自回归模型是不合适的(Tong,1990);采用线性自回归模型来描述同一种商品在不同市场的价格之差也是不恰当的,因为不同市场存在套利,所以只有当两个价格差超过套利成本时才是平稳的,否则是非平稳的(Tasy,1989)。因此对经济时间序列进行非线性动态建模时,全局线性自回归模型是不稳定的,也是不合适的。
作为一种主要的非线性建模工具——阈值自回归模型(Threshold Autoregressive Model,TAR),相对于其他非线性模型而言,由于其存在设定、参数估计、经济意义解释、非对称极限周期和跳跃现象等优点,已经使TAR模型成为至关重要的非线性建模工具。TAR模型最初由Tong(1983)提出,后又对该方法做了系统的诠释(Tong,1990)。它的原理与方法是基于“分段”(Piecewise)线性逼近,即把状态空间分割成几个子空间,每个子空间上都采用不同的线性自回归模型进行逼近,其中的状态空间是由所谓的阈值(Threshold Value)来指定。TAR模型与线性自回归模型不同,它刻画了时间序列在不同机制(Regime)中呈现出不同的动态特征,即时间序列的非线性动态调整特征,因此相对于线性自回归(AR)模型而言,TAR模型能捕捉到这种非对称的动态调整特征,具有线性AR模型无法比拟的优势。事实上当不同机制中具有相同的动态调整时,TAR模型就变成了线性AR模型,从这个意义上来说线性AR模型是TAR模型的特例,因此TAR模型具有比线性AR模型更广泛的应用。
尽管TAR原理与方法在时间序列分析中具有重要的应用价值,从目前有关文献来看,利用TAR模型研究各种经济与金融问题已经成为经济研究的重要手段之一,但是经过20多年的发展,TAR原理与方法还很不成熟,如TAR模型的检验问题,由于检验统计量的非标准形式、渐近分布中包含有未知的冗余参数(Unknown Nuisance Parameter)如阈值等原因,迄今为止还没有被学术界普遍接受的TAR检验方法。而对于TAR模型参数的估计,目前主要采用Chan(1993)所提出的估计方法,近十多年来也没有提出新的更好的参数估计方法。
在TAR模型中,要估计的参数包括不同机制中自回归参数、转换变量滞后阶数、阈值等。Chan(1993)对具有不连续的两机制TAR模型的参数估计进行了系统研究,证明在给定转换变量滞后阶数和阈值的情况下,处于不同机制中自回归参数的OLS估计是一致估计量(Consistent Estimators),收敛阶为(是第i个机制中样本观测个数),且在样本容量趋于无穷大时,自回归参数估计量渐近服从多元联合正态分布。而对于滞后阶数和阈值的估计,Chan(1993)认为通过TAR模型的残差平方和最小来搜索滞后阶数与阈值,在样本趋于无穷大时就可以获得两个参数的超一致估计量(Sup-Consistent estimators),且收敛阶是(n表示总的样本容量),同时也和自回归参数的OLS估计量渐近独立。对于连续的两机制TAR模型参数估计,Chan和Tsay(1998)对有关参数的估计作了进一步研究,研究表明在连续的TAR模型中,通过搜索连续TAR模型的残差最小而得到的阈值估计量是一致估计量,不过此时的收敛阶是,而不再是,说明不连续是阈值估计获得超一致估计量的必备条件。同时Chan和Tsay(1998)也证明在样本趋于无穷大时,连续TAR模型的自回归参数估计量仍然服从多元联合正态分布。
虽然Chan(1993)的参数估计方法目前已成为TAR模型参数估计的主要方法,但是对于阈值估计量抽样分布的研究进展非常缓慢。Chan(1993)首次推导了不连续TAR模型的阈值估计量渐近分布,认为阈值估计量的抽样分布是一个依赖于混合泊松过程(Compound Poisson Process)的极限分布,且依赖于未知的冗余参数。Hansen(1997,2000)对于不连续TAR模型的阈值估计量极限分布也进行了研究,并指出当阈值效应(Threshold Effect,指的是两机制中自回归参数之差)随着样本容量增大而减小时,阈值的极限分布不依赖于未知的冗余参数。Chan和Tsay(1998)针对连续TAR模型的阈值估计量渐近分布进行了推导,认为此时的极限分布是正态分布,但依赖于其他自回归参数,这与Chan(1993)不同,在不连续的TAR模型中,阈值估计量的抽样分布独立于其他自回归参数。
综上所述,TAR模型参数的估计只有在样本容量趋于无穷大时才具有一致性,而在实际的经济分析中,样本容量往往都较小,因此对TAR模型参数估计方法的小样本性质研究十分必要。Kapetanios(2000)对TAR模型的阈值估计量在小样本中的性质进行了研究,认为阈值的估计缺乏有效性。Coakley等(2003)通过各种数值计算方法,在小样本情况下可以提高TAR模型阈值估计的有效性。Norman(2008)也对两机制的TAR模型阈值估计的有偏性进行了研究,认为当两机制中数据分布不均匀时,阈值估计具有系统性的小样本偏差。本文在上述研究成果的基础上,运用Monte-Carlo模拟方法研究连续和不连续TAR模型参数估计小样本性质,包括有偏性与有效性。以前的研究主要集中在不连续TAR模型阈值估计的小样本性质,而本文一方面是不仅研究不连续的TAR模型,还要研究连续的TAR模型和冲量阈值自回归模型(Momentum Threshold Autoregressive Model,即M-TAR,Enders和Granger,1998);另一方面是不仅研究阈值的小样本性质,还要对自回归参数估计的小样本性质进行研究。
本文的框架如下:第一部分主要介绍不连续的TAR模型、连续TAR和M-TAR模型的参数估计方法;第二部分主要是小样本性质研究的Monte-Carlo模拟试验设计;第三部分是文章的结论。
一、各种TAR模型及其参数估计
1.各种TAR模型的设定
(3)冲量阈值自回归模型(M-TAR)。冲量阈值自回归模型由Enders和Granger(1998)引入经济分析,与TAR模型的主要区别在于转换变量不同。在TAR模型中以滞后时间序列作为转换变量,而在M-TAR中,转换变量不再是滞后时间序列,而是滞后时间序列变化量。即M-TAR具体形式为:
Chan(1993)已经证明:在阈值和滞后阶数已知的情况下,自回归系数估计量在样本容量趋于无穷大时服从多元联合正态分布,且是真实自回归系数的一致估计量。而在实际的经济学应用中,阈值和滞后阶数通常都未知,因此要估计(7)式必须要先估计γ和d,Chan(1993)提出用以下(8)式与(9)式来估计:
即(8)式是在TAR模型的拟合下,使得残差平方和最小时阈值和d的估计,(9)式是(3)式的OLS估计残差,此时TAR的自回归参数的估计为(10)式,是阈值的供给量,通过(8)式而得到。Г和D分别表示阈值γ与滞后阶数d的潜在取值范围,在实际计算中可以通过在Г×D范围内搜索OLS估计残差平方和的最小值来求得d和γ,进而可以得到自回归参数OLS估计。具体的计算过程如下:首先以Г×D范围内第一点开始作为阈值和d的值;然后在阈值和d的值下,对(3)式进行OLS估计,求得残差平方和;最后在潜在的Г×D范围内搜索每一点(γ,d)的残差平方和,使残差平方和取最小时的参数估计值就是TAR模型的参数估计。
对于阈值γ的潜在取值范围Γ与滞后阶数d的潜在取值范围D的确定,从目前的文献来看,一般都是采用Andrews(1993)的方法来构造潜在区间。Andrews(1993)认为:滞后阶数d≤p,即在1,2,…,p范围内确定d的值,P表示TAR模型的自回归阶数。而对于Γ的确定,Andrews(1993)认为一般首先对转换变量从小到大进行排序,然后取中间一定百分数转换变量作为潜在阈值范围。Andrews(1993)认为取中间70%的转换变量作为潜在阈值是合适的,因此在本文中取转换变量的15%和85%作为阈值范围,在这个范围内搜索残差平方和的值。下面是Chan(1993)关于TAR模型参数估计量的性质及其抽样分布定理。
定理1:(Chan,1993)假设(3)式中的是具有P阶自回归的两机制TAR模型,并且是遍历的、严平稳的,且具有有限二阶矩,假定的联合密度函数处处为正,则上面TAR模型的所有参数估计量都是强一致的(Strongly Consistent),即在大样本情况下,上述所有估计量都几乎处处收敛于真实参数。
上面两个定理充分说明上述估计方法能保证所有参数估计量都是一致估计量,只是收敛阶不同,d和γ的收敛阶是,其他自回归参数估计量都是具有的收敛阶(n表示总的样本容量,表示第i个机制中样本容量)。另外由于自回归参数的条件OLS估计量(按照阈值和d的估计方法求得阈值与d的估计值,以估计的阈值和d为条件对回归模型的自回归参数进行OLS估计,被称为条件OLS估计)渐近服从多元正态分布,因此在大样本情况下可以对自回归参数进行标准的显著性检验(如t检验、F检验等)。
从定理2可以看出,只有在不连续的TAR模型下,阈值γ和滞后阶数d的估计量才是超一致估计量。而在连续TAR模型下,Chan和Tsay(1998)对上述估计方法做了系统研究,认为在样本容量趋于无穷大时,C-TAR模型的参数估计仍然是强一致估计量,即所有参数估计量几乎处处收敛于真实参数,且收敛阶是,n是样本容量。同时他们也发现所有参数估计量服从多元正态分布,且阈值和滞后阶数估计量的渐近分布与自回归参数估计量渐近分布不独立,这与不连续的TAR模型参数估计情形不同。
在实际经济分析中,由于TAR模型与M-TAR模型的唯一区别是不同的转换变量,因此对于这些模型的参数估计只要区分连续与不连续情形即可。鉴于此,不管是连续的TAR模型或不连续的TAR模型,还是M-TAR模型或CM-TAR模型,都可以采用Chan(1993)的TAR模型的参数估计方法,都可以得到参数的强一致估计量。不同的是:①参数估计量的收敛阶不同,在不连续情形中阈值估计量收敛较快。②在不连续情形中,阈值估计量渐近分布要比连续情形中的阈值估计量渐近分布复杂得多。③在不连续情形中,阈值估计量渐近分布渐近独立于自回归参数估计量渐近分布;在连续情形中,阈值估计量渐近分布不与自回归参数估计量渐近分布独立。
二、Monte-Carlo试验设计与模拟结果
虽然已经证明Chan(1993)的TAR模型估计方法具有强一致性,但前提是样本容量趋于无穷大,而在实际的经济学分析中,可供分析的样本容量通常都很小,如果要应用TAR模型来进行实证研究,可用的样本容量较小会导致TAR模型不具有强一致性,因此本文重点研究参数估计的小样本性质,以揭示在通常的宏观经济学分析中,参数估计方法的适用性。
1.Monte-Carlo模拟设计
为了简单起见,不失一般性,假设不连续的两机制TAR模型设定如下:
上式也可以写成:
其中,,所以回归方程的截矩项是两个截矩的加权和。上式的自回归滞后阶数p=1,转换变量设定为d=1,随机干扰项,也就是说,随机干扰项是白噪声过程(White Noise Process)。在Monte-Carlo模拟中,有关参数设定如下:自回归系数的取值范围都是(0.1,0.3,0.5,0.7,0.9),初始值,阈值γ设定为0,即示性函数为:
随机干扰项服从独立同标准正态分布,即期望为0,方差,模拟的样本容量T分别为50、100、200。为了降低初始值设定所带来的影响,模拟样本容量为200+T,丢弃前面200个样本,估计量的模拟次数是10000次,截矩的设定为,OLS估计模型的截矩是这两个截矩的线性组合。阈值潜在范围的设定是转换变量的15%分位数到85%分位数,即将转换变量由小到大排列,取中间70%的样本作为潜在阈值的搜索范围。需要特别说明的是:第一,估计量的偏差与标准差的计算式如下(以阈值为例,其他自回归参数的偏差计算与阈值相同,k表示模拟次数):
第二,生成的数据序列在两个机制中分布的均匀率衡量:
其中,、N分别表示总模拟样本中落在第1机制中的样本数和总的样本数,如果均匀率越靠近0.5,则认为在两机制中的数据分布越均匀;反之当越靠近0或1时,则认为数据在两机制中分布越不均匀。
其中,表示前两期的增量,截矩的设定为。Enders和Siklos(2001)认为当时间序列在上升方向与下降方向具有不同的“趋势”(Momentum)时,运用M-TAR来拟合数据序列是合适的,即M-TAR模型可以捕捉到不同方向的不同“趋势”特征。
对于连续的TAR情形,也不失简单性和一般性,假设自回归滞后阶数p=1,转换变量仍然为d=1,阈值γ=0.5,则连续的TAR模型(C-TAR)可以设定为②:
或
其中,,截矩设定为μ=0.5,因此估计模型的截矩不再是原始的截矩μ。初始值,随机干扰项~IIN(0,1),自回归系数的取值范围也是(0.1,0.3,0.5,0.7,0.9),自回归系数的设定原则与前相同,也有10种情形。模拟中样本容量为50、100、200,在模拟中丢弃前200个样本,参数估计的模拟次数仍然为10000次,估计方法的偏差、标准差和数据分布的均匀率计算分别同(13)式和(14)式。
2.模拟结果
在各种小样本中,利用上文的TAR模型参数估计方法估计不连续的TAR模型参数,估计方法的偏差与标准差的模拟结果见表1。
在各种小样本中,利用上文的TAR模型参数估计方法估计不连续的M-TAR模型参数,估计方法的偏差与标准差的模拟结果见表2。
在各种小样本中,利用上文的TAR模型参数估计方法估计连续的TAR模型参数,估计方法的偏差与标准差的模拟结果见表3。
以上结果反映了以下特征:①理论上认为阈值估计比自回归参数具有更快的收敛速度,是真值的超一致估计量,但模拟结果显示,阈值的估计偏差和标准差随样本容量的增大而减少不太明显;②自回归参数估计偏差和标准差也没有随样本的增大而减少;③自回归参数估计要比阈值估计准确得多,阈值估计量的方差要大于自回归参数估计量方差,阈值估计是不稳定,如在不连续TAR模型的阈值估计中,最大偏差与标准差分别为9.732、9.908,而真实的阈值是0。
不仅如此,上述模拟还显示出一个非常有趣的现象:从估计的偏差与标准差来看,M-TAR和C-TAR模型的阈值估计要比TAR模型的阈值估计准确得多。为了揭示这种现象存在的根本原因,本文将进一步进行Monte-Carlo模拟研究。
3.各种TAR模型参数估计量性质与均匀率的进一步研究
在上面的模拟中,发现M-TAR和C-TAR模型的均匀率都集中在0.4~0.6之间,而TAR模型的均匀率都集中在0.25以下③,因此有理由怀疑参数估计的准确性与数据过程的均匀率之间存在某种必然联系。鉴于此,本文将详细研究各种TAR模型参数估计的小样本性质与均匀率之间的关系,进一步揭示均匀率在参数估计中的重要性。为了设定各种不同的均匀率,必须针对不同类型的TAR模型分别设定不同的参数。在不连续的TAR模型中,利用(11)式来进行MC模拟,在(11)式中两个截矩设定为:,一阶自回归参数设定为=0.1,=(0.1,0.2,0.35,0.45,0.55,0.65),共计6种不同的TAR模型。对于不连续的M-TAR模型,同样是基于(11)式来生成数据序列,示性函数是(15)式,截矩和自回归参数设定如下:固定参数,当设定时,自回归系数分别取0.55、0.95和0.99,当设定时,自回归系数分别取0.85、0.95和0.99,因此也具有6种情形。连续TAR模型的模拟是基于(16)式,截矩μ=0.5,阈值设定为0.5,自回归参数设定为0.1,分别设定为0.35、0.65、0.75、0.85、0.95和0.99,因此同样也构成6种组合,每种情形的均匀率都不同,随着的值增加,均匀率减少。在模拟中转换变量与阈值设定同上,样本容量为200,同样为了减少初始值对模拟结果的影响,剔除前面200个样本,模拟次数是10000次,潜在阈值搜索范围同样为转换变量的15%分位数到85%分位数。模拟结果见表4。
表1 不连续的TAR模型参数估计的小样本性质
注:表中的数字表示偏差,括号中的数字是10000次模拟估计量的标准差。
。
表4 参数估计量小样本性质和均匀率
注:表中均匀率的计算是基于T=10000的模拟数据样本,利用(14)式计算而得。情形一至情形六是不同TAR模型的6种不同设定。
从表4可以看出,各种TAR模型参数估计的偏差与标准差都随着数据过程均匀率的减少而增大,当均匀率是0.5时说明数据过程是线性自回归模型,均匀率越靠近0.5则说明数据落在两机制中的样本个数越接近。但是观察模拟结果,发现在同一均匀率下,不同的TAR模型得到的参数估计的偏差和标准差相差较大,因此表中数据还不能揭示三个参数的估计与具体的TAR模型之间是否存在必然联系。为了进一步研究这种关系,本文选取均匀率接近的三个模型来进行研究,每种TAR模型都选取相对应的情形三模型,均匀率分别为0.3248、0.3213和0.3254,彼此十分接近。每种TAR模型都生成10000个样本,再对其进行核密度估计,参数估计利用上文的模拟结果也进行核密度估计。
从图1~4可以看到:①在同一均匀率下,数据过程标准差是决定TAR模型参数估计小样本性质的重要因素,图1显示M-TAR的标准差最大,计算表明TAR模型、M-TAR模型和C-TAR模型的标准差分别为1.643、3.854、1.235,图2、图3与图4都显示M-TAR模型的参数估计具有较大偏差与标准差。②图2的阈值估计分布表明,相对而言,C-TAR模型是最准确的;M-TAR模型的阈值估计出现严重的右偏;TAR模型中,阈值估计分布呈“双峰”状,也具有一定程度的右偏。这与理论结论不同,理论上已经证明不连续TAR模型的阈值估计量是超一致估计量,而在连续的TAR模型中阈值估计量是一致估计量。③图3的自回归参数的估计分布表明,TAR与M-TAR模型出现严重的右偏,C-TAR模型相对具有较小的偏差和标准差。④图4的自回归参数的估计分布表明,在TAR模型中出现严重的右偏,在M-TAR模型中出现严重的左偏,在C-TAR模型中相对具有较小的偏差与标准差。⑤在所有情形下,阈值的估计相对于自回归参数估计而言,都显得更不稳定,具有较大的偏差与标准差。
三、结论
阈值自回归模型的参数估计是目前时间序列分析方法论发展的重要方向之一,自从Chan(1993)提出超一致估计方法以来,在阈值自回归模型的应用研究中都是采用这种方法来估计模型参数。但是由于Chan(1993)方法在样本无穷大情况下估计量才能具有优良性质,而通常的经济分析所具有的样本量较小,因此本文重点研究了Chan(1993)方法的小样本性质。通过一系列的Monte-Carlo模拟发现:①数据过程的均匀率和标准差是影响参数估计小样本性质的重要原因;②在其他条件相同的情况下,阈值的估计比自回归参数估计更不稳定;③在同一均匀率下,阈值估计的偏差与标准差随模型生成机制的不同而不同,如模拟结果显示在M-TAR模型的阈值估计中,具有最大的右偏和估计标准差;④对于自回归参数的估计,C-TAR模型相对于其他模型而言,自回归参数估计的偏差与标准差较小。这个结论与理论不同,在理论上认为不连续TAR模型阈值估计的收敛速度要快于C-TAR模型。综上所述,如果利用阈值自回归模型来进行经济分析时,尤其在数据分布很不均匀且数据波动幅度较大时,估计得到的阈值自回归模型是不准确的甚至是错误的。为了减少这种错误发生的概率,一般首先可以增大样本容量,但是在实际中往往是不可行的,同时前文的模拟也表明增大样本容量效果不明显;其次是缩小数据的波动性(如对数据取自然对数),减少方差,这样也可以提高阈值估计的可靠性。
注释:
①为了获得参数估计量的强一致性,Chan(1993)认为TAR数据过程必须满足平稳性,Chan等(1985)提出了式(11)满足平稳性的充分条件,即,因此在模拟中为了满足数据过程的平稳性,自回归系数的取值范围设定为(01,03,05,0.7,0.9),这样就可以保证生成的数据序列是平稳的。
②根据Chan和Tsay(1998),如果连续TAR模型参数估计要具有强一致性,要求数据过程必须满足平稳性,因此在这里仍然可以应用Chan等(1985)的平稳性充分条件,模拟中参数设定与不连续TAR模型相同。
③文中没有列出相应的均匀率,模拟中均匀率的计算是基于T=10000的模拟数据样本,利用(14)式计算而得。