BMOM方法--贝叶斯学派的新贡献_贝叶斯论文

BMOM 方法——贝叶斯学派的新贡献,本文主要内容关键词为:学派论文,贡献论文,方法论文,BMOM论文,贝叶斯论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引言

BMOM方法是著名的计量经济学家,芝加哥大学的教授Arnold Zellner在1990年代提出的分析方法,它的全名是Bayesian Method of Moments(贝叶斯学派的矩法)。Zellner教授成功地将它用于统计分析的经典问题,并获得了与原有的结论相同的结果,但所需要的条件要宽松的多,而且证明非常简单,统计思想非常明确,他将这一方法用于宏观经济的预测,经济发展转折点的预测,都得到了很好的效果,这些成果可以在参考文献[1],[2]中查到。

这次上海财经大学,北京大学请Zellner教授来访问、讲学,系统介绍了贝叶斯学派的工作在经济中的应用,特别是BMOM方法的介绍,对大家很有启发,这里整理他有关BMOM的一些材料,刊印出来,供大家参考,我相信一定会引起很多人的兴趣。

Zellner教授开始就明确提出:贝叶斯分析是科学地从数据和经验来学习的一种方法。这一观点给我们如何看待贝叶斯分析有很大的启示,使人感到焕然一新,与信息时代的需求很是合拍。他特别强调科学地学习,强调应该好好读杰弗莱(Jeffreys)的著作[3],这些对我们如何培养新的一代,是很有意义的。

Zellner教授是最早将贝叶斯学派的分析方法引入经济分析的奠基人,他在1971年写的《An Introduction to Bayesian Inference in Econometrics》(John Wiley)至今还被广泛引用,在1996年还在重新印刷出版。本文介绍他的BMOM方法,他的一些其它文章,我们将陆续翻译,编译出来以便国内更多的人来了解和使用。

一、回归分析

回归分析是统计中最常用、也是最熟知的一类问题,我们看BMOM方法怎样来处理。

通常回归模型总假定y有结构

y[,n×1]=X[,n×k]β[,n×1]+u[,n×1]

(1.1)

其中X是已知的,y是观察到的因变量值,β是未知参数,u是误差项,X的第一列可以全为1,此时β中的第一个元素相应的就是回归常数。

用E(ξ|D)表示已知数据D条件下,随机变量ξ的条件期望。于是在

假定1 X′E{u|D}=0

这一条件下,从(2.1)式已知y和X,两边取条件期望,注意到y和X就是已知的D,因而有

y=XE(β|D)+E(u|D)

(1.2)

上式两边乘(X′X)[-1]X′,利用假定1,就得到

从(1.1)式知道,如果k个β已知,则全部的u就确定了,因为u=y-Xβ。由此可见u只有k个自由度,这样Var(u/D)假定它是一个秩为k的矩阵乘以一个正的常数是合理的,这就导出下列假定:

假定2 Var(u|D,σ[2])=X(X′X)[-1]X′σ[2]=σ[2]P[,x],

且定义σ[2]=1/nu′u。

β的前二阶矩一期望和方差协方差阵都已知了。现在要求出β的先验分布来导出相应的后验分布,这是贝叶斯学派的基本方法,而BMOM方法不须要先验分布,利用已知的(9)式,由

上述结论均可由[5]中的最大熵分布的结论中直接导出。

下面来讨论预测分布。设要预测的值是y[,f],于是有

y[,f]=X[,f]β+u[,f],y[,f]是m×1,X[,f]是m×k,

用D′表示y,X,X[,f]这些已知的信息(数据),且有

假定3 E(u[,f])=0

假定4 E(u[,f]u′[,f]|σ[2],D′)=σ[2]I[,m]

假定5 E(u′[,f]Xβ|D′)=0

由这些假定和前面已知的结果,就可得

(这里同样利用了已知一、二阶矩,最大熵的分布是正态分布)。

现在来看变量(模型)选择问题。

y=X[,1]β[,1]+X[,2]β[,2]+u

(1.13)

X[,i]是n×k[,i],秩为k[,i]的矩阵,X[,2]待考察的变量的数据,考察的问题是:是否值得引入X[,2],也就是问:β[,2]=0是否成立。

先将(1.13)改写一下,从X[,2]中去掉其在X[,1]上的投影,即X[,2]的列向量能被X[,1]式列向量线性表示的内容,也即本应属于X[,1]β[,1]的内容,所以令

因此不难得到

若β[,2]不是正态,上式右端添加一项L[,a],a表示L[,a]的值与模型的假定有关。于是这两种估计损失的比值为

上式的F就是通常回归分析中检验β[,2]=0的统计量。当C[,12]=1或F=L[,a]/(k[,2]s[2])时,这两种损失是相等的,它称为无差异值(IV-indifference value)。如果F>L[,a]/(k[,2]s[2]),用

就比用0好;相反时,用0估计就更好。这样看来,L[,a]相当于模型复杂化时的一种惩罚项(penalty term)。

引入H[,1]:β[,2]=0,H[,2]:β[,2]≠0先验概率P[,1]和P[,2],于是平均损失就是P[,1]EL(0,δ(y))+P[,2]EL(β[,2],δ(y)),想得到β[,2]的最优点估计

,就要选δ(y)使上述平均损失达到最小,当L[,a]=0时,解出的

它正好是TB-Stein压缩估计的类型,P[,1]/P[,2]的值越大,

就越接近于0。

可以看出:(Ⅰ)其它不变时,k[,2]越大,越倾向于适合选用δ(y)=0,k[2]是对模型复杂化的惩罚;(Ⅱ)其它固定,n越大,惩罚的强度就越小。自然可以根据R[,12]>1或R[,12]<1来选用

或δ(y)=0。

若观测到了y[,f]的值,记为y[0,f],此时考虑两种H[,i]的后验概率的比值,在上面已作的假定下有

k[,12]就是先验概率的比值乘以贝叶斯因子BF,这里

类似地,多于两个模型的比较也同样处理。

值得注意的是,由(19)可以得到

正好是Good(1950)和Kullback(1959)指出的交叉熵,或是f[,1],f[,2]相应的判别信息量CE(f[,1],f[,2]),而

W=W[,12]+W[,21]=CE(f[,1],f[,2])+CE(f[,2]f[,1])

正是Jeffeeys-Kullback-Leibler距离。这些都可以由Tobias和Zellner(1997)提供的方法计算。

线性模型的各类问题在统计中是非常典型和重要的,它既包含了独立同分布的类型,又可以将过程资料所看到的有限片段作为它的特例来处理,只是协方差阵的结构有一些不同,这从下一节的时间序列分析就可看出。

广义线性模型,列联表的分析,…等等,不少统计的模型,所处理的问题往往会还原到线性模型、回归分析上来,所以这一节讨论的内容和处理的方法适用性是很强的,希望读者能意识到这一点。

二、时间序列分析

时间序列中AR模型就是自回归的模型,因此很容易想到,这可以直接引用上一节中已有的结论,特别是利用预测分布可以很方便给出对转折点的分析和预测。

设{y[,t]}是时间序列的观测值,考察时刻T与T-1,T-2,T+1时y[,t]的变化状况,此时有四种不同的情况,我们分别定义如下:

(Ⅰ)DT(Down turn),下跌;若

y[,T-1],y[,T-2]均≤y[,T],但y[,T]>y[,T+1];

(Ⅱ)NDT(Not a DT),不下跌;若

y[,T-1],y[,T-2]均≤y[,T],但y[,T]≤y[,T+1];

(Ⅲ)UT(Up turn),上升;若

y[,T-1],y[,T-2]均≥y[,T],但y[,T]<y[T+1];

(Ⅳ)NUT(Not an UT),不上升;若

y[,T-1],y[,T-2]均≥y[,T],但y[,T]≥y[,T+1]。

有了这些定义后,就可以计算相应的后验概率,从而作出相应的预测。

对于时间序列y[,t],无论是下列五种的哪一种,都可以对t=1,2,…,T的观测值用y=Xβ +u描述,这五种是:

y[,t]=ρ[,1]y[,t-1]+u[t],

y[,t]=α+ρ[,1]y[,t-1]+u[,t],

y[,t]=α+δt+ρ[,1]y[,t-1]+u[,t],

y[,t]=ρ[,1]y[,t-1]+ρ[,2]y[,t-2]+u[,t],

y[,t]=Φ(L)y[,t-1]+z′[,t]θ+u[,t],

其中u[,t]是误差项,y[,t]是能观测到的产出(output)变量,z[,t]是能观测到的投入(input)变量,α,δ,θ,ρ[,1],ρ[,2]等均为参数,Φ(L)是推移(时滞)算子L的有限多项式,多项式中参数是未知的常数。只要观测了t=1,2,…,T这么多资料,上述各种情形均可用

y[,T×1]=X[,T×k]β[,k×1]+u[,T×1]

来表示,X是满列秩(rkX=k)的矩阵,β是未知参数,u是误差向量。因而在上一节讨论过的种种方法均可应用。

在[4]中,他们用西方国家的年产出增长率(annual output growth rates)作为时间序列分析的对象,选择了18个国家,作了各种分析来比较,在这里,概述一下,比较了什么内容,重点在于介绍方法。

他们在[4]中考虑了以下几种分析:

如果转折点只可能是DT或NDT,或只可能是UT或NUT,这时可以进一步细分,分成次要的DT,重要的DT或NDT(或称小量DT,大量DT或NDT),其定义如下:

如果第i个国家的OGR(产出增长率)y[,iT+1]满足

y[,iT-2],y[,iT-1]均≤y[,iT],且y[,iT](1-1/2z[,iT])>y[,iT+1]

其中若y[,iT]≥0,则z[,iT]=1,y[,iT]<0,则z[,iT]=-1,此时称y[,iT+1]是一个MADT(重要的DT)。类似地,若y[,iT-2],y[,iT-1],均≤y[,iT],且y[,iT]≥y[,iT+1]≥y[,iT](1-1/2z[,iT]),则称y[,iT+1]是MIDT(次要的DT)。若y[,iT-2],y[,iT-1]均≤y[,iT]且≤y[,iT+1]则称y[,iT+1]是NDT。

上述定义中z[,iT]的系数1/2是可以选择的,只要选定了一个合适的数,就可以计算相应的预测概率,引入损失函数如下:

预测情况实际情况

MADT MIDT NDT

MADT 0

C12 C13

MIDT C21

0

C23

NDT C31 C32

0

概率 P[,1]P[,2]1-P[,1]-P[,2]

若C[,ij]=C,则相应的决策规则为:

当P[,1]>P[,2],2P[,1]+P[,2]>1,预测MADT;

当P[,2]>P[,1],2P[,2]+P[,1]>l,预狈dMIDT;

当2maxP[,i]+minP[,i]<1,预测NDT。

这时,只要计算平均损失就可以知道,因为与MADT预测相应的平均损失是(1-P[,1])C,与MIDT相应的是(1-P[,2])C,与NDT相应的是(P[,1]+P[,2])C。

与刚才讨论的办法相仿,C[,ij]取不同的形式时,就会导出相应与它不同的预测规则。

下面再介绍利用高阶矩所相应的BMOM方法。首先考虑的,当然是三阶矩和四阶矩,考虑

若s[,k]>0,则未来值更可能比均值大;若s[,k]<0,则未来值更可能小于均值。峰度的值大于3时,预测密度将是厚尾的。

若s[,k]和K都可以给定,则可以求出y[,iT+1]的三阶矩和四阶矩,此时有

E(y[3,iT+1]|σ[,iT+1],s[,k])=s[,k]σ[3,iT+1]+3σ[3,iT+1]+u[3,iT+1],

E(y[4,iT+1]|σ[,iT+1],k)=Kσ[4][,iT+1]+4E(y[3,iT+1])u[,iT+1]-6σ[2,iT+1]u[2,iT+1]-3u[4,iT+1],

然后由已知的1,2,3,4阶矩的值可以得y[,iT+1]的极大熵分布,由获得的分布可以预测y[,iT+1],有关的计算结果可以参看以[4]。

标签:;  

BMOM方法--贝叶斯学派的新贡献_贝叶斯论文
下载Doc文档

猜你喜欢