Tobit模型的估计方法及应用_因变量论文

Tobit模型估计方法与应用,本文主要内容关键词为:模型论文,方法论文,Tobit论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

自从Tobin(1958)研究了被解释变量有上限、下限或者存在极值等问题以来,这类研究受到学者们的广泛关注。人们为了纪念Tobin对这类模型的贡献,把被解释变量取值有限制、存在选择行为的这类模型称之为Tobit模型。这类模型实际上包含两种方程,一种是反映选择问题的离散数据模型;一种是受限制的连续变量模型。第二种模型往往是文献中人们更感兴趣的部分。

Tobit模型不同于离散选择模型和一般的连续变量选择模型,它的特点在于因变量是受限变量,模型实际上由两类方程组成,主要研究在某些选择行为下,连续变量如何变化的问题。当前,这种模型已经引入了更复杂的形式,面板数据、半参数等形式的Tobit模型在研究中广泛应用。国外这种模型已经陆续在各领域内广泛使用,国内也有一些实证分析的论文用到了这种模型。但是人们在应用这些模型分析问题时还存在一些误区,如误认为离散选择模型就是Tobit模型,无法解释样本选择性偏差的经济含义,不区分所建立的模型是否是联立方程,对估计结果的性质不进行检验等。本文所介绍的经典文献,概括了Tobit模型的起源、结构形式、估计方法、适用的研究问题、自身缺陷等方面,这些经典文献中提到的一些细节问题在实证分析中很重要,然而现在已有的教材或者引文并没有摘录出来,可能导致一些作者在实证分析中对该模型有种种误解。

本文试图从一些经典文献著作的简单介绍中,向有兴趣用这个方法分析这类问题的研究者们提供一个参考,为做实证分析的研究者们提供一个分析此类问题的方法。本文的结构安排如下:第二部分介绍Tobit模型的分类与结构,概括了Tobit模型的特点以及其与两部模型的区别,按照不同的特征对Tobit模型进行了分类。第三部分介绍Tobit模型的估计与应用,按照Tobit模型的特征从三个方面介绍了每种模型的估计:一是关于非联立方程的Tobit模型估计;二是关于联立方程的Tobit模型的估计,这两类文献的估计方法主要是针对截面数据或者时间序列数据;三是关于面板Tobit模型的估计。第四部分是简要的结论,指出Tobit模型的发展方向。

二、Tobit模型:概念与分类

Tobit模型也称为样本选择模型、受限因变量模型,是因变量满足某种约束条件下取值的模型。这种模型的特点在于模型包含两个部分,一是表示约束条件的选择方程模型;一种是满足约束条件下的某连续变量方程模型。研究感兴趣的往往是受限制的连续变量方程模型,但是由于因变量受到某种约束条件的制约,忽略某些不可度量(即:不是观测值,而是通过模型计算得到的变量)的因素将导致受限因变量模型产生样本选择性偏差。两部模型(two-part model)与Tobit模型有很大的相似之处,也是研究受限因变量问题的模型;但是这两种模型在模型结构形式、估计方法、假设条件等方面也存在一定的区别。Tobit模型的估计方法与模型结构形式有密切关系,不同类型的模型估计方法存在较大的差异,本文按照三种属性特征对Tobit模型进行了分类。

(一)Tobit模型与两部模型

1.Tobit模型与两部模型的区别。

(1)结构不同。Tobit模型的第一部分表示是否选择的方程是单一条件离散选择模型,两部模型的第一部分表示是否选择的方程是多条件离散选择模型(Cragg,1971);Tobit模型的第二部分表示选择多少的方程需要考虑样本选择偏差,两部模型的第二部分表示选择多少的方程无需考虑选择性偏差的影响。

以van de Ven & van Praage的调整Tobit Ⅱ模型为焦点的样本选择模型结构如下:

(3)目的不同。两部模型的设计主要是预测实际连续变量值y,以实际观测值为基础计算E(y)=P(y>0)E(y|y>0);而样本选择模型是基于选择方程的P(y>0)预测实际连续变量值y,得到的均值是E(y|y>0)。Duan(1983,1984,1985)等认为基于这个目的,潜变量的结果和非条件方程的参数值不重要,Heckman(1990)指出识别潜变量在经济含义上非常重要。

2.Tobit模型与两部模型的应用。Cragg(1971)是最早使用两部模型的文献,20世纪70年代和80年代早期在健康经济学的实证分析中经常用到两部模型,如:Manning et al(1981、1984、1985),Newhouse et al(1981)等。Dudley & Montmarquette(1976)、Grossman & Joyce(1990)、McLaughlin(1991)等文献虽然没有明确指出他们在研究中使用了两部模型,但是他们的研究都是两部模型在实证分析中的应用。Dudley(1984)指出样本选择模型的内生性缺陷,此后有一些研究用蒙特卡洛方法,试图证明两部模型优于样本选择模型,即使真实的模型是样本选择模型。Free & Sun(2009)用多变量两部模型分析了家庭寿险需求的问题,认为寿险需求多少取决于人们对定期寿险和终身寿险的联合选择的结果。梁兆晖(Leung,1996)用GUASS程序生成了1000个随机样本数据,对每个实验重复100次,对样本选择模型与纯两部模型进行对比。实证分析的结论表明,在不同仿真程序下两种模型的效果都运行得较好,对两种模型应该持一种平等的观点,选用哪种模型部分依赖于人们想识别什么参数和什么结果。样本选择模型估计中使用Heckman两步法时,之间的共线性程度对估计结果可能有一定的影响,半参数模型在识别时需要强加一些外生条件以避免共线性的问题,但是参数方法的识别不需要外生的约束条件。因此Leung(1996)不支持两部模型优于样本选择模型的观点,也不认为样本选择模型优于两部模型,认为两种模型在不同的条件下都可以有好的表现形式。Heckman两步法的适用条件是模型中不存在共线性,此时可采用条件数法(condition number)对模型的共线性问题进行检验。

(二)Tobit模型的分类与结构

Lee(1976)与Amemiya(1984)按照似然函数的特点,对Tobit模型进行了分类,应用中一般是按照Amemiya的分类法对模型进行区分的。

Lee(1976)将受限因变量模型分成五类:简单的受限因变量模型、审查因变量模型、样本可分割的转换回归模型、包含指标内生变量的迭代模型、非市场均衡模型。

Amemiya(1984)根据Tobit模型似然函数的不同将Tobit模型分成五类,第一类模型是标准的Tobit模型,根据数据类型的不同,可建立审查数据模型或者截断数据模型,其余四类模型也称为是广义Tobit模型,适用于样本选择模型,各模型的似然函数如表1所示。

1.第一类Tobit模型。(1)审查数据模型。当因变量被审查时,某一特定范围内的值全部变成一个单一值,下审查(或左审查)数据的一般结构为:

此外,根据解释变量中是否包含内生变量,可以将Tobit模型分为非联立方程模型、联立方程模型。Tobin(1958)、Heckman(1974、1976)、Amemiya(1974)等文章都是针对非联立方程模型的估计方法。Amemiya(1979)提出求解联立方程的方法,Lee(1976、1978、1979),Blundell & Smith(1994)等文章都是阐述联立方程模型的估计方法问题的。根据实证分析所用数据的特征,可以将Tobit模型分为截面Tobit模型、时间序列Tobit模型、面板Tobit模型。

三、Tobit模型的估计Ⅰ:非联立方程模型

1.Tobit模型的MLE。1974年之前的文献对Tobit模型的估计都是采用了MLE,这种方法的特点是估计过程比较复杂,计算相当繁琐,而且需要选择一个合理的初始值,但是用这种方法估计出来的结果具有较好的性质,估计值的有效性较好。Tobin(1958)采用MLE,并给出选择初始值的方法,Heckman(1974)将Tobit模型扩展成联立(simultaneous)系统方程,沿袭了Tobin(1958)及Gronau(1974)的MLE。

Tobin(1958)关注了被解释变量有下限、上限或者存在极限值这类问题的研究,后来人们把具有这种特征的问题研究的模型称为Tobit模型。Tobin认为受限因变量的重点主要有两个方面,一是受限因变量和别的变量之间的关系,另一是这种关系的假设检验问题。在这样的问题的研究中,解释变量不仅影响受限变量的概率,也影响非受限因变量的规模大小。对于这类问题,如果不考虑非受限因变量的解释,而是只考虑受限因变量或是非受限因变量的概率问题,那么Probit分析就能提供一个合适的统计模型;如果不关注观测值的限制性,只是要解释某些变量,多元回归分析也是一种合适的统计技术。不过,当因变量的信息是有用的时候,丢失这些信息显然会使得研究丧失效率。Tobin以不同家庭的不同行为选择问题为例,建立了如下受限因变量模型。

假设W是受限因变量,具有下限L:

根据一阶条件公式,带入初始值运用牛顿迭代法计算,这就是著名的“得分法”,迭代直到Δa的值的变化非常小时,得到的估计值就是受限因变量模型的估计值。Tobin选择的初始值是函数-Z(x)/Q(x)的线性近似值,也可以说是lnQ(x)的二次方程的近似值。为了研究这类模型的特点,Tobin用1952年和1953年的数据对耐用品的支出问题进行了分析,目的是探求耐用品支出与年龄及流动性资产持有之间的关系。

2.Tobit模型的Heckman两步法估计。

1974年以后对Tobit模型的估计方法不再以MLE为核心进行突破,而是对Heckman两步法不断扩充和改进,主要是因为Heckman两步法计算比较简单,而且估计的结果是一致的,也无须考虑初值的问题。但是两步法的估计效率不如MLE,且这种估计方法要求两个方程的解释变量不能完全相同。Heckman(1976)介绍了两步法的推导过程,并证明了两步法的估计性质,以及应用两步法需要注意的问题。Amemiya(1974)将Tobit模型扩展到多变量模型,推导了模型估计方法。

Heckman(1976)对样本选择、截断、受限因变量等统计模型做了一个概括性的分析,扩展了Gronau(1974)和Lewis(1974)等的研究成果,证明了文中所提到的估计方法的应用环境、估计值的性质等。Heckman指出审查(censored)数据模型和截断(truncated)的区别在于截断数据不能使用有用的数据估计有完整数据的观测值的概率,但是审查数据可以。受限因变量模型需要考虑选择性偏差的影响,样本选择性偏差问题的研究最初起源于Gronau(1974)和Lewis(1974)关于工资选择偏差问题的研究,把未出现在工资方程中的额外的变量引起的工资率的变化称为选择性偏差。如劳动工资方程中,婚姻状态、小孩数量等虽然不是工资率的直接解释变量,但这些因素影响了工作选择的决定,因而通过限制性条件的方式对受限变量产生了选择性偏差。在实证部分Heckman用美国33-44岁女性的纵向(longitudinal)调查数据研究了女性工资率及工作时间的问题。

Amemiya(1974)将截断(truncated)因变量的单方程回归模型扩展到多变量方程模型和联立方程模型,提出了一个简单的可计算的一致估计法。对这类模型的研究主要集中于三个方面:一是参数值及协方差的估计;二是考虑估计值的一致性及有效性;三是渐进分布的推导用于对估计值进行假设检验。

对于多变量回归方程模型,假设n维随机变量:

Amemiya为了解决上述三个核心问题,对多变量回归模型作了如下假设:

假设1:参数空间是紧致的并且是一个具有真实值的开邻域。

四、Tobit模型的估计Ⅱ:联立方程模型

联立方程Tobit模型估计方法与非联立Tobit模型有较大的区别。这种模型估计涉及到两个问题,一是如何判断所建立的方程是否是联立方程的问题。Lee(1978)明确提出了检验的方法。二是如何估计模型的问题,以往研究文献提出了不同的估计方法,总体上来说这些估计方法都是将联立方程估计方法与Heckman两步法估计方法结合的结果,但是各文献中具体估计方法之间是存在差异的。

Amemiya(1978)建立了多变量联立方程模型,模型基本结构如下:

与以往的受限因变量联立方程模型不同,Amemiya的模型中考虑了只有部分因变量受限的联立方程模型的估计方法、估计性质以及识别条件的问题。

Amemiya指出要识别结构式模型,需要作如下几点假设:

假设5:Γ的每个主子式最小值是正的。

Amemiya(1979)认为FMLE(完全极大似然法)求解Tobit模型太耗成本而且估计结果往往是最不可行的。Amemiya提出了求解联立方程Tobit模型的一致性估计值的广义最小二乘法(GLS)方法。作者在文中主要比较了普通最小二乘值、Nelson & Olson(1977)估计值、广义最小二乘估计值、Heckman估计值等几种估计值的方法以及估计值的效率的问题。

Nelson & Olson(1977)的联立方程模型的基本结构如下:

当审查或者截断的两方程模型含有内生变量时,这种模型就具备了一般联立方程模型的特征,文中计算估计值以及渐进方差、协方差很直接,但是渐进方差、协方差的计算难度随着方程个数的增加而增加。对于联立方程Tobit模型,先计算简化式再计算结构式得到的参数估计值,比间接最小二乘估计法得到的估计值更有效。

Lee(1976)主要关注了受限因变量模型的两阶段估计的问题,论文主要围绕着两个问题展开分析:一是寻找一致的初始估计值的问题;另一个问题是寻找估计模型的更简单一些的估计方法。Lee提出用工具变量法估计模型,用全部样本代替子样本估计模型,这个方法在简单的受限因变量模型中一方面可以获得好的一致的初始值,计算也比较简单,但是如果是复杂模型,该方法的计算量将非常大。包含内生变量的迭代模型与非市场均衡模型是转换回归模型的一种,Lee建议对后四种模型采用两阶段估计法。具有联立结构的转换回归模型假定转换取决于潜在条件:可以实现样本分割。因变量是截断数据的多变量联立方程模型的估计方法,与Amemiya(1974)的间接最小二乘估计法不同,对每种类型模型采用两阶段最小二乘法进行估计,计算比较方便,也容易解决模型的过度识别问题,模型的识别条件沿用了Amemiya(1974)中的结论。Lee将这一方法用于分析工资率的问题,比较了两阶段最小二乘法与间接最小二乘法,发现用修正后的OLS估计简化式方程的两阶段最小二乘法得到的估计值,比较恰当地反映了各影响因素对受限因变量的作用。

Lee(1978)研究了受限变量模型估计在住房需求中的应用问题,这篇文章的主要目的有两个:一是推荐一个获得某类受限变量模型的较好的初始估计值的方法,另一个是证明这种模型和估计技术如何被用于研究住房需求问题。

在实证部分,Lee(1978)将需求面的参与主体分成租房者和买房者两大类,分析中低收入者住房需求问题。政府对公共住房的政策分两个方面,公共住房及FHA补贴的贷款是对供给面的调控,住房补贴及转移支付是对需求面调控。中低收入者住房需求问题的分析要研究的实际上是两个问题,第一个问题是购买或是租住的选择问题,第二个问题是支出多少的问题,对这类问题分析的关键在于确定模型是联立方程还是非联立方程,并选择恰当的估计方法。Lee(1978)用购房支出量、租房支出量、选择买房还是租房作为因变量,以家庭支柱者(年龄、种族、性别)、家庭背景(移动、家庭持久收入、家庭规模)、区域性变量(城市规模、距离中心城区的距离)、房屋的相对价格作为解释变量。Lee(1978)指出检验模型是否是联立方程的统计量是似然比率

Lee(1978)认为在一般情况下,受限因变量使用Heckman两步法在一般情况下可以得到一致估计量,在这个估计量的基础上,得到的两步法极大似然估计(2SML)值是渐进有效的。买方或者租房的问题不同于以往样本选择模型,因为要考虑模型是否存在联立性的问题。理论证明和实践结果都表明,2SML法在标准误以及解释波动方面的效果很好,经验结论与经济理论也很吻合。

Lee(1979)介绍了具有离散和连续内生变量的一般联立方程的统计模型,这种模型可以被看成是转换联立方程模型的新形式,建议使用一些简单的二阶段方法估计模型,并证明了这些估计值的一致性问题。

Lee(1979)的联立方程不同于Tobin(1958)、Heckman(1974)、Nelson(1976)的受限因变量模型,主要区别在于Lee(1979)的方程中考虑了选择方程中含有内生变量的情况。模型基本结构为:

该系统方程中的误差项序列相互独立,具有0均值和协方差矩阵∑。

2SML得到的估计值是一致的,协方差矩阵∑也可通过方程之间的关系式估计出来。

Lee(1999)分析了动态Tobit模型、具有自回归条件异方差(ARCH)或者广义条件异方差(GARCH)的扰动项的Tobit模型在时间序列中的仿真(simulation)估计问题。激励Lee研究这类问题的经济活动,如政府对商品、金融股票、外币市场的干预活动,防止价格跌得低于某个水平,或者涨得高于某个水平,变量的动态行为也可能受限。

对这类模型的估计,Lerman & Manski(1981)建议使用仿真(simulation)极大似然估计(SML),McFadden(1989)建议使用仿真矩估计法(MSM),Hajivassiliou & McFadden(1990)建议用仿真得分法(simulation scores)、Gourieroux & Monfort(1993)建议采用仿真伪极大似然法(pseudo-maximum likelihood),McFadden(1989)提出了SML估计值(SMLE)。

基本模型如下;

Lee(1999)详细介绍了似然仿真法(likelihood simulation)在Tobit ARCH(p)、Tobit GARCH(p,q)及动态Tobit模型估计中的应用,也分析了方差递减以及在似然仿真中可能出现的数值下溢的问题,用蒙特卡洛(Mente Carlo)实验验证了SL法在这三种估计模型中的效果。似然仿真中的方差递减技术可用于具有重建性质的模型中,而长时间的序列样本中可能出现似然仿真中的数值下溢问题,用公式

避免数值下溢问题。

Lee的研究结果表明,对于动态自回归Tobit模型,SMLE方法比Laroque & Salnie(1993)推荐的SPML方法要准确和好得多,用SL方法估计的SMLE对仿真所取的数据的变化不敏感。ARCH Tobit、GARCH Tobit的回归方差中的系数值是可以完全被估计出来的,但是方差方程中的参数的SMLE估计值是存在偏差的,而且GARCH Tobit模型中的方差方程无法估计出来。

Blundell & Smith(1994)分析了联立受限因变量模型及联立定性变量模型的估计和推断问题,文章的主要目的是寻求这种非线性模型的唯一的隐含的简化式的一致性条件,将审查或者分组的联立方程模型称为Type IIS的联立模型。

五、Tobit模型的估计Ⅲ:面板模型

面板Tobit模型的估计方法与截面Tobit模型或者时间序列Tobit模型的估计方法要复杂得多,但是这些估计方法仍然是在两步法的基础上,结合面板模型估计方法的特点扩展的。

Kalwij(2003)研究了不可观测的个体特殊的效应与解释变量相关时,这类面板数据Tobit模型的估计问题,作者选取了一阶差分的MLE的方法估计这类问题,分析了个体特殊效应参数估计值的敏感性,并用蒙特卡洛(Mente Carlo)方法对敏感性问题进行了实证分析。这类模型的估计也可以分两步进行,第一步是对每个连续时期进行MLE,第二步是用最小距离估计原理估计参数。用该方法估计个体特殊效应的面板Tobit模型,比用标准的面板Tobit方法估计参数得到的参数敏感性弱。

FD-Tobit方法为:

对具有个体特殊效应的面板模型相邻的时间的两个变量进行差分消除个体效应:

Kalwij用蒙特卡洛试验选择N={500,1000}、T={2,4,8},用两种方法分别计算了面板Tobit模型仿真下的MB、RMSE、MedB、MAD结果,实证结果表明,两种估计方法的MAD仿真结果都是一致估计值,当用FD-Tobit方法估计有个体效应的面板模型时偏差比用S-Tobit减少了80%。FD-Tobit方法的估计结果对个体特殊效应的变化敏感性比S-Tobit的弱。Zebel(1992)用同样的仿真方法验证了用FD-Tobit估计代替S-Tobit估计导致了效率损失。

Jones & Labeaga(2003)用Becker et al(1994)的理性毒瘾模型,根据西班牙统计局家庭支出调查的面板数据对家庭居民的吸烟问题进行了分析。数据处理中遇到的问题主要集中在三个方面:误差测量、审查、不可观测的异方差。通过样本选择的方式,Jones等根据样本分割信息将从来不购买香烟的家庭从样本总体中除掉,购买支出的观测值为0表示家庭不常购买或者由于是审查数据的问题,Jones等在论文中分析了是否应该建立审查模型,用Tobit模型分析香烟消费行为的问题。在处理模型的异方差问题方面,Jones等对比了广义矩估计(GMM)、系统广义矩估计(system-GMM)方法的不同特点;在处理是否是审查模型方面,Jones对比了组内两阶段广义矩估计、组内三阶段广义矩估计、最小距离法(minimum distance methods)的优缺点。

在实证部分,Jones & Labeaga分析了在不经常购买假设下,以滞后或者超前的香烟价格为工具变量,分别估计了水平工具变量的GMM、离差形式的工具变量GMM、系统GMM下各影响因素对当期消费量的影响。在审查模型假设下,分别用2SLS-GMM、3SLS-GMM、MD方法估计了理性毒瘾模型,证明了异方差,对香烟消费有重要影响,除掉审查变量容易导致内生变量存在样本选择性偏差。通过对折扣率及毒瘾程度的分析,Jones & Labeaga证明了在审查模型中被审查变量设置为0比不常购买这种假设下分析香烟消费量行为更符合经济现实情况。理性毒瘾模型的具体形式对不可观测的异方差与审查非常敏感,如果不能很好地解释异方差容易导致对毒瘾程度的过高估计,面板数据更需要解决修正异方差的问题。

Bover & Arellano(1997)分析了针对受限因变量面板数据的组内两步估计法(two-step within-group)以及广义矩估计法(GMM)。组内两步估计法实际上是一种组内2SLS法,基本思路是:先对模型进行一阶差分或者纵向差分滞后,第一步估计具有渐进一致性的简化式方程,得到因变量的估计值,第二步将预测值回代到结构式方程用OLS估计法结构式方程的参数。GMM的基本思路是:先对模型进行一阶差分或者纵向差分滞后,第一步估计具有渐进一致性的简化式方程,得到因变量的估计值,第二步以预测值的水平值为工具变量估计整个结构式方程。Bover & Arellano(1997)指出,组内两步估计一般可以得到计算比较简单,有些情况下可以得到具有一致性和渐进有效性的结果,但是由于组内估计使用了非最大化的加权距离,所以从最小距离类型来看,组内两步估计非渐进有效,Bover & Arellano建议用GMM解决效率及一致性的问题。指出线性GMM法比最小距离法多估计一步,得到的结果更有效,但是这个方法的缺点在于它要求利用的是严格的外生变量,要求给出具体的随机效应的条件分布的具体形式。

六、简要的结论

国内外关于Tobit模型研究的文献非常多,本文并没有将这些文献全部列举出来,只是挑选了其中一部分经典文献,把这些经典文献的核心思想简单概括出来,供以后做此类问题分析的研究者参考。本文对Tobit模型的定义、分类、估计方法、模型结构形式等进行了详细的归类和介绍,有些知识点教材或者书籍中可能并未涉及到,而这些知识点在问题分析中非常重要,忽略这些细节可能导致对模型的错误理解和应用。面板数据Tobit模型、半参数模型Tobit模型是现在和未来Tobit模型应用的主要发展趋势,这使得Tobit模型的估计方法和对估计结果性质的推导等问题变得更加复杂,但无论Tobit模型的形式如何变化,现有的估计方法基本上都是在Heckman(1976)两步法的基础上扩展的。

当然,Tobit模型也有自身无法克服的缺陷,Tobit模型估计要求两部分模型中解释变量不完全相同,另外系统模型假设随机变量是服从联合正态分布的,违背这两个基本假设,可能导致模型不可估计。Tobit模型在设定、估计与检验等理论方面寻求进一步的突破,在实践中结合日益丰富的微观数据进一步拓展应用领域,是未来重要的发展方向,也是大有可为的。

标签:;  ;  ;  

Tobit模型的估计方法及应用_因变量论文
下载Doc文档

猜你喜欢