数据合并与连续自变量虚拟化_自变量论文

数据归并与连续自变量虚拟化，本文主要内容关键词为：自变量论文,并与论文,数据论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、引言

归并(Censored)数据是现实生活中一类常见的数据类型，指的是变量观测数据的取值受到限制的情形。

在经验分析中，回归方程的（某些）解释变量或被解释变量都可能会遇到数据归并的情形，由此便衍生出了两类模型——因变量归并模型①与自变量归并模型②。直观上看，归并数据所对应的变量可以同时（或分别）作为解释变量或被解释变量进入不同的模型来研究不同的问题，上述的两类模型在应用中都具有不可或缺的重要性。然而，至今为止的大多数研究都集中于因变量归并模型（Tobin，1958；Schneider和Weissfeld，1986；Heller和Simonoff，1990），相比而言，对于自变量归并模型的研究极其少③（Manski和Tamer，2002）。

直至最近，Rigobon和Stoker(2004，2005，2007)的一系列研究才开始比较系统地分析自变量的数据归并所引发的偏差以及对应模型的参数估计问题。由于回归方程中的某些自变量存在数据归并，观测到的数据不再反映变量真实的信息，普通的基于观测样本的LS估计不再是参数的一致估计④。此时，即使约束误差项具有良好的分布，观测样本的似然函数也极其复杂，使得直接的ML估计基本不可行。对此，Rigobon和Stoker(2007)建议使用完整形式分析(Complete Case Analysis)的方法(Little，1992)来估计参数，即在LS回归中使用对应的条件期望代替被归并的那部分数据。

然而，完整形式分析在获得估计一致性的同时却放弃了估计的有效性。为了获得参数的有效估计，余壮雄(2010)提出基于EM算法（Dempster等，1977）来计算参数的ML估计，并在自变量归并模型的某种特殊设定⑤下推导出了参数的EM迭代方程。余壮雄(2010)的研究肯定了EM算法在自变量归并模型⑥中的应用前景，然而，对于一般化设定下参数的ML估计以及EM算法的实际应用仍然有待进一步的研究。

另一个有意思的问题同样源自于数据归并的一般化设定（数据的双侧归并），即数据的归并比例达到100%的情形。当数据的归并只发生于单侧时，归并比例达到100%意味着变量的信息完全损失，此时无法进行参数的估计；但是，当数据的归并发生于双侧时，归并的比例是允许达到100%的，此时，被完全归并的数据为一个虚拟变量的形式，它仍然包含了用于参数估计的部分信息。由此衍生出的新模型不妨称之为连续变量虚拟化模型，事实上，在经验分析中，这一模型被不经意地大量使用，因为数据的缺失或人为的归并，某些连续变量被简化为虚拟变量进入回归方程，遗憾的是，这种简化处理带来的估计偏差（Regobin和Stoker，2004；余壮雄，2010）一直都被忽略了。

本文基于数据双侧归并的一般化设定条件讨论了因变量归并模型与自变量归并模型的参数估计问题，我们基于EM算法来计算参数的ML估计，并推导了EM算法对应的参数迭代方程，给出了参数的一个闭式解。本文的结构安排如下：第二部分介绍了由数据的归并带来的估计偏差，进而引出EM算法的基本思想；第三部分和第四部分则分别讨论了因变量归并模型与自变量归并模型的参数估计问题，基于EM算法推导了对应的参数迭代方程；第五部分讨论了在实证分析中如何识别虚拟变量是数据归并还是结构变化；最后为本文的结论。

二、归并偏差与EM算法

（一）数据归并与偏差

当变量的部分样本取值在超过或低于某个界限时由于观测不到而归并后，其样本不再反映其真实的信息，直接使用观测样本进行回归必定会导致偏差。经过样本归并，新的样本所反映的信息与真实信息已经存在显著的差异，而且这种差异会随着样本归并比例的增加而扩大。

为了考察数据归并带来的估计偏差，以下我们以一个简单的双变量线性回归模型⑦为例进行分析。

1.因变量归并模型。

对应的模型设定如下：

即Regobin和Stoker(2004)所谓的膨胀性偏差。

（二）EM算法

无论是因变量归并模型还是自变量归并模型，其对应的样本似然函数都非常复杂，通常由一阶优化条件无法解得参数的解析解，即使使用Newton-Raphson迭代计算参数的数值解也不一定收敛⑧。对此，本文基于EM算法来计算参数的ML估计。

记Y为观测到的不完整数据，Z=(Y，X)为完整数据，X为缺失的数据，则EM算法可计算如下：

易知，上式的一阶优化条件无法解得参数的解析解，而使用Newton-Raphson迭代计算参数的数值解也不能保证收敛；因此，我们以下使用EM算法来计算参数的数值解。

由式(5)的设定可知，Z对应的对数似然函数为：

式(9)和(10)迭代至收敛即为EM算法对应的解。

由于实际的经验分析中，遇到的因变量归并模型经常只是式(5)的某些特例，以下给出上述迭代方程在两种常见特例下的简化形式。

1.因变量右侧归并模型。

五、连续自变量虚拟化

在经验分析中，虚拟变量经常被引入到回归方程中用于度量某些可能的结构变化，这种处理大多数是基于应用的目的，而对于真实DGP是否为结构变化的问题并没有得到充分的检验。实际上，在很多情形下，回归方程中引入虚拟变量是由于某些连续变量的样本无法观测到，因此对其进行虚拟化；甚至有时候，即使这些连续变量可以观测到，为了某种目的而使用虚拟变量的形式。对于这种处理，普通的LS估计可能是不一致的。

考虑如下常用的回归方程设定：

易知，当真实的DGP为DGP1时，式(20)的LS估计（简称为M-LS方法）是一致估计；而当真实的DGP为DGP2时，LS估计不再是一致估计。因此，在估计式(20)的参数时对其所对应的真实DGP进行识别是非常必要的。

注意到，当真实的DGP为DGP2时，利用上文的归并自变量模型的估计方法（简称为M-EM方法）可以获得式(20)中参数的一致估计。这意味着，即使不知道真实的DGP是DGP1还是DGP2，对式(20)的两种不同估计将肯定有一种是一致的而另一种是不一致的。因此，我们可以根据式(20)的两种不同的估计结果来挑选真实的DGP。

识别过程具体如下：

步骤1使用M-LS和M-EM两种方法估计式(20)的参数。

步骤2根据AIC或SC挑选出合适的模型。

DGP1和DGP2实质上对应的是回归方程中使用不同解释变量的两种情形，易知，此时的AIC和SC可以作为选择模型的依据（证明备索）。

六、结论

数据归并是社会科学的经验分析中的一类重要现象，根据归并数据对应变量在回归方程中的位置，具体又可分为因变量归并模型与自变量归并模型。因变量归并模型自Tobin(1958)的研究开始，得到了很多计量学者的关注，迅速成为微观计量经济学(Greene，2008)研究的一类重要模型；相比之下，关于自变量归并模型的研究落后甚多，直至Rigobon和Stoker(2004)的研究才开始正式进入计量学者的研究视野，然而其在经验分析中具有相当广阔的应用前景，必定为该领域的研究带来快速的发展。

本文在Rigobon和Stoker(2004，2005，2007)等的研究基础上，以一般化设定的变量双侧归并模型为研究的起点，在一个统一的框架内考察了因变量归并模型与自变量归并模型的ML估计，由于样本似然函数非常复杂，普通的一阶求解没有解析解，Newton-Raphson迭代也难以收敛，我们基于EM算法来计算参数的ML估计，并推导了对应的参数迭代方程，给出了参数的一个闭式解。另外，为了便于在经验分析中的应用，我们也给出了不同的数据归并类型下对应的迭代方程的简化形式。

虽然自变量归并模型进入计量学者研究视野的时间较短，然而在经验分析中，这一模型早已被使用，当然，使用的估计方法并不准确。例如，在线性回归中，某些连续解释变量由于无法获得可靠的数据（也可能由于人为的简化处理）经常被简单处理成虚拟变量。基于这种处理的回归模型实质上已经演化成连续型自变量归并模型的一个特例（完全归并），但由于自变量归并模型的提出较晚，而这种连续变量虚拟化的处理也比较隐蔽，其存在的问题目前基本没有得到应有的重视。

注释：

①因变量归并模型或者归并回归模型(Censored Regression Model)，最早由Tobin(1958)提出，因此很多时候也称为Tobit模型。

②模型中的解释变量与被解释变量同时存在归并的情形，目前尚未有研究涉及。

③对此，我们猜测有两种原因：首先，Tobin的影响力导致了更多的人关注这一模型；其次，在经验分析中，如果因变量存在数据归并，通常很难找到替代的变量，而如果某些自变量存在数据归并，实证研究者可能更倾向于找到该变量的替代变量，而避开处理复杂的自变量归并模型。

④Rigobon和Stoker(2004)的研究表明，在自变量归并模型的某些常见设定下，基于观测样本的15估计存在一个确定性的膨胀性偏差(Expansion Bias)，即参数估计值的绝对值大于参数真值的绝对值。

⑤模型设定为正态混合模型，存在某个自变量右侧单侧归并，且假定归并数据与无归并数据可区分为两段。

⑥EM算法在因变量单侧归并模型的应用已有较多的研究（Aitkin，1981；Ng等，2002）.

⑦虽然样本归并会导致估计偏差的结论非常直观，但对于一般设定下的模型，其估计偏差并不容易表示为某些比较直观且简单的结果。

⑧Olsen(1978)建议对因变量归并模型进行参数变换以改进Newton-Raphson迭代的收敛性质，但这种处理无法应用到自变量归并模型。

⑨参数并不必须要等于；其取值大小并不重要，也不进入MLE的计算。

⑩实际计算时，参数的初始值可以使用基于观测样本的LS估计。

(11)此处的数据缺失发生在作为条件的解释变量上，相关的类似分析可参见Huang(1984).

标签：自变量论文; 因变量论文; 连续变量论文; 参数估计论文; EM算法论文; 对应分析论文; 变量论文; 回归方程论文;

数据合并与连续自变量虚拟化_自变量论文

猜你喜欢