中国隐性收入规模估计——基于扩展消费支出模型及数据的解读,本文主要内容关键词为:隐性论文,中国论文,消费支出论文,模型论文,收入论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
无论国民经济核算体系如何成熟、稽查方法如何科学,统计得到的收入数据都未必能反映居民真实的收入水平(Clotfelter,1983;Slemrod,1985;Andreoni et al.,1998;Martinez-Lopez,2011),因为居民出于避税或保护隐私等考虑,总会有意或无意地瞒报收入。收入瞒报以及与之密切相关的“隐性收入”规模是各国普遍存在且引起广泛关注的话题,并通常认为其在各国经济中均占有不小的规模(Frey & Pommerehne,1984;Schneider & Enste,2000)。同时,准确把握居民真实收入分布,是收入分配政策和国民经济核算体系的重要基础。但也正因为收入瞒报和隐性收入的隐蔽性以及不合法性等种种原因,其规模较难通过直接调查得到,而只能基于一定方法间接加以识别和估计。 总结而言,相关研究的基本原理类似:假设收入瞒报和隐性收入有关的交易活动总会体现在另外一些可被观察或统计到的指标中,从而可以根据这些指标以及某些稳健的统计规律予以倒推;但具体研究方法却存在较大差异。大致而言,相关方法主要分为基于汇总数据和宏观经济模型的宏观方法,和基于个体数据与消费支出模型的微观方法两类。①宏观方法因为其缺乏直观的理论基础和估计结果差异悬殊而备受质疑(Thomas,1999;Hanousek & Palda,2006)。微观方法根据消费数据估计居民真实收入,该真实收入与统计的收入数据的差额即可以作为隐性收入的估算值(Schneider,2014)。微观方法是目前较为普遍使用的方法。因为居民消费决策以其“真实收入”而非“上报收入”为基础,且在调查中居民出于避税和保护隐私等考虑瞒报消费的动机较小。与此同时,消费决策分析是研究中被屡屡涉及的主题,相关方面有着成型的理论逻辑框架。此外,消费支出特别是食品消费支出和总支出(或总收入)的相关关系(所谓的“恩格尔定律”或“恩格尔曲线”)被不同学者用不同方法、在不同时期、利用不同国家的数据所证实(Engel,1857;Working,1943;Atkinson et al.,1990;Unayama,2006;Kaus,2013)。这一有着坚实理论基础和稳健经验证据支持且直观清晰的传导机制,是学者基于消费数据和恩格尔定律倒推真实收入水平的逻辑基础。 上述微观方法最早由Pissarides & Weber(1989)较为系统地提出。该文将家庭按照户主职业类型分为职员和自我雇佣家庭两大类,②并假设前者真实上报所有收入,而后者则按固定比例瞒报收入。之后基于对数线性形式的食品支出方程并对模型中一些随机变量的分布做假设,推测出瞒报比例的估计值。这一恩格尔单方程估计方法因其简单明了,而被许多研究(Schuetze,2002;Johansson,2005;Davutyan,2008;Kim et al.,2009;王小鲁,2010;Kurr & Staehr,2013;Martines-Lopez,2013;Hurst et al.,2014)所沿用。 由于文献中认为半对数二次型函数相比于半对数线性函数(或对数线性形式的食品支出函数)形式能更好地刻画恩格尔系数与收入之间的相关关系(Muellbauer,1976;Deaton & Muellbauer,1980;Fry & Pashardes,1992;Blundell et al.,1993;Hausman et al.,1995;Banks et al.,1997;Lyssiotou et al.,2008;Lewbel,2010),但Pissarides & Weber(1989)的方法并不适用于半对数二次型函数形式,并且按照户主职业类型将家庭分成两组的做法极有可能存在选择偏误等问题。③Lyssiotou et al.(2004)对该方法进行了改进,提出了所谓的需求系统广义矩估计(GMM)方法。他们首先将收入来源分成工资收入和自我雇佣收入两类④,并假定所有家庭都不瞒报前者而按常数比例瞒报后者。除此之外,该文认为恩格尔单方程模型仅考虑食品支出的做法忽略了其他消费支出结构中所反映的家庭瞒报行为和异质消费偏好等信息,从而基于包括食品支出在内的六种非耐用品构成的需求系统并采用GMM方法估计上述假定为常数的瞒报比例。⑤很显然,这一方法试图包含更全面的支出信息并尽可能地控制异质消费偏好的影响,但在实践操作中可能事与愿违,因为食品支出与收入之间的稳健关系被诸多学者证实,但其他消费支出与收入的关系并不稳定;⑥这一并不稳定的需求系统极有可能在包含进有用信息的同时也将噪声包括进去(Lichard et al.,2013;Lades,2013),从而并不一定意味着比恩格尔单方程模型更优。另外,Lyssiotou et al.(2004)和Pissarides & Weber(1989)类似,假设工资收入不存在瞒报,这一假设可能并不适用于我国:因为现实中工资收入中可能包含各种奖金和福利,居民仍有很大的动机瞒报该部分收入。最后,Lyssiouto et al.(2004)也假设常数瞒报比例,这样的假设缺乏微观基础。 与此同时,部分学者认为假定具体的恩格尔曲线函数形式的做法可能不能很好地揭示消费支出与收入之间复杂的内在联系并有效控制异质消费偏好的影响,而是建议采用不假定具体函数形式的非参数估计法(Pinkse & Robinson,1995;Pendakur,1999;Lyssiotou et al.,2004;Tedds,2010)。这种方法在部分研究中被发现对数据的拟合效果更好,但我们无从得知相应函数背后的经济含义,从而该方法面临和宏观方法类似的问题,即缺少微观理论基础,实际中采用非参数方法估计收入瞒报和隐性收入规模的文献并不常见。 在本文中,我们将允许所有家庭的各种收入来源都可能存在瞒报,但家庭实际选择瞒报与否和如何瞒报取决于其优化决策的结果。不仅如此,我们将放松收入瞒报比例为常数的假设,而考虑更一般化的情形。此外,考虑到已有研究中居民家庭瞒报行为的理论逻辑机理并不清晰,我们将从包含家庭收入瞒报动机的优化决策模型出发,直接推导出家庭最优瞒报行为的反应函数。之后,我们将采用多个省份不同年度的官方统计数据展开经验分析,并对估计结果进行多角度的检验,以此来考察本文估计方法的可信性。其中值得一提的是与我国最近广受关注的两项调查的结论进行对比的结果。这两项分别由王小鲁和甘犁主持的调查⑦,致力于获得真实可信的收入数据并尽可能避免遗漏高收入人群,从而在问卷设计和调查过程等方面做了大量细致的工作。但获得这两项独特的调查数据需要大量的人力、物力和财力投入,且迄今分别只进行了两轮⑧,这对处于快速发展和转型期的我国而言,一方面因为未能很好地控制各地区各家庭随时间变化的消费偏好,从而可能影响其最终的估计结果;另一方面基于学者及其研究团队的调查依赖于其长期的跟踪调查,不同时间点上所获得的调查数据的可比性直接依赖于其对调查方法和调查过程的一贯坚持,这可能不能很好地保障有关估计结果的及时更新。或许也正因为此,已有考察其他国家收入瞒报和隐性收入规模的研究基本都以官方发布的微观调查数据为基础,因为官方数据相比于其他数据有样本容量大、代表性好、调查过程相对客观以及时间上连续等优点,并且官方数据也是相关宏观统计指标的基础,这也有利于学者较好地将微观数据中所得出的结论外延到宏观指标的讨论当中。 需要注意的是,甘犁等人的结果本身与本文所讨论的收入瞒报和隐性收入规模估计的宏微观方法无关;他们只是基于其调查得到的收入数据真实可信的假设计算了相应的基尼系数,并与官方发布数据进行对比,指出官方统计数据中存在收入瞒报和遗漏高收入人群等现象,试图给出我国居民真实的收入分布情况。⑨王小鲁(2010)则是我国较早地基于恩格尔定律系统地估计我国隐性收入规模的研究,其研究结论因为调查数据的质量和代表性而引起广泛讨论。⑩我们将采用不同的模型和数据,以与王小鲁与甘犁等人的估计结果互相验证。 二、理论模型 正如前文所提及的,需求系统广义矩估计方法相比于恩格尔单方程模型更为复杂但结论并不一定更优,并且半对数二次型相比于半对数线性形式的恩格尔曲线方程能更好地揭示消费与收入之间的相关关系。为简单但不失一般性,在本节中,我们将从经典的半对数二次型恩格尔单方程模型出发,在家庭优化决策框架下,推导家庭收入瞒报的最优反应函数的具体形式,从而得到适用于本文随后的经验分析的估计框架。 值得一提的是,除了基于理论模型构建更一般化的收入瞒报的反应函数之外,我们经验估计的基本原理与已有文献类似但具体操作过程又有所不同。如前所述,微观方法的基本原理是假定社会中总是存在一部分人(参照组)的收入和消费数据是真实可信的,并结合恩格尔定律所呈现的消费与收入之间稳健的内在联系,以及非参照组人群的消费数据(同样假定真实可信)倒推非参照组人群真实的收入水平,并与这些人群上报的收入水平进行比较,从而估计居民收入瞒报的程度以及相应的隐性收入规模。在所有这类型的微观方法中,“隐性收入”被赋予了较为直观的含义:所谓的隐性收入规模,意指居民消费支出行为中所暗含的收入与居民实际上报的收入之间的差异,也即居民由于瞒报等原因而导致的未被官方统计数据记录的经济活动(包括正规的和非法的经济活动)的价值;此外,这类型方法都只能估计出非参照组人群相比于参照组人群的相对瞒报程度,而不能给出所有人群的绝对瞒报程度的估计值,从而所得到的收入瞒报和隐性收入规模只是较为保守的下限估计。 我们也遵循这一原理,但考虑到已有文献中将样本或以户主职业或以收入类型分为两组、并假设其中一组为不瞒报收入的参照组的做法极有可能存在选择偏误问题,并且简单分成两组的做法也可能不能很好地实现参照组与非参照组人群之间的匹配,从而可能对最终估计结果产生影响;我们并不先验地假定哪些职业或哪些类型收入不存在瞒报,也不对模型中变量的分布做假设,而是首先推导出居民瞒报收入的最优反应函数形式,并将其代入半对数二次型恩格尔单方程模型中,直接基于Gauss-Newton非线性迭代方法估计相应的参数进而估计居民家庭相应的真实收入水平。在具体的估计中,我们尝试不同的参数初始值设定,以得到一致收敛的最终估计结果。在我们看来,这一做法将尽可能避免选择偏误问题,且一定程度上借鉴了非参数估计法的基本原理但所采用的函数形式具有直观的经济学含义。 (一)恩格尔单方程模型及其半对数二次型函数形式 基于恩格尔定律来估计家庭真实收入较为成型的方法始于Pissarides & Weber(1989)的研究,不少学者随后对其进行了补充和完善,其中比较具有代表性的研究如Lyssiotou et al.(2004)。在这里,我们将基于Pissarides & Weber(1989)与Lyssiotou et al.(2004)这两项研究,首先简要介绍恩格尔单方程模型并给出其半对数二次型函数的具体形式。 Lyssiotou et al.(2004)随后对该方法进行了改进。他们首先假定家庭有K种可能的收入来源,并允许不同收入来源的瞒报程度有所不同,从而家庭总收入的瞒报程度为不同收入来源瞒报程度的加权平均值(权重为相应收入来源占总收入的比重)。其次,该文认为Pissarides & Weber(1989)仅考虑食品支出的恩格尔单方程估计法忽略了其他消费支出结构中也可能反映的关于家庭瞒报行为的信息,从而建议将食品、酒精、燃料、衣服、私人服务/物品和娱乐用品等六大类非耐用品的消费支出结构都考虑进来,基于需求系统来估计居民家庭单一的瞒报程度参数,并建议使用广义矩估计(GMM)法来解决过度识别的问题。 该文在经验分析中,为与Pissarides & Weber(1989)的研究结论相对照,仅考虑了两种收入来源类型(工资收入与自我雇佣收入)的简化情形,在控制家庭特征(向量)的基础上,采用GMM方法对(2)式所表示的需求系统进行估计: 更进一步,在式(2)中,为避免与常数项可能存在共线性关系,该文假定工资收入并不存在瞒报,从而得以在将标准化为1的基础上估计自我雇佣收入的相对瞒报程度。 如前文所述,这一需求系统极有可能在包含进有用信息的同时也将噪声包括进去,从而并不一定更优。因此,为简便起见但又不失一般性,我们仅考虑式(2)形式的恩格尔单方程模型;接下来我们将重心放在关于家庭最优瞒报行为反应函数的推导上。 (二)居民优化决策与收入瞒报最优反应函数 正如Lyssiotou et al.(2004)所言,不同类型收入来源的瞒报程度可能有别;更进一步,我们认为居民在瞒报某分项收入时将同时考虑两个方面因素的影响,一是与该居民自身特征(如总收入水平)等相关的因素,这将表现为该居民在各分项收入上的瞒报程度都可能更高或更低一些;二是与相应分项收入相对应的特征,该类因素将表现为该居民可能在某些分项收入上的瞒报程度可能比另外一些分项收入的瞒报程度相对更高一些,例如,工资收入通常是由单位发放,在发放同时相应扣除税率。因此,瞒报这类收入的可能性相对小;而财产性收入或自我雇佣收入等则可能更容易被瞒报。具体而言,我们假设家庭有K种可能的收入来源;并用表示任意家庭h未知的真实的家庭总收入,相对应的各分项收入分别为(k=l,2,…,K),且各分项收入占其(真实)总收入的比重分别为;很显然有: 在统计稽查过程中,家庭h上报的家庭总收入为,相对应的各分项收入分别为分别对应于分项收入k占其(上报)总收入的百分比;并且有: 对于真实总收入水平为的家庭h而言,(11)我们假定其可以分别上报各分项收入;(12)这相当于该家庭在上报收入时分别选择了相应的瞒报参数或瞒报程度。对于任意分项收入k而言,家庭h在考虑选择[1,+∞)中的某个瞒报程度(或选择[0,1]之间的某个瞒报参数时取决于相应的瞒报收益和瞒报成本的比较:其中瞒报的收益即为其“瞒报”收入所少缴纳的税收(假设为比例税且相应税率为常数的简单情形);瞒报的成本则为其有可能被税务部门抓到并在被抓到时所面临的罚款F(常数);(13)且其瞒报被抓到的概率与其瞒报程度(或瞒报参数)有关,假定为ψ()。很显然,这一函数满足ψ(1)=0,即对任意家庭而言,如果真实上报收入,则被抓到瞒报的概率为0。同时,∈[,1],其中为与分项收入k有关的某个充分小的正数,即对于分项收入k(k=1,2,…,K)而言,所有家庭可以选择的瞒报参数存在某个大于0的下界。这是因为,一方面不少收入来源在纳税时存在一定的免税额(纳税起征点),家庭出于避税动机等“瞒报”该部分收入的可能性比较小;另一方面,给定家庭其他收入来源及其相应瞒报行为选择时,家庭在某分项收入上的瞒报程度高到一定程度(从而较小时)将极大地“暴露”该家庭在其他收入来源上的瞒报行为。此外,如果某个家庭选择完全瞒报某项收入,则税务部门将完全不能观察到该家庭的该项收入,从而无法区分其属于“没有该项收入”还是“该项收入完全瞒报”的情形。因此不失一般性,我们约束所有家庭可以选择的瞒报参数存在某个大于0的下界(为一个充分小的正数)。(14)另外,ψ′()<0,即家庭h因为瞒报分项收入k被抓到的概率与其所选择的瞒报程度正相关(从而与瞒报参数负相关)。 此时,家庭h对于某项收入k选择瞒报参数时相对应的优化决策函数为: 三、实证模型与主要研究发现 我们以式(8)为基础,采用我国国家统计局2002-2009年间各年城镇住户调查个体数据,估计家庭的真实收入水平,并据此推测我国的隐性收入规模。 按照我国的统计核算体系,我国城镇居民家庭的收入来源可以分为工资性收入(s)、经营性收入(o)、财产性收入(w)和转移性收入(t)四大类(15),因此我们接下来的分析中选用只有四种收入来源(k=s,o,w,t)的简化情形。 (一)数据来源与描述 我们的样本数据来自全国18个省/直辖市(16),总样本量从2002年的29283个增加到2009年的42621个。表1是文中关键变量的描述性统计(含均值、标准差和样本数等)。其中,恩格尔系数是由样本中每户家庭食品支出占消费总支出的比值计算而得。家庭总收入包括了工资性收入、经营性收入、财产性收入和转移性收入。(17) 表1表明,我国城镇居民家庭在各年间的恩格尔系数较大且较为稳定(在0.41—0.43左右),这与我国居民重饮食文化的传统密切相关。居民家庭总收入水平在2002-2009年间逐年上升,在居民家庭收入来源中,工资性收入是最为重要的收入来源;转移性收入位居第二位,其次为经营性收入,财产性收入占居民收入比重的比值最小。 (二)模型估计结果 根据前述逻辑,我们需要以式(8)中的各(k=s,o,w,t)的估计值为基础,来推算家庭的真实收入水平。但在估计式(8)时,我们首先需要选取合适的家庭特征变量以尽可能地控制家庭异质消费偏好的影响。参考其他文献(如王小鲁,2010)并结合我国实际情形,我们选取的控制变量包括:家庭规模、(18)就业人口比例、(19)户主年龄、(20)家庭是否有孩子、(21)家庭最高教育水平及其平方项,(22)以及省份和年份虚拟变量。(23) 我国不同地区在不同年份的物价变化可能并不完全同步,而物价是影响居民家庭消费支出行为非常重要的因素;因此我们首先需要将样本中以现价计的名义收入调整为以不变价计的实际收入。我们将各省各年居民家庭收入数据以相应各省2002年为基期的城镇居民消费价格指数(CPI)进行调整。其中各省以2002年为基期的CPI根据《中国统计年鉴》相关数据计算整理得到。(24)表2给出了相应的估计结果。为进行比较,表2分别考虑了半对数二次型和半对数线性形式的恩格尔单方程模型。考虑到式(8)中各变量的拟线性形式,且相应的瞒报参数存在取值约束,表2采用参数受约束的非线性高斯-牛顿(Gauss-Newton)迭代的方法来实现上述估计过程。(25) 在表2中,我们选择家庭上报的“总收入”而非“可支配收入”来估计式(8)。(26)原则上而言,家庭基于“可支配收入”来做出食品支出等消费决策,但由于我国近年来不断推广的社会保险(尤其是居民养老保险)试点改革中允许家庭趸缴,意即一次性缴清其若干年的养老保险保费,这与文献中每年支付“养老保险税”(pension contribution)的情形存在很大的区别;这甚至导致样本中一部分家庭当年的“可支配收入”为负或为0。(27)在我们看来,文献中所提及的“可支配收入”意指家庭扣除不在其决策范围内、被“提前强制”支付的“税收”(包括显性税收,如个人所得税等,以及隐性税收,如社会保障支出等)后余下的收入;而对于我国而言,近年来居民家庭的社会保障支出中有一部分,如趸缴的养老保险支出等,与家庭用于食品等其他方面的支出类似,都是家庭“自主优化选择”的行为,从而基于统计局核算口径计算得到的“可支配收入”也与文献中讨论的“可支配收入”的含义略有不同。此外,统计局公布的数据中给出了家庭“总收入”、相应的收入来源结构以及家庭“可支配收入”,并没有给出“可支配收入”的收入来源结构,而关于各分项收入相应的税率并非本文关注的重点,为简便起见,我们没有相应计算所有家庭相应的分项“税后收入”。 而对于是否考虑年份和省份固定效应,取决于我国各地区饮食习惯差异,以及这一差异随时间变化趋势是否不同。据我们所知,我国存在多种菜系且南北居民饮食习惯非常不同,所以估计时应该考虑省份固定效应;与此同时,没有迹象表明不同地区居民的消费决策行为随时间变化保持同步,所以估计时也应该考虑年份固定效应。因此,在表2中,我们首先在第1列中给出了同时考虑年份和省份固定效应的估计结果,第2列和第3列则分别对应于只考虑年份和省份固定效应的情形,第4列中则同时不考虑年份和省份固定效应。 此外,我们发现表2第1-4列中恩格尔系数与家庭收入之间存在统计显著的“U”型关系,并且结合实际数据中家庭收入的取值,我们实际情形基本处于“U”型曲线左侧下降部分。这与实际相符,即随着家庭收入水平的上升,恩格尔系数下降。为与Pissarides & Weber(1989)仅考虑收入的一次项的分析框架相对应,我们在第5列中考虑不包含收入“二次项”的简化情形。第5列结果表明恩格尔系数与收入水平负相关,并且此时不需要对随机变量的分布做假设也同样可以估计相应的收入瞒报程度。 根据回归结果,各控制变量的系数也与实际相符。关于家庭人口数:在控制收入的情况下,随着家庭人口数增加,人均收入下降,恩格尔系数上升,所以家庭人口数的系数显著为正;关于教育水平:教育水平的二次项系数为正且非常小,一次项为负,所以实际情形在“U”型曲线左侧下降部分,即随着教育程度的升高,恩格尔系数下降;关于变量“是否有小孩”系数为显著负的原因是:统计数据的“小孩”是“是否有子女或孙子女共同生活在一起”,这与国外文献中的“是否有未成年人”的定义略有不同。在我国,有“小孩”的家庭极有可能面临更大教育和买房支出压力,而不是食物支出。户主年龄变量系数显著为正说明年龄结构越大的家庭花费在食物上的支出更高,这是比较符合我国实际的情形。就业人口比例与恩格尔系数成正相关,这可能是源于工作在外就餐比在家吃食物的花费更高的缘故。 由于表2各列中的结论基本一致,在以下的分析中,我们以第1列的估计结果为准。(28)表2首先表明,恩格尔系数与家庭收入成反比,收入越高的家庭恩格尔系数越小,这与经济学理论相符。进一步地,结合表2的结果,可以得到如下瞒报函数的估计表达式: 首先,瞒报程度与总收入有关。家庭总收入超过所有家庭总收入平均值越多(或,相对富裕程度越高),瞒报程度越大。其次,瞒报参数中,与财产性收入有关的相对瞒报程度最大(为2.412),这也与直觉相符。因为根据统计数据,财产性收入主要分为利息收入、股息与红利收入、保险收益和投资收益等等,这类收入较隐蔽,难以统计和监管。 与工资性收入有关的相对瞒报程度为1.461,仅次于财产性收入,即工资性收入占总收入的比例()越高,瞒报程度越高。这与文献中假设“工资收入不存在瞒报”的结论存在较大出入,我们认为这可能正是我国所独特的现象:因为我国的工资性收入中包含年终奖、过节费、各种单位福利或补贴收入等,这些收入因为发放的不固定性和隐蔽性等等,也很容易被瞒报。 另外,表2模型1中与经营性收入的相对瞒报程度为1.291,这表明经营性收入占总收入的比重越高,瞒报程度越高。经营收入难以监管,瞒报可能性较大,与直觉相符。然而,对于经营性收入的相对瞒报程度小于工资性收入的相对瞒报程度(1.461)的情形,这可能是因为经营性收入在2008年之前仅包括经营净收入(经营收入扣除了税额和经营成本),在2008年之后经营性收入才包括出租房屋和经营性全部收入。另外一个可能的原因是:一部分有经营性收入的家庭上报的经营性收入为0,从而有可能拉低经营性收入的瞒报的估计值。例如,对于个体工商户,特别是无证经营的个体工商户来说,为了避税或其他原因很有可能瞒报其经营收入;或者将其本应作为家庭消费的支出部分地计入其经营成本中,从而使得经营性收入水平较低。根据经济普查数据我国2004年有证的个体经营户为2187万户,无证经营的个体工商户有1735万户(29),分别占当年全国总家庭户数(37041万户)(30)的5.9%和4.7%,此外还不包括相当一部分个别家庭成员参与经营活动(而非经营主体)从而有经营性收入的家庭。而在我们的样本中,2004年有经营性收入的家庭的百分比为9.17%,甚至低于与经营主体相对应的水平10.6%(5.9%+4.7%)。 还有,表2模型(1)中显示转移性收入的相对瞒报程度是1.117,相对于其他收入的相对瞒报程度较小。因为转移性收入有其特殊性:一方面,“转移性收入”中有一部分为家庭成员与其他亲朋的人情往来收入,较难监管和记录,存在一定程度的瞒报可能性。但与此同时,这类型收入中有一部分对于家庭而言属于“左口袋入右口袋出”的收入(其相应的人情往来支出被计入在“转移性支出”中),并不完全对应于家庭全年的“新增”收入,从而与“工资性收入”、“经营性收入”与“财产性收入”有本质不同;因此也有可能造成家庭的“收入幻觉”。(31)此外,转移性收入中包括养老金、社会救济金、失业保险和赡养金等等,数额较小且由政府发放比较容易监管统计,瞒报动机相对较小。 我们进一步根据估计的家庭总收入计算相应的基尼系数(调整后),并将其与基于统计调查得到的家庭总收入计算得到的基尼系数(调整前)进行对比,结果如表3所示。整体而言,2002年至2009年间家庭收入的平均瞒报程度为65.2%。此外,调整前的城镇家庭基尼系数在0.31—0.34左右,其他文献中用不同方法计算出的城镇基尼系数均与调整前的基尼系数接近。(32)但在调整了瞒报收入后,城镇家庭的基尼系数在0.46—0.51之间,比调整前数据平均高出0.16左右。我们调整后的城镇居民家庭收入的基尼系数也得到了其他研究的验证,根据《中国家庭金融调查与研究中心》2012年的报告(33),2010年我国家庭收入的基尼系数为0.61,城镇家庭的基尼系数为0.56,农村家庭的基尼系数为0.60。(34) 我们接下来根据每年城镇居民调整后的真实人均收入计算总的隐性收入规模。表4比较了统计局公布的居民人均收入,调整前城镇居民人均收入以及根据瞒报参数调整后的人均收入。表4表明,调整前的居民人均收入略高于统计局公布的人均收入,主要是因为本文的样本与统计局的数据来源一致,区别在于本文样本数据只包含了18个省/直辖市,而统计局公布的人均收入是基于全国所有城镇居民的人均收入。另外,调整后的居民收入显著高于调整前的居民收入,从2002年到2009年,隐性收入的规模在19%—25%之间波动。其中,2008年隐性收入为7.38万亿元,占GDP的23.5%;对比王小鲁(2010)(35)估计的我国2008年的隐性收入为9.53万亿元(36),占GDP比重为29.5%。本文的结果略低于王小鲁(2010)的估计结果,但二者相互印证。 在表2模型(1)中我们已经知道,瞒报存在总量效应,表5的结果更为详实地表明,随着家庭人均收入的上升,瞒报程度也随之上升。在表5中,我们按照统计局的标准,将城镇家庭按收入高低分为7组:(37)收入最低的10%家庭为最低收入户,依次类推,每组计算调整前后居民人均收入。表5表明,同一年内收入越高的家庭瞒报倍数越高;并且随着时间推移,各收入组的家庭瞒报倍数在多数年份较为稳定。表中2008年瞒报倍数从最低收入组到最高收入组分别为:6.5%、10.3%、15.2%、23.0%、35.7%、53.5%、169.3%;与之相对照,王小鲁(2010)估计2008年这7组家庭的瞒报倍数分别为:13%、1%、17%、28%、43%、109%、219%;二者互相印证,但相比较而言本文的结果稍微更合理一些。 在本文中,我们借鉴文献中较为推崇的基于恩格尔定律和个体消费数据的微观方法,在允许所有人群和所有收入来源都可能存在瞒报动机并且瞒报比例并不一定为常数的前提下,首先基于优化决策理论推导出家庭最优收入瞒报的反应函数的具体形式,之后结合半对数二次型恩格尔单方程模型,利用2002年至2009年各年城镇住户调查微观数据,重新考察了我国城镇居民的真实收入分布,并据此估算了我国的隐性收入规模。我们发现:首先,基于本文分析框架所得到的居民收入与恩格尔系数之间的相关关系与理论模型结论更一致;其次,居民收入瞒报呈现出总量效应和结构效应特征;再次,考虑瞒报因素后,我国以“城镇居民家庭总收入”为标准计算的基尼系数从原始数据中的0.31—0.34上升到了0.45—0.51。最后,居民收入瞒报所导致的隐性收入规模约占我国2002-2009年间相应各年GDP的19%—25%。 我们重新审视了我国国家统计局的城镇住户调查这一备受质疑的调查数据。官方数据相比其他微观调查数据有样本容量大、代表性好、调查过程相对客观以及时间上连续等优点,本文通过选取合适的理论分析框架和经验估计方法对官方数据进行深入解读,表明官方数据本身有着非常好的代表性和合理性。特别需要指出的是,本文基于官方数据估计的结果得到了其他文献的印证,如王小鲁(2010)估计了2008年城镇居民家庭的真实收入水平和隐性收入规模,虽然与本文的方法和数据均不同,但其结论却与本文的估计结果非常相似。 当然,本文也可能存在一些不足。由于我们仅有18个省/直辖市的数据,所以在推算全国隐性收入规模时,假设这18个省/直辖市的样本反映的是全国水平,这可能存在一些误差,希望将来能用全国所有省/直辖市的调查样本进行校准。其次,我们也没有考虑农村家庭的情况(对于农村家庭而言,也可以考虑采用类似的方法来进行估计和调整),估计的隐性收入仅指城镇家庭的瞒报收入,从而本文无法给出调整隐性收入后全国基尼系数有多高。此外,本文基于消费支出模型估计时,由于消费以家庭为决策单位,我们只能给出家庭收入瞒报程度的估计,而不能对应于个体收入瞒报情况,从而调整收入后的基尼系数只能更为真实地反映不同家庭收入差距。这些,以及相关的其他重要问题,都可以成为未来研究的方向。 ①关于两类方法的比较和有关经典文献的回顾请参见白重恩等(2015)。 ②因为通常只有家庭消费数据,微观方法只能相应估计“家庭”的真实收入水平。 ③譬如户主职业为职员的家庭中可能有自我雇佣的家庭成员,或者户主为自我雇佣人群的家庭中有职员类型的家庭成员,从而并不能清晰明确地将家庭进行归类分组;此外,考虑极端情况,如果某户家庭只上报了工资收入,而瞒报所有其他收入(含自我雇佣收入),则在这类分组方法中,该家庭会被视为职员家庭从而认为其不存在瞒报,这都可能对估计结果产生影响。 ④该文在理论推导部分实际上讨论了K种不同收入来源的情境,但在基于数据分析环节为与Pissarides & Weber(1989)的研究结论进行对比,只考虑了两种收入来源的简单情形。 ⑤随后有部分文献(如Pashardesa & Polycarpou(2008)以及Bernard et al.(2010)等)沿用这一需求系统方法估计了其他经济体的隐性经济规模。 ⑥不少文献发现其他消费品与收入关系的“恩格尔曲线”的形状并不稳定(Frenzel,2006;Charles et al.,2009;Heffetz,2011;Kaus,2013;Moneta & Chai,2014)。关于此的详细讨论可以参考白重恩等(2015)。 ⑦甘犁等人进行的调查又被称作中国家庭金融调查(简称CHFS)。 ⑧前者分别为2005年和2008年,后者分别2010年和2013年。 ⑨岳希明和李实(2013)以及李实和万海远(2013)探讨了甘犁等人的调查数据及相关结论可能存在的问题:样本量小且抽样家庭权重偏向于东部地区,不具有全国代表性;数据基于被调查者的回忆,而不是采用统计局调查中的记账式方法,可能会得到更不准确的数据。 ⑩统计局官员施发启(资料来源:http://www.stats.gov.cn/ztjc/ztfx/grdd/201008/t20100825_59069.html)指出王小鲁的样本选择并不是随机的,且数据是基于被调查者的回忆,可信度较低。同时,罗楚亮等(2010)也认为王小鲁基于匿名问卷得到的数据不一定比统计局的更可靠,并且调查人员的专业性问题也值得怀疑。 (11)我们只考虑家庭有正的真实收入(即>0)的情形。 (12)这相当于假设家庭可以独立分别上报各分项收入。这个假定有些勉强,但我们出于以下几个方面的考虑依然这样假定:首先,这样分析最为简便,可以不考虑各分项收入瞒报之间的互相影响机制;其次,很多国家(包括我国)居民收入是按收入来源分别纳税,最后基于总收入核实应纳税金额并采取多退少补的方式。 (13)这里假设F为常数仅仅只是为了与我国法律条文规定中罚款的“累退”性质相对应的简化处理:我国《刑法》第二百零一条规定“偷税数额占应纳税额的百分之十以上不满百分之三十并且偷税数额在一万元以上不满十万元的,或者因偷税被税务机关给予二次行政处罚又偷税的,处三年以下有期徒刑或者拘役,并处偷税数额一倍以上五倍以下罚金;偷税数额占应纳税额的百分之三十以上并且偷税数额在十万元以上的,处三年以上七年以下有期徒刑,并处偷税数额一倍以上五倍以下罚金。” (14)更极端地,如果家庭选择所有各项收入都全部瞒报,相应上报总收入和各分项收入为0,则根据经典消费支出模型假设,基于居民上报收入和消费数据来倒推居民真实收入的分析将无法实现。这意味着这一消费支出模型暗含了“瞒报程度存在上确界”的约束条件,因此我们做出这一假设。 (15)以下如无特殊说明,“收入”都指年收入。 (16)这18个省/直辖市分别为:北京市、山西省、辽宁省、黑龙江省、上海市、江苏省、浙江省、安徽省、江西省、山东省、河南省、湖北省、广东省、重庆市、四川省、云南省、陕西省和甘肃省。 (17)这里的收入均为以现价计的名义收入。 (18)即家庭总人口数。按照统计局定义,“家庭人口”指居住在一起、经济上合在一起共同生活的家庭成员。 (19)即家庭中被调查时处于就业状态的家庭成员总数占家庭总人口的比例。 (20)按照统计局定义,“户主”指为其家庭成员所公认,在家庭事务中基本上起决定作用者。在大多数情况下,是家庭经济的主要支撑者。 (21)本文中所定义的“家庭是否有孩子”被定义为家庭成员中是否有户主的“子女”(包括子女和媳婿)或者“孙子女”(包括外孙子女、孙媳婿和外孙媳婿),这与已有文献中常见的根据家庭“是否有15岁或18岁以下青少年或未成年人”来定义“是否有孩子”的做法略有不同。我们基于对中国传统家庭文化的理解选择前者,因为在我们看来,我国家庭中的“子女”或者“孙子女”,无论其成年与否,都是家庭做决策时非常重要的(很多情形下可能是最重要的)考虑因素。 (22)“家庭最高教育水平”定义为所有家庭成员中接受教育的最高学历。由于这一指标并非本文讨论重点,我们并没有严格地计算各成员的受教育年限;而是根据统计局调查时的排序分类“1表示未上过学,2表示扫盲班,3表示小学,4表示初中,5表示高中,6表示中专,7表示大学专科,8表示大学本科,9表示研究生”,来对该指标进行赋值。因此,该指标取值在1—9之间,值越大表示家庭(最高)教育水平越高,但该指标估计系数本身可能不能展开讨论。我们也考虑了更详细赋值的“受教育年限”的情形,其他指标的估计系数几乎没有变化。此时,如果个体的学历为“未上过学”则赋值为0年,为“扫盲班”则赋值为3年,为“小学”则赋值为6年,为“初中”则赋值为9年,为“高中”则赋值为12年,为“中专”则赋值为12年,为“大专”则赋值为14年,为“大学本科”则赋值为16年,为“研究生”则赋值为18年。 (23)本文也考虑了房屋虚拟变量(有住房的家庭为1,租房的家庭为0)。但结果显示该变量不显著而其他结论基本不变,所以这里并未展示。 (24)收入也可以根据Brandt & Holz(2006)(在该文中作者只给出了1984-2004年间的数据,但作者随后在其网站上将数据更新到了2010年)计算的衡量省际生活费用成本差异的价格指数进行调整。实际上用Brandt & Holz(2006)的价格指数调整名义收入后的结果与这里的结果基本相同。 (25)我们采用Stata12来实现这一分析过程。值得一提的是,除非优化函数的二阶导的符号自始至终都不发生变化(对于我们这里所采用的估计式而言,这是一个较难满足的假设),否则Gauss-Newton迭代对于初始值的设定要求较高(初始值离最终优化值较为接近时效果比较好)。我们的确发现当这四个待估计参数的初始值设定为比较小的数(仍然大于1)时收敛结果不是很理想,但一旦初始值的选取较大(譬如不小于1.35)时则会给出与初始值设定无关的一致收敛结果。 (26)按照统计局的标准:家庭可支配收入=家庭总收入-交纳个人所得税-个人交纳的社会保障支出-记账补贴。 (27)这些家庭(样本中共计3户)极有可能动用其储蓄或者通过负债的方式完成趸缴。 (28)实际上,以第2—4列中的结果为准估计得到的瞒报程度更严重些,而以第5列结果为准估计得到的居民瞒报程度则略小。考虑到第1列中的“收入”的二次项系数、年份和省份虚拟变量基本都统计显著,且已有文献(见“引言”)也指出半对数二次型相比于半对数线形式的恩格尔曲线更好,我们以第1列作为基准。 (29)数据来源:国家统计局网站,《2004年中国工业普查》。 (30)数据来源:《中国人口和就业统计年鉴2005》。 (31)例如:A家庭总收入为10万元,其中有3万元的人情往来收入,同时A家庭也可能会对应3万元的转移性支出,所以A家庭实际消费决策是基于7万元的家庭收入。但统计中A家庭的收入被记为10万元。 (32)根据胡志军(2012)和程永宏(2007)的论文,城镇家庭基尼系数也在0.33左右。 (33)资料来源:chfs.swufe.edu.cn。 (34)我们的样本仅包括城镇居民,如果将农村家庭包括进来,考虑农村家庭与城镇家庭收入之间的差距(根据胡志军(2012)和程永宏(2007)的论文,全国基尼系数比城镇家庭基尼系数高出0.1左右),总的基尼系数可能将更大。 (35)注意,王小鲁的数据样本和测算方法与本文均不同。 (36)王小鲁文中估计的隐性收入为92633亿元,但他是按2008年城镇人口以6.06亿人计算的,本文将其统一为按统计局最新公布的2008年城镇人口6.24亿人估算得出最终的结果。 (37)以现价计的名义收入为排序标准。标签:经营性收入论文; 参数估计论文; 统计模型论文; 消费函数论文; 恩格尔系数论文; 财产性收入论文; 恩格尔曲线论文; 对数曲线论文; 统计调查论文;