基于区间型数据的城市家庭收入分布与基尼系数测算方法研究,本文主要内容关键词为:区间论文,系数论文,家庭收入论文,基尼论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号 F064.1
文献标识码 A
一、问题的提出
家庭收入分布状况是收入分配制度运行的结果,研究家庭收入的分布可以为客观评价现行的收入分配制度,促进公平分配提供决策依据。目前,开展这项研究所需要的数据主要是通过调研的方式获得,但调研数据的准确性一直受到争议。其原因不外乎两个方面:一是家庭对自身收入难以准确计量。目前我国居民家庭收入结构逐渐呈现多元化特征,除非家庭成员从事收入稳定的职业,其工薪收入比较容易报告,其他不稳定的工薪收入一般都会存在一定的误差。经营性收入和财产性收入这两项,如果家庭对自己收入进行核算的时间与调研的时点存在差异,受访者很难在较短的受访时间内对家庭收入进行精确计量,这导致“家庭的收入结构越复杂,收入数据的误差就越大”。二是出于谨慎动机和不愿露富的心理,多数家庭并不愿意将家庭的真实收入报告给调研人员,这意味着调研数据的真实性无法保证。换句话说,尽管形式上受访者可以报告一个很“精确”的数字,但并不可靠。若依此类数据开展研究,有可能扭曲真实的收入分布状况,得出不当的结论。
为了解决这个问题,一些学者和业界专家进行了有益的探讨和尝试,取得了一定的经验。Campbell(2006)建议在抽样调查中,并不强求受访者填写收入变量的准确数值,而是将调查变量的取值范围划分成若干个子区间(Interval)来供受访者选择。例如,理论上家庭年收入的取值范围可以表述为[0,+∞)。在调研的过程中,以千元为单位,我们可以将家庭年收入的取值范围划分成[0,5),[5,10),[10,20),[20,30),[30,40),[40,60),[60,100),[100,200),[200,+∞)这样一组连续的区间。这种处理可以消除受访者被要求填列真实收入时戒备和疑虑心理,使其更愿意配合调查工作,不仅可以提高有效问卷的比率,而且比起不愿意透露真实收入而随意填写数值而言,调查所得到的数据可能更具可靠性。其次,对于确实难于精确估算收入的家庭而言,将变量的取值范围划分成一系列子区间供受访者选择,具有一定的合理性。相对于报告一个精确的数值而言,家庭居民可能更有把握回答收入所属的区间。
在居民家庭的抽样调查实践中,这种“将调查变量的取值范围划分为一系列子区间,然后供受访者选择”的方法已成功地运用到美国居民家庭的健康与退休状况(Health and Retirement Survey)调查中(Thomas和Smith,1997)。美国的消费金融调查(Survey of Consumer Finance,SCF)也采用类似的方法。为区分数值型的收入数据,本文将这种数据定义为家庭收入的区间型数据。尽管它形式上类似于胡祖光(2004)、程永宏(2008)等提到的分组数据,但却有本质不同。分组数据严格地说,它不是原始数据,是对原始的数值型数据进行加工后得出的。而区间型的数据是在调研过程中获得的原始数据,虽然在调研过程中容易获得,也比较可靠,但也损失掉部分信息,就是说调研获得的收入信息是不完全的。
收入信息的不完全,给研究居民家庭收入分布带来困难。以基尼系数为例,理论上精确地计算基尼系数,必须利用收入的准确数值进行计算。即便是如胡祖光(2004)那样利用分组数据计算基尼系数,每组收入所占全部收入的比重也必须事先知道。但区间型收入数据,无法提供这样的研究条件。尽管如此,这种不完全信息毕竟给我们提供了家庭收入分布的一份图景,考虑区间型数据在数据可靠性方面有其独特的研究价值,利用区间型数据研究家庭收入分布是有意义的。
2010年清华大学中国金融研究中心开展对全国24个城市的家庭调研工作,获得调查样本家庭的区间型的收入数据,为本文利用区间型数据开展家庭收入分布的研究和基尼系数的测算提供了数据条件。为此,我们先对家庭收入分布和基尼系数测算的研究进行梳理,找到适合于区间型数据的研究方法,通过清华大学中国金融中心的调研数据,对我国城市居民家庭的收入分布和基尼系数测算进行实证研究。
二、文献回顾
理论上居民家庭的收入分布对居民家庭收入反映的信息最完全。尽管为便于直观比较,学者们也根据家庭的收入分布计算基尼系数、泰尔熵系数、收入分布方差等,然而作为衡量居民家庭收入不平等的指标(迟巍等,2006),居民收入分布是计算这些指标的基础,所以我们重点梳理关于家庭收入分布的研究。实际上如果我们把家庭收入研究看成是一个整体工作的话,这个研究包含数据和方法两个部分,离开了调查数据的具体形式来谈论方法可能并不恰当。因此,在讨论每种方法时我们也关注它对数据的适应性问题。考虑基尼系数是衡量家庭收入分配不平等的一个重要指标,我们也对基于收入分布的基尼系数计算作相应的说明。
用离散分布的方法描述家庭收入分布,由于运用每个样本家庭的收入信息,所以对调查信息运用得较为充分。这种方法的不足是:它只适用于数值型的数据,要求家庭报告的收入数据是对家庭收入的点估计,但由于本文开篇讨论的原因,数值型数据的准确性常常受到质疑,如果把数据因素考虑进去,结果未必能真实反映居民家庭的收入不平等情况。
另一种方法是用连续分布函数来描述家庭的收入分布。从分布密度函数估计的方法角度又可细分为参数估计方法和半参数估计方法两种。常见的半参数估计方法是用核函数平滑方法来估计家庭的收入分布。核函数平滑方法中代表性的文献是Dinardo等(1996)在《Econometrica》上发表的估计家庭收入的一篇论文。此后,我国学者迟巍等(2008)、陈昌兵(2007)采用这种方法估计我国居民收入的分布函数。用核平滑化方法估计的收入分布密度函数的公式为:
收入分布密度函数的参数估计方法,是假定家庭收入x的概率密度具有特定的函数形式,用调查获得的数据来估计分布函数的参数,从而获得家庭收入的分布函数。相当多的学者采用这种方法来估计收入的分布函数。例如,胡志军(2012)、Rao和Tang(2006)、程永宏(2007、2008)、王海港和周开国(2006)、Schmittlein(1983)、McDonald和Bartell(1979)、Singh和Maddala(1976)等。也有学者对该种方法提出批评(王亚峰,2012),认为多数概率密度函数的选择缺乏理论基础。本文对这种看法持保留意见,从国外的研究看(Singh和Maddala,1976;Schmittlein,1983),概率密度函数的选择是基于对家庭收入增长规律的认识,所采用的技术类似于寿险中的死亡率模型。假定家庭收入用X表示,F(x)为其分布函数,f(x)为分布密度函数。令(x)=1-F(x),那么家庭收入超过x的条件下,收入终止于区间(x,x+△x]内的概率为:
那么T(x)可以用来表示一个收入为x的家庭,其收入终止于x附近可能性的大小。欧阳植和于维生(1994)称T(x)为停滞率,假定它是家庭收入X的线性函数,能较好地拟合我国城镇居民家庭1990年的收入分布。当然也可以根据研究中样本家庭的具体情况,对 T(x)做更精确的描述。例如,Singh和Maddala(1976)、Schmittlein(1983)假定T(x)是ln(x)的函数来描述家庭收入的增长规律。通过求解含有F(x)和F′(x)即f(x)的微分方程,即式(5)来获得家庭收入的分布密度函数。这意味着,只要我们能够发现T(x)的规律性,用参数估计的方法描述家庭收入的概率密度函数是有理论基础的。这也是本文利用区间型数据估计家庭收入分布时,考虑采用参数估计方法的原因之一。当然在研究过程中,考虑到微分方程的可解性问题,有些概率密度函数形式所对应的T(x)对家庭收入增长规律的描述与实际会有些偏差,从而导致在收入的某个区间对实际数据的拟合误差较大的情况①。本文尝试用复合分布的函数形式(Composite Distribution)加以克服。
在确定收入分布函数的具体形式之后,通常可以采用极大似然估计和最小二乘估计的方法来估计分布函数的参数。两种方法均适用于数值型的数据以及分组数据,当然也适用于本文提出的区间型数据。但利用最小二乘估计方法,可以便于我们考察不同的函数形式究竟在家庭收入分布的哪个区间拟合的效果更好,从而更好地判断不同分布函数描述家庭收入分布时所表现出来的性质,有助于我们思考复合分布函数的构成问题。
其中,μ代表收入变量的均值,F(x)为家庭收入的分布函数。当家庭收入数据是分组数据时,也有研究文献直接利用分组数据计算基尼系数②。例如胡祖光(2004)给出一种近似计算方法为:
通过讨论家庭收入分布中常见的方法可以看出,不同方法对数据的要求不尽相同。本文采用的区间型数据,由于无法获得家庭收入的准确数值,一些处理数值型数据的研究方法,如离散分布中的基尼系数计算和家庭收入的概率密度函数的核平滑估计方法等并不适合本文的研究。区间型数据甚至缺乏分组数据所能提供的一些信息,如每个组别的收入占全部样本家庭的比重等,因此适合分组数据的基尼系数计算方法,如式(7)也无法采用。但区间型的调研数据能够提供属于相应的收入区间的家庭频数,这为利用参数估计的方法来估计家庭的收入分布创造数据条件。相关的研究文献多是采用单一的函数形式进行收入分布研究,本文在家庭收入分布的具体形式上做更多的尝试,包括采用已知分布的复合分布形式,以便找到最优的分布函数表达形式。
三、收入分布估计与基尼系数测算的基本思想
1.关于符号的定义
家庭收入分布问题解决后,基尼系数的计算问题迎刃而解。根据式(6)我们给出基尼系数的计算公式:
3.家庭收入分布函数的选择
在式(10)中,我们没有给出家庭收入分布函数的具体形式。究竟什么样的概率分布函数适合描述中国家庭收入的分布,理想的解答方式应是采用家庭收入的原始数据,通过对中国居民家庭收入分布的停滞率T(x)的精确描述,再求解式(5)所表达的微分方程来求出分布函数的具体形式。但原始数据要求家庭对收入的报告是一个确定的数值。这种性质的原始数据在国内鲜有公开发表,可以借鉴的研究成果几乎没有。
因此,我们借鉴国外关于家庭收入分布函数方面的研究成果,来选取适当收入分布函数。通常家庭收入的分布具有明显的“厚尾”特征,因此一些有偏的分布函数被学者们用来描述家庭的收入分布。Aitchison和Brown(1957)利用对数正态分布函数研究收入分布时发现,对数正态分布对收入分布的高端部分拟合效果并不好。Mandelbrot(1960)利用Pareto分布拟合收入分布时,发现除了家庭收入的高端部分拟合较好外,其他部分拟合的效果较差。Salem和Mount(1974)、McDonald和Bartell(1979)利用Gamma分布进行实证研究,得出的结论是Gamma分布在收入分布的两端拟合效果优于对数正态分布。前述的这3种分布都是具有两个参数的分布函数。Singh和Maddala(1976)利用一种新的分布函数(以下简称Sm函数)研究美国家庭的收入分布数据,发现Sm分布函数的拟合效果好于对数正态分布和Gamma分布。Schmittlein(1983)运用一种被称为Burr分布的函数对美国人口普查局提供的47500个美国家庭的收入分布进行拟合,发现Burr分布对较大样本的数据拟合效果较好。Rao和Tang(2006)采用广义的第二类Beta分布估计中国城镇、农村和城乡一体化的收入分布,此外他们也尝试采用Weibull分布来估计中国居民的收入分布,所采用的数据来自《中国统计年鉴》,虽然数据特征有别于本文提出的区间型数据,但收入信息同样是不完整的。
以上我们对参数估计方法中收入分布函数的具体形式进行了总结。事实上由于国情有别,居民家庭收入的结构也有所不同。上述分布函数在拟合家庭收入分布方面所体现的特点,未必在拟合中国家庭的收入分布时也成立。为严谨起见,在后续的实证研究中,我们逐一采用现有的研究文献提及的分布函数,利用区间型数据进行收入分布研究。这些分布函数的具体表达形式见表1。
四、实证研究
1.关于数据
本文选用清华大学中国金融研究中心在2010年对全国地级以上城市居民家庭进行消费金融调查所收集的数据。调研涉及家庭的基本信息、理财行为、资产负债情况、收入和支出、投资和融资、家庭的住房、医疗和养老保险、家庭的遗产规划等内容。此次调研根据我国地级以上城市规模、经济发展水平的差异,调查将这些城市分为3类。即经济发达的城市,经济较发达的城市和经济发展水平一般的城市(廖理和张金宝,2010)。考虑我国地区间经济发展的不平衡,本次调查将全国的城市(不含港澳台地区)在地理位置上按东北、华北、华东、华南、华中、西南、西北7个大区进行划分,抽样家庭的样本数量在各大区之间根据家庭户数按比例分配。除华东地区每个类别的城市各遴选两个外,其余的各大区遴选的城市中,每类城市各包含一个,共计24个城市⑥。在每个抽取到的城市中,通过随机抽样的方式抽取居民居住的小区和访问家庭的样本。调研获得的数据基本满足随机性要求,基本反映我国地级以上城市家庭的经济和金融状况。
此次调研共收集5273个家庭的数据,其中家庭收入变量调查的是家庭的可支配收入,采用区间型的数据形式。剔除掉无效样本后,共获得5122个家庭收入的数据。调研将家庭收入x(单位:元)的取值范围划分成14个区间,区间划分点的向量表示为:
向量的第i个分量代表第i个区间的左端点,家庭收入落入每个区间的频数见表2。
2.关于样本和总体
表2给出的是调研样本数据的统计结果。也就是说,表2中计算的每个家庭落入相应区间的频率,并没有考虑样本家庭的代表性问题,为了以示区分,我们用来表示。实际上,在经济发达的城市、经济较发达的城市和经济发展水平一般的三类城市中,家庭经济状况的差异性是不一样的。经济发展水平较低的一类城市,家庭之间的经济差异也较小。这意味着通常调研时可以采用相对较小的样本数量来反映这类家庭的经济状况,同时也说明这类样本的代表性较强。
因此,当我们通过样本数据研究全国地级以上城市家庭的收入分布时,我们必须考虑抽样数据中每个样本家庭的代表性问题。我们定义落在第i区间的来自第j类城市的第k个家庭所代表的家庭数目为,则考虑样本家庭的代表性,对落在每个收入区间的家庭频数进行重新计算的公式为:
3.城市家庭收入分布状况分析
表4给出采用数值方法求解公式(12)后得出我国地级以上城市居民家庭收入分布和基尼系数的测算结果。在分布参数确定的情况下,我们也给出利用区间型的家庭收入数据对家庭平均收入的测算结果。从表4可以看出,Beta-Ⅱ型的分布函数描述地级以上城市家庭收入分布的效果最好,表示Beta-Ⅱ型的分布函数与实际调研结果的接近程度的指标SSE达到0.000838。这表明该分布描述城市家庭的收入分布,对调研获得的收入信息利用的最充分。据此测算的家庭平均收入为52884元,基尼系数为0.35062。Weibull分布和对数正态分布的效果略差些。Singh-Maddala分布、Gamma分布和Pareto分布的效果更差些,测算得出家庭收入均值和基尼系数参考意义不大。
为了深入研究各种概率分布函数描述家庭收入的特点,我们也考察表1中所列的各函数在描述家庭收入的低端、中端和高端时的表现。关于收入的低、中、高端的定义,目前并没有统一的标准。《中国城市(镇)生活与价格年鉴》将“收入最低的20%家庭的年收入的最大值”作为低端收入和中端收入的分界点,将“收入最高的20%家庭年收入的最小值”作为高端收入与中端收入的分界点。然而,区间型的家庭收入数据由于无法提供准确的收入信息,并不适合这种定义。为此,我们将第1、2、3个区间作为家庭收入分布的低端,将第4、5、6个区间作为家庭收入分布的中端,其余的第7~14个区间作为收入分布的高端。分属这3个区间的家庭数目依次占家庭总数的15.5%、74.5%、10%左右。用SSE_l、SSE_m、SSE_h这3个指标,分别表示给定的收入分布函数在低、中、高端收入部分与实际调研的结果的接近程度,与式(11)有所不同,我们给出的是相对意义上的定义,目的是为了放大3个指标的数值,更加便于比较。3个指标的定义见式(15):
由表4可以看出,Beta-Ⅱ型的分布函数整体上比较适合描述城市家庭的收入分布,这个结论与胡志军(2012)相似。但仔细分析表4的计算结果就会发现,它对家庭收入的高端部分的描述却并没有对数正态分布的效果好。同样,它对收入低端部分的描述也没有Weibull分布和Burr分布的表现好,说明用Beta-Ⅱ描述城市居民家庭的收入分布未必是最理想的选择。同时也说明不同概率分布函数在描述城市家庭收入分布不同区间段时,表现各有优劣。这个结果启示我们,若采用这些分布构成一个复合分布或许能够更好地描述我国城市家庭的收入分布。
4.利用复合分布描述我国城市居民家庭的收入分布
(1)复合概率分布的含义。考虑一种最简单的复合分布,即假定城市居民家庭收入的分布是由两个概率分布和复合而成:
从经济意义上说,式(16)实际上意味着在考虑城市居民家庭收入时,我们可以认为城市居民家庭来自两个子总体,λ、1-λ分别代表两个子总体占家庭总量的比重。当选定和 的具体形式后,我们仍然可以将式(16)代入到式(12)中,对城市居民家庭的收入分布做出估计。我们从表1所列的概率分布函数中,任选两个函数作为和,探索不同的复合分布描述城市居民家庭收入的效果,这样的组合共有个。限于篇幅,表5给出SSE排名前14位的复合分布描述城市居民家庭收入分布所得出的计算结果。
(2)复合概率分布描述城市家庭收入分布的测算结果。对比表4和表5的计算结果我们发现,利用复合分布能够显著提高描述城市家庭收入分布的精度。表5中的复合分布描述家庭收入分布的效果,均好于单一的概率分布函数形式。描述效果最好的Bu-Bu复合分布,能够将标准差提高到。这说明利用这种分布描述城市居民家庭的收入,损失的信息最小。究其原因,复合分布的参数多于单一的概率分布函数,这为描述家庭收入分布提供了更多的自由度⑨。从收入的角度看,也说明我国城市居民家庭群体的构成比较复杂。图1给出根据标准差最小的Bu-Bu组合分布绘出的我国城市居民家庭收入的洛伦兹曲线。
从表5中可以看出,表4中描述家庭收入效果并不好的概率分布函数(如Burr分函数、Sm分布函数),当它们与其他函数构成复合分布函数时,也能很好地描述城市家庭的收入分布函数。因此,在选择参加复合分布的函数时,切勿受到单一分布函数测算结果的干扰。
针对特定的复合分布,表5同样给出城市居民家庭收入的平均值和基尼系数的估计。理论上,区间的划分点和每个区间统计的频率,并不能完整刻画城市居民家庭的收入分布。这意味着,可能存在多个分布函数F(x)都能够在标准差最小的意义上,比较充分地描述城市居民家庭的收入分布。因此给定和,基尼系数的取值未必是唯一的。这正是由于区间型数据提供的信息不完全造成的。但在尝试多种分布进行测算以后,我们可以给出一个基尼系数的合理取值范围。比如,在标准差小于0.000210的条件下,我们可以推断城市居民家庭的基尼系数的合理范围为0.36267~0.38216之间。
图1 我国地级以上城市居民家庭收入的洛伦兹曲线(Bu-Bu)
需要说明的是,本文考察的是地级以上城市居民家庭的收入分布和基尼系数的大小,如果将地级以下城市(镇)的居民家庭考虑在内,则由于这些城市的居民收入相对更低一些,测算所得的基尼系数预计要高于本文测算的结果。同样道理,如果我们将农村的家庭收入放在一起考察的话,测算所得的基尼系数还要更高些。
5.关于本文测算精度的一个模拟实验
所测算的家庭收入的平均值的相对误差在0.02%~2.97%之间。针对利用区间中值代替家庭收入的方法,我们也进行模拟计算,发现该种方法测算的基尼系数的相对误差在0.61%~4.08%之间,所测算的家庭收入的平均误差为1.27%~5.57%之间。针对每次试验产生的随机数据,我们比较两种方法的精度,发现本文的方法所测算的基尼系数的精度平均高于中值替代方法1.09个百分点,平均收入的测算精度要平均高于中值替代方法1.86个百分点。这说明我们的方法要优于利用区间中值替代家庭收入的方法。
五、结论
收入的区间型数据是现在开展收入调查过程中越来越被普遍采用的数据类型。由于区间型数据的特点,利用它来进行收入分布研究时,只能先通过区间型数据来估计收入的分布,之后再行计算基尼系数等指标。同已有的研究相比,本文在以下几个方面进行新的尝试:第一,搜集汇总了现有的收入分布研究中采用的分布函数的具体形式,逐一考察了每种分布函数的估计误差,这在一定程度上避免我们在选择收入分布函数时的盲目性。同时,利用最小二乘方法研究了这些函数在描述家庭收入的不同阶段所表现出来的性质。第二,采用复合分布的方法来描述家庭的收入分布,通过尝试128种不同分布函数的组合形式,发现用两个Burr分布的组合描述我国城市居民家庭的收入分布效果最好。这说明复合分布的性能要优于单一函数,同时也说明我国城市居民家庭的群体组成具有一定的复杂性。第三,由于区间型数据的可靠性相对较高,利用它计算的收入分布和基尼系数有望具有较高的参考价值。利用清华大学消费金融的调研数据,实证测算所得的地级以上城市家庭的收入分布的基尼系数介于0.36267~0.38216之间,略高于胡志军(2012)、王亚峰(2012)对我国城镇居民收入的基尼系数的估计结果。考虑区间型数据的可靠性,这或许表明基于数值型数据或分组数据计算的基尼系数存在一定程度的低估。
在信息不完全的条件下,测算误差是难免的。理论上除非以下两个条件完全具备,否则不可能得出真实的基尼系数:一是对全部家庭的收入进行普查;二是全部家庭在普查过程中汇报的收入是真实的收入。但上述两个条件均很难满足,尤其是收入的真实性。而采用区间型的数据,能够在一定程度上提高收入信息的真实性和可靠性。通过本文的数值模拟试验,认为本文的测算精度是可以接受的,本文的探索将有助于提升区间型收入数据的研究价值,使通过调研获得的区间型数据得到更广泛的应用。
注释:
①如对数正态分布在描述家庭收入的低端部分拟合效果较好,而对高端收入部分拟合效果不好就是该原因。
②程永宏(2006)、金成武(2007)分别给出在连续分布和离散分布条件下,基尼系数按组分解的计算公式,但侧重于基尼系数分解的经济意义,并且前提是连续分布和离散分布均是已知的,这同样也不适合本文的区间型数据。
③极端的情况下,若家庭全部的收入来源于有风险投资或经营活动,有可能出现家庭收入小于0的情况,但这种情形较为少见。
⑨较多的参数提供更多的自由度,只是为更好地描述城市居民家庭收入分布提供可能,因为它还受到分布函数具体表达形式的限制。我们没有列出的复合分布,描述家庭收入分布的效果就没有单一的Beta-Ⅱ型的分布函数效果好。
⑩为简单起见,我们假定家庭样本的代表性无差异。