我国职工工资收入分布函数的模拟与估计,本文主要内容关键词为:函数论文,工资收入论文,职工论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:O242.1∶F244.2
引言
在宏观经济的实证研究中,收入分配的研究有着重要的意义。收入分配作为宏观经济运行过程的一个中间环节,既受制于生产,体现其属性,又影响甚至决定社会总需求的形成。社会总需求的总量与结构是否与生产的规模及其产业结构相吻合是宏观经济健康、持续发展的根本。在我国的收入分配结构中,居民部门所占的比例越来越大,居民收入结构对我国社会总需求的形成的影响作用也越来越大。职工工资收入是居民所得收入的一个重要组成部分。数据资料也相对比较全面,比较完整。本文拟对其分布状况作一分析。
一、数据来源及基本分析
目前能够公开获得的最新、最详细的有关我国职工工资收入分配状况的资料是《中国统计年鉴》(1999)上的5~20 (分细行业职工平均工资)、5~7(分登记注册类型和细行业职工人数)。年鉴将整个国民经济按照细行业分成68类(其中采掘业、电力、煤气及水的生产和供应业没有进一步细分,在此将其当细分的行业看待),每一类按其经济属性又分为国有、城镇集体、其它三种,这样一共有204对数据,去掉20 个缺失值,有效数据184个。其基本情况如表1。
表1
类型 最小值 0.25分位点中位数 均值
平均收入(元)
3351 6654 8536
9115
职工人数(万元) 0.1 1.1 6.372.54
类型 0.75分位点最大值
平均收入(元)1046020118
职工人数(万元) 37.97
1882.8
从表1中可见,无论是平均工资收入还是行业职工人数, 行业之间的差距很大。城镇集体林业人均收入最低(3351元),信息咨询服务业人均工资收入最高(20188元);国有制造就业人数最多(1882.8 万人),其它水利管理业职工人数最小(0.1万人)。 由于描述职工工资收入分布也就是考虑在不同工资水平上的职工人数分布。而要获得对它的准确估计严格来说需要全体职工的工资收入数据,显然仅有行业数据是不够的。众所周知,在我国的许多行业内部的职工工资收入差距比行业之间的差距还要大。因此,怎样综合年鉴上所提供的行业职工收入分配数据与我们对行业内分配状况的经验性了解获得一个全国职工工资收入分配数据是我们职工工资收入分布函数分析的数据基础。为此,先利用年鉴上的数据从整体上来对行业的平均工资及职工人数的分布做一分析。图1与图2是在S-plus上分别用非参数方法估计的我国职工工资的分布密度(没有考虑行业人数差别)与考虑到行业人数差别后的收入分布函数。图1显示我国职工平均工资数据近似呈正态分布, 但在右尾衰减较慢、拖着一个小尾;而图2 把不同平均工资水平的职人数作为频数考虑进去,所得我国职工平均工资的分布函数则明显分成两段,大概在1 万元以下,其分布概是直线上升;在1万元以上分布概率的增长趋缓。 这个分界点处的累积概率大约是0.8左右,这说明大约有20 %的人收入在万元以上,最高收入在2万元左右,因此,前段分布曲线较陡, 后段分布曲线较缓,这在直观上进一步显示在考虑了不同收入组人数后,我国职工平均工资可能并不是正态分布,而是呈某一偏态分布,并且是左偏,即均值出现在中位数的右边,也就是说我国大多的职工在中低收入行业就业。当然这两个图仅仅从直观上传递了同样的信息:我国职工工资收入应该是服从一偏态分布的。进一步的证明需要通过对平均工资、职工人数数据作出统计检验。检验结果如表2。
表2
检验值 偏度系数峰度系数显著水平偏度检验 峰度检验
X1 1.0229171.057478 0.05不通过不通过
X2 5.39939433.77228 0.05不通过不通过
log(x1) 0.040777-0.23173 0.05 通过 通过
log(x2) 0.088296-0.63821 0.05 通过 通过
注:X[,1],X[,2]分别为平均工资收入、职工人数,log (·)分别为它们的自然对数;偏度系数、峰度系数的计算见文献[1]。
表2的检验结果说明平均收入与职工人数数据不服从正态分布, 但均能够通过对数正态检验。由此可以肯定,无论是平均工资还是职工人数均是偏态分布,也就是说大部分职工的工资收入是偏低的。职工收入分布函数是这两个分布的组合,直观上其也应是一偏态进行分析,当然由于并未对全部职工工资数据分布,要是用对数正态分布去拟合显然是过于武断了。由于只用平均工资来代替行业的职工工资水平,会消除掉行业内部职工工资收入水平的差别,而众所周知的现实是:行业内职工工资水平差异也是很大的。因此以下尝试采用随机模拟的方法来生成每一个职工的工资数据,以利用我们对工资收入分配的经验信息来弥补年鉴上所提供的数据过去总括的缺点,从而满足分析的需要。
二、职工工资数据的模拟与分析
在模拟职工工资数据之前,凭经验假设(注:这里所采用的假设,可以看成是一种先验信息,所有的假定在作者看来应该是符合我们对行业内职工工资分配实际情况的观察的。但由于本文测重于讨论方法,因此,经验信息的准确性不是最关键的,事实上如何利用先验信息补充样本所提供信息的不足,这是本文在分布函数估计方法上试图要说明的一个问题。有时我们可以利用上年的分析结果作为先验信息,有时可以利用其它有关行业内收入分配的研究结果。):(1 )在每一个行业内部大多数职工的工资收入是分布在平均工资左右,只有少部分职工的工资偏离平均工资较大。由于平均工资处于或近似处于工资收入分布的中心位置,因此可以认为行业职工工资数据中存在大部分的点是服从某一正态分布的,而其它的点则偏离正态分布,从而使得整个分布呈偏态,如果这些其余的数据点往左偏,则总体分布是一个左偏的。根据这一经验假定,本文采用在正态分布的基础上加上一些随机冲击来模拟我国职工工资收入。(2 )由于用以上模拟方法产生的数据是定义在整个实数轴上的,而经验表明所有职工的工资收入的波动幅度是有一个限度的,不可能无限小,也不可能无限大,对于波动幅度的大小也不防可以这样主观地认为:这个波动幅度是与行业的平均工资水平呈正相关的,即平均工资水平越高的行业,其职工工资的波动幅度越大,也就是说行业平均收入越低,工资收入的极差也越小。这假设要求在模拟中让分布的方差正比于行业的平均工资,并且对模拟出来的数据截尾。
基于以上假定,利用年鉴上所提供的数据,可以用S-plus语言编写程序,模拟生成全部职工工资数据。下图便是用生成的数据画出的概率密度图。其中图3与图4是由在不同参数下生成的数据,运用非参数方法估计出密度后(取估计密度的点为60个)所画。图3 是在模拟数据时假定每一行业的工资数据点有30%受到随机冲击,其中向上与向下冲击各为15%,即认为每一行业有70%的人其工资收入是服从以平均工资为中心的正态分布的;图4把这些参数假定为10%。图5是在用已知的伽玛分布随机生成的数据的基础上,同样运用非参数方法作出的数据概率图;图6是对应图4的分布函数图。从图3至图6可以看出:(1 )对于不同的参数取值,模拟出来的职工工资收入数据比较接近于伽玛分布, 即图3、图4和图5非常相似。(2 )由模拟出来的数据所绘出的分布函数图与图2还是存在一定差别,模拟数据的密度(即图3、图4 )有一个很长的尾巴,这与在模拟时截尾的经验假设有关(即假设每一行业中职工最低工资不低于平均工资的三分之一、最高不超过平均工资的三倍),当然如果这些假设是合理的,则做这种模拟是有利于补充总括性统计数据所省略了的信息的。
三、收入分布函数的估计
模拟出来的数据到底服从什么分布?是否还象行业平均工资一样服从对数正态呢?利用与表2完全一样的检验, 模拟数据不能够通过检验。显然由于模拟加入了一些经验信息,已经使得分布函数改变。 从图5凭直觉不难猜测模拟数据可能服从伽玛分布,这种猜测被进一步的统计检验证实。下表是分别假设拟出的数据服从伽玛分布、F 分布所计算的一些统计量,其中skewness、kurtosis是利用样本计算的统计量,r1、r2是利用样本数据先估计出(利用矩估计)参数m(raf)、n(beta )后,按照理论公式计算出的偏度与峰度,如果分布假设成立,则利用这二种方法所计算出的峰度、偏度统计量就不应该有太大的差异,否则,则拒绝分布假设。
表3显示Gamma分布能够通过关于峰度、偏度的统计检验,而F 分布则被拒绝。因此根据以上所做的数据模拟与对比分析的结果,基本可以认定我国职工工资收入是服从一伽玛分布的。事实上这种数据模拟的结果也与国内外一些学者利用详细资料所做的收入分别用Gamma 分布拟合过美国个人收入分布,唐国兴、郑绍濂也用该分布拟合过上海市500 户家庭1980年4季度月收入分布[2]。
由于分布函数与概率密度函数是等价的,因此估计职工工资收入分布函数也等价于估计其概率密度函数。 已知伽玛分布其密度函数为:P(x;a,λ)=λ[a]x[a-1]e[-λx]/Г(a)。对于参数a,λ,可以利用非线性回归估计其值。但由于非线性回归估计效果不佳(初值依赖性太强),这里利用模拟出来的数据作矩估计。
因为对于伽玛分布有:E(x)=a/λ,Var(x)=a/λ[2], 所以λ=E(x)/Var(x),a=λ·E(x)。 利用模拟出的数据抽样估计出参数值λ、a如表4。
从表4知λ的取值大约在0.00056、a的取值大约在4.6~4.7。 尽管表4中似乎有参数值随样本的增大而增加的迹象,但进一步的模拟, 说明参数取值还是比较稳定的。当样本为1500时参数取值分别为0.0005741518、4.764386,当样本数为1200时参数值为0.0005374353、4.459708,可见参数值大致在前述值附近摆动,因此可以认为λ、a取值0.00056、4.6~4.7是较合理的。
表3
分布 m(raf) n(beta)r1 r2
Gamma 4.49198
0.000540.94365 1.33571
F -0.00019
2.000241,64776 0.71498
分布 skewness kurtosis检验
Gamma 1.12407 2.526429通过
F1.12407 2.526429不通过
注:r1,r2及分布的计算见文献[3];skewness,burtosis 的计算见文献[4]。
表4
样本数λ a
最小值
均值 最大值
100
0.0003939603 3.280776
19878328 24730
200
0.0005642219 4.697356
19018325 19960
500
0.0005323812 4.434676
19488330 35710
1000
0.0005618280 4.4676667 19138324 24730
12000.000576271 4.781984
14988298 25190
四、结论
收入分布函数在收入分配的数量研究中有着非常重要的作用,有了收入分布函数,不仅对收入分配结构了如指掌,同时也为进一步研究社会消费需求、储蓄等经济问题提供了一个分析基础。由于现有统计资料的特点使得估计收入分布函数存在数据信息不足的困难,本文所尝试的随机模拟方法综合利用统计资料所提供的信息与某些经验性的信息,力图在一定程度上克服这一困难。通过数据的生成,估计了1998年我国职工工资收入分布函数。数据分析的结果显示,我国职工工资收入服从伽玛分布,这种收入分配结构基本是符合我国实际的:大部分职工工资收入偏低,年收入在1万元左右者占多数, 同时工资收入的跨度也随着收入分配制度的改革与民营经济、外资经济的发展在变大。统计资料未能很好地反映这一情况,引入经验信息的模拟数据更好地反映了这一实际情况。从前面对行业数据的分析中可知:职工收入分布函数是两个对数正态分布的组合,从数理上也不难推得这个组合分布在形状上与伽玛分布是非常相似的,因此用伽玛分布来描述我国职工工资收入的分布基本上是忠于统计数据所反映的信息的,估计结果基本可以接受。