基于核密度估计的参保人员缴费基数核定方法研究,本文主要内容关键词为:基数论文,密度论文,参保论文,人员论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
背景
在国家发展的十二五规划中,一个关键的问题是建立和完善社会保险制度。基本养老保险是社会保险体制的一个主要组成部分。伴随着改革开放,我国养老保险已包括城镇企业职工基本养老保险、城镇居民基本养老保险、机关事业养老保险、农村养老保险等。从覆盖面、所涉及资金总量以及未来的城市化进程等角度考量,城镇企业职工基本养老保险是我国基本养老保险制度的核心,因此本文的研究重点为城镇企业职工基本养老保险(以下简称基本养老保险)。
为了适应改革需要并应对人口老龄化,我国基本养老保险制度的筹资模式采取“统帐结合”的部分积累制。基本养老保险基金的收入主要取决于缴费基数和缴费率。其中,基本养老保险缴费基数是指以基本养老保险费率计算用人单位和劳动者个人缴纳基本养老保险费时所依据的其支出或收入的金额标准[1]。可见,基数是计算参保人员和参保企业缴费的基准,也将最终影响到参保人员的养老金待遇。因此基本养老保险缴费基数的真实性不仅直接关系到劳动者的切身利益,更是直接影响社会养老保险基金收支平衡的重要因素[2]。2011年国家为此出台了专门的文件,强调要加强基本养老保险缴费的稽查审核力度①。
我国基本养老保险缴费基数一般分为单位缴费基数与个人缴费基数两类。其中,单位缴费基数与单位上年月平均工资有关;国发[1997]26号文及后继文件则规定个人缴费基数的确定方法:“职工本人一般以上一年度本人月平均工资为个人缴费工资基数。本人月平均工资低于当地职工平均工资60%的,按当地职工平均工资60%缴费;超过当地职工平均工资300%的,按当地月平均工资的300%缴费,超过部分不记入缴费工资基数,也不记入计发养老金的基数。”,即个人缴费基数的“保底封顶”原则。
在社会保险经办机构的实际业务执行中,单位缴费基数既可能与个人缴费基数存在严格的勾稽关系,即单位缴费基数等于该单位全部参保人员的个人缴费基数之和,俗称“单基数”;也可能仅存在较弱的关联,如仅限定单位缴费基数必须大于该单位全部参保人员的个人缴费基数之和,俗称“双基数”。无论单位缴费基数与个人缴费基数之间属于前述何种关系,个人缴费基数的准确核定都对单位缴费基数的核定有影响。
本文主要分析核定个人缴费基数真实程度的手段。现有的核定参保人员个人缴费基数真实性的办法主要分为两类,即基于计算机的核定方法与人工核定方法[3]。基于计算机的缴费基数核定方法主要是按照“保底封顶”原则将职工向社会保险经办机构申报的工资(亦称“申报工资”)核算为当地职工平均工资的60%-300%之间,核算后的结果被称为“缴费基数”,也有部分社保经办机构将其称为“缴费工资”。总的来看,这一核算手段比较粗糙,并不能从根本上杜绝参保人员缴费基数申报不实的现象。更细致的核定方法是考虑引入税务、银行账户等外部数据[4],从而进行大范围的计算机比对。但是客观上这些外部数据的获取非常困难,而且不同部门的工资统计口径也存在很大差异。基于人工手段的个人缴费基数核定方法虽然比较细致,但是在面对众多的参保人员时需要耗费的人力、物力极大,因此实践中通常采用抽样核定的方法,这使得缴费基数审核的覆盖面很小。
针对现有手段的缺欠,本文基于由海量数据获取的参保人员的缴费基数分布情况,借鉴其他保险中的方法,采用非参数核密度估计的方法拟合参保人员申报的工资分布,从而推算出全体参保人员的平均工资。由于参保人员的平均工资与当地职工平均工资应该存在统计上的关联,因此通过将推算出的平均工资与当地职工平均工资进行对比,就能够从宏观上刻画缴费基数的真实程度,从而为进一步精确地核查缴费基数提供了决策支持。
本文使用审计署获取的三个典型地区的真实的基本养老保险参保人员的缴费数据开展实验,参保人数累计为176874个,各地区详细情况见表1。其中,所获取的数据均为被审计社保经办机构提供的Oracle数据库备份文件,B、C地区的社保数据格式遵照人保部核心平台设计,A地区为自行设计。在数据采集过程中,上述数据均在全库恢复后,按照审计署社会保险审计数据标准转化为统一格式,其中仅将缴费基数为负数的数据作为噪音数据不纳入统计范围,噪音数据所占比例不足总数据量的1%,其他数据均按原始内容转换完成。后文统计得到的某地区参保缴费人员缴费基数分布,可以由人保部核心平台《基本养老保险个人应缴实缴明细信息表(IC01)》或审计署数据标准《养老保险个人应缴实缴明细信息(AGA31/0025)》统计得到。
本文其他部分的内容安排如下:第2部分介绍与缴费基数核定相关的研究现状,第3部分给出本文基于核密度估计的缴费基数核定方法,第4部分为实验与分析,第5部分总结全文。
相关研究现状
大多学者对缴费基数核定的研究集中从社会保险制度设计、工资总额的核定、企业逃费行为、政府稽核力度以及单位缴费费率等方面分析缴费基数不实的原因及其造成的影响。如陈英姿认为统计工资总额偏离职工实际收入是造成基本养老保险缴费基数不实的主要原因[5]。朱家立指出缴费基数不实的原因包括:统计工资总额偏离职工实际收入,费率及缴费基数的制定政策不合理,稽查审核力度不够以及宣传培训不到位[1]。不少学者还从博弈论的角度出发分析缴费工资偏离实际工资的行为原因。谢琴指出企业单位瞒报少报缴费基数的行为是与各种利益权衡博弈的结果[6]。陈英姿通过构建博弈模型分析指出虚假申报的概率和政府稽核力度负相关。马娟,吴俊培以及李雯铮等则认为造成企业缴费基数与实际工资总额不相符的一部分原因是养老保险费率偏高,而且这与企业的逃费行为之间已经形成一种恶性循环[7-9]。
对于缴费基数不实的影响部分学者也进行了详细剖析。如毛江萍[10]以浙江省为例,构建基本养老保险基金收支模型,说明单位缴费基数不实直接影响养老保险基金的收支平衡。谢琴分析指出在既定的费率水平下,基金总量与缴费基数存在正比例关系。通过实证分析还指出,我国目前的总费率太高已超过国际警戒数,且导致如此高的费率水平的一个最重要因素正是缴费基数不实。曹新文[11]指出缴费基数不仅直接关系社会保险费总量的大小,还决定缴费比例的确定。过高的缴费比例会导致社会保险覆盖率和征缴率的下降,保费流失现象加剧,欠费问题严峻。
相关学者提出的缴费基数稽核办法大多都从核定审查工资总额的角度出发,即针对企业缴费基数。如张明渊等[12]建议采用账面稽核法、旁征到算法、相关账户法、原始工资表抽查法等对养老保险的企业缴费基数进行核查。一部分学者还建议从正确界定工资收入出发,来做实缴费基数。如曹新文通过分析相关政策和规定,明确说明了缴费基数计算所涉及的工资总额等参数。
此外,核密度估计作为一种典型的非参数估计方法已经在社会保险、健康保险等相关领域的研究中得到了应用。例如,基于核密度估计计算筹资比例的尝试[23,24],对医疗保险损失的非参数估计[25]等。但是,基于海量的基本养老保险数据库数据,利用核密度估计方法评估缴费基数真实性的研究较为稀少。
缴费基数核定
由于个人缴费基数的核定对单位缴费基数的核定有较大影响,因此本文主要分析核定个人缴费基数真实程度的手段。据此,也可以评价单位缴费基数的真实程度。
1、个人缴费基数分布特征
由于参保人员作为企业职工及灵活就业人员是我国在岗职工平均工资统计的重要组成部分,因此全体参保人员的申报工资的分布形态应当与我国居民收入的分布形态类似。目前较统一的观点认为:我国居民的收入分布形态呈现钟型分布。其中,主流认识是以徐振斌分布曲线为代表的单峰钟型分布形态,但是我国还处于少数先富与贫穷式两极分化的阶段,所以其收入分布呈现左偏形态[13],如图1所示。如果参保人员的申报工资符合图1所示的分布形态,则参保人员的个人缴费基数分布应呈现左偏形态的“蝠形”分布,如图2所示(图中横坐标为缴费基数(元),纵坐标为人数)。
实际操作中,每个参保人员的申报工资和根据“保底封顶”原则获得的参保人员缴费基数都是一系列的离散数据,每个参保人员的缴费基数按从小到大排列可记为其中n为参保人数。
离散的缴费基数数据集不能直接反映其分布形态,为此本文采用频率直方图的形式表示海量的离散型数据,以突出样本分布的特点。并以冲淡样本的随机波动为原则,根据经验选取直方图的组距为100,即从0开始每个100元作为一个统计区间比,如0-99,100-199等。通过计算数据的全距来确定分组的个数M=R/100。
图1 我国收入分布的左偏形态
按照上述方法分析A、B、C三地参保人员缴费基数的分布形态,结果表明:由于不同地区的经济发展水平存在明显差异,且部分地区经济发展水平相对较低,导致缴费基数分布形态除了呈现“蝠形”外,还呈现“半月形”。如图3和图4为地区A和地区B的缴费基数分布直方图。其中地区A为“蝠形”;地区B为“半月形”,且现实情况下地区B的人员收入普遍低于其当地的职工平均工资。
图3 地区A缴费基数的“蝠形”分布
2、基于非参数核密度估计拟合工资分布
本文根据前述个人缴费基数的频率直方图拟合参保人员申报工资的分布,从而为精确比较申报工资分布与当地职工工资分布的差异奠定基础。
由公式(1)可知参保人员缴费基数与其申报工资间存在着“保底封顶”的换算关系,所以将缴费基数“底”和“顶”的部分还原为原始申报工资分布是拟合的关键。例如,大量的申报工资低于当地职工平均工资的参保人员,其缴费基数经过“保底”核定后,将全部等于。根据这一结果计算的这部分参保人群的平均工资将偏高。
由于我国不同地区的缴费基数分布和工资分布形态各异,没有固定的分布函数关系,本文采用非参数核密度估计的方法进行拟合。
非参数核密度估计方法由于不需要预先确定变量间的函数关系,对计量经济模型的估计和预测提供了多方面和灵活机动的表现形式。在社会保险的相关研究中也有应用,参见前文相关研究现状。当采用核密度估计方法估算某一事物的概率分布情况时,若某一数在该事物的观察数据集中出现了,则该数处的概率密度较大。同时距离该数越近概率密度越大,这样便会有一组“远小近大”概率密度估计值,而对这组值的求和平均便是估计的该数处的概率密度值。比如一个地区不同人员的缴费基数数据集,标准的核密度估计形式如下:
其中,x为缴费基数;K(·)是“核函数”,核函数的形状和值域控制着用来估计x处的人数频率f(x)时所使用数据点的个数和利用程度。是对一组由核函数和缴费基数计算得到的f(x)的平均,表示任意缴费基数x处的人数占总人数的频率。
核密度估计的效果依赖于核函数和带宽h的选取。常用的核函数包括Uniform,Epanechnikov,Gaussian和Triangle。一般来说,核函数的选取对核密度估计的影响远小于带宽h的选取[14]。而且,在大样本的情况下,非参数估计对核的选择并不敏感,而窗宽h的选择对估计的效果影响较大[15]。
3、基于申报工资分布推算参保人员平均工资
本文根据参保人员申报工资的分布,推算全体参保人员的平均工资,通过与当地职工平均工资的比较,从宏观上核定全体参保人员缴费基数的真实性。
实验与分析
本文使用三个典型地区的176874个基本养老保险参保人员的缴费数据开展实验,部分实验结果只以地区A和B展开说明。结果表明:一些地区参保人员普遍存在缴费基数不实的情况。
实验中对不同核函数和不同窗宽下的拟合效果进行详细对比,表明选用高斯核函数的估计效果最好,且计算所得的拟合效果也最优。由于在经济发展的理想情况下工资分布呈正态分布,实验也利用正态分布函数进行了拟合,与核密度估计进行对比,结果显示核密度估计所得到的分布曲线能更真实的反映出我国目前经济发展状况下基本养老保险参保人员的缴费基数分布特征。如图7和图8为不同核函数下的估计结果,其中实线为Gaussian估计效果,不同形态虚线分别代表Uniform、Triangle、Epanechnikov的估计效果。如图5和图6为正态分布函数的估计结果,图中实线为高斯(Gaussian)核密度估计曲线,虚线为正态分布估计曲线。如图9和图10为基于高斯(Gaussian)核函数的不同窗宽下的拟合结果。由图9可知,对于地区A窗宽=116.84是最平滑的、最能反映真实的分布;相反当=50或=180时估计所得的曲线中噪声很多。同样,地区B当窗宽=39.83时曲线估计和拟合的效果最佳。三个地区计算所得的最佳窗宽值见表2。
图9 地区A不同窗宽下收入分布的高斯核密度估计
图10 地区B不同窗宽下收入分布的高斯核密度估计
实验拟合出的工资分布曲线也验证了上文所述的我国收入分布现状,可知我国收入分布呈现左偏态分布,并且具有右拖尾的性质。如图5、6、11分别为地区A、B和C的最终拟合得到的工资分布。图中曲线上的点为推算参保人员的平均工资时选取的一系列均匀分布的离散数据点,竖线为对应地区的职工平均工资。各地区推算得到的平均工资和缴费基数核定结果见表3。其中,地区B和地区c的参保人员普遍存在缴费基数不实的情况。地区A推算的参保人员平均工资比当地职工平均工资高,符合数据体现的实际情况,该地区缴费基数高于当地职工平均工资的参保人数约为总参保人数的61%,参见图5。参保人员缴费基数较高则是由于该地区参保企业类型以及相关政策等实际客观原因造成的。地区A为我国西北高寒地区,其私营经济发展水平较低,使得当地非国有企业职工平均工资较低。同时,分析A地区真实的基本养老保险数据显示,该地区参保人员多为当地国有大中型企业员工,占总人数的69%左右,其收入高于当地平均水平。这使得推算的参保人员平均工资比当地职工平均工资高。
图11 地区C2006年工资分布曲线
结论
基于核密度估计的缴费基数核定方法,能够在一定程度上克服现有计算机手段核定方法的粗糙性,在不引入外部数据的情况下量化地对参保人员的缴费基数真实性的总体情况进行稽核。该方法借助计算机手段,为人工核定工作给出指导性建议,有助于提高稽核工作的效率。
针对3个地区的实际数据的分析表明,部分地区基本养老保险个人缴费基数存在明显的少报缴费基数的现象。这种现象通过本文的方法能够量化的刻画,但是它对基本养老保险金会产生什么样的影响、产生多大的影响,将是下一步研究的重点。未来的工作力图量化的度量缴费基数不实所造成的影响。
收稿日期:2012-01-10
注释:
①人力资源和社会保障部,《社会保险费申报缴纳管理规定(草案)》,2011-11-15。
标签:职工平均工资论文; 机关事业单位养老保险论文; 社会保险论文; 缴费平台论文; 基本养老保险论文; 数据拟合论文;