用统计方法建立消费信贷评分模型_信用评分模型论文

利用统计学方法建立消费信贷评分模型,本文主要内容关键词为:统计学论文,消费信贷论文,模型论文,评分论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:F222.1文献标识码:A

信用评分通常定义为一种统计或定量方法,用于预测贷款申请者或现存借款人将发生违约或拖欠的概率。信用评分的目的是帮助信用提供者量化和管理包含在提供信用中的金融风险,简化信用评价过程中人工干预的必要以及分发信用的成本。凭借信用评分的帮助,金融机构在很短时间里能够量化提供特别申请者与信用关联的风险。在最近几年里,金融机构使用信用评分主要是针对贷款申请作出信用决策。信用评分最为普及的应用是在贷款申请中进行信用决策。信用评分模型同样也适用于保险行业中(例如抵押以及汽车保险)。随着中国经济的快速发展,住房按揭、汽车贷款、教育贷款、信用卡等各种消费贷款的规模在逐渐扩大,但由于目前国内商业银行缺乏一套有效的个人信用评分方法,从而阻碍了个人消费信贷业务的进一步发展。本文的目的就是利用统计学的方法建立基本的个人消费信贷信用评分模型。

一、消费者贷款的风险评估原则

基于消费者贷款的特性,可归纳成以下四点评估因素:偿债能力因素、稳定性因素、还款意愿因素、债权保障因素。

一是偿债能力因素。包括对于个人持续性所得净额、负债以及可供偿债的所得净额与应还债务间的比率。二是稳定性因素。系指个人的职业状况、居住状况、个人状况。三是还款意愿因素。顾客是否具有运用所得以偿还借款的能力与意愿,过去的还款纪录可作为良好的指针。四是债权保障因素。对于金额较大个案或政策较为保守稳健时,大都采取物保,必要时再征取人保。金额较小的消费者贷款,债权保障则以人保为原则。

本文只针对个人消费性贷款,因此在消费者贷款的风险评估原则中,只就前面三点因素作说明,债权保障因素并不在本文考虑范围内。

二、信用评分模型构建原理

(一)信用评分建模的基本流程

信用评分是将现有客户中有关信用风险评估因素的资料,搜集为一个信用数据库,利用相关的统计方法,建立信用评分模型,以此模型筛选客户,并将核准贷款客户数据记录在系统中,持续观察客户贷款发放后的行为,以回馈模式,提高模型的预测能力(如图1,图略,见原文)。

构建信用评分模型的方法通常包含了以下过程:首先,选择一个以前客户的样本并且将他们分为好与坏,主要由既定时间内的支付能力来确定;然后,从贷款用户、个人或商业信用记录以及可获得其他不同资源那里收集数据;最后,将统计或其他定量的分析方法应用到这些数据上,产生信用评分模型。这一模型将包含应用到不同个体用户变量(或属性)上的权重以及分割点。应用到单个用户或客户变量权重的总和构成了信用得分。分离点确定了是否这个用户或客户应该被分类为好的还是坏的。更为准确与具体的是伴随分类的概率同样也可以生成。需要注意的是,对于不同数据的细分将构建成不同的模型。

(二)信用评分模型的变量分析

本文以国内某金融机构三家分行为研究对象,以2000年、2001年、2002年放贷个人信用贷款案件为抽样母体,三家分行各抽取正常户150件合计450件,逾期还款违约户三家分行各抽取75件合计225件(违约户是以延滞缴纳本息180天以上的逾期案件,包含已经转销呆帐案件)。

样本数据中,在自变量上将借款户的型态(Z)分为二类,以数字0代表正常缴款借款户,以数字1代表延滞本息缴款180天借款户。在解释变量上,共有年龄(X1)、性别(X2)、学历(X3)、婚姻状态(X4)、职业别(X5)、扶养人数(X6)、还款能力(X7)、信用卡张数(X8)、金融机构查询联征家数(X9)等9种,并假设各解释变量情况如下:

(1)评估借款人的偿债能力的变量为:性别(X2)、抚养人数(X6)、还款能力(X7)。

(2)评估借款人的稳定性的变量为:年龄(X1)、学历(X3)、婚姻状态(X4)、职业(X5)。

(3)评估借款人的还款意愿的变量为:性别(X2)、信用卡张数(X8)、金融机构查询联征家数(X9),所得原始资料分类(如表1)。

表1

代号 变量名称 可能值 说明

Z 借户 0,1

0:正常,1:违约

X1年龄 0,1,20:26~35,1:36~45,2:20~25及46以上

X2性别 0,1

0:男,1:女

X3学历 0,1,20:大学以上,1:专科,2:其他

X4抚养人数 0~0,1,2,3,……

X5职业 0,1,2,…… 0:公务员,医生等,1:企业,2:个体业主

X6婚姻状态 0,1,20:已婚,1:未婚,2:离婚

X7还款能力 0,1,2,3 0:0~0.1,1:0.111~0.2,0.21~0.3,3:0,3以上

X8信用卡0,1,20:0~2,1:3~4,2:4以上

X9查询家数 0~0,1,2,3……

三、信用评分模型统计方法的数学表示

本文以因子分析提取变量进行Logistic模型分析,下面对其数学模型进行描述。

(一)因子分析

因子分析的主要目的是在将一群相关的变量缩减为少数相互独立的因素中,以较少的变量来表示原先的数据结构,而又能保存住原有数据结构所提供的大部份信息。因子分析假设样本单位在某一变量上的反应是由二个部份组成,一个是各变量共有的部份,称为共同因素;另一个是各变数所独有部份,称为独特因素。独特因素与共同因素和其它因素均无关联。在进行因子分析之前,应先确定各变量观察值间是否具有共同变异存在,如此再进一步作因子分析。

(二)Logistic模型

Logistic模型的基本型式是二分类变量(如成功与失败、赞成与反对),或是多分类变数(如高级、次级、低级),本文使用的是二分类变量,0和1分别代表缴息正常与缴息异常。

Logistic模型是假设事件发生机率服从标准Logistic的累积概率分布

如果是无法观测的隐藏变量,那么就可以对应到一个可观测变量,而且为二分类变量:

则上式可表达为:

由于为非线性函数,故须以反复过程求得B,一直进行到B收敛到获得似然函数最大值为止。

(四)模型检验

由上述方法求得的系数Bi带入式(4)后是否理想,可以利用其似然比统计值-2LogLikelihood(简称-2LL)来评估,其中一个模式(L0)只含截矩项,另一个模式(L1)则包含所要进入的解释变量和截矩项,比较两个模式-2LL的差异,其差距用G表示:

G=-2log(L[,0]/L[,1])

=-2(logL[,0]-logL[,1])

=-2logL[,0]-(-2logL[,1])

=-2LL[,0]-(-2LL)……x[2][(s+1)-1](8)

其中-2LL[,0]指截距项不为0,其它所有参数均为0时,函数最大值并服从自由度为1的x[2]分布;-2LL1则是模型中所有参数均存在时(包含截距项),函数最大值并服从自由度为S+1的x[2]分布(S为自变数个数);因此当二者差距G(服从自由度为S的x[2]分布)大于相应x[2]临界值,表示模型配合适宜。

四、Logistic模型实证分析

将因子分析后所得七个因子:性别(X2)、学历(X3)、扶养人数(X4)、职业别(X5)、婚姻(X6)、信用卡(X8)、查询金融机构家数(X9)。利用SPPS统计软件包中Logistic程序建立模型,以0.5为内设值区分正常户与违约户,小于0.5为正常户;反之,为违约户。其中-2LL的差异为141.934,大于相应x[2]临界值,表示模式配合适宜,得出显著变量为性别(X2)、学历(X3)、职业(X5)、婚姻(X6)、查询金融机构家数(X9),其Wald值大于相应x[2]临界值。

因此Logistic函数为:Logit(P)=-2.7567-0.7571X2+0.3685X3+0.6637X5+0.4803X6+0.5811X9即:

Logit(P)=-2.7567-0.7571性别+0.3685学历+0.6637职业+0.4803

婚姻+0.5811查询金融机构家数而函数中以性别、职业、查询金融机构家数对逾期放款的影响较大,学历、婚姻对逾期放款的影响较小(如表2)。

表2

变量 β 标准差 Wald P值

性别 -0.7571

0.208513.18820.0003*

学历 0.36850.11979.4797 0.0021*

抚养人数 0.06440.09640.4463 0.5041

职业别0.66370.083962.61060*

婚姻 0.48030.17307.7050 0.0055*

信用卡张数0.14870.09942.2377 0.1347

查询金融机构家数 0.58110.114925.59860*

截距项-2.7567

0.307280.51440

经由Logistic分析分类结果,模型预测结果与实际观察现象相符者共有496个,准确率为73.5%,其中对于正常户预测能力为88.9%,对于违约户预测能力为42.7%。另外,发生型Ⅰ误差机率为57.3%,型Ⅱ误差机率为11.1%。

五、信用评分表的建立

首先将模型中变量系数取绝对值后加总,计算各变量的比率权数,然后将各比率权数乘以95分(假设总分100分,将剩余5分作为审核人员弹性加分)算出信用评分分数。将各变量信用分数分配于各个种类,并以原始资料测试,逐步调整各个种类信用分数,达到最适状态。信用评分表中正常户平均分数为71分,违约户平均分数为63分,若以信用评分70分为准则,在70分(含)以上借款人即核准其贷款申请;反之,70分以下借款人驳回其贷款申请,预测结果与实际观察现象相符者共有456个,准确率为67.6%,其中对于正常户预测能力为61.6%,对于违约户预测能力为79.6%。若以信用评分65分为准则,65分(含)以上借款人即核准其贷款申请;反之,65分以下即驳回其贷款申请,预测结果与实际观察现象相符者共有515个,准确率为76.3%,其中对于正常户预测能力为83.1%,对于违约户预测能力为62.7%。另外,发生型Ⅰ误差机率为37.3%,型Ⅱ误差机率为16.9%。采用信用评分70分,准确率比采用信用评分65分准确率低,但因评核分数较高,所以造成型Ⅰ误差的机率较低,这样会将某些正常户婉拒,造成型Ⅱ误差的机率偏高;另外,采用信用评分65分,准确率虽然比较高,但其型Ⅰ误差的机率偏高,易使逾期放款增加。

随着计算机技术的发展,统计学方法已逐渐被用于信用评分模型的构建。一些较早建立的信用评分模型一般都使用判别分析技术,但是判别分析需要相当严格的统计假设,这些假设在实际生活中是很少能够满足的,故Logistic回归被推荐为判别分析的替代方法。近年来决策树方法、神经网络也被逐渐采用,只是目前这些技术尚处于起步阶段,还有很多不足。相对而言,统计学的方法可以得到很好的应用。

(摘自《经济与管理》(石家庄),2005.4)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

用统计方法建立消费信贷评分模型_信用评分模型论文
下载Doc文档

猜你喜欢