个人信用评价影响因素决策分析,本文主要内容关键词为:信用评价论文,因素论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
个人消费信贷在我国迅速发展,对拉动经济增长起到了一定的促进作用。但其中也隐藏着很大的潜在风险,即信贷资产不能及时有效地收回。因此,亟须建立完善的个人信用体系,使得商业银行在放贷前就能够对贷款申请人的信用做出有效的评估,从而降低信贷风险。通过建立数学模型,对申请人的信用进行预测,是常用的一种信用评价方法。目前广泛应用的方法主要有两大类:统计分析方法和机器学习方法[1]。当然,也有学者将多种方法加权组合进行预测[2]。机器学习方法虽然预测精度较高,但稳健性差,且建模过程基本上是一个“黑箱”,模型的解释性不强;统计分析方法则在稳健性和模型可解释性上有其自身的优势。统计分析方法中,学者最关注的是logistic模型,其计算简单、预测精度高、模型解释能力强[3]。国内外许多学者对个人信用评价方法进行了许多有益的探讨,但对信用评价影响因素的讨论并不多见。本文将通过logistic模型,对影响个人信用评价的因素进行探讨。 二、数据及预处理 (一)数据来源 本文数据选用的是德国某银行的个人信贷数据集合[4-5]。该数据集中有1000条记录,21个字段。其中前20个字段为信贷申请人的个人特征描述(表1),最后1个字段是银行对客户信用级别的定义:0为“差客户”,1为“好客户”。数据集中信用差客户与好客户的数量比为3:7。在信用“差客户”和“好客户”中分别随机抽取80%用以建立模型,剩余20%用来验证。 (二)共线性检测 拟合logistic模型时,与多元线性回归一样,对自变量中存在多元共线性很敏感[6-7]。在建立模型前,首先对数据做共线性诊断,结果(表2)可见,最大的VIF值为2.299,表明共线性不明显。 (三)数据不平衡处理 当数据存在不平衡问题时,稀有类的识别率远远低于大类,使得分析结果具有很大的偏向性[8]。个人信用评价将信贷申请人评判为“差客户”和“好客户”,而真实数据中“差客户”数量比“好客户”要少得多。信用评价模型将真正的“差客户”误判为“好客户”的错误称为A类错误,将真正的“好客户”误判为“差客户”的错误称为B错误。建模过程中,在保证整体判别准确率的前提下,应尽量减少A类错误,因为犯A类错误比B类错误的代价更大,这样做可以降低信贷违约率[5]。 本文所用数据集中信用“差客户”与“好客户”的数量比为3:7,数据不平衡比较明显,如果不对原始数据进行处理,将更倾向于犯A类错误。为了降低数据不平衡对分析结果造成的影响。采用Random Oversampling方法[8]在信用“差客户”中生成200条记录参与建立模型。 三、信用评价影响因素分析 (一)logistic模型的建立 通过SPSS 21软件建立logistic模型,变量选择采用FSTEP(WALD),得: Logistic模型对数据集的预测结果(表3)表明:模型对训练集总体预测准确率达到73%,相对于未经过不平衡处理的训练集而言,总体预测准确率相差不大,但犯A类错误的机会由60%有效地降低为29.6%,尽管犯B类错误的机会有所提高,但符合“保证整体判别准确率的前提下尽量减少A类错误”的要求[5]。对测试集的总体预测准确率也高达76%。说明建立的logistic模型是合适的。 (二)标准化回归系数 由于自变量的度量尺度不同,在比较因变量与不同自变量之间关系的强度时,通常采用标准化回归系数[6,9]。在logistic回归中,标准化回归系数的计算较为复杂,可以根据估计的logit和模型的类来间接计算其标准化回归系数[6]: (三)决策分析 本文结合德国银行的信贷数据,首先利用Random Oversampling方法克服了数据不平衡性带来的问题,通过共线性检测后,建立了标准化的logistic回归模型。 Logistic模型的标准化回归系数(表4)只是反映了对logit的直接决定作用,没有考虑到通过其与的相关对logit的间接决定作用。而决策系数则综合考虑了这两个因素的共同影响。通过决策系数(表5)可见,该银行对信贷申请人进行审核时,对个人特征关注的顺序为:现有账户额、信贷期限、储蓄存款账户额、贷款金额、信贷历史记录、是否外国籍、现任工作时间、个人身份和性别、资产、年龄、分期付款金额占可支配收入的比率、其他分期付款计划。个人信用评价影响因素的决策分析_个人信用论文
个人信用评价影响因素的决策分析_个人信用论文
下载Doc文档