商业银行Logistic违约概率模型的样本配比问题研究,本文主要内容关键词为:商业银行论文,概率论文,样本论文,模型论文,Logistic论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
让商业银行利用积累的历史数据和通过合理的方法建立内部评级体系,是实施巴塞尔新资本协议(BaselⅡ)的核心内容之一,也是实施BaselⅢ的基础。信用风险二维内部评级包括客户评级和债项评级,其中客户评级处于优先和基础地位,而建立客户违约概率(Probability of Default,PD)模型则是建立客户评级体系的核心技术之一。在建立统计模型预测客户PD时,其管理意义和根本目的是将可能违约的客户从银行客户群中识别出来。建模使用的历史数据包含违约客户与非违约客户,即通常所说的“坏”客户与“好”客户。一个好的统计模型要有足够的样本,即要有足够多的坏客户数据与好客户数据,在此基础上建立的模型才有可靠的预测能力。Logistic回归模型是PD统计模型常用方法之一,该方法在建模时因变量通常取值1和0,对应的样本分别为“坏”客户和“好”客户。样本配比问题关注的就是这两类样本数量的比例对模型参数估计和预测结果的影响。
样本配比之所以成为金融业界和学术界关注的问题,主要有两个原因。一是正常企业与违约企业数量的天然不对称性。对商业银行来说,违约事件发生的概率较低,坏客户相对于好客户来说更加稀缺,而好客户在总体样本中的过高占比会削弱模型对坏客户的拟合能力。二是商业银行的风险计量与管理目标的需要。银行内部评级模型的主要目的是前瞻性地识别坏客户,通过对客户按风险进行排序来有针对性地管理风险。同时,巴塞尔协议要求商业银行对高风险客户计提较高的资本,也促使商业银行把有限的资本配置到低风险、高收益的业务,借助准确的风险计量手段实现“风险—收益”的最优配置。因此,商业银行在风险计量中会更多地关注高风险的坏客户特征。对此,商业银行在实践中通常会采用某些技术手段提高坏客户样本的比例,以改善模型的预测能力和排序能力。在世界各国的商业银行实践中,只有少数银行使用样本的原始配比直接建模,而大多数银行选用的配比在1∶1—1∶5之间。目前,国内多数商业银行也正在致力于开发、优化其内部评级体系和风险计量模型。样本配比成为PD统计模型不可忽略的一个技术节点。如何设定配比以及以何种方式实现配比,会影响模型的表现,因此样本配比的研究在当前具有较高的理论价值和实践意义。
二、相关文献综述
1∶1是坏客户样本和好客户样本配比的最高上限,学术界也称之为成对样本(Matched Sample),该做法最早可追溯到Beaver(1966)和Altman(1968)使用Z-score模型预测企业财务危机的研究。自Ohlson(1980)之后,Logistic回归模型被广泛地应用于企业财务危机预警研究和商业银行对企业的内部信用评级模型。近年来仍不乏采用1∶1配比的实证文献,如Lee等(2005)对比Logistic回归模型和神经网络方法等预测能力的研究,以及Youn和Gu(2007、2010)预测公司破产的研究。但是,其他配比比例也在研究中被逐渐采用,如Theodossious(1993)和Altman等(1995)分别采用了接近1∶3和接近1∶2的样本配比。目前国内的实证研究大多采用1∶1的样本配比进行Logistic回归分析,比较有代表性的包括姜天和韩立岩(2004)、陈静(1999)、吴世农和卢贤义(2001)、管七海和冯宗宪(2004)等。
尽管样本配比问题几乎涉及所有Logistic模型的研究和实践,但样本配比的设定对模型结果的影响却很少被关注。Zmijewski(1984)曾对这类研究中的样本配比设计进行了统计,发现当时知名的17篇研究中有12篇采用了1∶1配比。石晓军等(2005)专门就样本配比问题进行实证分析,经过对模型误判率的实证比较,认为1∶3样本配比方式比较适用于甄别国内上市公司中的不健康公司。郭淑彬(2009)对多种配比模型的结果进行了实证比较,认为模型的效率在好客户样本比例过高时会降低,在1∶3配比下模型总体误判率①最低;但1∶1配比下模型将坏客户误判为好客户的比率最低。从降低银行信贷损失的角度来看,1∶1配比是最优选择。因此,实际的样本配比设计在考虑模型自身特征的同时,还应结合建模目的和模型使用者的偏好。
以改善银行内部评级体系中的PD模型为目的的实践与以上使用上市公司财务数据的实证研究有所不同。一是对“违约”的理解。石晓军等(2005)和郭淑彬(2009)等研究均将ST公司作为违约,ST股的认定主要参考净利润与每股净资产指标;而BaselⅡ要求银行在建模前应具备明确的、全行统一的违约定义,该违约是由于企业财务状况和还款意愿等原因导致贷款逾期的实际表现,与ST股认定标准差异很大。二是样本总体的差异。学术研究倾向于选取上市公司作为样本,这是基于数据可得性考虑,但上市公司通常都是财务表现较好、稳健经营的公司;银行建模则使用内部数据,样本差异大,财务报表质量良莠不齐,财务指标分布更加离散。三是是抽样目的不同。学术研究面对整个经济环境,全样本是不可得的,只能对“坏”公司和“好”公司分别抽样,违约率与抽样配比直接相关;银行的内部数据全部可得,有既定的坏、好客户比例,配比目的是提高模型表现。综合而言,目前的实证研究对银行建立PD模型仅具备理论指导作用,而实践借鉴意义相对较小。
由于人为设定的样本配比违背了统计学随机抽样的假设,模型的计算结果会受到影响,从而会损失一定的效率。在银行设计样本配比时,至少需要考虑三方面问题:一是计量模型的统计特征,二是模型的误判率表现,三是市场状况与商业银行的风险偏好。样本配比的设定也应遵循一定的条件,以尽可能地降低或弥补效率损失。目前,大多数研究都是通过抽样方法设定配比,关注加权方法的相关研究较少;同时,受制于数据的可得性,大多数研究通常使用上市公司的财务数据进行公司破产分析,缺乏对商业银行公司客户信用行为的实证分析。
本文以BaselⅡ为出发点,试图分析并建立适合商业银行内部评级体系的建模方法。在分析样本配比对模型偏误影响的基础上,对比抽样法和加权估计法两种配比方法的表现,然后选取国内某商业银行的内部数据进行了实证检验。
三、样本配比对Logistic违约概率模型偏误的影响分析
样本配比问题的产生源于收集数据和计算成本等方面的客观困难。早期的研究者不能获取全部样本;而即使在市场信息充裕、数据处理能力发达的今天,研究者们为了避免繁琐的样本搜集工作,则倾向于缩小样本规模或者简化样本配比。但是,商业银行关注样本配比问题的初衷有所不同。由于商业银行保有其全部客户的财务数据和还款表现,客户评级PD模型的样本配比设计主要是寻求最佳比例,以提高模型的预测能力和识别潜在违约客户的能力。
在建模时,的输入值为1或0。其中,1代表违约,即坏客户;0代表未违约,即好客户。这种对两种样本给予特定配比的抽样方法,在统计学中称为基于选择抽样(Choice-Based Sampling)。其中的“选择”指的是所研究样本的已发生结果,如客户违约或未违约。该抽样方法根据结果对样本分类,在每一类样本中按指定比例抽样。Logistic模型是离散选择模型的一种,其模型特征决定了样本是基于1和0两种已发生的结果进行分类。在一个PD模型中,有N个坏客户样本与M个好客户样本,则原始样本配比为1∶M/N,通常M远大于N。如果建模时人为指定的配比为1∶x,则x的取值在1-M/N之间。
在总体样本容量较大的情况下,指定样本配比是因为总体样本的原始比例与建模时对配比的期望存在较大差距。当商业银行的实际违约率为r时,假设没有任何数据损失,其样本原始比例应为1∶(1-r)/r,通常r不会超过5%,则该比例不会高于1∶19。商业银行在PD建模时常用的配比在1∶1~1∶5之间,这实际上扩大了违约客户的比例。即商业银行提高了样本内的违约率,形成了对坏客户的“过度抽样(Oversampling)”。样本配比与原始比例存在着差异而使模型结果产生偏误,主要是因为人为干预了样本的选择。至于选定的配比是1∶1、1∶3还是1∶5,只影响偏误的大小。
商业银行建立PD模型要解决两个层面的问题:一是对全部客户建立相对排序,从中区分好客户和坏客户;二是对每个客户给出绝对的PD值,用于确定单个客户的信用评级。这其中的一个前提是,商业银行要使用全部可得的坏样本,抽样和配比只是在好样本中进行选择,这破坏了在总体中随机抽样的假设。因此,样本配比的比例选择应尽可能提高参数估计的良好性质,在模型具备了区分能力后,再对模型计算结果进行校准,修正由样本配比导致的总体违约率偏误,得到最终可用于评级的PD。
Logistic回归模型的参数估计使用极大似然估计法,其似然函数为:
关于选择抽样会导致的一致性与渐进有效性的丧失,目前已有大量的理论证据。在一致性方面,Prentice和Pyke(1979)的研究证明,基于选择抽样时,Logistic回归参数极大似然估计的常数项不满足无偏性,需要修正。McCullagh(1987)将β的常数项偏误推导为:
此外,样本配比的变化还会影响统计学中犯两类错误的概率。第Ⅰ类错误称为“拒真”,即检验统计量刚好落入小概率的拒绝域,将原本违约的客户误判为正常客户;第Ⅱ类错误是“存伪”,即接受错误的原假设,将原本正常的客户误判为违约。这两类错误都是检验结论失真的表现。一般来说,犯两类错误的概率不可能同时减小,这意味着模型的开发与使用者面临着二者之间的权衡取舍。商业银行建立PD模型是用于前瞻性地识别违约客户,相应的第Ⅰ类错误意味着识别失败而导致投资损失,第Ⅱ类错误则意味着识别过度而错失投资机会,因此PD模型应以降低第Ⅰ类错误为主要目标。
目前研究者们在配比与错误概率方面的观点比较一致,均认为样本配比为1∶1时第Ⅰ类错误概率最低;好样本数量增加会增加第Ⅰ类错误概率并降低第Ⅱ类错误的概率,两类错误的概率之和在1∶3左右达到最低。正因如此,石晓军等(2005)认为,1∶3的配比比率在总体风险预测的准确率上要优于其他的配比比率;而郭淑彬(2009)建议,如果优先考虑降低第Ⅰ类错误,则应采用1∶1的配比。
四、商业银行Logistic违约概率模型样本配比的实现方法
样本配比可通过两种方法实现,即抽样法和加权法。其中,抽样法是统计学中使用最为广泛的传统方法。抽样法操作简便,在样本总体容量比较大的情况下经常使用。商业银行通常在建立PD模型时,违约客户样本比较稀缺,而好客户样本充足,因此按照既定配比对好客户抽样能够缩减数据总量、提高计算速度。但是,在数据可得的情况下,商业银行采用抽样方法实现样本配比容易损失部分好客户的信息。就商业银行的实践而言,尽管好客户样本比较充裕,但客户特征各不相同,抽样方法会忽略相当一部分好客户的特征。模型表现会受到抽样方案的影响,而完美的抽样方案又需要较高的设计成本和数据收集成本。
在保持数据完整的前提下,实现样本配比的另一种方法是加权极大似然估计法(WESML)。Logistic回归的加权极大似然估计最早是由Manski和Lerman(1977)提出来的,他们证明了该方法下参数估计的存在性和一致性。该方法是在极大似然函数中对两类样本赋予不同权重,从而改善参数估计结果的效率。WESML的对数似然函数式为:
WESML方法具有三方面的优势。一是能够有效地保留全部好客户的特征,有利于提升精确度。二是可容纳更多数据。尽管这会增加建模时的数据处理和计算成本,但节省了抽样方案的设计成本,并可省略样本代表性检查的环节。三是在模型前提假设得不到满足时,如小样本或存在偏误时,参数估计能更好地保持有效性③。
图1以1∶1的配比为例,给出了实际比例、抽样法和加权法的样本示意图。图(1)表明,使用实际比例建模时,如果违约客户样本数量很少,模型将主要拟合正常客户特征,违约客户可能被作为少量奇异值处理。图(2)的抽样分析法使得样本数量锐减。而如果抽取的样本数量过少,模型拟合结果就会存在随机性,多次抽样的计算结果可能大不相同。图(3)的WESML法至少保证了正常客户的分布与总体不会相差太大。
抽样次数的增加能够降低抽样随机性问题,当抽样次数足够多时,抽样模拟的结果将收敛于WESML的结果。假设实际的坏样本数为a,好样本数为b,按1∶x的比例对坏样本与好样本进行配比,则每次抽样的结果如表1所示。
根据表1,当n足够大时,n次抽样中坏样本被抽到的次数为n,好样本被抽到的次数为nax/b,坏样本被抽到次数:好样本被抽到次数=n∶nax/b=b∶ax。因此,当抽样次数足够大时,任意配比情况下的抽样法和加权方法等价。对比抽样与加权方法,我们发现如下事实:
其一,在商业银行坏样本和好样本可得的情况下,抽样方法很容易损失掉部分好客户的信息,而加权方法则可以有效地保留好客户的信息。
其二,由于每次抽样的随机性会带来估计偏误,而加权方法使用了全部样本,其偏误仅受样本配比影响。抽样方法的偏误一方面是源于样本配比,另一方面是由于抽样结果可能与总体样本有偏。
其三,在抽样次数足够大的情况下,抽样方法可等价于加权方法。
基于上述分析,商业银行在建立PD模型时应充分利用可得样本,以加权方法在1∶1的配比下建立Logistic回归模型,以增强模型的区分能力。在此基础上,根据总体违约率计算校准偏移量,进一步消除样本配比的影响,便可得到适用于客户评级的PD。
五、不同配比下抽样法与加权法表现的实证分析
本文的实证基于国内某商业银行客户群中的建筑业公司客户数据,样本期为2004~2011年。为不涉及商业秘密,本文只能够选取部分样本。同时,为了避免由于抽样而丧失一般性,本文采用时间段划分方法,即选取2008年以前的全部样本。样本总数为4030个(约占该行业样本总数的一半),其中违约客户样本90个,正常客户样本3960个,样本中违约客户和正常客户的实际比例为1∶44,样本内违约率为2.27%。实证中选取全部90个违约样本,分别按照1∶1、1∶2、1∶3、1∶5、1∶10和实际比例选取正常客户样本。自变量选取了销售收入、流动性、财务结构、区域经济水平、企业规模、信用历史、企业性质、杠杆比率、盈利能力和增长率等10个代表性指标。使用抽样和加权两种方法对模型的参数进行估计,参数结果如表2所示。
由表2可知,在各种样本配比情况下,加权法Logistic回归系数估计的显著性远好于抽样法下的情况。这主要是由于坏样本数量的增加可以有效地降低估计的方差和标准差,增强系数的显著性。沿用Zmijewski(1984)的研究思路,如果选取不同样本配比的模型参数与样本违约率存在明显的相关性,则表明样本配比导致了模型的偏误。表2中最后一列为Pearson相关系数,大多是显著不为0。这表明,偏离实际比例的配比方法确实使得估计存在一定的偏误,且加权配比时坏样本所占比例与模型结果的相关度更高。其原因在于,抽样法的偏误一方面源于样本配比,另一方面也可能是抽样结果与总体样本有偏,而两种影响的方向并不一致;但加权法使用的是全部样本,其偏误仅受样本配比影响。尽管加权法偏误相对较高,但对各变量来说趋势比较一致且稳定,呈现更强的规律性。在两种方法下,随着正常客户样本比例增加,校准偏移值逐渐减小,而使用真实比例建模时不需要校准。这表明,样本配比导致的偏误主要表现在样本内违约率与总体违约率的偏离。因此,只要模型具备较好的区分能力,偏误可以通过对常数项的校准来修正。
在完成模型的系数估计后,还要检验模型的区分能力和误判率。对模型表现进行各种检验,结果如表3所示。校准是使用系数估计值对全部样本进行预测,再将预测值的平均值通过常数项的平移调整至真实违约率的过程,平移幅度即为校准偏移值。表3的结果表明,校准偏移值基本等于样本配比与真实配比的差异,真实配比的校准偏移值为0,这印证了样本配比主要影响常数项的结论。违约误判率和正常误判率分别代表两类错误的概率,由于违约样本总数较少,相应的违约误判率绝对值相比正常误判率要高。在表3中,加权法犯第Ⅰ类错误的概率普遍低于抽样法,且除1∶2与1∶3概率较高外,对其他配比差异不大;抽样法将违约客户错判为正常客户的可能性更大,且与已有的其他实证研究结论差别较大,1∶1反而出现了很高的第Ⅰ类错误概率,与随后先递增后递减的趋势明显不同。根据前文对配比实现方法的讨论,后者的原因可能是由于一次抽样的随机性。
图2与图3描述了抽样法和加权法的误判率随样本配比变化的趋势。图2表明,在建模样本数量较少时,抽样法的误判率存在大幅度的波动;而在到达1∶3以后,其误判率随着正常客户数量的增加而逐渐稳定。图3则表明,加权方法的误判率始终表现稳定,不同的样本配比对其误判率的影响较小。
图2:基于抽样法的误判率
图3:基于加权法的误判率
郭淑彬(2009)在阐述误判率时使用了误判成本的概念,从风险的角度对比每一类错误可能导致的损失。由表2可知,抽样法下的总错判成本在1∶3后呈现除了稳定升高的趋势;加权法下的总错判成本则呈现出了先升后降的趋势,但变动幅度不大。对商业银行来说,第Ⅰ类成本与第Ⅱ类成本分别对应贷款违约的成本与错失机会的利率收益。如果使第Ⅰ类错误成本与第Ⅱ类错误成本相等,则可计算出抵补违约损失需要的利率补偿。加权法下的利率补偿基本维持在8%左右;而抽样法下的利率补偿由于一次抽样的随机性发生了较大波动,甚至高达18.24%。该利率是目前国内商业银行无法企及的高利息,因此商业银行建模时应尽量避免第Ⅰ类错误的发生。
AR值衡量的是模型的区分能力。由于采用抽样法建模时只使用了部分样本,因此样本内AR值比全样本AR值高出了约0.1。这表明,抽样配比会导致模型对部分样本的过度拟合。加权法使用了全部样本,避免了过度拟合,且不同配比的AR值普遍高于抽样法下的全样本AR值。因此,加权法表现出了更好的区分能力。
综合而言,加权法受样本配比比例的影响相对较小,系数估计值及各检验指标在不同配比之间的变动不大,因此商业银行应采用加权法进行样本配比。
六、结论
本文使用某商业银行的建筑业客户数据,建立了Logistic回归的客户信用评级PD模型,并对比分析了模型中样本配比的抽样法与加权法的表现,得出以下结论。其一,对于BaselⅡ框架和BaselⅢ框架核心内容之一的内部评级法PD模型,适当提高坏样本比例有助于更好地拟合违约客户特征,并且模型区分能力、误判率和误判成本受样本配比的影响不大。其二,指定配比会导致模型偏误,但该偏误借助校准环节是可控且可纠正的。由于偏误主要存在于常数项中,因此商业银行可通过校准修正常数项纠正偏误。其中,校准偏移幅度由实际配比和指定配比间的差异决定。其三,抽样配比法与加权配比法在理论上具有等价性。但是,抽样法在不完美抽样时,好样本越多模型拟合能力越好;而加权法受样本配比的影响更小,同时还能适度增强模型的区分能力。
在商业银行内部评级模型的实践中,指定适当的样本配比有助于增强模型表现,但应通过校准对结果进行纠偏。加权配比法受数据和资源的制约较少,对样本配比的变动不敏感,表现相对稳定;抽样配比法在使用时应尽可能多地使用好客户样本,以确保抽样的代表性。
注释:
①即错误识别好和坏客户的概率。
②一致性指估计值与真实值相比不存在偏误,有效性指估计值的方差最小。相应的性质在小样本情形下被称为无偏性和有效性,在大样本情况下被称为依概率收敛的渐进性质。
③详见Yu和Manski(1989)。尽管Scott和Wild(1988)提出,WESML法在大样本下的一致性收敛速度有一定损失,但并不显著。
标签:违约概率论文; 样本容量论文; 债项评级论文; 预测模型论文; 概率抽样论文; 抽样分布论文; 概率计算论文; 成本预测论文; 能力模型论文; 银行论文; 数据建模论文; 商业银行论文;