数据挖掘在个人高端金融产品营销中的应用论文_高硕

中国农业银行股份有限公司天津市分行

一、引言

随着互联网金融的蓬勃兴起和利率市场化的一步步推进,商业银行的经营模式发生了巨大变化。数据挖掘正是客户营销过程中所需的关键技术,商业银行可以从海量的客户数据中挖掘出有价值的信息和规律,预测出客户的需求和偏好,建立合适的模型为客户营销提供有力支撑,从而为客户提供有针对性的产品和服务,打造不可复制的核心竞争力。

在商业银行的生产经营过程中,应该如何使用数据挖掘,数据挖掘又能做到什么,这正是本文探索的主题。

二、数据挖掘方法简介

数据挖掘是从海量数据中,提取隐含在其中的但又是潜在有用的信息的过程。与传统的数据分析不同,数据挖掘是在没有确定假设的前提下去挖掘信息、发现规律。数据挖掘主要分为五类模型:分类、聚类、关联、预测和序列发现。

从商业银行现有实际情况出发,本文主要针对聚类和预测这两类模型进行研究,分别建立个人客户细分模型(聚类)和响应预测模型(预测)。

个人客户细分模型在商业银行中的应用对银行的发展起着重要作用。对个人客户分群以进行区别化营销更有助于提高营销的成功率,降低营销的盲目性,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而能为银行带来更多的利润。

响应预测模型是数据挖掘中最常用的一种模型类型,几乎成了数据挖掘技术应用的一个主要代名词。响应模型的核心就是响应概率,数据化运营要素的核心是以数据分析挖掘支撑的目标响应概率(Probability),在此基础上围绕产品功能优化、目标用户细分、活动(文案)创意、渠道优化、成本的调整等重要环节、要素,共同达成数据化运营的持续完善、成功。

三、个人客户细分模型建立

(一)模型详述

1.设计与数据准备

(1)设计变量

根据业务目的及模型设计,本模型变量的指标集见表1

(2)分析指标

客户基本信息中证件号、证件类型可以用来加工客户年龄,所以在计算得到客户年龄后舍去证件号和证件类型。从客户消费数据入手着重分析变量,见表2:

(3)处理数据

年龄:因年龄是根据证件号计算得到,由于客户证件号会有部分缺失,所以年龄字段会有部分缺失数据。

a、分析年龄数据质量:

1、标准差偏大,数据严重偏离平均值,数据离散情况严重。

2、数据极值不符合年龄的范围,数据有部分异常值。

3、数据缺失情况:缺失比例为12.85%。

4、年龄分布不符合正态分布。

b、对年龄异常值(<=16 or >=100)置空

1、数据标准差较小,数据离散情况减小。

2、数据极值在正常范围内。

3、数据缺失比例为13.27%。

4、年龄基本符合正态分布。

c、对缺失值进行填补

1、因年龄符合正态分布,且以较大概率分布在22到58岁之间,所以用22-58之间的随机数对缺失值进行填补。

2、数据均值、标准差与填充数据前未有大变化,证明数据填充合理。

3、填补后,数据基本符合正态分布。

2.建立模型

(1)数据抽样

因总体数量较大,分析研究耗时,需进行数据抽样。抽样方法为随机抽样。抽样得到观测数为10000。

(2)数据探索

通过抽样的观测数据,得到统计结果见图1:

图1

(3)建立聚类模型

在数据探索的基础上,建立聚类模型,最后得到如下客户分类:

青年中活跃低消费族 1.年龄在17-40区间,多数年龄在19-34间的年轻客群

2.最后交易日期距今日期在0-5.4天

3.平均每月交易次数在2-8次

4.平均消费区间在2500-20000 平均值在6840

5.资产月平均余额在800-16000 中老年稳健型 1.年龄在39-96区间, 多数年龄在45-61间

2.最后交易日期距今日期在3-14天

3.平均每月交易次数在2.5-7次 相当不活跃 1.最后交易日期距今日期在13-27天

2.平均每月交易次数在2.5-8次

3.年龄数据比较离散 大额频繁交易族 1.平均每月交易次数在6.5-38区间平均16.68次

2.平均消费区间在50000-300000 平均值在113285.67

3.最后交易日期距今日期在0-3天

根据抽样数据,各类型客户的占比情况如下:

青年中活跃低消费型占比43%,中老年稳健型占比26%,相当不活跃型占比22%,大额频繁交易型占比9%。

通过以上分类,我们可以精确定义每一个客户所属的类型,为客户营销做好准备。

四、客户产品响应预测模型建立

(一)模型详述

1.贷记卡A

经分析,结果中保留的变量为:m_avg_amt、m_avg_cnt、chl_amt、chl_cnt、days_to_now、card_age、age

图2

图2为常数项以及各变量的系数的估计值,可得模型:

为书写方便假设:分别用来代替,intercept为常数项,P为h1=1的概率即卡种为h1的概率

其中“一致部分所占百分比”为47.7%,即对数据重新进行预测与观测的实际情况相比所占的比例为47.7%。

2.贷记卡B

同理,计算预测的和实际观测中一致对的比例为12.8%,不一致对的比例为2.7%。

3.贷记卡C

同理,计算预测的和实际观测中一致对的比例为0,不一致对的比例为0。

4.贷记卡D

上述为常数项以及各变量系数的估计值:为方便书写,对上述数据做替换处理。Intercept:常数项b0;各变量的系数用b1,b2,b3,b4,b5,b6代替M_avg_cnt.......age分别用x1,x2,x3,x4,x5,x6代替。Logic模型函数如下:

计算预测的和实际观测中一致对的比例为54.2%,不一致对的比例为19.6%。

5.贷记卡E

计算预测的和实际观测中一致对的比例为11.9%,不一致对的比例为3.8%。

五、数据挖掘在客户营销中的应用

(一)产品推介

通过个人客户细分模型所得出的客户类型,锁定产品营销所要面对的目标客户;随后确定最优的销售组合,并向相应的客户展开产品营销。

1.案例:理财产品推介

客户A,在一个月时间内,共进行交易68笔,其中柜台交易55笔。该客户办理业务集中在两家网点,主要业务都是存取款,累计进账出账金额基本相等。由于该客户每天都有出入账,一般的封闭式理财产品很明显不适合该客户,可以向该客户推荐安心快线天天利滚利,开放时间内赎回资金实时到账,不影响客户资金使用。

(二)客户维持

在商业银行所拥有的数据中,客户的相关信息信息,尤其是以前交易信息中,可能正包含着这个客户决定他下一个的购买行为的关键,甚至决定因素。通过个人客户细分模型所得出的客户类型,为不同客户群体提供个性化定制服务,以提高客户忠诚度,最大程度地保持住老客户。

1.案例:通过客户交易数据挖掘优质客户

通过客户所在分类,结合客户交易数据,获得客户在一段时间内的资金流向,有助于客户经理挖掘优质客户,做好客户的营销活动。

例如客户B,在3周时间内,资金净流入20万元,而其显示的客户等级仅为普通客户。在实际营销中,一方面可以向其提供更高级别的借记卡,发展成为贵宾客户,增强客户满意度;另一方面,也可以积极向该客户推介各种产品,如贷记卡、理财、基金、黄金等,更好的为客户服务,为商业银行带来更多的效益。

(三)风险规避

通过客户细分模型和响应预测模型,结合客户数据,计算出不同属性值的客户群所具有的消费能力、还款概率,从而得到所有客户的质量,帮助商业银行有效避免坏帐,防范信用风险。通过查看客户质量,可以提前规避可能的坏账风险。而对于已经发生的坏帐,则能够通过客户数据,计算该笔坏帐的催收成本、回收概率,帮助客户经理采取正确有效的措施。

1.案例:客户授信风险规避

例如客户C,通过查看其数据信息,在相当长时间内,交易记录都比较规律,贷记卡的消费记录和还款记录都很正常。而在最近几个月,贷记卡消费金额没有显著增加的情况下,办理了现金分期业务;与此同时,该客户申请贷款。通过数据模型设定的条件,可以发现为该客户授信存在一定的风险隐患,需要客户经理及时了解客户情况,查明原因,根据情况采用相应对策,有效规避风险。

论文作者:高硕

论文发表刊物:《基层建设》2016年21期

论文发表时间:2016/12/6

标签:;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘在个人高端金融产品营销中的应用论文_高硕
下载Doc文档

猜你喜欢