信用评分分卡简介introduction of credit score card

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

背景

随着金融科技初创企业的兴起过去 5 年中出现了许多新的消费信贷机构与传统银行展开竞争。他们通常瞄准银行认为规模太小或因金融危机期间发生的后期损失而不得不削减贷款的细分市场。通俗的讲就是消费金融公司瞄准了银行的次贷市场。

这些新的消费金融公司的主要竞争优势之一是技术包括IT技术和机器学习建模技术AI人脸识别和语音识别技术。

大型银行相对传统保守技术变革动力小。银行主要客户是信用较好客户大力推动的是信用卡来鼓励用户超前消费。

例如英国商业贷款机构 iwoca使用来自关联公司账户、增值税申报表甚至 ebay 或亚马逊上的销售交易的信息来确定新贷款。英国消费贷款公司 lendable以在几分钟内完成个人信用贷款而不是传统银行需要几天或几周漫长审批的时间。

英国商业贷款机构 iwoca和 lendable国内消费金融公司例如招联兴业消金借呗微粒贷拍拍贷都会使用类似下面的风控系统实现对大部分客户自动化审批贷款。

凭借快速和自动决策引擎他们使用自动和快速的信用风险模型来评估风险。

什么是信用评分卡

我们大多数人都熟悉信用评分的概念这是一个代表个人信用度的数值。像银行这样的所有信贷机构都有复杂的信用模型。这些模型会读取用户的各种信息如工资、信用历史记录年龄性别和多头借贷等因素然后训练模型最后通过复杂数学计算输出客户的信用评分。信用评分卡模型可以输出用户信用分或违约概率。

信用评分卡就是其中一种信用模型它是最常见的信用模型之一。信用评分卡是基于逻辑回归算法。它对大家来说相对容易理解而且它已经存在了几十年因此开发过程是标准的广为人知。

信用评分卡也有几个子类模型常见的有ABC卡。

但需要注意的是不同机构的分数范围可能不同较低分数的拒绝申请的截止点因贷款人而异甚至可能在同一贷款人但不同产品中有所不同.

建立信用记分卡

目标变量通常采用二进制形式根据数据的不同可以为 0 表示好客户放贷客户可以为 1 表示违约客户或逾期 90 天付款的客户拒绝放贷客户。

第 1 步数据探索和清理

所有模型拟合中的必要步骤但由于它不是特定于构建信用评分卡模型因此我们将跳过此部分。不要忘记将数据集也分成训练和测试数据集即train和test数据集。

第 2 步数据转换——证据权重法

然后我们需要使用证据权重 (WoE) 方法转换所有自变量如年龄、收入等。该方法根据每个组级别的好申请人与差申请人的比例衡量分组区分好坏风险的“强度”并试图找到自变量与目标变量之间的单调关系。

连续变量的转换步骤

将数据分成 bin通常大约 10 个最多 20 个bin箱数并非越多越好也并非越少越好根据数据集特征决定分箱数量
计算好事件的百分比和坏事件的百分比
取自然对数计算WOE
用计算出的 WOE 值替换原始数据

如果自变量是分类变量则跳过上面的 1然后执行其余步骤。

Python 中的示例

在将您的数据放入箱子中并对每个箱子的好坏计数进行分组后您的数据可能看起来类似于下面的方框。WoE 可以使用下面的代码为每个 bin 组计算。负值表示特定分组中不良申请人的比例高于良好申请人。

import pandas as pd
import numpy as np


# dummy data as example
age = ['18 to 25','26 to 35','36 to 45','46 to 60','>= 60']
df = pd.DataFrame(age, columns=['Age Group'])
df['counts'] = [31234, 30293, 29384, 30192, 27394]
df['bad'] = [4920, 4123, 3784, 2608, 1479]
df['good'] = df.counts - df.bad

# calculate WOE
df['total_distri'] = df.counts/sum(df.counts)
df['bad_distri'] = df.bad/sum(df.bad)
df['good_distri'] = df.good/sum(df.good)
df['WOE'] = np.log(df.good_distri / df.bad_distri)
df['WOE%'] = df.WOE * 100